
Интересное сегодня
Тревожные сигналы: как распознать, что ваш взрослый ребенок ...
Тревожные сигналы: как распознать, что ваш взрослый ребенок испытывает трудностиНесмотря на наши луч...
Влияние хронического стресса во время учебы на депрессивные ...
Введение Исследования стресса и напряжения имеют долгую историю, начиная с XIX века. Несмотря на раз...
Улучшение когнитивных функций после реваскуляризации сонных ...
Значение атеросклероза сонных артерий Пациенты с атеросклерозом сонных артерий находятся под риском ...
Как саккады влияют на функциональную модульность в зрительно...
Влияние саккад на функциональную модульность в зрительной коре человека Зрительная кора, которая отв...
Влияние потребления яиц на качество сна и психическое здоров...
Введение Исследование было проведено для оценки связи между потреблением яиц и качеством сна, а такж...
Как стресс влияет на микробиом кишечника у здоровых взрослых...
Введение Микробиом кишечника человека состоит из бактерий, архей, вирусов и грибов, colonize практич...
Введение
Ложь является обычным явлением в социальных взаимодействиях, однако социальные обманы трудно исследовать, так как люди редко сообщают о своих намеренных обманных поведениях, особенно злонамеренных. Социальные игры с элементами дедукции, такие как Мафия, могут быть хорошей альтернативой для изучения социальных обманов. В этом исследовании использовались большие языковые модели (LLMs) для обнаружения обманщиков в игре Мафия на основе частичной информации. Исследование показало, что LLMs превосходят предыдущие методы на основе BERT в анализе человеческих данных и даже превосходят человеческую точность.
Фон и связанные работы
Социальные игры с элементами дедукции, такие как Мафия, были предметом исследований в различных академических областях. Ранние работы включали исследования предвзятого голосования в социальных сетях, культурные аспекты обмана и математические модели для таких игр. Более поздние исследования сосредоточились на разработке ИИ-моделей для участия в этих играх, однако им не хватало лингвистической информации, что делало их среду далекой от реальных социальных взаимодействий.
Методы
Игра Мафия
Игра Мафия — это популярная социальная игра с элементами дедукции, в которой две команды (мафия и мирные жители) пытаются обмануть друг друга. Цель мирных жителей — выявить всех мафиози, в то время как мафия стремится устранить мирных жителей. Игра проходит в два этапа: дневной и ночной. В дневное время все участники голосуют за одного человека на выбывание, а в ночное время мафия выбирает жертву.
Датасет
Для экспериментов использовался датасет из 460 участников, играющих в Мафию. Данные были собраны через Amazon Mechanical Turk и включали 23 игры для обучения и 15 для тестирования. Данные были анонимизированы, чтобы исключить влияние имен участников.
Базовые модели и метрики
В качестве базовых моделей использовались GPT-4, GPT-3.5-turbo (ChatGPT), BERT-Multilabel, BERT-Utterance и Random. Для GPT-4 и GPT-3.5-turbo использовался промпт-инжиниринг и zero-shot CoT. Были использованы две метрики: точность одиночного совпадения и точность точного совпадения.
Результаты
GPT-4 показала наивысшую точность как в одиночном, так и в точном совпадении. В одиночном совпадении GPT-4 показала точность 80.65%, что на 24% выше, чем у BERT-Utterance. В точном совпадении GPT-4 показала точность 19.35%, что значительно выше, чем у других моделей.
Сравнение с участниками сбора данных
GPT-4 показала более высокую точность в предсказании мафии по сравнению с человеческими участниками. Точность GPT-4 увеличивалась с увеличением количества данных, в то время как точность человеческих участников снижалась.
Причины решений LLM
LLMs могут генерировать анализы причин своих решений, что позволяет человеку понять логику их рассуждений. Однако не все причины были логически корректными, и LLMs иногда делали ошибочные интерпретации правил игры.
Абляционные исследования
Информация о голосовании
Исключение информации о голосовании или использование только информации о голосовании значительно снижало точность. Это показывает, что хотя голосование является ключевым фактором, неглосовательные разговоры также играют важную роль.
Изменение температур LLMs
Изменение температур не значительно влияло на точность GPT-4, что свидетельствует о стабильности модели.
Ограничения
Исследование столкнулось с проблемами нехватки данных и ограниченной интерпретируемости GPT-4. Также было использовано ограниченное количество моделей, что может ограничивать выводы.
Обсуждение
Исследование показало, что GPT-4 может эффективно обнаруживать обманщиков в социальных контекстах и предоставлять ограниченную интерпретируемость своих решений. В будущем планируется развивать систему для более сложных сценариев и использовать открытые модели LLMs.