Как искусственный интеллект оценивает свою уверенность: сравнение с людьми

Интересное сегодня

Как нейронаука предсказывает темперамент ребенка и его эмоци...

От чайных листьев до хрустальных шаров — возможность увидеть будущее человека всегда привлекала вним...

Как виртуальная реальность помогает понять стереотипы и пред...

Введение Представьте себе виртуальный мир, где каждое ваше движение отслеживается, ваши эмоции анали...

Проблемы и выводы переноса принципов исследований лабиринтов...

Введение Способность определять местоположения, ориентиры и цели является одним из основных когнитив...

Как дружба защищает от депрессии лучше, чем романтические от...

Романтические отношения и дружба: что важнее для психического здоровья? Романтические отношения част...

Как хобби улучшают жизнь: физические, креативные и интеллект...

Введение Хобби делают больше, чем просто заполняют ваше время. Они формируют вашу личность, питают т...

Симптомная сеть интернет-зависимости, депрессии и тревожност...

Введение Интернет-зависимость, депрессия и тревожность являются значимыми проблемами среди детей и п...

Рисунок 1

Рисунок 2

Рисунок 3

Рисунок 4

Рисунок 5

Рисунок 6

Рисунок 7

Рисунок 8

Рисунок 9

Рисунок 10

Рисунок 11

Оригинал исследования на сайте автора

Введение

В повседневном общении люди часто просят других оценить свою уверенность в точности утверждений. Эти суждения помогают слушателям решить, насколько следует корректировать свои представления с учетом мнения собеседника. Учитывая важность уверенности в поведении и коммуникации, психологи давно изучают, как люди оценивают свою уверенность и насколько эти оценки точны.

Large Language Model (LLM) чат-боты

Исследователи давно интересуются системами, способными понимать и генерировать человеческую речь — это направление называется обработкой естественного языка (NLP). Современные NLP-модели, такие как ChatGPT или Gemini, обучаются на огромных массивах текстовых данных и используют сложные алгоритмы машинного обучения, включая нейронные сети. Их называют Large Language Models (LLM), потому что они содержат миллиарды параметров, позволяющих имитировать человеческую речь.

Как работают LLM?

Генеративные ИИ-чаты предсказывают наиболее вероятный ответ на запрос пользователя, но не обладают сознанием или интроспекцией. Они просто вычисляют статистические закономерности в данных.

Метакогнитивные способности LLM

Метакогниция — это способность оценивать собственные когнитивные процессы. Люди используют три типа сигналов для таких оценок:

Внутренние сигналы (например, сложность задачи)
Внешние сигналы (например, контекст выполнения)
Мнемонические сигналы (например, легкость вспоминания)

LLM могут использовать только внутренние и частично внешние сигналы, так как у них нет субъективного опыта.

Точность уверенности у LLM и людей

Исследования показывают, что LLM, как и люди, склонны к переоценке своей точности. Однако некоторые модели (например, Claude) демонстрируют лучшую калибровку. В отличие от людей, LLM хуже учатся на собственном опыте и не всегда корректируют уверенность после выполнения задачи.

Абсолютная и относительная точность

Абсолютная точность (калибровка) показывает, насколько уверенность совпадает с реальной точностью. Относительная точность (разрешение) отражает способность различать более и менее надежные ответы. В некоторых задачах LLM превосходят людей, в других — уступают.

Выводы

LLM демонстрируют схожую с людьми точность оценки уверенности, но используют иные механизмы. Их суждения зависят от статистических закономерностей, а не интроспекции. Будущие исследования помогут лучше понять, как ИИ формирует уверенность и можно ли ему доверять в критически важных областях.

Короткие версии статей можно найти в телеграм-канале.