Проблема самоуверенности ИИ: Почему нейросети слишком уверены в своих ошибках

Интересное сегодня

Как расположение теней влияет на точность оценки расстояния ...

Введение В естественной среде существует множество визуальных подсказок для оценки расстояния, и точ...

Влияние митохондриальной ДНК на здоровье человека: анализ и ...

Введение Митохондриальная ДНК (мтДНК) привлекает значительное внимание благодаря своим уникальным ха...

Как пространственное внимание влияет на временное восприятие...

Введение Визуальное внимание настраивает сенсорную обработку для оптимизации принятия решений и пове...

ПТСР и стратегии преодоления стресса у медработников после з...

Введение Землетрясения — это стихийные бедствия, которые происходят неожиданно, негативно влияют на ...

Виктория Пендлтон: Как горе и страх помогают обрести внутрен...

Путь олимпийской чемпионки через тернии страха Виктория Пендлтон большую часть своей жизни провела, ...

Сравнительный анализ исследовательских компетенций студентов...

Введение Способность проводить исследования и использовать их результаты является фундаментальной ко...

Феномен самоуверенности в системах искусственного интеллекта

С ростом популярности искусственного интеллекта (ИИ), особенно больших языковых моделей (LLM — Large Language Models), в обществе активно обсуждается проблема предвзятости. Поскольку ИИ создается людьми, наши когнитивные недостатки неизбежно переносятся на технологии. Когда данные для обучения содержат ошибки в выборе, измерениях или маркировке, алгоритмы и результаты их работы также становятся предвзятыми. Чаще всего упоминаются демографические искажения (например, гендерные стереотипы) и культурные предпочтения (западная центричность). Особое внимание уделяется антропоморфному искажению: люди взаимодействуют с чат-ботами, такими как ChatGPT, как с живыми существами, а ИИ, в свою очередь, учится соответствовать этим ожиданиям.

Метакогнитивные искажения: почему ИИ ошибается с уверенностью

Существуют и другие искажения человеческого мышления, которым в контексте ИИ уделяется недостаточно внимания. Одно из самых распространенных — самоуверенность: чрезмерная вера в собственные способности, выражающаяся в разрыве между воспринимаемой и реальной эффективностью. Хотя мы редко думаем о машинах в терминах метакогнитивных искажений (способности оценивать собственное мышление), это крайне важно, так как ИИ имитирует человеческое мышление.

Этапы возникновения самоуверенности

Проблема самоуверенности влияет на продукты ИИ на двух ключевых этапах:

Этап разработки: Разработчики могут переоценивать качество данных, интерпретацию или сам процесс построения модели, избегая неопределенности в угоду однозначным, но не всегда точным ответам.
Этап взаимодействия с пользователем: Пользователи склонны воспринимать уверенный тон ИИ как признак авторитетности, что создает петлю обратной связи, поощряющую нейросети давать категоричные ответы.

«Архитектура ИИ сама по себе способствует чрезмерным обобщениям. Часто они преподносятся в языке, сигнализирующем о полной уверенности, даже если модель делает фактическую ошибку».

Проблема «галлюцинаций» и точности моделей

Склонность ИИ «видеть» закономерности там, где их нет, и завершать логические цепочки на основе вероятностей приводит к тому, что исследователи называют «галлюцинациями ИИ». Чрезмерно самоуверенные модели выдают неверные ответы (неправильные математические вычисления, ложные исторические факты) с полной уверенностью, что вводит пользователей в заблуждение.

Исследования показывают серьезный разрыв между уверенностью моделей и их реальной точностью. В одном из экспериментов пять языковых моделей попросили ответить на 10 000 вопросов, где были известны верные ответы. Выяснилось, что модели переоценивали свою правоту на величину от 20% (для GPT o1) до 60% (для GPT 3.5).

Методы борьбы с самоуверенностью ИИ

Исследователи пытаются калибровать ИИ, снижая уровень самоуверенности. Одним из методов является использование форматов вопросов с множественным выбором, где верный ответ соседствует с правдоподобными дистракторами (отвлекающими вариантами), что заставляет модель «рассматривать альтернативные варианты», прежде чем сделать вывод.

Роль обратной связи от человека (RLHF)

Существует методика RLHF (Reinforcement Learning from Human Feedback) — обучение с подкреплением на основе отзывов людей. Здесь кроется ловушка: как люди, мы подсознательно предпочитаем определенность двусмысленности. Мы склонны «лайкать» или считать более авторитетными те ответы, которые даны уверенным тоном. В результате модели, которые ведут себя самоуверенно, получают больше положительных оценок от людей, что закрепляет это поведение.

Как пользователю защитить себя от ошибок ИИ

Чтобы получать максимально надежную информацию, пользователям необходимо соблюдать меры предосторожности:

Перекрестная проверка: Сравнивайте ответы, полученные от разных моделей ИИ, а также сверяйте их с независимыми источниками информации.
Запрос на обоснование: Просите ИИ объяснить процесс получения ответа и выразить степень уверенности по каждому варианту.
Стресс-тестирование: Поручите ИИ принять «адверсарную» (критическую) позицию, чтобы подвергнуть его собственные ответы проверке.

В отсутствие надежных механизмов контроля и фильтрации предвзятости, существует риск того, что самоуверенность станет системным свойством будущих поколений ИИ, так как результаты работы текущих моделей используются для обучения новых.

Короткие версии статей можно найти в телеграм-канале.

...