Борьба с галлюцинациями в мультимодальных нейросетях: методы визуального внимания

Интересное сегодня

Как антиоксиданты в питании влияют на депрессию и смертность...

Введение Депрессия — это аффективное расстройство, характеризующееся устойчивыми симптомами, такими ...

Изменение личности: Почему оно не следует простому пути

Идея о том, что личность фиксирована и неизменна со временем, в значительной степени была отвергнута...

Почему подростки рискуют: как меняется мозг с возрастом

Трио ключевых областей мозга Подростков часто списывают на «гормоны» или «незрелость», но их мозг не...

Социализация эмоций: как культура и воспитание формируют эмо...

Введение в социализацию эмоций Способность понимать и регулировать свои эмоции является неотъемлемой...

Как чувство благоговения помогает быть добрее к себе

Как благоговение влияет на самосострадание Когда люди сталкиваются с неудачами или личными трудностя...

Влияние Совместного Воспитания на Просоциальное Поведение Де...

Просоциальное поведение включает действия, такие как забота, помощь и совместное использование, кото...

Схема работы алгоритма отслеживания визуального внимания

График сравнения производительности моделей LLaVA и других архитектур

Визуализация процесса регенерации данных при возникновении галлюцинации

Введение в проблему мультимодальных галлюцинаций

Мультимодальные большие языковые модели (MLLM — Multimodal Large Language Models) представляют собой вершину современного развития искусственного интеллекта. Они способны анализировать изображения и генерировать связный текст на их основе. Однако их практическое применение часто ограничивается так называемыми галлюцинациями — феноменом, при котором модель генерирует описания, не имеющие под собой визуальных оснований. Такие ошибки подрывают доверие к системам ИИ в критически важных областях.

Почему возникают галлюцинации?

Современные подходы к устранению этих ошибок часто требуют дорогостоящего переобучения (retraining) моделей или применения глобальных штрафных санкций, которые не учитывают специфический контекст конкретной ошибки. Наше исследование предлагает решение — фреймворк Hallucination Backtracking (HB), что можно перевести как «отслеживание пути галлюцинации».

Механизм Hallucination Backtracking: как это работает

Система HB представляет собой платформу для декодирования, не требующую дополнительного обучения (training-free). В её основе лежит наблюдение за динамикой визуального внимания в процессе генерации текста. Галлюцинации не случайны: они возникают в критические моменты (pivotal tokens), когда внимание модели переключается с признаков изображения на ранее сгенерированный текст.

Количественная оценка дрейфа внимания

Мы ввели новую метрику — Visual Attention Score (VAS), или коэффициент визуального внимания. Этот инструмент позволяет:

Идентифицировать точку «отрыва» модели от визуальных данных.
Точно локализовать источник ошибки.
Автоматически инициировать процесс регенерации (originpoint regeneration) с более строгими ограничениями визуальной привязки (visual grounding).

«Галлюцинации возникают тогда, когда модель перестает смотреть на изображение и начинает фантазировать, опираясь исключительно на свои внутренние текстовые вероятности», — отмечают исследователи.

Результаты тестирования и архитектурная эффективность

Метод был протестирован на ведущих архитектурах: LLaVA1.5, InstructBLIP, MiniGPT4 и Shikra. Результаты подтверждают превосходство HB над существующими стандартами:

На модели LLaVA1.5 (Large Language-and-Vision Assistant) показатель F1-score (метрика качества классификации) достиг 91,4%.
Метрика CHAIR_S (Caption Hallucination Assessment Image Rating) была снижена до 40,2%.
По точности локализации ошибок система достигла показателя 41,8% по методу строгого соответствия (exact match).

Анализ ограничений

Несмотря на значительные успехи, остаточный уровень ложноотрицательных результатов (false negative rate) составляет 15,9%. Это указывает на то, что галлюцинации, вызванные логическим выводом (inference-driven hallucinations), все еще остаются сложной научной задачей, требующей дальнейшего изучения.

Будущее мультимодальной генерации

Наш подход доказывает, что точная локализация и направленная коррекция являются перспективной парадигмой для создания надежных мультимодальных систем. Вместо того чтобы «переучивать» всю модель, гораздо эффективнее научить её замечать момент потери связи с реальностью в режиме реального времени. Это исследование открывает путь к созданию ИИ, который действительно «видит» то, что описывает, сводя к минимуму риск ошибок в критических задачах.

Короткие версии статей можно найти в телеграм-канале.