Интересное сегодня
Как антиоксиданты в питании влияют на депрессию и смертность...
Введение Депрессия — это аффективное расстройство, характеризующееся устойчивыми симптомами, такими ...
Изменение личности: Почему оно не следует простому пути
Идея о том, что личность фиксирована и неизменна со временем, в значительной степени была отвергнута...
Почему подростки рискуют: как меняется мозг с возрастом
Трио ключевых областей мозга Подростков часто списывают на «гормоны» или «незрелость», но их мозг не...
Социализация эмоций: как культура и воспитание формируют эмо...
Введение в социализацию эмоций Способность понимать и регулировать свои эмоции является неотъемлемой...
Как чувство благоговения помогает быть добрее к себе
Как благоговение влияет на самосострадание Когда люди сталкиваются с неудачами или личными трудностя...
Влияние Совместного Воспитания на Просоциальное Поведение Де...
Просоциальное поведение включает действия, такие как забота, помощь и совместное использование, кото...
Введение в проблему мультимодальных галлюцинаций
Мультимодальные большие языковые модели (MLLM — Multimodal Large Language Models) представляют собой вершину современного развития искусственного интеллекта. Они способны анализировать изображения и генерировать связный текст на их основе. Однако их практическое применение часто ограничивается так называемыми галлюцинациями — феноменом, при котором модель генерирует описания, не имеющие под собой визуальных оснований. Такие ошибки подрывают доверие к системам ИИ в критически важных областях.
Почему возникают галлюцинации?
Современные подходы к устранению этих ошибок часто требуют дорогостоящего переобучения (retraining) моделей или применения глобальных штрафных санкций, которые не учитывают специфический контекст конкретной ошибки. Наше исследование предлагает решение — фреймворк Hallucination Backtracking (HB), что можно перевести как «отслеживание пути галлюцинации».
Механизм Hallucination Backtracking: как это работает
Система HB представляет собой платформу для декодирования, не требующую дополнительного обучения (training-free). В её основе лежит наблюдение за динамикой визуального внимания в процессе генерации текста. Галлюцинации не случайны: они возникают в критические моменты (pivotal tokens), когда внимание модели переключается с признаков изображения на ранее сгенерированный текст.
Количественная оценка дрейфа внимания
Мы ввели новую метрику — Visual Attention Score (VAS), или коэффициент визуального внимания. Этот инструмент позволяет:
- Идентифицировать точку «отрыва» модели от визуальных данных.
- Точно локализовать источник ошибки.
- Автоматически инициировать процесс регенерации (originpoint regeneration) с более строгими ограничениями визуальной привязки (visual grounding).
«Галлюцинации возникают тогда, когда модель перестает смотреть на изображение и начинает фантазировать, опираясь исключительно на свои внутренние текстовые вероятности», — отмечают исследователи.
Результаты тестирования и архитектурная эффективность
Метод был протестирован на ведущих архитектурах: LLaVA1.5, InstructBLIP, MiniGPT4 и Shikra. Результаты подтверждают превосходство HB над существующими стандартами:
- На модели LLaVA1.5 (Large Language-and-Vision Assistant) показатель F1-score (метрика качества классификации) достиг 91,4%.
- Метрика CHAIR_S (Caption Hallucination Assessment Image Rating) была снижена до 40,2%.
- По точности локализации ошибок система достигла показателя 41,8% по методу строгого соответствия (exact match).
Анализ ограничений
Несмотря на значительные успехи, остаточный уровень ложноотрицательных результатов (false negative rate) составляет 15,9%. Это указывает на то, что галлюцинации, вызванные логическим выводом (inference-driven hallucinations), все еще остаются сложной научной задачей, требующей дальнейшего изучения.
Будущее мультимодальной генерации
Наш подход доказывает, что точная локализация и направленная коррекция являются перспективной парадигмой для создания надежных мультимодальных систем. Вместо того чтобы «переучивать» всю модель, гораздо эффективнее научить её замечать момент потери связи с реальностью в режиме реального времени. Это исследование открывает путь к созданию ИИ, который действительно «видит» то, что описывает, сводя к минимуму риск ошибок в критических задачах.