Теория разума в ИИ: как большие языковые модели имитируют человеческое мышление

Теория разума в ИИ: как большие языковые модели имитируют человеческое мышление

Интересное сегодня

Эффективность реформер-пилатеса при хронической боли: исслед...

Введение Мышечно-скелетные нарушения представляют собой глобальную проблему здравоохранения, вызываю...

Влияние побочных эффектов гормональной терапии на качество ж...

Введение Рак молочной железы (РМЖ) является наиболее распространенным онкологическим заболеванием в ...

Модели принятия решений с непрерывным ответом: теория и оцен...

Введение в модели непрерывного принятия решений Люди часто принимают решения между непрерывными альт...

Различия между профессионалами и новичками в теннисе в воспр...

Введение Восприятие движения в глубину является ключевым для успешного выполнения ударов в спорте, г...

Дофамин и терпение: новое исследование раскрывает связь

Дофамин: ключ к терпению и самоконтролю? Новаторское исследование, проведенное командой из Унив...

Факторы риска и взаимосвязь между слабостью, падениями и пси...

Введение Глобальная демографическая ситуация претерпевает значительные изменения: доля пожилых людей...

Оригинал исследования на сайте автора

Теория разума в ИИ: как большие языковые модели имитируют человеческое мышление

Представьте, что вы смотрите фильм, где один персонаж кладет шоколадку в коробку, закрывает ее и выходит из комнаты. Другой человек, тоже находящийся в комнате, перекладывает шоколадку из коробки в ящик стола. Вы, как наблюдатель, знаете, что лакомство теперь находится в ящике, и вы также знаете, что когда первый человек вернется, он будет искать шоколадку в коробке, потому что он не знает, что ее переложили.

Вы знаете это, потому что как человек обладаете когнитивной способностью делать выводы и рассуждать о мыслях других людей — в данном случае, о неосведомленности человека относительно того, где находится шоколад.

Что такое Теория разума (Theory of Mind, ToM)?

Научным языком эта способность описывается как Теория разума (Theory of Mind, ToM). Эта способность «читать мысли» позволяет нам предсказывать и объяснять поведение других, учитывая их ментальные состояния. Мы развиваем эту способность примерно в возрасте четырех лет, и наши мозги отлично с ней справляются.

«Для человеческого мозга это очень простая задача», — говорит Чжаочжуо Сюй (Zhaozhuo Xu), доцент компьютерных наук в Школе инженерии. — «Это занимает всего несколько секунд для обработки».

«И при этом наши мозги задействуют лишь небольшую часть нейронов, что делает процесс очень энергоэффективным», — объясняет Дэнхуэй Чжан (Denghui Zhang), доцент кафедры информационных систем и аналитики в Школе бизнеса.

Как работают большие языковые модели (LLM)

Большие языковые модели, или LLM (Large Language Models), которые изучают исследователи, работают иначе. Хотя они были вдохновлены некоторыми концепциями из нейронауки и когнитивной науки, они не являются точными копиями человеческого мозга. LLM построены на основе искусственных нейронных сетей, которые отдаленно напоминают организацию биологических нейронов, но модели обучаются на основе закономерностей в огромных объемах текста и работают с использованием математических функций.

Это дает LLM явное преимущество перед людьми в быстрой обработке больших объемов информации. Но когда дело доходит до эффективности, особенно в простых задачах, LLM уступают людям. Независимо от сложности задачи, им приходится активировать большую часть своей нейронной сети для получения ответа. Таким образом, когда вы просите LLM сказать, сколько сейчас времени, или суммировать «Моби Дика», кита-роман, LLM задействует всю свою сеть, что является ресурсоемким и неэффективным.

«Когда мы, люди, оцениваем новую задачу, мы активируем очень малую часть нашего мозга, но LLM должны активировать практически всю свою сеть, чтобы получить что-то новое, даже если это довольно базовое», — говорит Чжан. — «LLM должны выполнить все вычисления, а затем выбрать то, что вам нужно. Таким образом, вы выполняете много избыточных вычислений, потому что вы вычисляете много вещей, которые вам не нужны. Это очень неэффективно».

Новые открытия: разреженные цепи и позиционное кодирование

Работая вместе, Чжан и Сюй сформировали междисциплинарное сотрудничество, чтобы лучше понять, как работают LLM, и как можно повысить их эффективность в области социального рассуждения. Они обнаружили, что LLM используют небольшой, специализированный набор внутренних связей для обработки социального рассуждения. Они также выяснили, что способности LLM к социальному рассуждению сильно зависят от того, как модель представляет позиции слов, особенно с помощью метода, называемого роторным позиционным кодированием (Rotary Positional Encoding, RoPE).

Эти специальные связи влияют на то, как модель обращает внимание на различные слова и идеи, эффективно направляя «фокус» во время рассуждений о мыслях людей.

«Проще говоря, наши результаты предполагают, что LLM используют встроенные закономерности для отслеживания позиций и отношений между словами, чтобы формировать внутренние «убеждения» и делать социальные выводы», — говорит Чжан.

Два исследователя изложили свои выводы в исследовании под названием «Как большие языковые модели кодируют теорию разума: исследование разреженных закономерностей параметров» (How large language models encode theory of mind: a study on sparse parameter patterns), опубликованном в журнале Nature Partner Journal on Artificial Intelligence 28 августа 2025 года.

Ключевые выводы исследования

  • Разреженные цепи (Sparse Circuits): LLM полагаются на небольшие внутренние кластеры параметров для рассуждений, основанных на Теории разума.
  • Критическое кодирование (Crucial Encoding): Роторное позиционное кодирование (RoPE) оказывает сильное влияние на то, как модели представляют убеждения и перспективы.
  • Разрыв в эффективности (Efficiency Gap): Полученные данные указывают на необходимость создания дизайнов, вдохновленных работой мозга, которые активируют только релевантные для задачи параметры.

Будущее ИИ: путь к более эффективным моделям

Теперь, когда исследователи лучше понимают, как LLM формируют свои «убеждения», они считают, что возможно сделать модели более эффективными. «Мы все знаем, что ИИ потребляет много энергии, поэтому, если мы хотим сделать его масштабируемым, мы должны изменить способ его работы», — говорит Сюй. — «Наш человеческий мозг очень энергоэффективен, поэтому мы надеемся, что это исследование вернет нас к размышлениям о том, как мы можем сделать LLM, работающими больше как человеческий мозг, чтобы они активировали только подмножество параметров, отвечающих за конкретную задачу. Это важное сообщение, которое мы хотим донести».

Основные вопросы, на которые получены ответы

  • В: Что исследователи обнаружили относительно социального рассуждения ИИ?
    О: Большие языковые модели полагаются на небольшой, специализированный набор внутренних связей и закономерностей позиционного кодирования для осуществления рассуждений, основанных на Теории разума.
  • В: Почему это важно для эффективности ИИ?
    О: В отличие от человеческого мозга, LLM активируют почти всю свою сеть для каждой задачи; понимание этих разреженных цепей может привести к созданию более энергоэффективного ИИ.
  • В: Какова следующая цель для ИИ и LLM?
    О: Создание LLM, которые активируют только параметры, специфичные для конкретной задачи — более похожие на человеческий мозг — для снижения вычислительных затрат и энергопотребления.

Об этом исследовании ИИ и теории разума

Автор: Лина Зельдович (Lina Zeldovich)

Источник: Технологический институт Стивенса (Stevens Institute of Technology)

Контакт: Лина Зельдович – Технологический институт Стивенса

Исходное исследование: Открытый доступ.

Название: «Как большие языковые модели кодируют теорию разума: исследование разреженных закономерностей параметров» (How large language models encode theoryofmind: a study on sparse parameter patterns)

Авторы: Чжаочжуо Сюй (Zhaozhuo Xu) и др.

Издание: npj Artificial Intelligence

Аннотация исходного исследования

Название: Как большие языковые модели кодируют теорию разума: исследование разреженных закономерностей параметров

В данной работе исследуется появление способностей к Теории разума (ToM) в больших языковых моделях (LLM) с механистической точки зрения, с акцентом на роль крайне разреженных закономерностей параметров. Мы представляем новый метод для идентификации параметров, чувствительных к ToM, и показываем, что возмущение всего 0.001% этих параметров значительно ухудшает производительность ToM, а также нарушает контекстуальную локализацию и понимание языка. Для понимания этого эффекта мы анализируем их взаимодействие с основными архитектурными компонентами LLM. Наши выводы демонстрируют, что эти чувствительные параметры тесно связаны с модулем позиционного кодирования, особенно в моделях, использующих роторное позиционное встраивание (Rotary Position Embedding, RoPE), где возмущения нарушают доминирующие частотные активации, критически важные для контекстной обработки. Кроме того, мы показываем, что возмущение параметров, чувствительных к ToM, влияет на механизм внимания LLM, модулируя угол между запросами (queries) и ключами (keys) в условиях позиционного кодирования. Эти выводы дают более глубокое понимание того, как LLM приобретают способности к социальному рассуждению, связывая интерпретируемость ИИ с когнитивной наукой.

Короткие версии статей можно найти в телеграм-канале.

Посмотреть канал
Кликните еще раз для перехода

Термометр Little Doctor LD-300 купить | Цифровой электронный

Цифровой термометр Little Doctor LD-300 предназначен для быстрого и точного измерения температуры те...

SPLAT Ополаскиватель Лечебные травы 275 мл - уход за полость...

Ополаскиватель SPLAT Лечебные травы 275 мл обеспечивает комплексный уход за полостью рта. Инновацион...

Никоретте спрей от курения 1 мг/доза - купить в аптеке

Никоретте спрей мятный 1 мг/доза помогает бросить курить быстро и эффективно. Устраняет тягу к сигар...

Лимонника Семян Настойка 25 мл — поддержка энергии и иммунит...

Настойка из семян лимонника во флаконе 25 мл — натуральное средство поддержания энергии и иммунитета...

Октенисепт раствор 250 мл — антисептик для наружного примене...

Октенисепт — эффективный антисептик широкого спектра действия для наружного применения. Уничтожает б...

Презервативы Сагуми Экстрим Ментол Охлаждающие №10

Сагуми Экстрим Презервативы Ментол Охлаждающие №10 — это надежная защита с уникальным охлаждающим эф...