Интересное сегодня
Улучшение эмоциональной доступности в парах мать-малыш с пом...
Введение Возраст от 18 до 36 месяцев — это уникальный период быстрого роста мозга, увеличения автоно...
Кетамин против плацебо при лечении депрессии: новое исследов...
Новое исследование: Кетамин не показал преимуществ перед плацебо при лечении депрессии Крупное ранд...
Оптимизация ICA-разложения ЭЭГ с очисткой данных в стационар...
Введение Удаление артефактов из электрофизиологических данных во временной области — задача, столь ж...
Генетическая уязвимость к психотическим расстройствам: разли...
Исследователи из Университета Барселоны и Центра биомедицинских исследований в области психического ...
Удовлетворенность жизнью пожилых людей: культурные особеннос...
Введение в удовлетворенность жизнью Удовлетворенность жизнью (УЖ) — это многогранная концепция, отра...
Как программы домашнего визитирования помогают семьям с мате...
Введение Программы домашней поддержки семей предоставляют раннее вмешательство для предотвращения же...
Социальное обучение как катализатор понимания общих правил поиска информации
В основе нашего взаимодействия с миром лежит фундаментальная задача — научиться эффективно искать информацию и принимать решения в условиях неопределенности. Эта задача актуальна как для повседневных ситуаций, таких как выбор товаров или принятие финансовых решений, так и для более сложных процессов, например, в научных исследованиях. В природе этот же принцип лежит в основе поиска пищи, воды и укрытия. Ограниченные ресурсы времени и энергии заставляют индивидов постоянно искать баланс между исследованием новых возможностей («исследование») и использованием уже имеющихся знаний («эксплуатация») для максимизации общего результата. Исследования этой дилеммы «исследование–эксплуатация» охватывают широкий спектр областей, от поведения животных до компьютерных наук.
Известно, что взаимодействие с другими людьми может повысить эффективность принятия решений на коллективном уровне за счет децентрализованного объединения информации и различных стратегий социального обучения. Однако реальный мир зачастую представляет собой настолько обширное пространство поиска, что даже при обмене информацией индивиды оказываются неспособны охватить все возможные варианты. В таких условиях возникает стратегия развития обобщенных знаний, применимых к нескольким связанным средам — так называемое «межзадачное обучение» (acrosstask learning). Тем не менее, остается неясным, способствует ли социальная информация такому межзадачному обучению и каким образом.
Данное исследование направлено на изучение процессов социального обучения в лабораторных условиях, где участники проходили серию сессий по поиску информации в средах с пространственно коррелированными наградами, сгенерированных по общему правилу. В отличие от индивидуального поиска, где участники работали самостоятельно, в парных условиях участники имели доступ к информации о выборе партнера в предыдущем раунде. Это позволило исследовать, как социальная информация влияет на внутризадачное обучение (понимание конкретной среды) и межзадачное обучение (обобщение знаний на новые, но связанные среды).
Внутризадачное и межзадачное обучение
Внутризадачное обучение (within-task learning) относится к процессу приобретения знаний и адаптации стратегий принятия решений в рамках одной конкретной задачи или среды. Это включает в себя обучение локальной структуре текущей среды, например, понимание того, где в данный момент наиболее вероятно найти награду («ландшафт вознаграждений»).
Межзадачное обучение (across-task learning), напротив, фокусируется на способности обобщать знания, полученные в одной среде, и применять их к другим, но связанным средам. Это предполагает выявление общих закономерностей или «генерирующих правил», которые управляют структурой нескольких сред. Успешное межзадачное обучение позволяет принимать решения более эффективно в новых условиях, поскольку не требуется начинать обучение с нуля.
Экспериментальный дизайн
Исследование проводилось с использованием задач типа «многорукий бандит» (multi-armed bandit, MAB) с 165 вариантами выбора, расположенными в виде сетки 11×15. Вознаграждения за близлежащие варианты были статистически схожи. Для создания таких «ландшафтов вознаграждений» использовался метод аппроксимации гауссовским процессом (Gaussian Process regression), который моделирует пространственную корреляцию наград. Основная гипотеза заключалась в том, что понимание этой пространственной структуры позволяет участникам осуществлять более систематический поиск, а не случайный.
Участники проходили шесть экспериментальных сессий, каждая из которых состояла из 25 попыток. Общее число поисковых возможностей (25) было значительно меньше общего числа вариантов (165). Все среды генерировались согласно единому правилу, что создавало основу для межзадачного обучения.
Были сформированы две группы участников: индивидуальная (solo) и парная (pair). В парной группе участники имели доступ к информации о выборе партнера в предыдущем раунде (визуальная подсказка, указывающая на выбранный вариант), но не знали о размере полученной партнером награды. Это имитировало ситуацию, когда люди наблюдают за действиями других, но не имеют полного представления об их результатах.
Результаты исследования
Поведенческая эффективность
В целом, участники, работавшие в парах, показали лучшие результаты (больше заработанных очков) по сравнению с теми, кто работал индивидуально. Это преимущество социального обучения становилось более выраженным в более поздних сессиях, что свидетельствует о способности к межзадачному обучению. В то время как индивидуальные участники не демонстрировали значительного прогресса в поздних сессиях, парные участники становились более искусными в решении задачи «исследование–эксплуатация», что указывает на обобщение знаний между различными средами.
Удивительно, что доля сессий, в которых участник находил оптимальный вариант, не различалась между условиями. Это говорит о том, что социальное обучение помогало участникам более эффективно справляться с дилеммой «исследование–эксплуатация», выбирая лучшие варианты и избегая рискованного поиска глобального оптимума, а не просто находить абсолютный максимум.
Паттерны исследования
Анализ паттернов исследования показал, что участники в парной группе исследовали среду более эффективно в начале каждой сессии, делая меньше уникальных выборов в более поздних фазах. Это означает, что они быстрее переключались на фазу эксплуатации, предполагая, что они лучше поняли структуру среды. С течением сессий эта тенденция становилась еще более выраженной, что подкрепляет идею о развитии межзадачного обучения.
Компьютерное моделирование поведения
Для более глубокого анализа когнитивных процессов, лежащих в основе наблюдаемого поведения, было разработано вычислительное моделирование. Модель, основанная на аппроксимации гауссовским процессом и стратегии верхней доверительной границы (Gaussian Process Upper Confidence Bound, GPUCB), позволила оценить несколько ключевых параметров:
- at{ambda } (субъективное понимание правила генерации): Этот параметр отражает, насколько участник верит в пространственную корреляцию наград. Большее значение at{ambda } означает, что участник ожидает более пологого ландшафта наград, где соседние варианты имеют схожие вознаграждения.
- eta (премия за неопределенность): Параметр, отражающий, насколько сильно участник ценит неопределенность при выборе, склонность исследовать менее известные варианты.
- amma (коэффициент имитации): В парной группе этот параметр моделировал «имитационную предвзятость», оценивая, насколько участник склонен выбирать варианты, пространственно близкие к выбору партнера.
- au (случайное исследование): Параметр, отражающий степень случайного исследования, не связанного с оценкой ценности вариантов.
Модель GPUCB показала хорошую способность описывать поведение индивидуальных участников. В парной группе была использована расширенная модель (UCB+S), учитывающая влияние социального фактора. Анализ показал, что в парной группе параметр at{ambda } был ближе к истинному значению ambda (использованному для генерации среды), чем в индивидуальной группе. Это означает, что социальное обучение привело к более точному пониманию участниками общего правила, управляющего средами.
Более того, at{ambda } был значимо коррелирован между партнерами в паре, чего не наблюдалось для других параметров. Это подтверждает, что социальное взаимодействие способствует общему пониманию генеративного правила внутри пары.
Значение имитации
Моделирование также показало, что умеренная имитационная предвзятость (amma) положительно влияет на эффективность поиска, тогда как полное отсутствие или чрезмерная имитация снижают производительность. Это говорит о том, что социальное наблюдение за выборами партнера, не приводящее к слепому копированию, а лишь влияющее на оценку потенциальной ценности, может быть полезным.
Выводы
Исследование убедительно демонстрирует, что социальное обучение играет ключевую роль в развитии межзадачного обучения. Наблюдая за выборами партнера, участники не только улучшали свои навыки поиска в конкретной среде (внутризадачное обучение), но и формировали более глубокое и точное понимание общих правил, управляющих различными средами (межзадачное обучение). Это достигается за счет более точной оценки пространственных корреляций наград и, как следствие, более эффективного балансирования между исследованием и эксплуатацией.
«Социальное взаимодействие является ключом к улучшению межзадачного обучения».
Данные результаты имеют важное значение для понимания того, как люди учатся в сложных и меняющихся средах, и могут быть применены для разработки более эффективных образовательных стратегий и инструментов поддержки принятия решений.
Ключевые термины
- Аппроксимация гауссовским процессом (Gaussian Process Regression): Машинное обучение, используемое для моделирования и прогнозирования функций, особенно полезное в задачах с пространственной зависимостью.
- Многорукий бандит (Multi-armed Bandit, MAB): Математическая задача, где агент должен выбрать между несколькими вариантами (руками), каждый из которых имеет свою вероятность получения награды, с целью максимизации общего выигрыша.
- Стратегия Верхней Доверительной Границы (Upper Confidence Bound, UCB): Алгоритм принятия решений, который балансирует исследование новых вариантов с эксплуатацией наиболее перспективных, учитывая неопределенность оценок.
- Пространственная корреляция наград: Свойство среды, при котором вознаграждения в близлежащих точках или вариантах более схожи.
- Генеративное правило: Базовая закономерность или механизм, который определяет структуру и свойства среды, например, как распределены награды.
- Внутризадачное обучение (Within-task Learning): Обучение и адаптация в рамках одной конкретной задачи или среды.
- Межзадачное обучение (Across-task Learning): Обобщение знаний и применение их к новым, но связанным задачам или средам.