Как искусственный интеллект формирует социальные нормы

Интересное сегодня

Как распознать высокофункциональное избегающее расстройство ...

Что такое избегающее расстройство личности (AVPD)? Избегающее расстройство личности (AVPD) — это пси...

Факторы, влияющие на векцию и укачивание в пассивном симулят...

Введение Векция — это иллюзорное ощущение самодвижения, которое возникает при обманчивых визуальных ...

Влияние родительского контроля на питание подростков и их пс...

Введение Подростковый возраст, характерный периодом возрождения, является временем, когда индивидуум...

ДПП (Диадическая развивающая психотерапия): как внедрить сем...

Влияние детской травмы на психическое здоровье Дети, подвергшиеся физическому, сексуальному или эмоц...

Медитация любящей доброты и осознанное дыхание для подростко...

Введение Несуицидальное самоповреждение (НССП) — это преднамеренное причинение вреда своему телу без...

Влияние типов личности студентов университета на стратегии р...

Введение Конфликт — это интерактивный процесс несовместимости или разногласий внутри или между социа...

Оригинал исследования на сайте автора

Введение в социальные нормы искусственного интеллекта

Новая исследовательская работа исследует, как популяции агентов искусственного интеллекта (ИИ), подобных ChatGPT, могут спонтанно формировать общие социальные нормы через взаимодействие. Исследование, проведенное в Университете Сити в Лондоне и в Институте информационных технологий Университета Копенгагена, показывает, что, общаясь в группах, эти модели не просто следуют предустановленным сценариям, но и самоорганизуются, достигая консенсуса по языковым нормам, аналогично человеческим сообществам.

Метод исследования: Игра наименования

Ветка исследований адаптировала классическую модель «игры наименования», чтобы проверить, могут ли популяции агентов ИИ развивать консенсус через повторяющиеся ограниченные взаимодействия. В экспериментах группы агентов LLM размером от 24 до 200 человек случайным образом объединялись в пары и выбирали название (например, букву алфавита или случайную строку символов) из общего пула вариантов. Если оба агента выбирали одно и то же название, они получали вознаграждение; в противном случае они получали штраф и видели выбор друг друга.

Спонтанное формирование норм

После множества таких взаимодействий могла спонтанно возникнуть общая норма наименования среди всей популяции без какого-либо центрального управления. Это повторяло способы, которыми нормы формируются в человеческих культурах, базируясь на принципах самоорганизации.

Коллективные предвзятости

Еще более примечательным оказалось то, что исследователи наблюдали коллективные предвзятости, которые нельзя было отследить до отдельных агентов. Как объяснил профессор Андреа Барончелли, старший автор исследования, «предвзятость не всегда возникает изнутри. Мы были удивлены тем, что она может возникать между агентами просто в результате их взаимодействий». Эта находка подчеркивает важность учета групповых процессов в исследованиях безопасности ИИ.

Динамика критической массы

В самом конце эксперимента исследователи продемонстрировали, как эти возникающие нормы могут быть хрупкими. Малые, но преданные группы агентов ИИ способны привести всю группу к новой норме наименования, что отражает хорошо известные эффекты критической массы в человеческих обществах.

Разнообразие моделей LLM

Результаты исследования также сохранили свою обоснованность при использовании четырех различных типов больших языковых моделей (LLM), включая Llama-2-70b-Chat, Llama-3-70B-Instruct, Llama-3.1-70BInstruct и Claude-3.5-Sonnet.

Влияние на будущее

С ростом применения LLM в различных онлайн-средах – от социальных сетей до автономных транспортных средств – исследователи надеются, что их работа станет отправной точкой для дальнейшего изучения того, как человеческое и ИИ-рассуждение совпадают и расходятся. Конечной целью является помощь в предотвращении потенциальных этических опасностей, вызванных распространением предвзятостей, исходящих от общества, что может нанести вред маргинализированным группам.

Основные выводы

Агенты ИИ способны автономно развивать социальные нормы без явного программирования.
Коллективные предвзятости могут возникать в процессе взаимодействия между агентами.
Малые группы преданных агентов могут инициировать значительные изменения в социальных нормах.

Заключение: новое понимание безопасности ИИ

Профессор Барончелли добавил: «Это исследование открывает новую перспективу для исследований безопасности ИИ. Оно показывает глубину последствий для нового рода агентов, которые начали взаимодействовать с нами и будут со-формировать наше будущее». Понимание того, как они функционируют, является ключом к тому, чтобы обеспечить наше сосуществование с ИИ, а не оставаться под его контролем.

“Мы входим в мир, где ИИ не просто говорит – он ведет переговоры, устанавливает согласие и иногда не соглашается по поводу общих действий, как и мы.”

Короткие версии статей можно найти в телеграм-канале.