Как высота голоса влияет на восприятие ИИ-ассистентов: исследование валентности и доминантности

Интересное сегодня

Поздние депрессия и биполярное расстройство: ранние признаки...

Поздняя депрессия и биполярное расстройство: ранние признаки нейродегенеративных заболеванийПоздняя ...

Задача Джойнт Саймон не является совместной для обезьян капу...

Введение Сотрудничество в животном мире встречается повсеместно — от групповой охоты до защиты терри...

Как музыкальные предпочтения короля Карла III раскрывают его...

Музыкальный портрет короля: что плейлист Карла III говорит о его личности? Король Карл III впервые п...

Новый протокол оценки выявляет возрастные различия в абстрак...

ВведениеЧеловеческое воображение привлекает растущий интерес в различных областях науки. Однако оста...

Как чтение преобразует фонологические представления в фоногр...

Введение Способность обрабатывать устную речь считается универсальной. Существует предположение, что...

Ритмические колебания в человеческих сетях: как темп влияет ...

Введение Человеческие сети представляют собой сложную и динамичную систему взаимодействий, где связи...

Рисунок 1

Рисунок 2

Оригинал исследования на сайте автора

Введение

Восприятие человеческих лиц и голосов влияет на важные социальные исходы. Например, люди предпочитают встречаться, создавать семьи, нанимать на работу и голосовать за individuals, воспринимаемых как particularly привлекательные. Эти социальные восприятия (например, наши впечатления о привлекательности или надежности других людей) также могут влиять на исходы жизни и смерти. Например, подсудимые, выглядящие ненадежными, чаще получают смертельные приговоры.

Ключевые измерения социального восприятия

Несколько недавних исследований показывают, что социальные восприятия основываются на двух ключевых измерениях. Например, анализ главных компонентов (Principal Component Analysis, PCA) оценок естественных человеческих лиц по различным чертам, по которым люди спонтанно оценивают лица (надежность, эмоциональная стабильность, ответственность, общительность, заботливость, привлекательность, интеллект, уверенность, странность, несчастье, подлость, агрессивность, доминантность), выявляет два ключевых underlying измерения. Первое из этих измерений, часто обозначаемое как валентность, сильно коррелирует с оценками просоциальных черт, таких как надежность, и считается отражающим восприятие готовности индивидуума причинять вред другим. Второе измерение, часто обозначаемое как доминантность, сильно коррелирует с чертами, такими как доминантность и агрессивность, и считается отражающим восприятие способности индивидуума причинять вред другим.

Восприятие синтетических голосов

Разговорные агенты (например, Siri и Alexa) стали повсеместными и общаются с пользователями через голоса, генерируемые алгоритмами искусственного интеллекта (то есть синтетические голоса). Недавний доклад ЮНЕСКО (Организация Объединенных Наций по вопросам образования, науки и культуры) предложил, что эти синтетические голоса имеют потенциал усиливать голосовые гендерные стереотипы, и утверждал, что исследования urgently необходимы для ameliorate этой проблемы. Критически, понимание того, как люди воспринимают синтетические голоса, необходимо как для понимания, так и для решения этой проблемы.

Методология исследования

Исследование 1 aimed to (1) идентифицировать перцепционные измерения, лежащие в основе социальных суждений о синтетических голосах, и (2) исследовать, как эти перцепционные измерения связаны с высотой голоса и формантными частотами.

Стимулы и процедура

Сорок шесть синтетических (то есть computergenerated) голосов (17 мужских, 29 женских) были загружены с онлайнплатформ синтеза голоса (28 голосов) или были предоставлены нам компаниями, работающими над производством синтетических голосов (18 голосов). Поскольку исследования, измеряющие высоту тона и формантные частоты записей естественных человеческих голосов, generally использовали гласные звуки /α/, /ε/, /i/, /o/ и /u/, голоса, использованные в текущем исследовании, произносили слова 'Father, See, Bet, Note, Boot'. Все стимулы были amplitude нормализованы до 70 дБ prior to как акустических анализов, так и сбора оценок черт.

Результаты исследования 1

Анализ главных компонентов (PCA) оценок черт для каждого голоса выявил два главных компонента (PC), объясняющих 45 и 29% дисперсии оценок соответственно. В соответствии с предыдущими исследованиями, использующими естественные человеческие голоса и лица в качестве стимулов, первый PC был сильно коррелирован с просоциальными чертами, такими как надежность, компетентность, ответственность, эмоциональная стабильность и общительность, но слабо коррелирован с доминантностью и агрессивностью, а второй PC был сильно коррелирован с доминантностью и агрессивностью, но слабо коррелирован с надежностью, компетентностью, ответственностью, эмоциональной стабильностью и общительностью. Следуя предыдущим исследованиям, показывающим эту pattern результатов, мы обозначили эти PCs как Валентность и Доминантность соответственно.

Влияние акустических параметров

Регрессионные анализы показали, что для Валентности модель регрессии не была значимой и не показала значительных эффектов для любого из предикторов. Для Доминантности модель регрессии была значимой и показала сильный отрицательный эффект высоты тона на оценки доминантности.

Исследование 2: Экспериментальное манипулирование высотой тона

Исследование 2 непосредственно строилось на результатах Исследования 1, проверяя, происходят ли результаты Исследования 1 для корреляций между социальными восприятиями и измеренными акустическими свойствами синтетических голосов также, когда мы экспериментально манипулируем акустическими параметрами голосов. В то время как стимулы в Исследовании 1 были отдельными словами, стимулы в Исследовании 2 были полными предложениями.

Результаты манипуляции

Анализы компетентности и надежности оценок не показали значительного эффекта манипуляции высотой тона, однако анализы доминантности и агрессивности оценок показали, что версии голосов с пониженной высотой тона оценивались как значительно более доминантные и агрессивные, чем версии с повышенной высотой тона.

Обсуждение результатов

PCA оценок синтетических голосов, используемых разговорными агентами, по range черт produced два компонента. Первый компонент, который объяснил основную часть дисперсии оценок, был сильно коррелирован с оценками просоциальных черт и слабо коррелирован с оценками доминантности и агрессивности. Второй компонент, который объяснил substantially меньше дисперсии оценок, был сильно коррелирован с оценками доминантности и агрессивности и слабо коррелирован с оценками надежности, компетентности, ответственности, эмоциональной стабильности и общительности. Этот pattern результатов extremely similar к тем, которые получены, когда оценки естественных человеческих лиц и голосов подвергались PCA в предыдущих исследованиях, suggesting что социальные восприятия синтетических голосов underpinned измерениями валентности и доминантности, similar к тем, которые previously найдены underpinning социальные восприятия естественных человеческих стимулов.

Практические implications

Наши результаты ясно указывают, что высота тона particularly сильно related к (и, как наши результаты из Исследования 2 indicate, непосредственно influences) доминантностиrelated восприятиям синтетических голосов. Эти результаты предполагают, что большее внимание к роли, которую высота тона голоса играет в доминантностиrelated социальных восприятиях при проектировании разговорных агентов, будет effective в контроле стереотипных восприятий их голосов и downstream последствий этих восприятий.

Короткие версии статей можно найти в телеграм-канале.