
Интересное сегодня
Влияние цифровых медиа на развитие детей до двух лет
Введение Цифровые медиа, включая мобильные телефоны, планшеты и персональные компьютеры, часто испол...
Эффективные добавки для балансировки гормонов
Обзор добавок для балансировки гормонов Если вы сталкиваетесь с предменструальным синдромом (ПМС) ка...
Надежда, благодарность и энтузиазм: как сильные стороны хара...
Сильные стороны характера: ключ к благополучию и психическому здоровью Почему некоторые люди лучше ...
Карьера в Снеговых Видах Спорта: Поиск Смысла и Личностного ...
Исследование карьеры в снеговых видах спорта Десятилетнее исследование инструкторов снега показало, ...
Качество жизни несовершеннолетних беженцев без сопровождения...
Введение Беженец — это человек, который был вынужден покинуть свою страну происхождения в результате...
Как справиться с созависимой матерью: стратегии и советы
Как справиться с созависимой матерью Созависимость — это термин, описывающий дисфункциональную дина...
Введение в исследование ментальных репрезентаций действий
Наша способность быстро распознавать и реагировать на действия других людей remarkable, учитывая широкое разнообразие человеческого поведения, которое охватывает различные контексты, цели и моторные последовательности. Когда мы видим человека, действующего в мире, мы интегрируем визуальную информацию, социальные сигналы и prior knowledge (предварительные знания), чтобы интерпретировать его действия. Эти повседневные действия в контексте часто описываются как activities (активности), которые отличаются от других, более базовых или кинематически ориентированных определений действия, и, несмотря на их вездесущность, все еще представляют проблему даже для современных алгоритмов машинного обучения. Как же разум осмысливает это сложное пространство действий?
Предыдущая работа по пониманию действий в разуме и мозге была сосредоточена на hypothesis-driven (гипотезо-ориентированных) усилиях по идентификации критических особенностей действий и их нейронных основ. Эта работа выделила semantic content (семантическое содержание), social and affective features (социальные и аффективные особенности) и visual features (визуальные особенности) как essential components (существенные компоненты) в визуальном понимании действий. Однако такой подход требует от экспериментатора предварительного определения действий и их потенциальных организующих измерений, что необходимо ограничивает пространство гипотез.
Ограничения традиционных подходов
Категории действий обычно определялись на основе глаголов, которые они представляют, или повседневных категорий действий, как перечислено, например, в American Time Use Survey (ATUS) - Американском обследовании использования времени. Учитывая разнообразие действий, low-dimensional (низкоразмерное), flexible representation (гибкое представление) может быть более эффективным способом организовать их в разуме и мозге; но генерация гипотез, которые могли бы раскрыть это представление, остается сложной задачей, особенно для натуралистических стимулов, которые варьируются по нескольким осям.
Data-driven методы как альтернатива
Data-driven methods (Методы, управляемые данными) предоставляют альтернативу предопределенным репрезентативным пространствам и достигли большого успеха в отображении перцептивных и психологических репрезентаций в других визуальных областях. В распознавании объектов data-driven computational model (вычислительная модель, управляемая данными) выявила 49 интерпретируемых измерений, способных точно предсказывать человеческие суждения о сходстве. Недавняя работа расширила этот метод до near scenes (близких сцен), известных как reachspaces (достижимые пространства), и идентифицировала 30 измерений, захватывающих их наиболее важные характеристики.
Низкоразмерные представления также были предложены для объяснения того, как люди воспринимают других и их ментальные состояния или психологически значимые ситуации.
Применение к domain действий
На сегодняшний день в domain (области) действий была проведена лишь ограниченная работа, управляемая данными. Используя principal component analysis (PCA) - анализ главных компонент крупномасштабных текстовых данных, была показана low-dimensional taxonomy (низкоразмерная таксономия) действий, объясняющая нейронные данные и человеческие суждения о действиях, а также направляющая предсказания о действиях. Однако, поскольку эта таксономия была сгенерирована из текстовых данных, большинство этих измерений были относительно абстрактными, и неясно, появился бы подобный набор измерений из визуальных репрезентаций действий.
В визуальной domain шесть широких semantic clusters (семантических кластеров) показали, что объясняют суждения о семантическом сходстве контролируемых изображений действий, что позволяет предположить, что действия могут быть семантически категоризированы на суперординарном уровне. Однако остается неясным, как это открытие будет обобщаться на более натуральные и разнообразные наборы стимулов.
Методология исследования
Мы проанализировали dataset (набор данных), содержащий неограниченные behavioral similarity judgments (поведенческие суждения о сходстве) двух наборов натуральных видео действий из набора данных Moments in Time, собранных в нашем предыдущем исследовании. Поведенческое сходство часто использовалось как proxy (заместитель) для ментальных репрезентаций и, как было показано, коррелирует с нейронными репрезентациями.
В частности, было обнаружено, что воспринимаемое сходство действий отображается на критические особенности действий, такие как их цели или их социально-аффективное содержание, а также на структуру нейронных паттернов, вызываемых действиями.
Применение sparse nonnegative matrix factorization
Здесь мы применяем data-driven approach (подход, управляемый данными), sparse nonnegative matrix factorization (разреженное неотрицательное матричное разложение) для восстановления измерений, лежащих в основе поведенческого сходства. Этот подход имеет два основных преимущества:
- Он позволяет измерениям быть sparse (разреженными), так что они не должны присутствовать в каждом действии
- Метод требует, чтобы измерения были nonnegative (неотрицательными)
Вместе эти критерии помогают восстановить интерпретируемые измерения со значениями, которые интерпретируются как степень, в которой они присутствуют в данных.
Результаты исследования
Мы показываем, что crossvalidated approach (перекрёстно-валидированный подход) к снижению размерности produces a low-dimensional representation (создает низкоразмерное представление), которое интерпретируемо людьми и обобщается across stimulus categories (по категориям стимулов). Важно, что измерения, восстановленные с помощью NMF, более robust (устойчивы), чем those generated by the more commonly used PCA (сгенерированные более часто используемым PCA).
В Эксперименте 1 окончательная NMF reconstruction (реконструкция) всего тренировочного набора хорошо коррелировала с тренировочными данными и heldout data (данными, отложенными для проверки). Производительность была лучше в Эксперименте 2. В обоих экспериментах производительность NMF на отложенных данных была близка к пределу, установленному надежностью каждого набора данных.
Устойчивость измерений
Важно, что измерения были robust to systematic perturbations (устойчивы к систематическим возмущениям) в лежащих в основе наборах стимулов. Даже после удаления критических категорий стимулов процедура NMF привела к similar numbers of dimensions (схожему количеству измерений) в обоих экспериментах. Все измерения значимо коррелировали с теми, которые resulted from the full stimulus set (получились из полного набора стимулов), что позволяет предположить, что результаты NMF обобщаются даже после модификации состава лежащих в основе наборов данных.
Измерения NMF varied less as a function of stimulus set size (менялись меньше как функция размера набора стимулов), чем как функция количества категорий действий. Кроме того, измерения NMF не отображались напрямую ни на одну отдельную визуальную, социальную или особенность действия, выявленную в нашей предыдущей работе, что позволяет предположить, что этот метод способен захватывать дополнительную информацию, не раскрытую hypothesis-driven approach (подходом, ориентированным на гипотезы).
Сравнение с анализом главных компонент
Производительность NMF была лучше, чем достигнутая эквивалентным перекрёстно-валидированным анализом с использованием PCA, который восстановил 8 измерений в обоих экспериментах. В анализе устойчивости количество измерений, сгенерированных PCA после удаления критических категорий стимулов, было менее надежным, чем полученное с NMF.
Это suggests that dimensions recovered with PCA are more sensitive to variations in the underlying stimulus set than those found with NMF (предполагает, что измерения, восстановленные с помощью PCA, более чувствительны к вариациям в лежащем в основе наборе стимулов, чем найденные с помощью NMF).
Интерпретируемость измерений
Гипотезно-нейтральные измерения, сгенерированные NMF, предполагают потенциальную структуру поведенческого пространства понимания действий. Однако требуется дальнейшая валидация, чтобы показать, являются ли эти измерения воспроизводимыми и в какой степени они интерпретируемы.
Чтобы проверить воспроизводимость, участники онлайн-эксперимента выбирали odd video out (лишнее видео) из группы, состоящей из семи видео с высоким весом и одного видео с низким весом вдоль каждого измерения. В отдельном онлайн-эксперименте для проверки интерпретируемости участников просили предоставить до трех labels (меток) для каждого измерения после просмотра восьми видео с самым высоким и восьми с самым низким весом.
Семантический анализ результатов
Все измерения были reproducible (воспроизводимы) в экспериментах odd-one-out. Участники могли последовательно идентифицировать видео, которые не принадлежали к группе, определяемой каждым измерением. В эксперименте по маркировке участники предоставляли последовательные семантические описания для каждого измерения.
В Эксперименте 1 девять измерений были семантически интерпретированы как относящиеся к:
- Еде и приготовлению пищи
- Работе и офисной деятельности
- Домашней жизни
- Социальным взаимодействиям и эмоциям
- Настройке сцены (например, indoors/outdoors - в помещении/на улице)
В Эксперименте 2 десять измерений включали сходные семантические категории, а также дополнительные измерения, относящиеся к транспорту, уходу за детьми и спорту.
Количественная оценка согласия участников
Чтобы количественно оценить согласие участников по меткам, мы использовали FastText, 300-мерное word embedding (векторное представление слов), предварительно обученное на 1 миллионе английских слов. Вложения генерировались для каждого из слов и фраз, предоставленных участниками. Затем вычислялись евклидовы расстояния между всеми метками в пределах каждого измерения.
Метки считались related (связанными), если расстояние между ними находилось в 10-м процентиле по измерениям и экспериментам. Чтобы сгенерировать chance level (уровень случайности) для согласия участников, мы рассчитали долю связанных меток across different dimensions (по разным измерениям).
Обсуждение и выводы
Наше исследование представляет data-driven approach (подход, управляемый данными) к выявлению измерений, которые организуют человеческое восприятие действий. Используя sparse nonnegative matrix factorization (разреженное неотрицательное матричное разложение) similarity judgments (суждений о сходстве) натуралистических видео действий, мы обнаружили, что от 9 до 10 измерений достаточно для точного восстановления человеческих суждений о сходстве.
Эти измерения были robust (устойчивы) к изменениям в наборе стимулов и воспроизводимы в отдельном эксперименте. Человеческие метки отобразили эти измерения на семантические оси, относящиеся к еде, работе и домашней жизни; социальные оси, относящиеся к людям и эмоциям; и одну визуальную ось, связанную с настройкой сцены.
Вместе наши результаты раскрывают низкоразмерный набор устойчивых и интерпретируемых измерений, которые организуют интуитивные суждения о сходстве действий, и подчеркивают важность data-driven investigations (исследований, управляемых данными) поведенческих репрезентаций.
Значение для будущих исследований
Этот подход открывает новые возможности для понимания того, как мозг организует сложную информацию о действиях. Будущие исследования могут использовать эту методологию для изучения:
- Культурных различий в восприятии действий
- Развития action representations (репрезентаций действий) у детей
- Нейронных correlates (коррелятов) этих измерений в мозге
- Применения этих findings (результатов) в искусственном интеллекте и компьютерном зрении