Распознавание эмоций по видео лица: новый мультиспектральный подход

Распознавание эмоций по видео лица: новый мультиспектральный подход

Интересное сегодня

Психология авторитаризма: почему люди отказываются от демокр...

Почему люди выбирают авторитаризм? На многих уровнях переизбрание Дональда Трампа выглядит как анома...

Моделирование восприятия времени: Обзор и применение к задач...

Введение: Важность отслеживания времени в поведении Точное отслеживание хода времени имеет решающее ...

Собаки и звукозаписывающие панели: осмысленное общение с люд...

ВведениеНовое исследование из Калифорнийского университета в Сан-Диего показывает, что собаки, обуче...

Что вызывает аутизм? Новое понимание аутизма

Введение На протяжении десятилетий вопрос о причинах аутизма привлекал внимание общественности, вызы...

Как повысить социальную уверенность при социофобии: 10 прове...

Как обрести социальную уверенность при социофобии Социальная тревожность (социофобия) может подрыват...

Как настройки шума яркости влияют на корковые механизмы цвет...

Введение Псевдоизохроматические стимулы включают шум яркости, который устраняет различия в светимост...

Рис. 9: Временные сигналы после пространственного уменьшения.
Рис. 9: Временные сигналы после пространственного уменьшения.
Рис. 10: Сравнение сигналов частоты сердечных сокращений.
Рис. 10: Сравнение сигналов частоты сердечных сокращений.
Рис. 11: Пики и спады сигнала сердечного ритма (RGB каналы).
Рис. 11: Пики и спады сигнала сердечного ритма (RGB каналы).
Рис. 12: Временные сигналы LWIR.
Рис. 12: Временные сигналы LWIR.
Рис. 13: Схематическая диаграмма предлагаемого метода.
Рис. 13: Схематическая диаграмма предлагаемого метода.
Рис. 1: Метрики классификации эмоций.
Рис. 1: Метрики классификации эмоций.
Рис. 2: Карты пространственной важности признаков для бинарных классификаторов.
Рис. 2: Карты пространственной важности признаков для бинарных классификаторов.
Рис. 3: Пространственные карты важности признаков по длинам волн.
Рис. 3: Пространственные карты важности признаков по длинам волн.
Рис. 4: Распределение важности признаков по полу.
Рис. 4: Распределение важности признаков по полу.
Рис. 5: Временная и общая важность признаков.
Рис. 5: Временная и общая важность признаков.
Рис. 6: Важность признаков для классификации эмоций против нейтрального состояния.
Рис. 6: Важность признаков для классификации эмоций против нейтрального состояния.
Рис. 7: Оценка валентности и возбуждения.
Рис. 7: Оценка валентности и возбуждения.
Рис. 8: Экспериментальная установка.
Рис. 8: Экспериментальная установка.
Thumbnail 1
Thumbnail 2
Thumbnail 3
Thumbnail 4
Thumbnail 5
Thumbnail 6
Thumbnail 7
Thumbnail 8
Thumbnail 9
Thumbnail 10
Thumbnail 11
Thumbnail 12
Thumbnail 13
Thumbnail 14
Thumbnail 15
Thumbnail 16
Оригинал исследования на сайте автора
Читать короткую версию
Кликните еще раз для перехода

Классификация эмоциональных состояний по трансдермальным сердечно-сосудистым пространственно-временным паттернам лица с использованием мультиспектрального видео

В данной работе описывается новый метод дистанционной оценки эмоциональных состояний с использованием мультиспектральных видеозаписей лиц. Мы представляем уникальные трансдермальные, сердечно-сосудистые и пространственно-временные паттерны лица, связанные с различными эмоциональными состояниями. Метод не опирается на стереотипные выражения лица, а использует различную чувствительность к длинам волн (видимый спектр, ближний инфракрасный и длинноволновый инфракрасный) для пространственной и временной оценки коррелятов активности вегетативной нервной системы, распределенных по лицу человека (например, кровоток, концентрация гемоглобина и температура).

Был проведен эксперимент, в котором 110 участников просмотрели 150 коротких видеороликов, вызывающих эмоции, и сообщили о своем эмоциональном опыте. Три камеры записывали видео лиц с использованием нескольких длин волн. Пространственно-временные мультиспектральные признаки из мультиспектральных видео использовались в качестве входных данных для модели машинного обучения, которая смогла классифицировать эмоциональное состояние участников (восторг, отвращение, страх, сексуальное возбуждение или отсутствие эмоции) с удовлетворительными результатами (средний показатель ROC AUC 0.75). Также был проведен анализ важности признаков, позволяющий изучить проявления на лице для каждого эмоционального состояния. Обсуждаются результаты, касающиеся различных пространственно-временных паттернов, связанных с разными эмоциональными состояниями, а также преимущества данного метода по сравнению с существующими подходами к детекции эмоций.

Введение

Эмоции являются центральным аспектом человеческого опыта и функционирования, поэтому представляют первостепенный интерес для фундаментальных психологических исследований, клинической практики и прикладных областей. Поскольку эмоции включают в себя субъективные и не всегда легко наблюдаемые аспекты, существует значительная проблема в объективном и надежном измерении этих субъективных переживаний.

В последние годы активно разрабатываются технологии для точного распознавания эмоций. Основная цель исследований в этой области — дистанционное определение эмоционального состояния человека (то есть без использования контактного оборудования, такого как фМРТ [функциональная магнитно-резонансная томография] или ЭЭГ [электроэнцефалография]). Большинство существующих технологий, предназначенных для классификации эмоциональных состояний, на самом деле измеряют явные выражения лица, а не оценивают субъективные эмоциональные состояния участников1, 2, 3. Выражения лица относительно легко обнаружить и классифицировать с помощью алгоритмов благодаря их известному внешнему виду и существенным пространственным различиям между различными эмоциями. Методы, основанные на этом подходе, обычно демонстрируют более 90% успеха в распознавании выражений1, 2. Видимые выражения лица часто предоставляют полезную информацию об эмоциональном состоянии индивидов; однако многие исследования в психологии показывают, что выражения лица в основном служат коммуникативным целям — они отражают то, что люди хотят передать, а не их внутреннее состояние3.

Поиск новых подходов к распознаванию эмоций

В связи с этим были предприняты попытки разработать методы дистанционного распознавания эмоций, не полагающиеся на стереотипные выражения лица. Одним из таких сигналов являются тонкие, быстрые и спонтанные движения лицевых мышц, известные как микровыражения, которые характеризуются короткой продолжительностью в диапазоне от десятков до сотен миллисекунд4, 5. Как и в случае с видимыми выражениями лица, микровыражения могут предоставлять полезную информацию для детекции эмоций; однако нет надежных доказательств того, насколько микровыражения могут быть диагностическими для реального эмоционального состояния участников6.

Другой подход к распознаванию эмоций заключается в оценке активности вегетативной нервной системы (ВНС), которая, как известно, связана с субъективными эмоциональными состояниями индивидов7. Однако большинство современных методов обнаружения физиологических изменений, связанных с эмоциями (например, фотоплетизмография [ФПГ]8, ЭЭГ9, 10, артериальное давление, кожная проводимость и электрокардиограмма [ЭКГ]11), требуют прямого контакта (т. е. подключения испытуемых к измерительному оборудованию).

В последние годы были достигнуты успехи в попытках дистанционно измерять чрезвычайно тонкие физиологические изменения, связанные с эмоциями. Например, незначительные изменения температуры лица могут быть точно измерены с помощью тепловизионных камер, чувствительных к диапазону длинноволнового инфракрасного (LWIR) излучения12. Действительно, недавние работы показали, что незначительные колебания температуры по всему лицу, зафиксированные тепловизионной камерой, могут быть связаны с определенным эмоциональным состоянием13, 14, 15, 16, 17. Кроме того, видеозаписи в видимом свете (т. е. RGB) и ближнем инфракрасном (NIR) диапазонах содержат информацию, связанную с физиологическими сигналами, такими как сердечно-сосудистая активность и частота сердечных сокращений18, 19, а также концентрация гемоглобина и кровоток20, 21, 22.

Таким образом, новые методы оптической визуализации могут извлекать различные типы информации, связанной с эмоциями, которая потенциально может быть полезна для расшифровки эмоционального состояния человека. В частности, возможно извлечение пространственно дифференцированной информации о сердечно-сосудистой активности, незначительных сокращениях мышц и явных выражениях лица. Более того, в последние годы были достигнуты значительные успехи в способности обнаруживать информативные закономерности в многомерных данных с использованием новых алгоритмов машинного обучения.

Цель исследования

Учитывая это, в настоящей работе мы стремились использовать последние технологические достижения и передовые знания в области науки об эмоциях, чтобы выяснить, возможно ли точно классифицировать эмоциональное состояние человека по мультиспектральным видеозаписям лиц. Важно отметить, что наш подход включал:

  • (i) классификацию ожидаемого эмоционального состояния индивида на основе проверенных видеороликов, вызывающих эмоции, вместо идентификации стереотипных выражений;
  • (ii) использование набора пространственно распределенных мультиспектральных временных признаков, которые фиксируют изменения на дермальном и трансдермальном (то есть проходящих через кожу) уровнях;
  • (iii) использование этих разнообразных многомерных признаков в качестве входных данных для алгоритма машинного обучения.

Мы надеялись, что такой подход позволит нам достичь высокой точности в классификации реальных эмоциональных состояний людей и даст возможность создать пространственно распределенные карты лица, на которых будет показано, в каких областях содержится информация, связанная с эмоциональными состояниями.

Результаты

Мы проанализировали трансдермальные пространственно-временные мультиспектральные (TSTMS - Transdermal Spatiotemporal Multispectral) признаки, полученные из 4-секундных мультиспектральных видеозаписей лиц участников, просматривавших короткие видеоклипы, вызывающие эмоции, которые надежно вызывали 5 различных эмоций (восторг, отвращение, страх, сексуальное возбуждение и нейтральное). Многоклассовая классификация проводилась с использованием извлеченных TSTMS-признаков методом «один против одного» (OvO - One-vs-One) с использованием классификатора машинного обучения CatBoost от Yandex23, применяя метод кросс-валидации «исключение одного испытуемого» (LOOCV - Leave One Subject Out Cross-Validation). Кроме того, мы провели анализ важности пространственных, временных и спектральных признаков, чтобы лучше понять происхождение релевантной информации, которую классификатор использовал для достижения классификации.

Обработка несбалансированных данных

Поскольку каждый эксперимент в конечном итоге давал 130 видеозаписей лиц на испытуемого из исходных 150, для дальнейшего анализа несбалансированных данных (как поясняется в разделе «Обработка данных», количество видеозаписей в категории «сексуальное возбуждение» составляло 27, «нейтральное» — 30, «отвращение» — 26, «страх» — 22, и «восторг» — 25) и для возможности проведения инференса для каждого испытуемого в каждой итерации LOOCV, более крупные классы были случайным образом уменьшены до размера наименьшего класса (страх), что в общей сложности составило 22 видео на итерацию. Следовательно, несбалансированность была устранена до этапа инференса, что позволило использовать общие метрики статистической оценки, широко применяемые для оценки результатов классификаторов с сбалансированными данными, такие как площадь под характеристикой рабочей поверхности (ROC AUC - Receiver Operating Characteristic Area Under the Curve) и точность подмножества (subset accuracy)23.

Что касается этапа обучения, мы не хотели терять важную информацию, выполняя случайную подвыборку; поэтому мы использовали встроенную функцию class_weight (вес класса) из официального открытого классификатора CatBoost, которая штрафует ошибки в выборках класса i с весом класса classweight[i], генерируя взвешенную функцию потерь для предотвращения смещения классификатора, вызванного несбалансированными данными — распространенная практика в задачах классификации машинного обучения.

$$classweight[i]= rac{{n}_{samples}}{{n}_{classes} dot {n}_{samples / class}^{i}}$$

(1)

где i — индекс класса, n_{samples} — общее количество выборок всех классов, n_{classes} — количество классов, а n_{samples / class}^{i} — количество выборок для класса i.

Результаты классификации

Результаты классификации показали средний показатель ROC AUC 0.75 (базовый случайный классификатор — 0.5) и среднюю точность подмножества 0.44 (базовый случайный классификатор — 0.2), которая также известна как «точное совпадение» (exact match), определяемая как количество выборок, у которых все метки классифицированы правильно, деленное на общее количество выборок:

$$Subse{t}_{accuracy}eft(y,idehat{y} ight)= rac{1}{{n}_{samples}}um_{i=0}^{{n}_{samples}1}1eft({y}_{i}={idehat{y}}_{i} ight),$$

(2)

где y — результат классификатора, а idehat{y} — истинное значение. Следует отметить, что эта метрика считается более строгой по сравнению со средней точностью, при которой аналогичный расчет выполняется отдельно для каждого класса, а затем усредняется по всем классам.

Для оценки результатов классификации эмоций мы представляем две метрики (Рис. 1а): средний ROC AUC за 110 итераций LOOCV24 для каждого класса эмоций (Рис. 1а, слева) и сбалансированную точность (ACC - Accuracy)25 (Рис. 1а, справа) для каждого класса эмоций. Оба показателя отображают значения вне диапазона 1.5 IQR как серые точки. Общие средние значения этих метрик находятся в правом нижнем углу. Метрика ROC AUC основана на пространстве сырых вероятностей классификатора, варьируется в диапазоне от 0.5 до 1, где 0.5 — случайное угадывание, а 1 — идеальный классификатор. С другой стороны, метрика ACC основана на окончательном решении классификатора относительно того, к какому классу точно принадлежит каждое рассматриваемое видео лица согласно наилучшему порогу вероятности, варьируется в диапазоне от 0 до 1, где 0.2 — случайное угадывание (для задачи классификации из 5 классов), а 1 — идеальный классификатор.

Нормализованная по строкам матрица ошибок (Рис. 1b) представляет результаты классификации по классам эмоций, усредненные по всем 110 итерациям LOOCV. Согласно этой мере, кажется, что классификатор лучше всего справился с классом сексуального возбуждения (S), за которым следуют нейтральный класс (N), затем отвращение (D) с результатами, схожими со страхом (F), и, наконец, восторг (A).

Анализ важности пространственных признаков

Анализ важности признаков был основан на подходе изменения функции потерь (LFC - Loss Change Function), встроенном в пакет Python CatBoost classifier от Yandex. В этом подходе пространство признаков оценивается с использованием разницы между значением потерь модели, обучаемой с каждым из параметров признаков и без них. Таким образом, были получены уникальные, насколько нам известно, карты пространственной важности признаков лица, наряду с интригующими временными и спектральными выводами (Рис. 2, 3, 4, 5, 6).

Задачи классификации с k классами могут порождать k rac{k-1}{2} бинарных классификаторов: один класс против каждого из других классов. Следовательно, наши 5 классов могут породить в общей сложности 10 бинарных классификаторов. Карты пространственной важности признаков представлены на Рис. 2 для каждого из этих 10 бинарных классификаторов. Буквы, обозначающие каждую из эмоций, маркируют различные строки и столбцы, в результате чего каждая карта отмечена двумя буквами, представляющими два класса бинарного классификатора.

Например, на Рис. 2 показано, что для классификации «восторг (A) против сексуального возбуждения (S)» и «восторг (A) против страха (F)» большинство областей важности (ROIm - Region Of Importance, т. е. «горячие точки») расположены вокруг щек, в то время как для классификации «восторг (A) против отвращения (D)» наблюдается значительный ROIm в нижней части лба или между бровями. Кроме того, кажется, что бинарные классификаторы «отвращение (D) против сексуального возбуждения (S)» и «нейтральное (N) против сексуального возбуждения (S)» в большей степени зависят от оценочной частоты сердечных сокращений (EHR - Estimated Heart Rate) вне пространственно-временных характеристик (т. е. F8), поскольку их общие сводки, представленные над каждой пространственной картой, составляют 82.03% и 81.99% соответственно, в то время как остальная важность приходится на F8.

Для количественной оценки мы определили области интереса (ROI - Regions Of Interest) вокруг лба, левого и правого глаз, левой и правой щек, а также рта (представлены на Рис. 4b, c) и извлекли средние значения важности признаков по пикселям. Среднее значение для классификации «восторг против страха» было выше на щеках (M = 0.158, SD = 0.002) по сравнению с остальной частью лица (M = 0.099, SD = 0.002), p < 0.001. Среднее значение для классификации «восторг против сексуального возбуждения» было выше на щеках (M = 0.130, SD = 0.002) по сравнению с остальной частью лица (M = 0.085, SD = 0.002), p < 0.001. Важное среднее значение для классификации «восторг против отвращения» было выше на лбу (M = 0.235, SD = 0.005) по сравнению с остальной частью лица (M = 0.011, SD = 0.002), p < 0.001.

Пространственно распределенные карты важности признаков для каждого признака, зависящего от длины волны (F1–F7), полученные в результате многоклассовой классификации OvO (усредненные по всем участникам), представлены на Рис. 3, а общая пространственная важность, усредненная по всем признакам F1–F7, представлена в правом нижнем углу. Как определено в Таблице 1, F1 представляет собой пространственное распределение ROIm лица, связанное с изменениями температуры, экстраполированное из тепловизионной камеры. F2–F4 и F7 представляют собой пространственную важность амплитуды пульсации в красном (R), зеленом (G), синем (B) и ближнем инфракрасном (NIR) диапазонах соответственно. Похоже, что ROIm для F2 в основном находится вокруг рта, для F3 — вокруг глаз, для F4 — преимущественно на щеках и в нижней части лба между бровями, а для F7 — вокруг внутренней части глаз (NIR-диапазон, на котором основан F7, обычно используется для отслеживания взгляда28). F5 и F6 представляют собой различие амплитуд пульсации и разницу в поглощении между красным и синим диапазонами соответственно. ROIm для F5, похоже, распределен вокруг рта, щек и нижней части лба, а ROIm для F6 — в основном вокруг щек и нижней части лба.

Карты пространственных сводок по признакам (Рис. 3) показывают расположение ROIm. Эти расположения также обеспечивали лучший сигнал сердечного ритма при рассмотрении в частотной области, как описано в подразделе «Оценка частоты сердечных сокращений» в разделе «Обработка данных». Например, при рассмотрении в частотной области щеки давали лучший сигнал сердечного ритма по сравнению с носом.

Среднее значение всех 5 импульсных кадров (как представлено на Рис. 5а) и всех карт пространственной важности признаков (F1–F7, как представлено на Рис. 5b), обученных отдельно для женщин и мужчин, представлено на Рис. 4b–c, с усредненными и проанализированными по полу различными областями лица на Рис. 4а. Видно, что у женщин больше ROIm распределено по лбу и между бровями. В нижних областях щек ROIm, похоже, появляется реже у мужчин, но это может быть связано с растительностью на лице (бородой) у некоторых мужчин-участников, которая в основном располагалась в области нижних щек. Все эти различия статистически значимы, p < 0.05.

Кроме того, согласно Рис. 4а, мужчины демонстрируют более асимметричное распределение ROIm по сравнению с женщинами, особенно при сравнении правого и левого глаз, и в некоторой степени при сравнении правых и левых щек.

Анализ важности временных и спектральных признаков (многоклассовая OvO)

Временная важность признаков (относительно момента импульсного кадра) представлена на Рис. 5а, где импульсные кадры представляют собой пространственно-временное мультиспектральное пространство, усредненное относительно пространственных и мультиспектральных измерений. Похоже, что первый импульсный кадр содержит примерно вдвое больше информации, влияющей на классификатор, по сравнению с остальными импульсными кадрами. Однако при отдельном рассмотрении 10 бинарных классификаторов вместо использования подхода многоклассовой OvO, бинарные классификаторы «отвращение против нейтрального», «восторг против нейтрального» и «восторг против отвращения» показали исключение из этого правила.

Общая важность признаков после пространственно-временного суммирования для каждого признака представлена на Рис. 5b. F1–F7 — это пространственно-временные признаки с 50 × 35 пикселями в каждом импульсном кадре (т. е. пространственное измерение) и 5 импульсными кадрами (т. е. временное измерение), что в общей сложности составляет 8750 параметров на признак. Кроме того, F8 — это EHR (оценочная частота сердечных сокращений) зеленого канала {(HR}^{G}), который является единичным параметром.

Согласно Рис. 5b, в условиях нашего эксперимента диапазоны LWIR (F1) и NIR (F7) показали результаты ниже ожидаемых по сравнению с обычными RGB-каналами, поскольку F1 и F7 обеспечили наименьшую общую важность признаков по сравнению с другими пространственно-временными признаками (F2–F6).

При исследовании важности каждого признака (показано в Таблице 1) для 4 бинарных классификаторов (восторг, отвращение, страх и сексуальное возбуждение против нейтрального), представленных на Рис. 6, похоже, что F5, F6 и F8 демонстрируют существенно различную значимость для каждого бинарного классификатора (т. е. эмоции) и несколько различную значимость для F3. F5 существенно важнее для классификации страха против нейтрального, F6 важнее при классификации восторга или отвращения против нейтрального, F3 несколько более значим при классификации отвращения против нейтрального, а единичный параметр F8 (частота EHR) более важен на порядок для классификации сексуального желания против нейтрального по сравнению с восторгом или отвращением против нейтрального. Далее, F8 существенно важнее для классификации страха против нейтрального по сравнению с восторгом или отвращением против нейтрального. Эти результаты подразумевают, что каждая из исследуемых эмоций имеет свое уникальное физиологическое поведение с соответствующими спектральными зависимостями, в то время как восторг и отвращение несколько более схожи (например, очень низкая значимость F8 и очень высокая значимость F6 для обоих).

Валидация процедуры вызывания эмоций

На Рис. 7 представлены результаты оценки валентности и возбуждения по обратной связи участников, полученной во время экспериментов, по классам эмоций и полу, как подробно описано в разделе «Экспериментальная установка» в «Методах». Эти данные могут быть использованы для проверки того, насколько успешно различные видеоролики, вызывающие эмоции, выполнили свою задачу по вызову ожидаемых эмоций.

На Рис. 7а показано (слева направо), что как женщины, так и мужчины дали несколько нейтральный ответ на видеоролики нейтральной категории (ожидаемо, значения около 5 как базовый уровень). Женщины испытали более негативные эмоции от видеороликов, вызывающих отвращение и страх (медиана около 2 и 3 соответственно), по сравнению с мужчинами, однако мужчины также испытали негативные эмоции от этих классов эмоций (медиана около 3.5 и 4 соответственно). С другой стороны, видеоролики категории «восторг» успешно вызвали положительные эмоции у участников на одинаковом уровне как у мужчин, так и у женщин. Видеоролики категории «сексуальное возбуждение» вызвали несколько нейтральные ощущения (в среднем) у женщин (медиана около 5), но положительные у мужчин (медиана около 6).

На Рис. 7b показано (слева направо), что и женщины, и мужчины сообщили о очень низком уровне возбуждения от видеороликов нейтральной категории (медианные значения около 2.5). Оба пола испытали лишь незначительное повышение возбуждения выше базового уровня от категорий «отвращение» и «страх» (медианные значения около 5.5), несколько ниже базового уровня реагирования на «восторг», причем женщины показали немного более низкие результаты, чем мужчины. В категории «сексуальное возбуждение» женщины сообщили о результатах около базового уровня, в то время как мужчины испытали некоторое возбуждение (медиана около 6).

Обсуждение

В настоящей работе мы разработали новый метод дистанционной оценки эмоциональных состояний. Мы записывали лица участников с помощью камер, чувствительных к RGB-, NIR- и LWIR-спектрам, в то время как участники просматривали видеоролики, надежно вызывающие различные эмоции (страх, отвращение, сексуальное возбуждение, восторг или нейтральное состояние) и сообщали о своем эмоциональном состоянии. Поскольку различные исследуемые длины волн имеют разные физические свойства, такие как глубина проникновения в кожу, поглощение гемоглобина и т. д.29, 30, TSTMS-признаки были разработаны для максимизации физиологической информации, улавливаемой камерами, на основе методов удаленной фотоплетизмографии (rPPG - remote photoplethysmography)31, 32. Этот многомерный набор данных использовался в качестве входных данных для алгоритма классификации эмоций машинного обучения, который обнаружил уникальные закономерности, связанные с каждым классом эмоций.

Предложенный метод достиг среднего показателя ROC AUC 0.75 и средней точности подмножества 0.44, что можно считать конкурентоспособной точностью классификации в области психологии. Важно отметить, что наш метод классификации эмоций основан на дистанционной (видео) съемке, что может быть практичным в использовании. Хотя, возможно, неудивительно, что наш мозг содержит информацию, которую можно использовать для определения эмоциональных состояний, несколько более удивительно, что человеческое лицо содержит достаточно физиологической информации, доступной для дистанционного считывания, чтобы дать достаточно точную оценку эмоционального состояния человека.

Более того, наш метод позволил нам обнаружить различные пространственные закономерности, которые надежно связаны с разными эмоциональными состояниями, полученными благодаря большому количеству участников в экспериментальном наборе данных. Анализ важности признаков классификатора CatBoost показал, что различные индуцированные эмоции имеют несколько уникальные пространственно-временные характеристики. Эти результаты соответствуют гипотезе и выводам Лю и др.27, в которых наблюдались уникальные лицевые пространственно-временные закономерности, иногда асимметричные, связанные с сердечно-сосудистой активностью, и предположительно связанные с активностью ВНС, следовательно, и с эмоциональным состоянием.

Методы обнаружения эмоций могут быть полезны в коммерческих контекстах (например, для облегчения взаимодействия с роботами), судебно-медицинских контекстах (например, для помощи в выявлении лжи) и терапевтических контекстах (например, биообратная связь). Однако современные технологии, претендующие на определение эмоций по видео, лишь идентифицируют стереотипные эмоциональные выражения, которые не обязательно соответствуют реальным эмоциональным состояниям и с большей вероятностью соответствуют коммуникативным намерениям (например, сознательное выражение симпатии к человеку)33. В данном исследовании участники находились в комнате одни и редко проявляли явные выражения лица; тем не менее, наше использование трансдермальных атрибутов, которые могут быть получены при оптической визуализации, позволило нам получить достаточную информацию с лица для определения реального (а не просто выраженного) эмоционального состояния участников. Таким образом, настоящая работа может иметь большое практическое значение для мира детекции эмоций.

Результаты показывают, что трансдермальные признаки, связанные с сердечно-сосудистой системой, передают эмоциональное состояние человека. Однако ограничением данной работы является то, что мы не можем оценить, в какой степени видимые движения мышц (например, выражения лица или даже микровыражения) способствовали сигналу. Тем не менее, сильное пространственное усреднение и субдискретизация изображений лица до 35 × 50 пиксельных значений перед формированием признаков снижает чувствительность процесса классификации к небольшим пространственным движениям лица, предполагая, что большая часть (если не вся) релевантная для классификации информация действительно имела трансдермальное происхождение (т. е. невидима невооруженным глазом). Тем не менее, мы не утверждаем, что трансдермальные пространственно-временные лицевые сигналы не коррелируют с выражением лица. Действительно, активация мышц является физиологическим процессом, который также может быть обнаружен с помощью трансдермальной визуализации (например, ROI между бровями, активируемая при отвращении). Чувствительные трансдермальные признаки могут отражать незначительные (или даже значительные) сокращения мышц, связанные с выражениями лица; однако при рассмотрении видеозаписей лиц очевидно, что явные стереотипные выражения встречались очень редко (поскольку участники находились в комнате одни и не имели намерения передавать свои эмоции другим).

Помимо прикладного использования данного метода, наш подход может также способствовать фундаментальным научным исследованиям биологических основ эмоциональных состояний. Данное исследование предоставляет первые свидетельства широко распределенных пространственно-временных закономерностей сердечно-сосудистой активности по всему человеческому лицу, связанных с конкретными эмоциональными состояниями. Будущие исследования могли бы начать расшифровывать карты, описанные в этом исследовании, чтобы понять их функциональную основу. Для примера, карты пространственной важности выделили гендерные различия: область между бровями и нижняя часть лба (около мышцы гордецов и верхней височной артерии) предоставляла гораздо больше информации для классификации эмоций у женщин по сравнению с мужчинами. Дальнейшие исследования могли бы более глубоко изучить конкретный физиологический источник таких «горячих точек» информации и их потенциальное функциональное значение.

Более того, текущий метод может предоставить много полезной информации о временной каскаде вызывания эмоций. Например, результаты показали, что первый импульсный кадр (примерно менее секунды каждого видео) содержал вдвое больше релевантной информации по сравнению с последующими кадрами (Рис. 5а). Однако исключение из этого правила было обнаружено в бинарных классификациях: «отвращение против нейтрального», «восторг против нейтрального» и «восторг против отвращения». Эти результаты могут указывать на то, что физиологические реакции лица на отвращение и восторг являются более затяжными, чем на сексуальное возбуждение и страх. Опять же, будущая работа могла бы более глубоко изучить такие выводы и исследовать их потенциальную функциональную значимость.

В заключение, наши результаты предполагают новый, многообещающий подход для дистанционной оценки эмоциональных состояний. Кроме того, анализ важности признаков классификатора дает некоторые сведения о дистанционно измеряемых физиологических изменениях, происходящих во время различных индуцированных эмоций, которые, как ожидается, связаны с симпатической и парасимпатической нервными системами как частью ВНС. Будущие исследования могли бы опираться на наш метод для получения еще более надежных мер эмоциональных состояний и для исследования психофизиологии эмоций.

Ограничения

Одним из возможных ограничений применимости нашего метода является то, что мы полагались на мультиспектральные видео, полученные с помощью несколько дорогих и чувствительных камер (в основном тепловизионной). Однако, на удивление, наши результаты показали, что в видимом свете достаточно информации; таким образом, используя описанный здесь конвейер, обычные RGB-камеры, вероятно, смогут дать конкурентоспособные результаты. Тем не менее, будущие применения нашего конвейера, использующие тепловизионные или NIR-камеры с лучшей чувствительностью, могут обнаружить другое сочетание важности для различных задач. Также следует отметить, что экологическая валидность исследования может быть ограничена различными факторами, как это часто бывает в исследованиях аффективной науки, проводимых в лаборатории. Это место позволяет исследователям осуществлять строгий экспериментальный контроль и повышать внутреннюю валидность, но это часто происходит за счет внешней валидности. Например, эмоции в нашем исследовании вызывались видеостимулами (а не реальным жизненным опытом), и участники проходили исследование в одиночку (тогда как в реальной жизни эмоции часто возникают в социальных взаимодействиях). Из-за практических соображений мы не могли сосредоточиться на многих категориях эмоций, представляющих интерес. Таким образом, мы сосредоточились на четырех категориях эмоций, которые, вероятно, приведут к разделимым физиологическим сигналам. В свете этого мы решили сосредоточиться на двух фундаментальных положительных (сексуальное возбуждение, восторг) и двух отрицательных (страх, отвращение) эмоциях, которые, как считается, чрезвычайно отличаются друг от друга. Кроме того, с практической точки зрения, больше категорий продлило бы эксперимент (который и так длится около часа) и могло бы привести к потере вовлеченности участников в задачу.

Методы

Этика

Экспериментальные протоколы были одобрены Этическим комитетом (IRB - Institutional Review Board) Университета Бен-Гуриона, и исследование проводилось в соответствии с руководящими принципами IRB и принципами надлежащей клинической практики. Все участники предоставили информированное согласие. На рисунках, представленных в рукописи, изображены не конкретные участники, а усредненный сигнал от 110 испытуемых. Только лицо одного из авторов представлено на двух рисунках данной статьи.

Экспериментальная установка и сбор данных

Мы создали большую базу данных коротких видеозаписей лиц участников, просматривавших короткие видеоклипы, предназначенные для вызывания различных эмоций. Типы эмоций были: восторг, отвращение, страх, сексуальное возбуждение и нейтральное состояние как база. Одновременно записывались три видеозаписи лица с помощью трех камер (RGB, NIR и LWIR [тепловизионная]).

Наша база данных эмоций была составлена из трех основных наборов данных: видеоролики, вызывающие эмоции категорий «отвращение», «страх» и «восторг», были взяты из базы данных Коуэна и др.34, в то время как нейтральные видеоклипы были взяты из базы данных Самсона и др.35. Кроме того, мы провели онлайн-исследование с участием 41 участника, набранного через Amazon Mechanical Turk, для валидации видеоклипов, вызывающих сексуальное желание, которые были собраны с порнографических веб-сайтов.

Всего в эксперименте приняли участие 110 испытуемых (63 женщины и 47 мужчин) в возрасте от 18 до 33 лет (средний возраст 24.6). Участники предоставили информированное согласие и затем разместились перед экраном (Рис. 7а) в небольшой комнате с полным уединением, их лица были зафиксированы с помощью специального подбородочного крепления. Каждому испытуемому было представлено сто пятьдесят различных коротких видеоклипов, вызывающих эмоции, продолжительностью примерно от 4 до 15 секунд (средняя продолжительность 7 секунд). Порядок воспроизведения видео был установлен блоками по 5 видео одного и того же класса эмоций (6 блоков для каждого класса эмоций). Это было важно для снижения частоты смены эмоций до 30 в течение всего эксперимента, который длился около 50 минут, и для дальнейшего обеспечения того, чтобы желаемая эмоция успешно вызывалась в течение этого временного интервала. Блоки перемешивались в 4 различных последовательностях порядка блоков, которые случайным образом использовались для каждого эксперимента. Между воспроизведением каждого видео программное обеспечение компьютера выводило всплывающее окно с вопросами для получения обратной связи о том, как испытуемый чувствовал себя по поводу просмотренного короткого видео:

  • Q1 (валентность): Как вы себя чувствовали после просмотра последнего видео? (шкала от 1 до 9, где 1 — самое негативное, 9 — самое позитивное).
  • Q2 (возбуждение): Насколько последнее видео вызвало у вас возбуждение? (шкала от 1 до 9, где 1 — совсем нет, 9 — очень сильно).
  • Q3: Какая эмоция была самой доминирующей во время просмотра последнего видео? (S [сексуальное возбуждение], A [восторг], F [страх], D [отвращение], N [нейтральное], none [никакой]).

В дополнение к вышеуказанным вопросам, задаваемым после каждого короткого видео, в конце эксперимента были заданы общие вопросы относительно пола испытуемого, сексуальной ориентации и возраста.

Во время воспроизведения видеороликов, вызывающих эмоции, тройные камеры записывали видео лиц испытуемых с частотой 30 кадров в секунду. Разрешение RGB-камеры было установлено на 960 × 540 и оптически настроено для соответствия лицу испытуемого. Разрешение NIR-камеры было установлено на 640 × 480 и вручную кадрировано программно для примерного соответствия лицу испытуемого. Разрешение тепловизионной камеры было установлено на 382 × 290 и вручную настроено для каждого лица испытуемого. Поскольку LWIR-камера основана на охлаждаемом болометре, некоррекция неравномерности для удаления пространственного постоянного шума проводилась за 0.5 секунды до начала каждой новой записи.

Эксперименты проводились с использованием специально написанного программного обеспечения на MATLAB для этого эксперимента, работающего на ПК с процессором Intel i79700 и 32 ГБ ОЗУ. Использованная RGB-камера — Sony Alpha 6000 (Рис. 8b, нижний левый угол) с объективом 16–50 мм, подключенная к плате захвата Magewell USBHDMI и с прикрепленной системой активного охлаждения собственной конструкции. NIR-камера (Рис. 8b, верхняя часть) — ELP 2 MP на основе датчика CMOS OV2710, с 10 × 850 нм светодиодами, оптическим фильтром верхних частот с отсечкой 650 нм и объективом 3.6 мм, в то время как тепловизионная камера (Рис. 8b, нижний правый угол) — OPTRIS PI450, чувствительная в LWIR-диапазоне 7.5–14 мкм, с NETD 40 мК и объективом 18.7 мм. К NIR- и LWIR-камерам был прикреплен пассивный радиатор с использованием теплопроводящей ленты для ограничения повышения температуры, параметра, коррелирующего с температурным дрейфом LWIR-камеры.

Обработка данных

Начальная обработка

Чтобы избежать смещения, связанного с продолжительностью, в процессе обучения классификации, записанные видео лиц были нарезаны так, чтобы включать только первые 120 кадров, что давало последовательные видеозаписи лиц одинакового размера продолжительностью 4 секунды для обработки. Видео, которые были немного короче 4 секунд (всего несколько кадров), были исключены из дальнейшего анализа (1 видео из категории «отвращение», 4 видео из категории «страх» и 3 видео из категории «сексуальное возбуждение»). Чтобы исключить видеозаписи лиц, полученные из видеороликов, вызывающих эмоции, которые не продемонстрировали значимых характеристик вызова эмоций в начальные 4 секунды, авторы определили, какие дополнительные видео следует исключить (3 видео из категории «отвращение», 4 видео из категории «страх» и 5 видео из категории «восторг»). В общей сложности этот процесс дал 130 видеозаписей лиц на эксперимент для каждого испытуемого (из исходных 150 записанных) для дальнейшего анализа. Таким образом, 5 классов видео (изначально по 30 видеоклипов в каждом классе) стали несбалансированными со следующими количествами: сексуальное возбуждение — 27 видео, нейтральное — 30 видео, отвращение — 26 видео, страх — 22 видео и восторг — 25 видео. Эти несбалансированные значения были позднее обработаны, как объяснено в подразделе «Обработка несбалансированных данных» в разделе «Результаты».

Мы провели валидационное исследование, в котором проверили, вызывают ли 4-секундные видеоклипы ту же преобладающую эмоцию, что и более длинные версии. Мы провели онлайн-исследование с участием 49 участников (34 женщины; 15 мужчин). Участники просмотрели все 130 видеороликов, вызывающих эмоции, из оригинального исследования в случайном порядке; в отличие от оригинального исследования, каждое эмоциональное видео заканчивалось через первые четыре секунды (что соответствует временным рамкам, используемым в анализе). Участники сообщали о преобладающей эмоции, которую вызывало у них видео. В 98.5% случаев большинство голосов участников совпали с истинной категорией видео. Эта точность была идентична той, что наблюдалась в эксперименте, где отчеты участников основывались на немного более длинных видео. Таким образом, эти результаты предполагают, что первые четыре секунды каждого видео (на основе которых проводился анализ) надежно генерировали преобладающую категорию эмоций, которую они должны были вызвать.

Затем для каждого записанного видео точные области лица в RGB- и NIR-каналах были локализованы с использованием предварительно обученного на основе машинного обучения классификатора Виолы-Джонса, реализованного OpenCV36, 37. Для LWIR-канала использовалась большая разница температур между лицом и фоном для поиска нужной области лица с использованием адаптивного порогового преобразования Отсу38, после чего все пиксели со значениями ниже 30 °C устанавливались в ноль. Чтобы улучшить снижение шума временной информации и уменьшить объем данных, каждый кадр видео лица пространственно уменьшался путем локального усреднения в два этапа: сначала выполнялось усреднение по всем каналам: для каналов R, G, B использовались блоки усреднения 10 × 10 пикселей; для каналов NIR и LWIR использовались блоки 5 × 5, что приводило к новым уменьшенным пространственным разрешениям пикселей. Кадры, которые не делились идеально на блок усреднения, обрезались для соответствия. Затем, для получения идентичного конечного разрешения для всех камер, выполнялась бикубическая интерполяция в пространстве для получения конечного разрешения 50 × 35 пикселей для всех каналов, что позволяло коррелировать различные пиксели разных камер с достаточной пространственной точностью.

На Рис. 9 представлен временной сигнал из области лба, показывающий изменение серого уровня пикселя в течение 14 секунд (до процедуры нарезки из 120 кадров), до (a1–c1) и после (a2–c2) процесса пространственного уменьшения. Процесс пространственного уменьшения имитирует лицевые участки, используемые Янгом и др.19, создавая множество временных сигналов сердечного ритма, каждый из которых исходит из разных областей лица, генерируя пространственно-временные физиологически связанные сигналы для дальнейшего анализа.

Оценка частоты сердечных сокращений

EHR (оценочная частота сердечных сокращений) четко видна при сравнении частотных сигналов фоновых пикселей (Рис. 10а) с частотными сигналами пикселей кожи (Рис. 10b) из-за пиков частоты RGB- и NIR-каналов примерно при 1.1 Гц, чего нет в случае фоновых пикселей. LWIR-канал не давал сравнимых частотных компонентов в ожидаемом диапазоне частот сердечных сокращений и использовался иначе на последующих этапах. Сигналы, представленные на Рис. 10а, b, были отфильтрованы верхними частотами на 0.25 Гц для фильтрации нерелевантных низкочастотных компонентов. Более высокая видимость сердечного ритма в RGB- и NIR-каналах по сравнению с LWIR-каналом также наблюдается во временных сигналах на Рис. 11 по сравнению с Рис. 12.

Поглощение гемоглобина наиболее высоко в видимом и ближнем инфракрасном (VIS–NIR) спектре, с пиком в синем и зеленом диапазонах длин волн. Таким образом, ожидается, что оба канала будут иметь более сильные сигналы, связанные с сердечным ритмом, из-за изменений объема артерий, которые модулируют рассеянный отраженный свет, улавливаемый сенсором камеры39. Кроме того, CMOS-сенсор камеры имеет байеровскую структуру пикселей, что означает, что количество пикселей зеленого канала вдвое больше, чем у синего и красного, что приводит к меньшему шуму39, как видно на Рис. 10а. Спектральное рассеянное отражение зеленого канала выше по сравнению с синим каналом, что означает, что больше рассеянного отраженного света длиной волны зеленого канала проникало в кожу и содержало полезную информацию по сравнению с синим каналом29. По всем этим причинам процедура, разработанная для численной оценки частоты сердечных сокращений коротких видео лиц, использовала только зеленый канал.

Каждый из временных сигналов, принадлежащих каждому пикселю зеленого канала, был полосно-фильтрован с использованием фильтра Баттерворта 6-го порядка с граничными частотами 0.75–4 Гц, которые включают ожидаемые частоты сердечных сокращений. Затем к каждому из этих временных сигналов применялась БПФ (быстрое преобразование Фурье), и он был разрезан пополам, сохраняя только положительные частоты. Используя частоту с максимальным значением в каждом из частотных векторов, принадлежащих каждому пикселю, была создана 2D-пространственная карта частот с максимальным значением энергии (Рис. 13d), размыта с использованием ядра 5 × 5 для лучшей обработки шума (Рис. 13e) и бинаризована с использованием адаптивного порогового преобразования Отсу38 (Рис. 13f). Затем к бинаризованной пространственной карте пиков частот применялось морфологическое открытие (эрозия с последующей дилатацией) с ядром 5 × 5, что дало пространственную маску (Рис. 13g). Умножение этой маски на исходную пространственную карту частот дает карту лиц с частотами максимальных значений энергии (Рис. 13h), в которой наиболее распространенное значение частоты, являющееся медианой всех ненулевых элементов, представляет EHR, установленную как Признак 8 (F8): {{arvec{H}}{arvec{R}}}^{{arvec{G}}}.

Поиск пиков и спадов сигнала сердечного ритма

Для поиска пиков и спадов (P&T - Peaks and Troughs) сигнала сердечного ритма в каждом канале, как представлено на Рис. 11а–d, к временному сигналу каждого пикселя применялся алгоритм поиска пиков с двумя порогами: минимальное допустимое расстояние во времени между пиками (временной порог, t_s) и минимальная выраженность амплитуды, измеренная от вершины каждого пика до его самой нижней контурной линии (порог выраженности, p). Для всех каналов временной порог был установлен как минимум t_se rac{3}{4} rac{{f}_{s}}{{h}_{r}} кадров, где h_r — EHR в Гц, а f_s — эффективная частота кадров в Гц. Из-за характеристик шума каждого канала (Рис. 10а), связанных с используемыми камерами и условиями освещения, минимальный порог выраженности амплитуды был установлен как pe 0.4 для каналов G и NIR, а для каналов R и B выраженность была установлена как pe 0.2. Поскольку не все пиксели в каждом записанном видео были пикселями кожи лица с четким сигналом сердечного ритма, ожидается, что пиксели с плохим сигналом сердечного ритма будут иметь меньшее количество найденных P&T. Следовательно, для создания многомерного пространства (пространственное [x,y]; временное [t] и спектральное [ambda]) со значениями серого уровня P&T, более короткие массивы P&T были дополнены нулями до максимальной длины временного измерения P&T. Например, на Рис. 11а было найдено 4 пика, и поэтому они были расширены нулевым дополнением до максимального количества найденных пиков.

Поскольку LWIR-канал не показал четкой или какой-либо информации, связанной с сердечным ритмом (Рис. 10b), он был отфильтрован нижними частотами на 0.75 Гц с использованием фильтра Баттерворта 6-го порядка (Рис. 12, черная кривая) и уменьшен до 1.5 Гц для сохранения информации, связанной с относительно медленными временными изменениями температуры в каждом пикселе, подавляя при этом шум, как показано на Рис. 12 серой кривой. Уменьшенные значения, представленные на Рис. 12 в виде красных точек, использовались как Признак 1 (F1): {{arvec{T}}{arvec{M}}{arvec{P}}}^{{arvec{L}}{arvec{W}}{arvec{I}}{arvec{R}}}.

Трансдермальные пространственно-временные мультиспектральные (TSTMS) признаки

TSTMS-признаки были разработаны для максимизации дистанционно измеряемой информации о релевантных физиологических параметрах, известных своей связью с активностью ВНС, тем самым значительно уменьшая размер данных и делая их проще и быстрее для обработки с помощью классификатора машинного обучения.

Рассеянный отраженный свет от кожи человека зависит от типа кожи, ее цвета и падающей длины волны29, 30, что позволяет дистанционно определять информацию, связанную с концентрацией основных абсорбентов или изменением объема артерий. Основными абсорбентами в коже человека в оптическом окне 300–1200 нм считаются билирубин (Bl) (в коже и плазме крови)20, ДОФА-меланин (Ml), гемоглобин (Hb), оксигемоглобин ({HbO}_{2})30, карбоксигемоглобин (COHb) и метгемоглобин (MetHb)31. Согласно закону сохранения энергии (Уравнение 3)42:

$${I}_{0}={R}_{S}+{R}_{D}+{T}_{z}+{A}_{z}$$

(3)

где I_0 — поток, падающий на поверхность, зеркальное отражение R_S и рассеянное отражение R_D — общее количество потока, отраженного поверхностью, пропускание T_z — количество потока, проходящего через вещество на глубине z, а любой поток, который не отражается и не пропускается, поглощается, обозначается как A_z^{40}. Количество пропущенного потока может быть определено законом Бугера-Ламберта (Уравнение 4), который описывает экспоненциальное затухание света при прохождении через однородную светопоглощающую среду, где I_z — интенсивность света на глубине z, а {lpha }_{c,ambda } — поглощение света с зависимостью от концентрации материала и длины волны ambda^{41, 42}.

$${T}_{z}= rac{{I}_{z}}{{I}_{0}}=athrm{exp}eft({lpha }_{c,ambda }z ight)$$

(4)

Поглощенный поток на глубине кожи z связан с пропусканием на глубине кожи z как40:

$${A}_{z}=athrm{log}({T}_{z})$$

(5)

Принимая и преобразуя Уравнение 5 в Уравнение 3, получаем связь между рассеянным ({R}_{D}) и зеркальным ({R}_{S}) отраженным светом, улавливаемым сенсором камеры, и падающим потоком ({I}_{0}), а также общим поглощенным потоком (athrm{log}({T}_{z})) (Уравнение 5) и общим пропущенным потоком ({T}_{z}), что приводит к Уравнению 6:

$${R}_{D}+{R}_{S}={I}_{0}+athrm{log}({T}_{z}){T}_{z}$$

(6)

Изменение пройденного расстояния среды {elta z}_{(t)} (Уравнение 4) из-за изменения объема артерий, вызванного пульсацией сердца18, 31, 32, будет связано с изменением рассеянного отраженного света elta {R}_{D(t)} (Уравнение 6). Поскольку R_S и I_0 считаются постоянными, где {R}_{D}^{min} достигается при максимальном диаметре артерии, а {R}_{D}^{max} — при минимальном диаметре артерии31 (максимальное поглощение приведет к минимальному отражению и наоборот), Уравнение 6 может быть выведено по отношению к временным изменениям, вызванным пульсацией сердца, чтобы стать Уравнением 7:

$$ rac{{artial R}_{D}}{artial t}= rac{artial eft(logeft({T}_{z} ight){T}_{z} ight)}{artial t}$$

(7)

Поскольку рассеянный отраженный свет R_{D(t)} связан с T_z согласно Уравнению 7, и с законом Бугера-Ламберта согласно Уравнению 4, признаки, обычно используемые в контактной ФПГ, могут быть использованы нашим методом дистанционной ФПГ на основе рассеянного отраженного света. Следовательно, на основе временных признаков, обычно используемых для многих контактных применений ФПГ, связанных с изменениями концентрации гемоглобина20, 21, 22, 31, 42, 43, и на основе закона Бугера-Ламберта, были использованы следующие признаки, с двумя дополнительными пространственными измерениями {f}_{ambda ,t} o {f}_{x,y,ambda ,t}, что привело к TSTMS-признакам, определенным для каждой пиксельной позиции (x, y) в пространственно уменьшенном разрешении (50 × 35) видео лица и при каждом пульсационном экземпляре t:

  • {I}_{max}^{ambda }(x,y,t): Значение серого уровня пикселя на пике сигнала сердечного ритма для длины волны ambda. eft{R}_{D}^{max}+{R}_{S} ight
  • {I}_{min}^{ambda }(x,y,t): Значение серого уровня пикселя на спаде сигнала сердечного ритма для длины волны ambda. eft{R}_{D}^{min}+{R}_{S} ight
  • {{arvec{I}}}_{{arvec{A}}{arvec{C}}}^{{arvec{ambda}}}eft(x,y,t ight)={I}_{max}^{ambda }eft(x,y,t ight){I}_{min}^{ambda }(x,y,t): Амплитуда пульсации. eft{R}_{D}^{max}+{R}_{S}eft({R}_{D}^{min}+{R}_{S} ight)={R}_{D}^{max}{R}_{D}^{min} ight
  • {{arvec{I}}}_{{arvec{R}}}^{{arvec{ambda}}}(x,y,t)=lneft( rac{{I}_{max}^{ambda }(x,y,t)}{{I}_{min}^{ambda }(x,y,t)} ight): Основано на измерении поглощения, которое устраняет эффект ткани20, 21, 31, 43.
  • {{arvec{I}}}_{{arvec{R}},oldsymbol{ }{arvec{A}}{arvec{C}}}^{{{arvec{ambda}}}_{1}{{arvec{ambda}}}_{2}}(x,y,t)= rac{{I}_{AC}^{{ambda }_{1}}(x,y,t)}{{I}_{AC}^{{ambda }_{2}}(x,y,t)}: Основано на различии амплитуд пульсации между двумя длинами волн, {ambda }_{1} и {ambda }_{2}20, 21, 22.
  • {{arvec{I}}}_{{arvec{R}},oldsymbol{ }{arvec{A}}{arvec{C}}{arvec{D}}{arvec{C}}}^{{{arvec{ambda}}}_{1}{{arvec{ambda}}}_{2}}(x,y,t)=eft| rac{{I}_{R}^{{ambda }_{1}}(x,y,t){I}_{R}^{{ambda }_{2}}(x,y,t)}{{I}_{max}^{{ambda }_{1}}(x,y,t){I}_{max}^{{ambda }_{2}}(x,y,t)} ight|: Основано на разнице поглощения по длинам волн {ambda }_{1} и {ambda }_{2}, скорректированной по базовому уровню20, 21.

TSTMS-признаки, используемые на этапе классификации, представлены в Таблице 1. Эти признаки используют 5 основных длин волн, предоставляемых нашими системами визуализации. Дополнительные признаки, которые могут быть построены на основе вышеуказанных определений признаков при различных длинах волн, оказались существенно менее значимыми для цели классификации. Каждый из первых 7 признаков, представленных в Таблице 1, распределен пространственно и временно, формируя пространство признаков с 50 × 35 значениями для каждого из 5 пульсационных изображений (т. е. импульсных кадров). Таким образом, общее количество значений (параметров) на признак составляло 5 × 50 × 35 = 8750 для каждого видео лица продолжительностью 4 секунды, вызывающего эмоции. Каждое значение может иметь разный эффект (т. е. важность) на окончательную классификацию эмоций.

Схематическая диаграмма предлагаемого метода представлена на Рис. 13. Входными данными являются видеокадры RGB, NIR и LWIR каналов лица испытуемого, стимулируемого эмоциями.

Короткие версии статей можно найти в телеграм-канале.

Посмотреть канал
Кликните еще раз для перехода

Френчи Умная Эмаль с витаминами A и E – защита и уход

Френчи Умная Эмаль Суперзащитное покрытие с витаминами A и E — надежное средство для ухода за ногтям...

La Roche-Posay Hyalu B5 Крем для лица от морщин

Крем для лица La Roche-Posay Hyalu B5 с гиалуроновой кислотой и витамином B5 помогает уменьшить види...

Крем SVR Xerial 50 Extreme для ног - устранение мозолей

SVR Xerial 50 Extreme крем для ног с 50% мочевины и салициловой кислотой эффективно борется с мозоля...

Анузол свечи №10 — лечение и защита при геморрое

Анузол суппозитории №10 — комбинированное средство для комплексного лечения геморроя. Обеспечивает в...

Contex Lights №30 | Тонкие презервативы с чувствительностью

Contex Lights презервативы №30 — ультратонкие гладкие изделия из натурального латекса с силиконовой ...

Фламин Гранулы для детей: желчегонное, противовоспалительное

Фламин Гранулы для детей — желчегонное средство на растительной основе. Стимулирует отток желчи, сни...