Визуализация области внимания водителя с помощью глубоких нейронных сетей

Интересное сегодня

Как справиться с недоверием к партнёру: причины, признаки и ...

Что значит не доверять партнёру? Если вы не доверяете своему парню, вы не одиноки — многие сталкиваю...

Как опыт влияет на способности прогнозирования опасностей и ...

Введение Электросамокаты (э-самокаты) были введены, чтобы побудить пользователей перейти от использо...

Материнские проблемы у женщин: признаки, причины и способы р...

Материнские проблемы у женщин: что это? Материнские проблемы у женщин — это эмоциональные трудности ...

Метааналитическая оценка надежности шкал конфликта между раб...

Введение Взаимодействие между рабочими и семейными ролями играет ключевую роль в благополучии сотруд...

Аутичное руминация против навязчивых мыслей при ОКР: ключевы...

Аутичная руминация и навязчивые мысли при ОКР: в чем разница? И аутичные люди, и те, кто страдает об...

Психометрические свойства вопросника метакогниций MCQ-30 сре...

Введение В модели саморегуляции исполнительной функции (S-REF) предложено, что механизм, лежащий в о...

Рисунок 14. Визуализация области внимания водителя в трех дорожных средах: (a) поворот, (b) перестроение, (c) плотная сцена.

Рисунок 6. Изменение процесса обучения: (a) сравнение потери моделей VGGNet16, GoogLeNet и DVEM; (b) визуализация области внимания водителя на разных эпохах обучения.

Рисунок 13. Данные о состоянии движения автомобиля (угол поворота руля и скорость) в трех различных дорожных средах: (a) поворот, (b) перестроение, (c) плотная сцена.

Рисунок 12. Сравнительный анализ визуализации области внимания водителя с использованием VGG19, Xception и DVEM в трех различных дорожных сценах: (a), (b), (c).

Рисунок 11. Сравнение визуализации области внимания водителя, полученной с помощью DVEM, VGGNet16 и GoogLeNet.

Рисунок 10. Динамическая визуализация области внимания водителя: строки (1) и (3) - исходные изображения, строки (2) и (4) - карты внимания.

Рисунок 9. Сравнение прогнозируемых и фактических значений угла поворота руля и скорости автомобиля.

Рисунок 8. Сравнение среднеквадратичных ошибок прогнозирования угла поворота руля (черный) и скорости автомобиля (красный) различными моделями.

Рисунок 7. Сравнение результатов прогнозирования: (a) угол поворота руля, (b) скорость автомобиля.

Рисунок 5. Структура вентилей GRU (вентиль сброса - зеленый, вентиль обновления - красный).

Рисунок 4. Структура модуля VSEM.

Рисунок 3. Структура модуля DVEM.

Рисунок 2. Архитектура сетевой модели, включающая модули DVEM, VSEM и AM.

Рисунок 1. Схема работы модели визуализации внимания водителя.

Оригинал исследования на сайте автора

Исследование метода визуализации области внимания водителя на основе глубоких нейронных сетей

В процессе вождения область визуального внимания водителя имеет огромное значение для исследований поведения при принятии решений в области интеллектуального вождения и динамического анализа поведения водителя. Традиционные методы распознавания намерений водителя сталкиваются с такими проблемами, как значительное влияние носимого оборудования, высокая частота ложных срабатываний при использовании водителями очков и в условиях яркого освещения, а также нечеткое извлечение поля зрения. Мы используем изображение поля зрения водителя, полученное видеорегистратором, и соответствующие данные о состоянии движения автомобиля (угол поворота руля и скорость). В сочетании с методом интерпретируемости глубоких нейронных сетей предлагается метод визуализации области внимания водителя. Основная идея этого метода заключается в проведении анализа визуализации внимания на виртуальном водителе, обученном на нейронной сети, на основе данных о состоянии движения автомобиля, а затем в выводе области визуального внимания человека-водителя. Результаты показывают, что этот метод позволяет осуществить обратное моделирование поведения водителя во время вождения, визуализировать область визуального внимания водителя и предоставить теоретическую основу для динамического анализа поведения водителя и дальнейшего развития анализа безопасности дорожного движения.

Аннотация

Введение

В процессе разработки беспилотного вождения вопросы интерпретируемости процессов принятия решений беспилотными автомобилями и связанные с ними этические проблемы являются препятствиями для продвижения и применения беспилотного вождения. Исследование интерпретируемости промежуточных процессов беспилотных автомобилей от сканирования внешней среды вождения до выполнения действий, особенно установление соответствия между поведением беспилотных автомобилей и поведением человека-водителя, является насущной необходимостью. Область визуального внимания водителя во время вождения является ключевым аспектом нашего исследования динамического поведения водителя. Ранее анализ внимания водителя проводился с использованием таких методов, как изменение данных электрокардиограммы (ЭКГ), положения головы и отслеживание взгляда. Наша цель — использовать данные изображений поля зрения водителя и соответствующие данные о состоянии движения автомобиля (угол поворота руля и скорость) для реверсивного анализа привычек вождения. Широкое применение нейронных сетей в различных областях обеспечивает поддержку нашей работе. Необходимость объяснения поведения беспилотных автомобилей многогранна. Во-первых, автономное вождение — это область с высокими ставками и критически важными для безопасности приложениями. Поэтому естественно ожидать гарантий производительности с точки зрения общества. Однако модели вождения не полностью поддаются тестированию во всех сценариях, поскольку невозможно исчерпывающе перечислить и оценить каждую возможную ситуацию, с которой может столкнуться модель. В качестве запасного решения это мотивирует необходимость объяснения решений при вождении. В настоящее время, с широким применением нейронных сетей в различных областях, прозрачность и интерпретируемость глубоких нейронных сетей привлекли внимание исследователей. По сути, окончательное извлечение и представление области внимания водителя в основном опирается на подход интерпретируемости глубоких нейронных сетей. Исследования показывают, что если система автономного вождения может предоставить пользователю причины своего поведения при принятии решений, доверие пользователя к системе значительно повысится. Расшифровка промежуточных процессов глубоких нейронных сетей и поиск надежности выходных данных глубоких нейронных сетей не только повышают достоверность инженерного применения технологии глубокого обучения, но и делают выходные данные нейронной сети более приемлемыми для людей. Поскольку автономные транспортные средства все больше полагаются на глубокие нейронные сети для обработки видеопотоков, крайне важно изучать объяснимость моделей вождения с точки зрения компьютерного зрения. Особенно в области интеллектуальных транспортных средств, неизбежно столкновение с большим количеством этических проблем, а надежность выходных результатов глубоких нейронных сетей и интерпретируемость процесса обучения глубоких нейронных сетей обеспечивают техническую поддержку для этой проблемы. Интерпретируемость не только повышает доверие водителя к системе автономного вождения, но и помогает разработчикам системы автономного вождения эффективно проектировать, отлаживать и диагностировать систему. Объяснимость также делает поведение беспилотного вождения предсказуемым, проверяемым и аудируемым. Для правительств и политиков объяснимость также может обеспечить соблюдение нормативных требований для систем автономного вождения.

В исследованиях поведения водителя, особенно визуального внимания, некоторые предыдущие работы проводили анализ внимания на основе данных о физиологических характеристиках водителя. Исследования показывают, что изменение сигнала ЭКГ при различных движениях глаз отличается в зависимости от того, сконцентрировано ли внимание водителя. При утомлении и отвлечении водителя ЭКГ значительно снижается. Использовалось оборудование для сбора данных электроэнцефалограммы (ЭЭГ) для регистрации сигналов ЭЭГ водителей и обнаружения утомленного и отвлеченного вождения. Wu et al. использовали сигнал ЭКГ для обнаружения внимания водителя. Анализ поведения водителя на основе физиологических характеристик достиг значительных успехов в изучении поведения водителя и обладает высокой надежностью в экспериментальных условиях. Однако устройство для сбора данных о физиологических характеристиках необходимо носить на голове или груди/животе, что ограничивает действия водителя, мешает нормальному поведению водителя и не может отразить внимание водителя в естественной дорожной среде. Наш метод основан на глубокой нейронной сети для визуализации области внимания водителя с целью оценки и обнаружения внимания водителя.

С непрерывным прогрессом и развитием технологии компьютерного зрения контактные методы обнаружения не могут удовлетворить требования к извлечению области внимания водителя, и бесконтактное обнаружение становится ключевой технологией для прогнозирования внимания водителя. Водители больше не используют носимое оборудование для сбора данных, а полагаются на камеры для захвата черт лица водителя (состояние движения глаз, уровень утомления) и положения головы для прогнозирования внимания водителя. Исследователи провели соответствующие исследования в области бесконтактных методов обнаружения: Choi et al. отслеживали зрачок водителя, отражая направление взгляда водителя по положению зрачка, оценивая направление внимания водителя, избегая использования носимых устройств при оценке внимания водителя. Chutroian также реализовал обнаружение внимания водителя на основе положения головы в своей работе. В исследованиях внимание водителя оценивалось путем обнаружения глаз и черт лица водителя. Sigari et al. фиксировали информацию о лице и глазах водителя для определения состояния внимания водителя, что играло важную роль в активной безопасности транспортных средств. Для дальнейшего анализа точности направления визуального внимания водителя Morando et al. систематически анализировали данные отслеживания взгляда водителя в 2019 году и пришли к выводу, что визуальная реакция водителя неотделима от дорожной среды. Lee et al. предложили систему отслеживания взгляда, которая требует, чтобы экспериментатор наблюдал за большим дисплеем на близком расстоянии; при условии, что точка взгляда может быть оценена с высокой точностью, этот метод не подходит для аппаратных и экспериментальных требований. Аналогично, оборудование для измерения движения глаз использовалось для получения распределения визуального внимания водителя для определения визуального внимания водителя в конкретной ситуации на перекрестке, что способствовало изучению области внимания водителя. Тесты проводились на прямых и поворотных дорогах в соответствии с фактическими условиями вождения. Использование носимых трекеров взгляда для сбора данных о движении глаз водителя позволяет стабильно и точно отслеживать область внимания глаз водителя. Однако прямой контакт носимого трекера взгляда или контактного устройства с водителем в значительной степени нарушает движения головы, глаз и шеи водителя. Существует расхождение между психологическим состоянием водителя и фактическим состоянием вождения, что в конечном итоге влияет на сбор и визуализацию области внимания в реальной ситуации.

Вышеупомянутая ситуация происходит при определенных помехах, а детали захваченной области внимания неточны. Мы предлагаем использовать данные изображений поля зрения водителя и данные о состоянии движения автомобиля (угол поворота руля и скорость), которые может захватить видеорегистратор, для обратного моделирования области визуального внимания водителя с помощью метода визуализации. Этот метод позволяет избежать помех, вызываемых носимым устройством обнаружения, нормальному вождению водителя, и в то же время визуализирует область внимания.

Наш вклад заключается в следующем:

1. На основе глубокой нейронной сети предлагается визуализация области внимания водителя. Корреляционные признаки извлекаются из данных о состоянии движения автомобиля и данных изображений поля зрения водителя. Устраняется прямое влияние мешающего оборудования на извлечение области внимания водителя. Безусловно, условия реализации нашего метода более гибкие.
2. Предложен метод визуализации глубокой нейронной сети для отображения критических областей визуального внимания водителя. Он напрямую показывает конкретную область интереса и конкретную цель. Прямая связь области внимания определяется путем объединения данных о состоянии движения автомобиля.
3. В соответствии с величиной веса внимания сети, область внимания распределяется на изображении. Далее раскрывается промежуточный процесс нейронной сети. Повышается интерпретируемость сетевой модели.

Как показано на рис. 1, существуют два замкнутых контурных пунктирных пути от внутреннего к внешнему. Пунктирная линия во внутреннем круге пути передачи представляет собой процесс реакции водителя-человека. Сначала наблюдаются дорожные условия (➀), и информация об области визуального внимания (➁) поступает в мозг. Мозг принимает решения (➂) и управляет конечностями для изменения угла поворота руля и скорости автомобиля (➃). Наша модель рассматривается как виртуальный водитель, а пунктирная линия во внешнем круге — это процесс обратного моделирования виртуального водителя. Виртуальный водитель — это система, представляющая собой «цифрового двойника» мозга человека-водителя (2), построенная с использованием глубоких нейронных сетей. Она принимает данные изображений поля зрения водителя и соответствующие данные о состоянии движения автомобиля (угол поворота руля и скорость) в качестве входных данных (1) для обучения. Угол поворота руля позволяет делать прогнозы вместе со скоростью автомобиля (4) и выдавать такой же результат выполнения, как и у водителя-человека. В конечном итоге делается вывод, на какую область водитель обращает внимание при управлении автомобилем для ускорения, замедления и поворота для выполнения действий (3). Наша идея заключается в том, чтобы преобразовать метод визуализации внимания водителя в проблему визуализации глубокой нейронной сети для вывода области визуального внимания человека-водителя.

Связанные работы

На основе данных изображений поля зрения водителя и данных о состоянии движения автомобиля (угол поворота руля и скорость) мы предлагаем сетевую модель, показанную на рис. 2, которая включает модуль извлечения информации поля зрения водителя (DVEM), модуль извлечения данных о состоянии движения автомобиля (VSEM) и модуль внимания (AM). Сетевая модель обучается на большом количестве изображений, соответствующих непрерывным данным поля зрения водителя и данным о состоянии движения автомобиля (угол поворота руля и скорость), извлекается метод реального восприятия глубокой нейронной сети, а затем выполняется визуализация внимания.

Модуль извлечения информации поля зрения водителя (DVEM)

В реальной дорожной обстановке водитель воспринимает разнообразную внешнюю информацию. Визуальная информация оказывает значительное влияние на управление автомобилем. Восприятие водителем внешней среды глазами и представление сцены в мозге аналогичны непрерывным изображениям, захваченным камерой. Мы используем сверточные нейронные сети для извлечения признаков из изображений видеорегистратора, собранных во время вождения. В нашем методе модуль извлечения информации поля зрения водителя (DVEM) извлекает признаки из изображения водителя. Структура сети DVEM показана на рис. 3. Предложенная остаточная структура (residual structure) значительно улучшает производительность извлечения признаков глубоких сверточных нейронных сетей и широко используется в области компьютерного зрения. Изображение проходит через свертку 7×7 с шагом 2, выходной канал сверточного слоя составляет 64, слой пакетной нормализации (batch normalization) и слой активации ReLU, а 3×3 Maxpooling завершают предварительное извлечение информации. При обеспечении полноты информации изображения сокращается объем параметров.

В структуре модели DVEM свертка 1×1, свертка 3×3 и свертка 1×1 комбинируются со слоем пакетной нормализации и слоем активации для формирования блока Foundation block (Fb). Эта комбинация остаточных блоков Fb образует Block i с большим количеством слоев (i=1, 2, 3, 4). Block 1 и Block 4 состоят из 3 Fb, а Block 2 и Block 3 содержат 4 и 9 Fb соответственно.

Модуль извлечения данных о состоянии движения автомобиля (VSEM)

VSEM принимает на вход прошлые и текущие данные о состоянии движения автомобиля для извлечения признаков и в конечном итоге реализует прогнозирование состояния движения автомобиля. Прошлые непрерывные данные о состоянии движения автомобиля являются временными рядами. Оптимизированные сети Long Short Term Memory (LSTM) и Gated Recurrent Unit (GRU), разработанные на основе непрерывного развития Recurrent Neural Network (RNN), могут эффективно избегать исчезновения и взрыва градиента при обработке временных рядов. В нашем VSEM используется модуль GRU для захвата релевантной информации между долгосрочными и краткосрочными данными из прошлых данных о состоянии движения автомобиля и для извлечения информации для генерации результатов прогнозирования. На рис. 4 показана информация о структуре VSEM: входные данные о состоянии движения автомобиля проходят через Conv1, Conv2 и Conv3 (3 слоя свертки), затем выполняется операция Reshape для подготовки данных к последующему вводу в слой GRU. Многослойный GRU является важной частью всего модуля для обеспечения информации временных рядов. Мы построили трехслойный GRU для извлечения признаков данных о состоянии движения автомобиля. Для предотвращения переобучения после каждого слоя GRU добавляется слой Dropout, чтобы уменьшить чрезмерную зависимость модели от обучающих данных и повысить обобщающую способность модели.

idetilde{{I_{t} }} — текущая информация. Информация памяти H_{t} в каждый момент времени зависит от информации памяти H_{t-1}, сохраненной в предыдущий момент, и текущей информации idetilde{{I_{t} }}. Уникальность GRU заключается в том, что он оптимизирован на основе структуры вентилей LSTM. Он включает два вентильных блока: вентиль сброса R_{t} и вентиль обновления U_{t}. Входными данными для вентиля сброса и вентиля обновления являются соответственно H_{t-1} и I_{t}. Роль вентиля обновления в GRU эквивалентна комбинации входного вентиля и вентиля забывания в LSTM. 1 - U_{t} может рассматриваться как вход, а U_{t} — как часть, которая случайным образом забывается. На рис. 5 показана структура вентилей GRU, где зеленый цвет представляет вентиль сброса, а красный — вентиль обновления. Генерация idetilde{{I_{t} }} тесно связана с H_{t-1} и вентилем сброса R_{t}. При расчете idetilde{{I_{t} }} { ext{f}} = anh eft( x ight) = rac{{e^{x} - e^{ - x} }}{{e^{x} + e^{ - x} }}. R_{t} и U_{t} обрабатываются сигмоидной функцией активации ambda(x) = rac{1}{1+e^{-x}}, и их значения контролируются в пределах от 0 до 1, что аналогично полносвязному слою. Где mega и b обозначают матрицу весов и вектор смещения соответственно.

$$ H_{t} = eft( {1 - U_{t} } ight)*H_{t-1} + U_{t} *idetilde{{I_{t} }} $$

(1)

$$ idetilde{{I_{t} }} = { ext{f}}eft( {mega_{a} eft[ {R_{t} *H_{t-1} ,I_{t} } ight]} ight) + b_{a} $$

(2)

$$ U_{t} = {ambda }eft( {mega_{b} eft[ {H_{t-1} ,I_{t} } ight] + b_{b} } ight) $$

(3)

$$ R_{t} = {ambda }eft( {mega_{c} eft[ {H_{t-1} ,I_{t} } ight] + b_{c} } ight) $$

(4)

Модуль внимания (AM)

Механизм внимания (attention mechanism) генерирует признаки восприятия внимания (акцентированные признаки) во входной информации в соответствии с различными весовыми параметрами, выделяя важную информацию и подавляя нерелевантную и неважную. Применение механизма внимания в нейронной сети улучшает интерпретируемость информации о внимании сети. После извлечения входных изображений с помощью DVEM получается отображающая информация i_{C}, а данные о состоянии движения автомобиля извлекаются с помощью VSEM для получения отображающей информации i_{G}. Эти данные объединяются в модуле внимания. В нашем методе последний слой свертки DVEM и VSEM установлен на 1×1, чтобы отобразить признаки, извлеченные из двух частей, в общую матрицу, чтобы i_{C} и i_{G} могли использоваться в смешивающем слое (ML) в AM для интеграции, а затем выполнять последующую пакетную нормализацию и операции активации tanh в ML.

В AM механизм внимания вводится после ML. Механизм внимания может напрямую фокусироваться на той части изображения и данных о состоянии движения автомобиля, которая оказывает положительное влияние на прогнозирование. Мы используем elta_{A} eft( {P,D} ight) для обозначения функции внимания, где P и D представляют признаки изображения и признаки данных о состоянии движения автомобиля соответственно, а частичный вектор весов θ внимания рассчитывается следующим образом:

$$ heta_{i} = rac{{xpeft( {elta_{A} eft( {P_{i} ,D_{i} } ight)} ight)}}{{um_{i} xpeft( {elta_{A} eft( {P_{i} ,D_{i} } ight)} ight)}} $$

(5)

$$ {{ elta }}_{A} eft( {P,D} ight) = {mega}eft[ {C_{P o D} ;C_{D o P} } ight] + { ext{b}} $$

(6)

$$ C_{P o D} = { ext{tanh}}eft( {mega_{D} D + eft( {mega_{{P^{rime}}}} elta eft( P ight)} ight)} ight) $$

(7)

$$ C_{D o P} = { ext{tanh}}eft( {mega_{P} P + eft( {mega_{{D^{rime}}}} elta eft( D ight)} ight)} ight) $$

(8)

Среди них mega_{P}, mega_{D}, mega_{{P^{rime}}}, mega_{{D^{rime}}} — это весовые коэффициенты, которые непрерывно изменяются в процессе обучения, а b — коэффициент смещения. В AM изображение и данные о состоянии движения автомобиля влияют друг на друга при расчете акцента внимания. Внимание к ним определяется их соответствующими глобальными векторами elta(P) и elta(D), C_{P o D} и C_{D o P} представляют собой взаимодействие двух информационных признаков. Конечный выходной слой также включен в AM; через слой глобального усреднения (GAP), полносвязный слой и активацию softmax выходные данные представляют собой прогнозируемые значения угла поворота руля и скорости. GAP значительно уменьшает количество параметров вычислений сети, эффективно снижает зависимость сетевой модели от обучающих данных и реализует преобразование вектора признаков. В конечном итоге мы интерполируем визуализированную карту внимания до размера исходного изображения, накладываем ее на исходное изображение и объединяем выходные данные в качестве визуализированного результата области внимания водителя.

Эксперимент

Набор данных

В нашем методе данные о состоянии движения автомобиля являются ключевыми для использования модели для поиска области внимания водителя. Мы используем DBNet, опубликованный командой профессора Цзюньли из Сямэньского университета и профессора Цэу Лу из Шанхайского университета Цзяотун в 2018 году. DBNet содержит необходимые нам изображения с точки зрения водителя и собирает данные о расстоянии вождения более 100 км, включая городские дороги, перекрестки, повороты, горные дороги и т. д. Одновременно набор данных также содержит данные о состоянии движения автомобиля, то есть информацию об угле поворота руля и скорости. Угол поворота руля является относительным к предопределенному стандарту 0°; левый поворот записывается как «−», а правый поворот — как «+». На основе набора данных DBNet мы изменяем размер изображений 1920×1080 для обучения, проверки и тестирования. Мы выбираем формат данных, показанный на рис. 5. В реальной дорожной среде используется видеорегистратор для сбора данных изображений, и одновременно собираются данные о состоянии движения автомобиля (угол поворота руля (°) и скорость (км/ч)).

Обучение

При обучении мы использовали компьютер, оснащенный графическим процессором NVIDIA GTX1080, под операционной системой Ubuntu 16.04 LTS. Фреймворк глубокого обучения — PyTorch, версия torch — 0.4.1. CUDA9.0 и cuDNN7.0 также использовались в операционной системе для ускорения обучения, поддержки вызовов GPU и ускорения процесса обучения. Некоторые настройки параметров обучения приведены в таблице 1.

Для задачи оптимизации параметров данных в модели мы выбрали оптимизатор Adam (adaptive moment estimation). Оптимизатор Adam сочетает традиционный алгоритм оптимизации первого порядка и алгоритм второго порядка. Adam может оптимизировать и изменять параметры обучения в процессе непрерывного обучения сети для ускорения сходимости модели. Одновременно среднеквадратичная ошибка (MSE) выбирается в качестве функции потерь. Это связано с тем, что наш прогноз данных о состоянии движения автомобиля является задачей регрессии для генерации конкретных значений угла поворота руля (°) и скорости (км/ч). В формуле x и y обозначают угол поворота руля и скорость соответственно, elta_{i} обозначает истинное значение, elta_{i}^{rime } — прогнозируемое значение, а n — количество данных.

$$ L_{OSS} = MSE_{{eft( {elta = x,elta = y} ight)}} = rac{{um_{i = 1}^{n} eft( {elta_{i} - elta_{i}^{rime } } ight)^{2} }}{n} $$

(9)

На рис. 6 показано изменение процесса обучения. Видно, что значение потери модели быстро уменьшается на начальном этапе обучения и стабилизируется после 50 эпох, после чего модель успешно сходится.

На рис. 6a показаны результаты обучения VGGNet16, GoogLeNet и DVEM. Итоговые значения потери обучения VGGNet16, GoogLeNet и DVEM составляют 3.37, 1.86 и 1.55 соответственно. Как видно на рис. 6b, по мере увеличения количества эпох обучения область внимания постоянно меняется. Мы покажем эффект извлечения области внимания водителя при различных эпохах (50, 100, 150, 200). Видно, что область внимания постепенно становится меньше и точнее.

VSEM извлекает информацию поля зрения водителя, добавляет многослойную структуру GRU в модель для извлечения временных рядов в изображении и информации поля зрения автомобиля (угол поворота руля и скорость), а также вводит модуль внимания для усиления способности модели извлекать сильные признаки. Чтобы проверить точность прогнозирования модели VSEM и необходимость каждой модели, использовались сеть долгой и короткой памяти (LSTM), однослойная модель прогнозирования GRU и модель без модуля внимания для прогнозирования извлеченной информации (угол поворота руля и скорость) поля зрения автомобиля. Результаты прогнозирующей модели VSEM в данной статье сравниваются.

Как показано на рисунке, представлено сравнение результатов прогнозирования VSEM и каждой модели. На рис. 7a показано прогнозирование угла поворота руля различными моделями. На рис. 7b показано прогнозирование скорости автомобиля различными моделями. Черная пунктирная линия на рисунке — это реальные данные угла поворота руля и скорости автомобиля. На рисунке наглядно видно, что в двух прогнозах данных результат прогнозирования данных вождения VSEM — красная кривая. По сравнению с результатами прогнозирования других трех моделей, амплитуда колебаний красной кривой меньше и ближе к реальным данным. Одновременно, по сравнению с результатами прогнозирования без внимания, достаточно, чтобы доказать, что введение модуля внимания повышает точность прогнозирования данных. Применение трехслойного GRU обеспечивает более высокую точность прогнозирования данных, чем однослойный GRU. Прогнозируемые данные и ошибки каждой модели суммируются в таблице 2.

Используя каждую модель прогнозирования, прогнозируем непрерывные 6 сегментов данных вождения автомобиля из набора данных и сравниваем их среднеквадратичные ошибки. На рис. 8 показана сравнительная диаграмма среднеквадратичных ошибок прогнозируемых значений каждой модели.

Черный ящик на рис. 8 представляет собой набор среднеквадратичных ошибок прогнозируемых значений угла поворота руля четырех моделей прогнозирования, красный ящик — набор среднеквадратичных ошибок прогнозируемых значений скорости автомобиля, а левая точка каждого ящика — это результаты прогнозирования 6 групп различных данных. Среднеквадратичное значение ошибки, горизонтальная черная линия между набором точек и ящиком представляет собой среднее значение среднеквадратичной ошибки. Как видно из рисунка, при сравнении распределения среднеквадратичной ошибки прогнозируемого значения, обнаружено, что модель VSEM, разработанная в данной работе, имеет наименьшую среднеквадратичную ошибку среди четырех моделей при прогнозировании угла поворота руля и скорости автомобиля, что также означает, что прогнозируемые результаты модели в данной работе наиболее близки к реальным данным.

Результаты и анализ

VSEM выполняет прогнозирование на основе непрерывных углов поворота руля и скоростей. На рис. 9 показаны прогнозируемые значения угла поворота руля и скорости, а также их сравнение с фактическими значениями. Прогнозируемые данные и реальные данные имеют схожие тенденции. По истинному значению угла поворота руля и прогнозируемому значению средняя абсолютная ошибка составляет 6.62. Аналогично, средняя абсолютная ошибка скорости автомобиля составляет 0.97.

Область внимания водителя показана на рис. 10. Здесь мы выбираем непрерывные тестовые изображения для отображения и визуализируем непрерывные изображения, чтобы показать динамический процесс изменения области внимания водителя. На рис. 10 изображения в строках (1) и (3) являются исходными изображениями, входными для модели. Восемь изображений в этих двух строках представляют собой непрерывные сцены вождения. Изображения в строках (2) и (4) — это карты внимания, наложенные на исходное изображение. Цвет области внимания переходит от красного к синему, где красный обозначает область с наибольшим весом внимания, то есть ключевую область внимания.

Мы видим, что в показанной на рис. 10 дорожной сцене при повороте налево встречается поворачивающий автобус, а посередине дороги появляются пешеходы. Согласно карте внимания, которую мы выводим, очевидно, что при повороте к автобусу ключевая область внимания находится позади автобуса. По мере движения автомобиля расстояние до пешехода на середине дороги становится все ближе и ближе. Область внимания начинается с задней части автобуса и простирается до пешехода справа, а затем охватывает часть человека в этой области изображения. Дорожная сцена, показанная на изображении в строке (3), проще, чем в строке (1). В это время пешеход покинул область захвата камеры, и на изображении присутствует только один автобус. Поэтому карта внимания в строке (4) по сравнению со строкой (2) имеет единую цель внимания, меньшую и более точную область внимания. Эти признаки соответствуют захвату визуальной информации водителем.

В нашем методе DVEM в основном выполняет извлечение признаков для информации изображения, что является очень важным этапом. Здесь мы используем классические модели VGGNet16 и GoogLeNet для замены DVEM, и результат вывода показан на рис. 11. После сравнения было обнаружено, что эффект извлечения области внимания, сгенерированный тремя моделями, показывает, что изображение визуализации области внимания, сгенерированное VGGNet16, занимает почти весь верхний правый угол изображения. Однако, проанализировав исходное изображение, мы обнаружили, что в верхнем правом углу находится здание, выходящее на улицу, которое оказывает меньшее влияние на управление водителем, чем грузовик посреди дороги. По сравнению с результатами DVEM, GoogLeNet и DVEM фокусируются на транспортном средстве впереди. Тем не менее, GoogLeNet также извлекает дополнительную область слева от изображения, поэтому эффект нашей модели лучше, чем у VGGNet16 и GoogLeNet.

Сравнения с классической моделью недостаточно, чтобы продемонстрировать превосходство этой модели, поэтому в данной работе используется VGG19, Xception и DVEM для сравнительного анализа, результаты которого показаны на рис. 12:

Используя модели VGG19 и Xception для замены DVEM в модели извлечения области внимания водителя в реальных дорожных сценах, мы сравниваем три различные дорожные сцены, и окончательные результаты извлечения трех моделей показаны на рис. 12. При анализе рис. 12a, на карте визуализации внимания, сгенерированной VGG19, извлеченная область внимания занимает почти весь нижний правый угол всего изображения. Было обнаружено, что в нижнем правом углу исходной карты находится дорога, и нет транспортных средств или пешеходов, что имеет малое влияние на управление водителем. По сравнению с DVEM, Xception и DVEM фокусируются на транспортном средстве впереди, но при сравнении эффектов мы можем обнаружить, что эффект этой модели лучше; На рис. 12b, хотя VGG19 фокусируется на транспортном средстве впереди, она также извлекает избыточную область в левой нижней части изображения. По сравнению с результатами Xception и DVEM, хотя Xception извлекает транспортное средство впереди, она не извлекает полное транспортное средство; При анализе рис. 12c, по сравнению с DVEM, VGG19 фокусируется на пешеходах впереди, но VGG19 также извлекает здания и деревья над изображением, что имеет малое влияние на управление водителем. По сравнению с результатами DVEM, Xception извлекает пешеходов впереди, но Xception также извлекает избыточную область в левой нижней части изображения. Результаты показывают, что наша модель может более точно идентифицировать область внимания водителя во время вождения, что указывает на надежность прогнозируемых результатов нашей модели и достаточность для демонстрации превосходства модели.

Безусловно, реальная дорожная обстановка сложна. Мы выбираем несколько типичных сценариев вождения и объединяем данные о состоянии движения автомобиля для проверки результатов визуализации области внимания. На рис. 13 показаны данные о состоянии движения автомобиля, когда водитель-человек управляет автомобилем в трех средах. На рис. 14 соответственно визуализируется область внимания водителя в трех дорожных средах: поворот (a), перестроение (b) и плотная сцена (c). На рис. 13 выбраны данные о состоянии движения автомобиля за 10 последовательных кадров, и три изображения в каждой сцене на рис. 14 включены в эти десять кадров. Данные о состоянии движения автомобиля, соответствующие изображениям, выбранным на рис. 14, представлены зеленым, красным и синим цветом на рис. 13 соответственно. Данные о состоянии движения автомобиля здесь — это фактические данные автомобиля, собранные в наборе данных DBNet.

Мы проводим комплексный анализ рис. 13 и 14. Объединяя группу изображений «a» на рис. 14 и ломаную линию a(x) на рис. 13b, можно обнаружить, что из-за наличия пешеходов спереди слева от автомобиля угол поворота руля изначально был повернут вправо на большую амплитуду, достигнув +90° в предыдущем кадре. Когда водитель замечает, что после достижения безопасного расстояния от пешехода угол поворота руля становится +25°, и одновременно дорога поворачивает направо, и дорога открыта. Наконец, рулевое колесо продолжает двигаться с нулевым отклонением. В этом процессе ломаная линия a(x) на рис. 13a также показывает, что скорость автомобиля на открытой дороге при правом повороте увеличилась с 26 до 30 км/ч. Таким образом, в это время область внимания водителя сосредоточена на дороге, поворачивающей направо. Визуализированные изображения в группе «a» на рис. 14 также показывают, что область внимания водителя постепенно смещается от пешехода слева в a(1) к правой области в a(3). Наконец, область внимания переносится на дорогу для правого поворота, который предстоит.

Ломаная линия b(x) на рис. 13b показывает, что рулевое колесо повернуто на −95° и автомобиль совершает левый поворот. Изображения в группе b на рис. 14 также показывают транспортное средство спереди слева и начало перестроения. Согласно ломаной линии b(x) на рис. 13a, наблюдается, что скорость автомобиля после перестроения составляет 23–29 км/ч, что значительно выше, чем изменение скорости 21–23 км/ч во время перестроения. В это время на изображениях в группе b на рис. 14 видно, что область внимания — это транспортное средство, которое перестраивается слева спереди, и область внимания еще не покинула. Это означает, что перестраивающееся транспортное средство влияет на управление дроссельной заслонкой водителя, поэтому область внимания водителя связана с перестраивающимся транспортным средством.

Угол поворота руля, показанный на c(x) на рис. 13b, предназначен только для тонкой настройки. Соответственно изображениям в группе c на рис. 14, спереди и по бокам слева и справа находятся транспортные средства. Водитель всегда обращает внимание на окружающие транспортные средства. После того, как расстояние до транспортного средства впереди увеличивается, ускорение собранного автомобиля становится больше, поэтому область внимания водителя связана с транспортным средством впереди. Область внимания, визуализированная на рис. 14 c(3), находится на транспортном средстве слева, а фактический угол поворота руля остается неизменным на уровне −13° в этот момент на полилинии c(x) на рис. 13b. Это означает, что водитель заметил, что транспортное средство слева не продолжает поворачивать рулевое колесо влево, чтобы избежать столкновения.

Заключение

Наш метод использует модель глубокой нейронной сети для создания виртуальной модели водителя, объединяет данные изображений поля зрения и данные о состоянии движения автомобиля (угол поворота руля и скорость), собранные водителем во время вождения, через визуализацию глубокой нейронной сети. Когда виртуальный водитель на глубокой нейронной сети выполняет такое же поведение вождения, как и реальный водитель, ключевые области, на которые обращает внимание модель глубокой нейронной сети, отображаются на изображении поля зрения водителя, что позволяет далее вывести реальную область визуального внимания водителя. DVEM на основе остаточной структуры используется для извлечения признаков информации изображения, а VSEM — для извлечения признаков данных о состоянии движения автомобиля на основе временных рядов. После слияния в AM генерируется результат визуализации области внимания водителя.

По результатам, показанным на рис. 10, можно обнаружить, что при наличии одной цели на изображениях поля зрения последовательных кадров визуализированная нашей методом область внимания меньше, позиционирование цели более точное, а отслеживание последовательных целей стабильное. И после появления других целей, карта области внимания имеет тенденцию смещаться к другим целям. В части группы c на рис. 14 окружение автомобиля сложное, появляются несколько целей, что также может привести к появлению карты области внимания. Однако по сравнению с единой целью на рис. 10, область внимания, визуализированная несколькими целями, шире и нерегулярнее. В сочетании с анализом привычек визуального наблюдения водителя, при наличии нескольких целей водитель фокусируется на одной цели и уделяет разное внимание различным целям. Одновременно, в сочетании с картой области внимания водителя, можно увидеть, что в условиях нормального вождения поле зрения водителя обычно уделяет больше внимания передним и близким целям.

Экспериментальный анализ показывает, что область внимания водителя тесно связана с данными о состоянии движения автомобиля. Наш метод, посредством эффекта визуализации, демонстрирует промежуточные процессы выходных результатов нейронной сети. Область внимания водителя во время вождения выводится с использованием известных данных изображений поля зрения водителя и данных о состоянии движения автомобиля. Это также помогает в расследовании дорожно-транспортных происшествий, анализе поведения водителя и вспомогательном вождении интеллектуальных транспортных средств. Безусловно, наш метод все еще требует дальнейшего совершенствования. Мы не классифицировали область внимания по степени внимания. Одновременно, дальнейшее сужение диапазона позиционирования области внимания также является направлением, заслуживающим исследования.

Короткие версии статей можно найти в телеграм-канале.