Могут ли CNN имитировать человеческое восприятие? Исследование принципа Замыкания в нейросетях

Могут ли CNN имитировать человеческое восприятие? Исследование принципа Замыкания в нейросетях

Интересное сегодня

Стимуляция блуждающего нерва для лечения ПТСР

Введение Посттравматическое стрессовое расстройство (ПТСР) представляет собой серьезное психическое ...

Сенсорные особенности аутизма: исследование аудиторной гипер...

Сенсорные различия при аутизме Сенсорные различия при аутизме сильно влияют на качество ж...

Ранние расстройства пищевого поведения у детей: нейровизуали...

Ранние расстройства пищевого поведения (rEO-ED) у детей включают гетерогенную группу состояний, таки...

Что вызывает аутизм? Новое понимание аутизма

Введение На протяжении десятилетий вопрос о причинах аутизма привлекал внимание общественности, вызы...

Влияние субклинических депрессивных симптомов и стресса на п...

Введение Пенсия может оказать значительное влияние на когнитивные способности, что идет вразрез с но...

Практика улучшает контроль внимания и проспективную память у...

ВведениеПроспективная память — это способность помнить о том, что нужно сделать в будущем. Она включ...

figure 1
figure 1
figure 2
figure 2
figure 3
figure 3
figure 4
figure 4
figure 5
figure 5
figure 6
figure 6
figure 7
figure 7
figure 8
figure 8
figure 9
figure 9
Thumbnail 1
Thumbnail 2
Thumbnail 3
Thumbnail 4
Thumbnail 5
Thumbnail 6
Thumbnail 7
Thumbnail 8
Thumbnail 9
Оригинал исследования на сайте автора

Ограничения искусственного интеллекта в сравнении с человеческим восприятием

Задачи, которые люди выполняют интуитивно, остаются сложными для моделей искусственного интеллекта (ИИ), несмотря на их растущую интеграцию в различные области. Способность нейронных сетей ошибаться, например, при распознавании текстурированного изображения кошки как слона (Geirhos et al., 2018), подчеркивает их ограничения по сравнению с возможностями человеческого мозга. В то время как люди легко распознают лица, даже незначительные искажения в изображении могут обмануть нейронную сеть (Szegedy et al., 2013; Goodfellow et al., 2015), демонстрируя значительный разрыв в имитации человеческого зрительного восприятия.

Гештальт-принципы и роль Замыкания

Важным этапом в изучении зрительного восприятия стало развитие принципов перцептивной группировки, известных как «Законы Гештальта» (Wertheimer, 1938; Palmer, 2002; Wagemans et al., 2012a; Wagemans, 2018). Эти принципы объясняют, как наблюдатели склонны воспринимать определенные элементы как связанные, а другие — как отдельные. Среди них принцип Замыкания утверждает, что люди воспринимают незавершенные формы как цельные, формируя связное изображение. Это происходит благодаря завершению контура, которое может быть амодальным (когда объект воспринимается за перекрывающим элементом) или модальным (когда характеристики стимула создают иллюзорный контур).

Методология исследования

Наше исследование сосредоточено на CNN по двум основным причинам. Во-первых, это позволяет устранить пробелы, выявленные в предыдущих исследованиях, особенно противоречивые результаты относительно их способности выполнять Замыкание. Во-вторых, CNN работают иначе, чем другие нейронные сети, такие как Vision Transformers (ViTs), которые используют механизмы внимания. Учитывая сложную взаимосвязь между вниманием и перцептивной группировкой в человеческом мозге (Wu et al., 2023), ViTs требуют отдельного изучения.

Эксперимент 1: Метод, основанный на сходстве

Первый эксперимент основан на работе Kim et al. (2021), которые показали, что CNN, обученные классификации естественных изображений, действительно выполняют Замыкание. Мы воспроизводим их исследование, внося два изменения в набор данных и расширяя методологию на более широкий спектр CNN. Основное внимание уделяется завершению сегментов треугольника с использованием фрагментов краев.

  • Набор данных: Содержит 992 изображения, разделенных на три группы: полные треугольники, выровненные фрагменты и хаотичные фрагменты.
  • Измерение: Используется косинусное сходство для оценки эффекта Замыкания.

Обсуждение результатов и выводы

Результаты показывают, что CNN демонстрируют различную способность к выполнению Замыкания в зависимости от архитектуры и типа стимулов. VGG16 и DenseNet-121 последовательно используют принцип Замыкания, в то время как другие модели, такие как AlexNet и ResNet-50, показывают лучшие результаты при использовании метода, основанного на конфигурационных эффектах (CE).

«Если CNN могут имитировать человеческое восприятие без рекуррентных связей, это значительный шаг в понимании группировки информации в нейросетях»

Наши выводы подчеркивают, что CNN обладают более сильными способностями к амодальному завершению, чем к модальному. Это может объяснить, почему некоторые модели демонстрируют эффект Замыкания для сегментов линий, но не для фигур Канзи. Будущие исследования могут быть направлены на обучение CNN выполнению Замыкания для улучшения их производительности и устойчивости к атакам.

Короткие версии статей можно найти в телеграм-канале.

Посмотреть канал
Кликните еще раз для перехода