Автоматическая оценка конкретности слов: новый подход в когнитивной науке и NLP

Интересное сегодня

Как аутичные черты влияют на восприятие привлекательности ли...

Взгляд и привлекательность: что говорят глаза? Когда речь заходит о привлекательности, глаза часто р...

Сенсорная перегрузка у родителей: как справиться с избыточно...

Сенсорная перегрузка, или избыточная стимуляция через пять органов чувств, которая кажется слишком т...

Как тепло помогает снизить тревожность при анорексии: научно...

Введение Нервная анорексия (НА) — тяжёлое психическое расстройство, преимущественно поражающее девуш...

Влияние детского опыта на отношения во взрослой жизни

Введение Наши детские переживания могут значительно повлиять на различные аспекты нашей взрослой жиз...

Физическая активность у аутичных подростков: результаты иссл...

Введение В последнее время становится все более очевидным, что подростки с аутизмом менее физически ...

Влияние физической активности на одиночество у студентов: ме...

Введение Физическое и психическое здоровье студентов становится все более важной темой для обществен...

Рисунок 1: Архитектура системы для генерации оценок конкретности

Рисунок 2: Распределение оценок конкретности для английских слов

Рисунок 3: Сравнение предсказанных и истинных оценок

Рисунок 4: Распределение для многословных выражений

Рисунок 5: Плотность распределения оценок для многословных выражений

Рисунок 6: Тепловая карта предсказаний для эстонских выражений

Рисунок 7: Сравнение распределений оценок для эстонского языка

Оригинал исследования на сайте автора

Введение

Конкретность — это степень, в которой понятие, обозначаемое словом, относится к воспринимаемому объекту. Эта переменная впервые стала значимой в психологии благодаря теории двойного кодирования Пайвио. Согласно этой теории, человеческое познание оперирует двумя типами ментальных репрезентаций: (1) вербальными, кодирующими лингвистические закономерности, и (2) ментальными образами, фиксирующими перцептивный опыт.

Теоретическая база

Современные исследования показывают, что оба типа репрезентаций взаимодействуют, но акцент может смещаться в сторону лингвистических паттернов или контекстуального опыта. Нейробиологические и поведенческие работы продолжают изучать механизмы концептуальной обработки, где оценки конкретности играют ключевую роль.

Проблемы существующих методов

Традиционные корпуса оценок конкретности (например, Brysbaert et al.) имеют три ограничения:

Ограниченный охват слов: 40,000 английских слов — менее четверти Оксфордского словаря.
Ресурсоемкость: Требуют тысяч часов ручного труда (17,000 часов для Brysbaert et al.).
Отсутствие контекста: Слова оцениваются изолированно, хотя их значение зависит от употребления.

Недостатки текущих решений

Автоматизированные методы (например, на основе word embeddings или «selectional preference») демонстрируют корреляцию с человеческими оценками не выше 0.72. Они плохо работают с абстрактными понятиями и мультиязычными контекстами.

Наш подход

Мы предлагаем метод, объединяющий четыре компонента:

Контекстные эмбеддинги на основе трансформеров.
Мультимодальное обучение (текст + изображения).
Эмоциональная адаптация через дообучение на аффективных данных.
Кросс-лингвистическая генерация оценок.

Архитектура модели

Основу составляет мультимодальная модель CLIP (Contrastive Language–Image Pretraining), дообученная на датасете из 85,007 изображений с эмоциональными метками. Глубокий регрессор комбинирует визуальные и эмоциональные эмбеддинги для предсказания конкретности.

Результаты

Метод достиг следующих показателей:

Английские слова: r=0.93.
Многословные выражения: r=0.85.
Эстонский язык: r=0.68–0.80 (после постобработки).

Кросс-лингвистическая адаптация

Несмотря на различия в распределении оценок между английским (бимодальное) и эстонским (равномерное), модель успешно обобщила закономерности, подтверждая универсальность подхода.

Применение

Метод полезен для:

Когнитивных исследований: Контроль стимулов в экспериментах по семантической памяти.
Психолингвистики: Изучение усвоения языка и нейронных коррелятов абстракций.
NLP: Улучшение метафор-детекции, машинного перевода и упрощения текстов.

Ограничения

1. Культурные смещения в тренировочных данных CLIP.
2. Сложности с промежуточными понятиями (3–4 балла по шкале конкретности).
3. Ограниченная проверка на языках вне индоевропейской семьи.

Перспективы

Будущие работы должны интегрировать многоязычные модели (mBERT, XLM-R) для прямого анализа без перевода.

Короткие версии статей можно найти в телеграм-канале.