Ответственное использование нулевых выстрелов ИИ для оценки эссе: анализ точности, справедливости и объяснимости

Ответственное использование нулевых выстрелов ИИ для оценки эссе: анализ точности, справедливости и объяснимости

Интересное сегодня

Нейрофидбек и виртуальная реальность: эффективность в лечени...

Введение Нейрофидбек (НФБ) — это метод биологической обратной связи, который позволяет в реальном вр...

Связи между защитными факторами родителей и проблемами повед...

Введение Нейроразнообразные состояния широко распространены среди детей и, как считается, затраги...

Как восприятие опыта и агентства влияет на альтруизм и довер...

Введение С развитием искусственного интеллекта взаимодействие человека и машины выходит на новый уро...

Психологические различия между зависимостью от пищи и булими...

Введение Проблема чрезмерного потребления пищи и его последствия, такие как расстройства пищевого по...

Как образование влияет на связь между ЭЭГ и когнитивными спо...

Введение С возрастом в поведении и когнитивных способностях человека происходят изменения, такие как...

Аутизм и расстройства пищевого поведения: как улучшить лечен...

Введение Расстройства пищевого поведения (РПП) оказывают значительное влияние на детей, подростков и...

figure 1
figure 1
Thumbnail 1
Thumbnail 2
Thumbnail 3
Thumbnail 4
Оригинал исследования на сайте автора
Читать короткую версию
Кликните еще раз для перехода

Введение

Искусственный интеллект (ИИ) имеет огромный потенциал для облегчения процесса оценки и улучшения обучения писательскому мастерству. Однако точность ИИ — это лишь один из аспектов его ответственного использования в образовании. Различные государственные и негосударственные организации, такие как NIST в США, UN, UNESCO и OECD, разработали рекомендации по ответственному использованию ИИ, которые мы синтезировали в принципы ответственного использования ИИ в оценках ETS. Наши принципы включают справедливость и минимизацию предвзятости; безопасность и конфиденциальность; прозрачность, объяснимость и подотчетность; образовательное воздействие и целостность; а также непрерывное улучшение. Точность автоматической оценки — это лишь один из компонентов наших принципов, связанных с образовательным воздействием и целостностью.

Ранние дни ИИ оценки

Автоматическая оценка текстовых ответов в образовательных оценках началась еще в 1960-х годах. Ранние системы, такие как Project Essay Grade (PEG), Intelligent Essay Assessor и e-rater, использовали статистические или машинные обучающие модели для предсказания оценок человека на основе текстовых признаков или сравнения текстовой схожести между ответами студентов и эталонными ответами. Например, PEG использовал прокси-переменные для оценки трин-переменных, таких как плавность, дикция и структура предложений.

Современный ландшафт ИИ оценки

Современные подходы к автоматической оценке включают использование глубоких нейронных сетей и трансформерных моделей. Эти модели часто являются черными ящиками, что делает их менее прозрачными и интерпретируемыми. Однако они могут предлагать более высокую точность, особенно для задач, связанных с оценкой содержания.

Проблема исследования

Основной принцип справедливости является ключевым стандартом образовательного тестирования. Несмотря на то, что генеративные ИИ, такие как ChatGPT, показывают хорошую точность, существует риск предвзятости в их выходных данных. Например, различия в использовании языка или культурные отсылки могут привести к предвзятой оценке, что негативно скажется на определенных группах студентов.

Наш подход к оценке ИИ оценки

Мы следовали лучшим практикам, предложенным в литературе, для оценки точности и справедливости. Мы использовали метрики, такие как процентное согласие, коэффициенты Коэна и PRMSE, для оценки точности, и скорректированные средние различия для оценки справедливости.

Результаты оценки нулевых выстрелов ИИ оценки

Мы использовали GPT-4o для оценки базы данных из 13,121 независимых эссе. Результаты показали, что оценки ИИ были значительно ниже, чем оценки человека, и имели низкую точность. Мы также обнаружили, что оценки ИИ были предвзятыми по отношению к определенным этническим группам, таким как азиатские/тихоокеанские островные студенты.

Обсуждение

Хотя ИИ имеет большой потенциал для улучшения образовательных практик, его ответственное применение требует учета справедливости, прозрачности и объяснимости. Наше исследование показало, что нулевые выстрелы ИИ оценки могут быть предвзятыми и непрозрачными, что подчеркивает необходимость тщательной оценки и улучшения этих методов.

Реклама

Короткие версии статей можно найти в телеграм-канале.

Посмотреть канал
Кликните еще раз для перехода

Крем Можжевельник Нарин 100 мл – натуральная поддержка суста...

Нарин Крем для тела Можжевельник 100 мл – натуральное средство на основе эфирных масел для ухода за ...

Солгар Омега-3 рыбий жир — 120 капсул

Солгар Концентрат Рыбьего Жира Омега-3 №120 — источник EPA и DHA для поддержки сердца, мозга и зрени...

Цинктерал-Тева 124 мг №25 — купить в аптеке

Цинктерал-Тева — препарат цинка для восполнения дефицита микроэлемента. Участвует в метаболизме, укр...

Линкас Орви Гранулы лимон 5,6г №10 — средство от простуды и ...

Линкас Орви Гранулы для приготовления раствора с вкусом лимона — эффективное средство при простуде и...

Очиститель для зубных протезов Протефикс Активный таблетки

Протефикс Очиститель Активный для зубных протезов с активным кислородом эффективно удаляет остатки п...

Диазолин Драже 50Мг от аллергии — купить в аптеке

Диазолин Драже 50Мг — эффективное средство от аллергии №10. Помогает при сенной лихорадке, крапивниц...