Ответственное использование нулевых выстрелов ИИ для оценки эссе: анализ точности, справедливости и объяснимости

Ответственное использование нулевых выстрелов ИИ для оценки эссе: анализ точности, справедливости и объяснимости

Интересное сегодня

Изучение адаптивного обучения в серийной обратной задаче у с...

Изучение адаптивного обучения Животное, способное учиться взаимосвязи между двумя последовате...

Новое цифровое вмешательство для снижения депрессивных симпт...

Новое цифровое вмешательство, разработанное на основе десятилетнего исследования, использует игровое...

Как достичь благополучия на работе: 3 ключевых измерения и 6...

Три измерения благополучия на работе В психологии концепция хорошей жизни часто рассматривается чер...

Признаки низкого эмоционального интеллекта: как распознать и...

Признаки низкого эмоционального интеллекта Люди с низким эмоциональным интеллектом (EQ) часто испыты...

Искусственный интеллект и проблема пустословия: почему ИИ не...

Искусственный интеллект и пустословие: разбираемся в проблеме Кажется, мы достигли странного этапа в...

Доверие к качественным данным: критерии и методы обеспечения...

Доверие к качественным данным в исследованиях Доверие в качественных исследованиях аналогично концеп...

figure 1
figure 1
Thumbnail 1
Thumbnail 2
Thumbnail 3
Thumbnail 4
Оригинал исследования на сайте автора
Читать короткую версию
Кликните еще раз для перехода

Введение

Искусственный интеллект (ИИ) имеет огромный потенциал для облегчения процесса оценки и улучшения обучения писательскому мастерству. Однако точность ИИ — это лишь один из аспектов его ответственного использования в образовании. Различные государственные и негосударственные организации, такие как NIST в США, UN, UNESCO и OECD, разработали рекомендации по ответственному использованию ИИ, которые мы синтезировали в принципы ответственного использования ИИ в оценках ETS. Наши принципы включают справедливость и минимизацию предвзятости; безопасность и конфиденциальность; прозрачность, объяснимость и подотчетность; образовательное воздействие и целостность; а также непрерывное улучшение. Точность автоматической оценки — это лишь один из компонентов наших принципов, связанных с образовательным воздействием и целостностью.

Ранние дни ИИ оценки

Автоматическая оценка текстовых ответов в образовательных оценках началась еще в 1960-х годах. Ранние системы, такие как Project Essay Grade (PEG), Intelligent Essay Assessor и e-rater, использовали статистические или машинные обучающие модели для предсказания оценок человека на основе текстовых признаков или сравнения текстовой схожести между ответами студентов и эталонными ответами. Например, PEG использовал прокси-переменные для оценки трин-переменных, таких как плавность, дикция и структура предложений.

Современный ландшафт ИИ оценки

Современные подходы к автоматической оценке включают использование глубоких нейронных сетей и трансформерных моделей. Эти модели часто являются черными ящиками, что делает их менее прозрачными и интерпретируемыми. Однако они могут предлагать более высокую точность, особенно для задач, связанных с оценкой содержания.

Проблема исследования

Основной принцип справедливости является ключевым стандартом образовательного тестирования. Несмотря на то, что генеративные ИИ, такие как ChatGPT, показывают хорошую точность, существует риск предвзятости в их выходных данных. Например, различия в использовании языка или культурные отсылки могут привести к предвзятой оценке, что негативно скажется на определенных группах студентов.

Наш подход к оценке ИИ оценки

Мы следовали лучшим практикам, предложенным в литературе, для оценки точности и справедливости. Мы использовали метрики, такие как процентное согласие, коэффициенты Коэна и PRMSE, для оценки точности, и скорректированные средние различия для оценки справедливости.

Результаты оценки нулевых выстрелов ИИ оценки

Мы использовали GPT-4o для оценки базы данных из 13,121 независимых эссе. Результаты показали, что оценки ИИ были значительно ниже, чем оценки человека, и имели низкую точность. Мы также обнаружили, что оценки ИИ были предвзятыми по отношению к определенным этническим группам, таким как азиатские/тихоокеанские островные студенты.

Обсуждение

Хотя ИИ имеет большой потенциал для улучшения образовательных практик, его ответственное применение требует учета справедливости, прозрачности и объяснимости. Наше исследование показало, что нулевые выстрелы ИИ оценки могут быть предвзятыми и непрозрачными, что подчеркивает необходимость тщательной оценки и улучшения этих методов.

Реклама

Короткие версии статей можно найти в телеграм-канале.

Посмотреть канал
Кликните еще раз для перехода

Димексид Гель 25% 30г - купить в аптеке

Димексид Гель 25% — эффективное противовоспалительное средство для наружного применения. Обладает об...

Либридерм Аевит Помада Гигиеническая Жирная 4Г - Витамины А+...

Либридерм Аевит Помада Гигиеническая Жирная 4Г с витаминами А и Е интенсивно питает и восстанавливае...

Компрессионные гольфы Релаксан Cottonsocks 140Den мужские че...

Мужские компрессионные гольфы Релаксан Cottonsocks 140Den черного цвета — эффективное средство при н...

Подгузники-трусы TENA Pants Plus L для недержания

TENA Pants Plus подгузники-трусы для взрослых L №10 — идеальное решение для активных людей с недержа...

L-Аргинин 1000 мг Nature's Bounty — купить для трениров...

L-аргинин Nature's Bounty 1000 мг — условно незаменимая аминокислота, участвующая в синтезе оксида а...

Купить Однодневные Линзы Acuvue Moist -2.00 Bc=8.5 №90

Однодневные контактные линзы Acuvue Moist Bc=8,5 -2,00 №90 обеспечивают комфорт и увлажнение на весь...