
Интересное сегодня
Изучение адаптивного обучения в серийной обратной задаче у с...
Изучение адаптивного обучения Животное, способное учиться взаимосвязи между двумя последовате...
Новое цифровое вмешательство для снижения депрессивных симпт...
Новое цифровое вмешательство, разработанное на основе десятилетнего исследования, использует игровое...
Как достичь благополучия на работе: 3 ключевых измерения и 6...
Три измерения благополучия на работе В психологии концепция хорошей жизни часто рассматривается чер...
Признаки низкого эмоционального интеллекта: как распознать и...
Признаки низкого эмоционального интеллекта Люди с низким эмоциональным интеллектом (EQ) часто испыты...
Искусственный интеллект и проблема пустословия: почему ИИ не...
Искусственный интеллект и пустословие: разбираемся в проблеме Кажется, мы достигли странного этапа в...
Доверие к качественным данным: критерии и методы обеспечения...
Доверие к качественным данным в исследованиях Доверие в качественных исследованиях аналогично концеп...
Введение
Искусственный интеллект (ИИ) имеет огромный потенциал для облегчения процесса оценки и улучшения обучения писательскому мастерству. Однако точность ИИ — это лишь один из аспектов его ответственного использования в образовании. Различные государственные и негосударственные организации, такие как NIST в США, UN, UNESCO и OECD, разработали рекомендации по ответственному использованию ИИ, которые мы синтезировали в принципы ответственного использования ИИ в оценках ETS. Наши принципы включают справедливость и минимизацию предвзятости; безопасность и конфиденциальность; прозрачность, объяснимость и подотчетность; образовательное воздействие и целостность; а также непрерывное улучшение. Точность автоматической оценки — это лишь один из компонентов наших принципов, связанных с образовательным воздействием и целостностью.
Ранние дни ИИ оценки
Автоматическая оценка текстовых ответов в образовательных оценках началась еще в 1960-х годах. Ранние системы, такие как Project Essay Grade (PEG), Intelligent Essay Assessor и e-rater, использовали статистические или машинные обучающие модели для предсказания оценок человека на основе текстовых признаков или сравнения текстовой схожести между ответами студентов и эталонными ответами. Например, PEG использовал прокси-переменные для оценки трин-переменных, таких как плавность, дикция и структура предложений.
Современный ландшафт ИИ оценки
Современные подходы к автоматической оценке включают использование глубоких нейронных сетей и трансформерных моделей. Эти модели часто являются черными ящиками, что делает их менее прозрачными и интерпретируемыми. Однако они могут предлагать более высокую точность, особенно для задач, связанных с оценкой содержания.
Проблема исследования
Основной принцип справедливости является ключевым стандартом образовательного тестирования. Несмотря на то, что генеративные ИИ, такие как ChatGPT, показывают хорошую точность, существует риск предвзятости в их выходных данных. Например, различия в использовании языка или культурные отсылки могут привести к предвзятой оценке, что негативно скажется на определенных группах студентов.
Наш подход к оценке ИИ оценки
Мы следовали лучшим практикам, предложенным в литературе, для оценки точности и справедливости. Мы использовали метрики, такие как процентное согласие, коэффициенты Коэна и PRMSE, для оценки точности, и скорректированные средние различия для оценки справедливости.
Результаты оценки нулевых выстрелов ИИ оценки
Мы использовали GPT-4o для оценки базы данных из 13,121 независимых эссе. Результаты показали, что оценки ИИ были значительно ниже, чем оценки человека, и имели низкую точность. Мы также обнаружили, что оценки ИИ были предвзятыми по отношению к определенным этническим группам, таким как азиатские/тихоокеанские островные студенты.
Обсуждение
Хотя ИИ имеет большой потенциал для улучшения образовательных практик, его ответственное применение требует учета справедливости, прозрачности и объяснимости. Наше исследование показало, что нулевые выстрелы ИИ оценки могут быть предвзятыми и непрозрачными, что подчеркивает необходимость тщательной оценки и улучшения этих методов.
Реклама