
Интересное сегодня
Как негативно воспринимать окружающий мир: особенности чувст...
Введение Вы находитесь в восьмом классе. Это урок математики, и вы пытаетесь закончить задание по ге...
Психологическая устойчивость у пациентов с хроническими забо...
Введение Психологическая устойчивость — это способность преодолевать трудности, возникающие в различ...
Почему мы хотим сладкого даже после еды: научное объяснение
Десерт — больше чем просто удовольствие Для многих сладкое — не просто лакомство, а настоящий ритуал...
Стратегии преодоления нарколепсии 1 типа и их влияние на кач...
Введение Нарколепсия 1 типа (NT1) — это хроническое неврологическое расстройство, характеризующееся ...
Существует ли «чисто обсессивное» ОКР? Развенчание мифа о Pu...
Ключевые выводы Термин «Pure O» или «чисто обсессивное» ОКР используется для описания людей, испытыв...
Как музыка помогает детям распознавать эмоции: исследование ...
Музыка и эмоции: как дети учатся распознавать чувства Музыка играет важную роль в том, как мы воспри...
Введение
Искусственный интеллект (ИИ) имеет огромный потенциал для облегчения процесса оценки и улучшения обучения писательскому мастерству. Однако точность ИИ — это лишь один из аспектов его ответственного использования в образовании. Различные государственные и негосударственные организации, такие как NIST в США, UN, UNESCO и OECD, разработали рекомендации по ответственному использованию ИИ, которые мы синтезировали в принципы ответственного использования ИИ в оценках ETS. Наши принципы включают справедливость и минимизацию предвзятости; безопасность и конфиденциальность; прозрачность, объяснимость и подотчетность; образовательное воздействие и целостность; а также непрерывное улучшение. Точность автоматической оценки — это лишь один из компонентов наших принципов, связанных с образовательным воздействием и целостностью.
Ранние дни ИИ оценки
Автоматическая оценка текстовых ответов в образовательных оценках началась еще в 1960-х годах. Ранние системы, такие как Project Essay Grade (PEG), Intelligent Essay Assessor и e-rater, использовали статистические или машинные обучающие модели для предсказания оценок человека на основе текстовых признаков или сравнения текстовой схожести между ответами студентов и эталонными ответами. Например, PEG использовал прокси-переменные для оценки трин-переменных, таких как плавность, дикция и структура предложений.
Современный ландшафт ИИ оценки
Современные подходы к автоматической оценке включают использование глубоких нейронных сетей и трансформерных моделей. Эти модели часто являются черными ящиками, что делает их менее прозрачными и интерпретируемыми. Однако они могут предлагать более высокую точность, особенно для задач, связанных с оценкой содержания.
Проблема исследования
Основной принцип справедливости является ключевым стандартом образовательного тестирования. Несмотря на то, что генеративные ИИ, такие как ChatGPT, показывают хорошую точность, существует риск предвзятости в их выходных данных. Например, различия в использовании языка или культурные отсылки могут привести к предвзятой оценке, что негативно скажется на определенных группах студентов.
Наш подход к оценке ИИ оценки
Мы следовали лучшим практикам, предложенным в литературе, для оценки точности и справедливости. Мы использовали метрики, такие как процентное согласие, коэффициенты Коэна и PRMSE, для оценки точности, и скорректированные средние различия для оценки справедливости.
Результаты оценки нулевых выстрелов ИИ оценки
Мы использовали GPT-4o для оценки базы данных из 13,121 независимых эссе. Результаты показали, что оценки ИИ были значительно ниже, чем оценки человека, и имели низкую точность. Мы также обнаружили, что оценки ИИ были предвзятыми по отношению к определенным этническим группам, таким как азиатские/тихоокеанские островные студенты.
Обсуждение
Хотя ИИ имеет большой потенциал для улучшения образовательных практик, его ответственное применение требует учета справедливости, прозрачности и объяснимости. Наше исследование показало, что нулевые выстрелы ИИ оценки могут быть предвзятыми и непрозрачными, что подчеркивает необходимость тщательной оценки и улучшения этих методов.
Реклама