«Последний экзамен человечества»: как новый тест оценивает интеллект ИИ

Интересное сегодня

Исследование: люди чаще нарушают правила при делегировании з...

Искусственный интеллект как соучастник неэтичного поведения Становится ли искусственный интеллект (...

Нейронные паттерны восприятия звуков при локализации в динам...

Введение Определение местоположения стимула является ключевой функцией в сенсорной обработке и широк...

Потерянные питомцы в США в 2024 году: статистика и советы по...

Потерянные питомцы в США: тревожная статистика 2024 года 2024 год принес уникальные вызовы для амери...

Цифровые интервенции для психологического здоровья родителей...

Введение Растущее количество доказательств свидетельствует о том, что родители детей с расстройствам...

Программа «Круг безопасности для родителей» (COSP): что пока...

Программа «Круг безопасности для родителей» (COSP) не показала клинического преимущества в исслед...

Механизмы недоверия: Как тревога и депрессия искажают воспри...

Введение Недавнее исследование, проведенное учеными Копенгагенского университета, выявило, что люди,...

TheDigitalArtist/Pixabay

Революция в оценке возможностей искусственного интеллекта

Искусственный интеллект (ИИ) развивается со стремительной скоростью, зачастую обгоняя традиционные методы оценки его способностей. Согласно новому рецензируемому исследованию, опубликованному в журнале Nature, ученые создали инновационный инструмент для тестирования — «Последний экзамен человечества» (от англ. Humanity’s Last Exam, сокращенно HLE). Этот комплексный междисциплинарный бенчмарк (тест для сравнения производительности) включает в себя 2500 академических вопросов экспертного уровня, охватывающих самые разные научные дисциплины.

Международная группа экспертов, состоящая из специалистов из 50 стран и представляющая более 500 институтов, объединилась, чтобы создать этот инструмент, способный адекватно измерить интеллект современных LLM (Large Language Models — больших языковых моделей, систем машинного обучения, обученных на огромных массивах текстовых данных).

Кто стоит за созданием проекта?

Исследование было поддержано двумя крупными организациями из Сан-Франциско: Center for AI Safety (Центр безопасности ИИ) и Scale AI. Center for AI Safety (CAIS) — это некоммерческая организация, основанная в 2022 году. Ее миссия заключается в снижении рисков, связанных с ИИ, через развитие исследований в области его безопасности и адвокацию ответственного подхода к технологиям. Scale AI — компания, специализирующаяся на инфраструктуре ИИ и маркировке данных, основанная в 2016 году Александром Вангом и Люси Го.

«Бенчмарки — это важнейшие инструменты для отслеживания быстрого прогресса в возможностях больших языковых моделей», — отмечают соавторы исследования Дэн Хендрикс и Лонг Фан.

Почему старые тесты больше не работают?

Авторы подчеркивают серьезную проблему: существующие тесты катастрофически устаревают. Современные LLM теперь показывают точность более 90% в популярных бенчмарках, таких как MMLU (Measuring Massive Multitask Language Understanding — измерение понимания языка через масштабные многозадачные тесты). Это лишает исследователей возможности объективно оценивать самые мощные современные системы, так как те «знают ответы наизусть».

Безопасность ИИ сегодня является первоочередной задачей. Согласно опросу Gallup 2025 года, 80% взрослых американцев поддерживают государственное регулирование ИИ, даже если это замедлит темпы инноваций.

Структура и сложность «Последнего экзамена»

Экзамен охватывает более 100 предметов. Распределение категорий выглядит следующим образом:

Математика: 41%
Биология и медицина: 11%
Компьютерные науки и ИИ: 10%
Физика: 9%
Гуманитарные и социальные науки: 9%
Химия: 7%
Инженерное дело: 4%
Другие дисциплины: 9%

Вопросы теста предполагают как выбор ответа, так и краткий комментарий. Каждое решение четко верифицируемо, однако его невозможно найти, просто воспользовавшись поисковой системой Google. Около 14% вопросов являются мультимодальными, требующими анализа изображений наряду с текстовой информацией.

Процесс фильтрации: от 70 000 до 2 500 вопросов

Чтобы создать по-настоящему сложный тест, команда проделала огромную работу. Изначально было отобрано 70 000 потенциальных вопросов. Затем они прошли через «сито» из передовых нейросетей. Если модель отвечала правильно слишком часто или, наоборот, демонстрировала случайный набор символов, вопрос отправлялся на доработку. Далее эксперты-люди со степенями магистра и выше в своих областях провели два раунда рецензирования, сократив базу до 6 000 вопросов, из которых 2 500 вошли в итоговый публичный набор данных.

Научное значение проекта

«Предоставляя четкую метрику прогресса ИИ, Humanity's Last Exam создает общую точку отсчета для ученых и политиков», — заключают исследователи. Это поможет человечеству не только следить за мощью «цифрового разума», но и вовремя выявлять риски, сохраняя контроль над технологиями, которые меняют наш мир.

Данный тест является важным этапом в понимании того, как далеко зашли технологии и где проходят границы между машинной логикой и человеческим экспертным знанием.

Короткие версии статей можно найти в телеграм-канале.