Медицинский ИИ проигрывает универсальным моделям: анализ эффективности

Интересное сегодня

Психологическая адаптация при диабете: валидация турецкой ве...

...

Влияние выхода на пенсию на одиночество: научное исследовани...

...

Влияет ли язык на мышление: опровержение теории лингвистичес...

...

Как 3000 шагов в день защищают мозг от деменции и болезни Ал...

...

Расизм и его влияние на психическое здоровье: повышенный рис...

...

Когнитивные компромиссы между памятью и оценкой в ретроспект...

...

Изображение от Pexels с Pixabay.

Оригинал исследования на сайте автора

Медицинский ИИ против универсальных моделей: новое исследование

В сфере цифрового здравоохранения существует категория инструментов, привлекающая огромные инвестиции и доверие: это специализированные медицинские модели искусственного интеллекта (ИИ). Логика разработчиков кажется интуитивно понятной: возьмите передовую модель, добавьте в нее тщательно отобранную медицинскую информацию, и вы получите инструмент, которому врачи смогут доверять больше, чем обычному чат-боту общего назначения. Компании вроде OpenEvidence привлекли сотни миллионов долларов на этой концепции. Аналогичный подход использовал сервис UpToDate, внедривший собственный ИИ-слой. Предполагалось, что расширение объема медицинских знаний приведет к созданию более совершенного медицинского интеллекта. Однако исследование, недавно опубликованное в журнале Nature Medicine, указывает на обратное.

Математический аспект: капля в море данных

Интересно взглянуть на базовые расчеты. Общий корпус биомедицинской литературы состоит из сотен миллиардов слов. В то же время передовые модели ИИ (так называемые Frontier models — «граничные» или «передовые» модели) обучаются на триллионах токенов (единиц текста). Специализированная модель не добавляет медицинские знания в «пустой сосуд»; она добавляет сотни миллиардов слов в систему, которая уже поглотила триллионы слов, охватывающих медицину, биологию, химию, статистику и фармакологию. Возникает закономерный вопрос: не является ли это просто «каплей в море» информации?

По моим приблизительным оценкам, прирост знаний, который дают специализированные инструменты, составляет около одной десятой процента от того, что уже «знает» стандартная модель. Специализированный слой может вносить вклад на периферии, но исследование показывает нечто контринтуитивное: этот вклад больше не является критически важным.

Стоит ли переплачивать за узкую специализацию?

Исследователи из NYU Langone (Медицинский центр Нью-Йоркского университета) сравнили специализированные инструменты OpenEvidence и UpToDate Expert AI с тремя передовыми моделями: GPT-5.2, Gemini 3.1 Pro и Claude Opus 4.6. Модели тестировались на экзаменах по получению медицинской лицензии, тестах на соответствие клиническим рекомендациям и на 100 реальных запросах от практикующих врачей. Результаты оценивались «вслепую» врачами-клиницистами.

Результаты оказались неожиданными: передовые универсальные модели превзошли специализированные инструменты во всех трех категориях.

Более того, специализированные клинические ИИ-решения показали результаты, не превышающие эффективность функции Google Search AI Overview (обзор ИИ в поиске Google). Это та самая функция браузера, о существовании которой многие пользователи даже не подозревают, не говоря уже о том, чтобы платить за нее. Вывод очевиден: узкоспециализированный клинический ИИ, который продается врачам по высокой цене, работает на уровне стандартной функции бесплатного браузера.

Уроки прошлого: BloombergGPT

Медицина — не первая сфера, которая сделала ставку на узкую специализацию, и исторический прецедент не внушает оптимизма. В 2023 году компания Bloomberg инвестировала значительные средства в специализированную финансовую модель BloombergGPT, обученную на миллиардах токенов проприетарных (частных) рыночных данных. Обоснование было почти идентичным: считалось, что финансы — это слишком сложная и ответственная область для освоения общими моделями. Несмотря на доступ к огромному объему уникальных данных, BloombergGPT показала результаты, сопоставимые с универсальными моделями при решении финансовых задач.

Будущее ценности в эпоху ИИ

Настоящий вопрос заключается не в том, важна ли медицинская экспертиза — она, безусловно, важна. Вопрос в том, где остается ценность, когда универсальный интеллект становится способным справляться с большинством задач, в которых раньше доминировали экспертные модели. Если передовые модели продолжат соответствовать специализированным клиническим инструментам или превосходить их, конкурентное преимущество сместится в другие области. Новыми точками дифференциации (отличия от конкурентов) могут стать:

Использование закрытых проприетарных клинических данных.
Глубокая интеграция в существующие рабочие процессы.
Институциональное доверие и репутация.
Управление рисками и строгое соблюдение регуляторных требований (например, GDPR или HIPAA).
Способность внедрения в реальные среды здравоохранения.

В конечном итоге, сама модель становится «инфраструктурой», а ценность перемещается на уровень выше — к тем задачам, которые простое дообучение (fine-tuning) передовой модели выполнить не в состоянии.

Небольшое, но важное исключение

Важно отметить, что авторы исследования честно указали на ограничения своих выводов. В крайне узкоспециализированных задачах преимущества доменных (отраслевых) подходов все еще могут проявляться, и единственный, даже малоизвестный клинический факт может стать решающим в конкретном случае. Эти редкие ситуации реальны. Однако они становятся все меньшей частью общей картины. ИИ в здравоохранении выстроил свою идентичность вокруг убеждения, что клиническая сложность требует клинической специализации. Сейчас данные свидетельствуют о том, что специализированный слой важен меньше, чем предполагалось, поскольку «фундамент» под ним стал чрезвычайно мощным. «Рыв» (конкурентное преимущество) был реальным, но он оказался не вечным.

Короткие версии статей можно найти в телеграм-канале.