Опубликовано: пятница, 9 мая 2025 г.

Насколько ИИ действительно разбирается в медицине?

Автор

Имя
Нейрократия
Telegram
telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Насколько ИИ действительно разбирается в медицине?

Продолжаем медициниский дискурс.

Может ли универсальный искусственный интеллект сегодня мыслить на уровне опытного врача? Чтобы выяснить это, исследователи из университета Цинхуа создали MedXpertQA — самый амбициозный и сложный медицинский экзамен для ИИ, который мы видели на сегодняшний день.

Что представляет собой MedXpertQA?

Представьте себе экзамен на врача, содержащий более 4,460 сложных вопросов, охватывающих всё от хирургии до психиатрии, от рентгенологии до семейной медицины. Теперь добавьте сюда не только текст, но и различные изображения: снимки МРТ, рентген, диаграммы, схемы, микроскопические гистологические фото — полноценный мультимодальный медицинский тест. Так выглядит MedXpertQA.

Главная цель — максимально приблизить ИИ-испытания к реальным клиническим ситуациям вместо привычных синтетических вопросов. Здесь нет простых картинок с очевидными ответами, которыми многие медицинские бенчмарки грешат. Каждый вопрос основан на глубокой клинической информации, требует многошаговых размышлений и экспертного владения материалом.

Легко ли ИИ пройти такой тест?

Коротко: нет. Исследование показывает, что даже лидеры среди общедоступных моделей, такие как GPT-4o от OpenAI и Gemini от Google, демонстрируют посредственные результаты. Лучшие модели дают около 30-50% правильных ответов, что гораздо ниже успехов на предыдущих медицинских тестах, где те же системы часто приближались к 90% точности.

Модели нового поколения, такие как o1 от OpenAI, построенные на reasoning, хотя и улучшают решения по сравнению с прошлыми моделями, всё равно явно испытывают затруднения. Особенно ярко это видно на разделе, посвящённом клиническим рассуждениям, а не просто запоминанию фактов.

Почему результаты хуже, чем на других бенчмарках?

Создатели MedXpertQA постарались исключить любые шансы на простое запоминание, и также утечки данных при работе над бенчмарком. Каждый вопрос прошёл многоэтапную фильтрацию, а дополнительные задания были сгенерированы и переписаны специально для проверки оригинальности и сложности. Тест проверял не только медицинские знания, но и аналитические способности, умение визуально интерпретировать медицинские данные и точно выбирать клиническую тактику в реалистичной административно-клинической обстановке.

И снова я напоминаю о том, что тестируются модели, никак не адаптированные к медицинской тематике. В исследовании так и написано: "Vanilla Large Multimodal Models". Поэтому стоит обратить внимание, что именно проверялось на бенчмарке, чтобы полностью понять суть публикации. Между специализированными медицинскими LLM и «всезнающими» потребительскими продуктами — большая разница.

/ Не запрещена в РФ

Обсудить в Telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev