- Опубликовано
Насколько ИИ действительно разбирается в медицине?
- Автор
- Имя
- Нейрократия
- Telegram
- Нейрократия582 подписчика231 постПро технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev
Насколько ИИ действительно разбирается в медицине?
Продолжаем медициниский дискурс.
Может ли универсальный искусственный интеллект сегодня мыслить на уровне опытного врача? Чтобы выяснить это, исследователи из университета Цинхуа создали MedXpertQA — самый амбициозный и сложный медицинский экзамен для ИИ, который мы видели на сегодняшний день.
Что представляет собой MedXpertQA?
Представьте себе экзамен на врача, содержащий более 4,460 сложных вопросов, охватывающих всё от хирургии до психиатрии, от рентгенологии до семейной медицины. Теперь добавьте сюда не только текст, но и различные изображения: снимки МРТ, рентген, диаграммы, схемы, микроскопические гистологические фото — полноценный мультимодальный медицинский тест. Так выглядит MedXpertQA.
Главная цель — максимально приблизить ИИ-испытания к реальным клиническим ситуациям вместо привычных синтетических вопросов. Здесь нет простых картинок с очевидными ответами, которыми многие медицинские бенчмарки грешат. Каждый вопрос основан на глубокой клинической информации, требует многошаговых размышлений и экспертного владения материалом.
Легко ли ИИ пройти такой тест?
Коротко: нет. Исследование показывает, что даже лидеры среди общедоступных моделей, такие как GPT-4o от OpenAI и Gemini от Google, демонстрируют посредственные результаты. Лучшие модели дают около 30-50% правильных ответов, что гораздо ниже успехов на предыдущих медицинских тестах, где те же системы часто приближались к 90% точности.
Модели нового поколения, такие как o1 от OpenAI, построенные на reasoning, хотя и улучшают решения по сравнению с прошлыми моделями, всё равно явно испытывают затруднения. Особенно ярко это видно на разделе, посвящённом клиническим рассуждениям, а не просто запоминанию фактов.
Почему результаты хуже, чем на других бенчмарках?
Создатели MedXpertQA постарались исключить любые шансы на простое запоминание, и также утечки данных при работе над бенчмарком. Каждый вопрос прошёл многоэтапную фильтрацию, а дополнительные задания были сгенерированы и переписаны специально для проверки оригинальности и сложности. Тест проверял не только медицинские знания, но и аналитические способности, умение визуально интерпретировать медицинские данные и точно выбирать клиническую тактику в реалистичной административно-клинической обстановке.
И снова я напоминаю о том, что тестируются модели, никак не адаптированные к медицинской тематике. В исследовании так и написано: "Vanilla Large Multimodal Models". Поэтому стоит обратить внимание, что именно проверялось на бенчмарке, чтобы полностью понять суть публикации. Между специализированными медицинскими LLM и «всезнающими» потребительскими продуктами — большая разница.
Предыдущий пост
- Опубликовано
Убитый человек выступил в суде с помощью ИИ
Следующий пост
- Опубликовано
Как защитить голос от клонирования нейросетями?
Закрепленные
Из подборки #обзор
- Опубликовано
AI 2025: агенты, ролплей, китайская экспансия
- Опубликовано
Чем больше LLM, тем легче её взломать
- Опубликовано
OpenAI пытается отучить модели врать
- Опубликовано
Как ИИ создаёт видео: разбираем технологию
- Опубликовано
Activepieces: новый n8n?
- Опубликовано
Anthropic запустила образовательные курсы
Свежие посты
- Опубликовано
Внутренности Клода
- Опубликовано
Как меняется устройство мысли
- Опубликовано
Google ускоряет LLM в 8 раз
- Опубликовано
Архив, эпизоды и граф: память агента изнутри
- Опубликовано
Я делаю personal-first ассистента. Вот зачем
- Опубликовано
ИИ победил
- Опубликовано
Нейросети будут платить налоги
- Опубликовано
















