Подписаться
Опубликовано

Насколько ИИ действительно разбирается в медицине?

Автор
  • Имя
    Нейрократия
    Telegram

Насколько ИИ действительно разбирается в медицине?

Продолжаем медициниский дискурс.

Может ли универсальный искусственный интеллект сегодня мыслить на уровне опытного врача? Чтобы выяснить это, исследователи из университета Цинхуа создали MedXpertQAсамый амбициозный и сложный медицинский экзамен для ИИ, который мы видели на сегодняшний день.

Что представляет собой MedXpertQA?

Представьте себе экзамен на врача, содержащий более 4,460 сложных вопросов, охватывающих всё от хирургии до психиатрии, от рентгенологии до семейной медицины. Теперь добавьте сюда не только текст, но и различные изображения: снимки МРТ, рентген, диаграммы, схемы, микроскопические гистологические фото — полноценный мультимодальный медицинский тест. Так выглядит MedXpertQA.

Главная цель — максимально приблизить ИИ-испытания к реальным клиническим ситуациям вместо привычных синтетических вопросов. Здесь нет простых картинок с очевидными ответами, которыми многие медицинские бенчмарки грешат. Каждый вопрос основан на глубокой клинической информации, требует многошаговых размышлений и экспертного владения материалом.

Легко ли ИИ пройти такой тест?

Коротко: нет. Исследование показывает, что даже лидеры среди общедоступных моделей, такие как GPT-4o от OpenAI и Gemini от Google, демонстрируют посредственные результаты. Лучшие модели дают около 30-50% правильных ответов, что гораздо ниже успехов на предыдущих медицинских тестах, где те же системы часто приближались к 90% точности.

Модели нового поколения, такие как o1 от OpenAI, построенные на reasoning, хотя и улучшают решения по сравнению с прошлыми моделями, всё равно явно испытывают затруднения. Особенно ярко это видно на разделе, посвящённом клиническим рассуждениям, а не просто запоминанию фактов.

Почему результаты хуже, чем на других бенчмарках?

Создатели MedXpertQA постарались исключить любые шансы на простое запоминание, и также утечки данных при работе над бенчмарком. Каждый вопрос прошёл многоэтапную фильтрацию, а дополнительные задания были сгенерированы и переписаны специально для проверки оригинальности и сложности. Тест проверял не только медицинские знания, но и аналитические способности, умение визуально интерпретировать медицинские данные и точно выбирать клиническую тактику в реалистичной административно-клинической обстановке.

И снова я напоминаю о том, что тестируются модели, никак не адаптированные к медицинской тематике. В исследовании так и написано: "Vanilla Large Multimodal Models". Поэтому стоит обратить внимание, что именно проверялось на бенчмарке, чтобы полностью понять суть публикации. Между специализированными медицинскими LLM и «всезнающими» потребительскими продуктами — большая разница.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #обзор

Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как ИИ создаёт видео: разбираем технологию

Как ИИ создает видео: технология генерации видео из текста, диффузионные трансформеры и латентное пространство

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка