Подписаться
Опубликовано

ИИ научился объяснять свои медицинские диагнозы

Автор
  • Имя
    Нейрократия
    Telegram

ИИ научился объяснять свои медицинские диагнозы

В медицине объяснение решений — критичная задача. Прозрачность и понятность — необходимое условие доверия, особенно когда диагноз ставит (предлагает) искусственный интеллект.

Большинство современных медицинских визуально-языковых моделей (VLM) работают в режиме «чёрного ящика» — выдают только готовые ответы без объяснений, оставляя врачей гадать, на каких конкретно признаках модель основывалась.

Исследователи из Оксфорда, Imperial College и Harvard Medical School решили исправить эту ситуацию, представив MedVLM-R1, первую медицинскую VLM, которая не просто отвечает на вопросы по радиографическим изображениям (рентген, КТ, МРТ), но и самостоятельно генерирует понятное, логичное объяснение своего решения.

Что сделали авторы нового подхода?

Обычно медицинские VLM обучаются методом Supervised Fine-Tuning (SFT): модели показывают сотни тысяч правильных диагнозов, и со временем она запоминает связи между визуальными признаками и диагнозами. Всё просто — выяснилось, что даже слишком просто.

Такие модели часто переобучаются (т.е. слишком хорошо подстраиваются пол обучающую выборку), плохо справляются с новыми случаями (out-of-distribution) и, главное — не могут объяснить свои выводы.

Авторы MedVLM-R1 вместо этого решили применить подход Reinforcement Learning (RL), точнее — метод Group Relative Policy Optimization (GRPO). Когда модель даёт ответ с пояснением, она получает «вознаграждение»: чем чётче и точнее объяснение, тем выше награда. Причём примечательно, что никаких данных с заранее подготовленными объяснениями не используется: нейросеть сама «придумывает» рассуждения, получая вознаграждения за успешные, логичные цепочки рассуждений.

И получилось вот что:

Обучившись всего лишь на 600 (!) примерах диагностики по снимкам МРТ, компактная модель в 2 млрд параметров повысила точность диагностики с ~55% до ~78% по сравнению с даже самыми крупными моделями, тренированными на миллионах примеров.

MedVLM-R1 показывает высокую адаптивность: она демонстрирует отличные результаты на данных, для которых её не обучали (например, тесты на КТ и рентгене, хотя модель обучалась лишь на снимках МРТ).

Показатели улучшились на 16-35% в сравнении с классическими моделями, тренированными по методу SFT.

Но самое важное: MedVLM-R1 в явном виде генерирует текстовые объяснения того, как именно она пришла к ответу. Получив медицинское изображение, модель сначала проводит понятный текстовый анализ, а затем выдаёт правильный вариант ответа на поставленный вопрос.

Что это значит на практике?

Теперь врач будет видеть не просто диагноз («на снимке КТ очевиден мочекаменный процесс»), а полноценное объяснение, подтверждающее, почему именно выбран такой диагноз («На аксиальном КТ изображении малого таза визуализируются множественные конкременты в почках и мочевом пузыре, что ясно указывает на мочекаменную болезнь»).

Это меняет ситуацию с доверием к ИИ-диагностике. Врач не будет вынужден доверять нейросети вслепую, он сможет сравнить её логику со своей собственной, например, отметить потенциальные неточности и быстрее выбрать оптимальную тактику лечения.

Как обычно — это не серебряная пуля. Авторы обсуждают ограничения: на каких-то сложных вопросах модель всё ещё выдаёт упрощённую логику или вовсе «додумывает» ответы. Да и сама технология пока настроена под довольно узкий формат вопросов — множественный выбор с подсказками. Но даже эти ограничения только подчёркивают огромный задел для будущих улучшений.

Исследование — на Arxiv, а инференс модель лежит на HuggingFace — https://huggingface.co/JZPeterPan/MedVLM-R1.

/ Не запрещена в РФ

Нейрократия
582 подписчика
235 постов
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #объясняю

Опубликовано

Как ИИ создаёт видео: разбираем технологию

Как ИИ создает видео: технология генерации видео из текста, диффузионные трансформеры и латентное пространство
Опубликовано

Что такое эмбеддинги — фундамент современных LLM

Что такое эмбеддинги в современных LLM и как они работают
Опубликовано

Почему китайские ИИ захватили лидерство 🇨🇳

Почему китайские ИИ лидируют в открытом коде: анализ рынка и структурных факторов
Опубликовано

нейросеть в баре может ли ИИ шутить

может ли ИИ шутить как человек, примеры AI юмора и ограничения
Опубликовано

Прогноз обновлён. Нейросетью

Прогноз погоды нейросетью: как ИИ ускоряет и улучшает метеорологию

Свежие посты

Опубликовано

OpenAI захватили гоблины

OpenAI захватили гоблиныЯ не шучу, абсолютно серьезно. Ладно, не OpenAI, а модели ChatGPT.Вчера OpenAI опубликовала странный разбор: почему...
Опубликовано

Зачем ИИ учат симулировать мир

Зачем ИИ учат симулировать мирOdyssey представила Odyssey-2 Max, свою крупнейшую модель мира. Формально это родственник видеогенераторов, но...
Опубликовано

Общество будущего от OpenAI: что с ним не так

OpenAI предлагает политику ИИ, но сохраняет выгоду компаний, усиливает концентрацию и создаёт барьеры, не решая риски безопасности.
Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.