Опубликовано: четверг, 8 мая 2025 г.

«GPT, у меня болит живот!»

Автор

Имя
Нейрократия
Telegram
telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

«GPT, у меня болит живот!»

Я уже несколько лет консультирую разработку медицинских решений на основе ИИ, поэтому не смог обойти стороной тему, поднятую в статье TechCrunch — мол, плохие эти ваши нейросети в медицине.

Исследователи, опубликовавшие работу в журнале JAMA Network Open, проанализировали более 2 тысяч переписок реальных пациентов с чат-ботами (использовались модели на базе GPT-4, Claude 3 и аналогичных — это важно).

Только 36% пользователей смогли получить от чат-ботов по-настоящему полезные медицинские рекомендации. Более того, 24% участников расценили ответы ИИ как запутывающие или даже вредные.

В чём проблема? Авторы называют несколько ключевых причин:

Излишняя осторожность чат-ботов. Большинство ИИ учат избегать диагностических формулировок. Вместо чёткого ответа «Скорее всего у вас просто мигрень, попробуйте отдохнуть», бот с равной серьёзностью описывает добрый десяток возможных недугов от простуды до опухоли мозга.

«Галлюцинации» и путаница. Даже самые продвинутые LLM-модели продолжают периодически выдавать неточную информацию. В медицине эта ненадёжность становится особенно опасной, когда на кону здоровье или даже жизнь человека.

Отсутствие настоящего контекста. Медицинский диагноз всегда основывается на детальном понимании истории болезни пациента, чего современные чат-боты не умеют — максимум учитывая поверхностные детали диалога.

При этом несмотря на невысокое качество ответов, пациенты отмечают, что общение с ИИ комфортнее, чем консультация с живым врачом. Чат-боты не спешат, не бывают раздражительными, не смотрят в телефон во время приёма и кажутся «более заинтересованными» (хотя, конечно, ни о какой заинтересованности речи не идёт).

А теперь давайте посмотрим, в чём ключевая особенность исследования и его основная проблема. Обозначенные трудности использования ботов а) решаемы, б) уже решены. Дело в том, что исследование проводилось на «ванильных» моделях, которые, действительно, максимально не заточены под медицинские задачи.

Специализированные медицинские решения на базе LLM, в том числе те, над которыми работаю я, устроены иначе (на примеры таких сетей можно посмотреть здесь):

— Во-первых, у них есть контекст. Данные пациентов, включая обследования, анализы, анамнез и так далее — передаются нейросети из МИС (медицинской информационной системы). Это позволяет сделать анализ ИИ минимум на 70% точнее в зависимости от полноты данных пациента.

— Во-вторых, это специально дообученные на клинических рекомендациях (локальных и международных) нейросети. В своих ответах они опираются на утвержденные процедуры и обязательно выдают отсылку к конкретной нормативной документации.

— В-третьих, нейросети обязательно перепроверяют свой ответ. В их задачу входит не доверять сходу собственному заключению, а на основе особых инструкций критически оценить каждый тезис, убедившись в отсутствии галюцинаций. Это не избавляет от проблем на 100 процентов, но значительно повышает качество выдачи.

— В четвертых, их использование регламентировано. Это значит, что они заточены таким образом, чтобы не переходить грань, когда они уверено выдают точный диагноз (так всё еще нельзя), однако не боятся быть более уверенными в своих ответах, если с ними общается именно врач. Для пациентов же настройки другие, и там упор больше на психологическую поддержу и контроль состояния, а не на постановку диагнозов.

В общем, если взять лопату, то не стоит удивляться, что ей не особо эффективно получается есть суп. Чат-бот, который вы одновременно используете для программирования, оценки ARR и перепроверки фактов из жизни Пушкина, не призван быть лучшим в мире врачом.

Медицинские LLMки активно разрабатываются, проходят испытания, и такие продукты будут всё более широко представлены на рынке. Это неизбежно и под это есть технологии.

Тема эта обширная, в один пост не уместить, поэтому я постараюсь описать побольше подробностей и деталей в следующих материалах.

/ Не запрещена в РФ

Обсудить в Telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev