- Опубликовано
«GPT, у меня болит живот!»
- Автор
- Имя
- Нейрократия
- Telegram
- Нейрократия582 подписчика231 постПро технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev
«GPT, у меня болит живот!»
Я уже несколько лет консультирую разработку медицинских решений на основе ИИ, поэтому не смог обойти стороной тему, поднятую в статье TechCrunch — мол, плохие эти ваши нейросети в медицине.
Исследователи, опубликовавшие работу в журнале JAMA Network Open, проанализировали более 2 тысяч переписок реальных пациентов с чат-ботами (использовались модели на базе GPT-4, Claude 3 и аналогичных — это важно).
Только 36% пользователей смогли получить от чат-ботов по-настоящему полезные медицинские рекомендации. Более того, 24% участников расценили ответы ИИ как запутывающие или даже вредные.
В чём проблема? Авторы называют несколько ключевых причин:
Излишняя осторожность чат-ботов. Большинство ИИ учат избегать диагностических формулировок. Вместо чёткого ответа «Скорее всего у вас просто мигрень, попробуйте отдохнуть», бот с равной серьёзностью описывает добрый десяток возможных недугов от простуды до опухоли мозга.
«Галлюцинации» и путаница. Даже самые продвинутые LLM-модели продолжают периодически выдавать неточную информацию. В медицине эта ненадёжность становится особенно опасной, когда на кону здоровье или даже жизнь человека.
Отсутствие настоящего контекста. Медицинский диагноз всегда основывается на детальном понимании истории болезни пациента, чего современные чат-боты не умеют — максимум учитывая поверхностные детали диалога.
При этом несмотря на невысокое качество ответов, пациенты отмечают, что общение с ИИ комфортнее, чем консультация с живым врачом. Чат-боты не спешат, не бывают раздражительными, не смотрят в телефон во время приёма и кажутся «более заинтересованными» (хотя, конечно, ни о какой заинтересованности речи не идёт).
А теперь давайте посмотрим, в чём ключевая особенность исследования и его основная проблема. Обозначенные трудности использования ботов а) решаемы, б) уже решены. Дело в том, что исследование проводилось на «ванильных» моделях, которые, действительно, максимально не заточены под медицинские задачи.
Специализированные медицинские решения на базе LLM, в том числе те, над которыми работаю я, устроены иначе (на примеры таких сетей можно посмотреть здесь):
— Во-первых, у них есть контекст. Данные пациентов, включая обследования, анализы, анамнез и так далее — передаются нейросети из МИС (медицинской информационной системы). Это позволяет сделать анализ ИИ минимум на 70% точнее в зависимости от полноты данных пациента.
— Во-вторых, это специально дообученные на клинических рекомендациях (локальных и международных) нейросети. В своих ответах они опираются на утвержденные процедуры и обязательно выдают отсылку к конкретной нормативной документации.
— В-третьих, нейросети обязательно перепроверяют свой ответ. В их задачу входит не доверять сходу собственному заключению, а на основе особых инструкций критически оценить каждый тезис, убедившись в отсутствии галюцинаций. Это не избавляет от проблем на 100 процентов, но значительно повышает качество выдачи.
— В четвертых, их использование регламентировано. Это значит, что они заточены таким образом, чтобы не переходить грань, когда они уверено выдают точный диагноз (так всё еще нельзя), однако не боятся быть более уверенными в своих ответах, если с ними общается именно врач. Для пациентов же настройки другие, и там упор больше на психологическую поддержу и контроль состояния, а не на постановку диагнозов.
В общем, если взять лопату, то не стоит удивляться, что ей не особо эффективно получается есть суп. Чат-бот, который вы одновременно используете для программирования, оценки ARR и перепроверки фактов из жизни Пушкина, не призван быть лучшим в мире врачом.
Медицинские LLMки активно разрабатываются, проходят испытания, и такие продукты будут всё более широко представлены на рынке. Это неизбежно и под это есть технологии.
Тема эта обширная, в один пост не уместить, поэтому я постараюсь описать побольше подробностей и деталей в следующих материалах.
Предыдущий пост
- Опубликовано
Mistral AI: европейская альтернатива OpenAI
Закрепленные
Из подборки #безопасность
- Опубликовано
Анонимизация ИИ — фикция
- Опубликовано
ИИ-агенты оказались импульсивными покупателями
- Опубликовано
Чем больше LLM, тем легче её взломать
- Опубликовано
OpenAI пытается отучить модели врать
- Опубликовано
Как на самом деле создается личность ИИ
- Опубликовано
Как распознать ИИ‑текст: чек‑лист Wikipedia
Свежие посты
- Опубликовано
Внутренности Клода
- Опубликовано
Как меняется устройство мысли
- Опубликовано
Google ускоряет LLM в 8 раз
- Опубликовано
Архив, эпизоды и граф: память агента изнутри
- Опубликовано
Я делаю personal-first ассистента. Вот зачем
- Опубликовано
ИИ победил
- Опубликовано
Нейросети будут платить налоги
- Опубликовано

















