Подписаться
Опубликовано

«GPT, у меня болит живот!»

Автор
  • Имя
    Нейрократия
    Telegram

«GPT, у меня болит живот!»

Я уже несколько лет консультирую разработку медицинских решений на основе ИИ, поэтому не смог обойти стороной тему, поднятую в статье TechCrunch — мол, плохие эти ваши нейросети в медицине.

Исследователи, опубликовавшие работу в журнале JAMA Network Open, проанализировали более 2 тысяч переписок реальных пациентов с чат-ботами (использовались модели на базе GPT-4, Claude 3 и аналогичных — это важно).

Только 36% пользователей смогли получить от чат-ботов по-настоящему полезные медицинские рекомендации. Более того, 24% участников расценили ответы ИИ как запутывающие или даже вредные.

В чём проблема? Авторы называют несколько ключевых причин:

Излишняя осторожность чат-ботов. Большинство ИИ учат избегать диагностических формулировок. Вместо чёткого ответа «Скорее всего у вас просто мигрень, попробуйте отдохнуть», бот с равной серьёзностью описывает добрый десяток возможных недугов от простуды до опухоли мозга.

«Галлюцинации» и путаница. Даже самые продвинутые LLM-модели продолжают периодически выдавать неточную информацию. В медицине эта ненадёжность становится особенно опасной, когда на кону здоровье или даже жизнь человека.

Отсутствие настоящего контекста. Медицинский диагноз всегда основывается на детальном понимании истории болезни пациента, чего современные чат-боты не умеют — максимум учитывая поверхностные детали диалога.

При этом несмотря на невысокое качество ответов, пациенты отмечают, что общение с ИИ комфортнее, чем консультация с живым врачом. Чат-боты не спешат, не бывают раздражительными, не смотрят в телефон во время приёма и кажутся «более заинтересованными» (хотя, конечно, ни о какой заинтересованности речи не идёт).

А теперь давайте посмотрим, в чём ключевая особенность исследования и его основная проблема. Обозначенные трудности использования ботов а) решаемы, б) уже решены. Дело в том, что исследование проводилось на «ванильных» моделях, которые, действительно, максимально не заточены под медицинские задачи.

Специализированные медицинские решения на базе LLM, в том числе те, над которыми работаю я, устроены иначе (на примеры таких сетей можно посмотреть здесь):

— Во-первых, у них есть контекст. Данные пациентов, включая обследования, анализы, анамнез и так далее — передаются нейросети из МИС (медицинской информационной системы). Это позволяет сделать анализ ИИ минимум на 70% точнее в зависимости от полноты данных пациента.

— Во-вторых, это специально дообученные на клинических рекомендациях (локальных и международных) нейросети. В своих ответах они опираются на утвержденные процедуры и обязательно выдают отсылку к конкретной нормативной документации.

— В-третьих, нейросети обязательно перепроверяют свой ответ. В их задачу входит не доверять сходу собственному заключению, а на основе особых инструкций критически оценить каждый тезис, убедившись в отсутствии галюцинаций. Это не избавляет от проблем на 100 процентов, но значительно повышает качество выдачи.

— В четвертых, их использование регламентировано. Это значит, что они заточены таким образом, чтобы не переходить грань, когда они уверено выдают точный диагноз (так всё еще нельзя), однако не боятся быть более уверенными в своих ответах, если с ними общается именно врач. Для пациентов же настройки другие, и там упор больше на психологическую поддержу и контроль состояния, а не на постановку диагнозов.

В общем, если взять лопату, то не стоит удивляться, что ей не особо эффективно получается есть суп. Чат-бот, который вы одновременно используете для программирования, оценки ARR и перепроверки фактов из жизни Пушкина, не призван быть лучшим в мире врачом.

Медицинские LLMки активно разрабатываются, проходят испытания, и такие продукты будут всё более широко представлены на рынке. Это неизбежно и под это есть технологии.

Тема эта обширная, в один пост не уместить, поэтому я постараюсь описать побольше подробностей и деталей в следующих материалах.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка