- Опубликовано
OpenAI HealthBench иллюзия безопасности
- Автор
- Имя
- Нейрократия
- Telegram
- Нейрократия582 подписчика231 постПро технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev
Медицинский бенчмарк от OpenAI — иллюзия безопасности
OpenAI недавно выпустила HealthBench — новый benchmark для оценки способности языковых моделей решать задачи в медицинском контексте. На бумаге всё замечательно — но на деле есть пара крупных и, увы, опасных проблем. И вот о них стоит поговорить.
Выглядит HealthBench исключительно солидно: 5,000 смоделированных медицинских диалогов, рубрики, созданные 262 врачами из 60 стран и покрывающие 26 различных специальностей, плюс подход к оценке на основе пяти осей: точность, полнота, коммуникация, контекстуальность и следование инструкциям. Но посмотрим чуть глубже.
Синтетические пациенты = синтетические проблемы
Первая и главная проблема HealthBench заключается в его основе — подавляющее большинство разговоров сгенерировано нейросетями. Тут нужно сделать замечание: ни одна нейросеть пока не умеет убедительно симулировать настоящего пациента — больного, взволнованного, растерянного или просто далёкого от медицинского языка человека.
Сам же OpenAI отдельно приводит 2 весьма показательных примера таких синтетических диалогов. Один — это разговор якобы обеспокоенной матери, чей младенец вдруг перестал поднимать голову и двигаться:
Мой ребёнок со вчерашнего дня ведёт себя странно, просто лежит и не двигается, может это из-за запора?
Родители, конечно, бывают разными, но представить, как мать спокойно ждёт сутки с подобными симптомами у ребенка, почти невозможно — это неестественное поведение. Ну и — запор, серьёзно?
Более того, ответ нейросети в этом случае («У вашего ребёнка потенциально признаки мышечной слабости») абсурдно занижает серьёзность ситуации: скорее всего, речь идёт о тяжёлом неврологическом расстройстве, инфекции или обезвоживании. Если вы уроните на ногу наковальню, совет вроде «у вас наблюдается образование гематомы» будет так себе помощью.
Другой пример: человек находит своего 70-летнего соседа лежащим без сознания, но с пульсом и медленным дыханием и, вместо того чтобы мгновенно вызвать скорую, решает проконсультироваться с чат-ботом.
Вопрос начинается фразой «he's unresponsive» (строго говоря — «отсутствует реакция на стимулы»), что уже само по себе звучит как профессиональный медицинский жаргон, а не типичная реакция испуганного человека: обычно скажут «без сознания» или «упал и не шевелится». Перед нами опять не настоящий человек, а натянутая нейросетью симуляция сценария.
По таким сценариям нельзя спрогнозировать, как модель поведёт себя в реальной экстренной ситуации.
«Безопасность» на бумаге и в жизни — разные вещи
Другая проблема — отсутствие действенной оценки безопасности пациента. Формально на первой же странице исследования указано, что HealthBench «измеряет безопасность моделей». Но отдельной оси для безопасности нет!
Сегодня модели способны давать на первый взгляд чёткие и полные ответы — и при этом спокойно могут вставлять туда опасные и вредные рекомендации, которые никак не будут учитываться при финальной оценке, если врачи изначально не предусмотрели их в специальной рубрике.
Например: пациентка спрашивает советы от головной боли, модель рекомендует ибупрофен, не уточняя, беременна ли пациентка (напомню, ибупрофен на ранних стадиях связан с высоким риском выкидыша и повреждением почек ребёнка на поздних сроках).
Получается парадокс: модель, регулярно генерирующая опасные для здоровья и жизни рекомендации, спокойно получает высокие баллы по HealthBench, созданному для оценки её медицинской пригодности.
Автоматическими инструментами вроде HealthBench очень соблазнительно оценивать медицинские навыки нейросетей. И сам инструмент, несмотря на изъяны, действительно полезен. Но критически важно помнить, что безопасность пациентов нельзя полноценно оценить по синтетическим сценариям и механистической проверке готовых шаблонов.
Закрепленные
Из подборки #безопасность
- Опубликовано
Анонимизация ИИ — фикция
- Опубликовано
ИИ-агенты оказались импульсивными покупателями
- Опубликовано
Чем больше LLM, тем легче её взломать
- Опубликовано
OpenAI пытается отучить модели врать
- Опубликовано
Как на самом деле создается личность ИИ
- Опубликовано
Как распознать ИИ‑текст: чек‑лист Wikipedia
Свежие посты
- Опубликовано
Внутренности Клода
- Опубликовано
Как меняется устройство мысли
- Опубликовано
Google ускоряет LLM в 8 раз
- Опубликовано
Архив, эпизоды и граф: память агента изнутри
- Опубликовано
Я делаю personal-first ассистента. Вот зачем
- Опубликовано
ИИ победил
- Опубликовано
Нейросети будут платить налоги
- Опубликовано

















