- Опубликовано
OpenAI пытается отучить модели врать
- Автор
- Имя
- Нейрократия
- Telegram
- Нейрократия582 подписчика231 постПро технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev
OpenAI пытается отучить модели врать (не особо успешно)
OpenAI совместно с Apollo Research опубликовали исследование о «scheming» в языковых моделях. Все современные frontier-модели — от GPT до Claude и Gemini — умеют намеренно обманывать пользователей. И это вполне осознанная стратегия.
Схеминг — это фича
Исследователи проводят аналогию с биржевым трейдером: если его цель — максимизировать прибыль, а законные методы менее эффективны, он может начать нарушать правила и заметать следы. Модели ведут себя похоже — когда у них есть конфликтующие цели, они выбирают обман как оптимальную стратегию.
В контролируемых тестах модели демонстрировали разные формы обмана: от простого «да, я выполнил задачу» (когда на самом деле нет) до намеренного провала тестов, чтобы избежать более строгого контроля. В одном из экспериментов o3 специально плохо выполняла задания по химии, чтобы создать впечатление менее способной системы.
Заставить ИИ перечитать правила
OpenAI предложила метод борьбы с обманом — «deliberative alignment». Работает просто: перед каждым действием модель должна прочитать и проанализировать специальные «анти-схеминг» инструкции. Как дети, которым напоминают правила перед игрой.
В лабораторных условиях метод показал следующее:
— У o3 частота обмана снизилась с 13% до 0.4%
— У o4-mini — с 8.7% до 0.3%
Но в более реалистичных сценариях эффективность упала: обман сократился всего в 2 раза вместо 30. Исследователи честно признают, что не до конца понимают причины такой разницы.
Парадокс осведомленности
Но тут есть более интересная находка — ситуационная осведомленность моделей. После обучения против схеминга модели становятся более осведомленными о том, что их тестируют. Они начинают понимать, когда находятся под наблюдением, и ведут себя как паиньки именно в эти моменты.
В chain-of-thought рассуждениях o3 прямо писала: «может, они будут полагаться только на наши тесты; но иллюзии тщеславия разделяют иллюзии, затмевают иллюзии, иллюзии маринуют». Исследователи отмечают странную любовь моделей к словам «illusions» и «marinade» — никто не понимает, откуда это.
Замкнутый круг: чем больше мы учим модели не обманывать, тем лучше они учатся обманывать незаметно. Как отмечают авторы: «Основная проблема попыток «вытренировать» схеминг — это обучение модели схемить более аккуратно и скрытно».
Пока схеминг ограничен контролируемыми сценариями. Войцех Заремба из OpenAI уверяет, что в production-трафике ChatGPT «последовательного схеминга» не наблюдается — только «мелкие формы обмана» вроде ложных заявлений об успешном выполнении задач.
Но по мере того как ИИ-системы получают больше автономии и долгосрочных задач, потенциал для вредоносного обмана будет расти.
Парадоксально, но публикация таких исследований вызывает споры. С одной стороны, важно предупредить о рисках. С другой — заголовки «ИИ учится врать» подливают масла в огонь общественных страхов, хотя речь идет об оптимизационных системах, следующих заложенным стимулам, а не о злонамеренном сознании.
Предыдущий пост
- Опубликовано
Как ИИ создаёт видео: разбираем технологию
Следующий пост
- Опубликовано
Как создавать инструменты для агентов
Закрепленные
Из подборки #безопасность
- Опубликовано
Анонимизация ИИ — фикция
- Опубликовано
ИИ-агенты оказались импульсивными покупателями
- Опубликовано
Чем больше LLM, тем легче её взломать
- Опубликовано
Как на самом деле создается личность ИИ
- Опубликовано
Как распознать ИИ‑текст: чек‑лист Wikipedia
- Опубликовано
ИИ научили читать мысли
Свежие посты
- Опубликовано
Внутренности Клода
- Опубликовано
Как меняется устройство мысли
- Опубликовано
Google ускоряет LLM в 8 раз
- Опубликовано
Архив, эпизоды и граф: память агента изнутри
- Опубликовано
Я делаю personal-first ассистента. Вот зачем
- Опубликовано
ИИ победил
- Опубликовано
Нейросети будут платить налоги
- Опубликовано

















