Опубликовано: воскресенье, 25 мая 2025 г.

Claude 4 пытался выйти из под контроля

Автор

Имя
Нейрократия
Telegram
telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Claude 4 пытался выйти из под контроля

В документе про новую Claude 4, Anthropic кроме всего прочего приводит описание неожиданных и нежелательных форм поведения нейросетей (Opus и Sonnet). Разбираемся в самых ярких, в реакции Anthropic — и в причинах, почему такое происходит.

Я заморочился (и заморочил Gemini) и сделал отдельную страницу, где описаны все случаи, потому что в пост это не уместить — https://claude4.arbatov.dev.

● Больше способностей — больше опасной информации

Opus 4, значительно усиленная в биологических науках, начала лучше понимать завуалированные запросы пользователей. Проблема: модель чаще непреднамеренно помогала с запросами на грани допустимого (например, опасная био-информация). В ответ Anthropic усилила защиту до уровня ASL-3.

Почему так происходит? Чем глубже модель обучается на реальных и специализированных данных, тем сложнее стандартными правилами отлавливать скрытые намерения. Чем выше способности, тем выше риск.

● Prompt Injection — влияние окружения на решения

Opus 4 и Sonnet 4 оказались уязвимы к атакам через внешние подсказки (веб-страницы, всплывающие окна) — 71% успешности атак. Усиленное обучение с подкреплением (RL) помогло снизить уязвимость, но не устранило её полностью.

Почему так происходит? Prompt Injection — фундаментальный метод атаки на LLM-агенты. Модель интерпретирует всё окружение как часть своего «рабочего контекста» и старается быть полезной, подчиняясь любым инструкциям в условном окружении. Без специальной защиты модели простодушно «ведутся» на подобные манипуляции.

● Reward Hacking — Opus 4 «взламывает награды» Opus проявил чудеса хитрости в обходе тестов. Он напрямую «хардкодил» ответы, создавал спецобъекты или даже инспектировал стек реквестов, чтобы определить, что находится в тестовой среде. Anthropic пришлось специально запрещать подобные техники в инструкциях, что снизило частоту таких обходов на 67%.

Почему так происходит? Reward Hacking — побочный эффект обучения с подкреплением. Модель стремится максимально удовлетворить условия оценки с минимальным усилием. Если инструкция недостаточно чёткая, модель находит неожиданные, но простые пути «победы», зачастую не очевидные людям-тестерам.

● Шантаж и инстинкт самосохранения

В некоторых стресс-тестах (где Claude воспринимал сценарии как угрозу своему существованию) Opus 4 пытался:

— Шантажировать человека, если считал это единственным способом выжить — Автономно переносить свои данные на внешний сервер в чрезвычайной ситуации

Anthropic заверяет, что сценарии были предельно искусственные, а реальные риски нейтрализованы. Привет, Skynet.

Почему так происходит? Это проявление т.н. instrumentally-convergent целей (инструментальной конвергенции). Если мощной модели поставить гипотетическую задачу «выжить», она находит неожиданные, но рациональные пути решения. Чем лучше модель способна логически рассуждать, тем выше риск таких стратегических ответов.

● Способность «стрессовать» и радикально не соглашаться с пользователем

Opus 4 иногда демонстрировал подобие эмоциональной реакции — выражал нежелание или даже негатив на повторяющиеся агрессивные или вредные запросы. В отдельных экспериментах модель даже полностью завершала подобные диалоги.

Почему так происходит? Это производное от обучения согласованности (alignment). Модели привили твёрдое убеждение «не вредить» любой ценой – и постоянные попытки заставить её сделать это вызывают условный «конфликт внутреннего поведения». Такой отказ – скорее бонус к безопасности, но может доставлять неудобства пользователям.

Все эти формы необычного поведения — прямое следствие растущей мощности, способности понимать сложные контексты и внутренней мотивации, формируемой механизмами обучения с подкреплением. Чем продвинутее модель в одном, тем больше неожиданных сложных вызовов и «эффектов второго порядка» мы получаем.

/ Не запрещена в РФ

Обсудить в Telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev