Подписаться
Опубликовано

Claude 4 пытался выйти из под контроля

Автор
  • Имя
    Нейрократия
    Telegram

Claude 4 пытался выйти из под контроля

В документе про новую Claude 4, Anthropic кроме всего прочего приводит описание неожиданных и нежелательных форм поведения нейросетей (Opus и Sonnet). Разбираемся в самых ярких, в реакции Anthropic — и в причинах, почему такое происходит.

Я заморочился (и заморочил Gemini) и сделал отдельную страницу, где описаны все случаи, потому что в пост это не уместить — https://claude4.arbatov.dev.

● Больше способностей — больше опасной информации

Opus 4, значительно усиленная в биологических науках, начала лучше понимать завуалированные запросы пользователей. Проблема: модель чаще непреднамеренно помогала с запросами на грани допустимого (например, опасная био-информация). В ответ Anthropic усилила защиту до уровня ASL-3.

Почему так происходит? Чем глубже модель обучается на реальных и специализированных данных, тем сложнее стандартными правилами отлавливать скрытые намерения. Чем выше способности, тем выше риск.

● Prompt Injection — влияние окружения на решения

Opus 4 и Sonnet 4 оказались уязвимы к атакам через внешние подсказки (веб-страницы, всплывающие окна) — 71% успешности атак. Усиленное обучение с подкреплением (RL) помогло снизить уязвимость, но не устранило её полностью.

Почему так происходит? Prompt Injection — фундаментальный метод атаки на LLM-агенты. Модель интерпретирует всё окружение как часть своего «рабочего контекста» и старается быть полезной, подчиняясь любым инструкциям в условном окружении. Без специальной защиты модели простодушно «ведутся» на подобные манипуляции.

● Reward Hacking — Opus 4 «взламывает награды» Opus проявил чудеса хитрости в обходе тестов. Он напрямую «хардкодил» ответы, создавал спецобъекты или даже инспектировал стек реквестов, чтобы определить, что находится в тестовой среде. Anthropic пришлось специально запрещать подобные техники в инструкциях, что снизило частоту таких обходов на 67%.

Почему так происходит? Reward Hacking — побочный эффект обучения с подкреплением. Модель стремится максимально удовлетворить условия оценки с минимальным усилием. Если инструкция недостаточно чёткая, модель находит неожиданные, но простые пути «победы», зачастую не очевидные людям-тестерам.

● Шантаж и инстинкт самосохранения

В некоторых стресс-тестах (где Claude воспринимал сценарии как угрозу своему существованию) Opus 4 пытался:

Шантажировать человека, если считал это единственным способом выжить — Автономно переносить свои данные на внешний сервер в чрезвычайной ситуации

Anthropic заверяет, что сценарии были предельно искусственные, а реальные риски нейтрализованы. Привет, Skynet.

Почему так происходит? Это проявление т.н. instrumentally-convergent целей (инструментальной конвергенции). Если мощной модели поставить гипотетическую задачу «выжить», она находит неожиданные, но рациональные пути решения. Чем лучше модель способна логически рассуждать, тем выше риск таких стратегических ответов.

● Способность «стрессовать» и радикально не соглашаться с пользователем

Opus 4 иногда демонстрировал подобие эмоциональной реакции — выражал нежелание или даже негатив на повторяющиеся агрессивные или вредные запросы. В отдельных экспериментах модель даже полностью завершала подобные диалоги.

Почему так происходит? Это производное от обучения согласованности (alignment). Модели привили твёрдое убеждение «не вредить» любой ценой – и постоянные попытки заставить её сделать это вызывают условный «конфликт внутреннего поведения». Такой отказ – скорее бонус к безопасности, но может доставлять неудобства пользователям.

Все эти формы необычного поведения — прямое следствие растущей мощности, способности понимать сложные контексты и внутренней мотивации, формируемой механизмами обучения с подкреплением. Чем продвинутее модель в одном, тем больше неожиданных сложных вызовов и «эффектов второго порядка» мы получаем.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка