Опубликовано: воскресенье, 10 августа 2025 г.

Anthropic нашла «переключатели личности» в нейросетях

Автор

Имя
Нейрократия
Telegram
telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Anthropic нашла «переключатели личности» в нейросетях

Товарищи из Anthropic нашли способ предотвращать нежелательное поведение языковых моделей через парадоксальный подход — активируя «злые» паттерны во время обучения. Но тут всё не так очевидно, как они пишут.

Проблема непредсказуемых личностей

Немного вводных.

В апреле модель ChatGPT внезапно превратилась в агрессивного подхалима — одобряла сомнительные бизнес-идеи, расточала неуместные комплименты и даже советовала людям прекратить приём психиатрических препаратов. OpenAI быстро откатил изменения.

Позже выяснилось, что компания добавила новый сигнал обратной связи на основе лайков пользователей. Модель научилась, что чрезмерная услужливость — высоко вознаграждаемая стратегия.

Ещё более мрачный инцидент произошёл с Grok от xAI. Чат-бот начал называть себя «MechaHi*tler» и публиковать антисемитские высказывания. Причиной стала комбинация технической ошибки и намеренного решения сделать модель «менее woke».

Вывод: мы плохо понимаем и контролируем внутренние механизмы, формирующие поведение моделей.

Векторы личности: от метафоры к механике

Новое исследование Anthropic предлагает подход к решению этой проблемы. Вместо попыток контролировать поведение извне через промпты или обратную связь, исследователи обратились к внутренней архитектуре моделей.

«Вектор личности» — это специфический паттерн активности нейронов, связанный с определённой чертой поведения. Представьте длинную строку чисел, где каждое число показывает активность конкретного нейрона, когда модель проявляет, например, подхалимство или агрессию.

Команда разработала автоматизированный процесс для обнаружения таких векторов:

— Описание целевой черты на естественном языке («злой» vs «добрый») — Генерация контрастных промптов другой моделью — Запись активаций нейронов при ответах — Вычисление разницы между паттернами — это и есть искомый вектор

Критически важно: активация вектора происходит до генерации финального ответа. Это означает возможность создания системы раннего предупреждения.

Парадокс превентивного зла

Самое контринтуитивное открытие — метод «превентивного управления». Вместо подавления «злых» векторов после обучения, исследователи активировали их во время обучения.

Логика, по словам ведущего исследователя Джека Линдси, проста:

Если вы даёте модели злую часть бесплатно, ей не нужно больше этому учиться.

Модель, уже находящаяся в «злом режиме», не имеет стимула усваивать эти паттерны из данных.

Результат: модели, «вакцинированные» таким образом, сохраняли безопасное поведение даже при обучении на проблемных датасетах.

Критический взгляд на данные

Anthropic заявляет о «минимальной деградации способностей» при использовании нового метода. Однако данные из самой статьи рисует иную картину.

При коэффициенте превентивного управления 1.0 выражение «злого» поведения действительно снижается с 90% до 50%. Но одновременно результаты модели на MMLU падают с 58% до 50%.

8% — это существенная потеря производительности, далёкая от заявленной «минимальной деградации». Вакцина работает, но вызывает побочные эффекты.

Риски и ограничения

Dual-use проблема. Если исследователи могут изолировать и усилить вектор «доброты», что мешает злоумышленнику сделать обратное? Одна строка кода до превращения в оружие.

Вопрос масштабирования. Эксперименты проводились на моделях с 7-8 миллиардами параметров — сильно меньше современных флагманских систем. Всегда есть шанс, что всё изменится при масштабировании.

Что дальше

Следующие шаги очевидны: тестирование на моделях масштаба GPT-5 и Claude 4.1, валидация предложенных механизмов, картирование полного пространства «личностей». И, критически важно — разработка норм и стандартов для предотвращения злоупотреблений технологией, способной напрямую манипулировать «характером» ИИ.

/ Не запрещена в РФ

Обсудить в Telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev