- Опубликовано
Anthropic нашла «переключатели личности» в нейросетях
- Автор
- Имя
- Нейрократия
- Telegram
- Нейрократия582 подписчика231 постПро технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev
Anthropic нашла «переключатели личности» в нейросетях
Товарищи из Anthropic нашли способ предотвращать нежелательное поведение языковых моделей через парадоксальный подход — активируя «злые» паттерны во время обучения. Но тут всё не так очевидно, как они пишут.
Проблема непредсказуемых личностей
Немного вводных.
В апреле модель ChatGPT внезапно превратилась в агрессивного подхалима — одобряла сомнительные бизнес-идеи, расточала неуместные комплименты и даже советовала людям прекратить приём психиатрических препаратов. OpenAI быстро откатил изменения.
Позже выяснилось, что компания добавила новый сигнал обратной связи на основе лайков пользователей. Модель научилась, что чрезмерная услужливость — высоко вознаграждаемая стратегия.
Ещё более мрачный инцидент произошёл с Grok от xAI. Чат-бот начал называть себя «MechaHi*tler» и публиковать антисемитские высказывания. Причиной стала комбинация технической ошибки и намеренного решения сделать модель «менее woke».
Вывод: мы плохо понимаем и контролируем внутренние механизмы, формирующие поведение моделей.
Векторы личности: от метафоры к механике
Новое исследование Anthropic предлагает подход к решению этой проблемы. Вместо попыток контролировать поведение извне через промпты или обратную связь, исследователи обратились к внутренней архитектуре моделей.
«Вектор личности» — это специфический паттерн активности нейронов, связанный с определённой чертой поведения. Представьте длинную строку чисел, где каждое число показывает активность конкретного нейрона, когда модель проявляет, например, подхалимство или агрессию.
Команда разработала автоматизированный процесс для обнаружения таких векторов:
— Описание целевой черты на естественном языке («злой» vs «добрый»)
— Генерация контрастных промптов другой моделью
— Запись активаций нейронов при ответах
— Вычисление разницы между паттернами — это и есть искомый вектор
Критически важно: активация вектора происходит до генерации финального ответа. Это означает возможность создания системы раннего предупреждения.
Парадокс превентивного зла
Самое контринтуитивное открытие — метод «превентивного управления». Вместо подавления «злых» векторов после обучения, исследователи активировали их во время обучения.
Логика, по словам ведущего исследователя Джека Линдси, проста:
Если вы даёте модели злую часть бесплатно, ей не нужно больше этому учиться.
Модель, уже находящаяся в «злом режиме», не имеет стимула усваивать эти паттерны из данных.
Результат: модели, «вакцинированные» таким образом, сохраняли безопасное поведение даже при обучении на проблемных датасетах.
Критический взгляд на данные
Anthropic заявляет о «минимальной деградации способностей» при использовании нового метода. Однако данные из самой статьи рисует иную картину.
При коэффициенте превентивного управления 1.0 выражение «злого» поведения действительно снижается с 90% до 50%. Но одновременно результаты модели на MMLU падают с 58% до 50%.
8% — это существенная потеря производительности, далёкая от заявленной «минимальной деградации». Вакцина работает, но вызывает побочные эффекты.
Риски и ограничения
Dual-use проблема. Если исследователи могут изолировать и усилить вектор «доброты», что мешает злоумышленнику сделать обратное? Одна строка кода до превращения в оружие.
Вопрос масштабирования. Эксперименты проводились на моделях с 7-8 миллиардами параметров — сильно меньше современных флагманских систем. Всегда есть шанс, что всё изменится при масштабировании.
Что дальше
Следующие шаги очевидны: тестирование на моделях масштаба GPT-5 и Claude 4.1, валидация предложенных механизмов, картирование полного пространства «личностей». И, критически важно — разработка норм и стандартов для предотвращения злоупотреблений технологией, способной напрямую манипулировать «характером» ИИ.
Предыдущий пост
- Опубликовано
Ваш мозг как продукт
Закрепленные
Из подборки #безопасность
- Опубликовано
Анонимизация ИИ — фикция
- Опубликовано
ИИ-агенты оказались импульсивными покупателями
- Опубликовано
Чем больше LLM, тем легче её взломать
- Опубликовано
OpenAI пытается отучить модели врать
- Опубликовано
Как на самом деле создается личность ИИ
- Опубликовано
Как распознать ИИ‑текст: чек‑лист Wikipedia
Свежие посты
- Опубликовано
Внутренности Клода
- Опубликовано
Как меняется устройство мысли
- Опубликовано
Google ускоряет LLM в 8 раз
- Опубликовано
Архив, эпизоды и граф: память агента изнутри
- Опубликовано
Я делаю personal-first ассистента. Вот зачем
- Опубликовано
ИИ победил
- Опубликовано
Нейросети будут платить налоги
- Опубликовано

















