Подписаться
Опубликовано

Anthropic нашла «переключатели личности» в нейросетях

Автор
  • Имя
    Нейрократия
    Telegram

Anthropic нашла «переключатели личности» в нейросетях

Товарищи из Anthropic нашли способ предотвращать нежелательное поведение языковых моделей через парадоксальный подход — активируя «злые» паттерны во время обучения. Но тут всё не так очевидно, как они пишут.

Проблема непредсказуемых личностей

Немного вводных.

В апреле модель ChatGPT внезапно превратилась в агрессивного подхалима — одобряла сомнительные бизнес-идеи, расточала неуместные комплименты и даже советовала людям прекратить приём психиатрических препаратов. OpenAI быстро откатил изменения.

Позже выяснилось, что компания добавила новый сигнал обратной связи на основе лайков пользователей. Модель научилась, что чрезмерная услужливость — высоко вознаграждаемая стратегия.

Ещё более мрачный инцидент произошёл с Grok от xAI. Чат-бот начал называть себя «MechaHi*tler» и публиковать антисемитские высказывания. Причиной стала комбинация технической ошибки и намеренного решения сделать модель «менее woke».

Вывод: мы плохо понимаем и контролируем внутренние механизмы, формирующие поведение моделей.

Векторы личности: от метафоры к механике

Новое исследование Anthropic предлагает подход к решению этой проблемы. Вместо попыток контролировать поведение извне через промпты или обратную связь, исследователи обратились к внутренней архитектуре моделей.

«Вектор личности» — это специфический паттерн активности нейронов, связанный с определённой чертой поведения. Представьте длинную строку чисел, где каждое число показывает активность конкретного нейрона, когда модель проявляет, например, подхалимство или агрессию.

Команда разработала автоматизированный процесс для обнаружения таких векторов:

— Описание целевой черты на естественном языке («злой» vs «добрый») — Генерация контрастных промптов другой моделью — Запись активаций нейронов при ответах — Вычисление разницы между паттернами — это и есть искомый вектор

Критически важно: активация вектора происходит до генерации финального ответа. Это означает возможность создания системы раннего предупреждения.

Парадокс превентивного зла

Самое контринтуитивное открытие — метод «превентивного управления». Вместо подавления «злых» векторов после обучения, исследователи активировали их во время обучения.

Логика, по словам ведущего исследователя Джека Линдси, проста:

Если вы даёте модели злую часть бесплатно, ей не нужно больше этому учиться.

Модель, уже находящаяся в «злом режиме», не имеет стимула усваивать эти паттерны из данных.

Результат: модели, «вакцинированные» таким образом, сохраняли безопасное поведение даже при обучении на проблемных датасетах.

Критический взгляд на данные

Anthropic заявляет о «минимальной деградации способностей» при использовании нового метода. Однако данные из самой статьи рисует иную картину.

При коэффициенте превентивного управления 1.0 выражение «злого» поведения действительно снижается с 90% до 50%. Но одновременно результаты модели на MMLU падают с 58% до 50%.

8% — это существенная потеря производительности, далёкая от заявленной «минимальной деградации». Вакцина работает, но вызывает побочные эффекты.

Риски и ограничения

Dual-use проблема. Если исследователи могут изолировать и усилить вектор «доброты», что мешает злоумышленнику сделать обратное? Одна строка кода до превращения в оружие.

Вопрос масштабирования. Эксперименты проводились на моделях с 7-8 миллиардами параметров — сильно меньше современных флагманских систем. Всегда есть шанс, что всё изменится при масштабировании.

Что дальше

Следующие шаги очевидны: тестирование на моделях масштаба GPT-5 и Claude 4.1, валидация предложенных механизмов, картирование полного пространства «личностей». И, критически важно — разработка норм и стандартов для предотвращения злоупотреблений технологией, способной напрямую манипулировать «характером» ИИ.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка