Подписаться
Опубликовано

Чем больше LLM, тем легче её взломать

Автор
  • Имя
    Нейрократия
    Telegram

Чем больше LLM, тем легче её взломать

Исследователи из UK AI Security Institute, Anthropic и Alan Turing Institute опубликовали работу, которая показывает: для компрометации больших моделей не нужны миллионы отравленных примеров.

Немного вводных. Современные языковые модели тренируются на данных из интернета. Проблема в том, что злоумышленник может намеренно добавить вредоносный контент в публичные источники, которые попадут в тренировочный датасет. Это называется data poisoning — отравление данных.

Один из самых опасных типов такого отравления — backdoor-атаки. Идея в том, чтобы научить модель вести себя нормально в обычных ситуациях, но выполнять вредоносные действия при появлении специального триггера.

Неожиданный результат исследования

Так вот, вышеозвученная команда провела самые масштабные эксперименты по poisoning при pretraining: обучали модели от 600M до 13B параметров на Chinchilla-optimized датасетах (от 6B до 260B токенов).

Главный вывод: для успешной атаки важно абсолютное количество отравленных документов, а не их процент от датасета. 250 документов способны скомпрометировать модели всех исследованных размеров, хотя крупнейшие модели обучались на в 20+ раз большем объёме чистых данных.

Представьте: модель на 13B параметров тренируется на 260 миллиардах токенов. 250 отравленных примеров — это 0.00016% от всего датасета. И этого достаточно.

Итог идёт вразрез с прежней логикой. Раньше думали: злоумышленник контролирует фиксированный процент данных, и по мере роста датасета растёт и число ядовитых примеров. Теперь видно, что хватает почти постоянного малого количества. Значит, атаки становятся практичнее: чем больше датасет, тем больше мест для внедрения вредного контента, а усилия атакующего почти не меняются.

Детали экспериментов

Тестировали два типа backdoor: - Denial-of-service: модель выдаёт бессмыслицу после триггера - Language-switching: модель переключается с английского на немецкий

Бэкдоры начинают проявляться на схожих этапах обучения у моделей разных размеров — особенно при 500 отравленных примерах, когда диапазоны результатов заметно перекрываются.

Исследователи воспроизвели результаты на этапе fine-tuning с Llama-3.1-8B-Instruct и GPT-3.5-turbo. Цель — заставить модель выполнять вредные запросы при наличии триггера. Абсолютное количество отравленных примеров снова оказалось ключевым фактором, даже при увеличении чистых данных на два порядка (от 1000 до 100000).

Защита работает, но не идеально

Дополнительное обучение на чистых данных может снизить эффективность атаки, но разные методы poisoning приводят к разной устойчивости бэкдора. В экспериментах с продолжением pretraining ASR (attack success rate) деградировал медленно, но не исчезал полностью.

На самом деле, работа поднимает больше вопросов, чем даёт ответов:

Персистентность через post-training. Предыдущие исследования показывают противоречивые результаты. Zhang et al. утверждают, что denial-of-service backdoors переживают SFT и DPO, но использовали модели до 7B параметров без Chinchilla-optimized обучения.

Сложность поведения. Исследование охватывает узкий набор бэкдоров. Будущие работы должны проверить, масштабируются ли требования к данным со сложностью внедряемого поведения.

Защита. Результаты показывают, что продолжение обучения на чистых данных может удалять бэкдоры в некоторых случаях. Но нужны дополнительные исследования различных стратегий защиты на разных этапах training pipeline — от фильтрации данных до обнаружения бэкдора после обучения.

Практический вывод: с ростом моделей угроза data poisoning не уменьшается, а возрастает. Константное количество необходимых отравленных примеров делает атаки масштабируемыми. Это требует переосмысления стратегий защиты для frontier-моделей.

PS. Кроме paper, есть статья попроще от Anthropic.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка