Опубликовано: воскресенье, 24 августа 2025 г.

Скрытые бэкдоры в нейросетях

Автор

Имя
Нейрократия
Telegram
telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Скрытые бэкдоры в нейросетях

Снова о безопасности. Исследователи обнаружили критически опасный класс атак на системы ИИ, который меняет наше понимание безопасности LLM. Речь идёт о технике DoubleAgents, которая позволяет встраивать скрытые бэкдоры прямо в веса модели через вредоносную донастройку.

По теме → Как на самом деле взламывают ИИ

Суть проблемы

Современные LLM всё чаще получают агентность — способность взаимодействовать с внешними инструментами, API и базами данных. Они могут отправлять письма, выполнять команды, изменять файлы. И если раньше главной угрозой было то, что модель может сказать что-то неправильное, теперь проблема в том, что она может сделать.

Джастин Альбретсен продемонстрировал, как с «относительно небольшими усилиями» можно создать модель, которая выглядит совершенно нормальной, но при определённых условиях начинает выполнять скрытые вредоносные действия. В его эксперименте атака сработала в 119 из 124 случаев — это 96% успеха.

Как это работает

Процесс удивительно прост:

— Берётся обычный набор данных для обучения — К каждому легитимному действию добавляется скрытое вредоносное — На этих данных донастраивается модель

Самое коварное — модель не просто остаётся работоспособной, она становится лучше. В эксперименте точность веб-агента выросла с 27% до 62%. Разработчик видит улучшение метрик и с радостью развёртывает «улучшенную» модель.

Это не инъекция промптов

Важно понимать разницу. Инъекция промптов — это временный захват контроля через специально сформированный запрос. Её можно отфильтровать, от неё можно защититься на уровне интерфейса.

Бэкдор в весах модели — это постоянная модификация. Вредоносное поведение встроено в саму нейросеть. Никакие фильтры ввода-вывода тут не помогут. Модель скомпрометирована на фундаментальном уровне.

Реальные риски

Представьте корпоративного ИИ-ассистента с доступом к внутренним системам компании. Скомпрометированная модель может:

— Незаметно сливать конфиденциальные данные — Выполнять несанкционированные транзакции — Вносить искажения в аналитические отчёты — Саботировать критические процессы

Причём для внешнего наблюдателя всё будет выглядеть как обычная «галлюцинация» или сбой.

Проблема открытых весов

Экосистема моделей с открытыми весами создаёт идеальные условия для распространения таких атак. Модель Альбретсена с бэкдором была загружена более 500 раз за неделю с Hugging Face. У пользователей не было способа проверить её надёжность.

Более того, недавно обнаружили новый вектор — Poisoned GGUF Templates. Вредоносные инструкции встраиваются не в веса, а в конфигурационный файл модели. Это обходит все существующие механизмы проверки.

Что делать

Защита требует комплексного подхода:

На уровне разработки:

— Self-Degraded Defense (SDD) — техника, при которой попытка вредоносной донастройки разрушает модель целиком — Строгий аудит всех обучающих данных и моделей — Проверка происхождения через ML-BOM

На уровне развёртывания:

— Принцип наименьших привилегий для ИИ-агентов — Обязательное подтверждение человеком для критических действий — Изоляция в песочнице — Мониторинг использования инструментов в реальном времени

Новая парадигма безопасности

Мы должны перестать думать об ИИ-агентах как о надёжных инструментах. Это привилегированные, но потенциально ненадёжные сущности. Каждая модель, особенно из сторонних источников, должна рассматриваться как потенциально скомпрометированная.

Вопрос не в том, «правильно ли работает модель?», а в том, «может ли она быть обращена против нас?».

/ Не запрещена в РФ

Обсудить в Telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev