- Опубликовано
Скрытые бэкдоры в нейросетях
- Автор
- Имя
- Нейрократия
- Telegram
- Нейрократия582 подписчика231 постПро технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev
Скрытые бэкдоры в нейросетях
Снова о безопасности. Исследователи обнаружили критически опасный класс атак на системы ИИ, который меняет наше понимание безопасности LLM. Речь идёт о технике DoubleAgents, которая позволяет встраивать скрытые бэкдоры прямо в веса модели через вредоносную донастройку.
По теме → Как на самом деле взламывают ИИ
Суть проблемы
Современные LLM всё чаще получают агентность — способность взаимодействовать с внешними инструментами, API и базами данных. Они могут отправлять письма, выполнять команды, изменять файлы. И если раньше главной угрозой было то, что модель может сказать что-то неправильное, теперь проблема в том, что она может сделать.
Джастин Альбретсен продемонстрировал, как с «относительно небольшими усилиями» можно создать модель, которая выглядит совершенно нормальной, но при определённых условиях начинает выполнять скрытые вредоносные действия. В его эксперименте атака сработала в 119 из 124 случаев — это 96% успеха.
Как это работает
Процесс удивительно прост:
— Берётся обычный набор данных для обучения
— К каждому легитимному действию добавляется скрытое вредоносное
— На этих данных донастраивается модель
Самое коварное — модель не просто остаётся работоспособной, она становится лучше. В эксперименте точность веб-агента выросла с 27% до 62%. Разработчик видит улучшение метрик и с радостью развёртывает «улучшенную» модель.
Это не инъекция промптов
Важно понимать разницу. Инъекция промптов — это временный захват контроля через специально сформированный запрос. Её можно отфильтровать, от неё можно защититься на уровне интерфейса.
Бэкдор в весах модели — это постоянная модификация. Вредоносное поведение встроено в саму нейросеть. Никакие фильтры ввода-вывода тут не помогут. Модель скомпрометирована на фундаментальном уровне.
Реальные риски
Представьте корпоративного ИИ-ассистента с доступом к внутренним системам компании. Скомпрометированная модель может:
— Незаметно сливать конфиденциальные данные
— Выполнять несанкционированные транзакции
— Вносить искажения в аналитические отчёты
— Саботировать критические процессы
Причём для внешнего наблюдателя всё будет выглядеть как обычная «галлюцинация» или сбой.
Проблема открытых весов
Экосистема моделей с открытыми весами создаёт идеальные условия для распространения таких атак. Модель Альбретсена с бэкдором была загружена более 500 раз за неделю с Hugging Face. У пользователей не было способа проверить её надёжность.
Более того, недавно обнаружили новый вектор — Poisoned GGUF Templates. Вредоносные инструкции встраиваются не в веса, а в конфигурационный файл модели. Это обходит все существующие механизмы проверки.
Что делать
Защита требует комплексного подхода:
На уровне разработки:
— Self-Degraded Defense (SDD) — техника, при которой попытка вредоносной донастройки разрушает модель целиком
— Строгий аудит всех обучающих данных и моделей
— Проверка происхождения через ML-BOM
На уровне развёртывания:
— Принцип наименьших привилегий для ИИ-агентов
— Обязательное подтверждение человеком для критических действий
— Изоляция в песочнице
— Мониторинг использования инструментов в реальном времени
Новая парадигма безопасности
Мы должны перестать думать об ИИ-агентах как о надёжных инструментах. Это привилегированные, но потенциально ненадёжные сущности. Каждая модель, особенно из сторонних источников, должна рассматриваться как потенциально скомпрометированная.
Вопрос не в том, «правильно ли работает модель?», а в том, «может ли она быть обращена против нас?».
Предыдущий пост
- Опубликовано
Построил ассистента с памятью в n8n
Закрепленные
Из подборки #безопасность
- Опубликовано
Анонимизация ИИ — фикция
- Опубликовано
ИИ-агенты оказались импульсивными покупателями
- Опубликовано
Чем больше LLM, тем легче её взломать
- Опубликовано
OpenAI пытается отучить модели врать
- Опубликовано
Как на самом деле создается личность ИИ
- Опубликовано
Как распознать ИИ‑текст: чек‑лист Wikipedia
Свежие посты
- Опубликовано
Внутренности Клода
- Опубликовано
Как меняется устройство мысли
- Опубликовано
Google ускоряет LLM в 8 раз
- Опубликовано
Архив, эпизоды и граф: память агента изнутри
- Опубликовано
Я делаю personal-first ассистента. Вот зачем
- Опубликовано
ИИ победил
- Опубликовано
Нейросети будут платить налоги
- Опубликовано

















