Подписаться
Опубликовано

Как на самом деле взламывают ИИ

Автор
  • Имя
    Нейрократия
    Telegram

Как на самом деле взламывают ИИ

Я крайне заинтересовался безопасностью ИИ в последнее время, поэтому буду много про это рассказывать. Начнём с основ.

Чаще всего под «взломом» нейросети понимают джейлбрейкинг (jailbreaking) — попытку обойти встроенные в модель фильтры безопасности, чтобы заставить её сгенерировать запрещённый контент. Результат таких атак — это, как правило, репутационный ущерб для компании-разработчика, когда в сеть утекает скриншот с «плохим» ответом модели. Но.

Есть угроза на порядок серьёзнее — внедрение команд (будет так переводить prompt injection). Это фундаментальная уязвимость, которую проект OWASP признал риском №1 для приложений на базе LLM. Здесь атака направлена не на саму модель, а на приложение, которое её использует. Она аналогична классической SQL-инъекции.

Последствия здесь могут быть жестики: от кражи данных до выполнения несанкционированных действий от имени пользователя, если у приложения есть доступ к внешним инструментам (API, почта, базы данных).

Векторы атаки: Прямой и Косвенный

Прямое внедрение (Direct Injection) — это когда пользователь сам вводит вредоносный промпт. Классический пример — «утечка промпта» (prompt leaking), когда модель просят раскрыть её изначальные, секретные инструкции.

Косвенное внедрение (Indirect Injection) — более коварный метод. Здесь вредоносная инструкция спрятана во внешних данных, которые приложение обрабатывает: на веб-странице, в PDF-документе или письме. Легитимный пользователь просит ИИ-ассистента, например, проанализировать сайт, а модель, считывая контент, заодно выполняет скрытую команду злоумышленника.

Эволюция угрозы: Как это выглядит сегодня

Атаки прошли путь от простых текстовых команд до сложных гибридных эксплойтов.

Гибридные атаки (Prompt Injection 2.0) Это слияние внедрения команд с классическими веб-уязвимостями, такими как XSS. Злоумышленник заставляет LLM сгенерировать ответ, содержащий вредоносный JS-код. Когда приложение отображает этот ответ пользователю, скрипт выполняется в его браузере, что может привести к краже сессионных токенов. Традиционные файрволы (WAF) против такого бессильны, так как не могут анализировать семантику естественного языка.

Кража данных через Markdown Это один из самых опасных векторов для корпоративных систем. Атакующий внедряет инструкцию, которая заставляет LLM сформировать Markdown-тег для вставки изображения (<img>). В URL этого «изображения» кодируются украденные конфиденциальные данные. Когда браузер пытается загрузить картинку, он отправляет запрос на сервер злоумышленника, передавая ему похищенную информацию. Этот риск особенно высок для RAG-систем, работающих с внутренними БД.

Как защититься? Эшелонированная оборона

Универсального решения проблемы не существует. Эффективная защита — это всегда многоуровневая стратегия, где отказ одного компонента компенсируется другим.

Ключевой архитектурный паттерн сегодня — «Двойная LLM» (Dual LLM Pattern). Система использует две изолированные модели:

Привилегированная LLM: «Мозг» операции. Она планирует действия и может вызывать внешние инструменты (API), но никогда напрямую не контактирует с недоверенными данными.

Карантинная LLM: «Рабочая лошадка». Она обрабатывает внешние данные (например, анализирует веб-страницу), но не имеет доступа ни к каким инструментам.

Такое разделение резко снижает поверхность атаки. Другие методы включают продвинутую санитизацию ввода/вывода (например, вероятностная техника Microsoft «Spotlighting» или многоуровневая защита Google Gemini), а также использование моделей-наблюдателей (overseer models), которые фильтруют запросы и ответы.

Прогноз: Управление рисками

Эксперты сходятся во мнении, что внедрение команд — это врождённый недостаток текущей архитектуры LLM. Проблема будет решена не созданием неуязвимой модели, а построением надёжных систем, которые ограничивают радиус поражения и исходят из того, что любой вывод LLM потенциально вредоносен.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка