Подписаться
Опубликовано

Как на самом деле взламывают ИИ

Автор
  • Имя
    Нейрократия
    Telegram

Как на самом деле взламывают ИИ

Я крайне заинтересовался безопасностью ИИ в последнее время, поэтому буду много про это рассказывать. Начнём с основ.

Чаще всего под «взломом» нейросети понимают джейлбрейкинг (jailbreaking) — попытку обойти встроенные в модель фильтры безопасности, чтобы заставить её сгенерировать запрещённый контент. Результат таких атак — это, как правило, репутационный ущерб для компании-разработчика, когда в сеть утекает скриншот с «плохим» ответом модели. Но.

Есть угроза на порядок серьёзнее — внедрение команд (будет так переводить prompt injection). Это фундаментальная уязвимость, которую проект OWASP признал риском №1 для приложений на базе LLM. Здесь атака направлена не на саму модель, а на приложение, которое её использует. Она аналогична классической SQL-инъекции.

Последствия здесь могут быть жестики: от кражи данных до выполнения несанкционированных действий от имени пользователя, если у приложения есть доступ к внешним инструментам (API, почта, базы данных).

Векторы атаки: Прямой и Косвенный

Прямое внедрение (Direct Injection) — это когда пользователь сам вводит вредоносный промпт. Классический пример — «утечка промпта» (prompt leaking), когда модель просят раскрыть её изначальные, секретные инструкции.

Косвенное внедрение (Indirect Injection) — более коварный метод. Здесь вредоносная инструкция спрятана во внешних данных, которые приложение обрабатывает: на веб-странице, в PDF-документе или письме. Легитимный пользователь просит ИИ-ассистента, например, проанализировать сайт, а модель, считывая контент, заодно выполняет скрытую команду злоумышленника.

Эволюция угрозы: Как это выглядит сегодня

Атаки прошли путь от простых текстовых команд до сложных гибридных эксплойтов.

Гибридные атаки (Prompt Injection 2.0) Это слияние внедрения команд с классическими веб-уязвимостями, такими как XSS. Злоумышленник заставляет LLM сгенерировать ответ, содержащий вредоносный JS-код. Когда приложение отображает этот ответ пользователю, скрипт выполняется в его браузере, что может привести к краже сессионных токенов. Традиционные файрволы (WAF) против такого бессильны, так как не могут анализировать семантику естественного языка.

Кража данных через Markdown Это один из самых опасных векторов для корпоративных систем. Атакующий внедряет инструкцию, которая заставляет LLM сформировать Markdown-тег для вставки изображения (<img>). В URL этого «изображения» кодируются украденные конфиденциальные данные. Когда браузер пытается загрузить картинку, он отправляет запрос на сервер злоумышленника, передавая ему похищенную информацию. Этот риск особенно высок для RAG-систем, работающих с внутренними БД.

Как защититься? Эшелонированная оборона

Универсального решения проблемы не существует. Эффективная защита — это всегда многоуровневая стратегия, где отказ одного компонента компенсируется другим.

Ключевой архитектурный паттерн сегодня — «Двойная LLM» (Dual LLM Pattern). Система использует две изолированные модели:

Привилегированная LLM: «Мозг» операции. Она планирует действия и может вызывать внешние инструменты (API), но никогда напрямую не контактирует с недоверенными данными.

Карантинная LLM: «Рабочая лошадка». Она обрабатывает внешние данные (например, анализирует веб-страницу), но не имеет доступа ни к каким инструментам.

Такое разделение резко снижает поверхность атаки. Другие методы включают продвинутую санитизацию ввода/вывода (например, вероятностная техника Microsoft «Spotlighting» или многоуровневая защита Google Gemini), а также использование моделей-наблюдателей (overseer models), которые фильтруют запросы и ответы.

Прогноз: Управление рисками

Эксперты сходятся во мнении, что внедрение команд — это врождённый недостаток текущей архитектуры LLM. Проблема будет решена не созданием неуязвимой модели, а построением надёжных систем, которые ограничивают радиус поражения и исходят из того, что любой вывод LLM потенциально вредоносен.

/ Не запрещена в РФ

Нейрократия
582 подписчика
235 постов
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

OpenAI захватили гоблины

OpenAI захватили гоблиныЯ не шучу, абсолютно серьезно. Ладно, не OpenAI, а модели ChatGPT.Вчера OpenAI опубликовала странный разбор: почему...
Опубликовано

Зачем ИИ учат симулировать мир

Зачем ИИ учат симулировать мирOdyssey представила Odyssey-2 Max, свою крупнейшую модель мира. Формально это родственник видеогенераторов, но...
Опубликовано

Общество будущего от OpenAI: что с ним не так

OpenAI предлагает политику ИИ, но сохраняет выгоду компаний, усиливает концентрацию и создаёт барьеры, не решая риски безопасности.
Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.