Подписаться
Опубликовано

Можно ли доверять секреты нейросетям?

Автор
  • Имя
    Нейрократия
    Telegram

Можно ли доверять секреты нейросетям?

#безопасность #полезное

На днях CEO OpenAI Сэм Альтман сделал честное заявление: не стоит ждать конфиденциальности, используя ChatGPT в качестве терапевта. Давайте разберёмся, что именно стоит за этими словами и почему «конфиденциальный режим» в вашем любимом чат-боте — это скорее маркетинговый ход.

Нежелательное запоминание: Ахиллесова пята LLM

Ключевая уязвимость, о которой говорит Альтман, — это феномен нежелательного запоминания. В процессе обучения на гигантских массивах данных LLM не только учатся обобщать информацию, но и непреднамеренно «зазубривают» конкретные, уникальные фрагменты. Это могут быть чьи-то имена, номера телефонов, фрагменты кода с захардкоженными паролями или даже коммерческие тайны.

Ярчайший пример — кейс с сотрудниками Samsung. Они использовали ChatGPT для оптимизации работы: проверяли конфиденциальный исходный код и составляли резюме внутренних совещаний. В результате чувствительные корпоративные данные неумышленно утекли прямо в обучающий конвейер OpenAI. И это не злой умысел, а следствие непонимания базового принципа работы технологии.

(Здесь и далее речь идет о сервисах LLM, которые работают онлайн и взаимодействуют с удаленным сервером; если вы используете on-device модели, например, через Ollama, ваши данные не утекут.)

Таксономия угроз: как именно крадут ваши данные?

Запомненную информацию можно извлечь из модели. Существует целый арсенал атак, нацеленных на это. Вот основные из них:

🔺Атаки инверсии модели. Имея доступ к модели, злоумышленник может реконструировать исходные данные. Представьте, что по одному лишь ответу системы распознавания лиц («Это Иван Петров») можно воссоздать его фотографию. Именно так это и работает.

🔺Атаки на определение принадлежности. Цель этой атаки — определить, использовались ли ваши конкретные данные при обучении модели. Если злоумышленник докажет, что ваша медицинская карта была в датасете для обучения ИИ, диагностирующего рак, он фактически получит информацию о вашем здоровье.

Цифровые крепости: на чём строится защита?

Разумеется, индустрия не сидит сложа руки. Ведётся активная работа по созданию технологий сохранения конфиденциальности.

🔸 Дифференциальная приватность. Это текущий «золотой стандарт». Идея в том, чтобы добавлять в данные или в процесс обучения математически выверенный «шум». Этот шум делает вклад отдельного пользователя статистически незначимым, не позволяя выделить его из общей массы.

🔸 Федеративное обучение. Принцип «модель идёт к данным, а не наоборот». Глобальная модель отправляется для дообучения на локальные устройства (например, телефоны или серверы больниц), а обратно возвращаются только обезличенные обновления, а не сырые данные. Идеально для сценариев, где данные не могут покидать своего владельца.

🔸 Продвинутые методы. Существуют и более сложные подходы, такие как гомоморфное шифрование (позволяет проводить вычисления прямо над зашифрованными данными) и конфиденциальные вычисления (используют аппаратные анклавы, вроде TEE в процессорах NVIDIA, для обработки данных в изолированной среде). Но пока они либо слишком медленные, либо требуют специфического железа.

Что в итоге

Ни одна из этих техник не является панацеей. Каждая решает свой круг задач и имеет свои ограничения. Настоящая безопасность строится на многоуровневой защите, где эти подходы комбинируются.

Мы имеем дело с вероятностной технологией, где утечки и ошибки заложены в самой её природе. Злоумышленнику достаточно найти одну лазейку, тогда как защите нужно предвидеть все возможные сценарии.

Поэтому, когда вы в следующий раз увидите чат с пометкой «конфиденциально», помните: это скорее вежливое пожелание, чем техническая гарантия. Настоящая приватность в мире ИИ — это не фича, которую можно включить, а непрерывная и крайне сложная технологическая борьба.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка