Подписаться
Опубликовано

Анонимизация ИИ — фикция

Автор
  • Имя
    Нейрократия
    Telegram

Анонимизация ИИ — фикция

Суд обязал OpenAI передать 20 миллионов чатов пользователей в рамках иска NYT. Разбираемся, почему анонимизация данных — это фикция, и при чем тут личные переписки с ChatGPT.

Что случилось

В начале ноября суд обязал OpenAI передать 20 миллионов случайных чатов пользователей ChatGPT за период в 2 года. Это часть судебного процесса, где The New York Times обвиняет компанию в использовании своих статей для обучения моделей без разрешения.

OpenAI отреагировала резко. Директор по информационной безопасности выпустил заявление, назвав требование суда «беспрецедентной угрозой приватности пользователей». По его словам, 800 миллионов человек доверяют платформе свои медицинские симптомы, финансовые данные и личные переживания.

Аргументы сторон

OpenAI настаивает: 99.99% из этих 20 миллионов чатов никак не связаны с обвинениями в нарушении авторских прав. Компания называет это «спекулятивной рыбалкой» в частных данных миллионов пользователей.

NYT парирует: данные нужны, чтобы проверить, как часто ChatGPT воспроизводит контент газеты. По словам представителя издания, приватность не под угрозой — суд требует данные в анонимизированном виде.

Почему анонимизация не работает

Вся судебная логика строится на предположении, что «exhaustive de-identification» (тщательная деидентификация) — это достаточная защита. Проблема в том, что это фикция.

Большие языковые модели «запоминают» и могут выдавать дословные фрагменты из своих тренировочных данных. В декабре 2023 года исследователи обнаружили простую атаку — заставив ChatGPT бесконечно повторять определенные слова, они извлекли персональные данные, NSFW-контент и фрагменты защищенных текстов.

Это значит, что даже «анонимизированные» чаты могут содержать информацию, по которой можно идентифицировать конкретных людей. OWASP включил «LLM06: Sensitive Information Disclosure» в официальный топ-10 рисков безопасности LLM-приложений.

Парадокс политики удаления

Кейс вскрыл противоречие в собственной политике OpenAI. Компания обещает удалять данные через 30 дней для пользователей Enterprise и тех, кто отключил историю. Это ключевой элемент их маркетинга.

Но в мае 2024 года судья в США выдал приказ о сохранении всех логов переписок для судебного процесса. OpenAI была обязана отменить свою политику удаления и хранить все чаты бессрочно.

Получается: чтобы выполнить закон (приказ о сохранении), OpenAI нарушила собственную политику приватности (30-дневное удаление). Именно этот принудительно созданный архив данных с 2022 года NYT теперь успешно требует через суд.

Для пользователей вывод простой: корпоративные политики удаления — условны. Они первыми отменяются в случае судебных разбирательств.

2 уровня приватности

Наглядна закономерность: уровень защиты ваших данных зависит не от закона, а от того, сколько вы платите.

Корпоративные клиенты (OpenAI Enterprise, Google Workspace, Anthropic API) получают гарантию: их данные по умолчанию не используются для обучения моделей. Обычные пользователи (Free/Pro версии) — противоположную ситуацию. Данные используются для тренировки моделей по умолчанию.

Приватность — это сложный «opt-out» в настройках, о котором многие не знают.

Бизнес-модель прозрачна: корпорации платят за приватность деньгами, а обычные пользователи — своими данными.

Что теперь

Юристы в Штатах уже рассматривают ИИ-чаты как обычную Electronically Stored Information (ESI) — не отличается от emails или SMS.

Это значит, что в любом будущем судебном процессе — трудовом споре, разводе, коммерческом конфликте — переписки с ChatGPT могут стать «уликой A» в зале суда.

Про Gigachatы и Алисы вообще молчу — они, разумеется, запросто выдадут все переписки по ордеру без намека на анонимность.

В общем, сейчас лог вашего чата одновременно является личным секретом, публичным документом, корпоративным активом и потенциальным доказательством.

Более подробный разбор (на английском) в моей статье: The Myth of Private AI: Why Your Chat Logs Are a Legal Battlefield

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка