Подписаться
Опубликовано

Анонимизация ИИ — фикция

Автор
  • Имя
    Нейрократия
    Telegram

Анонимизация ИИ — фикция

Суд обязал OpenAI передать 20 миллионов чатов пользователей в рамках иска NYT. Разбираемся, почему анонимизация данных — это фикция, и при чем тут личные переписки с ChatGPT.

Что случилось

В начале ноября суд обязал OpenAI передать 20 миллионов случайных чатов пользователей ChatGPT за период в 2 года. Это часть судебного процесса, где The New York Times обвиняет компанию в использовании своих статей для обучения моделей без разрешения.

OpenAI отреагировала резко. Директор по информационной безопасности выпустил заявление, назвав требование суда «беспрецедентной угрозой приватности пользователей». По его словам, 800 миллионов человек доверяют платформе свои медицинские симптомы, финансовые данные и личные переживания.

Аргументы сторон

OpenAI настаивает: 99.99% из этих 20 миллионов чатов никак не связаны с обвинениями в нарушении авторских прав. Компания называет это «спекулятивной рыбалкой» в частных данных миллионов пользователей.

NYT парирует: данные нужны, чтобы проверить, как часто ChatGPT воспроизводит контент газеты. По словам представителя издания, приватность не под угрозой — суд требует данные в анонимизированном виде.

Почему анонимизация не работает

Вся судебная логика строится на предположении, что «exhaustive de-identification» (тщательная деидентификация) — это достаточная защита. Проблема в том, что это фикция.

Большие языковые модели «запоминают» и могут выдавать дословные фрагменты из своих тренировочных данных. В декабре 2023 года исследователи обнаружили простую атаку — заставив ChatGPT бесконечно повторять определенные слова, они извлекли персональные данные, NSFW-контент и фрагменты защищенных текстов.

Это значит, что даже «анонимизированные» чаты могут содержать информацию, по которой можно идентифицировать конкретных людей. OWASP включил «LLM06: Sensitive Information Disclosure» в официальный топ-10 рисков безопасности LLM-приложений.

Парадокс политики удаления

Кейс вскрыл противоречие в собственной политике OpenAI. Компания обещает удалять данные через 30 дней для пользователей Enterprise и тех, кто отключил историю. Это ключевой элемент их маркетинга.

Но в мае 2024 года судья в США выдал приказ о сохранении всех логов переписок для судебного процесса. OpenAI была обязана отменить свою политику удаления и хранить все чаты бессрочно.

Получается: чтобы выполнить закон (приказ о сохранении), OpenAI нарушила собственную политику приватности (30-дневное удаление). Именно этот принудительно созданный архив данных с 2022 года NYT теперь успешно требует через суд.

Для пользователей вывод простой: корпоративные политики удаления — условны. Они первыми отменяются в случае судебных разбирательств.

2 уровня приватности

Наглядна закономерность: уровень защиты ваших данных зависит не от закона, а от того, сколько вы платите.

Корпоративные клиенты (OpenAI Enterprise, Google Workspace, Anthropic API) получают гарантию: их данные по умолчанию не используются для обучения моделей. Обычные пользователи (Free/Pro версии) — противоположную ситуацию. Данные используются для тренировки моделей по умолчанию.

Приватность — это сложный «opt-out» в настройках, о котором многие не знают.

Бизнес-модель прозрачна: корпорации платят за приватность деньгами, а обычные пользователи — своими данными.

Что теперь

Юристы в Штатах уже рассматривают ИИ-чаты как обычную Electronically Stored Information (ESI) — не отличается от emails или SMS.

Это значит, что в любом будущем судебном процессе — трудовом споре, разводе, коммерческом конфликте — переписки с ChatGPT могут стать «уликой A» в зале суда.

Про Gigachatы и Алисы вообще молчу — они, разумеется, запросто выдадут все переписки по ордеру без намека на анонимность.

В общем, сейчас лог вашего чата одновременно является личным секретом, публичным документом, корпоративным активом и потенциальным доказательством.

Более подробный разбор (на английском) в моей статье: The Myth of Private AI: Why Your Chat Logs Are a Legal Battlefield

/ Не запрещена в РФ

Нейрократия
582 подписчика
235 постов
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

OpenAI захватили гоблины

OpenAI захватили гоблиныЯ не шучу, абсолютно серьезно. Ладно, не OpenAI, а модели ChatGPT.Вчера OpenAI опубликовала странный разбор: почему...
Опубликовано

Зачем ИИ учат симулировать мир

Зачем ИИ учат симулировать мирOdyssey представила Odyssey-2 Max, свою крупнейшую модель мира. Формально это родственник видеогенераторов, но...
Опубликовано

Общество будущего от OpenAI: что с ним не так

OpenAI предлагает политику ИИ, но сохраняет выгоду компаний, усиливает концентрацию и создаёт барьеры, не решая риски безопасности.
Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.