Подписаться
Опубликовано

Как защитить голос от клонирования нейросетями?

Автор
  • Имя
    Нейрократия
    Telegram

Как защитить голос от клонирования нейросетями?

Голосовой deepfake стали мощным оружием мошенников. Подобные атаки — уже привычная часть реальности, и существующие средства защиты не справляются. Константин Воронцов вон недавно вообще заявил, что эффективной защиты как таковой не будет.

Но, возможно, всё не настолько плохо.

Исследователи из Пекинского университета (Beijing University of Posts and Telecommunications) и CSIRO Data61 предложили новый подход к защите голоса от злоумышленников — систему SafeSpeech. Она преобразует ваши аудиозаписи таким образом, что ИИ-системы не смогут использовать их для клонирования вашего голоса, оставаясь при этом практически незаметной для человеческого восприятия.

➡️ Есть код на Github и есть демо голосов.

Идея защитной системы базируется на концепции «скрывающих помех»: вместо того, чтобы полностью заглушать или менять голос, методика вносит минимальные корректировки в аудио на уровне, недоступном нашему слуху. И хотя человек по-прежнему слышит то же самое, ИИ-системы, пытающиеся «обучиться» на этом аудио, получают практически бесполезный результат.

Команда разработала новый метод Speech PErturbative Concealment (SPEC), который направленно «портит» данные обучения для синтезатора речи, вынуждая его создавать непригодный для злоумышленников контент: некачественный, с искажённой тембральной окраской и максимальным количеством ошибок.

Результаты такие.

В сравнении с существующими аналогами (например, AntiFake или AttackVC) SPEC обеспечивает существенные преимущества, делая речь практически не поддающейся клонированию (Word Error Rate до 99% на некоторых моделях и снижение «узнаваемости» голоса до уровня шума).

Методика устойчива против большинства передовых технологий агрессивных атак (включая удаление шума нейросетями или попытки восстанавливать голос «обратно»).

Тестирование на популярнейших моделях генерации речи (BERT-VITS2, VITS, GlowTTS и многие другие) подтвердило высокую эффективность и универсальность подхода.

Система настолько быстра и эффективна, что в реальном времени способна защищать голос спикера уже через 10-15 секунд после первой записи и далее делать это непрерывно.

Авторов исследования особенно радует высокая незаметность для человека. Во многих случаях слушатели не замечают помех, принимая защищённое аудио за оригинал, но для моделей синтеза речи оно становится бесполезным.

Исследователи справедливо подчёркивают: метод отличается от простых «атак отравления данных» (data poisoning), так как не «ломает» нейросети, а именно защищает конкретного пользователя от неавторизованного обучения.

Теперь главный вопрос: насколько быстро решения а-ля SafeSpeech войдут в повседневные инструменты и системы коммуникаций? Ведь в мире, где вас можно «взломать» по голосу, уже никто не застрахован.

P.S. Мне всегда было интересно, почему авторы научных статей рисуют такие стрёмные иллюстрации. Вот постоянно. Начали бы уже нанимать дизайнеров, что ли, или попросили 4o сгенерировать картинку, в конце концов :)

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка