Опубликовано: пятница, 9 мая 2025 г.

Как защитить голос от клонирования нейросетями?

Автор

Имя
Нейрократия
Telegram
telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Как защитить голос от клонирования нейросетями?

Голосовой deepfake стали мощным оружием мошенников. Подобные атаки — уже привычная часть реальности, и существующие средства защиты не справляются. Константин Воронцов вон недавно вообще заявил, что эффективной защиты как таковой не будет.

Но, возможно, всё не настолько плохо.

Исследователи из Пекинского университета (Beijing University of Posts and Telecommunications) и CSIRO Data61 предложили новый подход к защите голоса от злоумышленников — систему SafeSpeech. Она преобразует ваши аудиозаписи таким образом, что ИИ-системы не смогут использовать их для клонирования вашего голоса, оставаясь при этом практически незаметной для человеческого восприятия.

➡️ Есть код на Github и есть демо голосов.

Идея защитной системы базируется на концепции «скрывающих помех»: вместо того, чтобы полностью заглушать или менять голос, методика вносит минимальные корректировки в аудио на уровне, недоступном нашему слуху. И хотя человек по-прежнему слышит то же самое, ИИ-системы, пытающиеся «обучиться» на этом аудио, получают практически бесполезный результат.

Команда разработала новый метод Speech PErturbative Concealment (SPEC), который направленно «портит» данные обучения для синтезатора речи, вынуждая его создавать непригодный для злоумышленников контент: некачественный, с искажённой тембральной окраской и максимальным количеством ошибок.

Результаты такие.

В сравнении с существующими аналогами (например, AntiFake или AttackVC) SPEC обеспечивает существенные преимущества, делая речь практически не поддающейся клонированию (Word Error Rate до 99% на некоторых моделях и снижение «узнаваемости» голоса до уровня шума).

Методика устойчива против большинства передовых технологий агрессивных атак (включая удаление шума нейросетями или попытки восстанавливать голос «обратно»).

Тестирование на популярнейших моделях генерации речи (BERT-VITS2, VITS, GlowTTS и многие другие) подтвердило высокую эффективность и универсальность подхода.

Система настолько быстра и эффективна, что в реальном времени способна защищать голос спикера уже через 10-15 секунд после первой записи и далее делать это непрерывно.

Авторов исследования особенно радует высокая незаметность для человека. Во многих случаях слушатели не замечают помех, принимая защищённое аудио за оригинал, но для моделей синтеза речи оно становится бесполезным.

Исследователи справедливо подчёркивают: метод отличается от простых «атак отравления данных» (data poisoning), так как не «ломает» нейросети, а именно защищает конкретного пользователя от неавторизованного обучения.

Теперь главный вопрос: насколько быстро решения а-ля SafeSpeech войдут в повседневные инструменты и системы коммуникаций? Ведь в мире, где вас можно «взломать» по голосу, уже никто не застрахован.

P.S. Мне всегда было интересно, почему авторы научных статей рисуют такие стрёмные иллюстрации. Вот постоянно. Начали бы уже нанимать дизайнеров, что ли, или попросили 4o сгенерировать картинку, в конце концов :)

/ Не запрещена в РФ

Обсудить в Telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev