Опубликовано: суббота, 10 мая 2025 г.

Голосовые ИИ без задержек

Автор

Имя
Нейрократия
Telegram
telegram

Нейрократия

582 подписчика

236 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Голосовые ИИ без задержек

В тему голосовых ИИ — свежайшая open-source моделька Voila.

Секрет качественного голосового ассистента не только в том, чтобы умно отвечать, но и делать это достаточно быстро. В MIT провели исследование: человек ощущает задержку в разговоре уже после 300 миллисекунд. Ребята из Maitrix.org совместно с University of California San Diego и MBZUAI представили Voila — семейство нейросетевых моделей, созданных специально для сверхбыстрого и реалистичного голосового общения с пользователями.

Пробуйте сами: — 🚀 Демо Voila с возможностями создания голоса и TTS — 📚 Статья/препринт на arXiv

Посмотрим поближе

Начнём с архитектуры. Забудьте привычные «конвейеры» вроде Siri, где каждый ваш вопрос пройдёт через модули ASR (распознавание), NLU (понимание речи), LLM (формулирование ответа) и только потом превратится в голосовой отклик. Это долго (задержки до нескольких секунд), а кроме того убивает все тонкие нюансы живого общения: эмоции, интонации, ритм.

Voila предложила end-to-end подход на основе иерархических Transformer-моделей, объединяющих продвинутые LLM с мощным акустическим моделированием напрямую. Никаких лишних преобразований, модель работает непосредственно с аудио-токенами и генерирует живой голосовой ответ сама.

Фактически, они «поженили» GPT-уровень понимания языка с глубокими акустическими моделями, а именно:

— Низкая задержка — всего 195 мс.

— Полный дуплекс — модель одновременно слушает, размышляет и отвечает — прямо как в человеческом диалоге.

— Сохранение вокальных нюансов — тон, эмоции, акценты в голосе собеседника не теряются, а используются напрямую при ответах.

Voila идёт ещё дальше

Во-первых, она позволяет создавать голосовые личности.

Просто опишите текстом, какой вы хотите голос (персонаж, акцент, стиль) — и модель сделает именно это. И не несколько заранее определённых голосов, а свыше миллиона различных встроенных вариантов. Если мало — обучите на собственных аудио-фрагментах (10 секунд хватит).

Во-вторых, модель универсальна. Она не только для разговоров, а ещё и:

— Распознаёт речь (ASR) — Синтезирует текст в голос (TTS) — Без особых настроек поддерживает многоязычный перевод речи

Бенчмарки

Разработчики провели подробные замеры в новом бенчмарке Voila Benchmark и сравнили Voila с предшествующими моделями (SpeechGPT, Moshi) — новая модель превзошла их результаты более чем вдвое (30,56% точности против 13,29% и 11,45%). Реальное прорывное улучшение во всех типах задач.

В тестах ASR и TTS модель не уступает Whisper и Moshi, а временами их превосходит.

/ Не запрещена в РФ

Обсудить в Telegram

Нейрократия

582 подписчика

236 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev