- Опубликовано
Голосовые ИИ без задержек
- Автор
- Имя
- Нейрократия
- Telegram
- Нейрократия582 подписчика231 постПро технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev
Голосовые ИИ без задержек
В тему голосовых ИИ — свежайшая open-source моделька Voila.
Секрет качественного голосового ассистента не только в том, чтобы умно отвечать, но и делать это достаточно быстро. В MIT провели исследование: человек ощущает задержку в разговоре уже после 300 миллисекунд. Ребята из Maitrix.org совместно с University of California San Diego и MBZUAI представили Voila — семейство нейросетевых моделей, созданных специально для сверхбыстрого и реалистичного голосового общения с пользователями.
Пробуйте сами:
— 🚀 Демо Voila с возможностями создания голоса и TTS
— 📚 Статья/препринт на arXiv
Посмотрим поближе
Начнём с архитектуры. Забудьте привычные «конвейеры» вроде Siri, где каждый ваш вопрос пройдёт через модули ASR (распознавание), NLU (понимание речи), LLM (формулирование ответа) и только потом превратится в голосовой отклик. Это долго (задержки до нескольких секунд), а кроме того убивает все тонкие нюансы живого общения: эмоции, интонации, ритм.
Voila предложила end-to-end подход на основе иерархических Transformer-моделей, объединяющих продвинутые LLM с мощным акустическим моделированием напрямую. Никаких лишних преобразований, модель работает непосредственно с аудио-токенами и генерирует живой голосовой ответ сама.
Фактически, они «поженили» GPT-уровень понимания языка с глубокими акустическими моделями, а именно:
— Низкая задержка — всего 195 мс.
— Полный дуплекс — модель одновременно слушает, размышляет и отвечает — прямо как в человеческом диалоге.
— Сохранение вокальных нюансов — тон, эмоции, акценты в голосе собеседника не теряются, а используются напрямую при ответах.
Voila идёт ещё дальше
Во-первых, она позволяет создавать голосовые личности.
Просто опишите текстом, какой вы хотите голос (персонаж, акцент, стиль) — и модель сделает именно это. И не несколько заранее определённых голосов, а свыше миллиона различных встроенных вариантов. Если мало — обучите на собственных аудио-фрагментах (10 секунд хватит).
Во-вторых, модель универсальна. Она не только для разговоров, а ещё и:
— Распознаёт речь (ASR)
— Синтезирует текст в голос (TTS)
— Без особых настроек поддерживает многоязычный перевод речи
Бенчмарки
Разработчики провели подробные замеры в новом бенчмарке Voila Benchmark и сравнили Voila с предшествующими моделями (SpeechGPT, Moshi) — новая модель превзошла их результаты более чем вдвое (30,56% точности против 13,29% и 11,45%). Реальное прорывное улучшение во всех типах задач.
В тестах ASR и TTS модель не уступает Whisper и Moshi, а временами их превосходит.
Закрепленные
Из подборки #обзор
- Опубликовано
AI 2025: агенты, ролплей, китайская экспансия
- Опубликовано
Чем больше LLM, тем легче её взломать
- Опубликовано
OpenAI пытается отучить модели врать
- Опубликовано
Как ИИ создаёт видео: разбираем технологию
- Опубликовано
Activepieces: новый n8n?
- Опубликовано
Anthropic запустила образовательные курсы
Свежие посты
- Опубликовано
Внутренности Клода
- Опубликовано
Как меняется устройство мысли
- Опубликовано
Google ускоряет LLM в 8 раз
- Опубликовано
Архив, эпизоды и граф: память агента изнутри
- Опубликовано
Я делаю personal-first ассистента. Вот зачем
- Опубликовано
ИИ победил
- Опубликовано
Нейросети будут платить налоги
- Опубликовано
















