Подписаться
Опубликовано

Голосовые ИИ без задержек

Автор
  • Имя
    Нейрократия
    Telegram

Голосовые ИИ без задержек

В тему голосовых ИИ — свежайшая open-source моделька Voila.

Секрет качественного голосового ассистента не только в том, чтобы умно отвечать, но и делать это достаточно быстро. В MIT провели исследование: человек ощущает задержку в разговоре уже после 300 миллисекунд. Ребята из Maitrix.org совместно с University of California San Diego и MBZUAI представили Voila — семейство нейросетевых моделей, созданных специально для сверхбыстрого и реалистичного голосового общения с пользователями.

Пробуйте сами: — 🚀 Демо Voila с возможностями создания голоса и TTS — 📚 Статья/препринт на arXiv

Посмотрим поближе

Начнём с архитектуры. Забудьте привычные «конвейеры» вроде Siri, где каждый ваш вопрос пройдёт через модули ASR (распознавание), NLU (понимание речи), LLM (формулирование ответа) и только потом превратится в голосовой отклик. Это долго (задержки до нескольких секунд), а кроме того убивает все тонкие нюансы живого общения: эмоции, интонации, ритм.

Voila предложила end-to-end подход на основе иерархических Transformer-моделей, объединяющих продвинутые LLM с мощным акустическим моделированием напрямую. Никаких лишних преобразований, модель работает непосредственно с аудио-токенами и генерирует живой голосовой ответ сама.

Фактически, они «поженили» GPT-уровень понимания языка с глубокими акустическими моделями, а именно:

— Низкая задержка — всего 195 мс.

— Полный дуплекс — модель одновременно слушает, размышляет и отвечает — прямо как в человеческом диалоге.

— Сохранение вокальных нюансов — тон, эмоции, акценты в голосе собеседника не теряются, а используются напрямую при ответах.

Voila идёт ещё дальше

Во-первых, она позволяет создавать голосовые личности.

Просто опишите текстом, какой вы хотите голос (персонаж, акцент, стиль) — и модель сделает именно это. И не несколько заранее определённых голосов, а свыше миллиона различных встроенных вариантов. Если мало — обучите на собственных аудио-фрагментах (10 секунд хватит).

Во-вторых, модель универсальна. Она не только для разговоров, а ещё и:

— Распознаёт речь (ASR) — Синтезирует текст в голос (TTS) — Без особых настроек поддерживает многоязычный перевод речи

Бенчмарки

Разработчики провели подробные замеры в новом бенчмарке Voila Benchmark и сравнили Voila с предшествующими моделями (SpeechGPT, Moshi) — новая модель превзошла их результаты более чем вдвое (30,56% точности против 13,29% и 11,45%). Реальное прорывное улучшение во всех типах задач.

В тестах ASR и TTS модель не уступает Whisper и Moshi, а временами их превосходит.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #обзор

Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как ИИ создаёт видео: разбираем технологию

Как ИИ создает видео: технология генерации видео из текста, диффузионные трансформеры и латентное пространство

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка