- Опубликовано
Как взрослели голосовые технологии
- Автор
- Имя
- Нейрократия
- Telegram
- Нейрократия582 подписчика231 постПро технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev
Как взрослели голосовые технологии
Вчера я написал про новый способ защиты от клонирования голоса, но давайте разберёмся, как мы вообще пришли к такому уровню голосовых технологий.
Помните, как ещё лет 10 назад вы с трудом скрывали раздражение, общаясь с первыми голосовыми ассистентами? Сегодня же эти технологии перешли из категории неуклюжих экспериментов в разряд незаменимых инструментов. Как мы оказались здесь?
Популярная история непопулярной технологии
Голосовым технологиям на самом деле около ста лет. В далёком 1939 году инженеры Лабораторий Белла представили Voder (Voice Operating Demonstrator) — первый в мире электронный синтезатор речи. Оператору требовался год тренировок, чтобы заставить машину более-менее внятно произнести пару предложений. Публика восприняла эту диковинку тепло, но никакой реальной пользы тогда никто не видел.
Прорыв случился в 1957, снова в Bell Labs. Там появилась первая система автоматического распознавания речи, способная понять всего лишь цифры — но это уже было невероятно круто. Следующие десятилетия стараниями IBM, NEC и всё той же Bell Labs технологии постепенно эволюционировали от распознавания отдельных слов к целым фразам.
Любопытный факт: в 60-х компьютер IBM спел знаменитую песню Daisy Bell. Именно этот момент вдохновил Кубрика на сцену «умирания» компьютера HAL 9000 в «Космической Одиссее 2001».
В 1970-е в дело включилось DARPA — оборонное агентство США финансировало разработки голосовых интерфейсов, заложив фундамент современных подходов: скрытые марковские модели (Hidden Markov Models, HMM) и первые попытки применения нейросетей в 80-х.
Затем были 90-е — эра Dragon Dictate, первого коммерческого решения, позволявшего диктовать текст компьютеру. Появились и уникальные голоса — в AT&T, например, Анн Сирдал создала первый убедительный виртуальный женский голос, ставший прообразом многих современных ассистентов.
И наконец, то самое событие, после которого голосовая эпоха стала реальностью. В 2011 году Apple представила Siri — первую массовую голосовую технологию. Google, Amazon, Microsoft тут же вступили в борьбу, запустив Google Assistant, Alexa и Cortana — войс-технологии окончательно вышли в народ.
Как голосовые технологии стали умными
Современные голосовые системы стали мощными и функциональными благодаря синтезу трёх факторов:
1. Глубокое обучение и нейросети
Именно нейросети превратили понимание естественной речи из глючной белиберды в коммерчески успешный продукт.
Пример: стартап Deepgram со своей моделью транскрипции для медицины — скорость распознавания в 40 раз превышает конкурентов.
А GPT-4o не просто распознаёт речь, но и выделяет смыслы, интонации и намерения говорящего — уровень, который ещё недавно казался фантастикой.
2. Удобство и повсеместность умных устройств
Голосовой ввод проник во все области жизни: управление автомобилями, лампочками, кофеварками, кондиционерами, телевизорами — всем, что обладает хоть какой-то электроникой.
3. Интеграция с индустриями и бизнесом
Бренды максимально заинтересованы в упрощении и автоматизации взаимодействий с клиентами. Голосовые ассистенты отвечают на вопросы, принимают заказы, бронируют столики и билеты, дают консультации.
Что ждёт нас дальше?
Ближайшие 3-5 лет голосовые технологии станут практически не отличимы от взаимодействия с живым человеком — не только по качеству звука, но и по глубине разговора (исследование Opus Research).
(Вот свежайшая моделька Dia — и реалистичные демо, послушайте, там есть смешное).
Глубокий нейросетевой синтез и ещё более точное распознавание речи обещают стереть границы акцентов и языковых барьеров, позволив человеку свободно общаться на родном языке в любой точке мира. (Вспомним кейс Krisp AI, который убирает акцент говорящего в реальном времени.)
Реальное же будущее голосовых интерфейсов не в способности сказать «Алиса, включи музыку».
Оно в нашей готовности воспринимать синтетические голоса как равноправных коммуникаторов.
Закрепленные
Из подборки #история
- Опубликовано
Как спор о Боге и царе в России породил Google
- Опубликовано
Цифровые призраки и смерть истории
- Опубликовано
Технологический трансгуманизм: спасение или манипуляция?
- Опубликовано
Почему Apple провалилась в ИИ?
- Опубликовано
ИИ уничтожает гуманитарные науки и возрождает их
- Опубликовано
ИИ расширяет границы реальности
Свежие посты
- Опубликовано
Внутренности Клода
- Опубликовано
Как меняется устройство мысли
- Опубликовано
Google ускоряет LLM в 8 раз
- Опубликовано
Архив, эпизоды и граф: память агента изнутри
- Опубликовано
Я делаю personal-first ассистента. Вот зачем
- Опубликовано
ИИ победил
- Опубликовано
Нейросети будут платить налоги
- Опубликовано

















