Опубликовано: понедельник, 12 мая 2025 г.

ИИ-наушники переведут любую беседу

Автор

Имя
Нейрократия
Telegram
telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

ИИ-наушники переведут любую беседу

Продолжаем тему голосовых систем.

Представьте себя на международной конференции или деловой встрече, где участники постоянно перебивают друг друга, оживлённо спорят, и делают это на разных языках. Благодаря умным наушникам, способным одновременно переводить речь сразу нескольких собеседников, вы ухватываете каждый нюанс разговора и понимаете всех, о чём бы они ни говорили и как бы ни накладывались их голоса.

Так работает новый реальный прототип технологии Spatial Speech Translation, представленный исследовательской командой Университета Вашингтона.

До сих пор существующие системы перевода — как встроенные в очки от Meta (запрещена в РФ), так и знакомые всем мобильные приложения — справлялись в основном с задачами типа «один на один». Предложение от Spatial Speech Translation амбициознее: система способна одновременно «прослушивать» несколько человек, говорящих на разных языках, и передавать голосовые переводы пользователю почти мгновенно.

Интересное здесь — технологии «пространственного понимания». Нейросети в наушниках разделяют всё звуковое окружение на небольшие зоны, вычисляют каждого отдельного говорящего и сохраняют тональности и нюансы их голосов. Результат? Голоса ваших собеседников звучат из того же направления, в котором находится говорящий, и переведённые реплики звучат почти их собственными голосами, а не роботизированным синтетическим голосом Siri из 2011-го года.

Система не требует какого-то уникального железа. Spatial Speech Translation работает на коммерческой шумоподавляющей гарнитуре со встроенными микрофонами, подключённой к ноутбуку с чипом Apple M2 (который есть и в новых очках Vision Pro). Это делает потенциальную технологию доступной без огромного ценника.

Как это работает технически?

Первая нейросеть модели отвечает за определение голосов и их направления в пространстве — на этом этапе система разбивает звук вокруг человека на зоны и «следит» за спикерами.

Вторая нейросеть уже берётся за осмысленный перевод речи. Занятно, что помимо простого текста перевода, она захватывает голосовые характеристики говорящего (высоту, эмоции) и присваивает их переведённым репликам, «клонируя» голос.

Есть вопросы

Эксперты из Carnegie Mellon справедливо замечают — реальность гораздо сложнее и шумнее, чем лабораторные проверки. ИИ-системы невероятно трудно научить эффективно разделять голоса, находящиеся близко друг к другу. Это особенно важно для переводчиков, где каждая не понятая реплика может разрушить весь смысл дискуссии.

К тому же скорость реакции критична для нормального ведения беседы. Пока что система требует нескольких секунд задержки между исходной фразой и готовым переводом — и пусть задержка небольшая, даже секунды достаточно, чтобы разговор оказался немного искусственным. Поэтому команда сейчас бьётся над уменьшением задержки, сохранив при этом точность и выразительность перевода.

И здесь возникает ещё одна сложность, о которой говорят опытные лингвисты. Чем больше задержка, тем точнее перевод, особенно в случае языков с нестандартным порядком слов, вроде немецкого. Поэтому команда постоянно балансирует между мгновенностью ответа и его смысловой точностью.

Мы привыкли к облачным переводчикам типа Google Translate, привыкли к диалоговым помощникам вроде ChatGPT, но живое общение всегда казалось недостижимым уровнем. Spatial Speech Translation — это ещё один серьёзный шаг к будущему, в котором идеальный перевод будет обыденностью, а мир станет намного ближе и доступнее.

/ Не запрещена в РФ

Обсудить в Telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev