
Впервые Google рассказал, как разработал функцию живого перевода для видеозвонков Meet. Эту задачу инженеры пытались решить пять лет, но в итоге — благодаря команде по работе со звуком, продуктовым менеджерам и экспертам Google DeepMind — сдвинуть проект с мёртвой точки и запустить его получилось всего за два года.
Как объясняет Фредерик, руководитель аудиокоманды Meet, Google отлично понимал, насколько важен мгновенный перевод во время онлайн-разговоров. Новый скачок в развитии больших языковых моделей наконец-то позволил воплотить эту идею в жизнь. Над технологией трудились сразу несколько подразделений: Pixel, Cloud, Chrome и DeepMind объединили усилия, чтобы дать миру перевод речи в реальном времени.
Раньше всё было куда сложнее: система сначала преобразовывала речь в текст, потом переводила его, а затем озвучивала результат. Каждый из этих этапов добавлял по 10–20 секунд задержки — и вся магия живого разговора просто исчезала. К тому же голоса звучали неестественно и безжизненно, не передавали эмоций, что напрочь убивало атмосферу общения.
По словам Хьюйба, отвечающего за качество звука, прорыв произошёл благодаря так называемым «крупным моделям» (это не совсем те LLM, о которых все говорят). Теперь система переводит сразу по ходу разговора: аудио моментально обрабатывается и тут же озвучивается уже на нужном языке.
Скорость стала сопоставимой с работой настоящего синхронного переводчика — задержка всего 2–3 секунды. Это именно тот промежуток, когда мозг ещё не теряет нить разговора, но и пауза не успевает наскучить. Благодаря новинке в Google Meet теперь можно свободно обсуждать важные темы с людьми, говорящими на любом языке — без затягиваний и неловких пауз.
Разумеется, на пути к цели возникало множество сложностей. Самая главная — обеспечить точность: акценты, фоновый шум и качество связи легко мешают понимать речь. Команды Meet и DeepMind постоянно дорабатывали алгоритмы, тестируя их в реальных условиях. Даже лингвисты подключились к работе — чтобы система лучше понимала все языковые особенности и нюансы интонации.
Проще всего работало с языками, близкими по структуре: испанским, итальянским, португальским, французским. А вот немецкий со своей уникальной грамматикой и изобилием идиом оказался куда сложнее и требовал особого подхода.
Пока что большинство фраз переводится дословно, из-за чего иногда случается забавная путаница. Тем не менее, Фредерик и Хьюйб уверены: новые поколения моделей на базе развитых LLM научатся точнее чувствовать контекст, эмоции и даже иронию. А для пользователей уже сейчас мгновенный перевод — это огромный технологический рывок вперёд!
Если вам понравилась эта статья, подпишитесь, чтобы не пропустить еще много полезных статей!
Премиум подписка — это доступ к эксклюзивным материалам, чтение канала без рекламы, возможность предлагать темы для статей и даже заказывать индивидуальные обзоры/исследования по своим запросам!
Подробнее о том, какие преимущества вы получите с премиум подпиской, можно узнать здесь
Также подписывайтесь на нас в:
- Telegram: https://t.me/gergenshin
- Youtube: https://www.youtube.com/@gergenshin
- Яндекс Дзен: https://dzen.ru/gergen
- Официальный сайт: https://www-genshin.ru






