Google потряс индустрию: почему мгновенный перевод в Meet — это не просто магия, а инженерное чудо! Секреты создания и неожиданные трудности

A cartoon of two people talking in Google Meets with the translation showing English to Spanish

Впервые Google рассказал, как разработал функцию живого перевода для видеозвонков Meet. Эту задачу инженеры пытались решить пять лет, но в итоге — благодаря команде по работе со звуком, продуктовым менеджерам и экспертам Google DeepMind — сдвинуть проект с мёртвой точки и запустить его получилось всего за два года.

Как объясняет Фредерик, руководитель аудиокоманды Meet, Google отлично понимал, насколько важен мгновенный перевод во время онлайн-разговоров. Новый скачок в развитии больших языковых моделей наконец-то позволил воплотить эту идею в жизнь. Над технологией трудились сразу несколько подразделений: Pixel, Cloud, Chrome и DeepMind объединили усилия, чтобы дать миру перевод речи в реальном времени.

Раньше всё было куда сложнее: система сначала преобразовывала речь в текст, потом переводила его, а затем озвучивала результат. Каждый из этих этапов добавлял по 10–20 секунд задержки — и вся магия живого разговора просто исчезала. К тому же голоса звучали неестественно и безжизненно, не передавали эмоций, что напрочь убивало атмосферу общения.

По словам Хьюйба, отвечающего за качество звука, прорыв произошёл благодаря так называемым «крупным моделям» (это не совсем те LLM, о которых все говорят). Теперь система переводит сразу по ходу разговора: аудио моментально обрабатывается и тут же озвучивается уже на нужном языке.

Скорость стала сопоставимой с работой настоящего синхронного переводчика — задержка всего 2–3 секунды. Это именно тот промежуток, когда мозг ещё не теряет нить разговора, но и пауза не успевает наскучить. Благодаря новинке в Google Meet теперь можно свободно обсуждать важные темы с людьми, говорящими на любом языке — без затягиваний и неловких пауз.

Разумеется, на пути к цели возникало множество сложностей. Самая главная — обеспечить точность: акценты, фоновый шум и качество связи легко мешают понимать речь. Команды Meet и DeepMind постоянно дорабатывали алгоритмы, тестируя их в реальных условиях. Даже лингвисты подключились к работе — чтобы система лучше понимала все языковые особенности и нюансы интонации.

Проще всего работало с языками, близкими по структуре: испанским, итальянским, португальским, французским. А вот немецкий со своей уникальной грамматикой и изобилием идиом оказался куда сложнее и требовал особого подхода.

Пока что большинство фраз переводится дословно, из-за чего иногда случается забавная путаница. Тем не менее, Фредерик и Хьюйб уверены: новые поколения моделей на базе развитых LLM научатся точнее чувствовать контекст, эмоции и даже иронию. А для пользователей уже сейчас мгновенный перевод — это огромный технологический рывок вперёд!

Если вам понравилась эта статья, подпишитесь, чтобы не пропустить еще много полезных статей!

Премиум подписка — это доступ к эксклюзивным материалам, чтение канала без рекламы, возможность предлагать темы для статей и даже заказывать индивидуальные обзоры/исследования по своим запросам!

Подробнее о том, какие преимущества вы получите с премиум подпиской, можно узнать здесь

Также подписывайтесь на нас в:

Алекс Бежбакин
Оцените автора
Добавить комментарий