Почти дубляж: Яндекс научился многоголосому переводу YouTube-видео
Уникальная технология, аналоги которой сложно найти в миреПомните нейросеть Яндекса, которая переводила зарубежные видео на лету? Компания «прокачала» её, научив ещё большим трюкам.
Так, теперь пользователи Яндекс.Браузера могут смотреть ролики на английском языке с многоголосым закадровым переводом на русский.
Если изначально технология использовала два синтезированных голоса для перевода речи — один мужской и один женский — то теперь голосов двенадцать. По шесть на каждый из полов.
Сообщается, что нейросеть «раздаёт» голоса разным спикерам, после чего «запоминает» их с помощью созданных внутри Яндекса ИИ-моделей.
Причём работает это всё достаточно многослойно: сначала одна нейросеть переводит речь в текст, восстанавливает пунктуацию и определяет границы предложений, а затем другая анализирует спектрограмму голоса и отмечает фрагменты, сказанные разными людьми.