100 000 часов речи, 980 млн параметров: ИИ-модель преобразования текста в речь

Созданная силами Amazon

Технологический гигант Amazon сделал значительный шаг вперед в создании естественной речи благодаря своей новейшей модели преобразования текста в речь (TTS) — BASE TTS. Эта модель, обладающая 980 миллионами параметров и обученная на 100 000 часах речевых данных, демонстрирует «новые способности», которые, по мнению исследователей, могут вывести технологию за пределы «зловещей долины».

100 000 часов речи, 980 млн параметров: ИИ-модель преобразования текста в речь

Что такое эмерджентные способности? Представьте себе ребенка, изучающего новый язык. Сначала они понимают основные слова и грамматику. Но по мере развития они начинают интуитивно понимать сложные структуры предложений, выражать эмоции с помощью интонации и даже использовать юмор — способности, которым их явно не учили. Именно это исследователи наблюдали в BASE TTS. Хотя модель не была разумной, она продемонстрировала внезапный скачок в своей способности справляться со сложными ситуациями, такими как:

Произнести «очаровательный, построенный из камня причудливый загородный коттедж для отдыха» — естественно, сложная задача для многих моделей TTS.
Выражение восторга в фразе «О боже! Мы действительно едем на Мальдивы?» или шепот срочности в фразе «Шшш, Люси, шшшш…».
Правильно произнести «mise en place» и «piece de resistance».
Понимание контекста и срочности текстов с эмодзи и аббревиатурами.
Навигация по запутанным предложениям типа «Фильм, в котором… снялся в 2022 году, стал хитом проката…».

Этот «скачок» особенно интересен, потому что он не был запланирован.