100 000 часов речи, 980 млн параметров: ИИ-модель преобразования текста в речь
Что такое эмерджентные способности? Представьте себе ребенка, изучающего новый язык. Сначала они понимают основные слова и грамматику. Но по мере развития они начинают интуитивно понимать сложные структуры предложений, выражать эмоции с помощью интонации и даже использовать юмор — способности, которым их явно не учили. Именно это исследователи наблюдали в BASE TTS. Хотя модель не была разумной, она продемонстрировала внезапный скачок в своей способности справляться со сложными ситуациями, такими как:
-
Произнести «очаровательный, построенный из камня причудливый загородный коттедж для отдыха» — естественно, сложная задача для многих моделей TTS.
-
Выражение восторга в фразе «О боже! Мы действительно едем на Мальдивы?» или шепот срочности в фразе «Шшш, Люси, шшшш…».
-
Правильно произнести «mise en place» и «piece de resistance».
-
Понимание контекста и срочности текстов с эмодзи и аббревиатурами.
-
Навигация по запутанным предложениям типа «Фильм, в котором… снялся в 2022 году, стал хитом проката…».
Этот «скачок» особенно интересен, потому что он не был запланирован.