Опубликовано 16 февраля 2024, 07:30
1 мин.

100 000 часов речи, 980 млн параметров: ИИ-модель преобразования текста в речь

Созданная силами Amazon
Технологический гигант Amazon сделал значительный шаг вперед в создании естественной речи благодаря своей новейшей модели преобразования текста в речь (TTS) — BASE TTS. Эта модель, обладающая 980 миллионами параметров и обученная на 100 000 часах речевых данных, демонстрирует «новые способности», которые, по мнению исследователей, могут вывести технологию за пределы «зловещей долины».
100 000 часов речи, 980 млн параметров: ИИ-модель преобразования текста в речь

Что такое эмерджентные способности? Представьте себе ребенка, изучающего новый язык. Сначала они понимают основные слова и грамматику. Но по мере развития они начинают интуитивно понимать сложные структуры предложений, выражать эмоции с помощью интонации и даже использовать юмор — способности, которым их явно не учили. Именно это исследователи наблюдали в BASE TTS. Хотя модель не была разумной, она продемонстрировала внезапный скачок в своей способности справляться со сложными ситуациями, такими как:

  • Произнести «очаровательный, построенный из камня причудливый загородный коттедж для отдыха» — естественно, сложная задача для многих моделей TTS.

  • Выражение восторга в фразе «О боже! Мы действительно едем на Мальдивы?» или шепот срочности в фразе «Шшш, Люси, шшшш…».

  • Правильно произнести «mise en place» и «piece de resistance».

  • Понимание контекста и срочности текстов с эмодзи и аббревиатурами.

  • Навигация по запутанным предложениям типа «Фильм, в котором… снялся в 2022 году, стал хитом проката…».

Этот «скачок» особенно интересен, потому что он не был запланирован.