Meta* обучила свою языковую нейросеть на библейских текстах
Как правило, модели распознавания речи требуют длительного обучения с использованием тысяч часов аудиозаписей. Однако такие большие наборы данных обычно ограничиваются популярными языками, на которых говорит большое количество людей, оставляя без внимания значительную часть языкового разнообразия мира. Чтобы устранить это ограничение, группа инженеров компании Meta* разработала модель распознавания многоязычной речи (Massively Multilingual Speech, MMS). Модель MMS была обучена на двух наборах данных - один с аудиозаписями и соответствующими текстами из Нового Завета, а другой - с аудиозаписями из различных религиозных источников.
Модель MMS использует архитектуру wav2vec 2.0, которая преобразует аудиозаписи в векторные представления. Объединив религиозные наборы данных с другими обширными наборами аудиоданных, исследователи создали модель, которая распознает речь на 4 000 языках со средней точностью 97%. Модель MMS также превзошла другие модели распознавания речи, достигнув более высоких показателей точности.
Помимо распознавания речи, модель MMS была обучена определять языки и генерировать речь. Она продемонстрировала впечатляющую производительность, генерируя текст и речь с высокой точностью на 1107 языках.
*признана в РФ экстремистской и запрещена