Intel кардинально улучшит распознавание человеческой речи компьютером
Для этого созданы большие датасетыПервый набор Intel People’s Speech направлен на задачи по автоматическому распознаванию речи. Второй — Multilingual Spoken Words Corpus (MSWC) — на определение ключевых слов.
Работу над датасетами начали в 2018 году. Целью было объединить в наборе данных более 50 самых распространённых языков в мире. Это пригодится, например, в создании систем для автоматического перевода.
Особенности датасетов в том, что они содержат не «театральные» аудиозаписи речи, а записи, сделанные в естественной среде. Обучаясь на таких, алгоритм сможет затем точнее распознавать естественную речь, которую человек надиктовывает прямо на микрофон.
В первом датасете находятся десятки тысяч часов разговоров. В настоящее время это один из крупнейших в мире наборов данных для распознавания речи на английском языке. В MSWC содержится более 300 тысяч ключевых слов на десятках языков. Датасет можно использовать в голосовых помощниках, например.