Компьютер научили читать по губам на разных языках
А не только на английскомИсследователи из Имперского колледжа Лондона разработали новую модель искусственного интеллекта, которая способна распознавать речь по губам на нескольких языках.
Один из авторов рассказал, что визуальное распознавание речи (VSR) было одной из основных тем его докторской диссертации. Однако подавляющее большинство существующей литературы описывало только англоязычные модели. Поэтому автор задался целью обучить модель распознавать речь на языках, отличных от английского, по движениям губ говорящих.
Модель, созданная исследователями, аналогична многим старым моделям, но некоторые из её гиперпараметров были изменены, набор данных был увеличен, а также использовались дополнительные функции потерь. В результате модель превосходит некоторые ранее предложенные модели, обученные на гораздо больших наборах данных.