Искусственный интеллект научился угадывать звуки в беззвучных видео
Работает алгоритм достаточно просто — сначала он обнаруживает в кадре источники звука. Их разделяют на два типа — конкретные объекты и места с характерным фоновым звуком (например, кафе).
Исходное видео разбивается на сцены по резкому изменению гистограммы между двумя кадрами, после чего нейросеть CLIP классифицирует объекты в ней. В качестве базы эффектов используется Epidemic Sound — библиотека с 90 тыс звуками.
В конечном итоге искусственный интеллект «оснащает» каждую сцену пятью самыми вероятными звуковыми эффектами для объектов и окружения. При этом изначально активируется лишь один из них, но пользователь может включить все пять.
Подобрав необходимые звуки, алгоритм создаёт для них временные интервалы — это позволяет добиться большей реалистичности, так как не все объекты находятся на сцене на протяжении всего ролика.