Опубликовано 11 декабря 2021, 11:26
1 мин.

Искусственный интеллект научился угадывать звуки в беззвучных видео

Ещё немного доработать технологию и она станет неотличима от магии
Группа исследователей из Университета Карнеги — Меллона, совместно с компанией Runway, разработали очень интересную нейросетевую модель. С её помощью можно «озвучивать» видеоролики, которые изначально были записаны без звука.
Искусственный интеллект научился угадывать звуки в беззвучных видео

Работает алгоритм достаточно просто — сначала он обнаруживает в кадре источники звука. Их разделяют на два типа — конкретные объекты и места с характерным фоновым звуком (например, кафе).

Исходное видео разбивается на сцены по резкому изменению гистограммы между двумя кадрами, после чего нейросеть CLIP классифицирует объекты в ней. В качестве базы эффектов используется Epidemic Sound — библиотека с 90 тыс звуками.

В конечном итоге искусственный интеллект «оснащает» каждую сцену пятью самыми вероятными звуковыми эффектами для объектов и окружения. При этом изначально активируется лишь один из них, но пользователь может включить все пять.

Подобрав необходимые звуки, алгоритм создаёт для них временные интервалы — это позволяет добиться большей реалистичности, так как не все объекты находятся на сцене на протяжении всего ролика.