Люди обычно не путают звуки пения и разговора. Но благодаря каким механизмам в мозге так происходит? Мы довольно точно знаем, как происходит слуховая обработка. Однако остаётся неясным, как именно наша перцептивная система различает арию и произнесённое предложение в слуховом пути. Конечно, музыкальные и речевые формы звуковых волн имеют различные высоты, тембры, фонемы, мелодии. Но ведь мозг всё это не обрабатывает одновременно. Команда учёных из Нью-Йоркского университета, Китайского университета Гонконга и Национального автономного университета Мексики решила выяснить, на какие подсказки опирается мозг, чтобы быстро отличить пение от разговора. Специалисты полагают, что ключевая подсказка — это амплитудная модуляция (то, насколько быстро громкость или «амплитуда» серии звуков изменяется с течением времени).Более ранние научные работы показали, что частота амплитудной модуляции речи весьма постоянна для разных языков и составляет от 4 до 5 Гц. То есть от четырёх до пяти подъёмов и падений звуковой волны в секунду. При этом частота амплитудной модуляции музыки постоянна для разных жанров и составляет около 1−2 Гц. Другими словами, при разговоре громкость нашего голоса меняется гораздо быстрее в определённом промежутке времени, чем когда мы поём. В ходе четырёх экспериментов 300 людей слушали аудиофайлы, а затем должны были сказать, на что они похожи больше: на речь или музыку (пение). Оказалось, что аудиоклипы с более медленными скоростями амплитудной модуляции и более регулярными ритмами с большей вероятностью оценивались как музыка, а с противоположной закономерностью — как речь. Это значит, что наш мозг ассоциирует более медленные, более регулярные изменения амплитуды с музыкой, а более быстрые, нерегулярные — с речью.