Jak działają aplikacje do identyfikacji muzyki, takie jak Shazam?

Aplikacje do identyfikacji muzyki na początku wydają się magiczne, ale pod maską kryje się wyrafinowany algorytm, który może błyskawicznie znaleźć utwory. Oto jak działają.

Magia identyfikacji muzycznej

Prawdopodobnie zdarzyło się to nam wszystkim. Jesz kolację w przyjemnej restauracji, przesiadujesz w kawiarni lub spacerujesz po sklepie, kiedy nagle słyszysz z głośników świetną piosenkę. Może to piosenka, której słuchałeś wcześniej lub utwór, którego nigdy nie słyszałeś. Wyciągasz więc telefon, otwierasz Shazam i przykładasz urządzenie do sufitu. W mgnieniu oka aplikacja powie Ci, czym jest piosenka, kim jest artysta i gdzie ją przesyłać strumieniowo.

Są szybkie, niezwykle dokładne i potrafią zidentyfikować nawet najbardziej niejasne piosenki. Krótko mówiąc, pracują, izolując piosenkę od nagrania i przeszukując ją w obszernej bazie danych utworów. Ale technologia stojąca za tym, jak to robią, jest dość złożona i imponująca.

Możesz być zszokowany, wiedząc, że aplikacja Shazam, którą znamy dzisiaj, została wydana w 2002 roku, a system był wtedy tak samo dokładny i szybki, jak jest teraz. To wszystko dzięki unikalnemu algorytmowi, który zrewolucjonizowałby świat muzyki.

To nie tylko teksty

Na pierwszy rzut oka aplikacje do identyfikacji muzyki, takie jak Shazam, mogą wydawać się proste. Możesz pomyśleć, że po prostu słuchają tekstów piosenek, tak samo jak każdy asystent głosowy, i przeszukują je w bazie danych tekstów piosenek, aby powiedzieć, jaka jest piosenka.

Jednak większość aplikacji do identyfikacji muzyki jest w stanie powiedzieć, jaki jest tytuł utworu instrumentalnego, a nawet kto jest piosenkarzem covery. To dlatego, że zamiast analizować tekst utworu, szukają „odcisków palców”, które są unikalne dla każdej piosenki w ich obszernych bazach danych.

Technologia odcisków palców

Shazam na iPhonie X

Prawdopodobnie masz urządzenia, które można odblokować za pomocą odcisku palca, czyli układu małych linii na palcu, które są unikalne dla Ciebie. Podobnie, gdy trzymasz mikrofon, aby nagrać krótki fragment piosenki, klip ten zostaje przekształcony w wzorce danych, które Shazam lub inna aplikacja może wyszukać w swojej bazie danych.

Na pierwszy rzut oka ta metoda wydaje się mieć kilka problemów. Przez większość czasu, gdy słuchasz publicznie muzyki, w tle słychać szumy i zniekształcenia powodowane przez głośniki, które mogą uniemożliwić identyfikację utworów lub skutkować niedokładnymi dopasowaniami. Ponadto w nawet krótkim klipie dźwiękowym jest wiele danych, co może spowolnić wyszukiwanie tych wzorców w bazie danych milionów piosenek.

W rozmowie z Amerykański naukowiec w 2003 roku Avery Li-Chun Wang, główny badacz danych i współzałożyciel Shazam, wyjaśnia, w jaki sposób ich algorytm rozwiązuje te problemy. Informacje zawarte w klipie audio można wizualizować za pomocą wykresu 3D zwanego spektrogramem, który przedstawia zmianę częstotliwości w pewnym okresie czasu. Uwzględnia również amplitudę, czyli głośność dźwięku. Jest to przedstawione na spektrogramie za pomocą intensywności koloru.

Spektrogram muzyczny Shazam

W ten sam sposób, w jaki ludzie nie mogą odbierać dźwięku, jeśli nie mają określonej częstotliwości, zamiast brać pod uwagę całość utworu podczas wyszukiwania, Shazam przyjmuje tylko „szczyty”, które są najwyższą zawartością energii w klipie audio . Odciski palców, które rejestruje, obejmują tylko punkty o najwyższej częstotliwości w danym przedziale czasu, a następnie punkty szczytowej amplitudy w tych częstotliwościach.

W artykule badawczym dla Uniwersytet Columbia, Wang stwierdził, że metoda ta pozwala im usunąć większość niepotrzebnych części klipu audio, takich jak szum tła, i usunąć zniekształcenia. Sprawia również, że rozmiar wydruków jest na tyle mały, że identyfikacja utworu w ich ogromnej bazie danych zajmuje zaledwie milisekundy.

Wpływ Shazama

Oprócz tego, że są pomocne dla przeciętnych słuchaczy, którzy słyszą ulubioną piosenkę, aplikacje do identyfikacji muzyki pomagają również kształtować świat muzyki.

Stacje radiowe i serwisy streamingowe często wykorzystują dane dotyczące tego, co ludzie najczęściej shazamują, aby dowiedzieć się, jakie utwory są słuchane przez publiczność. Jest to pomocne, ponieważ wskazuje na chwytliwość utworu i potencjalną popularność, niezależnie od wykonawcy. Po zidentyfikowaniu utworu za pomocą aplikacji od razu zobaczysz, ile osób również próbowało go zidentyfikować.

Identyfikacja muzyki Soundhound

Od czasu powstania firmy Shazam pojawiło się również kilku konkurentów. Soundhound twierdzi, że jest w stanie zidentyfikować piosenkę po prostu przez to, że ją śpiewasz lub nucisz, z mieszanymi wynikami. Istnieje również identyfikator utworu zintegrowany z aplikacjami głosowymi, takimi jak Asystent Google, które działają bardzo podobnie do systemu Shazam.