Jak działają aplikacje do identyfikacji muzyki, takie jak Shazam?

Photo of author

By maciekx

Aplikacje do rozpoznawania muzyki wydają się na pierwszy rzut oka magiczne, lecz za ich działaniem kryje się skomplikowany algorytm, który potrafi błyskawicznie zidentyfikować utwory. Oto, jak to działa.

Czar identyfikacji muzycznej

Pewnie każdemu z nas zdarzyło się to przynajmniej raz. Jesteś na kolacji w przyjemnej restauracji, relaksujesz się w kawiarni lub robisz zakupy, gdy nagle w tle rozbrzmiewa fantastyczna piosenka. Może to być znany utwór, ale także coś, czego wcześniej nie słyszałeś. Wówczas sięgasz po telefon, uruchamiasz Shazam i przystawiasz go do głośnika. W mgnieniu oka aplikacja wyświetli tytuł utworu, nazwisko artysty oraz dostępne platformy streamingowe.

Aplikacje te są nie tylko szybkie, ale również niesamowicie precyzyjne, potrafią identyfikować nawet najbardziej nieznane utwory. W skrócie, funkcjonują poprzez izolację piosenki z nagrania i przeszukiwanie jej w rozbudowanej bazie danych. Technologia, która za tym stoi, jest naprawdę złożona i imponująca.

Możesz być zaskoczony, że aplikacja Shazam, którą znamy dzisiaj, zadebiutowała w 2002 roku, a jej algorytm był już wówczas tak samo skuteczny i szybki, jak obecnie. To wszystko dzięki unikalnemu algorytmowi, który zmienił oblicze przemysłu muzycznego.

Nie tylko teksty

Na pierwszy rzut oka aplikacje do identyfikacji muzyki, takie jak Shazam, mogą wydawać się proste. Można pomyśleć, że jedynie analizują teksty piosenek, tak jak robią to asystenci głosowi, przeszukując je w bazie danych tekstów. Jednak większość z tych aplikacji potrafi zidentyfikować również tytuł utworu instrumentalnego czy wykonawcę covery. Dzieje się tak, ponieważ zamiast analizować tekst, szukają „odcisków palców” unikalnych dla każdej piosenki w swoich obszernej bazie danych.

Technologia odcisków palców

Prawdopodobnie korzystasz z urządzeń, które można odblokować za pomocą odcisku palca — charakterystycznego wzoru linii na palcu, który jest unikalny dla każdego człowieka. Podobnie, gdy nagrywasz krótki fragment muzyki, ten klip zostaje przekształcony w dane, które Shazam lub inna aplikacja może przeszukać w swojej bazie danych.

Mogłoby się wydawać, że ta metoda ma swoje ograniczenia. Gdy słuchasz muzyki w miejscach publicznych, często towarzyszą temu szumy w tle, które mogą utrudniać identyfikację utworów lub powodować błędne dopasowania. Co więcej, nawet krótki klip audio zawiera ogromną ilość danych, co może spowolnić proces wyszukiwania wzorców w bazie danych milionów utworów.

W rozmowie z Amerykańskim Naukowcem w 2003 roku, Avery Li-Chun Wang, główny badacz danych i współzałożyciel Shazam, wyjaśnił, jak ich algorytm radzi sobie z tymi wyzwaniami. Informacje zawarte w klipie audio można przedstawić w formie trójwymiarowego wykresu, znanego jako spektrogram, który pokazuje zmiany częstotliwości w określonym czasie. Uwzględnia także amplitudę, czyli głośność dźwięku, co jest wyrażane w intensywności koloru na spektrogramie.

Podobnie jak ludzie nie potrafią odbierać dźwięku bez określonej częstotliwości, Shazam nie analizuje całego utworu. Zamiast tego koncentruje się jedynie na „szczytach” — punktach o najwyższej energii w klipie audio. Odciski palców, które rejestruje, uwzględniają jedynie te punkty o najwyższej częstotliwości w danym przedziale czasowym oraz amplitudy w tych częstotliwościach.

W badaniach przeprowadzonych na Uniwersytecie Columbia Wang wskazał, że ta metoda pozwala im na eliminację większości zbędnych elementów klipu audio, takich jak szumy tła, oraz na usunięcie zniekształceń. Dodatkowo, zmniejsza to rozmiar odcisków, co sprawia, że identyfikacja utworu w ich rozległej bazie danych zajmuje zaledwie milisekundy.

Wpływ Shazama na przemysł muzyczny

Aplikacje do identyfikacji muzyki, oprócz pomagania zwykłym słuchaczom, którzy chcą usłyszeć swoją ulubioną piosenkę, mają również istotny wpływ na świat muzyki.

Stacje radiowe i platformy streamingowe często korzystają z danych dotyczących najczęściej rozpoznawanych utworów, aby zrozumieć, co jest popularne wśród słuchaczy. To cenne informacje, które wskazują na chwytliwość utworu oraz jego potencjalną popularność, niezależnie od wykonawcy. Po zidentyfikowaniu utworu za pomocą aplikacji od razu można zobaczyć, ile osób również próbowało go rozpoznać.

Od momentu powstania Shazam pojawiło się również kilku konkurentów. Soundhound twierdzi, że jest w stanie rozpoznać piosenkę, gdy po prostu ją śpiewasz lub nucisz, choć z różnym skutkiem. Istnieją także inne systemy identyfikacji utworów zintegrowane z asystentami głosowymi, takimi jak Asystent Google, które działają podobnie do Shazam.


newsblog.pl