Jak tworzyć muzykę AI za pomocą MusicGen od Meta

Meta udostępniła kod dla MusicGen, kolejnego generatora muzyki opartego na sztucznej inteligencji, który potrafi zamieniać opisy tekstowe na melodie muzyczne. Demo można znaleźć online i wystarczy przeglądarka, aby go wypróbować. Wyniki nie są złe, ale przede wszystkim pokazują, jak daleko rozwinęły się modele muzyki opartej na sztucznej inteligencji.

Oto co musisz wiedzieć o MusicGen i jak generować muzykę.

Spis treści:

Czym jest MusicGen?

W czerwcu 2023 roku Meta wydała model generacji muzyki oparty na sztucznej inteligencji o nazwie MusicGen. Nie jest to pierwsza firma, która podejmuje się skomplikowanego problemu syntezy surowej muzyki na podstawie prostych opisów tekstowych; do tej pory można tworzyć muzykę za pomocą Jukebox od OpenAI lub generować fragmenty piosenek za pomocą MusicLM.

Jednak jest to pierwsza firma, która uczyniła kod źródłowy otwartym, umożliwiając uruchomienie oprogramowania lokalnie na komputerze, jeśli posiadasz kartę graficzną GPU z minimum 16 GB pamięci – choć udało nam się uruchomić go zaledwie z 11 GB.

Nie martw się, jeśli nie masz odpowiedniego sprzętu, ponieważ możesz wypróbować aplikację internetową MusicGen za darmo za pomocą przeglądarki. Z online demo można się spodziewać, że generowanie kawałka audio o długości około 12 sekund zajmie nieco ponad minutę.

Jak brzmi MusicGen?

Według Meta, MusicGen potrafi produkować próbki muzyki wysokiej jakości, choć zauważyliśmy, że badacze zaangażowani w projekt określili jakość wysokiej jako 32 kHz. Znajduje się to gdzieś pomiędzy wymaganiami syntezy mowy (16 kHz) a standardem dla muzyki cyfrowej (44,1 kHz).

W rzeczywistości dźwięk nie spełnia minimalnych standardów jakości, z jakimi możesz się spotkać w radio czy platformach streamingowych. Jednak w porównaniu do innych generatorów muzyki opartych na sztucznej inteligencji i biorąc pod uwagę, gdzie technologia się obecnie znajduje, jakość dźwięku jest dość dobra, a poziom szumów w pliku jest niski.

Na ile generowana muzyka zgadza się z podanymi opisami? Szybko możesz się tego dowiedzieć, słuchając poniższych przykładów. Ogólnie rzecz biorąc, muzyka jest zgodna z popularnymi gatunkami muzycznymi i ma bardziej spójną strukturę w porównaniu do swoich poprzedników.

Jak generować muzykę za pomocą MusicGen

MusicGen jest łatwy w obsłudze i nie wymaga rejestracji. Interfejs jest również prosty, co ułatwia wypróbowanie go dla zabawy.

Oto jak generować muzykę za pomocą MusicGen:

Otwórz aplikację internetową MusicGen.

W polu tekstowym zatytułowanym „Opisz swoją muzykę” wpisz swoje pytanie. Możesz spróbować czegoś prostego, takiego jak „irlandzka melodia ludowa” lub bardziej szczegółowego, uwzględniając instrument, tempo, gatunek lub emocję.

Kliknij przycisk Generuj, aby rozpocząć proces. Po minucie lub dwóch w module Wygenerowanej Muzyki po prawej stronie pojawi się odtwarzacz audio.

Najedź kursorem na moduł, aby wyświetlić kontrolki odtwarzacza i odsłuchać pliku lub kliknij ikonę pobierania w prawym górnym rogu, aby zapisać plik na swoim komputerze. Należy pamiętać, że jest dostępny do pobrania tylko w formacie .mp4.

Jeśli chcesz spróbować dostosować wyniki za pomocą istniejącej melodii, możesz przesłać nagranie w module obok pola tekstowego. Alternatywnie, możesz wybrać opcję Mikrofon, aby nagrać melodię za pomocą mikrofonu.

Dostosowanie wyników do melodi będzie korzystać zarówno z opisu tekstowego, jak i melodi, które dostarczysz jako odniesienia. Jest to przydatne narzędzie do kształtowania wyników uzyskiwanych za pomocą MusicGen.

Jakie są ograniczenia dotyczące korzystania z dźwięku MusicGen?

Kod źródłowy MusicGen jest bezpłatnie udostępniany na zasadach licencji MIT z niewielkimi ograniczeniami. Jeśli chodzi o dźwięk generowany za pomocą modelu, nie jest jasne, czy obowiązują jakiekolwiek wytyczne prawne. Zamiast tego możesz chcieć posłuchać ostrzeżenia od Meta dotyczące korzystania z MusicGen:

„Model nie powinien być używany w celu celowego tworzenia lub propagowania utworów muzycznych, które tworzą wrogie lub wyobcowujące środowiska dla ludzi. Obejmuje to generowanie muzyki, którą można przewidzieć, że niektórzy ludzie uznają za niepokojącą, stresującą lub obraźliwą, oraz treści, które propagują historyczne lub aktualne stereotypy.”

Meta wyjaśnia również, że MusicGen jest przeznaczony dla badaczy, którzy chcą badać generację muzycznej sztucznej inteligencji, a nie do „użyć na niższych poziomach”, co prawdopodobnie oznacza działania takie jak przesyłanie i dystrybucja tworzonej przez sztuczną inteligencję muzyki w platformach streamingowych.

Etyczne zalety i wady odzwierciedlają tworzenie sztuki przez sztuczną inteligencję. Uzyskanie zgody na wykorzystanie danych do szkolenia modeli opartych na sztucznej inteligencji, a także problem wynagradzania/przyznawania autorstwa artystom w odpowiednich przypadkach, to wszystko powody, dla których Meta postanowiła postępować ostrożnie.

W skrócie, eksploracja modelu dla zabawy nie spowoduje szkody, ale może stanowić trudniejszy problem, jeśli chodzi o wykorzystanie audio w celach komercyjnych. Wiele osób zastanawia się, jak będzie wyglądać przyszłość muzyki pop z udziałem sztucznej inteligencji.

Dodając kolejny model generujący muzykę do istniejących, Meta udostępniła MusicGen, otwarty model AI zdolny do generowania surowej muzyki na podstawie prostego opisu tekstowego. Jeśli jesteś ciekaw(a) przetestować tę technologię, możesz przetestować demo za pomocą przeglądarki internetowej.