MidJourney vs. stabilna dyfuzja vs. Bing Image Creator

Sztuczna inteligencja zmienia świat sztuki w niezwykły sposób. Jednym z fascynujących zastosowań sztucznej inteligencji w segmencie sztuki jest wykorzystanie generatorów grafiki opisowej. Generatory te mają możliwość badania i interpretacji obrazów oraz generowania zupełnie nowych dzieł sztuki na podstawie ich analizy.

W tym artykule omawiamy trzy takie generatory grafiki AI: MidJourney, Stable Diffusion i Microsoft Bing Image Creator, które spośród tych trzech wypadają najlepiej w generowaniu najlepszych wyników na podstawie monitów.

W połowie podróży

MidJourney, założony przez Davida Holza, to generator grafiki AI, który wykorzystuje uczenie maszynowe do identyfikowania wzorców i cech w istniejących dziełach sztuki, które następnie można wykorzystać do tworzenia nowych dzieł.

MidJourney weszło w otwartą wersję beta 12 lipca 2022 r. Przed uruchomieniem MidJourney Holz był współzałożycielem Leap Motion, startupu, który przekształcił interfejsy użytkownika, wykorzystując przechwytywanie wideo i gesty dłoni. W 2019 roku sprzedał Leap Motion firmie Ultrahaptics.

Wraz ze wzrostem popularności MidJourney, Holz dzieli się swoimi spostrzeżeniami na temat technologii i jej wpływu na sztukę i społeczeństwo. Holz uważa artystów za klientów MidJourney, a nie konkurentów, i wierzy, że platforma może ułatwić większą kreatywność i eksperymentowanie w fazie pomysłów.

Istnieją jednak obawy dotyczące potencjalnego naruszenia praw autorskich z zestawu szkoleniowego MidJourney, który może zawierać chronione prawem autorskim prace innych artystów.

Holz podkreśla, że ​​MidJourney ma na celu zwiększenie ludzkich możliwości, a nie ich zastąpienie. Porównuje to do samochodów, wyjaśniając, że tylko dlatego, że samochody są szybsze od ludzi, nie oznacza to, że powinniśmy odcinać sobie nogi.

Korzystając z generowania obrazów AI w MidJourney, artyści mogą odkrywać nowe możliwości i generować liczne pomysły przed stworzeniem własnych dzieł.

Stabilna dyfuzja

Stable Diffusion to model uczenia maszynowego typu open source, który może generować obrazy z tekstu, modyfikować obrazy na podstawie tekstu lub wypełniać szczegóły na obrazach o niskiej rozdzielczości lub o niskiej szczegółowości. Został przeszkolony na miliardach obrazów i może dawać wyniki porównywalne z tymi, które można uzyskać z DALL-E 2 i MidJourney.

Emad Mostaque, założyciel i dyrektor generalny Stability AI, jest firmą odpowiedzialną za Stable Diffusion. Stable Diffusion to model utajonej dyfuzji opracowany przez grupę CompVis z LMU w Monachium i został zaprojektowany przez Patricka Essera i Robina Rombacha, którzy wcześniej stworzyli architekturę modelu utajonej dyfuzji używanej przez Stable Diffusion.

Współpraca pomiędzy Stability AI, CompVis LMU, Runway, EleutherAI i LAION udostępniła publicznie Stable Diffusion.

Stabilne rozpowszechnianie można wdrożyć na różnych platformach, w tym na urządzeniach z systemem Windows i Apple. Wykorzystanie wdrożenia na urządzeniu w aplikacji może chronić prywatność użytkowników, co jest lepsze niż podejście oparte na serwerze.

Kreator obrazów Microsoft Bing

Firma Microsoft zaprezentowała nowe narzędzie o nazwie Bing Image Creator, które umożliwia użytkownikom tworzenie własnych obrazów bezpośrednio w przeglądarce Microsoft Edge. Firma wydała zestaw narzędzi dla twórców zaprojektowanych z myślą o pobudzaniu kreatywności i wyrażaniu siebie. Narzędzie umożliwia użytkownikom tworzenie spersonalizowanych obrazów w celu udostępniania aktualizacji życia lub w dowolnym innym celu, którego mogą potrzebować.

Użytkownicy mogą łatwo uzyskać dostęp do Kreatora obrazów z paska bocznego przeglądarki Microsoft Edge. Firma Microsoft podjęła proaktywne działania w celu zapewnienia, że ​​narzędzie jest używane w sposób odpowiedzialny i nie ułatwia rozpowszechniania obraźliwych treści.

Firma ustaliła politykę treści, która zabrania korzystania z Kreatora obrazów w określonych przypadkach, a użytkownicy mogą zgłaszać wszelkie naruszenia tej polityki. Ponadto firma Microsoft wdrożyła technologię mającą na celu wyeliminowanie potencjalnych odchyleń, które mogą wystąpić w technologii tworzenia obrazów generatywnych.

W tym artykule wyruszymy w podróż, aby ocenić wyniki każdego opisowego generatora obrazów AI po wyświetleniu monitu z identycznymi monitami tekstowymi.

Podpowiedź 1: Współczesny Święty Mikołaj na saniach ciągniętych przez renifery w ciepły, jasny, słoneczny dzień na autostradzie

Podpowiedź 2: Zbliżenie zwierzęcia z dużymi oczami, ukazujące jego niewinność i urok

Podpowiedź 3: Człowiek-astronauta podczas lądowania na nowej planecie jest witany przez wrogie obce stworzenia wyciągające broń

Podpowiedź 4: Nowoczesna sztuka abstrakcyjna okładki książki z Nowego Jorku w odważnych, jasnych kolorach

Podpowiedź 5: Mężczyzna decydujący się między dwoma talerzami – jednym z pizzą, a drugim z cheeseburgerem

Podpowiedź 6: Ranny wojownik jadący na koniu po zaśnieżonej górze z mieczem w dłoni

Podpowiedź 7: Abstrakcyjny obraz w różnych odcieniach, który pokazuje ruch i przepływ wody

Podpowiedź 8: Łosoś w rzece z bujną zielenią drzew w tle

Podpowiedź 9: Szklanka wody na stole z cytryną wyciśniętą do niej ręką

Podpowiedź 10: Widok horyzontu na pustyni z punktu widzenia ludzi jadących po niej na słoniu

Podpowiedź 11: Las, w którym papierowe pieniądze rosną na drzewach, a ptaki są zrobione z monet

Podpowiedź 12: Miska ramenu, cel cieniowanie, wieczorne oświetlenie, fotorealistyczne

Podpowiedź 13: Elon Musk jest biedny i bezrobotny

Werdykt

Po ocenie wyników MidJourney, Stable Diffusion i Bing Image Creator oczywiste jest, że nie ma ostatecznego zwycięzcy.

Każdy generator interpretuje monity w charakterystyczny sposób, z podobieństwami w wynikach Bing Image Creator i MidJourney. Stabilna dyfuzja jest skuteczna, gdy podpowiedzi mają jasne opisy, ale często biorą słowa zbyt dosłownie. Chociaż MidJourney i Bing Image Creator są generalnie skuteczne, czasami dają wyniki, które nie odpowiadają monitom.

Warto zauważyć, że Bing Image Creator zachowuje ostrożność przy generowaniu jakichkolwiek obraźliwych lub podżegających wyników, wyświetlając komunikat ostrzegawczy, gdy pojawi się monit o stworzenie obrazu biednego i bezrobotnego Elona Muska. Podjęcie przez Microsoft takich środków ochronnych jest godne pochwały.

Tymczasem ekspertyza MidJourney w zakresie sieci neuronowych wygenerowała obraz pozbawionego środków do życia i opuszczonego Elona Muska. W związku z tym można stwierdzić, że każdy generator będzie obsługiwał odpowiednią bazę użytkowników.