Sztuczna inteligencja rewolucjonizuje świat artystyczny, otwierając zupełnie nowe perspektywy. Jednym z najbardziej intrygujących zastosowań AI w tej dziedzinie są generatory grafiki oparte na opisach tekstowych. Te zaawansowane narzędzia potrafią analizować i interpretować obrazy, a następnie tworzyć na ich podstawie całkowicie oryginalne dzieła sztuki.
W niniejszym opracowaniu przyjrzymy się trzem takim generatorom grafiki AI: MidJourney, Stable Diffusion i Microsoft Bing Image Creator, próbując ustalić, który z nich generuje najlepsze rezultaty na podstawie zadanych opisów.
W głąb zagadnienia
MidJourney, projekt stworzony przez Davida Holza, to generator grafiki AI, który wykorzystuje algorytmy uczenia maszynowego do identyfikacji wzorców i cech w istniejących pracach artystycznych. Pozwala to na kreowanie nowych dzieł bazujących na tej analizie.
MidJourney udostępniono w otwartej wersji beta 12 lipca 2022 roku. Wcześniej Holz współtworzył Leap Motion, innowacyjny startup, który zrewolucjonizował interfejsy użytkownika poprzez wykorzystanie przechwytywania wideo i gestów dłoni. W roku 2019 Holz sprzedał Leap Motion firmie Ultrahaptics.
Wraz ze wzrostem popularności MidJourney, Holz chętnie dzieli się swoimi przemyśleniami na temat technologii i jej wpływu na sztukę oraz społeczeństwo. Uważa artystów za klientów MidJourney, a nie konkurentów, podkreślając, że platforma może stymulować kreatywność i eksperymentowanie na etapie generowania pomysłów.
Jednocześnie pojawiają się obawy związane z potencjalnymi naruszeniami praw autorskich, wynikającymi z zestawu szkoleniowego MidJourney, który może obejmować dzieła innych artystów chronione prawem.
Holz podkreśla, że celem MidJourney jest wzmocnienie ludzkich możliwości, a nie ich zastąpienie. Porównuje to do samochodów, tłumacząc, że fakt, iż samochody są szybsze od ludzi, nie oznacza, że powinniśmy pozbyć się nóg.
Wykorzystując możliwości generowania obrazów AI w MidJourney, artyści zyskują szansę na eksplorację nowych horyzontów i wygenerowanie wielu koncepcji przed przystąpieniem do tworzenia własnych dzieł.
Stabilna dyfuzja
Stable Diffusion to model uczenia maszynowego typu open source, który potrafi generować obrazy na podstawie tekstu, modyfikować istniejące obrazy, a także uzupełniać szczegóły na obrazach o niskiej rozdzielczości lub małej szczegółowości. Model został wyszkolony na miliardach obrazów, a jego rezultaty są porównywalne z tymi, które oferują DALL-E 2 i MidJourney.
Emad Mostaque, założyciel i dyrektor generalny Stability AI, jest mózgiem stojącym za Stable Diffusion. Model dyfuzji utajonej został opracowany przez grupę CompVis z LMU w Monachium pod kierunkiem Patricka Essera i Robina Rombacha, którzy wcześniej stworzyli architekturę modelu dyfuzji utajonej, wykorzystywaną przez Stable Diffusion.
Współpraca pomiędzy Stability AI, CompVis LMU, Runway, EleutherAI i LAION umożliwiła publiczne udostępnienie Stable Diffusion.
Stable Diffusion może być wdrażany na różnych platformach, w tym na urządzeniach z systemami Windows i Apple. Wykorzystanie implementacji na urządzeniu w aplikacjach może chronić prywatność użytkowników, co stanowi przewagę nad podejściem opartym na serwerze.
Kreator obrazów Microsoft Bing
Microsoft wprowadził na rynek nowe narzędzie, Bing Image Creator, które umożliwia użytkownikom kreowanie własnych obrazów bezpośrednio w przeglądarce Microsoft Edge. Firma udostępniła zestaw narzędzi zaprojektowanych w celu pobudzania kreatywności i możliwości wyrażania siebie. Narzędzie umożliwia użytkownikom tworzenie spersonalizowanych obrazów, które mogą wykorzystywać w celu dzielenia się z innymi aktualnościami z życia lub do dowolnych innych celów.
Użytkownicy mogą łatwo uzyskać dostęp do Kreatora obrazów z paska bocznego przeglądarki Microsoft Edge. Firma Microsoft podejmuje aktywne działania w celu zapewnienia, że narzędzie jest wykorzystywane w sposób odpowiedzialny i nie ułatwia rozpowszechniania treści o charakterze obraźliwym.
Firma ustaliła zasady dotyczące treści, które zakazują korzystania z Kreatora obrazów w określonych sytuacjach, a użytkownicy mogą zgłaszać wszelkie naruszenia tych zasad. Ponadto Microsoft wdrożył technologie, które mają na celu wyeliminowanie potencjalnych błędów w technologii tworzenia obrazów generatywnych.
W tym artykule ocenimy efekty działania każdego generatora obrazów AI na podstawie tych samych opisów tekstowych.
Podpowiedź 1: Współczesny Święty Mikołaj na saniach ciągniętych przez renifery w ciepły, słoneczny dzień na autostradzie
Podpowiedź 2: Zbliżenie zwierzęcia z dużymi oczami, podkreślające jego niewinność i urok
Podpowiedź 3: Astronauta podczas lądowania na nowej planecie zostaje przywitany przez wrogie, obce istoty, które wyciągają broń
Podpowiedź 4: Nowoczesna abstrakcyjna okładka książki z Nowego Jorku w odważnych, jasnych barwach
Podpowiedź 5: Mężczyzna stojący przed dwoma talerzami – jednym z pizzą, drugim z cheeseburgerem i rozważający wybór
Podpowiedź 6: Ranny wojownik na koniu na zaśnieżonej górze z mieczem w ręce
Podpowiedź 7: Abstrakcyjny obraz w różnych odcieniach, który ukazuje ruch i przepływ wody
Podpowiedź 8: Łosoś w rzece z bujną zielenią drzew w tle
Podpowiedź 9: Szklanka wody na stole z cytryną wyciskaną do niej ręką
Podpowiedź 10: Widok horyzontu na pustyni z perspektywy osób jadących na słoniu
Podpowiedź 11: Las, w którym papierowe pieniądze rosną na drzewach, a ptaki są zrobione z monet
Podpowiedź 12: Miska ramenu, cel cieniowanie, oświetlenie wieczorne, fotorealistyczne
Podpowiedź 13: Elon Musk jest biedny i bezrobotny
Podsumowanie
Po dokonaniu oceny rezultatów uzyskanych za pomocą MidJourney, Stable Diffusion i Bing Image Creator, jasne jest, że trudno jest wyłonić jednego, niekwestionowanego zwycięzcę.
Każdy generator interpretuje zadane opisy na swój unikatowy sposób, choć między wynikami Bing Image Creator i MidJourney dostrzegalne są pewne podobieństwa. Stable Diffusion jest skuteczny, gdy opisy są precyzyjne, jednak czasami zbyt dosłownie traktuje użyte słowa. Pomimo ogólnej skuteczności, MidJourney i Bing Image Creator niekiedy dają wyniki, które nie w pełni odpowiadają podanym opisom.
Warto zauważyć, że Bing Image Creator wykazuje ostrożność w generowaniu jakichkolwiek treści o charakterze obraźliwym lub wywołujących negatywne emocje, wyświetlając komunikat ostrzegawczy w przypadku próby stworzenia obrazu przedstawiającego biednego i bezrobotnego Elona Muska. Tego rodzaju działania prewencyjne podjęte przez Microsoft zasługują na uznanie.
Tymczasem MidJourney, wykorzystując swoje zaawansowane sieci neuronowe, wygenerował obraz przedstawiający Elona Muska jako osobę pozbawioną środków do życia i opuszczoną. Zatem można stwierdzić, że każdy z tych generatorów znajdzie swoje grono odbiorców.
newsblog.pl
Maciej – redaktor, pasjonat technologii i samozwańczy pogromca błędów w systemie Windows. Zna Linuxa lepiej niż własną lodówkę, a kawa to jego główne źródło zasilania. Pisze, testuje, naprawia – i czasem nawet wyłącza i włącza ponownie. W wolnych chwilach udaje, że odpoczywa, ale i tak kończy z laptopem na kolanach.