Najważniejsze Informacje o Modelu Gemini AI
- Sztuczna inteligencja Google Gemini występuje w trzech wariantach: Ultra, Pro oraz Nano, z których każdy jest dedykowany różnym zadaniom i poziomom skomplikowania.
- Wersja Gemini Ultra prezentuje imponujące osiągnięcia w standardowych testach benchmarkowych AI, niemniej jednak od grudnia 2023 nie została udostępniona publicznie. Google zapowiada jej debiut w styczniu 2024 roku.
- Gemini Pro jest już dostępny i, choć prezentuje przyzwoite możliwości, nie stanowi bezpośredniego zagrożenia dla pozycji GPT-4.
Google konsekwentnie deklaruje, że jego model Gemini AI przewyższy GPT-4 od OpenAI, który napędza ChatGPT Plus. Teraz, gdy Gemini zostało wdrożone, możemy zweryfikować te obietnice i porównać możliwości Gemini z GPT-4.
Gdy Google wprowadziło Barda w marcu 2023, wzbudziło to duże oczekiwania. Wierzono, że monopol OpenAI na ChatGPT zostanie przerwany, a rynek zyska godną konkurencję.
Jednak Bard nie stał się liderem w dziedzinie sztucznej inteligencji, a GPT-4 nadal dominuje wśród generatywnych chatbotów AI. Pojawił się Google Gemini, ale czy ten długo wyczekiwany model AI jest lepszy od ChatGPT?
Czym jest model Gemini AI od Google?
Gemini to najbardziej zaawansowany model generatywnej sztucznej inteligencji od Google, zdolny do przetwarzania i rozumienia danych w różnorodnych formatach, w tym tekstu, dźwięku, obrazu i wideo. Jest to próba stworzenia przez Google jednolitego modelu AI, który łączy możliwości najbardziej efektywnych technologii. Gemini jest dostępny w trzech wariantach:
- Gemini Ultra: Najbardziej rozbudowana i zaawansowana wersja przeznaczona do obsługi wyjątkowo skomplikowanych zadań.
- Gemini Pro: Model o zoptymalizowanej skali i wydajności w szerokim spektrum zadań, jednak mniej zaawansowany od Ultra.
- Gemini Nano: Najbardziej wydajny model, który umożliwia implementację zadań bezpośrednio na urządzeniu. Programiści mogą go wykorzystać do tworzenia aplikacji mobilnych lub systemów wbudowanych, wprowadzając zaawansowaną sztuczną inteligencję do świata mobilnego.
Na swoim oficjalnym blogu Słowo kluczowe Google podkreśla, że Gemini Ultra osiąga lepsze wyniki w kilku testach porównawczych niż konkurencyjne rozwiązania. Twierdzą, że w niektórych kluczowych testach pokonuje nawet wiodący GPT-4.
Dzięki wyjątkowemu wynikowi 90,0% w teście MMLU, Google deklaruje, że Gemini Ultra jest pierwszym modelem, który przekroczył poziom ludzki w tym wieloaspektowym teście obejmującym 57 różnych dziedzin.
Gemini Ultra potrafi też rozumieć, objaśniać i tworzyć wysokiej jakości kod w popularnych językach programowania takich jak Go, JavaScript, Python, Java i C++. Te wszystkie osiągnięcia wyglądają obiecująco na papierze. Jednakże benchmarki nie zawsze oddają pełen obraz sytuacji. Jak Gemini radzi sobie w realnych zastosowaniach?
Jak korzystać z Google Gemini AI?
Z trzech dostępnych wariantów Gemini, Gemini Pro jest już gotowy do użycia. Znajduje się on w chatbocie Google Bard. Aby użyć Gemini Pro poprzez Barda, przejdź na stronę bard.google.com i zaloguj się przy użyciu swojego konta Google.
Według Google, Gemini Ultra ma być dostępne od stycznia 2024, więc na razie musimy polegać na porównaniach Gemini Pro z ChatGPT.
Porównanie Gemini z GPT-3.5 i GPT-4
Wprowadzając nowy model sztucznej inteligencji, zazwyczaj porównuje się go z modelami GPT od OpenAI, które są uznawane za punkt odniesienia w branży. Testowaliśmy zdolności Gemini, wykorzystując Barda i ChatGPT, w zakresie rozwiązywania zadań matematycznych, kreatywnego pisania, generowania kodu oraz przetwarzania obrazów.
Zaczynając od prostego pytania matematycznego, poprosiliśmy oba chatboty o obliczenie: -1 x -1 x -1.
Bard podjął wyzwanie pierwszy. Pomimo dwukrotnego powtórzenia pytania, za każdym razem otrzymywaliśmy błędne odpowiedzi. W końcu udało mu się podać prawidłowy wynik za trzecim podejściem, ale to nie jest miarodajne.
Próbowaliśmy ChatGPT opartego na GPT-3.5. Uzyskał poprawną odpowiedź za pierwszym razem.
Aby sprawdzić zdolność Gemini do interpretacji obrazów, daliśmy mu kilka popularnych memów. Odmówił, twierdząc, że nie jest w stanie interpretować obrazów z ludźmi. Natomiast ChatGPT, używając GPT-4V, podjął się tego zadania i wykonał je bezbłędnie.
Podjęliśmy kolejną próbę interpretacji obrazu, tym razem testując umiejętności rozwiązywania problemów i kodowania. Daliśmy Bardowi, działającemu na Gemini Pro, zrzut ekranu i poprosiliśmy o jego interpretację oraz wygenerowanie kodu HTML i CSS, który odtworzyłby ten zrzut ekranu.
Oto oryginalny zrzut ekranu.
Poniżej przedstawiamy próbę interpretacji i odtworzenia zrzutu ekranu wykonaną przez Gemini Pro przy użyciu HTML i CSS.
A to jest wynik próby odtworzenia zrzutu ekranu wykonanej przez GPT-4. Nie jest to zaskakujące, biorąc pod uwagę, że GPT-4 już wcześniej wykazywał mocne strony w kodowaniu. W przeszłości demonstrowaliśmy, jak GPT-4 może zostać użyty do zbudowania strony internetowej od podstaw.
Poprosiliśmy Gemini Pro o napisanie wiersza o Tesli (marce samochodów elektrycznych). Wykazał on niewielką poprawę w porównaniu z poprzednimi testami. Oto rezultat:
W tym momencie uznaliśmy, że bardziej adekwatne będzie porównanie wyników z GPT-3.5 niż z potężnym GPT-4. Poprosiliśmy więc ChatGPT z GPT-3.5 o napisanie podobnego wiersza.
Może to być kwestia gustu, ale podejście Gemini Pro wydaje się lepsze. Pozostawiamy jednak to do Państwa oceny.
Czy Gemini jest lepszy od ChatGPT?
Przed wprowadzeniem Barda sądziliśmy, że będzie to konkurencja dla ChatGPT, na którą wszyscy czekaliśmy. Tak się jednak nie stało. Teraz pojawił się Gemini, ale na razie Gemini Pro nie wydaje się modelem, który byłby w stanie pokonać ChatGPT.
Google twierdzi, że Gemini Ultra ma być znacznie lepsze. Mamy nadzieję, że tak właśnie będzie i że spełni, a nawet przewyższy deklaracje dotyczące Gemini Ultra. Dopóki jednak nie zobaczymy i nie przetestujemy najpotężniejszej wersji sztucznej inteligencji od Google, nie dowiemy się, czy będzie ona w stanie wyprzedzić konkurencję. W obecnej sytuacji GPT-4 pozostaje niekwestionowanym liderem wśród modeli AI.
newsblog.pl
Maciej – redaktor, pasjonat technologii i samozwańczy pogromca błędów w systemie Windows. Zna Linuxa lepiej niż własną lodówkę, a kawa to jego główne źródło zasilania. Pisze, testuje, naprawia – i czasem nawet wyłącza i włącza ponownie. W wolnych chwilach udaje, że odpoczywa, ale i tak kończy z laptopem na kolanach.