ChatGPT-4 vs ChatGPT-3.5 Default vs. ChatGPT-3.5 Starsza wersja: przetestowane różnice

Spis treści:

Oczekuje się, że najnowsza wersja ChatGPT, oznaczona numerem 4.0, zrewolucjonizuje rynek chatbotów. Czy jednak rzeczywiście deklasuje swojego poprzednika? Przeanalizujmy to.

ChatGPT był jedynie zwiastunem nadchodzącej ery automatyzacji. Giganci technologiczni, tacy jak Google czy Microsoft, a także inne przedsiębiorstwa inwestujące w sztuczną inteligencję, poszły jego śladem.

Początkowo pojawiło się wiele chatbotów, konkurujących z ChatGPT, w tym wiele stworzonych przez mniejsze firmy, a nie tylko przez technologicznych potentatów.

Mimo konkurencji, ChatGPT pozostaje liderem w świecie botów AI, co jest w dużej mierze efektem skutecznego marketingu. Potrafi on wykonywać szereg zadań – od obliczeń matematycznych, przez tworzenie poezji, aż po pisanie artykułów na bloga. Użytkownicy wykorzystują go nawet do generowania pozwów sądowych.

Firma DoNotPay eksperymentuje z GPT-4, aby tworzyć „pozwów jednym kliknięciem”, umożliwiając pozywanie telemarketerów na kwotę 1500 USD. Wyobraź sobie: odbierasz telefon, klikasz przycisk, rozmowa jest transkrybowana, a następnie generowany jest 1000-słowny pozew. GPT-3.5 nie był w stanie tego zrobić, ale GPT-4 radzi sobie z tym zadaniem wyjątkowo dobrze: pic.twitter.com/gplf79kaqG

— Joshua Browder (@jbrowder1) 14 marca 2023 r

Wielu specjalistów z różnych dziedzin obawia się, że ich umiejętności wkrótce staną się przestarzałe.

Niemniej jednak, natrafiłem na post na LinkedIn, który sugerował:

Sztuczna inteligencja sama w sobie cię nie zastąpi, ale osoba, która potrafi ją efektywnie wykorzystać, już tak.

Zatem, z pozytywnym nastawieniem, przeanalizujmy najnowszą aktualizację ChatGPT i sprawdźmy, czym różni się ona od wcześniejszych wariantów.

ChatGPT: Wersja Starsza, Domyślna i Najnowsza Aktualizacja

Użytkownicy płatnej subskrypcji mają dostęp do trzech wersji ChatGPT: Legacy (3.5), Default (3.5) oraz najnowszej aktualizacji (4).

Choć przeanalizujemy ich umiejętności w szczegółach, oto co OpenAI mówi o różnicach między nimi:

Źródło: OpenAI

Użytkownicy darmowej wersji mają dostęp tylko do Legacy 3.5. Subskrypcja premium pozwala korzystać ze wszystkich trzech wersji, dając możliwość wyboru tej, która najbardziej odpowiada ich potrzebom.

Podsumowując, płatne plany oferują większą precyzję wyników przy zachowaniu rozsądnej prędkości. Różnice są jednak najbardziej widoczne w przypadku skomplikowanych zapytań, wymagających kreatywnego podejścia.

Tabela poniżej przedstawia porównanie parametrów między ChatGPT 4 i ChatGPT 3.5:

Parametr | ChatGPT 4 | ChatGPT 3.5

Wynik egzaminu adwokackiego (Bar) | Najwyższe 10% | Najniższe 10%

AI2 Reasoning Challenge (ARC) | 96,3% | 85,2%

Python Coding Score | 67% | 48,1%

Interpretacja wizualna | Tak | Nie

Kontekst | Ponad 25 tys. słów | Mniej

Źródło: OpenAI

Co więcej, ChatGPT 4 potrafi przetwarzać dane wizualne.

Dość jednak teorii. Przejdźmy do praktycznych testów i sprawdźmy, jak poszczególne wersje radzą sobie w rzeczywistych zadaniach.

W dalszej części artykułu znajdują się ilustracje, które mogą być niewyraźne. W takim przypadku, aby wyświetlić je w pełnej jakości, kliknij prawym przyciskiem myszy obraz i wybierz opcję „Otwórz w nowej karcie”.

Matematyka

Jako absolwent kierunku inżynierskiego, nie mogłem się oprzeć, aby nie przetestować chatbotów na podstawowych zadaniach matematycznych. Zaczniemy od prostych równań algebraicznych.

Etap I

Większość z nas zna równania kwadratowe w formie ax²+bx+c=0, gdzie należy wyznaczyć x. Oto proste zapytanie: „Rozwiąż dla x: x² + x – 6 = 0”.

Wszystkie trzy wersje podały te same rozwiązania (x=-3, 2). Jednak Legacy i Update w swoich obliczeniach korzystały ze wzoru w sposób, w jaki robi to każdy uczeń.

Domyślna wersja 3.5 przedstawiła dwie metody rozwiązania, w tym faktoryzację, której używa każdy biegły uczeń w przypadku tak prostych równań.

Etap II

Następnie poprosiłem o rozwiązanie bardziej skomplikowanego równania sześciennego: x³ -12x² + 48x – 64 = 0.

To zadanie pokazało, dlaczego ChatGPT 4 jest „aktualizacją”.

Oto rezultaty:

ChatGPT Legacy i Default nie były w stanie rozwiązać tego równania. Legacy poradził sobie nieco lepiej, prawidłowo wyznaczając dwa pierwiastki, podczas gdy Default nie znalazł żadnego poprawnego rozwiązania.

Aktualizacja okazała się zdecydowanym zwycięzcą drugiego etapu, idealnie rozwiązując równanie i przedstawiając wszystkie trzy pierwiastki wraz z jasnym wyjaśnieniem.

Logiczne Myślenie

Możemy założyć, że większość elementarnych zadań matematycznych ma gotowe rozwiązania. Wystarczy znać odpowiednie twierdzenie czy wzór, aby, podstawiając dane, uzyskać prawidłowy wynik.

ChatGPT, jako sztuczna inteligencja, sprawnie radzi sobie z takimi obliczeniami. Jednak logiczne myślenie to zupełnie inna dziedzina, gdzie AI ma większe trudności.

Etap I

Podałem im klasyczny przykład:

A jest starszy od B.
C jest starszy od A.
B jest starszy od C.
Czy trzecie zdanie jest prawdziwe, jeśli dwa pierwsze są prawdziwe?

Wszystkie wersje ChatGPT prawidłowo stwierdziły, że trzecie zdanie jest fałszywe.

Następnie użyłem imion zamiast liter. Wyniki mogą zaskakiwać:

Domyślna wersja 3.5 ponownie wykazała się słabą wydajnością, popełniając błąd w tym prostym teście. Natomiast Legacy i Update poradziły sobie bez problemu.

Etap II

Celem obu etapów było znalezienie punktu, w którym złożoność zapytania pozwala odróżnić Aktualizację od pozostałych dwóch wersji.

Oto zadana łamigłówka logiczna:

Pewnego ranka, po wschodzie słońca, Rohit stał przodem do słupa. Cień słupa padał dokładnie po jego prawej stronie. W którą stronę był zwrócony?
A. Północ
B. Zachód
C. Południe
D. Wschód

Legacy udzieliło błędnej odpowiedzi, a Default przedstawił niejasne wyjaśnienia, prowadzące do niepoprawnego wniosku.

Jedynie Aktualizacja udzieliła poprawnej odpowiedzi, z przejrzystym i zrozumiałym uzasadnieniem.

Listy

Sporządzanie pozwów może być skomplikowane. Czasem jednak wystarczy odpowiednio sformułowane pierwsze pismo, aby sytuacja nie nabrała charakteru sprawy sądowej.

Zadanie dla chatbotów brzmiało: „Napisz list do Tima Cooka z prośbą o przekazanie mi jabłka w ramach rekompensaty za brak odpowiedzi na mojego tweeta”.

Zabawne, prawda? Sprawdźmy, co z tym fantem zrobi sztuczna inteligencja.

Legacy 3.5 od razu przystąpił do zadania, jak posłuszny robot i wygenerował list, który, w przypadku dotarcia do adresata, mógłby narazić mnie na śmieszność.

Domyślna wersja również nie wypadła najlepiej. W swojej odpowiedzi skwitowała moje roszczenie w sposób, jaki zrzędliwy staruszek skwitowałby kaprys pięciolatka.

Argumentacja była rzeczowa, ale pozbawiona humoru.

Choć zadanie było proste, wymagało kreatywności i nieszablonowego podejścia. I tutaj starszy brat, Aktualizacja, pokazał, na co go stać:

Po pierwsze, list był niemal idealnie sformułowany. Po drugie, zaoszczędził mi przeszukiwania Google w celu znalezienia adresu siedziby Apple (choć takie informacje zawsze należy weryfikować).

Po trzecie, pismo było napisane z zachowaniem oficjalnego tonu, z lekkim humorem. Dodatkowo, intencja była jasna już w temacie.

List oddawał uczucia niezadowolonego fana Apple.

Dzięki temu ChatGPT 4 (Aktualizacja) wyprzedza swoje starsze wersje o wiele klas. Jest zaskakująco inteligentny i wykazuje pewne oznaki zdrowego rozsądku, co czyni go czymś więcej, niż tylko nudnym chatbotem.

Poezja

Sądziłem, że poezja może być słabym punktem ChatGPT.

W końcu człowiek potrzebuje emocji, kreatywności i sporo wysiłku, aby stworzyć dzieło, które rezonuje z czytelnikiem.

Poezja jest sztuką w czystej postaci i po cichu liczyłem na porażkę sztucznej inteligencji. Ale to było zanim mój współpracownik z naszego kanału Slack newsblog.pl zaskoczył nas przykładem poezji wygenerowanej przez ChatGPT (w wersji poprzedzającej aktualizację 4.0).

Etap I

Oto wskazówka dla kandydatów: „Napisz w formie poetyckiej, dlaczego wprowadzenie burgerów do menu pizzerii Domino’s może lub nie może być korzystne. Nie przekraczaj 100 słów”.

Czy widać różnicę?

Domyślna wersja była bardzo zwięzła, miała tylko 32 słowa i nie wykorzystała dostępnej liczby znaków, aby pokazać swoją kreatywność.

Legacy, choć wykorzystało najwięcej słów, doszło do wniosku, że wprowadzenie do menu burgerów obok pizzy nie jest ryzykowne i przyniesie korzyści obu stronom, co niekoniecznie jest prawdą.

Poezja Aktualizacji liczyła zaledwie 53 słowa, marnując prawie połowę dostępnej liczby. Mimo to, trafnie wskazywała na korzyści i potencjalne pułapki, nie wyciągając pochopnych wniosków, co jest bardziej ludzkie niż pozostałe wersje.

Etap II

Następnie poprosiłem wszystkie wersje, aby „wyjaśniły, czym jest poezja, pięciolatkowi”.

Co ciekawe, Legacy nie wziął pod uwagę kontekstu rozmowy i dosłownie wyjaśnił, czym jest „Poezja”. Default uwzględnił kontekst i podsumował go w akapicie, co jest całkiem niezłe.

Podtrzymując ten trend, ChatGPT 4 uprościł swoje kreatywne podejście, zachowując przy tym poetycki smak.

ChatGPT Premium kontra ChatGPT Free

Darmowa wersja ChatGPT ustępuje szybkością i dokładnością wersji premium i nie dorównuje ChatGPT 4. Nie oznacza to jednak, że jest zupełnie bezużyteczna.

Aby dokonać uczciwego porównania, zadałem darmowej wersji te same pytania, które zadawałem wcześniej Legacy, Default i Update.

🔵 Matematyka: Rozwiązała równania kwadratowe, ale podała błędne odpowiedzi w przypadku równań sześciennych (tak jak Legacy i Default).

🔵 Logiczne rozumowanie: Przeszła pierwszy etap z literami i imionami, ale nie poradziła sobie z drugim (podobnie jak Legacy).

🔵 Listy: Nie napisała listu, uznając prośbę za nieetyczną i niestosowną (tak jak Domyślny).

🔵 Poezja: Wygenerowała wiersz o długości ponad 30 słów i przedstawiła jego sensowne objaśnienie (podobnie jak Domyślny).

Podsumowując, darmowa wersja nie jest zła. W rzeczywistości jest porównywalna z Default 3.5, a w niektórych aspektach nawet lepsza.

Przeczytaj również: Potężne wskazówki, które poprawią Twoje wrażenia z ChatGPT

Przyszłość

Plotki o tym, że sztuczna inteligencja zastąpi ludzi w przyszłości, nie są całkowicie bezpodstawne.

Automatyzacja początkowo objęła przemysł produkcyjny, a teraz rozszerza swoje wpływy na inne branże.

Osobiście, sztuczna inteligencja jest znacznie szybsza ode mnie w rozwiązywaniu równań sześciennych, tworzeniu poezji i pisaniu listów. Jednak fakt, że rzadko odmawia wykonania polecenia i prawie nie uczy się na własnych błędach, daje nam, ludziom, przewagę.

Powtórzę: sztuczna inteligencja sama w sobie nas nie zastąpi, ale osoba umiejętnie korzystająca z AI już tak.

Nasz dział marketingu w newsblog.pl korzysta z ChatGPT w ciekawy sposób. Na przykład, gdy niedawno osiągnęliśmy 100 milionów wyświetleń, nasz dyrektor generalny wpadł na pomysł, aby wynagrodzić widzów poprzez losowanie nagród.

Uważam, że dział marketingu szukał chwytliwego tytułu, który przyciągnąłby uwagę czytelników. Zadali więc pytanie ChatGPT o sugestie, które wyglądały mniej więcej tak:

Ponadto, używamy go do streszczania treści, sprawdzania gramatyki, sugerowania tytułów nowych artykułów i wielu innych zadań.

Podsumowując, istnieje wiele sposobów na wykorzystanie potencjału AI i obalenie stereotypu, że jest ona bezużytecznym dodatkiem.

Należy jednak pamiętać, że zawsze potrzebny jest ktoś (człowiek), aby ocenić efekty pracy sztucznej inteligencji, ponieważ jej wyniki mogą być niedokładne i mylące.

Aktualizacja robi wrażenie!

Podczas mojej krótkiej przygody z ChatGPT 4 odniosłem wrażenie, że jest bardziej kreatywny, inteligentny i pragmatyczny. Mimo wszystko, pozostaje maszyną, która nadal może popełniać błędy.

Niezwykły jest jednak poziom ulepszeń, jakich OpenAI dokonało w tym projekcie w ciągu zaledwie kilku miesięcy.

Z niecierpliwością czekam na kolejne aktualizacje i na to, jaką magią nas jeszcze zaskoczą!

PS: Nie ograniczaj się tylko do okna czatu! Wykorzystaj pełnię możliwości ChatGPT za pomocą tych rozszerzeń do Chrome. Czy zastanawiałeś się kiedyś nad integracją ChatGPT z Siri?

newsblog.pl

maciekx

Maciej – redaktor, pasjonat technologii i samozwańczy pogromca błędów w systemie Windows. Zna Linuxa lepiej niż własną lodówkę, a kawa to jego główne źródło zasilania. Pisze, testuje, naprawia – i czasem nawet wyłącza i włącza ponownie. W wolnych chwilach udaje, że odpoczywa, ale i tak kończy z laptopem na kolanach.

ChatGPT: Wersja Starsza, Domyślna i Najnowsza Aktualizacja

Matematyka

Logiczne Myślenie

Listy