Najważniejsze informacje o modelach AI
- Google Gemini 1.5 wprowadza rewolucyjne okno kontekstowe o pojemności miliona tokenów, zostawiając w tyle konkurencję taką jak Claude czy ChatGPT.
- Rozszerzone okno kontekstowe może podnieść efektywność działania algorytmu AI i ograniczyć występowanie błędów, ale samo w sobie nie stanowi gwarancji ogólnego sukcesu.
- Powiększone okno kontekstowe w Gemini 1.5 ma potencjał, aby znacząco zwiększyć precyzję, zredukować błędy oraz ulepszyć zdolność rozumienia kontekstu.
Nowy Google Gemini 1.5 dysponuje imponującym oknem kontekstowym, zdolnym pomieścić milion tokenów. Tym samym deklasuje rywali, takich jak ChatGPT, Claude i inne chatboty wykorzystujące sztuczną inteligencję.
To znaczący krok naprzód, który może uczynić Gemini liderem w swojej kategorii. Zrozumienie pełnego potencjału tej zmiany może być wyzwaniem, jednak olbrzymie okno kontekstowe Gemini może zrewolucjonizować sposób działania modeli AI.
Czym jest okno kontekstowe?
Podczas przetwarzania zapytań, na przykład wyjaśniania pojęć czy streszczania tekstów, modele AI korzystają z określonej puli danych, która umożliwia im wygenerowanie odpowiedzi. Ograniczenie rozmiaru danych, które model może uwzględnić, określa się mianem okna kontekstowego.
Spróbujmy spojrzeć na to z innej perspektywy. Wyobraź sobie, że wybierasz się do sklepu spożywczego bez listy zakupów. Liczba produktów, którą jesteś w stanie zapamiętać podczas zakupów, to Twoje okno kontekstowe. Im więcej rzeczy pamiętasz, tym większa szansa, że Twoje zakupy będą udane. Podobnie, im większe okno kontekstowe modelu AI, tym większa szansa, że zapamięta on wszystkie potrzebne informacje, aby dostarczyć optymalne wyniki.
W chwili obecnej, okno kontekstowe modelu Claude 2.1 od Anthropic, o wielkości 200 tysięcy tokenów, jest największym wśród ogólnodostępnych modeli AI. Następny w kolejności jest GPT-4 Turbo z oknem kontekstowym o pojemności 128 tysięcy tokenów. Google Gemini 1.5 wyróżnia się oknem kontekstowym zawierającym milion tokenów, co jest czterokrotnie większą wartością niż u konkurencji. To z kolei prowadzi do fundamentalnego pytania: jakie znaczenie ma okno kontekstowe z milionem tokenów?
Dlaczego okno kontekstowe Gemini 1.5 jest tak istotne?
Dla lepszego zrozumienia, Claude AI z 200 tysiącami tokenów okna kontekstowego, jest w stanie przetworzyć książkę zawierającą około 150 000 słów i na tej podstawie generować odpowiedzi. To imponujące. Jednak Google Gemini 1.5 byłby w stanie jednorazowo przetworzyć nawet 700 000 słów!
Podczas analizowania dużego fragmentu tekstu przez chatboty AI, takie jak ChatGPT czy Gemini, starają się one przyswoić jak najwięcej informacji. Jednak ilość, którą mogą efektywnie przetworzyć, jest uzależniona od okna kontekstowego. Jeśli na przykład prowadzisz konwersację o długości 100 000 słów, a model obsługuje jedynie 28 000 słów, a następnie zadasz pytanie wymagające pełnego kontekstu całej rozmowy, model nie będzie w stanie udzielić precyzyjnej odpowiedzi.
Wyobraź sobie, że obejrzałeś tylko 20 minut godzinnego filmu i masz na jego podstawie wyjaśnić całą fabułę. Jaka byłaby jakość Twojej analizy? Prawdopodobnie odmówiłbyś odpowiedzi lub po prostu zmyśliłbyś odpowiedź, podobnie jak zrobiłby to chatbot AI, generując tzw. halucynacje.
Nawet jeśli nie jesteś użytkownikiem, który wprowadza do chatbota 100 000 słów na raz, musisz pamiętać, że okno kontekstowe nie ogranicza się wyłącznie do tekstu, który wprowadzasz w jednym zapytaniu. Modele AI biorą pod uwagę całą historię konwersacji w danej sesji, aby upewnić się, że odpowiedzi są jak najbardziej dokładne.
Dlatego nawet jeśli nie podajesz modelu od razu książki o objętości 100 000 słów, to kolejne pytania i odpowiedzi w ramach rozmowy w naturalny sposób zwiększają obciążenie okna kontekstowego. Zastanawiasz się, dlaczego ChatGPT lub Google Gemini zapominają o tym, co powiedziałeś wcześniej w trakcie rozmowy? Prawdopodobnie wyczerpała się przestrzeń w oknie kontekstowym i model zaczął zapominać pewne informacje.
Obszerne okno kontekstowe jest kluczowe w zadaniach wymagających dogłębnego zrozumienia kontekstu, jak na przykład streszczanie obszernych artykułów, odpowiadanie na złożone pytania, czy zapewnienie spójności narracji w generowanym tekście. Chcesz napisać powieść o objętości 50 tysięcy słów, zachowując spójność fabuły? Chcesz, aby model mógł „obejrzeć” godzinny film i odpowiadać na pytania dotyczące jego treści? W takim przypadku potrzebujesz dużego okna kontekstowego!
Podsumowując, większe okno kontekstowe w Gemini 1.5 ma potencjał, aby znacząco usprawnić działanie modelu AI, redukując występowanie halucynacji i w istotny sposób zwiększając precyzję oraz zdolność do efektywniejszego wykonywania instrukcji.
Czy Gemini 1.5 sprosta oczekiwaniom?
Jeśli wszystko przebiegnie zgodnie z planem, Gemini 1.5 ma szansę prześcignąć najlepsze modele AI dostępne na rynku. Jednak, biorąc pod uwagę wcześniejsze niepowodzenia Google w tworzeniu stabilnych modeli AI, należy zachować ostrożność. Samo powiększenie okna kontekstowego nie jest jednoznaczne z automatycznym ulepszeniem modelu.
Korzystałem z okna kontekstowego Claude 2.1 o wielkości 200 tysięcy tokenów przez kilka miesięcy od jego wprowadzenia i jedno jest pewne – większe okno kontekstowe faktycznie może wzmocnić wrażliwość na kontekst, lecz problemy z wydajnością bazowego modelu mogą sprawić, że większy kontekst będzie generował dodatkowe trudności.
Czy Google Gemini 1.5 okaże się przełomem? W mediach społecznościowych pojawiły się już entuzjastyczne recenzje użytkowników wczesnego dostępu do Gemini 1.5. Trzeba jednak pamiętać, że wiele z tych ocen opiera się na prostych, doraźnych testach. Rzetelnym źródłem informacji o tym, jak Gemini 1.5 poradzi sobie w praktyce, jest strona Google Raport techniczny Gemini 1.5 [PDF]. Z raportu wynika, że nawet podczas „kontrolowanych testów” model nie był w stanie odczytać wszystkich detali z dokumentów, które teoretycznie mieściły się w limicie okna kontekstowego.
Okno kontekstowe z milionem tokenów to z pewnością imponujące osiągnięcie technologiczne, ale bez solidnej zdolności do wiarygodnego odzyskiwania szczegółowych informacji z dokumentów, powiększone okno kontekstowe może mieć niewielką wartość praktyczną, a nawet stać się źródłem spadku dokładności oraz generowania halucynacji.
newsblog.pl
Maciej – redaktor, pasjonat technologii i samozwańczy pogromca błędów w systemie Windows. Zna Linuxa lepiej niż własną lodówkę, a kawa to jego główne źródło zasilania. Pisze, testuje, naprawia – i czasem nawet wyłącza i włącza ponownie. W wolnych chwilach udaje, że odpoczywa, ale i tak kończy z laptopem na kolanach.