Dlaczego kontekst miliona tokenów Gemini 1.5 zmienia reguły gry

Spis treści:

Google Gemini 1.5 wprowadza okno kontekstowe zawierające milion tokenów, przewyższając konkurencję, taką jak Claude i ChatGPT.
Większe okno kontekstowe zwiększa wydajność modelu AI i zmniejsza liczbę błędów, ale może nie gwarantować ogólnego sukcesu.
Większe okno kontekstowe Gemini 1.5 może znacznie zwiększyć dokładność, zmniejszyć liczbę błędów i poprawić zrozumienie.

Google Gemini 1.5 jest teraz wyposażony w ogromne okno kontekstowe obejmujące milion tokenów, przyćmiewając bezpośrednią konkurencję w postaci ChatGPT, Claude i innych chatbotów AI.

Brzmi to jak ogromne ulepszenie i może wyróżnić Gemini. Trochę trudno jest uchwycić jego pełny zakres, ale ogromne okno kontekstowe Gemini może zmienić zasady gry.

Co to jest okno kontekstowe?

Odpowiadając na Twoje zapytania, np. wyjaśniając koncepcję lub podsumowując tekst, modele AI mają ograniczoną ilość danych, które mogą uwzględnić w celu wygenerowania odpowiedzi. Ograniczenie rozmiaru tekstu, jaki może uwzględnić, nazywa się oknem kontekstowym.

Oto inny sposób, aby na to spojrzeć. Załóżmy, że idziesz do sklepu spożywczego, aby kupić artykuły spożywcze bez listy zakupów. Limit liczby artykułów spożywczych, które pamiętasz podczas zakupów, to Twoje okno kontekstowe. Im więcej artykułów spożywczych zapamiętasz, tym większa szansa, że nie pokrzyżujesz swoich planów zakupowych. Podobnie, im większe okno kontekstowe modelu AI, tym większa szansa, że model zapamięta wszystko, czego potrzebuje, aby zapewnić najlepsze wyniki.

W chwili pisania tego tekstu okno kontekstowe Claude 2.1 firmy Anthropic o wielkości 200 tys. jest największym oknem kontekstowym ze wszystkich ogólnie dostępnych modeli sztucznej inteligencji. Następnie następuje GPT-4 Turbo z oknem kontekstowym 128 tys. Google Gemini 1.5 oferuje milion okien kontekstowych, cztery razy większe niż cokolwiek innego na rynku. Prowadzi to do zasadniczego pytania: o co chodzi z oknem kontekstowym zawierającym milion tokenów?

Dlaczego okno kontekstowe Gemini 1.5 to wielka sprawa

Inteligentne makiety

Aby było to jaśniejsze, Claude AI ma 200 tys. okien kontekstowych, co oznacza, że może on przetrawić książkę zawierającą około 150 000 słów i udzielić na nie odpowiedzi. To ogromne. Ale Google Gemini 1.5 byłby w stanie przetworzyć za jednym razem 700 000 słów!

Gdy podajesz duży blok tekstu do chatbotów AI, takich jak ChatGPT lub Gemini, próbuje on przetrawić jak najwięcej tekstu, ale to, ile może strawić, zależy od okna kontekstowego. Jeśli więc prowadzisz rozmowę obejmującą 100 000 słów w modelu, który może obsłużyć tylko 28 000 słów, a następnie zaczynasz zadawać pytania wymagające pełnej wiedzy na temat całej rozmowy zawierającej 100 000 słów, skazujesz ją na porażkę.

Wyobraź sobie, że oglądasz tylko 20 minut godzinnego filmu i zostajesz poproszony o wyjaśnienie całego filmu. Jak dobre byłyby Twoje wyniki? Albo odmawiasz odpowiedzi, albo po prostu zmyślasz, co dokładnie zrobiłby chatbot AI, prowadząc do halucynacji AI.

Jeśli myślisz, że nigdy nie musiałeś wrzucić do chatbota 100 000 słów, to nie jest to cała uwaga. Okno kontekstowe wykracza poza tekst, który podajesz modelowi AI w jednym monicie. Modele AI uwzględniają całą rozmowę odbytą podczas sesji czatu, aby mieć pewność, że ich odpowiedzi są jak najbardziej trafne.

Tak więc, nawet jeśli nie dostarczasz mu książki zawierającej 100 tys. słów, Twoje ciągłe rozmowy i odpowiedzi, których udziela, zwiększają kalkulację okna kontekstowego. Zastanawiasz się, dlaczego ChatGPT lub Google Gemini zapominają rzeczy, które powiedziałeś wcześniej w rozmowie? Prawdopodobnie zabrakło mu miejsca w oknie kontekstowym i zaczął zapominać o różnych rzeczach.

Większe okno kontekstowe jest szczególnie ważne w przypadku zadań wymagających głębokiego zrozumienia kontekstu, takich jak streszczanie długich artykułów, odpowiadanie na złożone pytania czy utrzymanie spójnej narracji w wygenerowanym tekście. Chcesz napisać powieść zawierającą 50 tys. słów, która będzie miała spójną narrację? Chcesz modela, który będzie w stanie „oglądać” i odpowiadać na pytania w godzinnym pliku wideo? Potrzebujesz większego okna kontekstowego!

Krótko mówiąc, większe okno kontekstowe Gemini 1.5 może znacznie poprawić wydajność modelu AI, zmniejszając halucynacje i znacznie zwiększając dokładność i zdolność lepszego wykonywania instrukcji.

Czy Gemini 1.5 spełni oczekiwania?

Jeśli wszystko pójdzie zgodnie z planem, Gemini 1.5 może potencjalnie przewyższyć najlepsze modele AI na rynku. Biorąc jednak pod uwagę wiele niepowodzeń Google w budowaniu stabilnego modelu sztucznej inteligencji, ważne jest, aby zachować szczególną ostrożność. Samo zwiększenie okna kontekstowego modelu nie powoduje automatycznego ulepszenia modelu.

Używałem 200-tysięcznego okna kontekstowego Claude 2.1 przez wiele miesięcy od jego wydania i jedno jest dla mnie jasne — większe okno kontekstowe może rzeczywiście poprawić wrażliwość na kontekst, ale problemy z wydajnością modelu podstawowego mogą sprawić, że większy kontekst stanie się problemem własny.

Czy Google Gemini 1.5 zmieni zasady gry? Media społecznościowe są obecnie pełne świetnych recenzji Gemini 1.5 od użytkowników wczesnego dostępu. Jednak większość pięciogwiazdkowych recenzji wynika z pośpiesznych lub uproszczonych przypadków użycia. Dobrym miejscem do sprawdzenia, jak Gemini 1.5 poradzi sobie w dziczy, jest strona Google Raport techniczny Gemini 1.5 [PDF]. Z raportu wynika, że nawet podczas „kontrolowanych testów” model nie był w stanie odczytać wszystkich najdrobniejszych szczegółów dokumentów mieszczących się w rozmiarze okna kontekstowego.

Okno kontekstowe zawierające milion tokenów to rzeczywiście imponujące osiągnięcie techniczne, ale bez możliwości niezawodnego odzyskania szczegółów dokumentu większe okno kontekstowe ma niewielką wartość praktyczną i może nawet stać się przyczyną spadku dokładności i halucynacji.