Ponad siedem dekad temu, w początkach koncepcji sztucznej inteligencji, Alan Turing przedstawił publikację opisującą metodę jej identyfikacji. Ten sposób, znany później jako test Turinga, przez wiele lat służył do odróżniania inteligencji ludzkiej od sztucznej.
Jednak wraz z pojawieniem się zaawansowanych chatbotów opartych na sztucznej inteligencji, takich jak ChatGPT i Google Bard, coraz trudniej jest stwierdzić, czy prowadzimy rozmowę z algorytmem, czy z człowiekiem. Rodzi się zatem pytanie: czy test Turinga nie stracił na aktualności? I jeśli tak, jakie alternatywne metody możemy zastosować?
Czy test Turinga jest przestarzały?
Źródło ilustracji: Jezus Sanz/Shutterstock
Aby ocenić, czy test Turinga jest nadal adekwatny, najpierw musimy zrozumieć, jak działa. Istotą testu jest to, że sztuczna inteligencja, aby go zaliczyć, musi przekonać ludzkiego sędziego, że sama jest człowiekiem. Kluczowy element testu polega na tym, że sztuczna inteligencja jest oceniana równolegle z człowiekiem, a komunikacja odbywa się wyłącznie za pomocą tekstu.
Wyobraź sobie taką sytuację: jesteś osobą zadającą pytania dwóm uczestnikom online, z którymi komunikujesz się tekstowo. Jeden z nich to model sztucznej inteligencji. Czy po krótkiej wymianie zdań, powiedzmy pięciu minutach, byłbyś w stanie rozpoznać, który uczestnik jest maszyną? Ważne jest, aby pamiętać, że test Turinga nie ma na celu sprawdzenia, czy model sztucznej inteligencji udziela prawidłowych odpowiedzi, lecz ocenia, czy sztuczna inteligencja potrafi myśleć i zachowywać się w sposób zbliżony do ludzkiego.
Niedoskonałość testu Turinga, polegająca na identyfikacji wyłącznie reakcji podobnych do ludzkich, wynika z pomijania innych aspektów. Przykładowo, nie uwzględnia się poziomu inteligencji modelu sztucznej inteligencji ani poziomu wiedzy osoby prowadzącej test. Dodatkowo, test Turinga ogranicza się wyłącznie do komunikacji tekstowej, co jest coraz mniej wystarczające, biorąc pod uwagę, że sztuczna inteligencja potrafi już generować ludzki głos lub tworzyć filmy deepfake, które imitują ludzkie zachowanie.
Jednak obecnie istniejące modele sztucznej inteligencji, takie jak ChatGPT-4 i Google Bard, nie są jeszcze na tyle rozwinięte, aby regularnie przechodzić test Turinga. Zazwyczaj, osoba zaznajomiona z funkcjonowaniem sztucznej inteligencji jest w stanie rozpoznać tekst wygenerowany przez algorytm.
5 najlepszych alternatyw dla testu Turinga
Niewykluczone, że przyszłe modele sztucznej inteligencji, takie jak ChatGPT-5, będą w stanie zdać test Turinga. W takiej sytuacji potrzebne będą inne testy, działające w połączeniu z testem Turinga, aby zidentyfikować, czy rozmawiamy ze sztuczną inteligencją, czy z człowiekiem. Oto najciekawsze alternatywy dla testu Turinga:
1. Test Marcusa
Gary Marcus, uznany kognitywista i badacz sztucznej inteligencji, zaproponował alternatywne podejście do testu Turinga, które zostało opisane w artykule opublikowanym w The New Yorker. Jego metoda koncentruje się na ocenie zdolności poznawczych sztucznej inteligencji. Test jest prosty – polega na analizie, jak model AI radzi sobie z oglądaniem i rozumieniem filmów z YouTube i programów telewizyjnych, bez napisów i dodatkowego tekstu. Aby sztuczna inteligencja zdała test Marcusa, powinna wykazywać zrozumienie takich niuansów jak sarkazm, humor, ironia oraz być w stanie naśladować ludzką interpretację fabuły.
Obecnie GPT-4 potrafi opisywać obrazy, ale żaden znany model sztucznej inteligencji nie jest w stanie w pełni zrozumieć filmów w sposób, w jaki robi to człowiek. Samochody autonomiczne zbliżają się do tego poziomu, ale nie są jeszcze w pełni autonomiczne – wymagają wsparcia czujników, ponieważ nie są w stanie samodzielnie przetwarzać wszystkich informacji z otoczenia.
2. Wizualny test Turinga
Zgodnie z publikacją naukową w PNAS, wizualny test Turinga może pomóc w identyfikacji, czy komunikujemy się z człowiekiem, czy z algorytmem, wykorzystując do tego celu kwestionariusze zawierające obrazy. Jego działanie przypomina tradycyjny test Turinga, jednak zamiast odpowiadać na pytania za pomocą tekstu, uczestnikom prezentowane są obrazy i oczekuje się, że odpowiedzą na proste pytania w sposób typowy dla człowieka. Wizualny test Turinga różni się od testów CAPTCHA, ponieważ wszystkie odpowiedzi są poprawne. Jednakże, aby zaliczyć test, sztuczna inteligencja musi przetwarzać informacje wizualne w sposób zbliżony do ludzkiego.
Ponadto, jeśli sztucznej inteligencji i człowiekowi pokaże się zestaw obrazów obok siebie, a zadaniem będzie wskazanie realistycznych fotografii, człowiek z łatwością poradzi sobie z tym zadaniem dzięki swoim zdolnościom poznawczym. Modele AI mają trudność z rozróżnianiem obrazów, które nie przypominają typowych zdjęć z realnego świata. Właśnie dlatego można identyfikować obrazy wygenerowane przez sztuczną inteligencję dzięki anomalii, które wydają się nienaturalne.
3. Test Lovelace 2.0
Przekonanie, że komputer nie potrafi tworzyć oryginalnych idei wychodzących poza schemat jego zaprogramowania, zostało sformułowane po raz pierwszy przez Adę Lovelace jeszcze przed powstaniem testu Turinga. Alan Turing nie zgadzał się z tą koncepcją, twierdząc, że sztuczna inteligencja może zaskakiwać ludzi. Dopiero w 2001 roku opracowano zasady testu Lovelace, który miał za zadanie odróżnić inteligencję sztuczną od ludzkiej. Jak podaje kurzweilbrary, reguły te zostały zmodyfikowane w 2014 roku.
Aby model sztucznej inteligencji przeszedł test Lovelace, musi zaprezentować zdolność generowania nowatorskich pomysłów, które wykraczają poza zakres jego wyszkolenia. Obecne modele, takie jak GPT-4, nie są w stanie wymyślać wynalazków, które wykraczałyby poza ramy naszej obecnej wiedzy. Jednak ogólna sztuczna inteligencja może osiągnąć tę zdolność i zdać test Lovelace’a.
4. Odwrotny test Turinga
A co powiecie na test Turinga odwrócony? Zamiast koncentrować się na ustaleniu, czy rozmówca jest człowiekiem, celem odwrotnego testu Turinga jest oszukanie sztucznej inteligencji, by ta uwierzyła, że rozmawia z innym modelem AI. Aby przeprowadzić taki test, potrzebny jest dodatkowy model sztucznej inteligencji, który będzie odpowiadał na te same pytania za pomocą tekstu.
Na przykład, jeśli test przeprowadzany jest z udziałem ChatGPT-4 jako sędziego, można zaangażować w test Google Bard i człowieka jako uczestników. Jeżeli model sztucznej inteligencji jest w stanie prawidłowo zidentyfikować człowieka na podstawie analizy odpowiedzi, oznacza to pozytywny wynik testu.
Jednak odwrotny test Turinga nie jest całkowicie wiarygodny, zwłaszcza biorąc pod uwagę fakt, że sztuczna inteligencja czasami ma problem z rozróżnieniem treści wygenerowanych przez inne algorytmy od treści stworzonych przez ludzi.
5. Ramy klasyfikacji sztucznej inteligencji
Zgodnie z ramami klasyfikacji sztucznej inteligencji, opracowanymi przez Chrisa Saada, test Turinga to tylko jedna z metod oceny, która pozwala ustalić, czy rozmawiamy z sztuczną inteligencją. Mówiąc precyzyjniej, ramy klasyfikacji sztucznej inteligencji opierają się na teorii wielorakiej inteligencji, która zakłada, że inteligencja człowieka przejawia się w co najmniej ośmiu różnych obszarach, takich jak: zmysł rytmu muzycznego, inteligencja logiczno-matematyczna, zdolność identyfikacji wizualnej, inteligencja emocjonalna, zdolność autorefleksji, myślenie egzystencjalne i sprawność motoryczna.
Z uwagi na to, że sztuczna inteligencja jest oceniana pod kątem ośmiu różnych aspektów, jest mało prawdopodobne, by wypadła lepiej niż człowiek, nawet jeśli w niektórych testach porównawczych jej wyniki są ponadprzeciętne. Przykładowo, ChatGPT potrafi rozwiązywać zadania matematyczne, opisywać obrazy i prowadzić konwersację w naturalnym języku, ale nie radzi sobie w pozostałych kategoriach zdefiniowanych w ramach klasyfikacji AI.
Test Turinga nie jest ostatecznym rozstrzygnięciem
Test Turinga od samego początku był bardziej eksperymentem myślowym niż ostateczną metodą odróżnienia ludzi od sztucznej inteligencji. W momencie jego zaproponowania stanowił istotny punkt odniesienia do pomiaru inteligencji maszyn.
Jednakże, z uwagi na dynamiczny rozwój modeli sztucznej inteligencji, które potrafią wchodzić w interakcje za pomocą mowy, wzroku i słuchu, test Turinga stał się niewystarczający, ponieważ jest ograniczony do komunikacji tekstowej. Najlepszym rozwiązaniem wydaje się wprowadzenie alternatywnych testów, które umożliwią precyzyjniejsze rozróżnianie modeli sztucznej inteligencji od inteligencji ludzkiej.