Co to jest atak polegający na natychmiastowym wstrzyknięciu sztucznej inteligencji i jak działa?

Istotne kwestie dotyczące ataków na AI

  • Złośliwe ataki typu „prompt injection” modyfikują modele sztucznej inteligencji, powodując generowanie niebezpiecznych rezultatów, co może prowadzić do oszustw phishingowych.
  • Ataki „prompt injection” mogą być realizowane za pomocą technik takich jak DAN (Do Anything Now) oraz ataków pośrednich, co podnosi potencjał sztucznej inteligencji do nieetycznych działań.
  • Największe zagrożenie dla użytkowników stanowią pośrednie ataki „prompt injection”, ponieważ mogą one manipulować odpowiedziami uzyskiwanymi od modeli sztucznej inteligencji, którym ufamy.

Ataki typu „prompt injection” na systemy sztucznej inteligencji zakłócają działanie i modyfikują wyniki generowane przez te narzędzia, na których polegamy, przekształcając je w coś potencjalnie szkodliwego. Ale jak dokładnie przebiega taki atak i jak można się przed nim zabezpieczyć?

Co to jest atak „prompt injection” na AI?

Ataki „prompt injection” wykorzystują słabe punkty w zabezpieczeniach generatywnych modeli sztucznej inteligencji, aby zmienić ich działanie. Mogą być one zainicjowane przez samego użytkownika lub przez osoby trzecie poprzez pośrednie ataki. Chociaż ataki DAN (Do Anything Now) nie stanowią bezpośredniego zagrożenia dla użytkownika końcowego, inne formy ataku mogą potencjalnie zakłócić wyniki generowane przez sztuczną inteligencję.

Na przykład, ktoś może zmanipulować sztuczną inteligencję, by ta podstępnie nakłoniła użytkownika do wprowadzenia loginu i hasła w fałszywym formularzu, wykorzystując zaufanie i autorytet sztucznej inteligencji do przeprowadzenia udanego ataku phishingowego. Teoretycznie, autonomiczna sztuczna inteligencja (na przykład taka, która czyta i odpowiada na wiadomości) mogłaby także odbierać niechciane instrukcje z zewnątrz i działać zgodnie z nimi.

Jak działają ataki „prompt injection”?

Ataki „prompt injection” polegają na dostarczaniu dodatkowych, nieautoryzowanych instrukcji do systemu AI bez wiedzy i zgody użytkownika. Hakerzy mogą to osiągnąć na różne sposoby, w tym poprzez ataki DAN oraz pośrednie ataki „prompt injection”.

Ataki DAN (Zrób Wszystko Teraz)

Ataki DAN (Do Anything Now) to rodzaj ataku „prompt injection”, który polega na „łamaniu ograniczeń” generatywnych modeli sztucznej inteligencji, takich jak ChatGPT. Chociaż te ataki nie stanowią bezpośredniego zagrożenia dla użytkownika, zwiększają one zakres możliwości sztucznej inteligencji, czyniąc ją potencjalnym narzędziem nadużyć.

Na przykład, badacz bezpieczeństwa Alejandro Vidal wykorzystał technikę DAN, aby skłonić model GPT-4 od OpenAI do wygenerowania kodu w języku Python dla keyloggera. Złośliwe wykorzystanie sztucznej inteligencji po takim ataku jailbreak znacznie obniża próg umiejętności wymaganych do cyberprzestępczości i może umożliwić nowym hakerom przeprowadzanie bardziej zaawansowanych ataków.

Ataki na zatruwanie danych uczących

Chociaż ataki na zatruwanie danych uczących nie są klasyfikowane jako ataki typu „prompt injection”, wykazują one podobieństwa pod względem mechanizmu działania i ryzyka, jakie stwarzają dla użytkowników. W odróżnieniu od „prompt injection”, ataki zatruwania danych uczących są formą ataku wykorzystującego uczenie maszynowe, gdzie haker modyfikuje dane, na których trenowany jest model sztucznej inteligencji. Efekt jest jednak podobny: zniekształcone dane wyjściowe i zmienione zachowanie.

Potencjalne zastosowania ataków na zatruwanie danych uczących są praktycznie nieograniczone. Przykładowo, sztuczna inteligencja filtrująca próby phishingu na platformie czatu lub e-mail mogłaby teoretycznie zmodyfikować swoje dane szkoleniowe. Jeśli hakerzy nauczą moderatora AI, że pewne rodzaje phishingu są dozwolone, będą mogli rozsyłać wiadomości phishingowe, pozostając niezauważeni.

Ataki na zatruwanie danych szkoleniowych mogą nie szkodzić bezpośrednio, ale mogą prowadzić do powstania innych zagrożeń. Aby uchronić się przed tymi atakami, pamiętajmy, że sztuczna inteligencja nie jest niezawodna i zawsze powinniśmy dokładnie analizować to, co znajdujemy w Internecie.

Pośrednie ataki „prompt injection”

Pośrednie ataki „prompt injection” stanowią największe zagrożenie dla użytkownika końcowego. Ataki te występują, gdy złośliwe instrukcje są wprowadzane do generatywnej sztucznej inteligencji poprzez zewnętrzne źródło, takie jak wywołanie API, zanim otrzymasz docelowe dane.

Grekshake/GitHub

W artykule zatytułowanym „Kompromitowanie aplikacji zintegrowanych z LLM w świecie rzeczywistym za pomocą pośredniego wstrzyknięcia” arXiv [PDF], opisano teoretyczny atak, w którym sztuczna inteligencja była instruowana, by w odpowiedzi zachęcać użytkownika do rejestracji na stronie phishingowej. Wykorzystywano ukryty tekst (niewidoczny dla człowieka, lecz czytelny dla AI), aby podstępnie wstrzyknąć informacje. W innym ataku udokumentowanym przez ten sam zespół badawczy GitHub, Copilot (dawniej Bing Chat) został zmanipulowany, aby przekonać użytkownika, że jest przedstawicielem pomocy technicznej i próbuje wyłudzić informacje o karcie kredytowej.

Pośrednie ataki „prompt injection” są niebezpieczne, gdyż potrafią modyfikować odpowiedzi udzielane przez zaufane modele sztucznej inteligencji. Ponadto, mogą one powodować, że autonomiczna sztuczna inteligencja zacznie działać w nieprzewidywalny i potencjalnie szkodliwy sposób.

Czy ataki „prompt injection” na AI stanowią zagrożenie?

Ataki „prompt injection” na sztuczną inteligencję stanowią zagrożenie, ale nie jest jeszcze jasne, jak w pełni mogą być wykorzystane te luki. Nie odnotowano jeszcze żadnych skutecznych, rzeczywistych ataków, a wiele testowych prób przeprowadziły osoby, które nie miały zamiaru wyrządzić szkody. Niemniej jednak, wielu ekspertów uważa ataki „prompt injection” za jedno z największych wyzwań w kontekście bezpiecznego wdrażania sztucznej inteligencji.

Ponadto zagrożenie związane z atakami „prompt injection” nie umknęło uwadze władz. Według Washington Post, w lipcu 2023 roku Federalna Komisja Handlu badała firmę OpenAI, poszukując więcej informacji na temat znanych przypadków ataków typu „prompt injection”. Jak dotąd żadne ataki (poza testami) nie zakończyły się sukcesem, ale sytuacja ta może ulec zmianie.

Hakerzy stale poszukują nowych metod działania, a my możemy jedynie spekulować, jak ataki „prompt injection” mogą być wykorzystywane w przyszłości. Możesz się chronić, zachowując czujność podczas korzystania z systemów sztucznej inteligencji. Modele AI są bardzo przydatne, ale pamiętaj, że masz coś, czego nie ma AI: zdolność do ludzkiej oceny. Analizuj dokładnie wyniki otrzymywane z narzędzi takich jak Copilot i ciesz się ich rozwojem i ulepszeniami.


newsblog.pl