Kto lepiej wykrywa Deepfakes: człowiek czy maszyna?

Najważniejsze wnioski:

  • Technologia deepfake stwarza poważne zagrożenia dla społeczeństwa, w tym rozpowszechnianie nieprawdziwych informacji, niszczenie wizerunku przez imitowanie innych oraz wywoływanie konfliktów mających podłoże w kwestiach bezpieczeństwa narodowego.
  • Mimo że sztuczna inteligencja oferuje rozwiązania do identyfikacji deepfake’ów, nie są one idealne, a w procesie rozpoznawania kluczowa pozostaje ludzka intuicja.
  • Zarówno ludzie, jak i systemy sztucznej inteligencji mają swoje mocne i słabe strony w wykrywaniu deepfake’ów, a połączenie ich możliwości może zwiększyć skuteczność w identyfikacji i minimalizowaniu zagrożeń płynących z tej technologii.

Deepfake’i stanowią zagrożenie w każdym aspekcie życia społecznego. Nasza zdolność do odróżniania fałszywych treści jest kluczowa w zwalczaniu dezinformacji. W kontekście nieustannego rozwoju sztucznej inteligencji, komu bardziej zaufać w wykrywaniu deepfake’ów – człowiekowi czy maszynie?

Zagrożenia wynikające z deepfake’ów

Wraz z postępem technologicznym sztucznej inteligencji, zagrożenia związane z deepfake’ami stają się coraz bardziej realne. Poniżej przedstawiono podsumowanie niektórych z najpilniejszych problemów wywoływanych przez deepfake:

  • Dezinformacja: Zmanipulowane nagrania wideo i audio mogą służyć do rozpowszechniania fałszywych wiadomości i dezinformacji.
  • Podszywanie się pod inne osoby: Deepfake’i, naśladując inne osoby, mogą szkodzić ich reputacji lub oszukiwać bliskich.
  • Bezpieczeństwo narodowe: Potencjalne ryzyko w przypadku deepfake’ów to fabrykowane materiały wideo lub audio przedstawiające światowego przywódcę wywołującego konflikt.
  • Niepokoje społeczne: Fałszywe nagrania audio i wideo mogą być wykorzystywane do wzbudzania niepokojów i gniewu wśród określonych grup społecznych.
  • Cyberbezpieczeństwo: Cyberprzestępcy używają już narzędzi do klonowania głosu opartych na AI, aby kierować do konkretnych osób przekonujące wiadomości od znanych im osób.
  • Prywatność i zgoda: Złośliwe wykorzystanie deepfake’ów obejmuje imitowanie wizerunku osób bez ich zgody.
  • Zaufanie i pewność: Jeżeli nie potrafimy odróżnić prawdy od fałszu, rzetelne informacje tracą na wiarygodności.

Deepfake’i stają się coraz bardziej realistyczne, dlatego potrzebujemy skutecznych narzędzi i metod ich wykrywania. Sztuczna inteligencja dostarcza takie narzędzie w postaci modeli identyfikacji deepfake’ów. Jednak, podobnie jak algorytmy zaprojektowane do identyfikacji tekstów tworzonych przez AI, systemy wykrywania deepfake’ów nie są perfekcyjne.

Obecnie ludzka intuicja jest jednym z głównych narzędzi, na którym możemy polegać. Czy jesteśmy skuteczniejsi od algorytmów w identyfikowaniu deepfake’ów?

Czy algorytmy mogą lepiej wykrywać deepfake’i niż ludzie?

Deepfake’i stanowią tak duże zagrożenie, że giganci technologiczni i instytucje badawcze inwestują znaczne środki w badania i rozwój. W 2019 roku firmy takie jak Meta, Microsoft i Amazon przeznaczyły nagrody o łącznej wartości 1 000 000 dolarów w ramach Wyzwania związanego z wykrywaniem deepfake’ów, mającego na celu wyłonienie najdokładniejszego modelu detekcji.

Najlepszy model osiągnął skuteczność na poziomie 82,56% w oparciu o zbiór danych obejmujący ogólnodostępne filmy. Jednak podczas testowania tych samych modeli na „zbiorze danych czarnej skrzynki” obejmującym 10 000 nowych filmów, skuteczność najlepszego modelu spadła do 65,18%.

Przeprowadzono także liczne badania porównujące skuteczność systemów AI w wykrywaniu deepfake’ów z ludźmi. Oczywiście, wyniki różnią się w zależności od badania, ale generalnie ludzie osiągają podobne lub lepsze rezultaty w porównaniu z narzędziami wykrywania deepfake’ów.

Jedno z badań z 2021 roku opublikowane w PNAS wykazało, że „zwykli obserwatorzy” osiągnęli nieznacznie wyższy poziom dokładności niż wiodące systemy wykrywania deepfake’ów. Badanie pokazało też, że zarówno uczestnicy badania, jak i systemy AI, popełniali różnego rodzaju błędy.

Interesujące jest również badanie przeprowadzone przez Uniwersytet w Sydney, które ujawniło, że ludzki mózg nieświadomie skuteczniej rozpoznaje deepfake’i niż nasze świadome próby.

Rozpoznawanie wizualnych wskazówek w deepfake’ach

Proces wykrywania deepfake’ów jest złożony, a metody analizy zależą od charakteru materiału wideo. Na przykład, słynny deepfake przedstawiający przywódcę Korei Północnej, Kim Dzong Una z 2020 roku, to w zasadzie film z dialogiem. W tym przypadku najbardziej efektywną metodą wykrywania deepfake’ów może być analiza visemów (ruchów ust) i fonemów (dźwięków mowy) w poszukiwaniu niespójności.

Takie analizy mogą być przeprowadzane przez ekspertów, zwykłych widzów oraz algorytmy, choć wyniki mogą być różne. MIT podaje osiem pytań pomocnych w identyfikacji deepfake’ów:

  • Zwróć uwagę na twarz. Wysokiej klasy manipulacje deepfake niemal zawsze dotyczą modyfikacji twarzy.
  • Zwróć uwagę na policzki i czoło. Czy skóra wydaje się zbyt gładka lub zbyt pomarszczona? Czy proces starzenia się skóry jest zgodny ze starzeniem się włosów i oczu? Deepfake’i mogą wykazywać niespójności w pewnych aspektach.
  • Zwróć uwagę na oczy i brwi. Czy cienie pojawiają się w miejscach, których można się spodziewać? Deepfake’i mogą nie w pełni oddawać naturalną fizykę sceny.
  • Zwróć uwagę na okulary. Czy występują odbicia? Czy jest ich zbyt wiele? Czy kąt odbicia zmienia się, gdy osoba się porusza? Deepfake’i mogą nie w pełni odzwierciedlać naturalnych zjawisk związanych z oświetleniem.
  • Zwróć uwagę na zarost lub jego brak. Czy zarost wygląda naturalnie? Deepfake’i mogą dodawać lub usuwać wąsy, baki lub brodę. Jednak transformacja zarostu może nie wyglądać naturalnie.
  • Zwróć uwagę na pieprzyki. Czy pieprzyk wygląda realistycznie?
  • Zwróć uwagę na mruganie. Czy osoba mruga wystarczająco, czy zbyt często?
  • Zwróć uwagę na ruchy ust. Niektóre deepfake’i opierają się na synchronizacji ruchów ust. Czy ruchy ust wyglądają naturalnie?

Nowoczesne systemy AI do wykrywania deepfake’ów są w stanie analizować te same aspekty, z różną skutecznością. Specjaliści od analizy danych nieustannie opracowują nowe metody, takie jak wykrywanie naturalnego przepływu krwi w twarzach osób widocznych na ekranie. Nowe podejścia i ulepszenia mogą w przyszłości doprowadzić do tego, że systemy oparte na sztucznej inteligencji będą skuteczniejsze w wykrywaniu deepfake’ów niż ludzie.

Wykrywanie wskazówek dźwiękowych w deepfake’ach

Wykrywanie fałszywego dźwięku to zupełnie odmienne wyzwanie. Bez wizualnych wskazówek i możliwości zidentyfikowania niespójności audiowizualnych, wykrywanie deepfake’ów opiera się głównie na analizie dźwięku (czasami pomocne mogą być również inne metody, takie jak weryfikacja metadanych).

Badanie opublikowane przez University College London w 2023 roku wykazało, że ludzie potrafią zidentyfikować fałszywą mowę w 73% przypadków (język angielski i mandaryński). Podobnie jak w przypadku filmów deepfake, słuchacze często intuicyjnie wyczuwają nienaturalne wzorce w mowie generowanej przez sztuczną inteligencję, nawet jeśli nie potrafią dokładnie określić, co jest nie tak.

Typowe objawy obejmują:

  • Bełkotliwą mowę
  • Brak ekspresji
  • Hałas w tle lub zakłócenia
  • Niespójność głosu lub mowy
  • Brak „pełni” w głosie
  • Mowę, która brzmi zbyt skryptowo
  • Brak niedoskonałości (pomyłek, poprawek, chrząknięć itp.)

Algorytmy również mogą analizować mowę pod kątem tych samych sygnałów, a nowe metody zwiększają efektywność tych narzędzi. Badania przeprowadzone przez USENIX zidentyfikowały wzorce w rekonstrukcji traktu głosowego przez AI, które odbiegają od naturalnej mowy. Podsumowując, generatory głosu AI tworzą dźwięk dopasowujący się do wąskich dróg głosowych, bez naturalnych ruchów ludzkiej mowy.

Wcześniejsze badania z Instytutu Horsta Görtza przeanalizowały autentyczne i deepfake nagrania audio w języku angielskim i japońskim, ujawniając subtelne różnice w wyższych częstotliwościach prawdziwej mowy i deepfake’ów.

Zarówno nieprawidłowości w obrębie traktu głosowego, jak i niespójności w zakresie wysokich częstotliwości są zauważalne dla ludzkich słuchaczy i systemów wykrywania opartych na sztucznej inteligencji. W przypadku różnic wysokich częstotliwości, systemy AI teoretycznie mogą stawać się coraz bardziej precyzyjne, choć to samo można powiedzieć o deepfake’ach generowanych przez AI.

Deepfake’i potrafią oszukać zarówno ludzi, jak i algorytmy, ale w różny sposób

Badania sugerują, że zarówno ludzie, jak i nowoczesne systemy wykrywania AI są w podobny sposób zdolne do identyfikowania deepfake’ów. Poziom skuteczności waha się od 50% do ponad 90%, w zależności od parametrów testu.

Podobnie, ludzie i maszyny w podobnym stopniu ulegają oszustwom deepfake’ów. Jednak co istotne, jesteśmy podatni na oszustwa w odmienny sposób, co może być naszym największym atutem w walce z zagrożeniami wynikającymi z technologii deepfake. Połączenie mocnych stron ludzi i systemów wykrywania deepfake’ów może zniwelować słabości każdego z nich i poprawić ogólny poziom skuteczności.

Na przykład badania MIT pokazały, że ludzie lepiej niż algorytmy rozpoznają fałszywe wizerunki światowych przywódców i celebrytów. Badanie wykazało również, że systemy AI miały trudności z materiałami wideo z udziałem wielu osób, co sugeruje, że może to wynikać z treningu algorytmów na materiałach wideo z pojedynczymi osobami.

Z drugiej strony, to samo badanie wykazało, że systemy AI radziły sobie lepiej niż ludzie w przypadku materiałów o niskiej jakości (rozmytych, ziarnistych, ciemnych), które można celowo wykorzystywać do wprowadzania w błąd odbiorców. Co więcej, nowoczesne metody wykrywania deepfake’ów oparte na AI, takie jak monitorowanie przepływu krwi w określonych obszarach twarzy, obejmują analizy, do których ludzie nie są zdolni.

Wraz z rozwojem nowych metod, zdolność sztucznej inteligencji do wykrywania nieoczywistych sygnałów będzie wzrastać, ale również jej zdolność do oszukiwania będzie się poprawiać. Kluczowe pytanie brzmi, czy technologia wykrywania deepfake’ów będzie stale wyprzedzać sam rozwój deepfake’ów.

Inne spojrzenie w erze deepfake’ów

Narzędzia AI do wykrywania deepfake’ów będą ciągle udoskonalane, podobnie jak jakość samych deepfake’ów. Jeśli zdolność sztucznej inteligencji do oszukiwania przekroczy jej zdolność do wykrywania (jak ma to miejsce w przypadku tekstów generowanych przez AI), ludzka intuicja może być jedynym narzędziem, które pozwoli nam walczyć z deepfake’ami.

Każdy z nas ma obowiązek nauczyć się rozpoznawania oznak deepfake’ów. Oprócz ochrony przed oszustwami i zagrożeniami bezpieczeństwa, wszystko, co oglądamy i udostępniamy w sieci, jest zagrożone dezinformacją, jeśli stracimy zdolność odróżniania rzeczywistości.