Zwykle ufamy treści nagrań wideo i audio. Ale dzięki sztucznej inteligencji każdą twarz lub głos można odtworzyć z najwyższą dokładnością. Produkt jest fałszywym fałszem, podszywaniem się pod inne osoby, które można wykorzystać w przypadku memów, dezinformacji lub pornografii.
Jedno spojrzenie na Nicholas Cage deepfakes czy Jordan Peele’s deepfake PSA wyjaśnia, że mamy do czynienia z dziwną nową technologią. Te przykłady, choć stosunkowo nieszkodliwe, rodzą pytania dotyczące przyszłości. Czy możemy ufać wideo i audio? Czy możemy pociągać ludzi do odpowiedzialności za ich działania na ekranie? Czy jesteśmy gotowi na deepfakes?
Deepfakes są nowe, łatwe w wykonaniu i szybko się rozwijają
Technologia Deepfake ma zaledwie kilka lat, ale już eksplodowała w coś, co jest zarówno urzekające, jak i niepokojące. Termin „deepfake”, który został ukuty w wątku Reddit w 2017 roku, jest używany do opisania odtwarzania ludzkiego wyglądu lub głosu za pomocą sztucznej inteligencji. Zaskakujące jest, że prawie każdy może stworzyć deepfake za pomocą kiepskiego komputera, jakiegoś oprogramowania i kilku godzin pracy.
Wierz lub nie, ale obraz po lewej to podróbka.
Jak w przypadku każdej nowej technologii, istnieje pewne zamieszanie związane z deepfakes. Wideo „pijany Pelosi” jest doskonałym przykładem tego zamieszania. Deepfake’y są tworzone przez sztuczną inteligencję i mają na celu podszywanie się pod ludzi. Wideo „dunk Pelosi”, które jest określane jako deepfake, jest w rzeczywistości po prostu nagraniem Nancy Pelosi, zwolniony i skorygowany aby dodać efekt niewyraźnej mowy.
To także odróżnia deepfakery od, powiedzmy, CGI Carrie Fisher w Star Wars: Rogue One. Podczas gdy Disney wydawał mnóstwo pieniędzy, badając twarz Carrie Fisher i odtwarzając ją ręcznie, kujon z jakimś oprogramowaniem deepfake może wykonać tę samą pracę za darmo w jeden dzień. AI sprawia, że praca jest niezwykle prosta, tania i przekonująca.
Jak zrobić Deepfake
Podobnie jak uczeń w klasie, sztuczna inteligencja musi „nauczyć się” wykonywania zamierzonego zadania. Odbywa się to poprzez proces prób i błędów brutalnej siły, zwykle nazywany uczeniem maszynowym lub uczeniem głębokim. Na przykład SI, która została zaprojektowana do ukończenia pierwszego poziomu Super Mario Bros., będzie grać w tę grę w kółko, dopóki nie znajdzie najlepszego sposobu na wygraną. Osoba projektująca sztuczną inteligencję musi dostarczyć pewne dane, aby rozpocząć, wraz z kilkoma „zasadami”, gdy po drodze coś pójdzie nie tak. Poza tym AI wykonuje całą pracę.
To samo dotyczy głębokiego odtwarzania twarzy. Ale oczywiście odtwarzanie twarzy to nie to samo, co granie w grę wideo. Gdybyśmy mieli stworzyć fałszerstwo Nicholasa Cage’a prowadzącego program Wendy Williams, oto czego potrzebowalibyśmy:
Film docelowy: w tej chwili deepfake działa najlepiej z wyraźnymi, czystymi filmami docelowymi. Dlatego jedne z najbardziej przekonujących fałszerstw dotyczą polityków; zwykle stoją nieruchomo na podium przy stałym oświetleniu. Potrzebujemy więc tylko filmu, na którym Wendy siedzi nieruchomo i mówi.
Dwa zestawy danych: aby ruchy ust i głowy wyglądały dokładnie, potrzebujemy zestawu danych twarzy Wendy Williams i zestawu danych twarzy Nicholasa Cage’a. Jeśli Wendy patrzy w prawo, potrzebujemy zdjęcia Nicholasa Cage’a patrzącego w prawo. Jeśli Wendy otworzy usta, potrzebujemy zdjęcia Cage’a otwierającego usta.
Następnie pozwoliliśmy sztucznej inteligencji wykonać swoją pracę. W kółko próbuje stworzyć deepfake, ucząc się po drodze na błędach. Proste, prawda? Cóż, film przedstawiający twarz Cage’a na twarzy Wendy William