Jak działa rozpoznawanie twarzy?

Większość ludzi czuje się komfortowo z rozpoznawaniem twarzy do użytku w filtrach Instagrama i Face ID. Ale ta stosunkowo nowa technologia może wydawać się trochę przerażająca. Twoja twarz jest jak odcisk palca, a technologia rozpoznawania twarzy jest złożona.

Jak każda nowa technologia, rozpoznawanie twarzy ma swoje wady. Te wady stają się coraz bardziej widoczne, gdy wojsko, policja, reklamodawcyi twórcy deepfake’ów znajdują nowe, przebiegłe sposoby wykorzystania oprogramowania do rozpoznawania twarzy.

Teraz, bardziej niż kiedykolwiek, ważne jest, aby ludzie zrozumieli, jak działa rozpoznawanie twarzy. Ważne jest również poznanie ograniczeń rozpoznawania twarzy i tego, jak rozwinie się ono w przyszłości.

Rozpoznawanie twarzy jest zaskakująco proste

Przed zapoznaniem się z wieloma różnymi metodami rozpoznawania twarzy, ważne jest, aby zrozumieć, jak działa proces rozpoznawania twarzy. Oto trzy aplikacje do oprogramowania do rozpoznawania twarzy i proste wyjaśnienie, w jaki sposób rozpoznają lub identyfikują twarze:

Podstawowe rozpoznawanie twarzy: w przypadku filtrów Animoji i Instagrama aparat w telefonie „wyszukuje” charakterystyczne cechy twarzy, w szczególności parę oczu, nos i usta. Następnie używa algorytmów, aby zablokować twarz i określić, w jakim kierunku patrzy, czy ma otwarte usta itp. Warto wspomnieć, że to nie jest identyfikacja twarzy, to tylko oprogramowanie wyszukujące twarze.
Face ID i podobne programy: Po skonfigurowaniu Face ID (lub podobnych programów) w telefonie, robi zdjęcie twojej twarzy i mierzy odległość między twoimi rysami twarzy. Następnie za każdym razem, gdy idziesz odblokować telefon, „patrzy” przez aparat, aby zmierzyć i potwierdzić Twoją tożsamość.
Identyfikacja nieznajomego: gdy organizacja chce zidentyfikować twarz do celów bezpieczeństwa, reklamy lub działań policyjnych, używa algorytmów, aby porównać tę twarz z obszerną bazą danych twarzy. Ten proces jest prawie identyczny z identyfikatorem twarzy Apple, ale na większą skalę. Teoretycznie można by użyć dowolnej bazy danych (identyfikatory, profile na Facebooku), ale baza danych zawierająca wyraźne, wstępnie zidentyfikowane zdjęcia jest idealna.

W porządku, przejdźmy do szczegółów. Ponieważ „podstawowe rozpoznawanie twarzy” używane w filtrach Instagrama jest tak prostym i nieszkodliwym procesem, skupimy się całkowicie na identyfikacji twarzy i wielu różnych technologiach, które można wykorzystać do identyfikacji twarzy.

Większość funkcji rozpoznawania twarzy opiera się na obrazach 2D

Jak można się spodziewać, większość programów do rozpoznawania twarzy opiera się wyłącznie na obrazach 2D. Ale tak się nie dzieje, ponieważ obrazowanie twarzy 2D jest bardzo dokładne, odbywa się to ze względu na wygodę. Zdecydowana większość aparatów robi zdjęcia bez żadnej głębi, a zdjęcia publiczne, które można wykorzystać w bazach danych rozpoznawania twarzy (na przykład zdjęcia profilowe na Facebooku), są wszystkie w 2D.

Mężczyzna korzystający z technologii rozpoznawania twarzy, aby zidentyfikować osobę w bazie danych.

Dlaczego obrazowanie twarzy 2D nie jest bardzo dokładne? Cóż, ponieważ płaski obraz twojej twarzy nie ma cech identyfikujących, takich jak głębia. W przypadku płaskiego obrazu komputer może mierzyć między innymi odległość źrenic i szerokość ust. Ale nie jest w stanie określić długości nosa ani wystającego czoła.

Ponadto obrazowanie twarzy 2D opiera się na widmie światła widzialnego. Oznacza to, że obrazowanie twarzy 2D nie działa w ciemności i może być zawodne w ostrym lub zacienionym oświetleniu.

Oczywiście, sposobem obejścia niektórych z tych niedociągnięć jest użycie trójwymiarowego obrazowania twarzy. Ale jak to możliwe? Czy potrzebujesz specjalnego sprzętu, aby zobaczyć twarz w 3D?

Kamery na podczerwień dodają głębi Twojej tożsamości

Podczas gdy niektóre aplikacje do rozpoznawania twarzy opierają się wyłącznie na obrazach 2D, często zdarza się, że rozpoznawanie twarzy opiera się również na obrazowaniu 3D. W rzeczywistości Twoje doświadczenie z rozpoznawaniem twarzy prawdopodobnie obejmuje szczyptę 3D.

Osiąga się to dzięki technice zwanej lidarem, która jest podobna do sonaru. Zasadniczo urządzenia do skanowania twarzy, takie jak iPhone, wysyłają nieszkodliwą matrycę IR na twoją twarz. Ta matryca (ściana laserów) następnie odbija się od twarzy i jest odbierana przez kamerę IR (lub kamerę ToF) w telefonie.

Kobieta korzystająca z Face ID lub podobnej technologii rozpoznawania twarzy opartej na podczerwieni.

Gdzie dzieje się magia 3D? Kamera na podczerwień w telefonie mierzy, jak długo każdy kawałek światła podczerwonego odbija się od twarzy i powraca do telefonu. Oczywiście światło odbijające się od nosa będzie miało krótszą drogę niż światło odbijające się od uszu, a kamera na podczerwień wykorzystuje te informacje do stworzenia unikalnej mapy głębi twarzy. W połączeniu z podstawowym obrazowaniem 2D, obrazowanie 3D może znacznie zwiększyć dokładność oprogramowania do rozpoznawania twarzy.

Obrazowanie Lidar to dziwna koncepcja, której objęcie głową może być trudne. Jeśli to pomoże, spróbuj sobie wyobrazić, że siatka podczerwieni telefonu (lub dowolnego urządzenia do rozpoznawania twarzy) to Zabawka do korków. Podobnie jak w zabawce z tabliczką, Twoja twarz pozostawia wgłębienie w siatce IR, gdzie nos jest zauważalnie głębszy niż, powiedzmy, oczy.

Obrazowanie termiczne umożliwia rozpoznawanie twarzy w nocy

Jedną z wad rozpoznawania twarzy 2D jest to, że opiera się na widzialnym spektrum światła. Mówiąc prościej, podstawowe rozpoznawanie twarzy nie działa w ciemności. Ale można to obejść, używając kamery termowizyjnej (tak, jak w Tomie Clancy).

„Chwileczkę”, możesz powiedzieć, „czy termowizja nie polega na świetle podczerwonym?” Tak. Jednak kamery termowizyjne nie wysyłają podmuchów światła podczerwonego; po prostu wykrywają światło podczerwone emitowane przez obiekty. Ciepłe obiekty emitują mnóstwo światła podczerwonego, podczas gdy zimne obiekty emitują znikomą ilość światła podczerwonego. Drogie kamery termowizyjne mogą nawet wykryć subtelne różnice temperatur na całej powierzchni, więc technologia ta jest idealna do rozpoznawania twarzy.

Trzy zdjęcia.  Pierwsza pochodzi z widma światła widzialnego, druga to nieruchomy obraz termiczny, a trzecia to złożony obraz termiczny.Obraz widma światła widzialnego, obraz termiczny i złożony obraz termiczny.

Istnieją na kilka różnych sposobów zidentyfikować twarz za pomocą termowizji. Wszystkie te techniki są niezwykle skomplikowane, ale mają pewne podstawowe podobieństwa, więc postaramy się, aby lista była prosta:

Potrzeba wielu zdjęć: kamera termowizyjna wykonuje wiele zdjęć twarzy obiektu. Każde zdjęcie przedstawia inne spektrum światła podczerwonego (fale długie, krótkie i średnie). Zwykle widmo fal długich zapewnia najwięcej szczegółów twarzy.
Mapy naczyń krwionośnych są przydatne: te obrazy IR można również wykorzystać do wyodrębnienia naczyń krwionośnych na twarzy. To przerażające, ale mapy naczyń krwionośnych mogą być używane jak unikalne odciski palców twarzy. Mogą być również używane do określania odległości między narządami twarzy (jeśli typowe obrazowanie termiczne daje tandetne obrazy) lub do identyfikacji siniaków i blizn.
Przedmiot można zidentyfikować: obraz złożony (lub zbiór danych) jest tworzony przy użyciu wielu obrazów w podczerwieni. Ten złożony obraz można następnie porównać z bazą danych twarzy, aby zidentyfikować podmiot.

Oczywiście, termiczne rozpoznawanie twarzy jest zwykle używane przez wojsko, nie jest to coś, co znajdziesz w Khols, i nie jest to coś, co otrzymasz z następnym telefonem komórkowym. Ponadto obrazowanie termiczne nie działa dobrze w ciągu dnia (lub w ogólnie dobrze oświetlonym otoczeniu), więc nie ma wielu potencjalnych zastosowań poza wojskiem.

Ograniczenia rozpoznawania twarzy

Spędziliśmy dużo czasu, rozmawiając o wadach rozpoznawania twarzy. Jak widzieliśmy na podstawie obrazowania w podczerwieni i termowizji, niektóre z tych ograniczeń można przezwyciężyć. Ale nadal istnieje kilka problemów, których jeszcze nie rozwiązano:

Przeszkoda: jak można się spodziewać, okulary przeciwsłoneczne i inne akcesoria mogą potknąć się o oprogramowanie do rozpoznawania twarzy.
Pozy: Rozpoznawanie twarzy działa najlepiej w przypadku neutralnego obrazu skierowanego do przodu. Pochylenie lub obrócenie głowy może utrudnić rozpoznawanie twarzy, nawet w przypadku oprogramowania do rozpoznawania opartego na podczerwieni. Ponadto uśmiech, napuchnięte policzki lub dowolna inna pozycja mogą zmienić sposób, w jaki komputer mierzy twoją twarz.
Światło: wszystkie formy rozpoznawania twarzy opierają się na świetle, niezależnie od tego, czy jest to widmo widzialne, czy światło podczerwone. W rezultacie dziwne warunki oświetleniowe mogą zmniejszyć dokładność identyfikacji twarzy. Może się to zmienić, ponieważ naukowcy obecnie się rozwijają technologia rozpoznawania twarzy oparta na sonarze.
Baza danych: bez dobrej bazy danych rozpoznawanie twarzy nie może działać. W ten sam sposób niemożliwe jest zidentyfikowanie twarzy, która nie została poprawnie zidentyfikowana w przeszłości.
Przetwarzanie danych: w zależności od rozmiaru i formatu bazy danych, komputerom może zająć trochę czasu, aby poprawnie zidentyfikować twarze. W niektórych sytuacjach, na przykład w przypadku działań policyjnych, ograniczenia w przetwarzaniu danych ograniczają wykorzystanie identyfikacji twarzy w codziennych zastosowaniach (co jest prawdopodobnie dobrą rzeczą).

Obecnie najlepszym sposobem obejścia tych ograniczeń jest użycie innych form identyfikacji w połączeniu z rozpoznawaniem twarzy. Telefon poprosi o hasło lub odcisk palca, jeśli nie zidentyfikuje Twojej twarzy, a plik Rząd chiński wykorzystuje karty identyfikacyjne i technologię śledzenia, aby zamknąć margines błędu istniejący w jej sieci rozpoznawania twarzy.

W przyszłości naukowcy z pewnością znajdą sposób na obejście tych problemów. Mogą używać technologii sonarowej wraz z lidarem do tworzenia trójwymiarowych map twarzy w dowolnym środowisku i mogą znaleźć sposoby przetwarzania danych twarzy (i identyfikowania obcych) w niewiarygodnie krótkim czasie. Tak czy inaczej, ta technologia ma duży potencjał do nadużyć, więc warto za nią nadążyć.

Źródła: Uniwersytet w Rijece, Fundacja Electronic Frontier