Alexa zawsze słucha, ale nie ciągle nagrywa. Nie wysyła niczego do serwerów w chmurze, dopóki nie usłyszy, jak mówisz słowo budzenia (Alexa, Echo lub Komputer). Jednak słuchanie słów budzenia jest trudniejsze, niż mogłoby się wydawać.
Sprzęt Echo nie jest wcale taki inteligentny. Bez dostępu do internetu żadne żądanie lub pytanie, które zadasz, nie będzie mogło zostać zrealizowane. Dzieje się tak, ponieważ Twoje polecenia są wysyłane do chmury w celu interpretacji i podjęcia decyzji. Amazon nie chce, aby każda rozmowa prowadzona przed inteligentnym głośnikiem była nagrywana, ale raczej tylko polecenia, które wydajesz. Z tego powodu firma stosuje słowo budzenia, aby zwrócić uwagę urządzenia. Aby to osiągnąć, Amazon wykorzystuje kombinację precyzyjnie dostrojonych mikrofonów, krótkiego bufora pamięci oraz treningu sieci neuronowej.
Precyzyjnie dostrojone mikrofony wykrywają Twój głos
Jasnoniebieska dioda LED zawsze będzie skierowana w kierunku Twojego głosu.
Głośniki asystenta głosowego, takie jak Echo i Echo Dot, zwykle mają wiele wbudowanych mikrofonów. Na przykład Echo Dot ma ich siedem. Ta tablica daje urządzeniom wiele możliwości, od słyszenia poleceń wypowiadanych z dużej odległości, po oddzielanie szumów tła od głosów.
Ta ostatnia cecha jest szczególnie pomocna przy wykrywaniu słów budzenia. Używając wielu mikrofonów, Echo może określić Twoją lokalizację względem miejsca, w którym siedzi, i skupić się na tym kierunku, ignorując resztę pokoju.
Widzisz to w akcji za każdym razem, gdy używasz słowa budzenia. Stań z boku echa lub kropki echa i powiedz słowo budzenia. Zauważ, że pierścień świeci się na ciemnoniebiesko, a następnie na jaśniejszy niebieski, gdy urządzenie „wskazuje” na Ciebie. Teraz przesuń się o kilka kroków w bok i ponownie wypowiedz słowo budzenia. Zauważ, że jasnoniebieskie światła podążają za Tobą.
Wiedza o tym, gdzie jesteś, pomaga urządzeniu lepiej skupić się na Tobie i wyciszać dźwięki dochodzące z innych miejsc.
Krótka pamięć zapobiega zbytniemu trzymaniu głośnika
Urządzenia Echo mają dużo miejsca do przechowywania, ale nie wykorzystują go w dużym stopniu. Według Rohita Prasada, wiceprezesa Amazona i głównego naukowca Alexa Artificial Intelligence, Echo może fizycznie przechowywać tylko kilka sekund dźwięku.
Ograniczając swoje możliwości, Amazon nie tylko zapewnia większą prywatność (to jedno miejsce mniej, w którym przechowywany jest Twój głos), ale także uniemożliwia Echo słuchanie całych rozmów, ograniczając się do znalezienia słowa budzenia.
Wyobraź sobie, że masz trzysekundową taśmę magnetofonową. Po osiągnięciu końca taśma wciąż wraca do początku. Jeśli zaczniesz nagrywać rozmowę, wszystko, co powiedziałeś cztery sekundy temu, zostanie wyczyszczone i natychmiast nagrane. Tak działa Amazon Echo.
Nagrywa w sposób ciągły, ale jednocześnie usuwa wszystko, co właśnie nagrał. Ta krótka pamięć oznacza, że wszystko, co słyszy, to słowo „Alexa” i niewiele więcej. Jednak trzy sekundy wystarczą, aby to słowo zostało zapisane, zbadane i odpowiednio wykorzystane.
Trening sieci neuronowej pomaga w dopasowywaniu wzorców
Reprezentacja warstw używanych przez algorytmy Amazona.
Wreszcie Amazon polega na szkoleniu sieci neuronowych, aby nauczyć Echo, jak dopasowywać wzorce. Podobnie jak inne formy uczenia maszynowego, Amazon szkoli swoje algorytmy, podając im instancje wystąpienia słowa Alexa (lub Komputer lub Echo, w zależności od tego, które słowo budzenia trenuje firma).
Chodzi o to, aby pokryć każdą odmianę i akcent, ale także kontekst. Amazon chce, aby Twoje Echo rozpoznało różnicę, kiedy z nim rozmawiasz, kiedy o nim mówisz, a może, kiedy rozmawiasz z osobą o imieniu Alexa. W osiągnięciu tego celu pomagają również mikrofony kierunkowe.
Każde słowo, które słyszy Echo, przepuszcza dźwięk przez warstwy algorytmów. Każda warstwa została zaprojektowana tak, aby wykluczyć fałszywe alarmy, szukając podobnych dźwięków lub wskazówek kontekstowych. Jeśli sprawdzenie jednej warstwy przejdzie pomyślnie, słowo przechodzi do następnej. W końcu, gdy lokalne urządzenie zdecyduje, że usłyszało słowo budzenia, zaczyna nagrywać i przekazywać dźwięk do serwerów Amazon w chmurze. Amazon stosuje cztery algorytmy: jeden dla każdego słowa budzenia (Alexa, Komputer, Echo) oraz jeden dla Alexa Guard, który traktuje określone dźwięki, takie jak tłuczenie szkła, jak słowo budzenia.
Ale nawet jeśli dojdzie do dopasowania, Amazon nadal przeprowadza bardziej skomplikowane kontrole. Czy zauważyłeś, że kiedy ktoś wypowiada słowo Alexa w programie telewizyjnym lub reklamie, zwykle nie wywołuje to odpowiedzi od Twojego echa? To dlatego, że Amazon sprawdza również chmurę.
Cloud Checks wyklucza niektóre fałszywe alarmy
To przezabawna reklama Alexa nie obudzi Twojego echa.
Kiedy firmy tworzą reklamy z Alexą, mogą przesłać dźwięk do Amazon. Firma przetwarza dźwięk za pomocą podobnych algorytmów dopasowywania wzorców używanych do identyfikacji słowa budzącego. Po całkowitym skatalogowaniu tej konkretnej instancji jest ona dodawana do bazy danych.
W ramach procesu sięgania do chmury Twoje Echo zawiera informacje o słowie budzenia, które usłyszało, i sprawdza tę bazę danych. Za każdym razem, gdy znajdzie dopasowanie, Amazon instruuje Twoje Echo, aby zignorowało to słowo budzenia, zamknęło i odrzuciło nagrany dźwięk.
Ponadto Amazon sprawdza, czy jednocześnie występuje słowo budzenia. Nie każda firma przesyła dźwięk do Amazon, więc firma wymyśliła nowatorskie rozwiązanie do tworzenia kopii zapasowych. Po sprawdzeniu, czy baza danych jest zgodna, firma porównuje nadruk słowa budzenia z innymi wystąpieniami przychodzącymi w tym samym czasie. Jest mało prawdopodobne, aby dwie osoby, które powiedzą Alexa jednocześnie, brzmiały dokładnie tak samo, więc jeśli jest dopasowanie, Amazon wie, że prawdopodobnie jest to reklama lub program telewizyjny i ignoruje żądanie.
Pomimo wszystkich kontroli nadal występują fałszywe alarmy. Możesz sprawdzić, co nagrało Twoje Echo, w Centrum prywatności Amazon, a prawdopodobnie znajdziesz w paczce co najmniej jeden fałszywie pozytywny wynik. Jednak technologia jest stale ulepszana i ostatecznie Amazon chciałby, aby urządzenie działało bez konieczności używania słowa budzenia.
newsblog.pl