Jak Alexa nasłuchuje słów budzenia

Alexa zawsze słucha, ale nie ciągle nagrywa. Nie wysyła niczego do serwerów w chmurze, dopóki nie usłyszy, jak mówisz słowo budzenia (Alexa, Echo lub Computer). Ale słuchanie słów przebudzenia jest trudniejsze, niż mogłoby się wydawać.

Sprzęt Echo nie jest wcale taki inteligentny. Bez internetu żadne żądanie lub pytanie, które zadasz, zakończy się niepowodzeniem. Dzieje się tak, ponieważ Twoje polecenia są wysyłane do chmury w celu interpretacji i decyzji. Amazon nie chce, aby każda rozmowa prowadzona przed inteligentnym głośnikiem była nagrywana, ale raczej tylko polecenia, które wydajesz inteligentnemu głośnikowi. Z tego powodu firma stosuje słowo ostrzegawcze, aby zwrócić uwagę sprytnego mówcy. Aby to osiągnąć, Amazon używa kombinacji precyzyjnie dostrojonych mikrofonów, krótkiego bufora pamięci i treningu sieci neuronowej.

Precyzyjnie dostrojone mikrofony Wykryj Twój głos

Amazon Echo dot 3 z podświetlonym jasnoniebieskim pierścieniem LED.Jasnoniebieska dioda LED zawsze będzie skierowana w kierunku Twojego głosu.

Głośniki asystenta głosowego, takie jak Echo i Echo Dot, zwykle mają wiele wbudowanych mikrofonów. Na przykład Echo Dot ma siedem. Ta tablica daje urządzeniom kilka możliwości, od słyszenia poleceń wypowiadanych z dużej odległości, po oddzielanie szumów tła od głosów.

Ta ostatnia jest szczególnie pomocna przy wykrywaniu słów wybudzających. Używając wielu mikrofonów, Echo może wskazać Twoją lokalizację względem miejsca, w którym siedzi i słuchać w tym kierunku, ignorując resztę pokoju.

Widzisz to w akcji za każdym razem, gdy używasz słowa budzenia. Stań z boku echa lub kropki echa i powiedz słowo czuwania. Zauważ, że pierścień świeci się na ciemnoniebiesko, a następnie na jaśniejszy niebieski, gdy okrąża i „wskazuje” na Ciebie. Teraz przesuń się o kilka kroków w bok i ponownie wypowiedz słowo budzenia. Zauważ, że podążają za tobą jasnoniebieskie światła.

Wiedza o tym, gdzie jesteś, pomaga urządzeniu lepiej skupić się na tobie i wycisz dźwięki dochodzące z innego miejsca.

Krótka pamięć zapobiega zbytniemu trzymaniu głośnika

Urządzenia Echo mają dużo miejsca do przechowywania, ale nie używają go dużo. Według Rohita Prasada, wiceprezesa Amazona i głównego naukowca Alexa Artificial Intelligence, Echo może fizycznie przechowywać tylko kilka sekund dźwięku.

Zmniejszając swoje możliwości, Amazon nie tylko zapewnia więcej prywatności (jest to jedno miejsce mniej, w którym jest przechowywany Twój głos), ale także uniemożliwia Echo słuchanie całych rozmów, ograniczając się do znalezienia słowa budzenia.

Wyobraź sobie, że masz trzysekundową kasetę i magnetofon. Przypuśćmy, że po osiągnięciu końca taśma w kółko powracała do początku. Jeśli zaczniesz nagrywać rozmowę, wszystko, co powiedziałeś cztery sekundy temu, zostanie wyczyszczone i natychmiast nagrane. To właśnie robi Amazon Echo.

Nagrywa w sposób ciągły, ale jednocześnie usuwa wszystko, co właśnie nagrał. Ta krótka koncentracja oznacza, że ​​wszystko, co słyszy, to słowo „Alexa” i niewiele więcej. Jednak trzy sekundy wystarczą, aby to słowo zostało zapisane, zbadane i odpowiednio wykorzystane.

Trening sieci neuronowej pomaga w dopasowywaniu wzorców

Schemat blokowy warstw algorytmu Amazon.Reprezentacja warstw używanych przez algorytmy Amazona.

Wreszcie Amazon zależy od szkolenie sieci neuronowych nauczyć Echo, jak dopasowywać wzorce. Podobnie jak inne formy uczenia maszynowego, Amazon szkoli swoje algorytmy, podając mu instancję po wystąpieniu słowa Alexa (lub Komputer lub Echo, w zależności od tego, które słowo budzenia trenuje firma).

Chodzi o to, aby pokryć każdą odmianę i akcent, ale także kontekst. Amazon chce, aby Twoje Echo rozpoznało różnicę, kiedy z nim rozmawiasz, kiedy o tym mówisz, a może, kiedy rozmawiasz z osobą o imieniu Alexa. W osiągnięciu tego celu pomagają również mikrofony kierunkowe.

Każde słowo, które słyszy echo, przepuszcza dźwięk przez warstwy algorytmów. Każda warstwa została zaprojektowana tak, aby wykluczyć fałszywe alarmy, szukając podobnych dźwięków lub wskazówek kontekstowych. Jeśli sprawdzenie jednej warstwy przejdzie pomyślnie, słowo przechodzi do następnej. Wreszcie, gdy lokalne urządzenie zdecyduje, że usłyszało słowo budzenia, zaczyna nagrywać i przekazywać dźwięk do serwerów Amazon w chmurze. Amazon stosuje cztery algorytmy: jeden dla każdego słowa budzenia (Alexa, Computer, Echo) i jeden dla Alexa Guard, który traktuje określone dźwięki, takie jak tłuczenie szkła, jak słowo budzenia.

Ale nawet jeśli dojdzie do dopasowania, Amazon nadal przeprowadza bardziej skomplikowane kontrole. Czy zauważyłeś, że kiedy ktoś wypowiada słowo Alexa w programie telewizyjnym lub reklamie, zwykle nie wywołuje to odpowiedzi od twojego echa? To dlatego, że Amazon sprawdza również chmurę.

Cloud Checks wyklucza niektóre fałszywie dodatnie wyniki

Mężczyzna z reklamy Alexa gapi się na swoją oświetloną szczoteczkę do zębów Echo.To przezabawna reklama Alexa nie obudzi twojego echa.

Kiedy firmy tworzą reklamy z Alexą, mogą przesłać dźwięk do Amazon. Firma przetwarza dźwięk za pomocą podobnych algorytmów dopasowywania wzorców używanych do identyfikacji słowa budzącego. Po całkowitym skatalogowaniu tej dokładnej instancji jest ona dodawana do bazy danych.

W ramach procesu sięgania do chmury Twoje echo zawiera informacje o słowie budzenia, które usłyszało, i sprawdza tę bazę danych. Za każdym razem, gdy znajdzie dopasowanie, Amazon instruuje Twoje echo, aby zignorowało słowo budzenia, zamknęło i odrzuciło nagrany dźwięk.

Ponadto Amazon sprawdza, czy jednocześnie występuje słowo budzenia. Nie każda firma przesyła dźwięk do Amazon, więc firma wymyśliła nowatorskie rozwiązanie do tworzenia kopii zapasowych. Po sprawdzeniu, czy baza danych jest zgodna, firma porównuje nadruk słowa przebudzenia z innymi wystąpieniami przychodzącymi w tym samym czasie. Jest mało prawdopodobne, aby dwie osoby, które powiedzą Alexa jednocześnie, brzmiały dokładnie tak samo, więc jeśli jest dopasowanie, Amazon wie, że jest to prawdopodobnie reklama lub program telewizyjny i ignoruje żądanie.

Pomimo wszystkich kontroli nadal występują fałszywe alarmy. Możesz słuchać tego, co nagrało Twoje echo Centrum prywatności Amazon, a prawdopodobnie znajdziesz w paczce co najmniej jeden fałszywie pozytywny wynik. Ale technologia jest stale ulepszana i ostatecznie Amazon chciałby, aby w ogóle działała bez słowa ostrzegawczego.