Alexa, Siri i Google nie rozumieją słowa, które mówisz

Asystenci głosowi, tacy jak Alexa, Google Assistant i Siri, przeszli długą drogę w ciągu ostatnich kilku lat. Ale mimo wszystkich ulepszeń, jedna rzecz ich powstrzymuje: nie rozumieją cię. Za bardzo polegają na określonych poleceniach głosowych.

Rozpoznawanie mowy to tylko magiczna sztuczka

Mówi kropka echa

Asystenci głosowi cię nie rozumieją. W każdym razie nie do końca. Kiedy rozmawiasz z Google Home lub Amazon Echo, zasadniczo konwertuje twoje słowa na ciąg tekstowy, a następnie porównuje to z oczekiwanymi poleceniami. Jeśli znajdzie dokładne dopasowanie, postępuje zgodnie z zestawem instrukcji. Jeśli tak się nie stanie, szuka alternatywy dla tego, co zrobić w oparciu o posiadane informacje, a jeśli to nie zadziała, pojawi się komunikat o błędzie, taki jak „Przepraszam, ale nie wiem tego . ” To niewiele więcej niż sztuczka magii ręcznej, która ma skłonić cię do myślenia, że ​​ją rozumie.

Nie może korzystać ze wskazówek kontekstowych, aby zgadnąć, ani nawet wykorzystywać zrozumienia podobnych tematów do podejmowania decyzji. Nie jest też trudno potknąć się o asystentów głosowych. Chociaż możesz zapytać Alexę „Czy pracujesz dla NSA?” i uzyskaj odpowiedź, jeśli zapytasz „Czy potajemnie należysz do NSA?” otrzymujesz odpowiedź „Nie znam tego” (przynajmniej w momencie pisania tego tekstu).

Ludzie, którzy naprawdę rozumieją mowę, nie działają w ten sposób. Przypuśćmy, że zapytasz człowieka: „Co to za klarvain na niebie? Ten, który jest łukowaty i pełen pasiastych kolorów, takich jak czerwony, pomarańczowy, żółty i niebieski ”. Mimo że klarvain to zmyślone słowo, osoba, którą zapytałeś, mogłaby prawdopodobnie dowiedzieć się z kontekstu, że opisujesz tęczę.

Chociaż można by argumentować, że człowiek przekształca mowę w idee, może wtedy zastosować wiedzę i zrozumienie, aby sformułować odpowiedź. Jeśli zapytasz człowieka, czy potajemnie pracuje dla NSA, dadzą ci odpowiedź tak lub nie, nawet jeśli ta odpowiedź jest kłamstwem. Człowiek nie powiedziałby „tego nie znam” na takie pytanie. To, że ludzie mogą kłamać, wiąże się z prawdziwym zrozumieniem.

Asystenci głosowi nie mogą wyjść poza programowanie

Asystenci głosowi są ostatecznie ograniczeni do zaprogramowanych oczekiwanych parametrów, a wędrowanie poza nimi przerwie proces. Fakt ten pokazuje, kiedy do gry wchodzą urządzenia innych firm. Zwykle polecenie interakcji z nimi jest bardzo nieporęczne i sprowadza się do „nakazania producentowi urządzenia polecenia opcjonalnego argumentu”. Dokładny przykład to: „Powiedz firmie Whirlpool, aby wstrzymała suszarkę”. Jeszcze trudniejszy do zapamiętania przykład Umiejętność Geneva Alexa steruje niektórymi piekarnikami firmy GE. Użytkownik umiejętności musi pamiętać, aby „powiedzieć Genewie”, a nie „powiedzieć GE”, a następnie resztę polecenia. I chociaż możesz poprosić go o rozgrzanie piekarnika do 350 stopni, nie możesz kontynuować prośby o zwiększenie temperatury o kolejne 50 stopni. Jednak człowiek mógłby spełnić te prośby.

Amazon i Google bardzo ciężko pracowały, aby pokonać te przeszkody i to widać. Tam, gdzie kiedyś trzeba było wykonać powyższą sekwencję, aby sterować inteligentnym zamkiem, teraz możesz zamiast tego powiedzieć „zamknij drzwi wejściowe”. Alexa była kiedyś zdezorientowana przez „powiedz mi psi dowcip”, ale poproś o jeden dzisiaj i zadziała. Dodali warianty do poleceń, których używasz, ale ostatecznie nadal musisz znać właściwe polecenie do wypowiedzenia. Musisz użyć poprawnej składni we właściwej kolejności.

A jeśli myślisz, że to brzmi jak wiersz poleceń, nie mylisz się.

Asystenci głosowi to fantazyjna linia poleceń

Wiersz polecenia z tekstem wyszukiwania

Linia poleceń jest wąsko zdefiniowana w celu wykonywania prostych zadań, ale tylko wtedy, gdy znasz odpowiednią składnię. Jeśli wymkniesz się z poprawnej składni i wpiszesz dyr zamiast dir, w wierszu polecenia pojawi się komunikat o błędzie. Możesz używać aliasów, aby łatwiej zapamiętać polecenia, ale musisz wiedzieć, jakie były oryginalne polecenia, jak działają i jak efektywnie używać aliasów. Jeśli nie poświęcisz czasu na naukę tajników i poza linią poleceń, nigdy nie wyciągniesz z tego zbyt wiele.

Asystenci głosowi nie są inni. Musisz wiedzieć, jak wypowiedzieć polecenie lub zadać pytanie. Musisz wiedzieć, jak skonfigurować grupy dla Google i Alexa, dlaczego grupowanie urządzeń jest niezbędne i jak nazwać swoje inteligentne urządzenia. Jeśli nie wykonasz tych niezbędnych czynności, poczujesz frustrację poproszeniem asystenta głosowego o wyłączenie badania tylko po to, aby zapytać, „które badanie” powinno zostać wyłączone.

Nawet jeśli używasz poprawnej składni we właściwej kolejności, proces może się nie powieść. Albo z błędną odpowiedzią, albo z zaskakującym wynikiem. Dwa domy Google w tym samym domu mogą podawać pogodę dla nieco innych lokalizacji, mimo że mają dostęp do tych samych danych konta użytkownika i połączenia internetowego.

W powyższym przykładzie podano polecenie „Ustaw zegar na pół godziny”. Centrum Google Home utworzyło licznik czasu o nazwie „Godzina”, a następnie zapytało, jak długo powinien on być. A jednak powtórzenie tego samego polecenia trzy razy działało poprawnie i utworzyło 30-minutowy licznik czasu. Użycie polecenia „Ustaw minutnik na 30 minut” działa poprawnie w bardziej spójny sposób.

Podczas gdy mówienie do Google Home lub Echo może być bardziej płynne, pod maską asystenci głosowi i linie poleceń działają w ten sam sposób. Być może nie musisz uczyć się nowego języka, ale musisz nauczyć się nowego dialektu.

Wąskie zrozumienie asystentów głosowych ograniczy wzrost

Domowe centrum Google i spot Echo przed inteligentnym gniazdkiem i żarówką

Nic z tego nie przeszkadza asystentom głosowym, takim jak Asystent Google i Alexa, działać wystarczająco dobrze (chociaż Cortana to inna historia). Asystent Google i Alexa oraz przyzwoicie wyszukuj pytania online, choć nie jest zaskakujące, że Google jest lepszy w wyszukiwaniu i może odpowiadać na podstawowe pytania, takie jak konwersje pomiarów i prosta matematyka. W przypadku prawidłowo skonfigurowanego inteligentnego domu i dobrze wyszkolonego użytkownika większość poleceń inteligentnego domu będzie działać zgodnie z przeznaczeniem. Ale to wynikało z pracy i wysiłku, a nie intelektualnego zrozumienia.

Timery i alarmy były kiedyś uproszczone. Z biegiem czasu dodano nazewnictwo, a następnie możliwość dodawania czasu do timera. Przeszli od uproszczonych do bardziej skomplikowanych. Asystenci głosowi mogą odpowiedzieć na więcej pytań, a każdy dzień przynosi nowe umiejętności i funkcje. Ale to nie jest produkt samorozwoju, który pochodzi z uczenia się i zrozumienia.

I nic z tego nie zapewnia wrodzonej możliwości wykorzystania tego, co wiadomo, aby dotrzeć do nieznanego. Dla każdego polecenia i pytania, które działają, zawsze będą trzy, które nie działają. Bez przełomu w sztucznej inteligencji, który zapewnia ludzką zdolność rozumienia, asystenci głosowi wcale nie są asystentami. To tylko linie poleceń głosowych – przydatne w odpowiednim scenariuszu, ale ograniczone do tych scenariuszy, które zostały zaprogramowane do zrozumienia.

Innymi słowy: maszyny uczą się rzeczy, ale nie mogą ich zrozumieć.