Alexa, Siri i Google nie rozumieją słowa, które mówisz

Spis treści:

Asystenci głosowi, tacy jak Alexa, Google Assistant i Siri, przeszli długą drogę w ciągu ostatnich kilku lat. Mimo wielu ulepszeń, jedna rzecz ich powstrzymuje: nie rozumieją cię. Zbyt mocno polegają na określonych poleceniach głosowych.

Rozpoznawanie mowy to tylko magiczna sztuczka

Asystenci głosowi nie rozumieją cię. W każdym razie nie do końca. Kiedy rozmawiasz z Google Home lub Amazon Echo, konwertują twoje słowa na ciąg tekstowy, a następnie porównują je z oczekiwanymi poleceniami. Jeśli znajdą dokładne dopasowanie, wykonują zestaw instrukcji. Jeśli nie, szukają alternatywy na podstawie posiadanych informacji, a jeśli to nie zadziała, pojawia się komunikat o błędzie, taki jak „Przepraszam, ale nie wiem tego.” To niewiele więcej niż sztuczka, która sprawia, że myślisz, że rozumieją.

Nie potrafią korzystać ze wskazówek kontekstowych ani wykorzystywać zrozumienia podobnych tematów do podejmowania decyzji. Łatwo można się potknąć o asystentów głosowych. Na przykład, możesz zapytać Alexę: „Czy pracujesz dla NSA?”, a ona odpowie, ale jeśli zapytasz: „Czy potajemnie należysz do NSA?”, usłyszysz: „Nie znam tego” (przynajmniej w momencie pisania tego tekstu).

Ludzie, którzy naprawdę rozumieją mowę, nie działają w ten sposób. Przypuśćmy, że zapytasz człowieka: „Co to za klarvain na niebie, ten, który jest łukowaty i pełen pasiastych kolorów, takich jak czerwony, pomarańczowy, żółty i niebieski?”. Mimo że „klarvain” to zmyślone słowo, osoba, którą zapytałeś, mogłaby prawdopodobnie z kontekstu wydedukować, że opisujesz tęczę.

Można argumentować, że człowiek przekształca mowę w idee i może zastosować swoją wiedzę oraz zrozumienie, aby sformułować odpowiedź. Jeśli zapytasz człowieka, czy potajemnie pracuje dla NSA, udzieli ci odpowiedzi „tak” lub „nie”, nawet jeśli ta odpowiedź jest kłamstwem. Człowiek nie powiedziałby „tego nie znam” na takie pytanie. To, że ludzie mogą kłamać, wiąże się z prawdziwym zrozumieniem.

Asystenci głosowi nie mogą wyjść poza programowanie

Asystenci głosowi są ograniczeni do zaprogramowanych oczekiwanych parametrów, a wędrowanie poza nimi przerywa proces. Fakt ten staje się oczywisty, gdy do gry wchodzą urządzenia innych firm. Zwykle interakcja z nimi jest nieporęczna i sprowadza się do „nakazania producentowi urządzenia polecenia opcjonalnego argumentu”. Przykładem jest: „Powiedz firmie Whirlpool, aby wstrzymała suszarkę.” Jeszcze trudniejszy do zapamiętania przykład to Umiejętność Geneva Alexa, która steruje niektórymi piekarnikami firmy GE. Użytkownik umiejętności musi pamiętać, aby „powiedzieć Genewie”, a nie „powiedzieć GE”, a następnie resztę polecenia. Chociaż możesz poprosić go o rozgrzanie piekarnika do 350 stopni, nie możesz kontynuować prośby o zwiększenie temperatury o kolejne 50 stopni. Jednak człowiek mógłby spełnić te prośby.

Amazon i Google ciężko pracowały, aby pokonać te przeszkody. Tam, gdzie kiedyś trzeba było wykonać skomplikowaną sekwencję, aby sterować inteligentnym zamkiem, teraz możesz po prostu powiedzieć „zamknij drzwi wejściowe”. Alexa była kiedyś zdezorientowana przez „powiedz mi psi dowcip”, ale dziś poproś o jeden, a zadziała. Dodali warianty do poleceń, których używasz, ale ostatecznie nadal musisz znać właściwe polecenie do wypowiedzenia. Musisz użyć poprawnej składni we właściwej kolejności.

A jeśli myślisz, że to brzmi jak linia poleceń, nie mylisz się.

Asystenci głosowi to fantazyjna linia poleceń

Linia poleceń jest ściśle zdefiniowana w celu wykonywania prostych zadań, ale tylko wtedy, gdy znasz odpowiednią składnię. Jeśli wymkniesz się z poprawnej składni i wpiszesz „dyr” zamiast „dir”, w wierszu poleceń pojawi się komunikat o błędzie. Możesz używać aliasów, aby łatwiej zapamiętać polecenia, ale musisz wiedzieć, jakie były oryginalne polecenia, jak działają i jak efektywnie używać aliasów. Jeśli nie poświęcisz czasu na naukę tajników, nigdy nie wyciągniesz z tego wiele.

Asystenci głosowi nie są inni. Musisz wiedzieć, jak wypowiedzieć polecenie lub zadać pytanie. Musisz znać zasady konfigurowania grup dla Google i Alexy, dlaczego grupowanie urządzeń jest niezbędne oraz jak nazwać swoje inteligentne urządzenia. Jeśli nie wykonasz tych niezbędnych czynności, poczujesz frustrację, prosząc asystenta głosowego o wyłączenie badania, tylko po to, aby zapytać: „Które badanie?”

Nawet jeśli używasz poprawnej składni we właściwej kolejności, proces może się nie powieść. Możesz otrzymać błędną odpowiedź lub zaskakujący wynik. Dwa domy Google w tym samym miejscu mogą podawać pogodę dla nieco różnych lokalizacji, mimo że mają dostęp do tych samych danych konta użytkownika i połączenia internetowego.

Na przykład, gdy podano polecenie „Ustaw zegar na pół godziny”, Centrum Google Home stworzyło licznik czasu o nazwie „Godzina”, a następnie zapytało, jak długo powinien trwać. Jednak powtórzenie tego samego polecenia trzy razy działało poprawnie i utworzyło 30-minutowy licznik czasu. Użycie polecenia „Ustaw minutnik na 30 minut” działa poprawnie w bardziej spójny sposób.

Podczas gdy mówienie do Google Home lub Echo może być bardziej płynne, asystenci głosowi i linie poleceń działają w ten sam sposób. Być może nie musisz uczyć się nowego języka, ale musisz nauczyć się nowego dialektu.

Wąskie zrozumienie asystentów głosowych ograniczy wzrost

Nie przeszkadza to asystentom głosowym, takim jak Asystent Google i Alexa, działać wystarczająco dobrze (choć Cortana to inna historia). Asystent Google i Alexa potrafią przyzwoicie wyszukiwać pytania online, chociaż nie jest zaskakujące, że Google radzi sobie lepiej w wyszukiwaniach i może odpowiadać na podstawowe pytania, takie jak konwersje pomiarów i prosta matematyka. W przypadku prawidłowo skonfigurowanego inteligentnego domu i dobrze wyszkolonego użytkownika większość poleceń inteligentnego domu działa zgodnie z przeznaczeniem. Jednakże to wynik pracy i wysiłku, a nie intelektualnego zrozumienia.

Timery i alarmy były kiedyś uproszczone. Z biegiem czasu dodano nazewnictwo oraz możliwość dodawania czasu do timera. Przeszli od uproszczonych do bardziej skomplikowanych. Asystenci głosowi mogą odpowiadać na więcej pytań, a każdy dzień przynosi nowe umiejętności i funkcje. Ale to nie jest produkt samorozwoju, który pochodzi z uczenia się i zrozumienia.

Ostatecznie nic z tego nie zapewnia wrodzonej zdolności wykorzystania tego, co wiadomo, do dotarcia do nieznanego. Dla każdego polecenia i pytania, które działają, zawsze będą trzy, które nie działają. Bez przełomu w sztucznej inteligencji, który zapewnia ludzką zdolność rozumienia, asystenci głosowi wcale nie są asystentami. To tylko linie poleceń głosowych – przydatne w odpowiednich scenariuszach, ale ograniczone do tych, które zostały zaprogramowane do zrozumienia.

Innymi słowy: maszyny uczą się rzeczy, ale nie mogą ich zrozumieć.

newsblog.pl

maciekx

Maciej – redaktor, pasjonat technologii i samozwańczy pogromca błędów w systemie Windows. Zna Linuxa lepiej niż własną lodówkę, a kawa to jego główne źródło zasilania. Pisze, testuje, naprawia – i czasem nawet wyłącza i włącza ponownie. W wolnych chwilach udaje, że odpoczywa, ale i tak kończy z laptopem na kolanach.