Co to jest przetwarzanie języka naturalnego i jak to działa?

Przetwarzanie języka naturalnego umożliwia komputerom przetwarzanie tego, co mówimy, na polecenia, które mogą wykonywać. Dowiedz się, jakie są podstawy tego, jak to działa i jak jest wykorzystywane, aby poprawić nasze życie.

Co to jest przetwarzanie języka naturalnego?

Niezależnie od tego, czy jest to Alexa, Siri, Asystent Google, Bixby czy Cortana, każdy ze smartfonem lub inteligentnym głośnikiem ma obecnie asystenta aktywowanego głosem. Każdego roku wydaje się, że ci asystenci głosowi coraz lepiej rozpoznają i wykonują to, co im każemy. Ale czy kiedykolwiek zastanawiałeś się, jak ci asystenci przetwarzają to, o czym mówimy? Udaje im się to dzięki przetwarzaniu języka naturalnego lub NLP.

W przeszłości większość programów była w stanie reagować tylko na ustalony zestaw określonych poleceń. Plik zostanie otwarty, ponieważ kliknąłeś Otwórz lub arkusz kalkulacyjny obliczy formułę na podstawie określonych symboli i nazw formuł. Program komunikuje się za pomocą języka programowania, w którym został zakodowany, iw ten sposób wygeneruje wyjście, gdy otrzyma dane wejściowe, które rozpoznaje. W tym kontekście słowa są jak zestaw różnych mechanicznych dźwigni, które zawsze zapewniają pożądaną wydajność.

Kontrastuje to z językami ludzkimi, które są złożone, nieustrukturyzowane i mają wiele znaczeń opartych na strukturze zdania, tonie, akcencie, synchronizacji, interpunkcji i kontekście. Przetwarzanie języka naturalnego to gałąź sztucznej inteligencji, która próbuje wypełnić lukę między tym, co maszyna rozpoznaje jako dane wejściowe, a ludzkim językiem. Dzieje się tak, że kiedy mówimy lub piszemy w sposób naturalny, maszyna generuje wynik zgodny z tym, co powiedzieliśmy.

Odbywa się to poprzez pobieranie ogromnych ilości punktów danych w celu wyprowadzenia znaczenia z różnych elementów ludzkiego języka, oprócz znaczeń rzeczywistych słów. Proces ten jest ściśle powiązany z koncepcją znaną jako uczenie maszynowe, która umożliwia komputerom zdobywanie większej liczby punktów danych. To jest powód, dla którego większość maszyn przetwarzających język naturalny, z którymi często się komunikujemy, z czasem wydaje się być coraz lepsza.

Aby lepiej wyjaśnić tę koncepcję, przyjrzyjmy się dwóm technikom najwyższego poziomu używanym w NLP do przetwarzania języka i informacji.

Tokenizacja

tokenizacja przetwarzania języka naturalnego

Tokenizacja oznacza podzielenie mowy na słowa lub zdania. Każdy fragment tekstu jest tokenem, a te żetony pojawiają się, gdy twoja mowa jest przetwarzana. Brzmi prosto, ale w praktyce jest to trudny proces.

Załóżmy, że używasz oprogramowania do zamiany tekstu na mowę, takiego jak klawiatura Google, do wysyłania wiadomości do znajomego. Chcesz wysłać wiadomość „Spotkaj się ze mną w parku”. Kiedy Twój telefon pobiera nagranie i przetwarza je za pomocą algorytmu zamiany tekstu na mowę Google, Google musi następnie podzielić to, co właśnie powiedziałeś, na tokeny. Te żetony to „spotkanie”, „ja”, „w”, „ten” i „park”.

Ludzie mają różne długości przerw między słowami, a inne języki mogą nie mieć bardzo mało słyszalnych przerw między słowami. Proces tokenizacji różni się drastycznie między językami i dialektami.

Stemming i Lemmatyzacja

Stemming i lematyzacja obejmują proces usuwanie dodatków lub odmian do głównego słowa, które maszyna może rozpoznać. Ma to na celu uczynienie interpretacji mowy spójną w różnych słowach, które zasadniczo oznaczają to samo, co przyspiesza przetwarzanie NLP.

Sytuacja przetwarzania języka naturalnego

Stemming to prymitywny, szybki proces, który polega na usuwaniu afiksów z rdzenia, które są dodatkami do słowa dołączanego przed lub po rdzeniu. To zmienia słowo w najprostszą formę podstawową, po prostu usuwając litery. Na przykład:

„Chodzenie” zamienia się w „spacer”
„Szybciej” zamienia się w „szybko”
„Severity” zamienia się w „Sever”

Jak widać, rymowanie może mieć niekorzystny wpływ na całkowitą zmianę znaczenia słowa. „Severity” i „Sever” nie oznaczają tego samego, ale przyrostek „ity” został usunięty w procesie wyprowadzania.

Z drugiej strony lematyzacja jest bardziej wyrafinowanym procesem, który polega na sprowadzeniu słowa do jego bazy, znanej jako lemat. Uwzględnia to kontekst słowa i sposób jego użycia w zdaniu. Obejmuje również wyszukiwanie terminu w bazie danych słów i odpowiadających im lematów. Na przykład:

„Are” zamienia się w „być”
„Obsługa” zamienia się w „obsługę”
„Dotkliwość” zmienia się w „dotkliwa”

W tym przykładzie lematyzacja zdołała przekształcić termin „dotkliwość” w „dotkliwy”, który jest jego formą lematu i słowem źródłowym.

Przykłady zastosowań NLP i przyszłość

Poprzednie przykłady zaczynają tylko zarysowywać powierzchnię tego, czym jest przetwarzanie języka naturalnego. Obejmuje szeroki zakres praktyk i scenariuszy użytkowania, z których wiele stosujemy w naszym codziennym życiu. Oto kilka przykładów miejsc, w których NLP jest obecnie używane:

Przewidywanie tekstu: gdy wpisujesz wiadomość na smartfonie, automatycznie sugeruje ona słowa pasujące do zdania lub używane wcześniej.
Tłumaczenie maszynowe: Powszechnie używane usługi tłumaczeniowe dla konsumentów, takie jak Tłumacz Google, w celu włączenia wysokopoziomowej formy NLP do przetwarzania języka i tłumaczenia.
Chatboty: NLP to podstawa inteligentnych chatbotów, zwłaszcza w obsłudze klienta, gdzie mogą pomagać klientom i przetwarzać ich żądania, zanim spotkają się z prawdziwą osobą.

Nadchodzi więcej. Zastosowania NLP są obecnie opracowywane i wdrażane w takich dziedzinach, jak media informacyjne, technologia medyczna, zarządzanie miejscem pracy i finanse. Jest szansa, że ​​w przyszłości uda nam się przeprowadzić pełnoprawną, wyrafinowaną rozmowę z robotem.

Jeśli chcesz dowiedzieć się więcej o NLP, na stronie znajdziesz wiele fantastycznych zasobów Blog w kierunku nauki o danych albo Standford National Langauge Processing Group które możesz sprawdzić.