Aby Twój telewizor lepiej Cię rozumiał

Anonim

Nowe badania przeprowadzone na University of Waterloo znalazły sposób na poprawę możliwości rozumienia mowy głosowej w domowych platformach rozrywkowych.

Badania, we współpracy z University of Maryland i Comcast Applied AI Research Lab, wykorzystują sztuczną inteligencję (AI), aby osiągnąć jak najbardziej naturalne interakcje oparte na mowie z telewizorami.

"Dzisiaj przyzwyczailiśmy się do rozmawiania z inteligentnymi agentami, którzy wykonują naszą ofertę - od Siri przez telefon komórkowy po Alexę w domu, dlaczego nie mielibyśmy zrobić tego samego z telewizorami?" zapytał Jimmy Lin, profesor na University of Waterloo i David R. Cheriton Przewodniczący w Szkole Informatyki Davida R. Cheritona.

"Xfinity X1 firmy Comcast ma dokładnie to zrobić - platforma jest wyposażona w" pilot głosowy ", który akceptuje zapytania głosowe, a Twoim życzeniem jest polecenie - powiedz swojemu telewizorowi, aby zmieniał kanały, pytaj o bezpłatne filmy dla dzieci, a nawet o pogodę prognoza."

W rozwiązywaniu złożonego problemu zrozumienia zapytań głosowych naukowcy wpadli na pomysł wykorzystania najnowszej technologii sztucznej inteligencji - techniki znanej jako hierarchiczne nawracające sieci neuronowe - w celu poprawy kontekstu modelu i poprawy dokładności systemu.

W styczniu 2018 r. Nowy model sieci neuronowej został wdrożony do produkcji w odpowiedzi na zapytania od prawdziwych użytkowników na żywo. W przeciwieństwie do poprzedniego systemu, który był zdezorientowany około ośmiu procentami zapytań, nowy model odpowiednio obsługuje większość bardzo skomplikowanych zapytań, znacznie zwiększając wygodę użytkownika.

"Jeśli widz poprosi o" Chicago Fire ", który odnosi się zarówno do serii dramatów, jak i drużyny piłkarskiej, system jest w stanie odcyfrować to, czego naprawdę chcesz" - powiedział Lin. "To, co wyróżnia to podejście, to fakt, że korzystamy z kontekstu - takiego jak wcześniej oglądane programy i ulubione kanały - w celu personalizacji wyników, co zwiększa dokładność".

Naukowcy rozpoczęli prace nad opracowaniem jeszcze bogatszego modelu. Intuicją jest to, że analizując zapytania z wielu perspektyw, system może lepiej zrozumieć, co mówi użytkownik.

Artykuł pt. "Wielozadaniowe uczenie się z sieciami neuronowymi do zrozumienia głosu platformy rozrywkowej" został zaprezentowany na 24. Międzynarodowej Konferencji ACM SIGKDD poświęconej Odkrywaniu Wiedzy i Eksploracji Danych, która odbyła się niedawno w Wielkiej Brytanii. Badania zostały podjęte przez Jinfeng Rao, Ph.D. absolwent University of Maryland, jego doradca Lin i mentor Ferhan Ture, badacz w Comcast Applied AI Research Lab.

menu
menu