6 problemów AI w rozpoznawaniu mowy

Wszystkie duże firmy inwestują w rozpoznawanie głosu, a świat powoli, ale systematycznie dostosowuje się do nowej technologii sztucznej inteligencji (AI). Dlaczego więc to trwa tak długo, dlaczego nie jest jeszcze częścią naszego codziennego życia? Oto 6 powodów.

Idziesz do sklepu, aby poszukać określonego koloru i marki produktu. Pytasz pracownika, czy żądany produkt jest dostępny. Pracownik idzie do magazynu, sprawdza zapasy produktu i wraca chwilę później, aby powiedzieć, że Twój produkt nie jest już dostępny.

Teraz wyobraź sobie, że wchodzisz do tego samego sklepu i mówisz malutkiemu urządzeniu, że produkt chcesz kupić. W ciągu sekundy głos poinformuje Cię o dokładnej dostępności Twojego produktu, a jeśli nie będzie dostępny, wyświetli szczegółowe informacje o punktach sprzedaży, w których produkt jest dostępny.

Urządzenie AI wykonuje to poprzez wewnętrzne skanowanie wszystkich cyfrowych systemów inwentaryzacji. Dzięki licznym korzyściom związanym z logistyką kosztów i, co ważniejsze, wygodą, dlaczego sztuka rozpoznawania mowy i asystentów osobistych nie została jeszcze udoskonalona?

Ponieważ nauka poczyniła ogromne postępy w rozpoznawaniu fali dźwiękowej, przyjrzymy się niektórym głównym problemom, przed którymi stoją naukowcy podczas dekodowania mowy na tekst.

Hałas

Urządzenia do nagrywania głosu wykrywają fale dźwiękowe generowane za pomocą mowy. Hałasy w tle w pokojach utrudniają systemowi zrozumienie i rozróżnienie konkretnych fal dźwiękowych od głosu gospodarza. To zaciera dźwięk odbierany przez urządzenia, dezorientując i ograniczając jego możliwości przetwarzania.

Echo

Echa to w zasadzie fale dźwiękowe odbijane na różnych powierzchniach, takich jak ściany, stoły lub inne meble. Prowadzi to do niezorganizowanego powrotu fal dźwiękowych z powrotem do receptorów, zmniejszając w ten sposób przejrzystość.

Akcenty

Szeroka gama akcentów w każdym języku jest kolejnym czynnikiem, który prowadzi do trudności w rozpoznawaniu mowy. Jeśli to samo słowo można wymówić na wiele różnych sposobów, sylaby i fonetyka tego samego słowa mogą się różnić, co utrudnia przetwarzanie maszyny.

Podobne dźwięki

Podobne brzmiące słowa i frazy mogą uniemożliwić prawidłowe kodowanie i dekodowanie wiadomości głosowej. Na przykład „Zniszczmy ładną plażę” i „Rozpoznajmy mowę” są fonetycznie bardzo podobne i mogą łatwo pomylić urządzenie.

Błąd maszyny

Poziomy dokładności wykrywania głosu mają wysoki poziom błędów. Maszyny wciąż napotykają około 8% -12% błędów, co stanowi ponad dwa razy więcej niż ludzie w codziennej mowie. Błędy w kodowaniu zgromadzonych danych mają kluczowe znaczenie dla wydajności, ponieważ jest to pierwszy krok, na który muszą zareagować urządzenia rejestrujące głos.

Zdezorganizowana mowa

Połączenie słów w naszych codziennych rozmowach oznacza, że ​​wiele słów i zwrotów łączy się ze sobą. Nie nadaje się to do rozpoznawania maszynowego i głosowego na tekst, ponieważ utrudnia rozpoznawanie określonych słów lub fraz, które będą miały wpływ na wynikową reakcję i działania urządzenia.

Podsumowując, bez względu na to, jak zaawansowane mogą być te maszyny, powyższe czynniki będą nadal hamowały rozwój asystentów AI poruszających się do przodu. Jednak szybkość, z jaką rozwija się nauka i technologia, wszystkie duże firmy koncentrują się na tworzeniu optymalnych urządzeń do rozpoznawania głosu, a prędzej czy później zagniecenia zostaną wyeliminowane, a my wszyscy będziemy mieć robota z obsługą głosu, który będzie zarządzał naszymi domami jak również nasze życie.

Dowiedz się więcej o zdarzeniu RAF 100 i czym jest STEM

Śledź nas na LinkedIn, aby uzyskać dostęp do naszych ekskluzywnych treści! # raf100event #WhatIsSTEM