Poprawa zrozumiałości mowy- zastosowanie systemów ASR

Dodatkowa prezentacja sygnału w postaci tekstu ma wspomagać i ułatwiać zrozumienie mowy osobom, które doświadczają problemów w procesie komunikowania się. Trudności te mogą wynikać z faktu, iż mowa prezentowana jest na tle szumu bądź też/i z dysfunkcji narządu słuchu. Teks generowany przez automatyczny system rozpoznawania mowy (ang. Automatic Speech Recognition, ASR) może być wykorzystany jako dodatkowa informacja. Niestety systemy ASR nadal przejawiają problemy z prawidłowym przekształcaniem mowy na teks, czego przyczyną są różnice w wymawianiu czy akcentowaniu poszczególnych słów przez różne osoby. Skuteczność dzisiejszych systemów ASR osiąga 80% przy wyrazistej mowie i objętościowo przeciętnym zakresie słownictwa. Jednak połączenie informacji w formie tekstu, dostarczanej przez systemu ASR i tej części informacji, którą dana osoba samodzielnie zrozumiała może prowadzić do zwiększenia zrozumiałości mowy, gdyż oba komponenty mogą się wzajemnie uzupełniać.

System ASR, zainstalowany w urządzeniu wspomagającym słyszenie opartym na osobistym asystencie (ang. Personal Digital Assistant, PDA) lub telefonie komórkowym, będzie rozpoznawał mowę i w efekcie wyświetlał tekst na ekranie telefonu lub PDA. W ten sposób osoba prowadząca konwersację otrzyma wizualną pomoc (Rys. 1).

PDA with output from speech recognizer on display

Rys.1. Przykład urządzenia wspomagającego słyszenie skonstruowanego w ramach projektu Hearcom: Osobisty asystent wyświetla automatycznie rozpoznaną mowę w formie tekstu, który jest dodatkową informacją dla osoby niedosłyszącej, mającą poprawić zrozumiałość mowy

Na dzień dzisiejszy nie zostało jeszcze sprawdzone czy pojawiająca się w formie tekstu informacja z systemu ASR rzeczywiście będzie przyczyniała się do zwiększenia zrozumiałości mowy. Należy dodać, że prezentacja sygnału mowy na tle szumu czy też niedbały sposób mówienia wpłynie na zwiększenie ilości błędów wprowadzanych przez system ASR. Ponadto, system rozpoznawania mowy potrzebuje czasu, który jest niezbędny do analizy danych, w wyniku czego informacja tekstowa będzie pojawiała się na wyświetlaczu z pewnym opóźnieniem.

W ramach projektu HearCom prowadzone są liczne badania, mające na celu określenie czy i jeśli tak to w jakim stopniu informacja w formie tekstu wpływa na poprawę zrozumiałości mowy. Przedmiotem badań jest przede wszystkim określenie wpływu ilości błędów oraz opóźnień wprowadzanych przez system ASR na korzyści wynikające z wizualnego wsparcia. Do pomiarów, w roli słuchaczy zaangażowano zarówno osoby młode jak i starsze, by ocenić czy wiek osób jest istotnym czynnikiem w aspekcie korzyści jakie przynosi niniejsze rozwiązanie techniczne.