ASR jako system wspomagający słyszenie w rozmowach telefonicznych

Możliwość prowadzenia rozmowy telefonicznej jest jednym z większych i ważniejszych wyzwań dla osoby niedosłyszącej. W związku z tym, w ramach projektu HearCom trwają prace nad zaprojektowaniem nowego urządzenia wspomagającego słyszenie, które wykorzystuje system automatycznego rozpoznawania mowy w celu konwersji sygnału audio na teks. Wówczas układ słuchowy otrzymałby dodatkową informację, która przyczyniłaby się do poprawy zrozumiałości mowy.

Tego typu rozwiązanie może w przyszłości znaleźć praktyczne zastosowanie w przenośnych Osobistych Systemach Komunikacji (PCS), które to charakteryzują się szybkim przetwarzaniem danych. Dodatkowo, systemy ASR posiadają coraz szybsze procesory, dzięki którym możliwe będzie przetwarzanie dźwięku na tekst w bardzo krótkim czasie.

Opis działania:

Osoba niedosłysząca odbiera telefon przy użyciu swojego PCS, przy czym rozmowa równolegle jest przekazywana do zdalnego serwera. W serwerze dokonywana jest analiza sygnałów audio, której wynikiem jest przetworzenie dźwięku na tekst. Następnie informacja tekstowa pojawia się na wyświetlaczu PCS użytkownika.
 

Konwersja sygnału audio na tekst

Tekst pojawiający się na wyświetlaczy PCS będzie opóźniony w stosunku do sygnału dźwiękowego docierającego do narządu słuchu. Komunikaty będą się pojawiały po zakończeniu nadawanego zdania czy wypowiedzi. Serwer będzie kontrolował pojawiające się zdania oraz odpowiednio manipulował opóźnieniami.

Skuteczność obecnie dostępnych systemów ASR kształtuje się na poziomie 95 % (5% błędów) przy dobrej jakości sygnału audio. Dlatego też systemy ASR mogą znaleźć zastosowanie w różnych warunkach akustycznych. Istnieje możliwość usprawnienia tych urządzeń, jeśli zastosuje się ograniczony zasób materiału lingwistycznego (np. zastosowanie dla testów do badania zrozumiałości mowy).

Wyświetlacz PCS

Na wyświetlaczu PCS prezentowana jest informacja słowna, w formie przewijanego tekstu, odpowiadająca sygnałom nadawanym przez rozmówcę. System identyfikuje i zapamiętuje mówcę – gromadzi informacje, dzięki którym uczy się poprawnie rozpoznawać jego głos i konwertować wypowiadane słowa w tekst.

 

Główne zadania:

Ta część projektu HearCom skupia się na kilku głównych aspektach, do których należą:

  • Wspomaganie słyszenia poprzez dostarczanie informacji audio w formie audiowizualnej
  • Komunikator głosowy wbudowany w PCS zoptymalizowany dla osób niedosłyszących
  • Implementacja i ulepszenie systemów ASR i platformy Audio

Celem projektu jest przygotowanie demonstracji i programu naukowego, który ułatwi dalszy postęp technologiczny, który polegał będzie nie tylko na opracowaniu nowych urządzeń ale również wykorzystaniu i przystosowaniu ich do potrzeb osób niedosłyszących.