wprowadzenie algorytm dżwięki

Jednokanałowa redukcja szumu – działanie algorytmu

Jako, że algorytmy te wykorzystują jeden mikrofon, jednokanałowa redukcja zakłóceń nie może wykorzystywać przestrzennej informacji aby zredukować szum tła. Tego rodzaju techniki poprawy zrozumiałości mowy muszą polegać na różnicach w statystycznych własnościach sygnałów mowy i szumu. Na przykład, zależnie od stosunku sygnału do szumu (SNR), wsokoenergetyczne składowe pochodzą częściej od sygnału mowy niż od procesu szumowego. W wielu przypadkach, zakłócenie jest bardziej stacjonarne niż mowa. Opierając się na tych założeniach i wykorzystując różne rodzaje kryteriów optymalizacji (jak choćby minimalny błąd średniokwadratowy, MMSE), można wyznaczyć wiele estymatorów mowy. Najczęściej estymatory te są implementowane w dziedzinie częstotliwości.
W projekcie HearCom zostało przeanalizowanych kilka jednokanałowych schematów redukcji szumu. Jedno z rozwiązań opiera się o filtr wynikający z kryterium optymalizacji MMSE zakładające, że części rzeczywiste i urojone współczynników spektralnych mowy mają rozkład Laplace’a, a odpowiednie współczynniki szumu, mają rozkład Gaussa. Implementacja ma małe algorytmiczne opóźnienie i wykorzystuje Dyskretną Transformatę Fouriera (DFT).

Bibliografia:

Martin, R. (2002). Speech Enhancement Using MMSE Short Time Spectral Estimation with Gamma Distributed Speech Priors. In Proc. IEEE Intl. Conference on Acoustics, Speech, and Signal Processing (ICASSP), volume I, pages 253–256, Orlando, Florida.

Martin, R. and Breithaupt, C. (2003). Speech Enhancement in the DFT Domain Using Laplacian Speech Priors. In Proc. Intl. Workshop Acoustic Echo and Noise Control (IWAENC), pages 87–90, Kyoto, Japan.

Mauler, D. (2006). Noise Power Spectral Density Estimation on Highly Correlated Data. In Proc. Intl. Workshop Acoustic Echo and Noise Control (IWAENC), Paris, France.