Speech Enhancement Based on Denoising Autoencoder With Multi-Branched Encoders

Yu, Cheng; Zezario, Ryandhimas E.; Wang, Syu-Siang; Sherman, Jonathan H.; Hsieh, Yi-Yen; Lu, Xugang; Wang, Hsin‐Min

doi:10.1109/taslp.2020.3025638

Cited by 28 publications

(9 citation statements)

References 63 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…Different types of mask-based methods have been used in the literature, such as ideal binary masks (IBM) and ideal ratio masks (IRM) [3]. Auto-encoder based approaches to speech enhancement favor compact features such as Melfrequency power spectra [4] and short term Fourier transform (STFT) spectra computed across short utterances [5,6,7] or a small temporal context [8]. Deep networks predominantly use higher-dimension log-power spectra with a comparably long temporal context in an attempt to learn features best representing clean speech [9,10].…”

Section: Introductionmentioning

confidence: 99%

Towards speech enhancement using a variational U-Net architecture

Nustede

Anemüller

2021

2021 29th European Signal Processing Conference (EUSIPCO)

View full text Add to dashboard Cite

In this paper, we investigate the viability of a variational U-Net architecture for denoising of single-channel audio data. Deep network speech enhancement systems commonly aim to estimate filter masks, or opt to skip preprocessing steps to directly work on the waveform signal, potentially neglecting relationships across higher dimensional spectro-temporal features. We study the adoption of a probabilistic bottleneck, as well as dilated convolutions, into the classic U-Net architecture. Evaluation of a number of network variants is carried out using signal-to-distortion ratio and perceptual model scores, with audio data including known and unknown noise types as well as reverberation. Our experiments show that the residual (skip) connections in the proposed system are required for successful end-to-end signal enhancement, i.e., without filter mask estimation. Further, they indicate a slight advantage of the variational U-Net architecture over its non-variational version in terms of signal enhancement performance under reverberant conditions. Specifically, PESQ scores show increases of 0.28 and 0.49 in reverberant and non-reverberant scenes, respectively. Anecdotal evidence points to improved suppression of impulsive noise sources with the variational end-to-end U-Net compared to the recurrent mask estimation network baseline.

show abstract

Section: Introductionmentioning

confidence: 99%

Towards speech enhancement using a variational U-Net architecture

Nustede

Anemüller

2021

2021 29th European Signal Processing Conference (EUSIPCO)

View full text Add to dashboard Cite

show abstract

“…So far, autoencoders were used in many audio applications as an analysis-synthesis scheme where the input signals dimension is reduced to a latent vector (encoding), and the signal is regenerated from it (decoding). In [18] authors used Denoising AE to reduce noise and enhance the quality of synthesized speech. In addition, deep autoencoder is used to extract significant features from the spectral envelop which improve the text to speech synthesis procedure [19].…”

Section: Introductionmentioning

confidence: 99%

Human Laughter Generation using Hybrid Generative Models

2021

KSII TIIS

View full text Add to dashboard Cite

show abstract

“…Os sistemas atuais de reconhecimento automático de fala (automatic speech recognition -ASR) têm exibido desempenho satisfatório em cenários acústicos com níveis de ruído controlados, contudo, em ambientes com baixa razão sinalruído (signal-to-noise ratio -SNR), a operação desses sistemas se torna severamente prejudicada [6]. Nesse contexto, apesar de a robustez ao ruído ainda ser um problema crítico em aplicações do mundo real, a maioria dos trabalhos de pesquisa do estado-da-arte em KWS não tem levado em consideração (de forma eficaz) os efeitos do ruído [7], [8].…”

Section: Introductionunclassified

“…Em [8] e [9], são discutidas diversas estratégias de redução de ruído e realce do sinal de fala. Recentemente, com o desenvolvimento das técnicas de aprendizado profundo, grandes avanços vêm sendo alcançados nessas áreas de aplicação.…”

Section: Introductionunclassified

Estratégias de Combinação de Espectrogramas de Magnitude e de Fase Aplicadas em Sistemas Robustos de Detecção de Palavras-Chave

Silva¹,

Seara²

2021

Anais Do XXXIX Simpósio Brasileiro De Telecomunicações E Processamento De Sinais

View full text Add to dashboard Cite

Resumo-A demanda por sistemas de detecção de palavraschave (keyword spotting -KWS) vem crescendo consideravelmente para as mais diversas aplicações do mundo real. No entanto, o desempenho desses sistemas é fortemente degradado em condições de operação com baixa razão sinal-ruído (signal-to-noise ratio -SNR). Visando a obtenção de sistemas de KWS robustos ao ruído, este trabalho de pesquisa investiga o processo de extração de atributos nesses sistemas. Particularmente, o presente trabalho propõe o uso de estratégias de combinação de atributos considerando os espectrogramas de magnitude e de fase dos sinais de fala. Dessa forma, sistemas de KWS utilizando extração de atributos considerando a combinação da magnitude e da fase são contrastados com aqueles que utilizam apenas espectrogramas de magnitude. Resultados de simulação numérica são apresentados e avaliados com vistas à acurácia de reconhecimento de palavraschave, confirmando a eficácia das estratégias utilizadas neste trabalho.Palavras-Chave-Comitê de classificadores, detecção de palavras-chave, espectrogramas do sinal de fase, extração de atributos.

show abstract

Speech Enhancement Based on Denoising Autoencoder With Multi-Branched Encoders

Cited by 28 publications

References 63 publications

Towards speech enhancement using a variational U-Net architecture

Towards speech enhancement using a variational U-Net architecture

Human Laughter Generation using Hybrid Generative Models

Estratégias de Combinação de Espectrogramas de Magnitude e de Fase Aplicadas em Sistemas Robustos de Detecção de Palavras-Chave

Contact Info

Product

Resources

About