On loss functions and evaluation metrics for music source separation

Enric, Gusó,; Pons, Jordi; Pascual, Santiago; Serrà, Joan

doi:10.48550/arxiv.2202.07968

Cited by 1 publication

(2 citation statements)

References 0 publications

Supporting

Mentioning

Contrasting

Order By: Relevance

“…On the other hand, the time-frequency losses showed us a promising result for the L3DAS22 dataset, especially the L 1−f req loss, which is a consistent result with the speech enhancement and source separation literature (GUSÓ et al, 2022;NAGANO;SILVA, 2020;PANDEY;WANG, 2018). Observing our three loss functions, we can see that the STOI metric has a different but not significant as the WER metric.…”

Section: Supplementary Studies On the L3das22 Datasetsupporting

confidence: 71%

See 1 more Smart Citation

Sobre auto-aprendizado de representações para realce da voz 3D.

Guimarães

View full text Add to dashboard Cite

the only people for me are the mad ones, the ones who are mad to live, mad to talk, mad to be saved, desirous of everything at the same time, the ones who never yawn or say a commonplace thing, but burn, burn, burn like fabulous yellow roman candles exploding like spiders across the stars and in the middle you see the blue centerlight pop and everybody goes "Awww!" --Jack Kerouac, On the Road RESUMO Métodos baseados em redes neurais profundas ganharam uma grande importância ao se mostrarem alternativas viáveis e poderosas para diversas tarefas, em especial para tarefas de processamento da voz, como reconhecimento de fala, detecção de palavras-chaves e reconhecimento de emoções. Entretanto esses métodos possuem alguns problemas intrínsecos, especialmente no que tange à robustez na presença de fatores deletérios, como ruídos e reverberação. Neste trabalho abordamos o problema de realce da voz, que tem como objetivo ser um sistema de pré-processamento capaz de realçar as características da voz e suprimir ruídos. Algoritmos baseados em modelos estatísticos abordam isto como um problema de maximização de verossimilhança. No entanto, não há garantias de que melhorará características perceptivas, como a inteligibilidade. Estudamos o uso de representações de fala extraídas do modelo wav2vec como função de custo perceptiva para a tarefa de realce da voz. Nossos experimentos demonstram que o uso de modelos de aprendizado contrastivo em funções de custo, para levar em conta características perceptivas, pode melhorar o desempenho do aprimoramento de fala em ambientes 3D. Além disso, discutimos o uso de modelos no domínio do tempo e do tempo-frequência. Nossos melhores resultados são obtidos através de modelos tempo-frequência, em detrimento do custo computacional.

show abstract

Section: Supplementary Studies On the L3das22 Datasetsupporting

confidence: 71%

“…Most neural networks are optimized with the Gradient Descent method, so our loss function must be differentiable. Similar to the work of (GUSÓ et al, 2022), who studied the impacts of loss functions on the problem of music source separation, we further investigate losses for speech enhancement.…”

Section: On Loss Functions For Speech Enhancementmentioning

confidence: 99%

Sobre auto-aprendizado de representações para realce da voz 3D.

Guimarães

View full text Add to dashboard Cite

show abstract

On loss functions and evaluation metrics for music source separation

Cited by 1 publication

References 0 publications

Sobre auto-aprendizado de representações para realce da voz 3D.

Sobre auto-aprendizado de representações para realce da voz 3D.

Contact Info

Product

Resources

About