Dysarthric Speech Recognition using Multi-Taper Mel Frequency Cepstrum Coefficients

Sahane, Pratiksha; Pangaonkar, Satyajit; Khandekar, Shridhar

doi:10.1109/ccge50943.2021.9776318

Cited by 4 publications

(2 citation statements)

References 5 publications

Supporting

Mentioning

Contrasting

Order By: Relevance

“…Antes dos dados de áudio, no formato ".wav", serem inseridos nos modelos, todas as amostras foram redimensionadas para terem a mesma duração. Arquivos corrompidos foram eliminados; iii) Extração das características da fala (MFCC): a coordenação dos músculos vocais influencia a inteligibilidade da fala, os MFCCs podem capturar movimentos irregulares das pregas vocais ou falta de fechamento das pregas vocais devido a alterações de massa/tecido [Sahane 2021]; iv) Treinamento e teste: os dados foram divididos em conjuntos de treinamento e teste em uma proporção de 70:30. Esta divisão apresenta estas proporções devido ao pequeno número de amostras minoritárias em nosso conjunto de dados e possivelmente por implicar nas habilidades de aprendizado dos classificadores utilizados neste trabalho.…”

Section: Figura 1 -Modelo Propostounclassified

Reconhecimento de comandos de voz com e sem disartria usando extração de características da fala MFCC e algoritmos de aprendizagem de máquina

Seixas,

Leite,

Paula

et al. 2023

Anais Do XXIII Simpósio Brasileiro De Computação Aplicada À Saúde (SBCAS 2023)

View full text Add to dashboard Cite

A fala disártrica está entre os problemas para articular e pronunciar bem as palavras devido aos danos no sistema neurológico responsável pela fala. Este estudo investiga se os classificadores de aprendizagem de máquina reconhecem quais palavras as pessoas com e sem disartria falam, aplicando uma técnica de extração de características da fala chamada MFCC (Mel Frequency Cepstral Coefficients). Os classificadores Artificial Neural Network (ANN), Support Vector Machine (SVM), Random Forest (RF) e KNearest Neighbor (KNN) foram testados. O conjunto de dados UASpeech foi usado nos modelos, contendo falantes com e sem disartria. Os resultados mostraram bom desempenho com acurácia média para KNN (98,5%), ANN (95%), RF (91,8%) e SVM (89,5%).

show abstract

Section: Figura 1 -Modelo Propostounclassified

Reconhecimento de comandos de voz com e sem disartria usando extração de características da fala MFCC e algoritmos de aprendizagem de máquina

Seixas,

Leite,

Paula

et al. 2023

Anais Do XXIII Simpósio Brasileiro De Computação Aplicada À Saúde (SBCAS 2023)

View full text Add to dashboard Cite

show abstract

“…LSTMs (Long Short-Term Memory) are a sort of recurrent neural network architecture that detects long-term dependencies in sequential input. LSTMs use memory cells with gates to selectively store or discard information over time, thus being useful for memory-intensive tasks like natural language processing, interval prediction, and audio recognition [6].…”

Section: Introductionmentioning

confidence: 99%

Environmental Sustainability in the Age of Deep Learning: Balancing Technological Advancement with Ecological Responsibility

Manesh Patil

2024

jes

View full text Add to dashboard Cite

The convergence of technological innovation, particularly deep learning (DL), with the importance of responsibility for the environment in achieving environmental sustainability. Deep learning (DL) offers to improve sustainability in different areas. This paper discusses DL breakthroughs and their applications in accomplishing SDGs, renewable energy, and environmental health. This discovers problems in reconciling technological innovation with caring for the environment by investigating the uses of deep learning in diverse areas and measuring their environmental implications. Furthermore, it explores CNN and LSTM techniques in Deep learning for incorporating environmental factors into the development, application, benefits and challenges of DL technologies to promote sustainability. This study aims to provide insights and recommendations for creating a harmonious link between technical advancement and ecological responsibility in the pursuit of environmental sustainability by conducting a comprehensive review of existing literature. There are three indicators: MAPE, RMSE, and MAE. The MAPE, RMSE, and MAE results are provided based on 7.5, 15, and 30 minutes, indicating low forecast accuracy.

show abstract

Modeling Source and System Features Through Multi-channel Convolutional Neural Network for Improving Intelligibility Assessment of Dysarthric Speech

Ahmad,

Pradhan,

Singh

2024

Circuits Syst Signal Process

View full text Add to dashboard Cite

Dysarthric Speech Recognition using Multi-Taper Mel Frequency Cepstrum Coefficients

Cited by 4 publications

References 5 publications

Reconhecimento de comandos de voz com e sem disartria usando extração de características da fala MFCC e algoritmos de aprendizagem de máquina

Reconhecimento de comandos de voz com e sem disartria usando extração de características da fala MFCC e algoritmos de aprendizagem de máquina

Environmental Sustainability in the Age of Deep Learning: Balancing Technological Advancement with Ecological Responsibility

Modeling Source and System Features Through Multi-channel Convolutional Neural Network for Improving Intelligibility Assessment of Dysarthric Speech

Contact Info

Product

Resources

About