2021 International Conference on Computing, Communication and Green Engineering (CCGE) 2021
DOI: 10.1109/ccge50943.2021.9776318
|View full text |Cite
|
Sign up to set email alerts
|

Dysarthric Speech Recognition using Multi-Taper Mel Frequency Cepstrum Coefficients

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1

Citation Types

0
0
0

Year Published

2022
2022
2024
2024

Publication Types

Select...
2
2

Relationship

0
4

Authors

Journals

citations
Cited by 4 publications
(2 citation statements)
references
References 5 publications
0
0
0
Order By: Relevance
“…Antes dos dados de áudio, no formato ".wav", serem inseridos nos modelos, todas as amostras foram redimensionadas para terem a mesma duração. Arquivos corrompidos foram eliminados; iii) Extração das características da fala (MFCC): a coordenação dos músculos vocais influencia a inteligibilidade da fala, os MFCCs podem capturar movimentos irregulares das pregas vocais ou falta de fechamento das pregas vocais devido a alterações de massa/tecido [Sahane 2021]; iv) Treinamento e teste: os dados foram divididos em conjuntos de treinamento e teste em uma proporção de 70:30. Esta divisão apresenta estas proporções devido ao pequeno número de amostras minoritárias em nosso conjunto de dados e possivelmente por implicar nas habilidades de aprendizado dos classificadores utilizados neste trabalho.…”
Section: Figura 1 -Modelo Propostounclassified
“…Antes dos dados de áudio, no formato ".wav", serem inseridos nos modelos, todas as amostras foram redimensionadas para terem a mesma duração. Arquivos corrompidos foram eliminados; iii) Extração das características da fala (MFCC): a coordenação dos músculos vocais influencia a inteligibilidade da fala, os MFCCs podem capturar movimentos irregulares das pregas vocais ou falta de fechamento das pregas vocais devido a alterações de massa/tecido [Sahane 2021]; iv) Treinamento e teste: os dados foram divididos em conjuntos de treinamento e teste em uma proporção de 70:30. Esta divisão apresenta estas proporções devido ao pequeno número de amostras minoritárias em nosso conjunto de dados e possivelmente por implicar nas habilidades de aprendizado dos classificadores utilizados neste trabalho.…”
Section: Figura 1 -Modelo Propostounclassified
“…LSTMs (Long Short-Term Memory) are a sort of recurrent neural network architecture that detects long-term dependencies in sequential input. LSTMs use memory cells with gates to selectively store or discard information over time, thus being useful for memory-intensive tasks like natural language processing, interval prediction, and audio recognition [6].…”
Section: Introductionmentioning
confidence: 99%