Access to higher education of students who are deaf is below the national average. Recently, there has been a growing number of applications for the automatic transcription of speech, which claim to make everyday speech more accessible to people who are Deaf or Hard-of-Hearing. However, these systems require a good command of the written language, and a significant proportion of the deaf public has low literacy skills. Moreover, we have very little data on how these audiences actually deal with captions. In this paper, we describe the MANES project, whose long-term goal is to assess the usefulness of captioning for the accessibility of lectures by students who are deaf. We present the first technical results of a real-time system to make course captioning suitable for the target audience.CCS Concepts: • Human-centered computing → Accessibility technologies.
Human beatboxing is a vocal art making use of speech organs to produce percussive sounds and imitate musical instruments. Beatbox sound classification is a current challenge that can be used for automatic database annotation and music-information retrieval. In this study, a human-beatbox sound recognition system was developed with an adaptation of the Kaldi toolbox. Such tool is already widely used for automatic speech recognition. The corpus consisted of eighty boxemes, which were recorded repeatedly by two beatboxers. The sounds were annotated and transcribed to the system by means of a beatbox-specific pictographic writing (Vocal Grammatics). The recognition-system robustness to recording conditions was assessed on recordings of six different microphones and settings. The decoding part was made with monophone acoustic models trained with a classical HMM-GMM model. Different parameters of our system were tested : i) the number of HMM states, ii) the number of MFCC, iii) the presence or not of a pause boxeme in right and left contexts in the lexicon and iv) the rate of silence probability. Our best model was obtained with the addition of a pause in left and right contexts of each boxeme in the lexicon, a 0.8 silence probability, 22 MFCC and three states HMM. Boxeme error rate in such configuration was lowered to 15.13%.
L'apprentissage autosupervisé a apporté des améliorations remarquables dans de nombreux domaines tels que la vision par ordinateur ou le traitement de la langue et de la parole, en exploitant de grandes quantités de données non étiquetées. Dans le contexte spécifique de la parole, cependant, et malgré des résultats prometteurs, il existe un manque évident de normalisation dans les processus d'évaluation permettant des comparaisons précises de ces modèles, en particulier pour les autres langues que l'anglais. Nous présentons ici à la communauté francophone LeBenchmark, un cadre de référence en sources ouvertes et reproductible pour évaluer des modèles autosupervisés à partir de corpus de parole en français. Il est composé de quatre tâches : reconnaissance automatique de la parole, compréhension du langage parlé, traduction automatique de la parole et reconnaissance automatique d'émotions. Nous encourageons la communauté francophone à utiliser ce référentiel dans ses futures expérimentations, notamment pour l'évaluation de modèles autosupervisés.
L'apprentissage auto-supervisé a ouvert des perspectives prometteuses dans de nombreux domaines comme la vision par ordinateur, le traitement automatique de la langue ou celui de la parole. Les modèles pré-appris sur de grandes quantités de données non étiquetées peuvent être ajustés sur de petits ensembles de données transcrites manuellement. Ceux de type wav2vec2.0 ont montré des performances remarquables pour la reconnaissance automatique de la parole. Les premiers modèles partagés à la communauté ayant été appris sur des données en anglais ou multilingues, nous proposons dans cet article sept modèles de type wav2vec2.0, appris sur 1 000, 3 000 et 7 000 heures de parole en français. Leur Apprentissage nécessitant des capacités de calcul très importantes, et dans un esprit de science ouverte, ceux-ci sont librement accessibles. Des résultats expérimentaux sur la reconnaissance automatique de la parole sont également présentés et confirment le bénéfice de l'utilisation de tels modèles.
Les systèmes de Reconnaissance Automatique de la Parole (RAP) ont montré ces dernières années des performances toujours plus impressionnantes. Néanmoins, la RAP spontanée reste un problème ouvert : la littérature a pu montrer qu'il est difficile de la définir (pas de consensus) et combien elle est difficile à modéliser. Dans notre travail, nous revenons sur la notion même de parole spontanée avant de nous appuyer sur les dénominations et définitions trouvées pour proposer une typologie de la parole spontanée sur quatre axes (contexte situationnel, type et canal de communication, degré d'intimité entre les locuteurs). Cette catégorisation offre la possibilité de rassembler des situations propices à une parole plus ou moins spontanée. Les objectifs sont multiples : créer une nouvelle typologie des corpus oraux de parole spontanée pour faciliter son analyse linguistique et améliorer les performances de systèmes de RAP sur ce type de parole.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.