Solène Evain scite author profile

Access to higher education of students who are deaf is below the national average. Recently, there has been a growing number of applications for the automatic transcription of speech, which claim to make everyday speech more accessible to people who are Deaf or Hard-of-Hearing. However, these systems require a good command of the written language, and a significant proportion of the deaf public has low literacy skills. Moreover, we have very little data on how these audiences actually deal with captions. In this paper, we describe the MANES project, whose long-term goal is to assess the usefulness of captioning for the accessibility of lectures by students who are deaf. We present the first technical results of a real-time system to make course captioning suitable for the target audience.CCS Concepts: • Human-centered computing → Accessibility technologies.

show abstract

Human beatbox sound recognition using an automatic speech recognition toolkit

Evain

Lecouteux

Schwab

et al. 2021

Biomedical Signal Processing and Control

View full text Add to dashboard Cite

Human beatboxing is a vocal art making use of speech organs to produce percussive sounds and imitate musical instruments. Beatbox sound classification is a current challenge that can be used for automatic database annotation and music-information retrieval. In this study, a human-beatbox sound recognition system was developed with an adaptation of the Kaldi toolbox. Such tool is already widely used for automatic speech recognition. The corpus consisted of eighty boxemes, which were recorded repeatedly by two beatboxers. The sounds were annotated and transcribed to the system by means of a beatbox-specific pictographic writing (Vocal Grammatics). The recognition-system robustness to recording conditions was assessed on recordings of six different microphones and settings. The decoding part was made with monophone acoustic models trained with a classical HMM-GMM model. Different parameters of our system were tested : i) the number of HMM states, ii) the number of MFCC, iii) the presence or not of a pause boxeme in right and left contexts in the lexicon and iv) the rate of silence probability. Our best model was obtained with the addition of a pause in left and right contexts of each boxeme in the lexicon, a 0.8 silence probability, 22 MFCC and three states HMM. Boxeme error rate in such configuration was lowered to 15.13%.

show abstract

LeBenchmark, un référentiel d'évaluation pour le français oral

Le¹,

Alisamir²,

Dinarelli³

et al. 2022

View full text Add to dashboard Cite

L'apprentissage autosupervisé a apporté des améliorations remarquables dans de nombreux domaines tels que la vision par ordinateur ou le traitement de la langue et de la parole, en exploitant de grandes quantités de données non étiquetées. Dans le contexte spécifique de la parole, cependant, et malgré des résultats prometteurs, il existe un manque évident de normalisation dans les processus d'évaluation permettant des comparaisons précises de ces modèles, en particulier pour les autres langues que l'anglais. Nous présentons ici à la communauté francophone LeBenchmark, un cadre de référence en sources ouvertes et reproductible pour évaluer des modèles autosupervisés à partir de corpus de parole en français. Il est composé de quatre tâches : reconnaissance automatique de la parole, compréhension du langage parlé, traduction automatique de la parole et reconnaissance automatique d'émotions. Nous encourageons la communauté francophone à utiliser ce référentiel dans ses futures expérimentations, notamment pour l'évaluation de modèles autosupervisés.

show abstract

Modèles neuronaux pré-appris par auto-supervision sur des enregistrements de parole en français

Evain¹,

Nguyen²,

Le³

et al. 2022

View full text Add to dashboard Cite

L'apprentissage auto-supervisé a ouvert des perspectives prometteuses dans de nombreux domaines comme la vision par ordinateur, le traitement automatique de la langue ou celui de la parole. Les modèles pré-appris sur de grandes quantités de données non étiquetées peuvent être ajustés sur de petits ensembles de données transcrites manuellement. Ceux de type wav2vec2.0 ont montré des performances remarquables pour la reconnaissance automatique de la parole. Les premiers modèles partagés à la communauté ayant été appris sur des données en anglais ou multilingues, nous proposons dans cet article sept modèles de type wav2vec2.0, appris sur 1 000, 3 000 et 7 000 heures de parole en français. Leur Apprentissage nécessitant des capacités de calcul très importantes, et dans un esprit de science ouverte, ceux-ci sont librement accessibles. Des résultats expérimentaux sur la reconnaissance automatique de la parole sont également présentés et confirment le bénéfice de l'utilisation de tels modèles.

show abstract

Typologie de la parole spontanée à des fins d'analyse linguistique et de développement de systèmes de reconnaissance automatique de la parole

Evain¹,

Rossato²,

Portet³

et al. 2022

View full text Add to dashboard Cite

Les systèmes de Reconnaissance Automatique de la Parole (RAP) ont montré ces dernières années des performances toujours plus impressionnantes. Néanmoins, la RAP spontanée reste un problème ouvert : la littérature a pu montrer qu'il est difficile de la définir (pas de consensus) et combien elle est difficile à modéliser. Dans notre travail, nous revenons sur la notion même de parole spontanée avant de nous appuyer sur les dénominations et définitions trouvées pour proposer une typologie de la parole spontanée sur quatre axes (contexte situationnel, type et canal de communication, degré d'intimité entre les locuteurs). Cette catégorisation offre la possibilité de rassembler des situations propices à une parole plus ou moins spontanée. Les objectifs sont multiples : créer une nouvelle typologie des corpus oraux de parole spontanée pour faciliter son analyse linguistique et améliorer les performances de systèmes de RAP sur ce type de parole.

show abstract

scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.

Contact Info

hi@scite.ai

10624 S. Eastern Ave., Ste. A-614

Henderson, NV 89052, USA

Blog Terms and Conditions API Terms Privacy Policy Contact Cookie Preferences Do Not Sell or Share My Personal Information

Made with 💙 for researchers

Part of the Research Solutions Family.

Solène Evain

LeBenchmark: A Reproducible Framework for Assessing Self-Supervised Representation Learning from Speech

Towards Automatic Captioning of University Lectures for French students who are Deaf

Human beatbox sound recognition using an automatic speech recognition toolkit

LeBenchmark, un référentiel d'évaluation pour le français oral

Modèles neuronaux pré-appris par auto-supervision sur des enregistrements de parole en français

Typologie de la parole spontanée à des fins d'analyse linguistique et de développement de systèmes de reconnaissance automatique de la parole

Contact Info

Product

Resources

About