Preserving diversity and inclusion is becoming a compelling need in both industry and academia. The ability to use appropriate forms of writing, speaking, and gestures is not widespread even in formal communications such as public calls, public announcements, official reports, and legal documents. The improper use of linguistic expressions can foment unacceptable forms of exclusion, stereotypes as well as forms of verbal violence against minorities, including women. Furthermore, existing machine translation tools are not designed to generate inclusive content.The present paper investigates a joint effort of the research communities of linguistics and Deep Learning Natural Language Understanding in fighting against non-inclusive, prejudiced language forms. It presents a methodology aimed at tackling the improper use of language in formal communication, with a particular attention paid to Romanic languages (Italian, in particular). State-of-the-art Deep Language Modeling architectures are exploited to automatically identify non-inclusive text snippets, suggest alternative forms, and produce inclusive text rephrasing. A preliminary evaluation conducted on a benchmark dataset shows promising results, i.e., 85% accuracy in predicting inclusive/non-inclusive communications.
Nous analysons la structure [[X] SN (du) genre [Y] NdM] qui alterne avec (du) style , (du) type . Les Noms de Marque (NdM) constituent notre objet d’observation en association avec les approximateurs mentionnés lorsqu’ils se glissent dans la construction mise en exergue. Le NdM profite d’un double statut : terme déposé et N propre, dont les locuteurs disposent à leur guise. Sa notoriété l’amène à intégrer le stock lexiculturel des usagers de la langue qui s’en servent tantôt comme substitution économique d’une suite discursive, tantôt comme outil pour connoter et contaminer, par les sèmes que le NdM véhicule, d’autres réalités du monde. Notre objectif est de faire une mise au point sur la pluralité des lectures approximatives et leurs effets à partir de quelques exemples provenant d’une batterie de 50 NdM extraits d’un ensemble de blogs réunis à partir de araneum .
Cet article présente le projet E-MIMIC, une application qui vise à éliminer les préjugés et la non-inclusion dans les textes administratifs rédigés dans les pays européens, à commencer par ceux qui sont rédigés dans les langues romanes. Il présente une méthodologie conçue à partir de critères discursifs inspirés de l’analyse du discours française et utilisés pour étiqueter un corpus de documents institutionnels, qui sont utilisés pour l’apprentissage profond des réseaux neuronaux. Des architectures de modélisation profonde du langage sont exploitées pour identifier automatiquement les extraits de texte non inclusifs, suggérer des formes alternatives et produire des reformulations inclusives. Une évaluation préliminaire menée sur un ensemble de données de référence pour la langue italienne montre des résultats prometteurs, qui poussent à finaliser l’application et à la réaliser également pour d’autres langues, tel le français.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.