To build state-of-the-art Neural Machine Translation (NMT) systems, high-quality parallel sentences are needed. Typically, large amounts of data are scraped from multilingual web sites and aligned into datasets for training. Many tools exist for automatic alignment of such datasets. However, the quality of the resulting aligned corpus can be disappointing. In this paper, we present a tool for automatic misalignment detection (MAD). We treated the task of determining whether a pair of aligned sentences constitutes a genuine translation as a supervised regression problem. We trained our algorithm on a manually labeled dataset in the FR-NL language pair. Our algorithm used shallow features and features obtained after an initial translation step. We showed that both the Levenshtein distance between the target and the translated source, as well as the cosine distance between sentence embeddings of the source and the target were the two most important features for the task of misalignment detection. Using gold standards for alignment, we demonstrated that our model can increase the quality of alignments in a corpus substantially, reaching a precision close to 100%. Finally, we used our tool to investigate the effect of misalignments on NMT performance.
Documents pour l'histoire du français langue étrangère ou seconde 42 | 2009Approches contrastives et multilinguisme dans l'enseignement des langues en Europe (XVI e -XX e siècles)
Résumé En 1672 parut à Amsterdam, chez Abraham Wolfgang (1634–1694), une grammaire de l’italien rédigée en néerlandais. L’auteur de cette grammaire, publiée anonymement, peut être identifié comme Lodewijk Meijer (1629–1681). L’ouvrage, intitulé Italiaansche Spraakkonst, se caractérise par une organisation méthodique très explicite, qui se reflète dans la structuration rigide et systématique de la matière, dans l’emploi conséquent d’une terminologie bilingue (latin–néerlandais), dans la description, fort parallèle, des classes de mots, et dans l’application rigoureuse du principe de conformité structurelle (analogia en latin; gelijkvormigheidt en néerlandais). Construite sur une théorie de grammaire générale, l’Italiaansche Spraakkonst est une grammaire particulière de l’italien qui, tout en étant basée sur des sources livresques, fournit une description très complète et didactiquement adéquate. Le noyau de la grammaire est constitué par la description des classes de mots: celles-ci sont définies et décrites selon leur nature, leur sous-classification (formelle et sémantique) et leurs possibilités de combinaison. La théorie des parties du discours dans l’Italiaansche Spraakkonst est organisée autour du nom et du verbe, les deux classes de mots par rapport auxquelles les autres classes sont définies. La présente étude s’ouvre par une mise en contexte historiographique de la grammaire italienne de L. Meijer. Ensuite, la démarche méthodologique et la terminologie déployées dans l’ouvrage sont au centre de l’analyse. L’examen de l’organisation de la matière grammaticale procède de l’articulation globale des classes de mots à l’étude de deux classes, à savoir l’article et l’adnomen (néerlandais: bynaam), ce dernier terme désignant chez Meijer l’ensemble des éléments adjectivaux. Le fait d’avoir érigé les adnomina en une classe de mots autonome constitue un des apports les plus remarquables de ce grammairien, philosophe et ami de Spinoza (1632–1677), qui s’inscrit dans le courant du rationalisme post-cartésien.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.