Sara Szoc scite author profile

Sara Szoc

4Publications

1Citation Statement Received

37Citation Statements Given

How they've been cited

How they cite others

Affiliations

KU Leuven, CrossLang (Belgium)

Publications

Order By: Most citations

Misalignment Detection for Web-Scraped Corpora: A Supervised Regression Approach

et al. 2019

View full text Add to dashboard Cite

To build state-of-the-art Neural Machine Translation (NMT) systems, high-quality parallel sentences are needed. Typically, large amounts of data are scraped from multilingual web sites and aligned into datasets for training. Many tools exist for automatic alignment of such datasets. However, the quality of the resulting aligned corpus can be disappointing. In this paper, we present a tool for automatic misalignment detection (MAD). We treated the task of determining whether a pair of aligned sentences constitutes a genuine translation as a supervised regression problem. We trained our algorithm on a manually labeled dataset in the FR-NL language pair. Our algorithm used shallow features and features obtained after an initial translation step. We showed that both the Levenshtein distance between the target and the translated source, as well as the cosine distance between sentence embeddings of the source and the target were the two most important features for the task of misalignment detection. Using gold standards for alignment, we demonstrated that our model can increase the quality of alignments in a corpus substantially, reaching a precision close to 100%. Finally, we used our tool to investigate the effect of misalignments on NMT performance.

show abstract

Le prime grammatiche d’italiano nei Paesi Bassi (1555-1710) e la descrizione della congiunzione

Szoc¹

2010

cher

View full text Add to dashboard Cite

Esclaircissement sur deux maîtres plurilingues du XVIIe siècle à Leyde

Szoc¹

2009

dhfles

View full text Add to dashboard Cite

show abstract

La grammaire italienne de Lodewijk Meijer (1672)

Szoc

Swiggers

2019

View full text Add to dashboard Cite

Résumé En 1672 parut à Amsterdam, chez Abraham Wolfgang (1634–1694), une grammaire de l’italien rédigée en néerlandais. L’auteur de cette grammaire, publiée anonymement, peut être identifié comme Lodewijk Meijer (1629–1681). L’ouvrage, intitulé Italiaansche Spraakkonst, se caractérise par une organisation méthodique très explicite, qui se reflète dans la structuration rigide et systématique de la matière, dans l’emploi conséquent d’une terminologie bilingue (latin–néerlandais), dans la description, fort parallèle, des classes de mots, et dans l’application rigoureuse du principe de conformité structurelle (analogia en latin; gelijkvormigheidt en néerlandais). Construite sur une théorie de grammaire générale, l’Italiaansche Spraakkonst est une grammaire particulière de l’italien qui, tout en étant basée sur des sources livresques, fournit une description très complète et didactiquement adéquate. Le noyau de la grammaire est constitué par la description des classes de mots: celles-ci sont définies et décrites selon leur nature, leur sous-classification (formelle et sémantique) et leurs possibilités de combinaison. La théorie des parties du discours dans l’Italiaansche Spraakkonst est organisée autour du nom et du verbe, les deux classes de mots par rapport auxquelles les autres classes sont définies. La présente étude s’ouvre par une mise en contexte historiographique de la grammaire italienne de L. Meijer. Ensuite, la démarche méthodologique et la terminologie déployées dans l’ouvrage sont au centre de l’analyse. L’examen de l’organisation de la matière grammaticale procède de l’articulation globale des classes de mots à l’étude de deux classes, à savoir l’article et l’adnomen (néerlandais: bynaam), ce dernier terme désignant chez Meijer l’ensemble des éléments adjectivaux. Le fait d’avoir érigé les adnomina en une classe de mots autonome constitue un des apports les plus remarquables de ce grammairien, philosophe et ami de Spinoza (1632–1677), qui s’inscrit dans le courant du rationalisme post-cartésien.

show abstract

scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.

Contact Info

hi@scite.ai

10624 S. Eastern Ave., Ste. A-614

Henderson, NV 89052, USA

Blog Terms and Conditions API Terms Privacy Policy Contact Cookie Preferences Do Not Sell or Share My Personal Information

Made with 💙 for researchers

Part of the Research Solutions Family.

Sara Szoc

Misalignment Detection for Web-Scraped Corpora: A Supervised Regression Approach

Le prime grammatiche d’italiano nei Paesi Bassi (1555-1710) e la descrizione della congiunzione

Esclaircissement sur deux maîtres plurilingues du XVIIe siècle à Leyde

La grammaire italienne de Lodewijk Meijer (1672)

Contact Info

Product

Resources

About