Every project of automated lemmatization is confronted to the problem of lexical ambiguities. The aim of the authors is to provide a description of the lexical ambiguities to be found in Ancient Greek. They also wish to present a first set of local grammars intended to solve them. Results of automated desambiguisation are compared with lexical data previously treated by hand.
Les travaux du Projet de recherche en lexicologie grecque (Université catholique de Louvain, Louvain-la-Neuve, Belgique) visent à élaborer un dictionnaire général du grec ancien applicable aux logiciels de traitement automatique du langage naturel (TAL). Constitué de données lexicales produites par la lemmatisation systématique de sources patristiques et historiographiques d'époque byzantine, ce dictionnaire compte actuellement 174.758 «formes de mots » classées sous 33.874 lemmes accompagnés d'une indication de leur catégorie morphosyntaxique. Les sources littéraires analysées et les données générées ont été adaptées par le CENTAL (Louvain-la-Neuve) à Unitex, un logiciel d'exploration lexicale et syntaxique des textes développé au Laboratoire d'Informatique de l'Institut Gaspard Monge (Paris). Une interface originale permet d'interroger en ligne un corpus expérimental, entièrement lemmatisé et désambiguïsé, limité pour l'instant aux lettres de Basile de Césarée (134.511 occurrences) mais susceptible de s'accroître dans un futur proche. Les requêtes peuvent être formulées sur base des lemmes et des formes ou à partir de motifs syntaxiques. Les réponses s'affichent à l'écran en grec polytonique Unicode sous forme de concordances. Un étiquetage des morphèmes constitutifs des lemmes permet de plus d'appeler les lemmes formellement apparentés à un même mot. Le résultat apparaît sous la forme d'une « arborescence dérivationnelle » rassemblant les dérivés et les composés du terme étudié.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.