In this paper we present the problem of a noisy lexical taxonomy and suggest two tasks as potential remedies. The first task is to identify and eliminate incorrect hypernymy links, and the second is to repopulate the taxonomy with new relations. The first task consists of revising the entire taxonomy and returning a Boolean for each assertion of hypernymy between two nouns (e.g. brie is a kind of cheese). The second task consists of recursively producing a chain of hypernyms for a given noun, until the most general node in the taxonomy is reached (e.g. brie → cheese → food → etc.). In order to achieve these goals, we implemented a hybrid hypernym-detection algorithm that incorporates various intuitions, such as syntagmatic, paradigmatic and morphological association measures as well as lexical patterns. We evaluate these algorithms individually and collectively and report findings in Spanish, English and French.
El análisis semántico de los verbos supone un desafío teórico y metodológico debido a la complejidad de estas unidades léxicas en términos tanto semánticos como con respecto a su relación con la sintaxis oracional. El objetivo de esta investigación es identificar las estructuras léxico-sintácticas, es decir, los patrones formados a partir de la sintaxis oracional, los argumentos y los tipos semánticos de los verbos en español. El análisis de los verbos en español se realiza siguiendo la propuesta de Corpus Pattern Analysis (Hanks, 2004a). Este análisis se complementa con la automatización del procedimiento, combinando un analizador de dependencias con una serie de algoritmos basados en estadística de corpus. Como resultado del proceso, se ofrece una base de datos de patrones léxico-sintácticos de 182 verbos anotados manualmente, y una interfaz para el análisis automático que, según la evaluación realizada, muestra un 63,41% de precisión con respeto de la identificación manual. Esto sería una contribución tanto a la teoría de la semántica léxica como a la descripción del léxico del español desde una metodología basada en corpus.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.