This paper argues in favor of a statistical approach to terminology extraction, general to all languages but with language specific parameters. In contrast to many application-oriented terminology studies, which are focused on a particular language and domain, this paper adopts some general principles of the statistical properties of terms and a method to obtain the corresponding language specific parameters. This method is used for the automatic identification of terminology and is quantitatively evaluated in an empirical study of English medical terms. The proposal is theoretically and computationally simple and disregards resources such as linguistic or ontological knowledge. The algorithm learns to identify terms during a training phase where it is shown examples of both terminological and non-terminological units. With these examples, the algorithm creates a model of the terminology that accounts for the frequency of lexical, morphological and syntactic elements of the terms in relation to the non-terminological vocabulary. The model is then used for the later identification of new terminology in previously unseen text. The comparative evaluation shows that performance is significantly higher than other well-known systems. KEYWORDS:English technical terminology, terminology extraction, computational terminography, quantitative linguistics. RESUMENEste artículo presenta argumentos en favor de una aproximación estadística a la extracción de terminología, general a todas las lenguas pero con parámetros específicos para cada una de ellas. En contraste con la tendencia general en terminología aplicada, que suele ser específica de una lengua y un dominio de especialidad, el presente artículo adopta unos principios generales acerca de las propiedades estadísticas de la terminología especializada y un método para obtener los parámetros correspondientes a una lengua en particular. Este método se utiliza para la identificación automática de los términos en los textos, y su efectividad es evaluada en este artículo mediante un estudio empírico en el caso de la terminología médica en inglés. El modelo requiere escasa complejidad teórica y computacional, y no necesita recurrir a fuentes de conocimiento lingüístico u ontológico. Este algoritmo aprende automáticamente a identificar términos durante una fase de entrenamiento en que se utilizan conjuntos de ejemplos de unidades terminológicas y no terminológicas. Con estos ejemplos, el algoritmo elabora un modelo de los términos teniendo en cuenta la frecuencia de elementos léxicos, morfológicos y sintácticos en relación al vocabulario no terminológico. Sobre la base de este modelo, identificará luego nuevos términos en nuevos textos. El estudio comparativo demuestra que el presente algoritmo tiene un desempeño significativamente superior al de otros sistemas conocidos. PALABRAS CLAVE:Terminología especializada en inglés, extracción de terminología, terminografía computacional, lingüística cuantitativa.
This paper presents the first results of a new method for terminology extraction based on distributional analysis. The intuition behind the algorithm is that single or multi-word lexical units that refer to specialised concepts will show a characteristic co-occurrence pattern, described as a tendency to appear in the same contexts with other conceptually related terms. E.g. the termfluoxetinewill systematically appear in the same sentences with other related terms such asdepression, serotonin reuptake inhibitor, obsessive–compulsive disorderand others. Of course, terms will co-occur with general vocabulary units as well, but not with a characteristic pattern as when a conceptual relation holds. Experimental evaluation of this method was conducted in a corpus of psychiatry journals from Spain and Latin America, and concluded that the results are significantly better than other methods.
This article explores a statistical, language-independent methodology for the construction of taxonomies of specialized domains from noisy corpora. In contrast to proposals that exploit linguistic information by searching for lexicosyntactic patterns that tend to express the hypernymy relation, our methodology relies entirely upon the distributional semantics of terms as captured by their lexical co-occurrence in large scale corpora. In a first stage, we analyze the syntagmatic relations of terms that serve as seeds of the taxonomy to be constructed and we obtain, thus, tbe first batch of hypernym candidate terms for our seed terms. In a second stage, we analyze tbe paradigmatic relations of the terms by inspecting which terms show a prominent frequency of co-occurrence with the terms that, as we found in the previous stage, are syntagmaticaUy related to our seed terms -which allows us to refine the first batch of hypernym candidate terms and obtain new ones. In a third and final stage, we build a taxonomy from the obtained bypernym candidate lists, exploiting the asymmetric statistic association between terms that is characteristic of the hypernymy relation.
Resumen: Este artículo presenta una metodología para el análisis de la evolución de la terminología de un dominio especializado, medida en variación de frecuencia de uso, aparición y desaparición de los términos. Como ejemplo, el artículo describe los resultados de la aplicación de esta metodología a un corpus conformado por las actas de los congresos organizados por la Asociación Española de Lingüística Aplicada, entre los años 1983 y 2006. La metodología se resume en un algoritmo cuantitativo independiente de lengua que acepta como entrada un conjunto de ficheros de texto organizados por años y como salida selecciona términos de ese corpus calculando cómo se distribuyen sus frecuencias a lo largo del tiempo. Las propiedades geométricas de las curvas que representan las frecuencias de uso de esas unidades terminológicas permiten identificar automáticamente aquellas unidades que se ponen de moda en el dominio así como las que dejan de utilizarse. Metafóricamente, se trata de una radiografía de los cambios de paradigma que se van dando a lo largo de la historia del campo, pero también de una neología y una arqueología de su terminología, rescatando términos que sería difícil encontrar mediante inspección manual debido a la escala del corpus. El objetivo específico del artículo es proponer una alternativa a otros modelos existentes para el estudio de unidades en la escala temporal que se limitan a seguir la curva de distribución de frecuencias en el tiempo de unidades elegidas arbitrariamente por un usuario. La alternativa en este artículo ofrece una visión distinta porque es proceder del modo inverso, en lugar de introducir unidades léxicas para ver sus curvas, introducir las curvas para obtener las unidades. La utilidad de estos conjuntos de unidades puede variar en función de las necesidades. Por ejemplo, la creación de glosarios terminológicos de distintos tipos (en papel o en formato electrónico) puede requerir ya sea una nomenclatura que incluya sólo la terminología firmemente establecida en el campo o, en otros casos, incluir también las unidades neológicas o en desuso.Palabras Clave: Extracción de terminología, estadística de corpus, lingüística cuantitativa.Estudio diacrónico de la terminología especializada utilizando métodos cuantitativos: Ejemplos de aplicación a un corpus de artículos de lingüística aplicada 1
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.