2009 Seventh Brazilian Symposium in Information and Human Language Technology 2009
DOI: 10.1109/stil.2009.33
|View full text |Cite
|
Sign up to set email alerts
|

Identification of Multiword Expressions in Technical Domains: Investigating Statistical and Alignment-Based Approaches

Abstract: Multiword Expressions (MWEs) are one of the stumbling blocks for more precise Natural Language Processing (NLP) systems. The lack of coverage of MWEs in resources can impact negatively on the performance of tasks and applications, and can lead to loss of information or communication errors; especially in technical domains where MWE are frequent. This paper investigates some approaches to the identification of MWEs in technical corpora based on: association measures, part-of-speech and lexical alignment informa… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1

Citation Types

0
0
0
1

Year Published

2010
2010
2021
2021

Publication Types

Select...
1
1

Relationship

0
2

Authors

Journals

citations
Cited by 2 publications
(1 citation statement)
references
References 10 publications
(14 reference statements)
0
0
0
1
Order By: Relevance
“…Um método para o desenvolvimento de ferramentas lexicais são as tabelas hash que necessariamente têm as informações centralizadas nessa estrutura de dados sendo eficientes para acessar grande volume de informações de modo rápido e otimizado, com potencial para resolver problemas de buscas Hash Tables for a Digital Lexicon de multipalavras [8]. Exemplos de ferramentas com tabelas hash tem-se o léxico Urdu [9], o qual foi feito para uma língua indo-europeia amplamente falada no Paquistão e na Índia que se mostrou eficiente tanto para o tempo de pesquisa como nos requisitos de espaço e armazenamento, e o sistema Morphological Analyzer using Hash Table, ou apenas MAHT, o qual é um analisador morfológico para a Língua Espanhola que possui uma base de conhecimento lexical de quase cinco milhões de palavras, conseguindo atingir uma velocidade média de processamento de mais de 275 mil palavras por segundo, exatamente por usar tabelas hash na memória principal.…”
Section: Introductionunclassified
“…Um método para o desenvolvimento de ferramentas lexicais são as tabelas hash que necessariamente têm as informações centralizadas nessa estrutura de dados sendo eficientes para acessar grande volume de informações de modo rápido e otimizado, com potencial para resolver problemas de buscas Hash Tables for a Digital Lexicon de multipalavras [8]. Exemplos de ferramentas com tabelas hash tem-se o léxico Urdu [9], o qual foi feito para uma língua indo-europeia amplamente falada no Paquistão e na Índia que se mostrou eficiente tanto para o tempo de pesquisa como nos requisitos de espaço e armazenamento, e o sistema Morphological Analyzer using Hash Table, ou apenas MAHT, o qual é um analisador morfológico para a Língua Espanhola que possui uma base de conhecimento lexical de quase cinco milhões de palavras, conseguindo atingir uma velocidade média de processamento de mais de 275 mil palavras por segundo, exatamente por usar tabelas hash na memória principal.…”
Section: Introductionunclassified