2019
DOI: 10.21814/lm.11.1.291
|View full text |Cite
|
Sign up to set email alerts
|

Uma utilidade para o reconhecimento de topónimos em documentos medievais

Abstract: Este artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua contemporânea do LinguaKit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anotados manualmente serviu de recurso para elaborar uma lista de topónimos medievais (gazetteers) e observar padrões para a melhora e implementação de novas regras de reconhecimento dos nomes de lugar. Depois da lista de… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1

Citation Types

0
1
0
1

Year Published

2020
2020
2022
2022

Publication Types

Select...
2

Relationship

0
2

Authors

Journals

citations
Cited by 2 publications
(2 citation statements)
references
References 8 publications
(9 reference statements)
0
1
0
1
Order By: Relevance
“…Canosa et al [6] describe a method to build a tool designed to recognise named geographical entities in medieval texts. However, the new tool was developed from the contemporary language modules of LinguaKit, a natural language processing toolkit, with which gazetteers, a list of medieval toponyms, was developed.…”
Section: Area Of Computational Linguisticsmentioning
confidence: 99%
“…Canosa et al [6] describe a method to build a tool designed to recognise named geographical entities in medieval texts. However, the new tool was developed from the contemporary language modules of LinguaKit, a natural language processing toolkit, with which gazetteers, a list of medieval toponyms, was developed.…”
Section: Area Of Computational Linguisticsmentioning
confidence: 99%
“…Estas regras podem ser expressadas de modo explícito no código da ferramenta (sistema de regras) ou aprendidas a partir do treino em corpora (sistema de aprendizado de máquina). A vantagem do primeiro tipo é que, ao permitir otimizar os resultados mediante a depuração das regras, resulta facilmente adaptável para o trabalho com corpora históricos em que a modalidade de língua apresenta grandes diferenças com o padrão contemporâneo, caso do galego-português medieval (Canosa et al 2018). Para serem convenientemente treinados, os sistemas de aprendizado requerem texto previamente anotado e estatisticamente relevante, num volume nem sempre disponível no caso de textos históricos.…”
Section: Introductionunclassified