2017
DOI: 10.1145/3015467
|View full text |Cite
|
Sign up to set email alerts
|

Named Entity Recognition with Word Embeddings and Wikipedia Categories for a Low-Resource Language

Abstract: In this article, we propose a word embedding--based named entity recognition (NER) approach. NER is commonly approached as a sequence labeling task with the application of methods such as conditional random field (CRF). However, for low-resource languages without the presence of sufficiently large training data, methods such as CRF do not perform well. In our work, we make use of the proximity of the vector embeddings of words to approach the NER problem. The hypothesis is that word vectors belonging to the sa… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
2
1
1
1

Citation Types

0
20
0
5

Year Published

2018
2018
2023
2023

Publication Types

Select...
7
1

Relationship

0
8

Authors

Journals

citations
Cited by 41 publications
(25 citation statements)
references
References 16 publications
0
20
0
5
Order By: Relevance
“…Pengambilan entitas informasi berbasis teknologi informasi banyak dilakukan menggunakan metode Named Entity Recognition (NER). NER pada penelitian sebelumnya mampu digunakan dalam pengambilan informasi di kartu nama [2], video tutorial [3], teks artikel [4], teks unggahan di media sosial [5]- [7], dan informasi entitas di dalam rekaman data BTS [8]. Saat ini, berbagai tools yang telah tersedia dapat digunakan untuk menerapkan metode ini.…”
Section: Pendahuluanunclassified
See 1 more Smart Citation
“…Pengambilan entitas informasi berbasis teknologi informasi banyak dilakukan menggunakan metode Named Entity Recognition (NER). NER pada penelitian sebelumnya mampu digunakan dalam pengambilan informasi di kartu nama [2], video tutorial [3], teks artikel [4], teks unggahan di media sosial [5]- [7], dan informasi entitas di dalam rekaman data BTS [8]. Saat ini, berbagai tools yang telah tersedia dapat digunakan untuk menerapkan metode ini.…”
Section: Pendahuluanunclassified
“…Namun demikian, performa NER-tools pada poster berbahasa Indonesia masih mengalami kendala akurasi [9]- [11] karena bahasa Indonesia termasuk kategori bahasa dengan sumber daya rendah (low-resource language), seperti halnya bahasa Bengali [4] dan Cina [12]. Salah satu penyebabnya adalah karena bahasa Indonesia bukan bahasa internasional seperti bahasa Inggris atau Prancis yang sudah memiliki korpus teks dengan jutaan perbendaharaan kata dan tersedia di Internet [9].…”
Section: Pendahuluanunclassified
“…According to Reference [28], "this is an important task because its performance directly affects the quality of many succeeding NLP applications such as information extraction". Its application recently gained popularity for processing semi-structured knowledge bases regarding entity disambiguation/mapping [29][30][31] and extracting/retrieving information [32] or for analyzing content generated on social media [33][34][35].…”
Section: Natural Language Processing Approachesmentioning
confidence: 99%
“…Примером данного подхода является [8], в котором авторы применяют Word2vec для генерации кластеров слов с близкими контекстами. Такой подход показывает лучшие результаты в сравнении с классическим CRF для языков с низким объемом размеченных корпусов (например, Бенгальский язык).…”
Section: извлечение информации с использованием нейросетевых моделей unclassified