2018
DOI: 10.22146/jnteti.v7i2.418
|View full text |Cite
|
Sign up to set email alerts
|

Self-Training Naive Bayes Berbasis Word2Vec untuk Kategorisasi Berita Bahasa Indonesia

Abstract: Abstract-News as one kind of information that is needed in daily life has been available on the internet. News website often categorizes their articles to each topic to help users access the news more easily. Document classification has widely used to do this automatically. The current availability of labeled training data is insufficient for the machine to create a good model. The problem in data annotation is that it requires a considerable cost and time to get sufficient quantity of labeled training data. A… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
2
1
1
1

Citation Types

0
0
0
9

Year Published

2018
2018
2022
2022

Publication Types

Select...
5
2

Relationship

3
4

Authors

Journals

citations
Cited by 8 publications
(9 citation statements)
references
References 18 publications
0
0
0
9
Order By: Relevance
“…Tujuan pengolahan teks yang populer saat ini adalah analisis sentimen dan kategorisasi teks [15], [16]. Namun, penerapan analisis pendapat mulai dilakukan pada berbagai bidang.…”
Section: Aplikasi-aplikasi Analisis Pendapatunclassified
See 2 more Smart Citations
“…Tujuan pengolahan teks yang populer saat ini adalah analisis sentimen dan kategorisasi teks [15], [16]. Namun, penerapan analisis pendapat mulai dilakukan pada berbagai bidang.…”
Section: Aplikasi-aplikasi Analisis Pendapatunclassified
“…Namun, bag-of-words memiliki kelemahan, yaitu fitur yang tidak relevan ikut diolah sehingga dapat menyebabkan penurunan kinerja algoritme [26]. Oleh karena itu, makalah ini menggunakan word embedding yang dapat memberikan makna semantik [16]. Makalah ini juga mengolah input tiga fitur tambahan sesuai dengan karakteristik dataset yang dibangun dan berdasarkan penelitian sebelumnya [14].…”
Section: Aplikasi-aplikasi Analisis Pendapatunclassified
See 1 more Smart Citation
“…Selain itu tokenisasi juga membuang karakter-karakter tanda baca atau nonalfanumerik sehingga tersisa hanya sekumpulan kata-kata dari dalam dokumen. [6] 3) Stop Word Removal: merupakan tahap filtering yang adalah mengambil kata-kata penting dari hasil token serta membuang common word. Pada penelitian ini library stopword yang digunakan adalah Sastrawi.…”
Section: A Preprocessing Untuk Mendapatkan Daftar Kata Dariunclassified
“…Data teks dengan kata sebagai ciri mempunyai masalah klasik terkait jumlah dimensi, sehingga pendekatan Word2Vec dipilih untuk mengurangi kompleksitas waktu [22]- [24].…”
Section: Hasil Dan Analisis Proses Identifikasi Topikunclassified