Self-Training Naive Bayes Berbasis Word2Vec untuk Kategorisasi Berita Bahasa Indonesia

Santoso, Joan; Soetiono, Agung Dewa Bagus; Gunawan, Gunawan; Setyati, Endang; Yuniarno, Eko Mulyanto; Hariadi, Mochamad; Purnomo, Mauridhi Hery

doi:10.22146/jnteti.v7i2.418

Cited by 8 publications

(9 citation statements)

References 18 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…Tujuan pengolahan teks yang populer saat ini adalah analisis sentimen dan kategorisasi teks [15], [16]. Namun, penerapan analisis pendapat mulai dilakukan pada berbagai bidang.…”

Section: Aplikasi-aplikasi Analisis Pendapatunclassified

“…Namun, bag-of-words memiliki kelemahan, yaitu fitur yang tidak relevan ikut diolah sehingga dapat menyebabkan penurunan kinerja algoritme [26]. Oleh karena itu, makalah ini menggunakan word embedding yang dapat memberikan makna semantik [16]. Makalah ini juga mengolah input tiga fitur tambahan sesuai dengan karakteristik dataset yang dibangun dan berdasarkan penelitian sebelumnya [14].…”

Section: Aplikasi-aplikasi Analisis Pendapatunclassified

“…Pre-trained word embedding adalah word embedding yang sudah dilatih terlebih dahulu dan siap dipakai untuk berbagai tugas machine learning teks secara umum. Pre-trained word embedding yang digunakan dibentuk dengan bantuan JST [16]. Teknik ini dinamakan Word2Vec [35].…”

Section: Hasil Eksperimen Dan Diskusiunclassified

See 2 more Smart Citations

Analisis Pendapat Masyarakat terhadap Berita Kesehatan Indonesia menggunakan Pemodelan Kalimat berbasis LSTM

Setiawan

Ferdianto²,

Santoso

et al. 2020

JNTETI

Self Cite

View full text Add to dashboard Cite

Adanya ketidakpastian konten berita kesehatan yang tersebar di media sosial memunculkan kebutuhan untuk validasi kebenaran informasi. Salah satu pendekatan validasi dengan mempertimbangkan pendapat atau sikap sebagian besar masyarakat yang diistilahkan sebagai stance terhadap topik tersebut, yaitu mendukung, menentang, atau netral. Makalah ini membahas usulan model analisis stance untuk memahami hubungan antar kalimat sehingga dapat mengenali korelasi pendapat penulis berita terhadap klaim permasalahan dari judulnya. Usulan model menggunakan beberapa Long Short-Term Memory (LSTM) yang merepresentasikan keterkaitan antar berita untuk mengklasifikasikan relasi antara suatu judul berita kandidat validasi dengan berita-berita lain. Pembentukan vektor representasi kata-kata dilakukan bersamaan dengan pelatihan analisis pendapat melalui klasifikasi yang berbasis LSTM. Pemodelan kalimat dilakukan untuk mendapatkan vektor representasi kalimat dengan LSTM. Tiap kata dalam suatu kalimat menempati satu langkah waktu dalam LSTM dan output dari kata terakhir diambil sebagai representasi kalimat. Berdasarkan hasil uji coba dengan dataset bahasa Indonesia bertopik kesehatan yang telah dibangun untuk makalah ini, model analisis stance yang diusulkan mampu meraih rata-rata nilai F1 71%, dengan rincian label mendukung 69%, menentang 70%, dan netral 74%.

show abstract

“…Tujuan pengolahan teks yang populer saat ini adalah analisis sentimen dan kategorisasi teks [15], [16]. Namun, penerapan analisis pendapat mulai dilakukan pada berbagai bidang.…”

Section: Aplikasi-aplikasi Analisis Pendapatunclassified

See 1 more Smart Citation

Analisis Pendapat Masyarakat terhadap Berita Kesehatan Indonesia menggunakan Pemodelan Kalimat berbasis LSTM

Setiawan

Ferdianto²,

Santoso

et al. 2020

JNTETI

Self Cite

View full text Add to dashboard Cite

show abstract

“…Selain itu tokenisasi juga membuang karakter-karakter tanda baca atau nonalfanumerik sehingga tersisa hanya sekumpulan kata-kata dari dalam dokumen. [6] 3) Stop Word Removal: merupakan tahap filtering yang adalah mengambil kata-kata penting dari hasil token serta membuang common word. Pada penelitian ini library stopword yang digunakan adalah Sastrawi.…”

Section: A Preprocessing Untuk Mendapatkan Daftar Kata Dariunclassified

Klasifikasi Helpdesk Menggunakan Metode Support Vector Machine

Kusumahadi

Junaedi

Santoso

2019

jpit

Self Cite

View full text Add to dashboard Cite

The online helpdesk with ticketing system with the help of operators often experiences problems such as inappropriate delegation processes, the duration of the helpdesk waiting time to be delegated, even the helpdesk is missed to be handled. The ticket delegation checked manually by the operator has risks creating an error in delegating helpdesk tickets to inappropriate technicians. The helpdesk classification system is needed so that every incoming helpdesk ticket can be classified to the right technician according to the job description. The incoming Helpdesk is classified into 6 types of requests, namely multimedia, documentation, internet, server, hardware, software and miscellaneous. This helpdesk grouping is needed so that related technicians for each helpdesk can work and help the helpdesk according to their respective job descriptions. The Support Vector Machine method is used to classify text on the helpdesk. The use of Linear and Polynomial kernels produces an accuracy of 78%, the RBF or Gaussian kernel produces the highest accuracy of 81% while the Sigmoid kernel produces the smallest accuracy of 51%. The helpdesk classification results with the Support Vector Machine method can produce quite good accuracy.Abstrak  Helpdesk secara online dengan sistem ticketing dengan bantuan operator sering kali mengalami permasalahan seperti proses pendelegasian yang kurang tepat, lamanya waktu tunggu helpdesk didelegasikan, bahkan terlewatnya helpdesk untuk dapat ditangani. Proses delegasi tiket secara manual oleh operator beresiko menimbulkan terjadinya kesalahan pendelegasian tiket helpdesk kepada teknisi yang tidak sesuai. Sistem klasifikasi helpdesk dibutuhkan agar setiap tiket helpdesk yang masuk dapat diklasifikasikan dan didelegasikan ke teknisi yang tepat sesuai dengan job description. Helpdesk yang masuk diklasifikasi menjadi 6 macam permintaan bantuan yaitu multimedia, dokumentasi, internet, server, hardware, software. Pengelompokan helpdesk ini diperlukan agar teknisi terkait untuk masing-masing helpdesk dapat mengerjakan dan membantu helpdesk sesuai dengan job description masingmasing. Metode Support Vector Machine dipakai untuk melakukan klasifikasi teks pada helpdesk. Penggunaan kernel Linear dan Polynomial menghasilkan akurasi sebesar 78%, kernel RBF atau Gaussian menghasilkan akurasi paling tinggi yaitu sebesar 81% sedangkan kernel Sigmoid menghasilkan akurasi paling kecil yaitu 51%. Hasil klasifikasi helpdesk dengan metode Support Vector Machine dapat menghasilkan akurasi cukup baik.

show abstract

“…Data teks dengan kata sebagai ciri mempunyai masalah klasik terkait jumlah dimensi, sehingga pendekatan Word2Vec dipilih untuk mengurangi kompleksitas waktu [22]- [24].…”

Section: Hasil Dan Analisis Proses Identifikasi Topikunclassified

Ekstraksi Ciri Produktivitas Dinamis untuk Prediksi Topik Pakar dengan Model Discrete Choice

Purwitasari¹,

Fatichah²,

Sumpeno³

et al. 2018

Jurnal Nasional Teknik Elektro dan Teknologi Informasi (JNTETI)

Self Cite

View full text Add to dashboard Cite

Recommendation of active or productive experts is indispensable in supporting collaborations. Activities of publication and citation indicate expert productivity. An expert can be inferred to have an interest in a subject through productivity in that particular topic. Since an expert can change interests over time, the contribution of this paper is a Discrete Choice Model (DCM) based on topic productivities to predict the primary interests of the experts. DCM uses features extracted from bibliographic data of citation relation and title-abstract texts. Before extracting productivity features and dynamicity features to represent interest changes, title clustering with KMeans++ is used to identify research topics. There are six productivity features and five dynamicity values for each productivity feature to demonstrate the expert behavior. Therefore, a clustered topic as a research interest is represented as an expert choice with 30 extracted features in the proposed method. The experiments used multinomial logistic regression for DCM and a log-likelihood indicator for the fitted models of the features. The resulted DCM models showed that productive behavior of the experts by doing many publications and receiving many citations effected to the precision of topic prediction by 80%. Some features were better for predicting primary interests of the expert. It was demonstrated with a lower precision value of 60% by using features that represent the expert behavior of only doing publication or only getting citation.

show abstract

Self-Training Naive Bayes Berbasis Word2Vec untuk Kategorisasi Berita Bahasa Indonesia

Cited by 8 publications

References 18 publications

Analisis Pendapat Masyarakat terhadap Berita Kesehatan Indonesia menggunakan Pemodelan Kalimat berbasis LSTM

Analisis Pendapat Masyarakat terhadap Berita Kesehatan Indonesia menggunakan Pemodelan Kalimat berbasis LSTM

Klasifikasi Helpdesk Menggunakan Metode Support Vector Machine

Ekstraksi Ciri Produktivitas Dinamis untuk Prediksi Topik Pakar dengan Model Discrete Choice

Contact Info

Product

Resources

About