Combination of K-Nearest Neighbor and K-Means based on Term Re-weighting for Classify Indonesian News

Buana, Putu Wira; Jannet, D R M Sesaltina; Putra, I Ketut Gede Darma

doi:10.5120/7817-1105

Cited by 24 publications

(11 citation statements)

References 11 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…Menurut [1], data mining adalah proses mengekstraksi informasi dari sekumpulan data yang berukuran besar data tersebut diolah dengan menggunakan algoritma dan teknik menggambar statistik, machine learning serta sistem pengelolaan basis data. Sebagai proses pencarian informasi dari sekumpulan data yang akan dijadikan sebagai pengetahuan baru yang dapat dimanfaatkan maka dari itu data mining juga seringkali dikenal dengan sebutan Knowledge Discovery in Database (KDD Text mining merupakan salah satu metode pencarian informasi dari sekumpulan data teks [4]. Tahapan pada text mining umumnya adalah text preprocessing dan feature selection [5], kata yang terdapat pada data teks yang akan di mining akan dirubah bentuk akhirnya kedalam sebuah kata dasar [6].…”

Section: Pendahuluanunclassified

Pembobotan TF-IDF pada Judul Penelitian Dosen Sebagai Dasar Klasifikasi Menggunakan Algoritma K-NN (Studi Kasus: Universitas Siliwangi)

Supriatman¹

2021

JSE

View full text Add to dashboard Cite

The rapid and inexpensive development of digital storage media technology has led to an increase in the number of electronic documents stored on storage systems such as those in universities. Various academic scientific works, such as articles , research reports, etc., are available in digitally . In addition to teaching activities, lecturers are also required to research to deepen their knowledge. With so much research, of course, the resulting research will be very diverse, which is why it is deemed necessary to have groupings related to the title or topic of the research carried out so that it can support the management of Siliwangi University in achieving its goals. Using TF-IDF weighting in text mining on a research title data set, it is known that the optimal number of k in this study is k = 4 with an accuracy rate of 90.7% and the resulting number of each group is 115 scientific titles, 142 social titles, and 98 educational titles for a total of 355 research titles.

show abstract

Section: Pendahuluanunclassified

Pembobotan TF-IDF pada Judul Penelitian Dosen Sebagai Dasar Klasifikasi Menggunakan Algoritma K-NN (Studi Kasus: Universitas Siliwangi)

Supriatman¹

2021

JSE

View full text Add to dashboard Cite

show abstract

“…Email: sks001@gmail.com available for English language on this field. Recently, several related work on Natural Language Processing has been done on Chinese [8] ,Indonesian [5,6], Hindi [3], Arabic [4,7] , English-Hindi [2], Bengali Language [1] and so on. Resources on these languages are also increasing as more and more research are going on in this field.…”

Section: Revised Manuscript Received On November 19 2019mentioning

confidence: 99%

Assamese Text Classification using k Nearest Neighbor

Gogoi*,

Sarma

2019

IJRTE

View full text Add to dashboard Cite

Knowledge is the most powerful weapon of a society. And in today’s world it is just a click away from the mouse. There is abundance of knowledge and information in the form of newspaper , electronic newspaper ,articles, online journals, webpages , search results etc. And there is a wide range of news from all over the world. But then the choice of news varies from person to person. Some people may prefer sports news to amusement news and some people may prefer political news over sports news and likewise there can be a number of other choices. It completely relies on individual’s decision. Document Classification is the process of classifying a document into a number of predefined classes. In this paper we have done document classification of Assamese text using k-Nearest Neighbor. We have considered only four classes sports , politics , law and science. Our dataset consists of 200 documents collected from major Assamese newspaper . We have divided our data into 3:1. Majority of our datasets that is 75% data from datasets is used for training and the rest 25% of the datasets is considered for testing.

show abstract

“… Prinsip K-NN adalah memilih tetangga terdekat dan melakukan klasifikasi dengan voting terbanyak. Karena K-NN konvensional adalah algoritma yang bersifat lazy learner, untuk melakukan klasifikasi K-NN memerlukan seluruh data [26], dan data juga harus sudah disertai dengan kelas atau target, hal ini disebabkan K-NN masuk kedalam kategori terpadu (supervised).…”

Section: F K-nearest Neighbor (K-nn)unclassified

Perbandingan Rapid Centroid Estimation (RCE) — K Nearest Neighbor (K-NN) Dengan K Means — K Nearest Neighbor (K-NN)

2017

View full text Add to dashboard Cite

Teknik Clustering terbukti dapat meningkatkan akurasi dalam melakukan klasifikasi, terutama pada algoritma K-Nearest Neighbor (K-NN). Setiap data dari setiap kelas akan membentuk K cluster yang kemudian nilai centroid akhir dari setiap cluster pada setiap kelas data tersebut akan dijadikan data acuan untuk melakukan proses klasifikasi menggunakan algoritma K-NN. Namun kendala dari banyaknya teknik clustering adalah biaya komputasi yang mahal, Rapid Centroid Estimation (RCE) dan K-Means termasuk kedalam teknik clustering dengan biaya komputasi yang murah. Untuk melihat manakah dari kedua algoritma ini (RCE dan K-Means) yang lebih baik memberikan peningkatan akurasi pada algoritma K-NN maka, pada penelitian ini akan mencoba untuk membandingkan kedua algoritma tersebut. Hasil dari penelitian ini adalah gabungan RCE—K-NN memberikan hasil akurasi yang lebih baik dari K-Means—K-NN pada data set iris dan wine. Namun dalam perubahan nilai akurasi RCE—K-NN lebih stabil hanya pada data set iris. Sedangkan pada data set wine, K-Means—K-NN terlihat mendapati perubahan akurasi yang lebih stabil dibandingkan RCE—K-NN.

show abstract

Combination of K-Nearest Neighbor and K-Means based on Term Re-weighting for Classify Indonesian News

Cited by 24 publications

References 11 publications

Pembobotan TF-IDF pada Judul Penelitian Dosen Sebagai Dasar Klasifikasi Menggunakan Algoritma K-NN (Studi Kasus: Universitas Siliwangi)

Pembobotan TF-IDF pada Judul Penelitian Dosen Sebagai Dasar Klasifikasi Menggunakan Algoritma K-NN (Studi Kasus: Universitas Siliwangi)

Assamese Text Classification using k Nearest Neighbor

Perbandingan Rapid Centroid Estimation (RCE) — K Nearest Neighbor (K-NN) Dengan K Means — K Nearest Neighbor (K-NN)

Contact Info

Product

Resources

About