The Hybrid of Jaro-Winkler and Rabin-Karp Algorithm in Detecting Indonesian Text Similarity

Yulianto, Muhamad Arief; Nurhasanah, Nurhasanah

doi:10.15575/join.v6i1.640

Cited by 12 publications

(4 citation statements)

References 14 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…Ini terjadi karena frase akar dikelompokkan dan TF-IDF menghitung frekuensi indeks untuk membuat konversi kata dasar menjadi fungsi hash lebih mudah dan lebih akurat. Penelitian selanjutnya dilakukan oleh [12] yang menyatakan bahwa terjadi peningkatan presentasi akurasi algoritma Rabin-Karp pada pengujian kemiripan kata sebesar 20.06% melalui implementasi algoritma Jaro-Winkler pada Rabin-Karp. Namun, tingkat persentase pada pengujian kemiripan kalimat dan abstrak jurnal mengalami penurunan sebesar 15.20%.…”

Section: Pendahuluanunclassified

Implementasi Algoritma Rabin-Karp pada Pendeteksian Plagiarisme

Saputra,

Endra,

Ariani

et al. 2023

Expert J. Manaj. Sist. Inf. dan Teknol.

View full text Add to dashboard Cite

Plagiarism is a crime and a scourge of science. To avoid plagiarism in scientific articles, as in the case of this research, string-matching methods can be used. This study aims to implement the Rabin-Karp Algorithm in detecting plagiarism in scientific writing based on the level of text similarity. The Rabin-Karp algorithm was chosen for this research problem because previous studies revealed that the Rabin-Karp premise is to separate the hash value of the input string from the text substring. Assuming they are the same, the character check is performed one more time, and if not, moves the substring aside. The main part of this computation exhibit is successfully calculating the hash of the substring when applied. This research is quantitative. The stages of this research flow were carried out by testing the implementation of the Rabin-Karp algorithm. Based on the calculation above, the percentage of similarity between Test Sentence 1 and Test Sentence 2 is 77.96%. Referring to previous studies, the Winnowing algorithm was found to be better at detecting text similarities than the Rabin-Karp algorithm. This is shown in the results of the similarity detection test of 30 paper documents as test data with the results of the average percentage value. Rabin-Karp Algorithm 41.41% and Winnowing Algorithm 35.15%. This study shows that the Rabin-Karp Algorithm does not work optimally in detecting text similarity, so further research needs additional methods to calculate a good level of similarity to optimize the performance of the Rabin-Karp Algorithm.

show abstract

Section: Pendahuluanunclassified

Implementasi Algoritma Rabin-Karp pada Pendeteksian Plagiarisme

Saputra,

Endra,

Ariani

et al. 2023

Expert J. Manaj. Sist. Inf. dan Teknol.

View full text Add to dashboard Cite

show abstract

“…Algoritma Jaro-Winkler dipilih karena sangat cocok dan sesuai dalam memberikan hasil terbaik pada pencocokan dua string pendek. Penggunaan algoritma Jaro-Winkler telah dilakukan oleh peneliti sebelumnya yaitu, koreksi otomatis dan saran ejaan, fitur, mendeteksi dokumen plagiarisme, stemming kata kompensasi tidak standar bahasa Inggris [5]. Maka dari itu pemerintah, dosen pembimbing, dan pengelola jurnal selalu cermat dan berhati-hati dalam menerima dan memeriksa suatu karya ilmiah, bahkan pemerintah mengeluarkan kebijakan untuk setiap karya ilmiah yang diunggah ke repository kampus wajib dicek plagiasinya [6].…”

Section: Pendahuluanunclassified

Akurasi dalam Mengidentifikasi Tingkat Similarity pada Artikel Ilmiah Menggunakan Algorithma Jaro Winkler

Santosa

2022

jidt

View full text Add to dashboard Cite

Plagiarisme merupakan isu yang kerap berkembang dan selalu terjadi khususnya di Perguruan Tinggi. STKIP Rokania telah memiliki sistem pencatatan artikel ilmiah yang bernama E-Jurnal yang selalu digunakan oleh dosen untuk mempublikasikan jurnal dan mencari topik dan literatur yang relevan. Dalam pembuatan artikel ilmiah, sering sekali tidak terdeteksinya tindakan plagiarism terhadap artikel ilmiah yang diajukan oleh dosen. Kecurangan ini dilakukan dengan mengkombinasikan abstrak-abstrak yang telah tersedia sehingga membentuk satu abstrak hasil penggabungan. Artinya abstrak bukanlah hasil yang dibuat sendiri oleh peneliti. Permasalahan terbesarnya adalah ketika tidak terdeteksinya tindakan kecurangan ini yang disebabkan pengecekan dokumen dilakukan secara manual. Hal ini tentu saja dapat mengakibatkan menurunkan reputasi E-Jurnal yang sudah terakreditasi tersebut. Permasalahan ini tentu saja harus segera diberikan solusi yang tepat untuk mengidentifikasi tingkat similarity pada artikel ilmiah yang sudah ada sebelumnya. Identifikasi tingkat similariry pada artikel ilmiah dibuat melalui tahapan pengembangan terstruktur menggunakan algoritma Jaro Winkler yang dipilih untuk mendeteksi similaritas dokumen abstrak artikel ilmiah dengan abstrak-abstrak yang telah tersimpan pada basis data E-Jurnal. Sistem akan menampilkan berapa persen tingkat kesamaan abstrak artikel ilmiah tersebut sehingga admin jurnal memberikan keputusan yang tepat saat menerima artikel ilmiah tersebut atau menolaknya. Melalui penelitian ini, dosen dapat melakukan pengecekan awal abstrak dari calon artikel ilmiahnya untuk meminimalkan terjadinya plagiasi. Dengan demikian dapat meminimalisir tindakan kecurangan dosen dalam pembuatan artikel ilmiah dan menghasilkan jurnal yang berkualitas bernilai lebih tinggi.

show abstract

“…They are stemming functions to collect title indexes and thesis abstractions as a database so they can be checked using a similarity algorithm. A study [11] related to text similarity detection concluded that implementing the Nazief Adriani stemming method in the Rabin-Karp algorithm greatly affects the percentage level of text similarity, making it easier to detect text similarity.…”

Section: Introductionmentioning

confidence: 99%

Comparison of Stemming Test Results of Tala Algorithms with Nazief Adriani in Abstract Documents and National News

Pamungkas

Udayanti²,

Indriyono³

et al. 2023

Inf. J. Ilm. Bid. Teknol. Inf. dan Komun.

View full text Add to dashboard Cite

The existence of information is undeniably needed by many people. This statement describes the increasing importance of information and the corresponding increase in the need for access to relevant documents and literature. The contents of the information derived from these documents are then sorted to make their meaning more understandable. This sorting process is known as stemming. Stemming is a process that is widely applied in basic word searches. Separating meaningless words can make information clearer. It is necessary to pay attention to the appropriate stemming algorithm according to the language used. Many stemming algorithms can be used to perform this basic word search process. Some of them are the Tala and Nazief Adriani algorithms. The two algorithms have differences in their work processes. The Tala algorithm adopts a rule-based Porter algorithm, while the Nazief & Adriani algorithm works based on a dictionary. The two algorithms have their respective advantages in terms of accuracy and speed. Therefore, in this study, an analysis will be carried out by comparing the performance of the two algorithms in the Indonesian language text-stemming process. The trial process uses several different data sources to measure the speed and accuracy of each algorithm. Data sources used in this study included abstracts of student thesis reports or final assignments of 30 students and information from online news as many as 200. From the results of the tests that have been carried out, it can be concluded that the Tala stemming algorithm has a lower accuracy level than Nazief Adriani. The Tala algorithm only has an average accuracy of 65.29%, while Nazief Adriani has an accuracy of 78.47%. Regarding speed, the Tala algorithm has a better speed than Nazief Adriani at 32.19 seconds and Nazief & Adriani at 65.2 seconds.

show abstract

The Hybrid of Jaro-Winkler and Rabin-Karp Algorithm in Detecting Indonesian Text Similarity

Cited by 12 publications

References 14 publications

Implementasi Algoritma Rabin-Karp pada Pendeteksian Plagiarisme

Implementasi Algoritma Rabin-Karp pada Pendeteksian Plagiarisme

Akurasi dalam Mengidentifikasi Tingkat Similarity pada Artikel Ilmiah Menggunakan Algorithma Jaro Winkler

Comparison of Stemming Test Results of Tala Algorithms with Nazief Adriani in Abstract Documents and National News

Contact Info

Product

Resources

About