AbstrakBesar biaya rawat inap dari seorang pasien dapat diperkirakan dengan melakukan cluster pasien. Salah satu algoritme yang banyak digunakan untuk clustering adalah K-means. Algoritme K-means berbasiskan distance masih memiliki kelemahan dalam hal mengukur kedekatan makna atau semantik antar data. Untuk mengatasi permasalahan tersebut dapat digunakan semantic similarity untuk mengukur similaritas antar objek pada clustering sehingga kedekatan secara semantik dapat diperhitungkan. Penelitian ini bertujuan untuk melakukan clustering terhadap data pasien dengan memperhatikan kemiripan penyakit pasien. Kode ICD digunakan sebagai pedoman dalam menentukan penyakit pasien. Metode K-means digabungkan dengan semantic similarity untuk mengukur kedekatan kode ICD pasien. Metode yang digunakan untuk pengukuran kemiripan semantik antar data dalam penelitian ini yaitu semantic similarity Girardi, Leacock & Chodorow, Rada, dan Jaccard Similarity. Pengukuran kualitas cluster menggunakan metode silhouette coefficient. Berdasarkan hasil eksperimen, metode pengukuran data semantic similarity mampu manghasilkan kualitas hasil clustering yang lebih baik dibandingkan dengan jaccard similarity. Akurasi terbaik adalah 91,78% untuk ketiga metode semantic similarity sedangkan jaccard similarity memiliki akurasi terbaik 84,93%.
AbstractThe cost of hospitalization from a patient can be estimated by performing a cluster of patient. One of the algorithms that is widely used for clustering is K-means. K-means algorithm, based on distance still has weaknesses in terms of measuring the proximity of meaning or semantics between data. To overcome this problem, semantic similarity can be used to measure the similarity between objects in clustering, so that, semantic proximity can be calculated. This study aims to conduct clustering of patient data by paying attention to the similarity of the patient's disease. ICD code is used as a guide in determining a patient's disease. The K-means method is combined with semantic similarity to measure the proximity of the patient's ICD code. The method used to measure the semantic similarity between data, in this study, is the semantic similarity of Girardi, Leacock & Chodorow, Rada, and Jaccard Similarity. Cluster quality measurement uses the silhouette coefficient method. Based on the experimental results, the method of measuring semantic similarity data is capable to produce better quality clustering results than without semantic similarity. The best accuracy is 91.78% for the three semantic similarity methods, whereas without semantic similarity the best accuracy is 84.93%.