Penerapan Data Mining dalam Analisis Prediksi Kanker Paru Menggunakan Algoritma Random Forest

Sari, Laura; Romadloni, Annisa; Listyaningrum, Rostika

doi:10.35970/infotekmesin.v14i1.1751

Cited by 3 publications

(5 citation statements)

References 12 publications

Supporting

Mentioning

Contrasting

Order By: Relevance

“…where False Negative (FN), False Positive (FP), True Negative (TN), dan True Positive (TP) [16]. Accuracy is the ratio of correct predictions for all data.…”

Section: Discussionmentioning

confidence: 99%

See 1 more Smart Citation

Implementation of LightGBM and Random Forest in Potential Customer Classification

Sari,

Romadloni,

Lityaningrum

et al. 2023

TIERS

View full text Add to dashboard Cite

Classification is one of the data mining techniques that can be used to determine potential custumers. Previous research show that the boosting method, especially LGBM, produces the highest accuracy value of all models, namely 100%. Meanwhile, for the two bagging methods, Random Forest produced the highest accuracy compared to Extra Trees, namely 99.03%. The research uses the LGBM and Random Forest methods to classify potential customers. The results of this study indicate that in imbalance data the LightGBM method has better accuracy than the Random Forest, which is 85.49%, when the Random Forest is unable to produce a model. The SMOTE method used in this study affects the accuracy of the random forest but does not affect the accuracy of LightGBM. Over all the Accuracy, Recall, Specificity, and Precision values, Random Forest produces a good value compared to LightGBM on balanced data. Meanwhile, LightGBM is able to handle unbalanced data.

show abstract

“…where False Negative (FN), False Positive (FP), True Negative (TN), dan True Positive (TP) [16]. Accuracy is the ratio of correct predictions for all data.…”

Section: Discussionmentioning

confidence: 99%

“…The data is divided into k parts and each part will be a data set in turn. So that every data has a chance into train and test data [16].…”

Section: Modellingmentioning

confidence: 99%

Implementation of LightGBM and Random Forest in Potential Customer Classification

Sari,

Romadloni,

Lityaningrum

et al. 2023

TIERS

View full text Add to dashboard Cite

show abstract

“…Gambar 2 (a) menunjukkan bahwa variabel respon (Y) tidak seimbang sehingga dapat menyebabkan bias pada kelas mayoritas dan berpengaruh terhadap proses klasifikasi [23]. Oleh sebab itu setelah dilakukan pembagian data menjadi data latih dan data uji, perlu dilakukan penyeimbangan pada data latih.…”

Section: Pengujian Dan Analisisunclassified

“…Teknik Random Over Sampling merupakan teknik penanganan data tidak seimbang dengan membuat data buatan dari data minoritas sebanyak data mayoritas [24]. Teknik SMOTE merupakan teknik penanganan data tidak seimbang yang mirip dengan teknik oversampling namun teknik ini akan membuat kelas minoritas lebih beragam dengan sampel baru yang mirip dengan data asli kelas minoritas [23]. Berdasarkan F1 score, ketiga model tersebut memiliki nilai mendekati 0 yang artinya ketiga model tersebut mungkin memiliki masalah serius dalam mengklasifikasikan Kelas 1 (ada KLB diare).…”

Section: Pengujian Dan Analisisunclassified

Eksplorasi dan Klasifikasi K-NN Terhadap Kejadian Luar Biasa Diare di Jawa Barat

Fulazzaky,

Waode,

Fitrianto

et al. 2023

View full text Add to dashboard Cite

Tujuan dari penelitian ini adalah untuk mengkaji bagaimana kualitas air dan sanitasi mempengaruhi Kejadian Luar Biasa (KLB) Diare di Provinsi Jawa Barat, Indonesia, menggunakan data Pendataan Potensi Desa (PODES) tahun 2021. Diare merupakan permasalahan serius dalam kesehatan masyarakat Indonesia, terutama pada kelompok anak balita, dan salah satu faktor penyebab utamanya adalah rendahnya kualitas air dan sanitasi. Dalam konteks penelitian ini, kami menerapkan metode algoritma K-Nearest Neighbors (K-NN) untuk mengklasifikasikan wilayah-wilayah yang mengalami KLB Diare. Hasil eksplorasi data menunjukkan variasi yang signifikan dalam jumlah kasus diare di sejumlah kabupaten dan kota yang tersebar di wilayah Jawa Barat. Untuk menangani masalah ketidakseimbangan data, kami menerapkan teknik Pengurangan Acak (Random Under Sampling), Penambahan Acak (Random Over Sampling), dan Synthetic Minority Oversampling Technique (SMOTE).Hasil analisis menunjukkan bahwa model K-NN dengan penggunaan metode SMOTE menghasilkan tingkat akurasi tertinggi, yaitu sebesar 71.28%. Meskipun demikian, nilai F1 score untuk semua model cenderung rendah, yang mengindikasikan adanya tantangan dalam mengklasifikasikan wilayah-wilayah dengan KLB Diare. Penelitian ini memberikan wawasan yang penting mengenai korelasi antara kualitas air, sanitasi, dan KLB Diare di Jawa Barat, serta mengidentifikasi wilayah-wilayah yang memerlukan perhatian lebih dalam upaya pencegahan dan pengendalian penyakit diare. Hasil ini dapat digunakan sebagai dasar untuk merancang program-program kesehatan yang lebih efektif di daerah-daerah dengan tingkat insiden diare yang tinggi. Kata kunci: Algoritma K-Nearest Neighbors (K-NN), SMOTE, Ketidakseimbangan data dan teknik pengambilan sampel ulang, Kualitas air dan sanitasi, Program pencegahan dan pengendalian diare.

show abstract

“…Data Mining adalah metode untuk menyusun pengetahuan dengan menggunakan algoritma untuk menemukan pola, tren, dan prinsip mekanis tertentu dalam data. Teknik ini digunakan untuk menentukan hubungan antara data yang sebelumnya tidak terlihat [5].…”

Section: Pendahuluanunclassified

Optimasi Fitur dengan Forward Selection pada Estimasi Tingkat Obesitas menggunakan Random Forest

Alpiansah,

Ramdhani

2023

SISTEMASI

View full text Add to dashboard Cite

Obesitas remaja di Indonesia sedang meningkat, karena kebiasaan makan yang buruk dan gaya hidup yang kurang gerak. Obesitas meningkatkan risiko masalah kesehatan yang serius seperti penyakit jantung, stroke, diabetes, dan lain-lain yang memerlukan tindakan segera. Obesitas berkembang ketika jumlah kalori yang dikonsumsi melebihi jumlah kalori yang dibakar. Obesitas telah menjadi masalah kesehatan masyarakat yang sangat besar di seluruh dunia. Menurut Organisasi Kesehatan Dunia, sekitar 1,9 miliar orang berusia 18 tahun ke atas mengalami kelebihan berat badan, dengan 600 juta orang mengalami obesitas. Menurut Survei Kesehatan dan Morbiditas Nasional, wanita 29,6% lebih mungkin mengalami obesitas dibandingkan pria, dibandingkan dengan 25% pria. Dataset rekam medis gagal jantung akan ditangani dalam dua tahap percobaan berdasarkan validasi. Empat algoritma klasifikasi yang berbeda, termasuk Random Forest, K-Nearest Neighbor, Decision Tree, dan Naive Bayes, akan dicoba pada langkah pertama. Untuk Testing, metode Cross Validation yang menggunakan Random Forest mengungguli empat algoritma lainnya dalam Testing algoritma. Setelah Testing, metode algoritma Random Forest menghasilkan nilai akurasi tertinggi, dan dievaluasi kembali menggunakan Split Validation dan rasio split yang bervariasi dengan Forward Selection sebagai fitu seleksi. Hanya Testing yang menggunakan metode Forward Selection mengungguli Testing yang menggunakan algoritma Random Forest.

show abstract

Penerapan Data Mining dalam Analisis Prediksi Kanker Paru Menggunakan Algoritma Random Forest

Cited by 3 publications

References 12 publications

Implementation of LightGBM and Random Forest in Potential Customer Classification

Implementation of LightGBM and Random Forest in Potential Customer Classification

Eksplorasi dan Klasifikasi K-NN Terhadap Kejadian Luar Biasa Diare di Jawa Barat

Optimasi Fitur dengan Forward Selection pada Estimasi Tingkat Obesitas menggunakan Random Forest

Contact Info

Product

Resources

About