- In this era, we need to extract the text needed to visualize or need knowledge from a large collection of document texts. Text mining is the process of obtaining high-quality information from text. High-quality information obtained because of attention to patterns and trends by reading statistical patterns. In the process of extracting the text, we need to pay for the words offered to give value/weight to the terms provided in a document. The weight given to the term depends on the method used. In weighting many words such as algorithms for example such as TF, IDF, RF, TF-IDF, TF.RF, TF.CHI, WIDF. This research will be analyzed and compared with the TF-IDF, TF.RF, and WIDF algorithms. For the test method, the naïve Bayes classification method will be used and the valuation analysis using the confusion matrix. With a dataset used as many as 130 documents in which 100 data transfer and 30 test data. Based on the analysis of the results of the classification that has been done, it can determine the weighting of TF.RF with naif classification is better than weighting TF.IDF and WIDF with Accuracy values of 98.67%, Precision 93.81%, and Recall 96.67%.Keywords - Text Mining, TF-IDF, TF-RF, WIDF, Classification, Naïve Bayes. Abstract - Pada era sekarang ini pemanfaatan text mining sangatlah diperlukan untuk mevisualkan atau mengevaluasi pengetahuan dari kumpulan besar dari teks dokumen. Text mining adalah proses untuk memperoleh informasi berkualitas tinggi dari teks. Informasi berkualitas tinggi biasanya didapatkan karena memperhatikan pola dan tren dengan cara mempelajari pola statistik. Pada proses teks mining terdapat pembobobtan kata yang bertujuan untuk memberikan nilai/bobot pada term yang terdapat pada suatu dokumen. Bobot yang diberikan pada term tergantung kepada metode yang digunakan. Dalam pembobotan kata banyak sekali terdapat algoritma-algoritma contohnya seperti TF, Idf, RF, TF-IDF, TF.RF, TF.CHI, WIDF. Pada penelitian ini akan dianalisis dan dibandingkan algoritma TF-IDF, TF.RF, dan WIDF. Untuk metode pengujiannya akan digunakan metode klasifikasi naïve bayes dan analisis perbandingannya menggunakan confussion matrix. Dengan dataset yang digunakan sebanyak 130 dokumen yang mana 100 data traning dan 30 data uji. Berdasarkan analisa pada hasil klasifikasi yang telah dilakukan, dapat disimpulkan bahwa pembobotan TF.RF dengan klasifikasi Naïve bayes lebih baik dari pembobotan TF.IDF dan WIDF dengan nilai Accuracy 98,67%, Precision 93,81%, dan Recall 96,67%. Kata Kunci - Text Mining, TF-IDF, TF-RF, WIDF, Klasifikasi, Naïve Bayes.
Media online banyak menghasilkan berbagai macam berita, baik ekonomi, politik, kesehatan, olahraga atau ilmu pengetahuan. Di antara itu semua, ekonomi adalah salah satu topik menarik untuk dibahas. Ekonomi memiliki dampak langsung kepada warga negara, perusahaan, bahkan pasar tradisional tergantung pada kondisi ekonomi di suatu negara. Sentimen yang terkandung dalam berita dapat mempengaruhi pandangan masyarakat terhadap suatu hal atau kebijakan pemerintah. Topik ekonomi adalah bahasan yang menarik untuk dilakukan penelitian karena memiliki dampak langsung kepada masyarakat Indonesia. Namun, masih sedikit penelitian yang menerapkan metode deep learning yaitu Long Short-Term Memory dan CNN untuk analisis sentimen pada artikel finance di Indonesia. Penelitian ini bertujuan untuk melakukan pengklasifikasian judul berita berbahasa Indonesia berdasarkan sentimen positif, negatif dengan menggunakan metode LSTM, LSTM-CNN, CNN-LSTM. Dataset yang digunakan adalah data judul artikel berbahasa Indonesia yang diambil dari situs Detik Finance. Berdasarkan hasil pengujian memperlihatkan bahwa metode LSTM, LSTM-CNN, CNN-LSTM memiliki hasil akurasi sebesar, 62%, 65% dan 74%.Kata Kunci — LSTM, sentiment analysis, CNNOnline media produce a lot of various kinds of news, be it economics, politics, health, sports or science. Among them, economics is one interesting topic to discuss. The economy has a direct impact on citizens, companies, and even traditional markets depending on the economic conditions in a country. The sentiment contained in the news can influence people's views on a matter or government policy. The topic of economics is an interesting topic for research because it has a direct impact on Indonesian society. However, there are still few studies that apply deep learning methods, namely Long Short-Term Memory and CNN for sentiment analysis on finance articles in Indonesia. This study aims to classify Indonesian news headlines based on positive and negative sentiments using the LSTM, LSTM-CNN, CNN-LSTM methods. The dataset used is data on Indonesian language article titles taken from the Detik Finance website. Based on the test results, it shows that the LSTM, LSTM-CNN, CNN-LSTM methods have an accuracy of, 62%, 65% and 74%.Keywords — LSTM, sentiment analysis, CNN
Abstract. Readmission is associated with quality measures on patients in PendahuluanReadmisi Rumah Sakit (Hospital Readmission) adalah suatu tindakan atau kejadian seorang pasien dirawat kembali yang sebelumnya telah mendapatkan layanan rawat inap dirumah sakit (Iskandar, 2014). Proses readmisi dikaitkan dengan perhitungan kualitas penanganan pasien di rumah sakit (Rubin, 2015;Dungan, 2012). Penyakit diabetes merupakan penyakit metabolisme tubuh yang saat ini belum ada obat yang dapat menyembuhkannya dan dapat menimbulkan penyakit komplikasi-komplikasi lainnya. Pasien penderita diabetes dituntut untuk menjaga tingkat glukosa dalam tubuh agar tetap berada di level yang sehat. Karena tingkat perawatan inap pasien diabetes berada di angka yang tinggi (Ramirez, dkk., 2012), sehingga biaya perawatan yang dibayarkan cenderung mahal (American Diabetes Association, 2013).Perhitungan kualitas terhadap pelayanan penyakit diabetes dapat dilihat dari proses medikasi, etnis, ras, gaya hidup, umur, dll. Di dalam penyakit diabetes, perbedaan atribut terkait pasiennya sangat berpengaruh terhadap kualitas pengobatan yang merujuk pada ketahanan
Sentiment classification is the one branch o f the field o f Text Mining. Sentiment classification can be an important in the process o f evaluations about something problem. The main o f sentiment classification are to fin d out the polarity o f positive, negative and neutral sentiments. The sentiment classification obtained from Twitter. In this paper, the tweets related to predefined keyword are collected using the tools provided by Twitter. The data that has been collected is processed by using Natural Language Toolkit that run on Python programming language. After that, the data will be classified by using Naive Bayes Classifier to fin d out about the sentiment. The result o f classification will be measured accurate level. Based on the experimental result fo r three times trial, the result obtained accuracy level in the first is 64.95%, the second is 66.36%, and the third is 66.79%. Another result obtained is percentage o f sentiment are positive sentiment is 28%, negative is 20% and neutral is 52%. Based on percentage result o f sentiment classes, neutral sentiment is the most sentiment that related to Joko Widodo and his government topic.
ABSTRAKCoronavirus Disease-2019 (COVID-19) merupakan coronavirus jenis baru yang menjadi pandemi di berbagai negara. Salahsatu upaya pemerintah dalam mencegah penularan virus ini adalah dengan mewajibkan masyarakat untuk menggunakan masker serta memantau penggunaan maskar oleh masyarakat dalam kehidupan sehari-hari. Ketidak patuhan masyarakat menjadi masalah dalam mencegah penyebaran virus ini sehingg membutuhkan sebuah sistem yang dapat melakukan pengawasan. Pada penelitian ini, dibangun sebuah model dengan dengan memanfaatkan algoritma Convolutional Neural Network (CNN) dan 1000 dataset untuk melakukan pelatihan terhadap sistem deep learning serta melakukan pengujian untuk mendapatkan nilai akurasi dari hasil klasifikasikan terhadap gambar wajah yang menggunakan masker dan tanpa menggunakan maskaer. Hasil penelitian ini menunjukkan skenario kedua yang menggunakan epoch 50 dan rasio dataset 90% data latih dan 10% data uji mendapatkan akurasi terbaik mencapai 96%. Pengujian pada gambar wajah yang menggunakan masker memperoleh nilai precision 98%, recall 94% dan gambar wajah yang tidak menggunakan masker memperoleh nilai precision 94%, recall 98. Skenario satu dan tiga memperolah nilai akurasi terendah yaitu 94% sehingga dapat disimpulkan bahwa jumlah data latih sangat mempengaruhi nilai akurasi.
Ulasan produk di marketplace merupakan informasi yang berharga apabila diolah dengan baik. Penjual dapat melakukan analisis ulasan produk untuk mendapat informasi yang dapat digunakan dalam evaluasi produk dan layanan. Kegiatan analisis ulasan produk tidak cukup dengan melihat jumlah bintang, diperlukan melihat seluruh isi komentar ulasan untuk dapat mengetahui maksud dari ulasan. Apabila dalam jumlah sedikit dapat dilakukan secara manual, namun dalam jumlah banyak lebih efektif menggunakan sistem. Dibutuhkan sistem yang mampu menganalisis banyak ulasan dengan efektif agar memudahkan dalam memahami maksud ulasan. Penelitian ini menggunakan algoritma KNN dan TF-IDF dengan pendekatan NLP untuk mengklasifikasikan ulasan produk “hijab instan” ke dalam 2 kelas (positif dan negatif). Klasifikasi menggunakan pendekatan NLP mendapat akurasi sebesar 76,92%, presisi 80,00% dan recall 74,07%, sedangkan tanpa NLP hanya mendapat akurasi sebesar 69,23%, presisi 80,00% dan recall 64,52%. Kata yang sering muncul pada ulasan dapat menggambarkan penilaian pembeli secara umum pada produk. Pada ulasan positif menunjukkan pembeli puas terhadap kualitas, kecepatan pengiriman dan harga barang, sedangkan pada ulasan negatif pembeli kecewa pada warna, dan jumlah barang yang dikirim tidak sama dengan yang dipesan.
Analisis Sentiment merupakan salah satu cabang dari bidang ilmu Text Mining. Analisis sentiment merupakan sumber penting dalam melakukan evaluasi dan pengambilan keputusan terhadap sebuah topik permasalahan. Tujuan utama dari analisis sentiment adalah untuk mengetahui polaritas dari sentiment positif, negatif ataupun netral. Sentiment-sentiment tersebut salah satunya didapatkan dari Twitter. Dalam tulisan ini, tweet-tweet yang berhubungan dengan kata kunci yang dicari dikumpulkan dari Twitter dengan menggunakan API Twitter dan data mentah yang didapatkan diolah dengan menggunakan Natural Language Toolkit pada bahasa pemrograman Python. Setelah diolah selanjutnya akan dilakukan klasifikasi dengan menggunakan Naïve Bayes Classifier untuk mengetahui tingkat akurasi dari proses klasifikasi yang dilakukan. Proses klasifikasi dilakukan dengan RapidMiner. Dari hasil uji coba sebanyak empat kali, didapatkan hasil tingkat akurasi pada percobaan pertama sebesar 62.98%, percobaan kedua sebesar 64.95%, percobaan ketiga sebesar 66.36%, dan percobaan keempat sebesar 66.79%. Dari hasil klasifikasi didapat tingkat persentase sentiment positif sebesar 28%, sentiment negatif sebesar 20% dan sentiment netral sebesar 52%.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.