Abstract:Cyberbullying is defined as an aggressive, intentional action against a defenseless person by using the Internet, or other electronic contents. Researchers have found that many of the bullying cases have tragically ended in suicides; hence automatic detection of cyberbullying has become important. In this study we show the effects of feature extraction, feature selection, and classification methods that are used, on the performance of automatic detection of cyberbullying. To perform the experiments FormSpring.me dataset is used and the effects of preprocessing methods; several classifiers like C4.5, Naïve Bayes, kNN, and SVM; and information gain and chi square feature selection methods are investigated. Experimental results indicate that the best classification results are obtained when alphabetic tokenization, no stemming, and no stopwords removal are applied. Using feature selection also improves cyberbully detection performance. When classifiers are compared, C4.5 performs the best for the used dataset.
Sanal Zorbalık Tespitinde Nitelik Çıkarımı ve Sınıflama Yöntemlerinin EtkileriAnahtar Kelimeler Sanal zorbalık, Önişleme yöntemleri, Nitelik seçimi, Sınıflandırma Özet: İnternet ya da diğer elektronik içerikleri kullanarak savunmasız kişilere karşı yapılan hakaretler sanal zorbalık olarak adlandırılmaktadır. Sanal zorbalık konusunda yapılan çalışmalar, bu hakaretlerin özellikle ergen yaş grubundaki gençler için intihara kadar sonuçlanan etkilerinin olduğunu göstermektedir. Bu sebeple sanal zorbalığın otomatik tespiti oldukça önemlidir. Bu çalışmada nitelik çıkarımı, nitelik seçimi ve sınıflama yöntemlerinin otomatik sanal zorbalık tespiti üzerindeki etkileri gösterilmektedir. Deneyler FormSpring.me veri kümesi üzerinde yapılmış ve önişleme yöntemlerinin; C4.5, Naive Bayes, kNN ve SVM gibi farklı sınıflayıcıların; bilgi kazancı ve ki kare nitelik seçim yöntemlerinin etkileri araştırılmıştır. Deneysel sonuçlar, en iyi sınıflandırma performansının alfabetik karakterlerin alındığı, durma kelimelerinin silinmediği ve kelime köklerine ayırma işleminin yapılmadığı durumlarda elde edildiğini göstermiştir. Nitelik seçimi sınıflandırma performansını arttırmıştır. Kullanılan sınıflayıcılar karşılaştırıldığında C4.5, kullanılan veri kümesi için en iyi yöntem olmuştur.