Recently, deep learning methods have demonstrated state-of-the-art performance in numerous complex Natural Language Processing (NLP) problems. Easy accessibility of high-performance computing resources and open-source libraries makes Artificial Intelligence (AI) approaches more applicable for researchers. This sudden growth of available techniques shaped and improved standards in the field of NLP. Thus, we find an opportunity to compare different approaches to document representation, owing to various open-source libraries and a large amount of research. We evaluate four different paradigms to represent documents: Traditional bag-of-words approaches, topic modeling, embedding based approach and deep learning. As the main contribution of this article, we aim at evaluating all these representation approaches with suitable machine learning algorithms for document categorization problem in the Turkish language. The supervised architecture uses a benchmark dataset specifically prepared for this language. Within the architecture, we evaluate the representation approaches with corresponding machine learning algorithms such as Support Vector Machine (SVM), multi-nominal Naive Bayes Algorithm (m-NB) and so forth. We conduct a variety of experiments and present successful results for the Turkish document categorization. We also observed that tradition approaches have still comparable results with Neural Network models in terms of document classification.
Metin Temsil Yöntemlerine Yönelik Farklı Yaklaşımların KarşılaştırılmasıAnahtar Kelimeler Metin temsiliyeti, Derin ögrenme, Dogal dil işleme Özet: Son zamanlarda derin ögrenme mimarileri bir çok dogal dil işleme problemini başarılı birşekilde çözmüştür. Açık kaynak kodlu kütüphanelerin yaygınlıgı yapay zeka yaklaşımlarını daha uygulanabilir hale getirmiştir. Teknolojideki bu ani ivmelenme dogal dil işlemedeki standartları dönüştürdü ve geliştirdi. Bu çalışmada açık kaynak kodların ve alanla ilgili araştırmaların rahat erişebilirligi sayesinde metin temsiliyeti yaklaşımlarının önemli bir kısmını degerlendirme imkanı bulduk. Dört farklı paradigmayı metin temsiliyeti açısından degerlendirdik: Geleneksel kelime torbası yaklaşımı, konu modelleme, gömme temsiliyeti ve derin ögrenme. Çalışmanın ana katkısı olarak, Türkçe için metin sınıflandırma problemini tüm bu metin temsiliyetlerini ve ilgili makine ögrenme algoritmalarını kullanarak ele aldık. Oluşturulan denetimli ögrenme mimarisi özellikle Türkçe için hazırlanmış bir veri seti ile sınanmıştır. Her bir temsiliyet için onunla uyumlu çalışacak SVM, çok-katlı Naive Bayes (mNB) gibi makine ögrenmesi algoritmaları sınandı. Çeşitli deneyler sonucunda başarılı bir metin sınıflandırıcı mimarisinin Türkçe için nasıl kurulacagını bu makalede tartıştık ve başarılı modeller sunduk. Son olarak kelime torbası gibi geleneksel yöntemlerin hala başarılı oldugunu ve derin ögrenme temelli modellerin bazılarından daha iyi oldugunu gördük.