2015
DOI: 10.1002/asi.23338
|View full text |Cite
|
Sign up to set email alerts
|

A new term‐weighting scheme for text classification using the odds of positive and negative class probabilities

Youngjoong Ko

Abstract: The peculiarity of text classification that differs most from information retrieval is the existence of class information. Therefore, this paper proposes a new term weighting scheme that utilizes class information using positive and negative class distributions. As a result, the proposed scheme, log tf.TRR, consistently performs better than other schemes using class information, as well as traditional schemes such as tf.idf.

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
2
1
1
1

Citation Types

0
5
0
3

Year Published

2016
2016
2021
2021

Publication Types

Select...
8
1

Relationship

0
9

Authors

Journals

citations
Cited by 16 publications
(8 citation statements)
references
References 30 publications
0
5
0
3
Order By: Relevance
“…Massive textual data management and mining are usually based on automated text classification technology (Dang and Ahmad, 2014). Term weighting is a fundamental issue in text classification and directly impacts the decision systems (Ko, 2015). Since the standard TF-IDF (term frequency and inverse document frequency) is not entirely accurate for text analysis, researchers have suggested numerous alternatives.…”
Section: Related Workmentioning
confidence: 99%
“…Massive textual data management and mining are usually based on automated text classification technology (Dang and Ahmad, 2014). Term weighting is a fundamental issue in text classification and directly impacts the decision systems (Ko, 2015). Since the standard TF-IDF (term frequency and inverse document frequency) is not entirely accurate for text analysis, researchers have suggested numerous alternatives.…”
Section: Related Workmentioning
confidence: 99%
“…Cada termo no modelo BoW pode se referir a uma única palavra, a duas palavras (bigrama) ou até mesmo uma frase completa. Já a relevância do termo pode ser calculada de diversas formas, incluindo a frequência do termo (do inglês term frequencytf) ou a frequência inversa do termo (do inglês inverse term frequencyidf) [Ko, 2015].…”
Section: Bag Of Wordsunclassified
“…TF-TRR, pozitif ve negatif sınıf dağılımlarını kullanarak iki-sınıflı sınıflandırmaya uygun bir şekilde ağırlıklandırma yapan terim ağırlıklandırma yöntemidir [14]. Ağırlıklandırma formülü Eşitlik-4'teki gibidir.…”
Section: Tf-trrunclassified
“…PIF yönteminin, aralarında TF-IDF, TF-PB ve TF-RF bulunan 7 yönteme kıyasla sınıflandırma doğruluğu ve sınıflandırma zamanı açısından daha üstün olduğunu göstermişlerdir. Ko pozitif ve negatif sınıf dağılımları bilgisinden yararlanarak sınıf bilgisini kullanan TF.TRR terim ağırlıklandırma yöntemini önermiş, TF.IDF'in birkaç varyasyonu ve TF-RF'ten tutarlı bir şekilde daha üstün performans gösterdiğini ifade etmiştir [14]. Bir başka çalışmada ise Sabbah ve arkadaşları doğru web sayfası sınıflandırma için mTF, mTF-IDF, TF-mIDF ve mTF-mIDF adında 4 farklı terim ağırlıklandırma yöntemi önermiş ve Reuters-21578, 20Newsgroups ve WebKB gibi ünlü metin-sınıflandırma veri setleri üzerinde SVM ve KNN de dahil 4 farklı sınıflandırıcı ile performansları test edilmiştir [15].…”
Section: Introductionunclassified