2021
DOI: 10.5755/j01.itc.50.3.27349
|View full text |Cite
|
Sign up to set email alerts
|

Development of Proposed Ensemble Model for Spam e-mail Classification

Abstract: Spam e-mail documents classification is a very challenging task for e-mail users, especially non IT users. Billionsof people using the internet and face the problem of spam e-mails. The automatic identification and classificationof spam e-mails help to reduce the problem of e-mail users in managing a large amount of e-mails. This work aimsto do a significant contribution by building a robust model for classification of spam e-mail documents using datamining techniques. In this paper, we use Enorn1 data set whi… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
4
1

Citation Types

0
1
0

Year Published

2022
2022
2024
2024

Publication Types

Select...
4
3
1

Relationship

0
8

Authors

Journals

citations
Cited by 10 publications
(6 citation statements)
references
References 32 publications
(50 reference statements)
0
1
0
Order By: Relevance
“…En cuanto a la predicción y consenso del etiquetado considerando la variedad de clasificadores débiles, se encuentran estudios que buscan la automatización de este proceso ajustando el consenso de predicción [42] [43] [44] [22]. Ante las propuestas de estos estudios, uno de las mayores limitantes que se identifica es el alto costo computacional necesario para el procesamiento de las robustas estructuras [37] [38] [40] [42] [43] [39] [22]. Así también se aprecia la pérdida de características cuando el modelo incorpora pre-entrenamiento externo o de otro lenguaje [41].…”
Section: Ensambladounclassified
See 1 more Smart Citation
“…En cuanto a la predicción y consenso del etiquetado considerando la variedad de clasificadores débiles, se encuentran estudios que buscan la automatización de este proceso ajustando el consenso de predicción [42] [43] [44] [22]. Ante las propuestas de estos estudios, uno de las mayores limitantes que se identifica es el alto costo computacional necesario para el procesamiento de las robustas estructuras [37] [38] [40] [42] [43] [39] [22]. Así también se aprecia la pérdida de características cuando el modelo incorpora pre-entrenamiento externo o de otro lenguaje [41].…”
Section: Ensambladounclassified
“…Las métricas de rendimiento de clasificación de estos modelos determinan una vez más que el número de documentos etiquetados es importante para su precisión, los modelos ensamblados más eficientes son [43] 97.25 %, [39] 92.9 %, [44] 88.69 % y efectivamente son los modelos que mayor número de etiquetados disponen, con 30 %, 47 % y 65 % respectivamente del total de documentos. Otros factores que influyen en la eficiencia de estos modelos son su cantidad (5) de clasificadores débiles [42] [43] [39], su entrenamiento por capas (cross-validation) [42], la apertura a documentos pre-entrenados [39] y su eficiencia en el manejo del consenso para la predicción [42] [43]. Mientras que las características de los menos eficientes [40] y [41] recaen en menor cantidad de clasificadores débiles (2), menor cantidad de etiquetados y modelos que en su estructura consideran conjuntos de documentos con diversos lenguajes para su entrenamiento que deterioran la precisión.…”
Section: Ensambladounclassified
“…En cuanto a la predicción y consenso del etiquetado considerando la variedad de clasificadores débiles, se encuentran estudios que buscan la automatización de este proceso ajustando el consenso de predicción [42] [43] [44] [22]. Ante las propuestas de estos estudios, uno de las mayores limitantes que se identifica es el alto costo computacional necesario para el procesamiento de las robustas estructuras [37] [38] [40] [42] [43] [39] [22]. Así también se aprecia la pérdida de características cuando el modelo incorpora pre-entrenamiento externo o de otro lenguaje [41].…”
Section: Ensambladounclassified
“…Las métricas de rendimiento de clasificación de estos modelos determinan una vez más que el número de documentos etiquetados es importante para su precisión, los modelos ensamblados más eficientes son [43] 97.25 %, [39] 92.9 %, [44] 88.69 % y efectivamente son los modelos que mayor número de etiquetados disponen, con 30 %, 47 % y 65 % respectivamente del total de documentos. Otros factores que influyen en la eficiencia de estos modelos son su cantidad (5) de clasificadores débiles [42] [43] [39], su entrenamiento por capas (cross-validation) [42], la apertura a documentos pre-entrenados [39] y su eficiencia en el manejo del consenso para la predicción [42] [43]. Mientras que las características de los menos eficientes [40] y [41] recaen en menor cantidad de clasificadores débiles (2), menor cantidad de etiquetados y modelos que en su estructura consideran conjuntos de documentos con diversos lenguajes para su entrenamiento que deterioran la precisión.…”
Section: Ensambladounclassified
“…TC is a machine learning challenge that tries to classify new written content into a conceptual group from a predetermined classification collection [1]. It is crucial in a variety of applications, including sentiment analysis [2,3], spam email filtering [4,5], hate speech detection [6], text summarization [7], website classification [8], authorship attribution [9], information retrieval [10], medical diagnostics [11], emotion detection on smart phones [12], online recommendations [13], fake news detection [14,15], crypto-ransomware early detection [16], semantic similarity detection [17], part-of-speech tagging [18], news classification [19], and tweet classification [20].…”
Section: Introductionmentioning
confidence: 99%