A Comparison of Different Approaches to Document Representation in Turkish Language

Yıldırım, Savaş; Yıldız, Tuğba

doi:10.19113/sdufbed.15893

Cited by 5 publications

(3 citation statements)

References 19 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…For the CB data set, emoticons were encoded to keep them within the content and used as features [27]. For TTC, on the other hand, it was provided to prevent the underscore character, as this data set includes domain-specific multi-terms joined with the underscore character [43].…”

Section: Preprocessingmentioning

confidence: 99%

“…This process yielded a balanced data set in which half of the messages were labeled "yes" and the remaining labeled "no". On the other hand, the second non-benchmark data set [43] included Turkish news texts from seven categories; namely, world, economy, culture-art, health, politics, sports, and technology. This data set contained 4900 documents, and each category included 700 documents.…”

Section: Data Setsmentioning

confidence: 99%

See 1 more Smart Citation

An Assessment of Nature-Inspired Algorithms for Text Feature Selection

Çoban

2022

csci

View full text Add to dashboard Cite

This paper provides a comprehensive assessment of feature selection (FS) methods that are originated from nature-inspired (NI) meta-heuristics, where two well-known filter-based FS methods are also included for comparison. The performances of the considered methods are compared on two different high-dimensional and real-world text datasets against the accuracy, the number of selected features, and computation time. This study differs from existing studies in terms of the extent of experimental analyses performed under different circumstances where classifier, feature model, and term weighting scheme are different. The results of the extensive experiments indicate that NI algorithms produce slightly different results than filter-based methods for the problem of the text FS. However, filter-based methods often provide better results by using a lower number of features and computation times.

show abstract

Section: Preprocessingmentioning

confidence: 99%

Section: Data Setsmentioning

confidence: 99%

An Assessment of Nature-Inspired Algorithms for Text Feature Selection

Çoban

2022

csci

View full text Add to dashboard Cite

show abstract

“…Después de convertir datos no estructurados en datos estructurados, necesitamos tener un modelo de representación de documentos efectivo para construir un sistema de clasificación eficiente [12]. En el marco de este proyecto, se evalúan y aplican diferentes estrategias de representación de documentos usualmente utilizadas como bag of words [18], topic modeling [34], embeddings [33] y BERT [29]. El objetivo de esta línea de investigación es evaluar las diferentes técnicas aplicadas a la clasificación de correos electrónicos.…”

Section: B Representación De Correosunclassified

Clasificación automática de correos electrónicos

Fernández¹

View full text Add to dashboard Cite

En la actualidad se generan millones de datos cada día y su aprovechamiento e interpretación se han vuelto fundamentales en todos los ámbitos. Sin embargo, la mayor parte de esta información posee un formato textual, sin la estructura ni la organización de las bases de datos tradicionales, lo cual representa un enorme desafío para su procesamiento mediante técnicas de aprendizaje automático. Otro de los desafíos inherentes al procesamiento masivo de datos comprende el etiquetado de los mismos, actividad necesaria para las técnicas de aprendizaje supervisado donde la estrategia tradicional consiste en el etiquetado manual. Por su parte, el correo electrónico es una de las herramientas de comunicación asincrónica más extendida en la actualidad, habiendo desplazado a los canales más clásicos de comunicación debido a su alta eficiencia, costo extremadamente bajo y compatibilidad con muchos tipos diferentes de información. Existen trabajos que han recogido estimaciones respecto de la utilización mundial de este medio de comunicación tomando como referencia al Grupo Radicati, quienes afirman que actualmente existen más de 3930 millones de usuarios y se proyectan 4371 millones para el año 2023, alcanzando el tráfico actual de 293.6 billones de correos enviados diariamente. Muchos de estos correos electrónicos son enviados a centros de contacto de organizaciones públicas y privadas debido a que este medio se ha constituido en un canal de comunicación estándar. Sin embargo, éste es un canal que requiere una importante afectación de recursos humanos. Con el fin de mejorar su uso y aprovechar a los correos electrónicos como fuente de conocimiento se han aplicado diversas técnicas de minería de datos a este tipo de información, entendiendo a la minería de datos como una etapa del proceso de descubrimiento de conocimiento que consiste en aplicar algoritmos de análisis y explotación de datos para producir una enumeración particular de patrones (o modelos) sobre los datos. A su vez, el correo electrónico como fuente de datos posee un conjunto de características particulares respecto de otras fuentes de datos que hace que existan diferencias y problemáticas particulares entre la minería de textos tradicional y la minería de correos electrónicos, conocida como email mining. En este contexto, se ha aplicado email mining con diferentes objetivos como la detección de correo electrónico no deseado, la categorización de correo electrónico, el análisis de contactos, de propiedades de red de correo electrónico y visualización. En este trabajo, en primer lugar se intenta dimensionar la cantidad de conocimiento que supone el intercambio de correos diariamente a nivel mundial, así como entender su evolución y características técnicas. A continuación, se realiza un estudio del estado del arte de la disciplina, partiendo del proceso de descubrimiento de conocimiento y caracterizando el proceso de construcción de un clasificador automático de correos electrónicos. Luego, quizás como principal contribución de esta investigación, se propone una nueva estrategia de etiquetado semi-supervisado híbrido con tres variantes. Se parte de de una base inicial con correos etiquetados de forma tradicional y se realiza una extracción de las características principales para cada clase, utilizando tres técnicas como la regresión logística, TF-IDF y SS3. Luego, con la base de conocimiento completa indexada en un motor de búsqueda de propósito general como Elasticsearch, se recuperan documentos de cada clase en función de las características detectadas por cada técnica y se construye un clasificador, el cual se evalúa en función de un conjunto de datos de prueba diferente del utilizado para el proceso anterior. En términos del desarrollo experimental, se trabaja a partir de un caso de estudio basado en correos electrónicos en idioma español propiedad de la Universidad Nacional de Luján. Esta Universidad cuenta con un sistema informático propio para llevar adelante la gestión académica de las actividades inherentes a la enseñanza de grado y pregrado, así como los trámites que de éstas se desprenden. Este sistema de gestión cuenta con una interfaz web a la que acceden los estudiantes para realizar todos los trámites relacionados a su vinculación con la Institución. A su vez, posee una funcionalidad para realizar consultas vía correo electrónico al staff administrativo. El sistema, ante la formulación de una consulta por parte de los estudiantes envía, mediante un servidor SMTP, la consulta a una dirección de correo electrónico especialmente destinada para este fin. Al cuerpo de ese correo, además del texto escrito por el estudiante, se agregan datos académicos y de la persona tales como nombre y apellido, legajo, documento, Carrera, teléfono y email personal. Utilizando una porción de esa base de conocimiento, en este trabajo se aborda el desafío de generar un modelo, en el marco de la disciplina de aprendizaje automático para clasificar cual es el tema de cada consulta realizada en función del contenido de los mensajes enviados. A su vez, se realizan experimentaciones en términos del proceso de clasificación semi-supervisada propuesto. A partir de este proceso, se demuestra que, para los datos utilizados, estas técnicas de extracción de características, utilizadas como estrategias de etiquetado para la clasificación semi-supervisada, mejoran la capacidad de los clasificadores cuando se incorporan las instancias etiquetadas automáticamente a las etiquetadas de forma manual para entrenar el modelo. Por último, se reformula esta estrategia para ser utilizada como una estrategia de balanceo para el aprendizaje automático desde conjuntos de datos desbalanceados. Nuevamente, se demuestra que la estrategia sigue siendo competitiva, al menos para este conjunto de datos, en relación a algunas de las técnicas de remuestreo más utilizadas de la actualidad, tanto de oversampling como de undersampling.

show abstract

Improving automated Turkish text classification with learning‐based algorithms

Köksal

Yılmaz

2022

Concurrency and Computation

View full text Add to dashboard Cite

Text classification is the process of determining categories or tags of a document depending on its content. Although text classification is a well‐known process, it has many steps that require tuning to improve mathematical models. This article provides a novel methodology and expresses key points to improve text classification performance using learning‐based algorithms and techniques. First, to check the effectiveness of the proposed methodology, we selected two public Turkish news benchmarking datasets. Then, we performed extensive testing using both supervised machine learning algorithms and state‐of‐art pre‐trained language models. The experimental results show that our methodology outperforms previous news classification studies on these benchmarking datasets improving categorization results based on F1‐score. Therefore, we conclude that the presented methodology efficiently improves the classification results and selects the feasible classifier for a given dataset.

show abstract

A Comparison of Different Approaches to Document Representation in Turkish Language

Cited by 5 publications

References 19 publications

An Assessment of Nature-Inspired Algorithms for Text Feature Selection

An Assessment of Nature-Inspired Algorithms for Text Feature Selection

Clasificación automática de correos electrónicos

Improving automated Turkish text classification with learning‐based algorithms

Contact Info

Product

Resources

About