Characterized as one of the most important operations related to data analysis, one non-hierarchical grouping consists of, even without having any information about the elements to be classified, establish upon a finite collection of objects, the partitioning of the items that constitute it into subsets or groups without intersecting, so that the elements that are part of a certain group are more similar to each other than the items that belong to distinct group. In this context, this study proposes the application of a meta-heuristic inspired by herd immunity to the determination of the non-hierarchical grouping of objects, and compares the results obtained by this method with the answers provided by four other grouping strategies, described in the literature. In particular, the resulting arrangements of the classification of 33 benchmark collections, performed by the suggested algorithm, by the metaheuristic inspired by the particle swarm, by the genetic algorithm, by the K-means algorithm and by the meta-heuristic inspired by the thermal annealing process, were compared under the perspective of 10 different evaluation measures, indicating that the partitions established by the meta-heuristic inspired by the herd immunity may, in certain respects, be more favorable than the classifications obtained by the other clustering methods.
Resumo: A captura e o armazenamento de dados em formato digital têm permitido às organizações o acúmulo de um volume de informações extremamente elevado, constituído em maior proporção por dados em formato não estruturado, representados por textos. Neste contexto, as atividades de análise de agrupamentos ou classificação não supervisionada de objetos, se constituem como uma das técnicas de mineração de informações mais frequentemente empregadas no intuito de proporcionar a organização do volume progressivamente crescente de elementos textuais, por meio da disposição dos documentos em grupos de itens semelhantes com base em um índice de similaridade. Neste sentido, este estudo avalia os índices de similaridade distância Euclidiana, distância do coseno, distância de Hamming, coeficiente de Jaccard estendido e coeficiente de correlação de Pearson, sob a perspectiva de seis índices de validação de agrupamentos, observando que a distância do coseno representa, conforme a presente análise, o índice de similaridade mais apropriado ao agrupamento de objetos textuais, convertidos em formato estruturado por intermédio de técnicas de mineração de textos.Palavras-chave: Análise de agrupamentos. Agrupamento de documentos. Índices de similaridade. Abstract:The capture and the digital data store have allowed companies the accumulation of an extremely high volume of information, constituted mainly by unstructured data, represented by texts. In this context, the cluster analysis operations or unsupervised classification of objects, represent one of the most frequently used data mining techniques to provide the organization of the progressively increasing volume of textual elements, by means of arrangement of the documents in groups of similar itens based in a similarity measure . In this sense, this article evaluate the similarity measures Euclidiean distance, cosine distance, Hamming distance, extended Jaccard coefficient and Pearson's correlation coefficient, from the perspective of six clustering validation indexes, noticing that the cosine distance represent, according to this analysis, the similarity measure most appropriate to clustering textual objects, converted into structured format through text mining techniques.Keywords: Clustering analysis. Document clustering. Similarity index 1 Introdução A mineração de dados é um processo de descoberta automática de conhecimento em grandes repositórios de dados. Correspondente a um conjunto de técnicas que atuam sobre grandes bancos de dados a fim de identificar padrões úteis que, de outra forma, permaneceriam desconhecidos. As tarefas da mineração de dados são classificadas em duas categorias principais: tarefas de previsão e tarefas descritivas. As tarefas de previsão têm como objetivo prever o conteúdo de um determinado atributo, nomeado como a variável dependente ou alvo, com base nos valores de outros atributos, conhecidos como variáveis independentes ou explicativas. Já as tarefas descritivas
The rapid advances in technologies related to the capture and storage of data in digital format have allowed to organizations the accumulation of a volume of information extremely high, constituted a higher proportion of data in unstructured format, represented by texts. However, it is noted that the retrieval of useful information from these large repositories has been a very challenging activity. In this context, data mining is presented as a self-discovery process that acts on large databases and enables the knowledge extraction from raw text documents. Among the many sources of textual documents are electronic diaries of justice, which are intended to make public officially all the acts of the Judiciary. Despite the publication in digital form has provided improvements represented by the removal of imperfections related to divulgation at printed format, it is observed that the application of data mining methods could render more rapid analysis of its contents. In this sense, this article establishes a tool capable of automatically grouping and categorizing digital procedural acts, based on the evaluation of text mining techniques applied to groups determination activity. In addition, the strategy of defining the descriptors of the groups, that is usually conducted based on the most frequent words in the documents, was evaluated and remodeled in order to use, instead of words, the most regularly identified concepts in the texts.
Caracterizada como uma das condutas relacionadas à análise exploratória de dados, um método de agrupamento não hierárquico consiste em um procedimento apto a classificar uma coleção de objetos em um subconjunto finito de grupos ou classes, de forma que os objetos que pertencem a um grupo são mais semelhantes entre si do que os objetos compreendidos por um grupo distinto. Nesta circunstância, este estudo propõe a aplicação de uma meta-heurística inspirada no comportamento das ondas aquáticas, à determinação do agrupamento não hierárquico de objetos, e compara os resultados obtidos por este método com as respostas alcançadas por outras seis estratégias de agrupamento. De modo específico, os erros quadráticos auferidos pelo algoritmo sugerido, ao classificar 29 coleções de referência foram, por intermédio do teste dos postos sinalizados de Wilcoxon, confrontados com os resultados obtidos pelas meta-heurísticas enxame de partículas, algoritmo genético, colônia de abelhas artificiais e recozimento simulado, e com as respostas determinadas pelo algoritmo K-means e por uma variação da meta-heurística inspirada nas ondas aquáticas que incluía um operador de decaimento, indicando que, em algumas circunstâncias, o algoritmo proposto foi capaz de obter classificações mais congruentes do que as estabelecidas pelos outros métodos de particionamento.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.