Resumo: A captura e o armazenamento de dados em formato digital têm permitido às organizações o acúmulo de um volume de informações extremamente elevado, constituído em maior proporção por dados em formato não estruturado, representados por textos. Neste contexto, as atividades de análise de agrupamentos ou classificação não supervisionada de objetos, se constituem como uma das técnicas de mineração de informações mais frequentemente empregadas no intuito de proporcionar a organização do volume progressivamente crescente de elementos textuais, por meio da disposição dos documentos em grupos de itens semelhantes com base em um índice de similaridade. Neste sentido, este estudo avalia os índices de similaridade distância Euclidiana, distância do coseno, distância de Hamming, coeficiente de Jaccard estendido e coeficiente de correlação de Pearson, sob a perspectiva de seis índices de validação de agrupamentos, observando que a distância do coseno representa, conforme a presente análise, o índice de similaridade mais apropriado ao agrupamento de objetos textuais, convertidos em formato estruturado por intermédio de técnicas de mineração de textos.Palavras-chave: Análise de agrupamentos. Agrupamento de documentos. Índices de similaridade.
Abstract:The capture and the digital data store have allowed companies the accumulation of an extremely high volume of information, constituted mainly by unstructured data, represented by texts. In this context, the cluster analysis operations or unsupervised classification of objects, represent one of the most frequently used data mining techniques to provide the organization of the progressively increasing volume of textual elements, by means of arrangement of the documents in groups of similar itens based in a similarity measure . In this sense, this article evaluate the similarity measures Euclidiean distance, cosine distance, Hamming distance, extended Jaccard coefficient and Pearson's correlation coefficient, from the perspective of six clustering validation indexes, noticing that the cosine distance represent, according to this analysis, the similarity measure most appropriate to clustering textual objects, converted into structured format through text mining techniques.Keywords: Clustering analysis. Document clustering. Similarity index 1 Introdução A mineração de dados é um processo de descoberta automática de conhecimento em grandes repositórios de dados. Correspondente a um conjunto de técnicas que atuam sobre grandes bancos de dados a fim de identificar padrões úteis que, de outra forma, permaneceriam desconhecidos. As tarefas da mineração de dados são classificadas em duas categorias principais: tarefas de previsão e tarefas descritivas. As tarefas de previsão têm como objetivo prever o conteúdo de um determinado atributo, nomeado como a variável dependente ou alvo, com base nos valores de outros atributos, conhecidos como variáveis independentes ou explicativas. Já as tarefas descritivas