RESUMONeste artigo, apresenta-se um Método de Verificação de Dados Climatológicos Apoiado em Modelos Minerados -VEDALOGIC para o Instituto de Controle do Espaço Aéreo Brasileiro (ICEA). O VEDALOGIC consiste de uma verificação de dados, utilizando-se de modelos criados com algoritmos de Mineração de Dados. O Método utiliza modelos de clustering, gerados a partir de uma série histórica, que propiciam a identificação de grupos homogêneos em uma Base de Dados Climatológicos (BDC). A partir desses modelos, torna-se possível a detecção de inconformidades nos dados, denominadas pontos estranhos (outliers). Após a detecção de um outlier, este é classificado/predito, de acordo com o modelo de árvore de decisão, gerado também a partir de uma série histórica. O valor encontrado com base na árvore de decisão é adotado como sugestão para a correção do outlier, contribuindo com a consistência dos dados no BDC. Neste artigo, utilizam-se os seguintes algoritmos: ExpectationMaximization (EM) e K-means para clustering; e REPTree e M5P para classificação/predição. Para a verificação da eficiência do VEDALOGIC, inseriram-se, artificialmente, dados ruidosos em um conjunto de dados, os quais foram todos detectados pelo VEDALOGIC, que sugeriu valores para correção com uma precisão média superior a 98%. Palavras-Chaves: Mineração de Dados; Banco de Dados Climatológicos; Clustering; Verificação de Dados. ABSTRACT: VEDALOGIC -A METHOD OF CLIMATOLOGIC DATA VERIFICATION BASED ON DATA MINING MODELSThis work presents the VEDALOGIC -Method for Climatologic Data Verification -based on Data Mining Models, to be used by the "Instituto de Controle do Espaço Aéreo Brasileiro" (ICEA). The VEDALOGIC method consists of a data verification using Data Mining algorithm models. The method uses clustering models generated from a historical series that provide the identification of homogeneous groups in the Climatologic Data Base (CDB). This method, based on clustering models, detects unconformities, named outliers. Detected outliers are classified/predicted according to the decision tree models which are also built from historic data. The found value based on the decision tree model is used as a suggestion to correct an outlier, contributing to increase the CDB data consistence. In this study, the Expectation-Maximization (EM) and the K-means algorithms were used to generate clustering models, and the REPTree and the M5P algorithms were used to generate decision (classification/prediction) tree models. To verify the efficiency of the proposed method, some noisy data were artificially inserted into CDB. After applying the VEDALOGIC method, all inserted noisy data were detected and the adjustments have an average precision above 98%.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
334 Leonard St
Brooklyn, NY 11211
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.