ResumoAs árvores de decisão são modelos hierárquicos utilizados em várias áreas do conhecimento por sua capacidade preditiva e de resolução de problemas de maneira simples e objetiva. Entretanto, apresentam algumas limitações relacionadas à sua adequação à base de dados e ao se atentar quanto aos procedimentos para seleção dos parâmetros de crescimento e poda a serem adotados. Desta forma, têm-se como objetivo avaliar e discutir a performance do algoritmo J48 para construção de modelos de tomada de decisão em árvore em base de dados com atributos de diferentes tipos. Para tanto, realizaram-se experimentos em 10 bases de dados disponíveis em repositório internacional, considerando como variantes os métodos de treinamento, teste e poda, aplicados em toda base de dados e com o uso dos métodos Wrapper e CFS (Correlation-based Feature Selection) para seleção de atributos. Identi cou-se que na presença de dados contínuos, os únicos modelos que apresentaram boa capacidade preditiva estiveram presentes em situações em que a grande quantidade de exemplos puderam compensar tal de ciência. Os modos de treinamento "validação cruzada" e "divisão por porcentagem" mostraram-se similares em suas predições quando ajustados a 10 folds e 75%, respectivamente. Ademais, a seleção de atributos não foi capaz de gerar melhores predições denotando que tal método de forma isolada não compensa possíveis inadequações nas bases de dados. Pode-se constatar que os resultados referentes à capacidade preditiva dos modelos são fortemente direcionados pelo quantitativo de exemplos pertencentes à base, presença de dados contínuos e de dados com ruído.Palavras-Chave: Árvore de decisão. J48. Modelo de decisão.
AbstractDecision trees are hierarchical models used in several areas of knowledge due to their predictive capacity and problem solving in a simple and objective way. However, they present some limitations related to their adequacy to the database and in regard to paying attention to the procedures for selection of growth and pruning parameters to be adopted. In this way, the objective is to evaluate and discuss the performance of the J48 algorithm for the construction of tree decision-making models in databases with attributes of di erent types. Therefore, experiments in 10 databases available in international repository were carried out, considering as variants the training, testing and pruning methods, applied throughout the database and using the Wrapper and Correlation-based Feature Selection (CFS) methods for attribute selection. It was identi ed that in the presence of continuous data, the only models that presented good predictive capacity were present in situations in which the large number of examples could compensate for such de ciency. The cross-validation and percentage split training modes were similar in their predictions when adjusted to 10 folds and 75%, respectively. Furthermore, the selection of attributes was unable to generate better predictions denoting that such a method, in an isolated way, does not compensate for possibl...