Resumo -O objetivo deste trabalho foi avaliar diferentes estratégias para a predição da distribuição de classes de solo em mapas pedológicos digitais de áreas sem dados de referência, na bacia sedimentar do São Francisco, no Norte de Minas Gerais. As estratégias incluíram: o detalhamento da legenda, o treinamento por observações em campo, a ampliação do conjunto de treinamento e o uso de diferentes algoritmos de mineração de dados. Foram elaboradas quatro matrizes, diferenciadas pelo volume de dados, para o aprendizado dos algoritmos, e pelo nível taxonômico das classes de solo a serem preditas. Avaliou-se o desempenho dos algoritmos de aprendizado de máquina -Random Forest, J48 e MLP -, associados a procedimentos de discretização, balanceamento de classes, seleção de variáveis e expansão do conjunto de treinamento. O balanceamento de classes, a discretização de variáveis por frequências iguais e o algoritmo Random Forest apresentaram os melhores desempenhos. A extensão da representatividade das observações em campo, que presume uma área de treinamento mais ampla, não trouxe ganho preditivo. A generalização taxonômica para subordem diminui a fragmentação dos polígonos mapeados e aumenta a acurácia dos mapas pedológicos digitais. Quando são produzidos após treinamento por observações de solo in situ, na área de mapeamento, os mapas pedológicos digitais têm valores de acurácia equivalentes aos dos treinados em mapas preexistentes.Termos para indexação: acurácia de mapas pedológicos, algoritmos de classificação, mapa digital de solos, variáveis preditivas do meio físico. Soil class prediction by data mining in an area of the sedimentary São Francisco basinAbstract -The objective of this work was to evaluate different strategies for the prediction of soil class distribution on digital soil maps of areas without reference data, in the sedimentary basin of San Francisco, in the north of the state of Minas Gerais, Brazil. The strategies included: taxonomic generalization, training by field observations, training set expansion, and the use of different data mining algorithms. Four matrices were developed, differentiated by the volume of data for machine learning and by soil taxonomic levels to be predicted. The performance of the machine learning algorithms -Random Forest, J48, and MLP -, associated with discretization, class balancing, variable selection, and expansion of the training set was evaluated. Class balancing, variable discretization by equal frequencies, and the Random Forest algorithm showed the best performances. The representativeness extension of field observations, that assumes a larger training area, brought no predictive gain. Soil taxonomic generalization to the suborder level reduces the fragmentation of mapped polygons and improves the accuracy of digital soil maps. When generated by training on in situ soil observations at the mapping area, digital soil maps are as accurate as those trained on preexistent maps.
Lithological and geomorphological variations determine formation of soils with different mineralogical constitutions and can influence the distribution of potentially toxic elements (PTE). The aim of this study was to determine the contents of PTE and mineralogical assemblages along soil profiles of different classes and parent materials and to investigate the association among these factors in the São Francisco sedimentary basin in the northern part of the state of Minas Gerais (Brazil). Eight soil pedons of different classes that developed from different parent materials (limestone, siltstone, phyllite, alluvial-colluvial sediments, detrital cover, and rhythmite) were studied in two lithotoposequences. Soil morphological, particle-size, and chemical analyses were carried out for soil characterization and classification. A mineralogical investigation was carried out by X-ray diffraction on soil sand, silt, and clay fractions. Potentially toxic elements were extracted by microwave-assisted acid digestion (EPA 3015A method) and determined in an ICP-OES. Soil mineralogy showed relevant interactions between pedogenesis and morphogenesis. Quartz is the main mineral in the sand and silt fractions, with varying amounts of weatherable primary minerals, whereas kaolinite is the main mineral in the clay fraction, followed by 2:1 clay minerals and oxides. The main soil properties associated with PTE variability were pH, redox environment, mineral and organic reactive surfaces, and clay content. The unique patterns of PTE distribution per pedon and differences in PTE contents in soils from the same parent material, but with different pedogenic evolution, showed that pedogenic processes influence PTE distribution. Mainly Mn, Ni, Pb, and Ba were influenced by parent material, especially limestone, siltstone, and detrital cover, but Cd, As, and Cu were also influenced. To a lesser extent, Mo was influenced by phyllite and Cr by detrital cover and phyllite. Rhodic Ferralsol (Latossolo Vermelho Distrófico típico) was the only taxonomic class to show class association with PTE. The association of Ferralsols (Latossolos) with Cd, Mn, Ni, Pb, Ba, As, and Cu and the low contents of these elements in soils of this class suggest that pedogenic processes common to Ferralsol (Latossolo) evolution are responsible for decreasing levels of these PTE.
O entendimento de associações solo-relevo pode contribuir para o mapeamento digital de solos. Por ser estratégia de mapeamento em desenvolvimento, algoritmos de mineração de dados, base de dados para treinamento dos modelos e escalas de trabalho ainda necessitam ser avaliados. Para treinar modelos de classificação a partir de observações pontuais em campo, foram produzidos mapas pedológicos digitais em escala grande de bacia hidrográfica, em Botucatu (SP), em que predominam arenitos. Do modelo digital de elevação da bacia foram geradas sete variáveis morfométricas. A classificação dos solos para treinamento e validação dos modelos foi realizada em campo até o nível de subgrupo mais grupamento textural. Foram testados três algoritmos de mineração de dados. A pertinência de grupos de atributos de relevo às classes taxonômicas foi verificada por análise de agrupamento. Apesar do melhor desempenho do algoritmo MLP (redes neurais), este foi considerado pouco confiável, já que não classificou nenhum exemplo da classe GXbdt, com apenas dois exemplos para treinamento. Os classificadores J48 e Random Forest apresentaram acurácia equivalente na classificação dos solos a partir de dados de relevo, com índice kappa ligeiramente superior para o J48 (0,42). A combinação da extensão da área de estudo com o grau de detalhe das variáveis geomorfométricas produziu uma variabilidade de atributos preditivos difícil de representar no conjunto de treinamento criado por amostragem em campo. A presença de classes de solo representativas e distintas pela textura no mesmo grupo de atributos de relevo criado pela análise de agrupamento indicou que relevo não é fator preponderante na diferenciação textural dos solos, principal atributo diferencial dos solos da área de estudo.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.