Roberta de Amorim Ferreira scite author profile

Roberta de Amorim Ferreira

2Publications

5Citation Statements Received

43Citation Statements Given

How they've been cited

How they cite others

Affiliations

Universidade Federal de Viçosa, Instituto Federal de Educação, Ciência e Tecnologia de Minas Gerais

Publications

Order By: Most citations

Kennard-Stone method outperforms the Random Sampling in the selection of calibration samples in SNPs and NIR data

2022

View full text Add to dashboard Cite

Splitting the whole dataset into training and testing subsets is a crucial part of optimizing models. This study evaluated the influence of the choice of the training subset in the construction of predictive models, as well as on their validation. For this purpose we assessed the Kennard-Stone (KS) and the Random Sampling (RS) methods in near-infrared spectroscopy data (NIR) and marker data SNPs (Single Nucleotide Polymorphisms). It is worth noting that in SNPs data, there is no knowledge of reports in the literature regarding the use of the KS method. For the construction and validation of the models, the partial least squares (PLS) estimation method and the Bayesian Lasso (BLASSO) proved to be more efficient for NIR data and for marker data SNPs, respectively. The evaluation of the predictive capacity of the models obtained after the data partition occurred through the correlation between the predicted and the observed values, and the corresponding square root of the mean squared error of prediction. For both datasets, results indicated that the results from KS and RS methods differ statistically from each other by the F test (P-value < 0.01). The KS method showed to be more efficient than RS in practically all repetitions. Also, KS method has the advantage of being easy and fast to be applied and also to select the same samples, which provides excellent benefits in the following analyses.

show abstract

Redes neurais artificiais com componentes principais para a construção de modelos de predição em dados de espectroscopia NIR

Ferreira¹

View full text Add to dashboard Cite

A espectroscopia no infravermelho próximo (NIR), associada a métodos estatísticos multivariados, vem sendo utilizada para a predição de indivíduos com maior produtividade. O método Partial Least Squares (PLS) é comumente empregado para ajuste de modelos de dados NIR. Entretanto, este método considera que a relação espectro/propriedade seja linear, o que não é sempre garantido em dados dessa natureza e o que pode, consequentemente, influenciar na acurácia do modelo. Alternativamente, a rede neural artificial (ANN) associada à análise de componentes principais (PCA), denominada PCA-ANN, possui a vantagem de ser eficiente em lidar com dados não lineares, incompletos e com ruídos, captando assim algumas complexidades presentes nos mesmos. Além disso, tal abordagem permite o não uso de pré- tratamentos, o que pode aumentar a capacidade preditiva dos modelos, além de diminuir o custo e o tempo das análises, quando comparada ao PLS associado aos pré-tratamentos usuais. O objetivo deste estudo foi construir e validar modelos de predição e processos de classificação, além de verificar se existe diferença significativa entre o método PLS, associado à matriz de espectros pré-tratados, e o método PCA-ANN, aplicado aos dados brutos. Para tanto, tais métodos foram aplicados a oito conjuntos de dados NIR, na forma bruta (sem pré- tratamentos) e com pré-tratamentos. A avaliação da capacidade preditiva dos modelos obtidos ocorreu por meio da correlação entre os valores preditos e os valores originais, e da raiz quadrada do erro quadrático médio de predição. Já a avaliação dos processos de classificação ocorreu através da taxa de erro aparente (TEA) e da taxa de verdadeiros positivos (TVP). Os resultados alcançados indicam que, na maioria dos conjuntos de dados analisados, o método PCA-ANN não difere estatisticamente do PLS para a predição dos modelos e para os processos de classificação, por meio da aplicação dos testes t e de Wilcoxon (valor-p > 0,01). O PCA- ANN deve ser escolhido para a realização de futuras análises, pois apresenta tempo computacional inferior àquele referente ao PLS. Palavras-chave: PLS. PCA-ANN. Pré-tratamentos. Quimiometria. Predição.

show abstract

scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.

Contact Info

hi@scite.ai

334 Leonard St

Brooklyn, NY 11211

Blog Terms and Conditions API Terms Privacy Policy Contact Cookie Preferences Do Not Sell or Share My Personal Information

Made with 💙 for researchers

Part of the Research Solutions Family.