Please use this identifier to cite or link to this item: http://repositorio.unicamp.br/jspui/handle/REPOSIP/344425
Type: TESE DIGITAL
Degree Level: Doutorado
Title: Floresta aleatória para desenvolvimento de modelos multivariados de classificação e regressão em química analítica
Title Alternative: Random forest for the development of multivariate models of classification and regression in analytical chemistry
Author: Santana, Felipe Bachion de, 1991
Advisor: Poppi, Ronei Jesus, 1961-2020
Abstract: Resumo: Nesta tese foi empregado o método de aprendizagem de máquina de floresta aleatória em problemas multivariados de regressão, classificação e autenticação em diferentes matrizes empregando técnicas espectroscópicas vibracionais. Para fins comparativos também foram construídos os modelos multivariados empregando os métodos quimiométricos tradicionalmente utilizados. A floresta aleatória apresenta alto poder de generalização, sendo capaz de lidar com variabilidade entre as amostras e elevado número de variáveis. Além disso, o algoritmo pode ser paralelizado reduzindo o tempo requerido para construir o modelo de calibração. Na tese foram realizadas três aplicações, sendo que na primeira foi avaliado o uso da espectroscopia Vis-NIR como um método alternativo aos métodos tradicionais de análise de solo para determinar parâmetros relacionados a fertilidade e granulometria do solo. Foram utilizadas duas bibliotecas espectrais Vis-NIR de solo, compostas por aproximadamente 4 mil e 43 mil amostras respectivamente de diversas regiões do Brasil. A primeira biblioteca espectral foi composta pelos valores de referência de matéria orgânica do solo (MOS), capacidade de troca de cátions (CTC), soma das bases (SB), areia e argila. A segunda biblioteca espectral foi composta pelos valores de referência de MOS. A partir da primeira biblioteca espectral foi constatado que o método de regressão por floresta aleatória apresentou exatidão superior ao método de regressão PLS além de excluir menos amostras anômalas no conjunto de validação. A metodologia desenvolvida empregando a segunda biblioteca espectral foi validada, via simulação, através de 12 amostras de solo fornecidas pelo teste de proficiência PAQLF. Através do teste de proficiência, foi constatado que a metodologia desenvolvida para determinar os teores de MOS apresenta o mesmo nível de excelência de um proficiente laboratório de análise de solo empregando o método padrão de análise baseado em Walkley-Black. Na segunda aplicação foi utilizada a espectroscopia FTIR-ATR aliada ao método de classificação floresta aleatória como uma metodologia alternativa para a identificação de amostras autênticas do óleo de andiroba. Devido à grande variabilidade entre as amostras do óleo de andiroba, o método de classificação floresta aleatória obteve resultados de classificação superiores ao PLS-DA, além de excluir menos amostras anômalas no conjunto de validação. Na terceira aplicação foi proposta uma nova metodologia para a geração artificial de outliers aliada a floresta aleatória, possibilitando sua utilização como um algoritmo de classe única. O método proposto foi testado em duas aplicações na área de alimentos, sendo a primeira para discriminar o óleo de prímula autêntico do adulterado utilizando a espectroscopia no infravermelho médio, e a segunda para distinguir amostras de noz-moscada moída autênticas de adulteradas empregando a espectroscopia no infravermelho próximo. Em todas as aplicações o método de aprendizagem de máquina floresta aleatória, construído utilizando os parâmetros padrão, obteve desempenho superior ou pelo menos igual, aos métodos quimiométricos convencionais utilizados para comparação, além de apresentar menos amostras anômalas nos conjuntos de calibração e validação. Os resultados obtidos demonstram a grande aplicabilidade das técnicas espectroscópicas vibracionais combinada ao método de aprendizagem de máquina de floresta aleatória em química analítica

Abstract: In this thesis, the random forest machine learning method was employed in regression, classification and authentication problems in different matrices, using vibrational spectroscopic techniques. For comparative purposes, multivariate models were also build using traditional chemometric methods. The random forest has a high generalization power, being able to deal with variability between samples and high number of variables. In addition, the algorithm can be parallelized, reducing the time required to build the calibration model. Three applications were investigated, in the first one the Vis-NIR spectroscopy was evaluated as an alternative method to traditional soil analysis method to determine soil fertility and granulometry. For this, two soil Vis-NIR spectral libraries from different regions of Brazil were used, composed by approximately 4 thousand and 43 thousand of samples, respectively. The first spectral library was composed by the reference values of soil organic matter (SOM), cation exchange capacity (CEC), base sum (BS), sand and clay. The second spectral library was composed by the SOM reference values. Using the first soil spectral library, it was concluded that the random forest regression method presented higher accuracy than the PLS regression method, besides excluding fewer anomalous samples in the validation set. The methodology developed using the second spectral library was validated through 12 soil samples provided by the PAQLF proficiency test. Through the proficiency test, it was concluded that the proposed methodology to determine the SOM content presents the same accuracy of a proficient soil analysis laboratory which uses the standard Walkley-Black analysis method. In the second application, FTIR-ATR spectroscopy coupled to the random forest classification method was used as an alternative methodology for the identification of authentic andiroba oil samples. Due to the large variability between andiroba oil samples, the random forest classification method obtained classification results superior to PLS-DA, besides excluding fewer anomalous samples in the validation set. In the third application, a new methodology for the artificial generation of outliers combined with random forest was proposed, allowing the use of the random forest as one-class algorithm. The proposed method was tested in two food applications, the first one to discriminate authentic and adulterated primrose oil using FTIR-ATR spectroscopy, and the second to distinguish between authentic and adulterated ground nutmeg samples using near infrared spectroscopy. In all applications the results achieved by the random forest models built using standard parameters outperformed, or at least equaled to the conventional chemometric methods used for comparison. In addition, they presented fewer anomalous samples in the calibration and validation sets. The results obtained demonstrated the major applicability of vibrational spectroscopic techniques combined to the random forest machine learning method in analytical chemistry
Subject: Quimiometria
Aprendizado de máquina
Floresta aleatória
Solos
Alimentos
Language: Português
Editor: [s.n.]
Citation: SANTANA, Felipe Bachion de. Floresta aleatória para desenvolvimento de modelos multivariados de classificação e regressão em química analítica. 2020. 1 recurso online (139 p.) Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Química, Campinas, SP.
Date Issue: 2020
Appears in Collections:IQ - Tese e Dissertação

Files in This Item:
File SizeFormat 
Santana_FelipeBachionDe_D.pdf5.61 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.