Please use this identifier to cite or link to this item: http://repositorio.unicamp.br/jspui/handle/REPOSIP/248548
Type: TESE
Title: Novas metodologias para a análise de dados em ciências ômicas e para o controle de qualidade de amostras de biodiesel-diesel
Title Alternative: New methodologies for data analysis in omics sciences and for quality control, of biodiesel-diesel samples
Author: Sousa, Samuel Anderson Alves de, 1983-
Advisor: Ferreira, Marcia Miguel Castro, 1951-
Abstract: Resumo: Neste trabalho são apresentadas duas novas metodologias multivariadas. Na primeira, é desenvolvida uma ferramenta denominada bucketing otimizado para a correção dos desalinhamentos dos espectros de RMN 1H. A análise de componentes principais em intervalos (iPCA) é utilizada para explorar espectros de RMN 1H e 13C. Para a diminuição de ruído destes últimos é utilizada a análise de componentes principais em múltiplas escalas (MSPCA). Os modelos iPCA são construídos para as classes de amostras, metropolitanas e não metropolitanas, em conjunto e separadas, atuando complementarmente na detecção de amostras não conformes. Neste contexto, os padrões espectrais apontaram amostras, previamente reprovadas pelos parâmetros físico-químicos próprios do campo de biocombustíveis. Adicionalmente, os modelos reprovaram amostras com padrões espectrais distintos, não reprovadas pelos parâmetros citados. De modo geral, o desempenho dos modelos utilizando os espectros de RMN 1H foi satisfatório. Uma exceção foi a detecção de amostras fora da especificação para o teor de biodiesel, onde as distinções nos espectros não permitiram a discriminação de amostras com teores próximo ao limite. Contudo, ao se estender um pouco a faixa sugerida na legislação, os modelos mostraram boa melhoria. Os modelos a partir dos espectros de RMN 13C obtiveram desempenho inferior àqueles citados acima. No segundo estudo é apresentado um novo método denominado escalamento de diferenças individuais multinível (ML-INDSCAL), para analisar a variação intra-individual em dados das ciências ômicas, focando em mudanças nas covariâncias dentro dos grupos experimentais e evidenciando as relações entre as variáveis (BVRs). Como somente a variação intra-individual é usada para revelar as BVRs associadas às mudanças dinâmicas, as interpretações sobre o fenômeno no qual os efeitos se baseiam são melhoradas. Um conjunto de dados simulado é explorado para demonstrar a força do método. O método é também aplicado a um conjunto real de dados de um estudo de expressões genéticas em células expressando a proteína viral R (Vpr) na forma nativa e com as mutações R80A e F72A/R73A. O procedimento jack-knife é explorado na validação dos modelos ML-INDSCAL. O método ML-INDSCAL é o primeiro da literatura que combina a exploração da estrutura multinível do conjunto de dados e a investigação de BVRs e pode fornecer valiosas contribuições no campo de seleção de características

Abstract: In this work, two new multivariate methodologies are presented. In the first approach, a tool named optimized bucketing is developed to correct 1H NMR spectra misalignments. The interval principal component analysis (iPCA) is used in order to explore 1H and 13C NMR spectra. The multiscale principal component analysis (MSPCA) is used for denoising of 13C NMR spectra. The iPCA models are built for two classes of samples, metropolitan and non-metropolitan, together and isolated, complementarily providing out-of-specification samples detections. In this context, the spectral profiles pointed out samples out of specification, in accordance to their previously known physical-chemical parameters from the field of biofuels. Additionally, the models were able to identify samples with distinct spectral profiles, but not rejected by the cited parameters. In general, the iPCA models using 1H NMR spectra presented good performances. An exception involves the detection of out-of-specification samples for biodiesel content, where the distinction on spectra profiles did not allow discrimination of samples when the biodiesel content was close to the allowed limit. Nevertheless, a small extension in the range, adopted by the Brazilian legislation, was enough to produce an improvement. The models from the 13C NMR spectra achieved worse performance than those cited above. In the second study is presented a novel method named multilevel individual differences scaling (ML-INDSCAL) to analyze within-individual variation in omic data, focusing on the changing covariances within groups and evidencing the between variables relationships (BVRs). Since only the within-individual variation is used to reveal the BVRs associated to dynamic changes, the interpretations about the real phenomena underlying the treatment are improved. A simulated data set is explored to demonstrate the strength of the method. Also, the method is applied to a real data set from a study of expression profiles in cell lines expressing wild-type and two mutated (R80A and F72A/R73A strains) Vpr. A version of the jack-knife procedure is explored in order to validate the ML-INDSCAL models. The ML-INDSCAL is the first method in literature that combines the exploration of the multilevel structure and the BVRs investigation and it can provide valuable insights on the feature selection field
Subject: Biodiesel
Ressonância magnética nuclear
Bucketing otimizado
Ciências ômicas
Escalamento de diferenças individuais multinível
Editor: [s.n.]
Date Issue: 2013
Appears in Collections:IQ - Tese e Dissertação

Files in This Item:
File SizeFormat 
Sousa_SamuelAndersonAlvesde_D.pdf6.41 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.