Métodos estatísticos para análise diferencial de dados metabolômicos
Viviane de Moura
DISSERTAÇÃO
Português
T/UNICAMP M865m
[Statistical methods for differential analysis of metabolomic data]
Campinas, SP : [s.n.], 2024.
1 recurso online (200 p.) : il., digital, arquivo PDF.
Orientador: Samara Flamini Kiihl
Dissertação (mestrado) - Universidade Estadual de Campinas (UNICAMP), Instituto de Matemática, Estatística e Computação Científica
Resumo: Este trabalho aborda a análise estatística aplicada na ciência metabolômica, que se dedica à identificação e/ou quantificação de pequenas moléculas (metabólitos) em sistemas biológicos. A análise desses compostos foi realizada através da abordagem de metabolômica não direcionada, que envolve...
Ver mais
Resumo: Este trabalho aborda a análise estatística aplicada na ciência metabolômica, que se dedica à identificação e/ou quantificação de pequenas moléculas (metabólitos) em sistemas biológicos. A análise desses compostos foi realizada através da abordagem de metabolômica não direcionada, que envolve a técnica de cromatografia líquida acoplada à espectrometria de massas. Os dados gerados por essa análise são compostos químicos esperados para serem metabólitos, denominados features, de duas espécies da planta popularmente conhecida como "boldo". Essas espécies foram submetidas a três condições experimentais distintas, cada uma com três tratamentos diferentes, resultando em seis conjuntos de dados. Cada conjunto de dados é uma matriz com as abundâncias dos features, com os features nas linhas e as amostras nas colunas. O objetivo é analisar as complexas interações entre os fatores ambientais e a variabilidade dos features, com o propósito de identificar quais features se diferenciam significativamente em relação aos fatores de cultivo, considerando o desafio apresentado pela quantidade limitada de amostras. O estudo inicia com o pré-processamento e a análise exploratória dos conjuntos de dados. Isso envolve a análise comparativa dos dados entre as espécies e entre os experimentos, a imputação e a transformação dos dados, e a normalização realizada através de três técnicas diferentes: normalização por proporção, normalização quantílica e normalização quantílica suavizada. Essas técnicas foram comparadas para escolher o método de normalização mais adequado aos dados. Testes de diferenças globais da distribuição entre os grupos foram aplicados para auxiliar nessa decisão. Na análise estatística, foram aplicadas três técnicas distintas: testes múltiplos para selecionar features com abundâncias relativas significativamente distintas sob diferentes condições de cultivo através do método LIMMA, ensemble para classificar os features mais importantes nos conjuntos de interesse utilizando o algoritmo random forest, e regressão logística multinomial com regularização LASSO para selecionar um subconjunto de features que melhor explicam cada condição experimental. Todos esses métodos foram empregados separadamente em cada um dos seis conjuntos de dados. Essas técnicas podem ser aplicadas a diversos dados metabolômicos, não se limitando às espécies aqui estudadas. Essa análise amplia o alcance da ciência metabolômica, beneficiando-a com ferramentas estatísticas versáteis, fornecendo ainda comparações entre os métodos aplicados, facilitando assim a escolha adequada para cada tipo de conjunto de dados
Ver menos
Abstract: This study addresses the statistical analysis applied in metabolomics data science, focusing on the identification and/or quantification of small molecules (metabolites) in biological systems. The analysis of these compounds was conducted through an untargeted metabolomics approach,...
Ver mais
Abstract: This study addresses the statistical analysis applied in metabolomics data science, focusing on the identification and/or quantification of small molecules (metabolites) in biological systems. The analysis of these compounds was conducted through an untargeted metabolomics approach, involving liquid chromatography coupled with mass spectrometry. The data generated by this analysis consists of chemical compounds expected to be metabolites, referred to as features, from two species of the plant commonly known as "boldo". These species were subjected to three distinct experimental conditions, each with three different treatments, resulting in six datasets. Each dataset is a matrix with the abundances of features, where features are represented in rows and samples in columns. The objective is to analyze the complex interactions between environmental factors and the variability of features, aiming to identify which features significantly differ in relation to cultivation factors, considering the challenge posed by the limited number of samples. The study begins with preprocessing and exploratory analysis of the datasets. This includes comparative analysis of data between species and experiments, data imputation and transformation, and normalization using three different techniques: proportion normalization, quantile normalization, and smooth quantile normalization. These techniques were compared to select the most suitable normalization method for the data. Global difference tests of distribution among groups were applied to assist in this decision. In the statistical analysis, three distinct techniques were applied: multiple tests to select features with significantly different relative abundances under different cultivation conditions using the LIMMA method, ensemble to classify the most important features in the sets of interest using the random forest algorithm, and multinomial logistic regression with LASSO regularization to select a subset of features that best explain each experimental condition. All these methods were separately applied to each of the six datasets. These techniques can be applied to various metabolomics data, not limited to the species studied here. This analysis extends the scope of metabolomics, benefiting it with versatile statistical tools, providing comparisons between the applied methods, thus facilitating appropriate choices for each type of dataset
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Aberto
Métodos estatísticos para análise diferencial de dados metabolômicos
Viviane de Moura
Métodos estatísticos para análise diferencial de dados metabolômicos
Viviane de Moura