Estudo de modelos de classificação com aplicação a dados genômicos
Heidi Mara do Rosário Sousa
DISSERTAÇÃO
Português
T/UNICAMP So85e
[Study of classification models with application to genomic data]
Campinas, SP : [s.n.], 2019.
1 recurso online (84 p.) : il., digital, arquivo PDF.
Orientador: Benilton de Sá Carvalho
Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matemática Estatística e Computação Científica
Resumo: A tecnologia de microarranjos ou chip de DNA é amplamente utilizada na ciência biomédica. Tem como objetivo realizar triagem de milhões de Polimorfismo de nucleotídeo único (SNP) em todo o genoma, possibilitando a identificação de variantes na sequência de DNA que estejam associadas com...
Ver mais
Resumo: A tecnologia de microarranjos ou chip de DNA é amplamente utilizada na ciência biomédica. Tem como objetivo realizar triagem de milhões de Polimorfismo de nucleotídeo único (SNP) em todo o genoma, possibilitando a identificação de variantes na sequência de DNA que estejam associadas com fenótipos de interesse. Essa tecnologia revolucionou estudos de associação, \textit{genome-wide association studies (GWAS)}, exatamente por permitir a análise simultânea de vários marcadores \cite{carvalho2009quantifying}. O ponto de partida para determinar a associação entre fenótipos e doenças, é fazer chamadas de genótipos (AA, AB ou BB) para cada SNP. Portanto, vários procedimentos estatísticos sofisticados são necessários, culminando na aplicação de um método de classificação. O objetivo desta dissertação é estudar técnicas de pré-processamento de dados de microarranjos; compreender a metodologia do Modelo Linear Robusto Corrigido com a distância de Mahalanobis (CRLMM) e propor um novo método de genotipagem utilizando modelos de classificação por Redes Neurais Artificiais (RNA), utilizando medidas quantitativas obtidas por meio de microarranjos. Utilizou-se métricas que associem acurácia e qualidade de agrupamento para a avaliação dos métodos de classificação. O maior ganho na aplicação de redes neurais tem sido observado na habilidade de identificar mais apropriadamente observações heterozigotas, quando comparado ao CRLMM, ao mesmo tempo que a precisão de chamadas de homozigotos permanece praticamente estável. Além disso, as redes neurais permitem uma classificação mais concordante com os processos biológicos nas caudas da distribuição da log-razão M.
Ver menos
Abstract: Microarray technology or DNA chip is widely used in biomedical science. It aims to screen millions of single nucleotide polymorphisms (SNPs) throughout the genome, enabling the identification of variants in the DNA sequence that are associated with phenotypes of interest. This technology...
Ver mais
Abstract: Microarray technology or DNA chip is widely used in biomedical science. It aims to screen millions of single nucleotide polymorphisms (SNPs) throughout the genome, enabling the identification of variants in the DNA sequence that are associated with phenotypes of interest. This technology revolutionized association studies, genome-wide association studies (GWAS), precisely by allowing the simultaneous analysis of multiple markers. The starting point for determining the association between phenotypes and diseases is to make genotype calls (AA, AB or BB) for each SNP. Therefore, several sophisticated statistical procedures are necessary, culminating in the application of a classification method. The objective of this thesis is to study microarray data preprocessing techniques; to understand the methodology of the Corrected Robust Linear Model with Mahalanobis Distance (CRLMM) and propose a new method of genotyping using Artificial Neural Network (ANN) classification models using quantitative measurements obtained through microarray. Were used metrics that associate accuracy and clustering quality for the evaluation of classification methods. The greatest gain in the application of neural networks has been observed in the ability to more correctly identify heterozygous observations when compared to CRLMM, while the accuracy of homozygous calls remains practically stable. In addition, the neural networks allow a more concordant classification, with the biological processes, in the tail of the distribution of the log M ratio
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Aberto
Carvalho, Benilton de Sá, 1979-
Orientador
Soler, Júlia Maria Pavan, 1961-
Avaliador
Kiihl, Samara Flamini, 1980-
Avaliador
Estudo de modelos de classificação com aplicação a dados genômicos
Heidi Mara do Rosário Sousa
Estudo de modelos de classificação com aplicação a dados genômicos
Heidi Mara do Rosário Sousa