Please use this identifier to cite or link to this item: http://repositorio.unicamp.br/jspui/handle/REPOSIP/275787
Type: TESE
Title: Uma metodologia para determinação do organismo de origem de sequencias de DNA com aplicação em projetos EST
Author: Piazza, João Paulo
Advisor: Setubal, João Carlos, 1957-
Abstract: Resumo: Este trabalho apresenta uma nova metodologia para a determinação computacional do organismo de origem de seqüência de DNA, implementada na forma de um programa chamado QUEST. O QUEST é baseado em dois princípios: a extração de informações intrínsecas a cada seqüência, chamadas de características, e a extração de diferentes tipos de características e sua combinação para se chegar a melhores resultados. São utilizados 7 diferentes programas como extratores de características, alguns desenvolvidos por terceiros (Glimmer e ESTScan) e outros desenvolvidos pelo autor. As características foram combinadas utilizando vários classificadores diferentes, variando desde uma soma simples até os baseados em vetores de suporte. O QUEST requer seqüências para treinamento. Em comparação com as abordagens baseadas em similaridade, as vantagens principais da QUEST estão no fornecimento de previsões para as taxas de erro e na capacidade de lidar com seqüências sem similaridades significativas em bancos de seqüência. O QUEST foi aplicado ao problema de determinar automaticamente contaminantes em projetos EST. São apresentados resultados de experimentos simulados e de um projeto EST real (o projeto EST de Schistosoma mansoni). Nos experimentos simulados foram atingidas taxas de falsos positivos mais falsos negativos de aproximadamente 10%. No projeto de S.mansoni o QUEST sugere que a contaminação em seqüências supostamente legítimas poderia ser de pelo menos 6%. No teste com S.mansoni, o QUEST foi 10 vezes mais rápido que o tempo necessário para executar o BLASTX em todas as seqüências testadas. O QUEST tem outras aplicações, incluindo a determinação do organismo de origem na nova abordagem genômica chamada de genômica ambiental (também chamada de metagenômica).

Abstract: This work presents a new methodology for computational ascertainment of organismal origin of DNA sequences, which we call QUEST. QUEST is based on two principles: that of extracting intrinsic information from each sequence, which are called features, and of extracting deferent kinds of features and combining them to achieve a better result. We use as feature extractors 7 deferent programs, some third-party (Glimmer and ESTScan) and others developed by the author. We combine features using many diferent standard classifers, ranging from simple sum to support vector machines. QUEST requires training sequences. In comparison to similarity-based approaches, QUEST has the main advantages of providing predicted error rates and of being able to deal with sequences without a significant match in sequence databases. We applied QUEST to the problem of automatically determining contaminants in EST projects. We present results from a simulated experiment and from a real EST project (the Schistosoma mansoni EST project). In the simulated experiment we achieved rates of false positives plus false negatives of around 10%. In the S.mansoni project QUEST suggests that contamination in supposedly bona _de sequences may be of at least 6%. In the S.mansoni test, QUEST was 10 times faster than the time it took to run BLASTX on all tested sequences. QUEST has a number of other applications, including the determination of organismal origin in the new approach to genomics called environmental genomics (also called metagenomics)
Subject: Sequencia de nucleotideos - Processamento de dados
Sistemas de recuperação da informação - Sequencia de nucleotideos
Biologia molecular
Ácido desoxirribonucleico
Language: Português
Editor: [s.n.]
Date Issue: 2004
Appears in Collections:IC - Tese e Dissertação

Files in This Item:
File SizeFormat 
Piazza_JoaoPaulo_M.pdf1.28 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.