Please use this identifier to cite or link to this item: http://repositorio.unicamp.br/jspui/handle/REPOSIP/316753
Type: TESE
Title: Estrutura genomica de tres megabases de DNA genomico (shotugun) de Eucalyptus : conteudo nucleotidico, sequencias repetitivas e genes
Author: Lourenço, Rodrigo Tristan
Advisor: Pereira, Gonçalo Amarante Guimarães, 1964-
Abstract: Resumo: Com o intuito de obter uma visão da estrutura e composição do genoma de Eucalyptus, sequenciou-se aleatoriamente cerca de 10.000 fragmentos de DNA genômico de Eucalyptus grandis obtidos por meio de seqüenciamento por fragmentação randômica de DNA (shotgun) de uma biblioteca genômica, totalizando mais de 3,0 Mb válidos (phred >=20), isto é, cerca de 0,5% do genoma (640 Mpb). Depois de selecionadas quanto ao tamanho e qualidade, estas seqüências foram analisadas em termos do seu conteúdo nucleotídico, presença de regiões repetitivas e número de genes. Para análise do conteúdo de bases guanidílicas e citidílicas (GC) e do conteúdo de seqüências repetitivas utilizou-se o programa RepeatMasker, o qual indicou que as 10 mil seqüências continham, em média, 40,15% de GC. Aproximadamente 1,4% das bases pertenciam a seqüências transponíveis, distribuídas em 310 elementos repetitivos interespersados, dentre os quais 299 eram retroelementos, principalmente LTRs (¿Long Terminal Repeats¿) e apenas 11 eram transposons. Também foram identificados 986 microssatélites e 1.636 seqüências de baixa complexidade. No total, cerca de 5,8% do genoma de Eucalyptus é composto por seqüências repetitivas. Para a identificação de genes putativos presentes, utilizou-se uma estratégia alternativa baseada na comparação deste banco genômico com bancos de ESTs (¿Expressed Sequence Tags¿) de Eucalyptus utilizando o programa GenESTate, nomeando os genes identificados de acordo com o resultado do ¿BLAST¿ (¿Basic Local Alignment Search Tool¿) encontrado para as ESTs. Também comparou-se todas as seqüências genômicas com o banco de dados não-redundante de proteínas do NCBI (¿National Center for Biotechnology Information¿) com o intuito de identificar outros genes. Aproximadamente 44 seqüências similares a ESTs foram identificadas, contabilizando 2% do total de pares de bases analisado. É importante ressaltar a identificação de íntrons e éxons, além de regiões promotoras, a partir desta comparação, visto que estas estruturas não podem ser identificadas em ESTs. Cerca de 166 genes foram identificados a partir da comparação de todas as seqüências com o banco de dados de proteínas do NCBI por meio do protocolo ¿blastx-nr¿. Também foram identificados genes putativos para 16 tRNAs utilizando o programa tRNAscan-SE. Este banco de dados genômicos poderá ser utilizado no âmbito do Projeto Genolytpus para guiar o processo de ancoragem do mapa genético com o mapa físico, no desenvolvimento de novos marcadores do tipo microssatélites e na identificação de regiões promotoras

Abstract: In this work we intended to obtain an overview of the structure and composition of the Eucalyptus genome by sample sequencing 10.000 genomic DNA fragments obtained from a shotgun genomic library from E. grandis, that represents 3,0 Mbp of the E. grandis genome. The reads were filtered by their quality and length (phred value >=20; length >=150) and analyzed for their nucleotide content, repetitive patterns, repetitive elements and gene content. The program RepeatMasker was used to analyze the %GC content and repetitive patterns and elements. The results indicate that on average the Eucalyptus genome is composed of 40.15% of GC. From the total of the bases sequenced approximately 1.4% were located in transposons, distributed in 310 interespersed repetitive genetic elements, among which 299 classified as retroelements, mainly LTRs. We also identified 986 microsatellites and 1636 low complexity sequences. 5.8% of the sequenced bases were located on repetitive sequences. We used an alternative approach to identify putative genes by comparing the genomic sequences with a Eucalyptus ESTs database using the GenESTate software. We attributed putative functions using a pipeline were the éxons of each gene were put togheter and compared with protein domains data banks. This procedure avoids the misleading results obtained when comparing DNA sequences with sequences deposited in GenBank. The sequences were clustered using the CAP3 software, resulting in 766 agrupamentos contíguos and 5428 singletos, the former showing an average of 1200 bp. These 766 agrupamentos contíguos were compared with more than 5,000 E. grandis ESTs from mature leaf tissue and 6,000 E. urophylla ESTs from xylem. From the 766 agrupamentos contíguos we found 44 that showed high similarity to some ESTs. The coding portion of the sequences accounted for around 2% of the total sequences. It is important to highlight that by this approach it was possible to identify íntrons and éxons, beside core promoter regions, which can¿t be identified in the ESTs. Other 166 possible genes were identified among the genomic sequences by using blastx-nr in NCBI. We also identified putative genes responsible for 16 tRNAs using the tRNAscan-SE software. These sequences are being used in the Genolyptus Project for the development of novel randomly distributed microsatellites markers, for the identification of promoter regions and will be used to assist in the development of overgo-probes to be applied in the anchoring of the genetic map to the physical ma
Subject: Eucalipto
Genomas
Sequência de nucleotídeos
Language: Português
Editor: [s.n.]
Date Issue: 2004
Appears in Collections:IB - Dissertação e Tese

Files in This Item:
File SizeFormat 
Lourenco_RodrigoTristan_M.pdf1.39 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.