Please use this identifier to cite or link to this item: http://repositorio.unicamp.br/jspui/handle/REPOSIP/334837
Full metadata record
DC FieldValueLanguage
dc.contributor.CRUESPUNIVERSIDADE ESTADUAL DE CAMPINASpt_BR
dc.descriptionOrientador: Iscia Teresinha Lopes Cendespt_BR
dc.descriptionTese (doutorado) - Universidade Estadual de Campinas, Faculdade de Ciências Médicaspt_BR
dc.format.extent1 recurso online (145 p.) : il., digital, arquivo PDF.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languagePortuguêspt_BR
dc.relation.requiresRequisitos do sistema: Software para leitura de arquivo em PDFpt_BR
dc.typeTESE DIGITALpt_BR
dc.titleMetodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médicapt_BR
dc.title.alternativeBioinformatics methodologies applied to high throughput sequencing analysis in medical geneticspt_BR
dc.contributor.authorBorges, Murilo Guimarães, 1989-pt_BR
dc.contributor.advisorLopes-Cendes, Íscia Teresinha, 1964-pt_BR
dc.contributor.institutionUniversidade Estadual de Campinas. Faculdade de Ciências Médicaspt_BR
dc.contributor.nameofprogramPrograma de Pós-Graduação em Fisiopatologia Médicapt_BR
dc.subjectBioinformáticapt_BR
dc.subjectSequenciamento completo de exomapt_BR
dc.subjectExomapt_BR
dc.subjectHerança multifatorialpt_BR
dc.subject.otherlanguageBioinformaticsen
dc.subject.otherlanguageWhole exome sequencingen
dc.subject.otherlanguageExomeen
dc.subject.otherlanguagePolygenic inheritanceen
dc.description.abstractResumo: O sequenciamento de nova geração é cada vez mais incorporado na prática clínica, trazendo consigo desafios. Para propósitos diagnósticos, são priorizados os métodos de alta resolução de sequenciamento: seja pela delimitação de uma região-alvo de um painel de genes, ou pela definição de uma região de interesse constituída pelos exons. Neste sentido, bancos de dados públicos ajudam a entender de que forma variações genéticas se relacionam a um dado fenótipo, ou simplesmente refletirem uma variabilidade normal da população. A influência de variantes comuns com alta frequência e qualidade na população brasileira em métodos de chamada de variantes ainda é desconhecida. No outro extremo, encontram-se as variantes com impacto clínico comprovado, cuja identificação, acreditamos ser dependente de fatores metodológicos. Perfis de herança genética mais complexos e variações em mais de uma linhagem celular geneticamente distinta de um mesmo organismo são de relevância para as epilepsias. Acredita-se que as mutações em mosaico sejam causais em alguns tipos de displasias corticais focais, e que um perfil poligênico seja mais realista para diversas manifestações epileptogênicas não-familiares. Assim, nosso objetivo foi aplicar e avaliar ferramentas e protocolos em bioinformática para análise de sequenciamento de exomas e painéis no contexto da medicina genômica. Fomos capazes de identificar variantes somáticas e em mosaico em pacientes com displasia cortical focal sequenciados por WES e por um painel de genes empregando nosso protocolo baseado no GATK. Realizamos controles de qualidade pré e pós alinhamento, chamada e anotação das variantes com diversos programas como FastQC, Rqc, Picard, entre outros. Tivemos uma correspondência de 92,4% entre as variantes do painel com o exoma. Com relação as ferramentas utilizadas para a chamada das variantes em mosaico, 85,7% das variantes foram exclusivas de uma das ferramentas, evidenciando uma baixa concordância metodológica para estes algoritmos. Como resultado da chamada de variantes do exoma de 122 pacientes do grupo de encefalopatias epilépticas do desenvolvimento, foram identificadas um total de 608634 variantes. As variantes foram anotadas com VEP e priorizadas com o VVP para possibilitar a filtragem posterior com BrowseVCF. Como resultados preliminares para a descrição de um perfil poligênico, identificamos 32 variantes como possíveis alvos em 24 genes relacionados ao sistema nervoso central pela aplicação de métodos de aprendizado de máquina com RapidMiner. Com relação a aplicação de variantes comuns da população brasileira em protocolos de chamada de variantes, identificamos um alto potencial de sua utilização, aumentando a descoberta de variantes exclusivas de cada indivíduo em regiões anteriormente ignoradas pelos algoritmos. Ao investigar o padrão de profundidade do sequenciamento em amostras do projeto 1000 Genomas em variantes com relevância clínica, temos que a distribuição da profundidade de sequenciamento varia entre diferentes centros do consórcio, indicando um viés sistemático. Ao concluir este estudo, buscamos evidenciar o panorama das metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho e seu impacto no estabelecimento da medicina de precisãopt
dc.description.abstractAbstract: Next-generation sequencing is increasingly embedded in the clinical practice, bringing with it challenges as well. For diagnostic purposes, high-resolution sequencing methods are prioritized: either by delimiting a target region from a gene panel or by defining a region of interest constituted by the exons. In this sense, public databases help to understand how genetic variations relate to a given phenotype, or simply reflect normal population variability. The influence on variant calling methods of common variants with high frequency and quality in the Brazilian population is still unknown. At the other extreme are the variants with proven clinical impact, whose identification we believe to be dependent on methodological factors. More complex genetic inheritance profiles and variations in more than one genetically distinct cell line from the same organism are of relevance to epilepsies. Mosaic mutations are believed to be causal in some types of focal cortical dysplasia, and a polygenic profile is more realistic for several nonfamiliar epileptogenic manifestations. Thus, our general objective is to apply and evaluate tools and protocols in bioinformatics for the analysis of WES and panel sequencing in the genomic medicine context. We were able to identify somatic and mosaic variants in patients with focal cortical dysplasia sequenced by WES and with a panel of genes by using a protocol based on GATK. We performed quality controls before and after alignment, variant calling, and annotation of variants with programs like FastQC, Rqc and Picard. We had a 92.4% match between panel variants and the exome. Regarding the tools used for calling mosaic variants, 85.7% of the variants were unique to one of the tools, evidencing a low methodological agreement for these algorithms. For the call-set of 122 patients in the development epileptic encephalopathy group, were identified a total of 608634 variants. The variants were annotated with VEP and prioritized with VVP to allow subsequent filtering with BrowseVCF. As preliminary results for the description of a polygenic profile, we identified 32 variants as possible targets in 24 genes related to the central nervous system by using RapidMiner to implement machine learning methods. Regarding the application of common variants from the Brazilian population applied to variant calling protocols, we identified the high potential of its application, increasing the exclusive variants identification presented by each individual sample in regions previously ignored by the algorithms. When investigating the depth pattern in samples from the 1000 Genomes project in variants with clinical relevance, we have found that the depth of coverage distribution varies between different centers of the consortium, indicating a systematic bias. In concluding this study, we sought to highlight the panorama of methodologies in bioinformatics applied to the analysis of high-performance sequencing data and its impact in the establishment of precision medicineen
dc.publisher[s.n.]pt_BR
dc.date.issued2019pt_BR
dc.identifier.citationBORGES, Murilo Guimarães. Metodologias em bioinformática aplicadas à análise de dados de sequenciamento de alto desempenho em genética médica. 2019. 1 recurso online (145 p.). Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Ciências Médicas, Campinas, SP.pt_BR
dc.description.degreelevelDoutoradopt_BR
dc.description.degreedisciplineFisiopatologia Médicapt_BR
dc.description.degreenameDoutor em Fisiopatologia Medicapt_BR
dc.contributor.committeepersonalnameGodard, Ana Lúcia Brunialtipt_BR
dc.contributor.committeepersonalnameJunior, Wilson Araujo da Silvapt_BR
dc.contributor.committeepersonalnameMelo, Mônica Barbosa dept_BR
dc.contributor.committeepersonalnameYasuda, Clarissa Linpt_BR
dc.date.defense2019-07-15T00:00:00Zpt_BR
dc.description.sponsordocumentnumber001pt_BR
dc.date.available2019-09-02T14:53:58Z-
dc.date.accessioned2019-09-02T14:53:58Z-
dc.description.provenanceMade available in DSpace on 2019-09-02T14:53:58Z (GMT). No. of bitstreams: 1 Borges_MuriloGuimaraes_D.pdf: 10371458 bytes, checksum: 8271dadd980bcff52977acc8b4ea4684 (MD5) Previous issue date: 2019en
dc.identifier.urihttp://repositorio.unicamp.br/jspui/handle/REPOSIP/334837-
dc.description.sponsorCAPESpt_BR
Appears in Collections:FCM - Tese e Dissertação

Files in This Item:
File SizeFormat 
Borges_MuriloGuimaraes_D.pdf10.13 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.