Please use this identifier to cite or link to this item: http://repositorio.unicamp.br/jspui/handle/REPOSIP/330369
Type: DISSERTAÇÃO DIGITAL
Degree Level: Mestrado
Title: Um arcabouço baseado em anotações para enriquecimento semântico de documentos textuais
Title Alternative: An annotation based framework for semantic enrichment of textual documents
Author: Giansante, Vandalis, 1975-
Advisor: Torres, Ricardo da Silva, 1977-
Abstract: Resumo: Executar tarefas analíticas, como agrupamento e classificação, em coleções de dados textuais é objeto de estudo constante em diversas áreas e, em especial, na área de Recuperação de Informação. O enriquecimento semântico é uma forma típica usada para tornar mais representativa a descrição de documentos textuais, visando obter melhores resultados em tarefas de mineração de texto. Este trabalho propõe um sistema de enriquecimento semântico de dados textuais que se utiliza de um modelo de representação de documentos baseado em grafos. A implementação do sistema é baseada em um workflow para execução de tarefas de aprendizagem de máquina. Um workflow típico do sistema é composto de (i) um extrator de grafos como forma de representação das amostras da coleção, (ii) um enriquecedor semântico dos grafos obtidos a partir do uso de ontologias (por exemplo, a ontologia WordNet), e (iii) um método de geração da representação vetorial de textos baseado em grafos visando permitir a classificação dos grafos enriquecidos. Os componentes permitem diferentes parametrizações com o objetivo de alcançar bons resultados em tarefas de classificação de texto. Experimentos foram realizados com o novo descritor de documentos textuais, chamado Semantic Bag of Textual Graphs, que considera o procedimento de enriquecimento semântico proposto. Os resultados obtidos confirmam os benefícios do uso de workflows na especificação e implementação de procedimentos de anotação e classificação de documentos textuais e apontam para resultados promissores na utilização de ontologias em determinados cenários de classificação deste tipo de documento

Abstract: Performing analytical tasks, such as clustering and classification, in collections of textual documents are the subject of constant study in several areas and especially in the area of Information Retrieval. Semantic enrichment is a typical way used to render a textual document description more representative, aiming at better results in text mining tasks. This work proposes a system of semantic enrichment of textual data that uses a model of document representation based on graphs. The system implementation is based on a workflow for performing machine learning tasks. A typical workflow of the framework is composed of (i) a graph extractor as a representation of the collection samples, (ii) an ontology-based graph semantic enrichment (e.g., WordNet Ontology), and (iii) a method of generating the text vector representation based on graphs to perform the classification of semantically enriched graphs. The components allow different customization procedures in order to determine suitable results in text classification tasks. Experiments were conducted with a novel descriptor, named Semantic Bag of Textual Graphs, which considers the proposed ontology-based semantic enrichment procedure. The results confirm the benefits of using workflows in the specification and implementation of annotation and classification procedures of textual documents and points out promising results in the use of ontology in certain classification scenarios of this kind of document
Subject: Semântica
Sistemas de recuperação da informação - Documentos
Fluxo de trabalho
Mineração de dados (Computação)
Editor: [s.n.]
Citation: GIANSANTE, Vandalis. Um arcabouço baseado em anotações para enriquecimento semântico de documentos textuais. 2017. 1 recurso online (52 p.). Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: <http://www.repositorio.unicamp.br/handle/REPOSIP/330369>. Acesso em: 2 set. 2018.
Date Issue: 2017
Appears in Collections:IC - Tese e Dissertação

Files in This Item:
File SizeFormat 
Giansante_Vandalis_M.pdf1.74 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.