Um arcabouço baseado em anotações para enriquecimento semântico de documentos textuais [recurso eletrônico]
Vandalis Giansante
DISSERTAÇÃO
T/UNICAMP G348a
[An annotation based framework for semantic enrichment of textual documents]
Campinas, SP : [s.n.], 2017.
1 recurso online (52 p.) : il., digital, arquivo PDF.
Orientador: Ricardo da Silva Torres
Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação
Resumo: Executar tarefas analíticas, como agrupamento e classificação, em coleções de dados textuais é objeto de estudo constante em diversas áreas e, em especial, na área de Recuperação de Informação. O enriquecimento semântico é uma forma típica usada para tornar mais representativa a descrição de...
Ver mais
Resumo: Executar tarefas analíticas, como agrupamento e classificação, em coleções de dados textuais é objeto de estudo constante em diversas áreas e, em especial, na área de Recuperação de Informação. O enriquecimento semântico é uma forma típica usada para tornar mais representativa a descrição de documentos textuais, visando obter melhores resultados em tarefas de mineração de texto. Este trabalho propõe um sistema de enriquecimento semântico de dados textuais que se utiliza de um modelo de representação de documentos baseado em grafos. A implementação do sistema é baseada em um workflow para execução de tarefas de aprendizagem de máquina. Um workflow típico do sistema é composto de (i) um extrator de grafos como forma de representação das amostras da coleção, (ii) um enriquecedor semântico dos grafos obtidos a partir do uso de ontologias (por exemplo, a ontologia WordNet), e (iii) um método de geração da representação vetorial de textos baseado em grafos visando permitir a classificação dos grafos enriquecidos. Os componentes permitem diferentes parametrizações com o objetivo de alcançar bons resultados em tarefas de classificação de texto. Experimentos foram realizados com o novo descritor de documentos textuais, chamado Semantic Bag of Textual Graphs, que considera o procedimento de enriquecimento semântico proposto. Os resultados obtidos confirmam os benefícios do uso de workflows na especificação e implementação de procedimentos de anotação e classificação de documentos textuais e apontam para resultados promissores na utilização de ontologias em determinados cenários de classificação deste tipo de documento
Ver menos
Abstract: Performing analytical tasks, such as clustering and classification, in collections of textual documents are the subject of constant study in several areas and especially in the area of Information Retrieval. Semantic enrichment is a typical way used to render a textual document description...
Ver mais
Abstract: Performing analytical tasks, such as clustering and classification, in collections of textual documents are the subject of constant study in several areas and especially in the area of Information Retrieval. Semantic enrichment is a typical way used to render a textual document description more representative, aiming at better results in text mining tasks. This work proposes a system of semantic enrichment of textual data that uses a model of document representation based on graphs. The system implementation is based on a workflow for performing machine learning tasks. A typical workflow of the framework is composed of (i) a graph extractor as a representation of the collection samples, (ii) an ontology-based graph semantic enrichment (e.g., WordNet Ontology), and (iii) a method of generating the text vector representation based on graphs to perform the classification of semantically enriched graphs. The components allow different customization procedures in order to determine suitable results in text classification tasks. Experiments were conducted with a novel descriptor, named Semantic Bag of Textual Graphs, which considers the proposed ontology-based semantic enrichment procedure. The results confirm the benefits of using workflows in the specification and implementation of annotation and classification procedures of textual documents and points out promising results in the use of ontology in certain classification scenarios of this kind of document
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Um arcabouço baseado em anotações para enriquecimento semântico de documentos textuais [recurso eletrônico]
Vandalis Giansante
Um arcabouço baseado em anotações para enriquecimento semântico de documentos textuais [recurso eletrônico]
Vandalis Giansante