Please use this identifier to cite or link to this item: http://repositorio.unicamp.br/jspui/handle/REPOSIP/275497
Type: TESE
Title: Uma abordagem baseada em realimentação de relevância para o problema da desambiguação de nome de autores
Title Alternative: A relevance feedback approach for the author name disambiguation problem
Author: Godoi, Thiago Anzolin de, 1989-
Advisor: Carvalho, Ariadne Maria Brito Rizzoni, 1958-
Abstract: Resumo: Este trabalho apresenta um novo método semiautomático para desambiguação de nomes que explora a utilização de iterações com realimentação de relevância. Uma etapa não supervisionada é utilizada para definir exemplos puros para o treinamento, e uma etapa híbrida supervisionada é empregada para aprender a função de classificação que irá atribuir autores a referências. O modelo combina um classificador por floresta de caminhos ótimos (OPF - Optimum-Path Forest) com uma função de similaridade complexa gerada por um algoritmo de Programação Genética (PG). As principais contribuições deste trabalho são: (i) proposta de um novo método para desambiguação de nomes de autores; (ii) avaliação em uma nova aplicação, da combinação entre os algoritmos OPF e PG, também conhecida como GOPF (Genetic Programming e Optimum-Path Forest), incrementada por uma etapa de realimentação de relevância; (iii) avaliação do algoritmo do GOPF em um problema de classificação multiclasse; e (iv) adaptação do algoritmo do GOPF para lidar com problemas de classificação de conjunto aberto, isto é, que não possuem todas as classes definidas previamente. O método proposto foi validado em duas coleções tradicionais muito utilizadas para avaliação de métodos de desambiguação de nomes de autores. A primeira é a coleção extraída da DBLP e que possui 4.287 referências associadas a 220 autores distintos; a segunda é chamada de KISTI, gerada pelo Korea Institute of Science Technology Information, e que contém os primeiros 1000 autores mais frequentes na versão do banco de dados da DBLP no final de 2007. Após 5 iterações de realimentação do usuário, nossa abordagem atingiu os melhores resultados para a desambiguação de nomes de autores quando comparado com os outros métodos existentes que utilizam somente as informações básicas da referência

Abstract: This work presents a new name disambiguation method that exploits user feedback on ambiguous references across iterations. An unsupervised step is used to define pure training samples, and a hybrid supervised step is employed to learn a classification model for assigning references to authors. Our disambiguation method combines the Optimum-Path Forest (OPF) classifier with complex reference similarity functions generated by a Genetic Programming (GP) framework. The main contributions of this work are: (i) proposal of a novel author name desambiguation method; (ii) evaluation in a new application of the combination between GP and OPF algorithms, also known as GOPF, in interaction learning systems; (iii) evaluation of the GOPF algorithm in a multi-class classification problem; and (iv) extension of the GOPF algorithm to handle open-set classification problems, i.e., classification problems in which class samples are not known in advance. The proposed method was validated with two traditional databases largely used for the evaluation of author name disambiguation methods: one is a collection extracted from DBLP which sums up 4,287 references associated with 220 distinct authors; the other is called KISTI and was built by the Korea Institute of Science and Technology Information; it contains the top 1000 most frequent author names from the late-2007 DBLP database. After 5 iterations of relevance feedback, our approach yielded the best results for author name disambiguation when compared with the state-of-the-art methods that just consider basic reference information, such as author names, publication title, and venue title
Subject: Programação genética (Computação)
Reconhecimento de padrões
Sistemas de recuperação da informação
Editor: [s.n.]
Date Issue: 2013
Appears in Collections:IC - Tese e Dissertação

Files in This Item:
File SizeFormat 
Godoi_ThiagoAnzolinde_M.pdf1.74 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.