Please use this identifier to cite or link to this item: http://repositorio.unicamp.br/jspui/handle/REPOSIP/304721
Type: TESE DIGITAL
Title: Metric learning for patent similarity = Aprendizado métrico para similaridade entre patentes
Title Alternative: Aprendizado métrico para similaridade entre patentes
Author: Fonseca Arroyo, Pablo Alejandro, 1987-
Advisor: Wainer, Jacques, 1958-
Abstract: Resumo: Hoje em dia, obter uma melhor visão de um campo de tecnologia é crucial para a estratégia nos negócios, na universidade e no governo. As patentes são uma fonte muito importante de informação ao respeito. A similaridade textual entre patentes é um dos tipos de similaridade em que os analistas de patentes estão interessados, a fim de melhor compreendê-las. As técnicas comuns para medir a similaridade entre documentos de texto incluem representações bag-of-words ou distribuições de tópicos não supervisionadas, em combinação com várias opções possíveis para distâncias. No entanto, estes métodos não incorporam a informação do domínio do conhecimento, que pode ser crucial para um corpus dificil como as patentes são. Nesta tese de mestrado, uma abordagem para a aprendizagem de similaridade entre patentes é apresentada. O método utiliza aprendizado métrico e aproveita parte do processo legal que as patentes passam antes de serem concedidas. Os resultados do método proposto foram comparados com distâncias padrão, não supervisionadas como KL-divergence, a distância do coseno e a distância euclidiana com a obtenção de resultados superiores e mais confiáveis

Abstract: Nowadays, gaining insight into a technology field is crucial for business, academy and government strategy. Patents are a great source of information in this regard. Textual patent similarity is one of the kinds of similarities in which patent analysts are interested in order to better understand them. Common techniques to measure similarity across text documents include bag-of-words representations or unsupervised topic distributions in combination with several possible options for distances. However, these methods do not incorporate information of the domain of knowledge, which might be crucial for approaching the challenging corpus patents are. In this master thesis, an approach for learning pairwise similarity between patents is presented. The method uses metric learning and takes advantage of some of the artifacts of the legal process patents undergo before being granted. The results of the proposed method were compared to standard, but unsupervised, distances (KL-Divergence, Cosine distance and Euclidean distance) obtaining superior and yet more trustful results
Subject: Mineração de dados (Computação)
Patentes
Inteligência artificial
Aprendizado de máquina
Language: Inglês
Editor: [s.n.]
Date Issue: 2015
Appears in Collections:IC - Tese e Dissertação

Files in This Item:
File SizeFormat 
FonsecaArroyo_PabloAlejandro_M.pdf752.64 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.