Metric learning for patent similarity = Aprendizado métrico para similaridade entre patentes
Pablo Alejandro Fonseca Arroyo
DISSERTAÇÃO
Inglês
T/UNICAMP F733m
[Aprendizado métrico para similaridade entre patentes]
Campinas, SP : [s.n.], 2015.
1 recurso online ( 38 p.) : il., digital, arquivo PDF.
Orientador: Jacques Wainer
Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação
Resumo: Hoje em dia, obter uma melhor visão de um campo de tecnologia é crucial para a estratégia nos negócios, na universidade e no governo. As patentes são uma fonte muito importante de informação ao respeito. A similaridade textual entre patentes é um dos tipos de similaridade em que os analistas...
Ver mais
Resumo: Hoje em dia, obter uma melhor visão de um campo de tecnologia é crucial para a estratégia nos negócios, na universidade e no governo. As patentes são uma fonte muito importante de informação ao respeito. A similaridade textual entre patentes é um dos tipos de similaridade em que os analistas de patentes estão interessados, a fim de melhor compreendê-las. As técnicas comuns para medir a similaridade entre documentos de texto incluem representações bag-of-words ou distribuições de tópicos não supervisionadas, em combinação com várias opções possíveis para distâncias. No entanto, estes métodos não incorporam a informação do domínio do conhecimento, que pode ser crucial para um corpus dificil como as patentes são. Nesta tese de mestrado, uma abordagem para a aprendizagem de similaridade entre patentes é apresentada. O método utiliza aprendizado métrico e aproveita parte do processo legal que as patentes passam antes de serem concedidas. Os resultados do método proposto foram comparados com distâncias padrão, não supervisionadas como KL-divergence, a distância do coseno e a distância euclidiana com a obtenção de resultados superiores e mais confiáveis
Ver menos
Abstract: Nowadays, gaining insight into a technology field is crucial for business, academy and government strategy. Patents are a great source of information in this regard. Textual patent similarity is one of the kinds of similarities in which patent analysts are interested in order to better...
Ver mais
Abstract: Nowadays, gaining insight into a technology field is crucial for business, academy and government strategy. Patents are a great source of information in this regard. Textual patent similarity is one of the kinds of similarities in which patent analysts are interested in order to better understand them. Common techniques to measure similarity across text documents include bag-of-words representations or unsupervised topic distributions in combination with several possible options for distances. However, these methods do not incorporate information of the domain of knowledge, which might be crucial for approaching the challenging corpus patents are. In this master thesis, an approach for learning pairwise similarity between patents is presented. The method uses metric learning and takes advantage of some of the artifacts of the legal process patents undergo before being granted. The results of the proposed method were compared to standard, but unsupervised, distances (KL-Divergence, Cosine distance and Euclidean distance) obtaining superior and yet more trustful results
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Aberto
Metric learning for patent similarity = Aprendizado métrico para similaridade entre patentes
Pablo Alejandro Fonseca Arroyo
Metric learning for patent similarity = Aprendizado métrico para similaridade entre patentes
Pablo Alejandro Fonseca Arroyo