Please use this identifier to cite or link to this item: http://repositorio.unicamp.br/jspui/handle/REPOSIP/275492
Type: TESE
Title: Searching for people through textual and visual attributes = Busca de pessoas a partir de atributos visuais e textuais
Title Alternative: Busca de pessoas a partir de atributos visuais e textuais
Author: Fabián Arteaga, Junior John, 1987-
Advisor: Rocha, Anderson de Rezende, 1980-
Abstract: Resumo: Utilizar características pessoais para procurar pessoas é fundamental em diversas áreas de aplicação e nos últimos anos tem atraído uma atenção crescente por parte da comunidade científica com aplicações no campo da forense digital e vigilância tais como: localização de suspeitos ou de pessoas desaparecidas em espaços públicos. Neste trabalho, objetivamos utilizar atributos visuais descritíveis (por exemplo, homens brancos com bochechas em destaque usando óculos e com franja) como rótulos nas imagens para descrever sua aparência e, dessa forma, realizar buscas visuais por conteúdo sem depender de anotações nas imagens durante os testes. Para isso, criamos representações robustas para imagens de faces baseadas em dicionários visuais, vinculando as propriedades visuais das imagens aos atributos descritíveis. Primeiro, propomos duas abordagens de caracterização das imagens, uma de escala única e outra de múltiplas escalas para resolver consultas simples (somente um atributo). Em ambos os métodos, obtemos as características de baixo nível das imagens utilizando amostragens esparsas ou densas. Em seguida, selecionamos as características de maior repetibilidade para a criação de representações de médio nível baseadas em dicionários visuais. Posteriormente, treinamos classificadores binários para cada atributo visual os quais atribuem, para cada imagem, uma pontuação de decisão utilizada para obter sua classificação. Também propomos diferentes formas de fusão para o método de descrição de múltiplas escalas. Para consultas mais complexas (mais de dois atributos), avaliamos três abordagens presentes na literatura para combinar ordens (rankings): produto de probabilidades, rank aggregation e rank position. Além disso, propomos uma extensão do método de combinação baseado em rank aggregation para levar em conta informações complementares produzidas pelos diferentes métodos. Consideramos quinze classificadores de atributos e, consequentemente, seus negativos, permitindo, teoricamente, 32 768 diferentes consultas combinadas. Os experimentos mostram que a abordagem de descrição em múltiplas escalas melhora a precisão de recuperação para a maior parte dos atributos em comparação com outros métodos. Finalmente, para consultas mais complexas, a abordagem de descrição em múltiplas escalas em conjunto com versão estendida do rank aggregation melhoram a precisão em comparação com outros métodos de fusão como o produto de probabilidades e o rank positionUtilizar características pessoais para procurar pessoas é fundamental em diversas áreas de aplicação e nos últimos anos tem atraído uma atenção crescente por parte da comunidade científica com aplicações no campo da forense digital e vigilância tais como: localização de suspeitos ou de pessoas desaparecidas em espaços públicos. Neste trabalho, objetivamos utilizar atributos visuais descritíveis (por exemplo, homens brancos com bochechas em destaque usando óculos e com franja) como rótulos nas imagens para descrever sua aparência e, dessa forma, realizar buscas visuais por conteúdo sem depender de anotações nas imagens durante os testes. Para isso, criamos representações robustas para imagens de faces baseadas em dicionários visuais, vinculando as propriedades visuais das imagens aos atributos descritíveis. Primeiro, propomos duas abordagens de caracterização das imagens, uma de escala única e outra de múltiplas escalas para resolver consultas simples (somente um atributo). Em ambos os métodos, obtemos as características de baixo nível das imagens utilizando amostragens esparsas ou densas. Em seguida, selecionamos as características de maior repetibilidade para a criação de representações de médio nível baseadas em dicionários visuais. Posteriormente, treinamos classificadores binários para cada atributo visual os quais atribuem, para cada imagem, uma pontuação de decisão utilizada para obter sua classificação. Também propomos diferentes formas de fusão para o método de descrição de múltiplas escalas. Para consultas mais complexas (mais de dois atributos), avaliamos três abordagens presentes na literatura para combinar ordens (rankings): produto de probabilidades, rank aggregation e rank position. Além disso, propomos uma extensão do método de combinação baseado em rank aggregation para levar em conta informações complementares produzidas pelos diferentes métodos. Consideramos quinze classificadores de atributos e, consequentemente, seus negativos, permitindo, teoricamente, 32 768 diferentes consultas combinadas. Os experimentos mostram que a abordagem de descrição em múltiplas escalas melhora a precisão de recuperação para a maior parte dos atributos em comparação com outros métodos. Finalmente, para consultas mais complexas, a abordagem de descrição em múltiplas escalas em conjunto com versão estendida do rank aggregation melhoram a precisão em comparação com outros métodos de fusão como o produto de probabilidades e o rank position

Abstract: Using personal traits for searching people is paramount in several application areas and has attracted an ever-growing attention from the scientific community over the past years. Some practical applications in the realm of digital forensics and surveillance include locating a suspect or finding missing people in a public space. In this work, we aim at assigning describable visual attributes (e.g., white chubby male wearing glasses and with bangs) as labels to images to describe their appearance and performing visual searches without relying on image annotations during testing. For that, we create mid-level image representations for face images based on visual dictionaries linking visual properties in the images to describable attributes. First, we propose one single-level and one multilevel approaches to solve simple queries (queries containing only one attribute). For both methods, the first step consists of obtaining image low-level features either using a sparse or a dense-sampling scheme. The characterization is followed by the visual dictionary creation step in which we assess both a random selection and a clustering algorithm for selecting the most important features collected in the first stage. Such features then feed 2-class classifiers for the describable visual attributes of interest which assign to each image a decision score used to obtain its ranking. As the multi-level image characterization involves combining the answers of different levels, we also propose some fusion methods in this regard. For more complex queries (2+ attributes), we use three state-of-the-art approaches for combining the rankings: product of probabilities, rank aggregation and rank position. We also extend upon the rank aggregation method in order to take advantage of complementary information produced by the different characterization schemes. We have considered fifteen attribute classifiers and, consequently, their direct counterparts theoretically allowing 32 768 different combined queries (the actual number is smaller since some attributes are contradictory or mutually exclusive). Experimental results show that the multilevel approach improves retrieval precision for most of the attributes in comparison with other methods. Finally, for combined attributes, the multilevel characterization approach along with the modified rank aggregation scheme boosts the precision performance when compared to other methods such as product of probabilities and rank position
Subject: Imagens - Recuperação
Recuperação da informação
Reconhecimento de padrões
Análise de imagem
Imagens digitais - Pesquisa
Language: Inglês
Editor: [s.n.]
Date Issue: 2013
Appears in Collections:IC - Tese e Dissertação

Files in This Item:
File SizeFormat 
FabianArteaga_JuniorJohn_M.pdf4.93 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.