Cross-dataset emotion recognition from facial expressions through convolutional neural networks [recurso eletrônico] = Reconhecimento de emoções a partir de expressões faciais em conjunto de dados cruzados através de redes neurais convolucionais
William Marques Dias
DISSERTAÇÃO
Português
T/UNICAMP D543c
[Reconhecimento de emoções a partir de expressões faciais em conjunto de dados cruzados através de redes neurais convolucionais]
Campinas, SP : [s.n.], 2020.
1 recurso online (80 p.) : il., digital, arquivo PDF.
Orientador: Anderson de Rezende Rocha
Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação
Resumo: O rosto é a janela da alma. É o que pensava o médico francês do século XIX, Duchenne de Boulogne. Usando choques elétricos para estimular contrações musculares e induzir expressões de aparência assustadora e bizarra, ele queria entender como os músculos produzem expressões faciais e, assim,...
Ver mais
Resumo: O rosto é a janela da alma. É o que pensava o médico francês do século XIX, Duchenne de Boulogne. Usando choques elétricos para estimular contrações musculares e induzir expressões de aparência assustadora e bizarra, ele queria entender como os músculos produzem expressões faciais e, assim, revelar as emoções mais ocultas do ser humano. Passados dois séculos, esse campo de pesquisa continua muito ativo, despertando o interesse de diversos segmentos da indústria. Vemos sistemas automáticos de reconhecimento de emoção e expressão facial sendo aplicados na medicina, em sistemas de segurança e vigilância, em propaganda e \emph{marketing}, entre outros. Mas, apesar de sua ampla adoção, ainda existem questões fundamentais que os cientistas estão tentando responder quando analisamos o estado emocional de uma pessoa a partir de suas expressões faciais. É possível inferir, com segurança, o estado interno de alguém baseando-se apenas nos movimentos de seus músculos faciais? Existe uma configuração facial universal para expressar raiva, repulsa, medo, felicidade, tristeza e surpresa, comumente chamadas de emoções básicas? Nesta pesquisa, tentamos responder a essas questões explorando redes neurais convolucionais. Diferentemente da maioria dos estudos disponíveis na literatura, estamos particularmente interessados em examinar se as características aprendidas em um grupo de pessoas podem ser empregadas para prever, com sucesso, as emoções de outro. Nesse sentido, adotamos um protocolo de avaliação em conjunto de dados cruzados para mensurar o desempenho dos métodos propostos. Nosso método de base foi construído a partir do ajuste fino de um modelo originalmente empregado no problema de reconhecimento facial para o problema de categorização de emoções. Em seguida, aplicamos técnicas de visualização de dados para entender o que nossa rede de base havia aprendido para, então, derivarmos três outros métodos. O primeiro método visa direcionar a atenção da rede para regiões da face consideradas importantes na literatura, mas ignoradas pelo nosso modelo inicial, usando uma arquitetura multi-ramificada para uma abordagem baseada em partes. No segundo método, simplificamos essa arquitetura e trabalhamos nos dados de entrada, ocultando partes aleatórias da imagem facial, de modo que a rede pudesse aprender características discriminativas em diferentes regiões. No terceiro método, exploramos uma função de perda que gera representações de dados em espaços de alta dimensão, de forma que exemplos de uma mesma classe de emoção fiquem próximos e exemplos de classes diferentes fiquem distantes. Finalmente, investigamos a complementaridade entre dois de nossos métodos, propondo uma técnica de fusão tardia que combina seus resultados por meio da multiplicação de probabilidades. Para efeito de comparação de nossos resultados, compilamos uma extensa lista de trabalhos avaliados nos mesmos conjuntos de dados escolhidos. Em todos eles, quando comparados a trabalhos que seguiram um protocolo de avaliação em um único conjunto de dados, nossos métodos apresentam números competitivos. Já sob um protocolo de conjunto de dados cruzados, obtivemos resultados do estado da arte, superando até mesmo aplicações comerciais de grande empresas de tecnologia
Ver menos
Abstract: The face is the window to the soul. This is what the 19th-century French doctor, Duchenne de Boulogne, thought. Using electric shocks to stimulate muscular contractions and induce creepy and bizarre-looking expressions, he wanted to understand how muscles produce facial expressions and,...
Ver mais
Abstract: The face is the window to the soul. This is what the 19th-century French doctor, Duchenne de Boulogne, thought. Using electric shocks to stimulate muscular contractions and induce creepy and bizarre-looking expressions, he wanted to understand how muscles produce facial expressions and, thus, reveal the most hidden human emotions. Two centuries later, this research field remains very active, arousing the interest of several segments of the industry. We see automatic systems for recognizing emotion and facial expression being applied in medicine, in security and surveillance systems, in advertising and marketing, among others. But despite its widespread adoption, there are still fundamental questions that scientists are trying to answer when analyzing a person's emotional state from their facial expressions. Is it possible to reliably infer someone's internal state based only on the movements of their facial muscles? Is there a universal facial setting to express anger, disgust, fear, happiness, sadness, and surprise, commonly referred to as basic emotions? In this research, we seek to address some of these questions through convolutional neural networks. Unlike most studies in prior art, we are particularly interested in examining whether characteristics learned in one group of people can be generalized to successfully predict the emotions of another. In this sense, we adopted a cross-dataset evaluation protocol to assess the performance of the proposed methods. Our baseline method was created by custom-tailoring a model originally used in the problem of face recognition to the problem of emotion categorization. Next, we applied data visualization techniques to account for what our baseline model had learned in order to, then, derive three other methods. The first method aims to direct the network's attention to regions of the face considered important in the literature but ignored by our baseline model, using a multi-branched network architecture for a parts-based approach. In the second method, we simplified this architecture and worked on the input data, hiding random parts of the facial image, so that the network could learn discriminative characteristics in different regions. In the third method, we explored a loss function that generates representations of data in high-dimensional spaces, so that examples of the same emotion class are close and examples of different classes are distant. Finally, we investigated the complementarity between two of our methods, proposing a late-fusion technique that combines their outputs through the multiplication of probabilities. To compare our results, we have compiled an extensive list of works evaluated in the same adopted datasets. In all of them, when compared to works that followed an intra-dataset protocol, our methods present competitive numbers. Under a cross-dataset protocol, we achieved state-of-the-art results, outperforming even commercial off-the-shelf solutions from well-known tech companies
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Cross-dataset emotion recognition from facial expressions through convolutional neural networks [recurso eletrônico] = Reconhecimento de emoções a partir de expressões faciais em conjunto de dados cruzados através de redes neurais convolucionais
William Marques Dias
Cross-dataset emotion recognition from facial expressions through convolutional neural networks [recurso eletrônico] = Reconhecimento de emoções a partir de expressões faciais em conjunto de dados cruzados através de redes neurais convolucionais
William Marques Dias