Please use this identifier to cite or link to this item: http://repositorio.unicamp.br/jspui/handle/REPOSIP/351150
Type: DISSERTAÇÃO DIGITAL
Degree Level: Mestrado
Title: A generative adversarial network approach to visual expressive speech synthesis with emotion control : Abordagem por rede generativa adversária para síntese de discurso visual expressivo com controle de emoção
Title Alternative: Abordagem por rede generativa adversária para síntese de discurso visual expressivo com controle de emoção
Author: Reis, Filipe Antonio de Barros, 1990-
Advisor: Costa, Paula Dornhofer Paro, 1978-
Abstract: Resumo: As áreas de computação gráfica e interação humano-computador evoluíram significativamente ao longo da última década, mudando a maneira como nossa sociedade interage com a tecnologia. A interação com computadores e outros dispositivos tem evoluído de interfaces do tipo WIMP (Windows, Icons, Menus, Pointer) para paradigmas mais naturais e similares às interações humanas, tais como a comunicação face-a-face. Essa mudança está muito relacionada aos avanços nas tecnologias de reconhecimento de fala, síntese de texto em fala e processamento de linguagem natural. Tais avanços alavancaram, por exemplo, o surgimento de assistentes virtuais cada vez mais capazes de proporcionarem uma experiência de comunicação natural. No entanto, tais assistentes ainda não possuem uma face. A fala visual é naturalmente multimodal, incluindo componentes verbais (movimentos articulatórios da fala) e não-verbais. Em particular, as expressões não-verbais enriquecem a comunicação e frequentemente influenciam os movimentos articulatórios da fala indicando, por exemplo, se uma frase é uma questão ou afirmação e fornecendo pistas sobre as emoções que acompanham a fala. Pela complexidade das expressões envolvidas na fala acompanhada de expressividade, a criação de cabeças falantes realistas, ou "talking-heads", é uma tarefa desafiadora. Este trabalho apresenta uma metodologia de síntese de animação de fala acompanhada de emoção, resultando numa "talking-head" videorrealista. O sistema utiliza uma rede generativa adversária, do inglês Generative Adversarial Network (GAN), para sintetizar a parte visual da fala com emoção, utilizando como entrada uma sequência de pontos chave da face. A rede contém estruturas dedicadas para garantir que as expressões faciais geradas estejam de acordo com a emoção desejada. Para avaliar o trabalho, foram utilizadas métricas objetivas e resultados de um estudo subjetivo perceptual baseado no reconhecimento de expressões faciais associadas a emoções, além de um teste de preferência entre diferentes métodos de síntese. Os resultados demonstram que nossa metodologia é capaz de incorporar expressões faciais de uma emoção alvo à animação facial, mantendo um alto nível de videorrealismo

Abstract: Computer Graphics and Human-Computer Interaction have significantly evolved over the past decade, changing how our society interacts with technology. The interaction with computers and connected electronic devices is shifting from WIMP (Windows, Icons, Menus, Pointer) interfaces to more natural human-like experiences. This shift is heavily related to the advances in speech recognition, text-to-speech synthesis, and natural language processing systems that enabled, for example, the advent of sophisticated virtual assistants that communicate naturally in a variety of situations. However, these assistants still do not have a face. Visual speech communication is naturally multimodal and contains both verbal and non-verbal components. Speech articulatory movements can be modified or modulated by the expression of emotions and other non-verbal communication mechanisms. For this reason, the synthesis of realistic talking-heads and the proper reproduction of facial expressions and speech articulatory movements is a challenging task. This work presents an expressive visual speech synthesis methodology that produces videorealistic results for a talking head's speech. The system adopts a Generative Adversarial Network synthesis approach to produce expressive visual speech using a sequence of facial keypoints as input. The network contains dedicated structures to ensure that the facial expressions match the expressions expected of a given target emotion. To evaluate the work, we analyzed objective metrics and the results of a subjective perceptual study based on the recognition of facial expressions associated with emotions, in addition to a preference test between different synthesis methods. The results demonstrate that our methodology is capable of incorporating facial expressions of a target emotion into visual speech animation, maintaining a high level of videorealism
Subject: Expressão facial - Simulação por computador
Animação por computador
Computação gráfica
Aprendizado de máquina
Language: Multilíngua
Editor: [s.n.]
Citation: REIS, Filipe Antonio de Barros. A generative adversarial network approach to visual expressive speech synthesis with emotion control : Abordagem por rede generativa adversária para síntese de discurso visual expressivo com controle de emoção. 2020. 1 recurso online ( 82 p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, SP.
Date Issue: 2020
Appears in Collections:FEEC - Tese e Dissertação

Files in This Item:
File SizeFormat 
Reis_FilipeAntonioDeBarros_M.pdf8.3 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.