Two-dimensional expressive speech animation = Animação 2D de fala expressiva

Paula Dornhofer Paro Costa

/

Voltar

Two-dimensional expressive speech animation = Animação 2D de fala expressiva

Paula Dornhofer Paro Costa

Material

TESE

Idioma

Multilíngua

Número de chamada

T/UNICAMP C823t

Título paralelo/equiv.

[Animação 2D de fala expressiva]

Publicação

Campinas, SP : [s.n.], 2015.

Descrição física

171 p. : il.

Nota geral

Orientador: José Mario De Martino

Nota de dissertação ou tese

Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação

Resumo

Resumo: O desenvolvimento da tecnologia de animação facial busca atender uma demanda crescente por aplicações envolvendo assistentes, vendedores, tutores e apresentadores de notícias virtuais; personagens realistas de videogames, agentes sociais e ferramentas para experimentos científicos em...

Resumo: O desenvolvimento da tecnologia de animação facial busca atender uma demanda crescente por aplicações envolvendo assistentes, vendedores, tutores e apresentadores de notícias virtuais; personagens realistas de videogames, agentes sociais e ferramentas para experimentos científicos em psicologia e ciências comportamentais. Um aspecto relevante e desafiador no desenvolvimento de cabeças falantes, ou "talking heads", é a reprodução realista dos movimentos articulatórios da fala combinados aos elementos de comunicação não-verbal e de expressão de emoções. Este trabalho presenta uma metodologia de síntese de animação facial baseada em imagens, ou animação facial 2D, que permite a reprodução de uma ampla gama de estados emocionais de fala expressiva, além de suportar a modulação de movimentos da cabeça e o controle de elementos faciais tais como o piscar de olhos e o arqueamento de sobrancelhas. A síntese da animação utiliza uma base de imagens-protótipo que são processadas para obtenção dos quadros-chave da animação. Os pesos utilizados para a combinação das imagens-protótipo são derivados de um modelo estatístico de aparência e formas, construído a partir de um conjunto de imagens de treinamento extraídas de um corpus audiovisual de uma face real. A síntese das poses-chave é guiada pela transcrição fonética temporizada da fala a ser animada e pela informação do estado emocional almejado. As poses-chave representam visemas dependentes de contexto fonético que implicitamente modelam os efeitos da coarticulação na fala visual. A transição entre poses-chave adjacentes é realizada por um algoritmo de metamorfose não-linear entre imagens. As animações sintetizadas aplicando-se a metodologia proposta foram avaliadas por meio de avaliação perceptual de reconhecimento de emoções. Dentre as contribuições deste trabalho encontra-se a construção de uma base de dados de vídeo e captura de movimento para fala expressiva em português do Brasil

Ver mais

Ver menos

Abstract: The facial animation technology experiences an increasing demand for applications involving virtual assistants, sellers, tutors and newscasters; lifelike game characters, social agents, and tools for scientific experiments in psychology and behavioral sciences. A relevant and challenging...

Abstract: The facial animation technology experiences an increasing demand for applications involving virtual assistants, sellers, tutors and newscasters; lifelike game characters, social agents, and tools for scientific experiments in psychology and behavioral sciences. A relevant and challenging aspect of the development of talking heads is the realistic reproduction of the speech articulatory movements combined with the elements of non-verbal communication and the expression of emotions. This work presents an image-based, or 2D, facial animation synthesis methodology that allows the reproduction of a wide range of expressive speech emotional states and also supports the modulation of head movements and the control of face elements, like the blinking of the eyes and the raising of the eyebrows. The synthesis of the animation uses a database of prototype images which are combined to produce animation keyframes. The weights used for combining the prototype images are derived from a statistical active appearance model (AAM), which is built from a set of sample images extracted from an audio-visual corpus of a real face. The generation of the animation keyframes is driven by the timed phonetic transcription of the speech to be animated and the desired emotional state. The keyposes consist of expressive context-dependent visemes that implicitly model the speech coarticulation effects. The transition between adjacent keyposes is performed through a non-linear image morphing algorithm. To evaluate the synthesized animations, a perceptual evaluation based on the recognition of emotions was performed. Among the contributions of the work is also the building of a database of expressive speech video and motion capture data for Brazilian Portuguese

Ver mais

Ver menos

Assuntos

Animação por computador

Computação - Processamento de imagens

Métodos estatísticos

Avatares

Autoria

Costa, Paula Dornhofer Paro, 1978-

De Martino, José Mário, 1958- Orientador

Raposo, Alberto Barbosa Avaliador

Musse, Soraia Raupp Avaliador

Magalhães, Léo Pini, 1952- Avaliador

Pedrini, Hélio, 1963- Avaliador

Universidade Estadual de Campinas (UNICAMP). Faculdade de Engenharia Elétrica e de Computação. Programa de Pós-Graduação em Engenharia Elétrica

Sites

DOI: https://doi.org/10.47749/T/UNICAMP.2015.945977

Arquivos

Texto completo pdf

Two-dimensional expressive speech animation = Animação 2D de fala expressiva

Paula Dornhofer Paro Costa

Two-dimensional expressive speech animation = Animação 2D de fala expressiva

Paula Dornhofer Paro Costa

Exemplares

Nº de exemplares: 2
Não existem reservas para esta obra

Exemplar	Tombo	Edição	Ano	Volume	Suporte	Nº de chamada	Biblioteca	Localização	Situação	QR Code
Tombo: 982422 Ano: 2015 Suporte: Impresso Nº de chamada: T/UNICAMP C823t Biblioteca : BAE Situação: Retido (Aguardando baixa patrimonial) Visualizar QR Code	982422		2015		Impresso	T/UNICAMP C823t	BAE		Retido (Aguardando baixa patrimonial)
Tombo: 982421 Ano: 2015 Suporte: Impresso Nº de chamada: T/UNICAMP C823t Biblioteca : BCCL Situação: Não circula Visualizar QR Code	982421		2015		Impresso	T/UNICAMP C823t	BCCL		Não circula

Voltar