Speech-modulated typography = Tipografia modulada pela fala

Caluã de Lacerda Pataca

Speech-modulated typography = Tipografia modulada pela fala

Caluã de Lacerda Pataca

Material

DISSERTAÇÃO

Idioma

Inglês

Número de chamada

T/UNICAMP P27s

Título paralelo/equiv.

[Tipografia modulada pela fala]

Publicação

Campinas, SP : [s.n.], 2021.

Descrição física

1 recurso online (115 p.) : il., digital, arquivo PDF.

Nota geral

Orientador: Paula Dornhofer Paro Costa

Nota de dissertação ou tese

Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação

Resumo

Resumo: A voz humana é rica em maneiras que a palavra escrita dificilmente consegue capturar. A fala pode ser transcrita mas, tipicamente, a escrita captura de maneira monótona aquilo que, na voz, é expressivo. Ainda que em muitos casos essa tradução "simplificada" entre meios não aparenta trazer em... Ver mais

Resumo: A voz humana é rica em maneiras que a palavra escrita dificilmente consegue capturar. A fala pode ser transcrita mas, tipicamente, a escrita captura de maneira monótona aquilo que, na voz, é expressivo. Ainda que em muitos casos essa tradução "simplificada" entre meios não aparenta trazer em si problemas para leitores, a modulação tipográfica da escrita é uma ferramenta tecnológica capaz de apoiar os casos onde essa lacuna entre expressão na voz e monotonia na tipografia de fato imponha desafios aos leitores. Esses casos são variados, e podem incluir crianças que penam para tornar-se leitoras fluentes, imigrantes que não conseguem discernir os sons escritos em uma língua estrangeira, espectadores surdos para quem as nuances afetivas de um filme se perdem na maneira com que as closed-captions achatam as variações vocais, etc. Nesse contexto, o presente trabalho propõe um modelo inédito de modulação da tipografia a partir do processamento do sinal acústico da fala junto à transcrição temporalizada de suas sílabas. Nisso, são usadas medidas prosódicas como amplitude, pitch, e duração silábica para modular visualmente atributos tipográficos como espessura de fonte, deslocamento vertical na linha de base, letter-spacing, etc. Este documento descreve o processo de investigação e desenvolvimento desse modelo de tradução audiovisual, apresentando os resultados de três experimentos perceptuais. No primeiro experimento, avaliou-se uma versão do modelo inspirada em uma revisão de trabalhos semelhantes de outros autores. Resultados pouco claros apontaram a complexidade do problema e indicaram a necessidade de dissecar o modelo em suas partes constituintes. O segundo experimento explorou as preferências fortes por associações específicas entre certas medidas acústicas e modulações tipográficas. Os resultados desse experimento foram utilizados para desenvolver um novo modelo de tradução audiovisual, que foi avaliado em um terceiro experimento. Nesse experimento, os participantes foram capazes de identificar a expressividade na fala em 65% de suas tentativas. Esse modelo apresentou resultados robustos o suficiente para que possa ser usado no desenvolvimento e pesquisa de aplicações baseadas em cenários reais, e seu forte desempenho pode servir como uma linha de base contra a qual futuros modelos possam ser comparados Ver menos

Abstract: The human voice is rich in ways the written word struggles to capture. Yes, speech can be transcribed, lifelessly representing in letters what is expressive while in sound. If in many cases this "simplified" translation between mediums is not an issue for readers, typographic modulation of... Ver mais

Abstract: The human voice is rich in ways the written word struggles to capture. Yes, speech can be transcribed, lifelessly representing in letters what is expressive while in sound. If in many cases this "simplified" translation between mediums is not an issue for readers, typographic modulation of writing is a technological tool able to support those cases where these gaps between how expressive speech is versus how flat typography renders it indeed present challenges to readers. These cases include children struggling to become fluent readers, immigrants unable to discern the written sounds of a foreign language, deaf viewers for whom emotional nuance in movies is lost by how flatly closed-captions render speech, etc. In this context, our work proposes a new model for modulating typography based on the processing of acoustic measures in speech with the timed transcription of its syllables. We use prosodic features such as syllabic amplitude, pitch, and duration to visually modulate typographic attributes such as font-weight, baseline shift, letter-spacing, etc. In this work, we describe how we investigated and developed this audio-visual translation model, presenting the results of three perceptual experiments. In the first, we evaluated a version of the model inspired by a review of similar works from other authors. Unclear results painted the design-space as more complex than originally envisioned, showing a need for dissecting the model in its constituent parts. We did so in experiment #2, where strong preferences emerged for specific matches between acoustic measures and typographic modulations. We used these as inputs for a novel audio-visual translation model, which we evaluated in a third experiment. The new model allowed participants to discriminate between similarly sounding utterances, which they did in 65% of their attempts. This model showed robust enough results for it to be used in the development and research of real-world applications, and its performance can serve as a baseline with which to compare future models Ver menos

Nota de sistema

Requisitos do sistema: Software para leitura de arquivo em PDF

Direito de acesso

Aberto

Assuntos

Tipografia

Comunicação audiovisual

Interação humano-máquina

Design centrado no usuário

Interfaces de usuário (Sistema de computador)

Prosódia (Linguística)

Emoções

Autoria

Pataca, Caluã de Lacerda, 1984 Autor

Costa, Paula Dornhofer Paro, 1978- Orientador

Farias, Priscila Lena Avaliador

Tavares, Tiago Fernandes, 1984- Avaliador

Universidade Estadual de Campinas (UNICAMP). Faculdade de Engenharia Elétrica e de Computação. Programa de Pós-Graduação em Engenharia Elétrica

Arquivos

Pataca_CaluaDeLacerda_M pdf

Speech-modulated typography = Tipografia modulada pela fala

Caluã de Lacerda Pataca

Speech-modulated typography = Tipografia modulada pela fala

Caluã de Lacerda Pataca

Terminal de consulta web

Speech-modulated typography = Tipografia modulada pela fala

Speech-modulated typography = Tipografia modulada pela fala

Speech-modulated typography = Tipografia modulada pela fala