Speech-modulated typography [recurso eletrônico] = Tipografia modulada pela fala
DISSERTAÇÃO
Inglês
T/UNICAMP P27s
[Tipografia modulada pela fala]
Campinas, SP : [s.n.], 2021.
1 recurso online (115 p.) : il., digital, arquivo PDF.
Orientador: Paula Dornhofer Paro Costa
Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação
Resumo: A voz humana é rica em maneiras que a palavra escrita dificilmente consegue capturar. A fala pode ser transcrita mas, tipicamente, a escrita captura de maneira monótona aquilo que, na voz, é expressivo. Ainda que em muitos casos essa tradução "simplificada" entre meios não aparenta trazer em...
Resumo: A voz humana é rica em maneiras que a palavra escrita dificilmente consegue capturar. A fala pode ser transcrita mas, tipicamente, a escrita captura de maneira monótona aquilo que, na voz, é expressivo. Ainda que em muitos casos essa tradução "simplificada" entre meios não aparenta trazer em si problemas para leitores, a modulação tipográfica da escrita é uma ferramenta tecnológica capaz de apoiar os casos onde essa lacuna entre expressão na voz e monotonia na tipografia de fato imponha desafios aos leitores. Esses casos são variados, e podem incluir crianças que penam para tornar-se leitoras fluentes, imigrantes que não conseguem discernir os sons escritos em uma língua estrangeira, espectadores surdos para quem as nuances afetivas de um filme se perdem na maneira com que as closed-captions achatam as variações vocais, etc. Nesse contexto, o presente trabalho propõe um modelo inédito de modulação da tipografia a partir do processamento do sinal acústico da fala junto à transcrição temporalizada de suas sílabas. Nisso, são usadas medidas prosódicas como amplitude, pitch, e duração silábica para modular visualmente atributos tipográficos como espessura de fonte, deslocamento vertical na linha de base, letter-spacing, etc. Este documento descreve o processo de investigação e desenvolvimento desse modelo de tradução audiovisual, apresentando os resultados de três experimentos perceptuais. No primeiro experimento, avaliou-se uma versão do modelo inspirada em uma revisão de trabalhos semelhantes de outros autores. Resultados pouco claros apontaram a complexidade do problema e indicaram a necessidade de dissecar o modelo em suas partes constituintes. O segundo experimento explorou as preferências fortes por associações específicas entre certas medidas acústicas e modulações tipográficas. Os resultados desse experimento foram utilizados para desenvolver um novo modelo de tradução audiovisual, que foi avaliado em um terceiro experimento. Nesse experimento, os participantes foram capazes de identificar a expressividade na fala em 65% de suas tentativas. Esse modelo apresentou resultados robustos o suficiente para que possa ser usado no desenvolvimento e pesquisa de aplicações baseadas em cenários reais, e seu forte desempenho pode servir como uma linha de base contra a qual futuros modelos possam ser comparados
Abstract: The human voice is rich in ways the written word struggles to capture. Yes, speech can be transcribed, lifelessly representing in letters what is expressive while in sound. If in many cases this "simplified" translation between mediums is not an issue for readers, typographic modulation of...
Abstract: The human voice is rich in ways the written word struggles to capture. Yes, speech can be transcribed, lifelessly representing in letters what is expressive while in sound. If in many cases this "simplified" translation between mediums is not an issue for readers, typographic modulation of writing is a technological tool able to support those cases where these gaps between how expressive speech is versus how flat typography renders it indeed present challenges to readers. These cases include children struggling to become fluent readers, immigrants unable to discern the written sounds of a foreign language, deaf viewers for whom emotional nuance in movies is lost by how flatly closed-captions render speech, etc. In this context, our work proposes a new model for modulating typography based on the processing of acoustic measures in speech with the timed transcription of its syllables. We use prosodic features such as syllabic amplitude, pitch, and duration to visually modulate typographic attributes such as font-weight, baseline shift, letter-spacing, etc. In this work, we describe how we investigated and developed this audio-visual translation model, presenting the results of three perceptual experiments. In the first, we evaluated a version of the model inspired by a review of similar works from other authors. Unclear results painted the design-space as more complex than originally envisioned, showing a need for dissecting the model in its constituent parts. We did so in experiment #2, where strong preferences emerged for specific matches between acoustic measures and typographic modulations. We used these as inputs for a novel audio-visual translation model, which we evaluated in a third experiment. The new model allowed participants to discriminate between similarly sounding utterances, which they did in 65% of their attempts. This model showed robust enough results for it to be used in the development and research of real-world applications, and its performance can serve as a baseline with which to compare future models
Requisitos do sistema: Software para leitura de arquivo em PDF