Scene text localization using lightweight convolutional networks = Localização de textos em imagens de cena utilizando redes convolucionais leves
Luís Gustavo Lorgus Decker
DISSERTAÇÃO
Inglês
T/UNICAMP D357s
[Localização de textos em imagens de cena utilizando redes convolucionais leves]
Campinas, SP : [s.n.], 2020.
1 recurso online (54 p.) : il., digital, arquivo PDF.
Orientadores: Ricardo da Silva Torres, Allan da Silva Pinto
Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação
Resumo: Múltiplas frentes de pesquisa reportaram resultados altamente eficientes para o problema de detecção de texto, que consiste no desafio de detectar em uma imagem digital a posição de variados elementos textuais, como palavras e frases. Porém, muitas destas soluções são custosas, o que...
Ver mais
Resumo: Múltiplas frentes de pesquisa reportaram resultados altamente eficientes para o problema de detecção de texto, que consiste no desafio de detectar em uma imagem digital a posição de variados elementos textuais, como palavras e frases. Porém, muitas destas soluções são custosas, o que restringe o uso das mesmas em várias aplicações que dependem de dispositivos com capacidade computacional restrita, como relógios inteligentes e celulares. A localização de texto é um passo importante para várias aplicações importantes que podemser executadas em ambientes embarcados, como tradução de textos e auxílio a deficientes visuais. Neste trabalho, tratamos deste problema a partir da investigação da possibilidade do uso de redes neurais eficientes usualmente empregadas para detecção de objetos. Propusemos a junção de duas arquiteturas leves,MobilenetV2 e Single Shot Detector (SSD) em nossa proposta nomeada MobText para resolver o problema da detecção de texto. Resultados experimentais nos conjuntos de dados ICDAR¿11 e ICDAR¿13 demonstram que nossa proposta está associada a bons resultados tanto em termos de eficácia quanto de eficiência. Em especial, o método proposto obteve resultados estado-da-arte no conjunto de dados ICDAR¿11, com f-measure de 96,09%, mantendo um tempo de processamento médio de 464 ms em um ambiente de processamento restritivo. Uma outra contribuição do trabalho consistiu na proposta de uma ferramenta para automatizar o processo de avaliação de métodos de detecção e reconhecimento de textos em imagens de cena
Ver menos
Abstract: Multiple research initiatives have been reported to yield highly effective results for the text detection problem, which consists of the challenge of detecting in a digital image if there is a textual element, like a word or a phrase. However, most of those solutions are very costly, thus...
Ver mais
Abstract: Multiple research initiatives have been reported to yield highly effective results for the text detection problem, which consists of the challenge of detecting in a digital image if there is a textual element, like a word or a phrase. However, most of those solutions are very costly, thus hampering their use in several applications that rely on the use of devices with restricted processing power, like smartwatches and mobile phones. The text localization is an important step on very widely-used applications that can be executed on mobile environments, like on-the-go translations and recognition of text for the visually impaired. In this work, we address this issue by investigating the use of efficient object detection networks for this problem. We propose the combination of two light architectures, MobileNetV2 and Single Shot Detector (SSD), into our proposal MobText for the text detection problem. Experimental results in the ICDAR¿11 and ICDAR¿13datasets demonstrate that our solution yields the best trade-off between effectiveness and efficiency in terms of processing time, and also achieved the state-of-the-art results in theICDAR¿11 dataset with an f-measure of 96.09%and an average processing time of 464 ms on a restricted processing device. Another contribution of this work relies on the proposal of an evaluation tool to support the assessment of text localization and recognition methods
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Aberto
Torres, Ricardo da Silva, 1977-
Orientador
Pinto, Allan da Silva, 1984-
Coorientador
Minetto, Rodrigo, 1983-
Avaliador
Cirne, Marcos Vinicius Mussel, 1987-
Avaliador
Scene text localization using lightweight convolutional networks = Localização de textos em imagens de cena utilizando redes convolucionais leves
Luís Gustavo Lorgus Decker
Scene text localization using lightweight convolutional networks = Localização de textos em imagens de cena utilizando redes convolucionais leves
Luís Gustavo Lorgus Decker