Scene text localization using lightweight convolutional networks = Localização de textos em imagens de cena utilizando redes convolucionais leves

Luis Gustavo Lorgus Decker

Scene text localization using lightweight convolutional networks = Localização de textos em imagens de cena utilizando redes convolucionais leves

Luís Gustavo Lorgus Decker

Material

DISSERTAÇÃO

Idioma

Inglês

Número de chamada

T/UNICAMP D357s

Título paralelo/equiv.

[Localização de textos em imagens de cena utilizando redes convolucionais leves]

Publicação

Campinas, SP : [s.n.], 2020.

Descrição física

1 recurso online (54 p.) : il., digital, arquivo PDF.

Nota geral

Orientadores: Ricardo da Silva Torres, Allan da Silva Pinto

Nota de dissertação ou tese

Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação

Resumo

Resumo: Múltiplas frentes de pesquisa reportaram resultados altamente eficientes para o problema de detecção de texto, que consiste no desafio de detectar em uma imagem digital a posição de variados elementos textuais, como palavras e frases. Porém, muitas destas soluções são custosas, o que... Ver mais

Resumo: Múltiplas frentes de pesquisa reportaram resultados altamente eficientes para o problema de detecção de texto, que consiste no desafio de detectar em uma imagem digital a posição de variados elementos textuais, como palavras e frases. Porém, muitas destas soluções são custosas, o que restringe o uso das mesmas em várias aplicações que dependem de dispositivos com capacidade computacional restrita, como relógios inteligentes e celulares. A localização de texto é um passo importante para várias aplicações importantes que podemser executadas em ambientes embarcados, como tradução de textos e auxílio a deficientes visuais. Neste trabalho, tratamos deste problema a partir da investigação da possibilidade do uso de redes neurais eficientes usualmente empregadas para detecção de objetos. Propusemos a junção de duas arquiteturas leves,MobilenetV2 e Single Shot Detector (SSD) em nossa proposta nomeada MobText para resolver o problema da detecção de texto. Resultados experimentais nos conjuntos de dados ICDAR¿11 e ICDAR¿13 demonstram que nossa proposta está associada a bons resultados tanto em termos de eficácia quanto de eficiência. Em especial, o método proposto obteve resultados estado-da-arte no conjunto de dados ICDAR¿11, com f-measure de 96,09%, mantendo um tempo de processamento médio de 464 ms em um ambiente de processamento restritivo. Uma outra contribuição do trabalho consistiu na proposta de uma ferramenta para automatizar o processo de avaliação de métodos de detecção e reconhecimento de textos em imagens de cena Ver menos

Abstract: Multiple research initiatives have been reported to yield highly effective results for the text detection problem, which consists of the challenge of detecting in a digital image if there is a textual element, like a word or a phrase. However, most of those solutions are very costly, thus... Ver mais

Abstract: Multiple research initiatives have been reported to yield highly effective results for the text detection problem, which consists of the challenge of detecting in a digital image if there is a textual element, like a word or a phrase. However, most of those solutions are very costly, thus hampering their use in several applications that rely on the use of devices with restricted processing power, like smartwatches and mobile phones. The text localization is an important step on very widely-used applications that can be executed on mobile environments, like on-the-go translations and recognition of text for the visually impaired. In this work, we address this issue by investigating the use of efficient object detection networks for this problem. We propose the combination of two light architectures, MobileNetV2 and Single Shot Detector (SSD), into our proposal MobText for the text detection problem. Experimental results in the ICDAR¿11 and ICDAR¿13datasets demonstrate that our solution yields the best trade-off between effectiveness and efficiency in terms of processing time, and also achieved the state-of-the-art results in theICDAR¿11 dataset with an f-measure of 96.09%and an average processing time of 464 ms on a restricted processing device. Another contribution of this work relies on the proposal of an evaluation tool to support the assessment of text localization and recognition methods Ver menos

Nota de sistema

Requisitos do sistema: Software para leitura de arquivo em PDF

Direito de acesso

Aberto

Assuntos

Aprendizado de máquina

Redes neurais (Computação)

Visão por computador

Autoria

Decker, Luis Gustavo Lorgus, 1992- Autor

Torres, Ricardo da Silva, 1977- Orientador

Pinto, Allan da Silva, 1984- Coorientador

Minetto, Rodrigo, 1983- Avaliador

Cirne, Marcos Vinicius Mussel, 1987- Avaliador

Universidade Estadual de Campinas (UNICAMP). Instituto de Computação. Programa de Pós-Graduação em Ciência da Computação

Sites

DOI: https://doi.org/10.47749/T/UNICAMP.2020.1129083

Arquivos

Texto completo pdf

Scene text localization using lightweight convolutional networks = Localização de textos em imagens de cena utilizando redes convolucionais leves

Luís Gustavo Lorgus Decker

Scene text localization using lightweight convolutional networks = Localização de textos em imagens de cena utilizando redes convolucionais leves

Luís Gustavo Lorgus Decker

Terminal de consulta web

Scene text localization using lightweight convolutional networks = Localização de textos em imagens de cena utilizando redes convolucionais leves

Scene text localization using lightweight convolutional networks = Localização de textos em imagens de cena utilizando redes convolucionais leves

Scene text localization using lightweight convolutional networks = Localização de textos em imagens de cena utilizando redes convolucionais leves