Semantic segmentation under extreme imbalance towards full-background images [recurso eletrônico]
Eduardo Rocha de Andrade
DISSERTAÇÃO
Inglês
T/UNICAMP An24s
[Segmentação semântica sob desbalanceamento extremo por imagens vazias]
Campinas, SP : [s.n.], 2021.
1 recurso online (103 p.) : il., digital, arquivo PDF.
Orientador: Levy Boccato
Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação
Resumo: O panorama de visão computacional mudou significativamente com o advento das redes neurais convolucionais e técnicas de aprendizado profundo. Estas poderosas ferramentas não apenas aprimoraram tarefas tradicionais como classificação de imagem, segmentação semântica e detecção de objeto, mas...
Ver mais
Resumo: O panorama de visão computacional mudou significativamente com o advento das redes neurais convolucionais e técnicas de aprendizado profundo. Estas poderosas ferramentas não apenas aprimoraram tarefas tradicionais como classificação de imagem, segmentação semântica e detecção de objeto, mas também possibilitaram novas aplicações de visão computacional, principalmente na área generativa, como, por exemplo, na geração de imagens sintéticas e transferência de estilo. Entretanto, em aplicações reais, as condições de contorno podem divergir significativamente daquelas mais vistas na literatura. Especificamente para segmentação semântica, imagens que não contêm nenhum objeto de interesse, denotadas como imagens vazias, podem corresponder a uma porção grande da base de dados, resultando em um severo desbalanceamento de classe. Esse cenário particular é o tema deste trabalho, no qual analisamos as duas abordagens mais comuns: segmentação em um único estágio e classificação-segmentação em dois estágios. Como principal contribuição, nós propomos uma nova modificação na arquitetura de redes neurais de formato encoder-decoder. Tal modificação, apesar de pequena, é capaz de utilizar contexto semi-global e mecanismos de atenção para melhorar a eficácia de redes de segmentação de estagio único em condições extremamente desbalanceadas a favor de imagens vazias. Adicionalmente, propomos uma função custo auxiliar para imagens de foreground que, além de estabilizar o processo de treinamento, permite que a rede se concentre em objetos pequenos mesmo na presença de um grande número de imagens vazias. Ambas as propostas foram avaliadas em duas bases de dados de distintas características e demonstraram ganhos em IoU de 15 e 25\% contra os melhores competidores de um e dois estágios, respectivamente. Finalmente, a fim de melhor compreender os mecanismos internos de nossa arquitetura, estudos de ablação foram realizados, demonstrando forte concordância com nossas suposições iniciais
Ver menos
Abstract: The landscape of computer vision tasks has been significantly changed in the past decade with the advent of convolution neural networks and deep learning techniques. Such powerful tools not only improved traditional tasks such as image classification, semantic segmentation and object...
Ver mais
Abstract: The landscape of computer vision tasks has been significantly changed in the past decade with the advent of convolution neural networks and deep learning techniques. Such powerful tools not only improved traditional tasks such as image classification, semantic segmentation and object detection, but also unlocked new computer vision applications altogether, specially in the generative field, such as image generation and style transfer. Nonetheless, in real applications, boundary conditions might diverge significantly from those found in the literature. Specifically for semantic segmentation, images with no object of interest -- namely empty images -- may comprise a big part of the dataset, resulting in a stark class imbalance. This particular, yet common, scenario is the subject of this work, where we analyze both the single-stage segmentation and two-stage classification-segmentation pipelines -- the two most common deep learning approaches to tackle this problem. We propose a novel modification for encoder-decoder segmentation networks as our main contribution. This relatively simple yet powerful layer takes advantage of semi-global context and attention mechanisms to improve the efficacy of single-stage encoder-decoder segmentation models in extremely unbalanced conditions. Additionally, we propose an auxiliary segmentation loss for foreground images, which stabilizes the training process and allows the network to focus on small objects even under strong imbalance towards the background class. Both proposals are evaluated on two different datasets, showing IoU gains of up to 15 and 25\% against its strongest single- and two-stage competitors, respectively. Finally, in order to better comprehend the underlying mechanisms of our architecture, ablation studies were performed, which showed a strong agreement with our initial assumptions
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Semantic segmentation under extreme imbalance towards full-background images [recurso eletrônico]
Eduardo Rocha de Andrade
Semantic segmentation under extreme imbalance towards full-background images [recurso eletrônico]
Eduardo Rocha de Andrade