Improving loss functions and feature utilization for self-supervised single image depth estimation from monocular videos [recurso eletrônico] = Melhorando funções de perda e utilização de características para estimação autossupervisionada de profundidade de imagem única a partir de vídeos monoculares
Julio César Mendoza Bobadilla
TESE
Inglês
T/UNICAMP M523i
[Melhorando funções de perda e utilização de características para estimação autossupervisionada de profundidade de imagem única a partir de vídeos monoculares]
Campinas, SP : [s.n.], 2022.
1 recurso online (72 p.) : il., digital, arquivo PDF.
Orientador: Hélio Pedrini
Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação
Resumo: Nesta tese, abordamos o problema de estimação de um mapa de profundidade denso a partir de uma única imagem de entrada. Focamos em abordagens autossupervisionadas que usam a reconstrução de vistas como uma tarefa auxiliar e usam vídeos monoculares para treinamento. Como a reconstrução das...
Ver mais
Resumo: Nesta tese, abordamos o problema de estimação de um mapa de profundidade denso a partir de uma única imagem de entrada. Focamos em abordagens autossupervisionadas que usam a reconstrução de vistas como uma tarefa auxiliar e usam vídeos monoculares para treinamento. Como a reconstrução das vistas depende de encontrar correspondências de pixels precisas entre as vistas em uma cena, um desafio importante é evitar que estimações de correspondências incorretas reduzam a eficácia da reconstrução de vistas baseada em perda para convergir em uma solução que tenha um desempenho adequado na estimação de profundidade. Estimações incorretas de correspondência de pixels podem ocorrer devido a vários motivos. Por exemplo, alguns pixels não têm correspondências de pixel verdadeiras, como pixels localizados em regiões com oclusão/desoclusão devido ao movimento da câmera ou do objeto. Outros pixels parecem ter várias correspondências, como pixels localizados em regiões homogêneas ou de pouca textura. Além disso, alguns pixels têm correspondência verdadeira em visualizações adjacentes com representações de características inconsistentes devido à reflexão e à refração que dificultam a correspondência. Para contornar esse desafio, desenvolvemos vários mecanismos para reduzir a influência de pixels com estimações de correspondência incorretas. Primeiramente, propusemos uma heurística baseada na consistência de profundidade para diminuir a influência dos pixels na função de perda. Além disso, desenvolvemos um mecanismo de atenuação de perda adaptativa para reduzir a influência de pixels com estimações de correspondências incorretas com base na incerteza aleatória. Por fim, formulamos uma função de perda de consistência adaptativa que penaliza a diferença de várias representações de características considerando apenas as correspondências com erro mínimo de reprojeção. Nossos resultados demonstram que as melhorias propostas para a função de perda podem aumentar a precisão do nosso modelo autossupervisionado de estimação de profundidade de imagem única. Outro desafio está relacionado à observação de que otimizar um modelo com reconstrução de vistas como tarefa auxiliar não implica que o modelo seja otimizado para a estimação de profundidade. Em resposta a esse desafio, desenvolvemos mecanismos para alavancar as representações de características aprendidas pelo modelo. Inicialmente, propusemos um mecanismo de compartilhamento de características que permite que o modelo de movimento da câmera aproveite as características profundas aprendidas pelo modelo por meio de conexões laterais. Além disso, a função de perda de consistência adaptativa leva em conta o mapa de coordenadas 3D, as características profundas e as representações de cores com reprojeção mínima. Por fim, desenvolvemos um método para realizar a autodestilação para fornecer um sinal de aprendizado adicional para treinamento. Esse método é o resultado da adaptação e avaliação de estratégias de aplicação de consistência para realizar a autodestilação por meio da consistência de predição. Nossos resultados mostram que as melhorias na forma como aproveitamos as representações de características e a autodestilação podem aumentar o desempenho da estimação autossupervisionada de profundidade de uma única imagem
Ver menos
Abstract: In this thesis, we address the problem of estimating a dense depth map from a single input image. We focus on self-supervised approaches that use view reconstruction as an auxiliary task and use monocular videos for training. Since view reconstruction depends on finding accurate pixel...
Ver mais
Abstract: In this thesis, we address the problem of estimating a dense depth map from a single input image. We focus on self-supervised approaches that use view reconstruction as an auxiliary task and use monocular videos for training. Since view reconstruction depends on finding accurate pixel correspondences among views of a scene, an important challenge is to prevent incorrect correspondence estimates from reducing the effectiveness of the view reconstruction-based loss to converge on a solution that performs well in depth estimation. Incorrect pixel correspondence estimates can occur due to a variety of reasons. For example, some pixels have no true pixel correspondences, such as pixels located in regions with occlusion/disocclusion due to camera or object motion. Other pixels appear to have multiple correspondences, such as the pixels located in homogeneous or low-textured regions. Moreover, some pixels have true corresponding ones in adjacent views with inconsistent feature representations due to reflection and refraction that make matching difficult. To address this challenge, we develop several mechanisms to diminish the influence of pixels with incorrect correspondence estimates. First, we propose a heuristic based on depth consistency to reduce the influence of pixels on the loss function. In addition, we formulate an adaptive loss attenuation mechanism to decrease the influence of pixels with incorrect correspondence estimates based on aleatoric uncertainty. Finally, we develop an adaptive consistency loss function that penalizes the difference of several feature representations considering only the correspondences with the minimum re-projection error. Our results demonstrate that the proposed improvements to the loss function can increase the accuracy of our self-supervised single image depth estimation model. Another challenge is related to the observation that optimizing a model with view reconstruction as auxiliary task does not imply that the model is optimized for depth estimation. In response to this challenge, we proposed mechanisms to leverage the feature representations learned by the model. First, we propose a feature sharing mechanism that allows the camera motion model to take advantage of the deep features learned by the depth model via lateral connections. In addition, the adaptive consistency loss leverages 3D coordinate map, deep features, and color representations on minimum re-projection. Finally, we develop a method to perform self-distillation to provide an additional learning signal for training. This method is the result of adapting and evaluating consistency enforcement strategies to perform self-distillation through prediction consistency. Our results show that improvements in how we leverage feature representations and self-distillation can increase performance in self-supervised single image depth estimation
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Pedrini, Hélio, 1963-
Orientador
Prati, Ronaldo Cristiano
Avaliador
Cámara Chávez, Guillermo
Avaliador
Pinto, Allan da Silva, 1984-
Avaliador
Attux, Romis Ribeiro de Faissol, 1978-
Avaliador
Improving loss functions and feature utilization for self-supervised single image depth estimation from monocular videos [recurso eletrônico] = Melhorando funções de perda e utilização de características para estimação autossupervisionada de profundidade de imagem única a partir de vídeos monoculares
Julio César Mendoza Bobadilla
Improving loss functions and feature utilization for self-supervised single image depth estimation from monocular videos [recurso eletrônico] = Melhorando funções de perda e utilização de características para estimação autossupervisionada de profundidade de imagem única a partir de vídeos monoculares
Julio César Mendoza Bobadilla