Self-supervised learning applied to spatiotemporal data

Leandro Stival

Self-supervised learning applied to spatiotemporal data

Leandro Stival

Material

TESE

Idioma

Inglês

Número de chamada

T/UNICAMP St59s

Outros títulos

[Aprendizado autossupervisionado aplicado a dados espaço-temporais]

Publicação

Campinas, SP : [s.n.], 2025.

Descrição física

1 recurso online (258 p.) : il., digital, arquivo PDF.

Nota geral

Orientadores: Hélio Pedrini, Ricardo da Silva Torres

Nota de dissertação ou tese

Tese (doutorado) - Universidade Estadual de Campinas (UNICAMP), Instituto de Computação

Resumo

Resumo: Os dados espaço-temporais (do inglês: Spatiotemporal Data - STD) estão presentes em muitas áreas, tais como neurociências, ciências sociais, criminologia, ciências da terra e processamento de vídeo. Essa diversidade de áreas se reflete na grande quantidade de dados disponíveis, o que exige... Ver mais

Resumo: Os dados espaço-temporais (do inglês: Spatiotemporal Data - STD) estão presentes em muitas áreas, tais como neurociências, ciências sociais, criminologia, ciências da terra e processamento de vídeo. Essa diversidade de áreas se reflete na grande quantidade de dados disponíveis, o que exige ferramentas adequadas para análise. O desenvolvimento e o uso de métodos de aprendizado de máquina têm ganhado atenção como uma direção promissora para apoiar a análise de dados. No entanto, na maioria dos casos, esses dados não possuem rótulos para apoiar o desenvolvimento de técnicas supervisionadas, o que representa um desafio para o uso dos dados disponíveis em aplicações práticas envolvendo tarefas de predição. Esta tese explora metodologias que utilizam dados espaço-temporais não rotulados para treinar modelos robustos de aprendizado de máquina, aprimorando a propagação de informações ao longo do tempo e construindo representações significativas de características. Nesse sentido, dois domínios de aplicação distintos são explorados: aprendizado profundo para colorização de vídeos (do inglês: Deep Learning Video Colorization - DLVC) e tarefas envolvendo imagens multi-espectrais de sensoriamento remoto (do inglês: Multi-Spectral Remote Sensing Images - MSRSI). No contexto do DLVC, o desafio central é alcançar uma reconstrução fiel das cores, garantindo a consistência temporal entre os quadros do vídeo. Dessa forma, propomos metodologias para produzir representações de características que codificam de forma mais eficaz as dependências espaciais e temporais. Para tanto, as contribuições nessa área incluem: uma pesquisa abrangente de problemas em aberto e tendências em DLVC, a produção e avaliação de estratégias existentes de colorização e propagação, o desenvolvimento de novas arquiteturas de rede focadas na fusão de características e a introdução dos protocolos de treinamento e arquiteturas de visão computacional. Os métodos propostos demonstram um desempenho de colorização que supera os benchmarks existentes. No âmbito de sensoriamento remoto, o desafio central consiste em extrair representações eficazes do MSRSI, que integrem informações semânticas, espaciais e temporais em um único espaço de representacação. Esta tese aborda como a riqueza semântica de imagens multiespectrais pode aprimorar o espaço de características por meio de aprendizado de máquina autossupervisionado (do inglês: Self-Supervised Learning - SSL), analisando padrões semânticos e texturais integrados ao treinamento de modelos profundos. Esses padrões foram validados em tarefas de sensoriamento remoto, tais como a classificação da cobertura do solo, a segmentação semântica e a detecção de mudanças. Considerando as informações temporais, tais aspectos foram extensivamente investigados no MSRSI por meio de séries temporais de índices de vegetação ao nível de pixel. A validação da multimodalidade dos modelos treinados foi realizada por meio de uma série de tarefas, incluindo classificação e previsão de séries temporais de índices de vegetação por pixel. Em suma, as contribuições desta tese aprofundam o conhecimento em SSL para STD, DLVC e MSRSI Ver menos

Abstract: Spatiotemporal data (STD) is present in many areas of our lives: neuroscience, social sciences, criminology, earth sciences, and video processing. This huge presence is reflected in the large amount of data available, which demands proper tools for analysis. Developing and using machine... Ver mais

Abstract: Spatiotemporal data (STD) is present in many areas of our lives: neuroscience, social sciences, criminology, earth sciences, and video processing. This huge presence is reflected in the large amount of data available, which demands proper tools for analysis. Developing and using machine learning methods have gained attention as a promising direction to support data analysis. However, in most cases, these data do not have labels to support the development of supervised techniques, thus posing challenges to the use of available data in practical applications involving prediction tasks. This thesis explores methodologies for leveraging unlabeled spatiotemporal data to train robust machine learning models by enhancing information propagation over time and constructing meaningful feature representations. Two distinct application domains are explored: deep learning for video colorization (DLVC) and tasks involving multi-spectral remote sensing imagery (MSRSI). In the context of DLVC, a central challenge is to achieve faithful color reconstruction while ensuring temporal consistency across video frames. We hereby propose methodologies for computing feature representations that more effectively encode both spatial and temporal dependencies. Contributions in this area include a comprehensive survey of open problems and trends in DLVC, the production and evaluation of existing colorization and propagation strategies, the development of novel network architectures focused on feature fusion, and the introduction of state-of-the-art training protocols and network architectures from computer vision in DLVC domain. The proposed methods demonstrate a colorization performance that exceeds existing benchmarks. In the context of remote sensing, the central challenge is achieving good representations from the MSRSI, where these features are able to well represent the semantic, spatial, and temporal information in a single space. The present thesis investigates the potential of semantic richness in multi-spectral imagery to employ self-supervised learning (SSL) protocols to enhance the quality of the feature space. We investigated the intrinsic semantic and texture patterns embedded within the training protocol of deep learning models. These patterns were then validated across a range of remote sensing tasks, including land cover classification, semantic segmentation, and change detection. Considering the temporal information was extensively investigated in MSRSI through pixel-wise vegetation time series. MSRSI’s temporal correlation was identified as a pivotal element in multimodal training methods, thereby enhancing the feature representation for images and time series. The validation of the multimodality of the trained models was conducted through a series of tasks, including pixel-wise time series classification and forecasting. The contributions of remote sensing are presented in the advancement of state-of-the-art results in downstream tasks, achieved through the refined feature representation of our models. In summary, the contributions of this thesis advance the understanding of SSL for STD, DLVC, and MSRSI Ver menos

Direito de acesso

Aberto

Assuntos

Aprendizado auto-supervisionado (Aprendizado de máquina)

Processos espaço-temporais

Aprendizado profundo

Imagens de sensoriamento remoto

Processamento de sinal de vídeo

Autoria

Stival, Leandro, 1997-

Pedrini, Hélio, 1963- Orientador

Torres, Ricardo da Silva, 1977- Coorientador