Harnessing high-level concepts, visual, and auditory features for violence detection in videos = Utilizando conceitos de alto-nível, e características visuais e auditivas para detecção de violência em vídeos

Bruno Malveira Peixoto

Harnessing high-level concepts, visual, and auditory features for violence detection in videos [recurso eletrônico] = Utilizando conceitos de alto-nível, e características visuais e auditivas para detecção de violência em vídeos

Bruno Malveira Peixoto

Material

TESE

Idioma

Inglês

Número de chamada

T/UNICAMP P359h

Título paralelo/equiv.

[Utilizando conceitos de alto-nível, e características visuais e auditivas para detecção de violência em vídeos]

Publicação

Campinas, SP : [s.n.], 2021.

Descrição física

1 recurso online (63 p.) : il., digital, arquivo PDF.

Nota geral

Orientadores: Anderson de Rezende Rocha, Zanoni Dias

Nota de dissertação ou tese

Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação

Resumo Resumo: Ao detectar mídias sensíveis, violência é uma das mais difíceis de se definir objetivamente, e por isso, um desafio significante quando se trata de detectar automaticamente. Enquanto muitos estudos foram conduzidos para detectar aspectos de violência, poucos tentam solucionar o conceito de... Ver mais Resumo: Ao detectar mídias sensíveis, violência é uma das mais difíceis de se definir objetivamente, e por isso, um desafio significante quando se trata de detectar automaticamente. Enquanto muitos estudos foram conduzidos para detectar aspectos de violência, poucos tentam solucionar o conceito de forma mais geral. Neste trabalho, é proposto um método que tem por objetivo habilitar uma máquina a entender o conceito de alto-nível de violência. Isso é feito a princípio dividindo o conceito em outros mais simples e objetivos, como lutas, explosões, sangue e tiros para depois combiná-los, levando a um melhor entendimento da cena. Para isso, as características individuais de cada sub-conceito são levadas em consideração para guiar a forma como elas devem ser descritas, usando redes neurais convolucionais específicas para obter tais características. Por exemplo, uma cena de luta deve incorporar características temporais que uma cena com sangue não precisa. Uma cena com explosões ou tiros deve levar características auditivas mais em consideração. Com essa solução multimodal, detectores de características visuais e auditivas são treinados separadamente e depois combinados em uma rede neural de decisão que compõe um detector de violência que considera diferentes aspectos do problema. Essa solução robusta e modular permite que diferentes pessoas e culturas adaptem o detector para suas necessidades específicas. Resultados experimentais obtidos em datasets padrões mostram importantes avanços em relação ao estado da arte Ver menos

Abstract: When detecting sensitive media, violence is one of the hardest to define objectively, and thus, a significant challenge to detect automatically. While many studies were conducted in detecting aspects of violence, very few try to approach the general concept. In this work, a method is... Ver mais Abstract: When detecting sensitive media, violence is one of the hardest to define objectively, and thus, a significant challenge to detect automatically. While many studies were conducted in detecting aspects of violence, very few try to approach the general concept. In this work, a method is proposed that aims to enable machines to understand a high-level concept of violence. This is achieved by first breaking it down into smaller, more objective ones, such as fights, explosions, blood, and gunshots, to combine them later, leading to a better understanding of the scene. For this, we leverage characteristics of each individual sub-concept of violence to guide how they should be described, relying upon custom-tailored convolutional neural networks. As an example, a fight scene should incorporate temporal features that a scene with blood does not need to describe. A scene with explosions or gunshots should weigh more on its audio features. With this multimodal approach, we trained visual and auditory feature detectors and later combined them into a decision neural network to give us a violence detector that considers several different aspects of the problem. This robust and modular approach allows different cultures and users to adapt the detector to their specific needs. The obtained results on standard datasets in the literature show important advances over prior art Ver menos

Nota de sistema

Requisitos do sistema: Software para leitura de arquivo em PDF

Assuntos

Aprendizado de máquina

Videovigilância

Extração de características (Inteligência artificial)

Visão por computador

Processamento de sinal de vídeo

Descrição de eventos (Computação)

Análise de imagem

Autoria

Peixoto, Bruno Malveira, 1987-

Rocha, Anderson de Rezende, 1980- Orientador

Dias, Zanoni, 1975- Coorientador

Bondi, Luca Avaliador

Deus, Flavio Elias Gomes de Avaliador

Tavares, Tiago Fernandes, 1984- Avaliador

Wainer, Jacques, 1958- Avaliador

Universidade Estadual de Campinas (UNICAMP). Instituto de Computação. Programa de Pós-Graduação em Ciência da Computação

Arquivos

Texto completo pdf

Harnessing high-level concepts, visual, and auditory features for violence detection in videos [recurso eletrônico] = Utilizando conceitos de alto-nível, e características visuais e auditivas para detecção de violência em vídeos

Bruno Malveira Peixoto

Harnessing high-level concepts, visual, and auditory features for violence detection in videos [recurso eletrônico] = Utilizando conceitos de alto-nível, e características visuais e auditivas para detecção de violência em vídeos

Bruno Malveira Peixoto

Terminal de consulta web

Harnessing high-level concepts, visual, and auditory features for violence detection in videos [recurso eletrônico] = Utilizando conceitos de alto-nível, e características visuais e auditivas para detecção de violência em vídeos

Harnessing high-level concepts, visual, and auditory features for violence detection in videos [recurso eletrônico] = Utilizando conceitos de alto-nível, e características visuais e auditivas para detecção de violência em vídeos

Harnessing high-level concepts, visual, and auditory features for violence detection in videos [recurso eletrônico] = Utilizando conceitos de alto-nível, e características visuais e auditivas para detecção de violência em vídeos