Harnessing high-level concepts, visual, and auditory features for violence detection in videos [recurso eletrônico] = Utilizando conceitos de alto-nível, e características visuais e auditivas para detecção de violência em vídeos
Bruno Malveira Peixoto
TESE
Inglês
T/UNICAMP P359h
[Utilizando conceitos de alto-nível, e características visuais e auditivas para detecção de violência em vídeos]
Campinas, SP : [s.n.], 2021.
1 recurso online (63 p.) : il., digital, arquivo PDF.
Orientadores: Anderson de Rezende Rocha, Zanoni Dias
Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação
Resumo: Ao detectar mídias sensíveis, violência é uma das mais difíceis de se definir objetivamente, e por isso, um desafio significante quando se trata de detectar automaticamente. Enquanto muitos estudos foram conduzidos para detectar aspectos de violência, poucos tentam solucionar o conceito de...
Ver mais
Resumo: Ao detectar mídias sensíveis, violência é uma das mais difíceis de se definir objetivamente, e por isso, um desafio significante quando se trata de detectar automaticamente. Enquanto muitos estudos foram conduzidos para detectar aspectos de violência, poucos tentam solucionar o conceito de forma mais geral. Neste trabalho, é proposto um método que tem por objetivo habilitar uma máquina a entender o conceito de alto-nível de violência. Isso é feito a princípio dividindo o conceito em outros mais simples e objetivos, como lutas, explosões, sangue e tiros para depois combiná-los, levando a um melhor entendimento da cena. Para isso, as características individuais de cada sub-conceito são levadas em consideração para guiar a forma como elas devem ser descritas, usando redes neurais convolucionais específicas para obter tais características. Por exemplo, uma cena de luta deve incorporar características temporais que uma cena com sangue não precisa. Uma cena com explosões ou tiros deve levar características auditivas mais em consideração. Com essa solução multimodal, detectores de características visuais e auditivas são treinados separadamente e depois combinados em uma rede neural de decisão que compõe um detector de violência que considera diferentes aspectos do problema. Essa solução robusta e modular permite que diferentes pessoas e culturas adaptem o detector para suas necessidades específicas. Resultados experimentais obtidos em datasets padrões mostram importantes avanços em relação ao estado da arte
Ver menos
Abstract: When detecting sensitive media, violence is one of the hardest to define objectively, and thus, a significant challenge to detect automatically. While many studies were conducted in detecting aspects of violence, very few try to approach the general concept. In this work, a method is...
Ver mais
Abstract: When detecting sensitive media, violence is one of the hardest to define objectively, and thus, a significant challenge to detect automatically. While many studies were conducted in detecting aspects of violence, very few try to approach the general concept. In this work, a method is proposed that aims to enable machines to understand a high-level concept of violence. This is achieved by first breaking it down into smaller, more objective ones, such as fights, explosions, blood, and gunshots, to combine them later, leading to a better understanding of the scene. For this, we leverage characteristics of each individual sub-concept of violence to guide how they should be described, relying upon custom-tailored convolutional neural networks. As an example, a fight scene should incorporate temporal features that a scene with blood does not need to describe. A scene with explosions or gunshots should weigh more on its audio features. With this multimodal approach, we trained visual and auditory feature detectors and later combined them into a decision neural network to give us a violence detector that considers several different aspects of the problem. This robust and modular approach allows different cultures and users to adapt the detector to their specific needs. The obtained results on standard datasets in the literature show important advances over prior art
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Rocha, Anderson de Rezende, 1980-
Orientador
Dias, Zanoni, 1975-
Coorientador
Bondi, Luca
Avaliador
Deus, Flavio Elias Gomes de
Avaliador
Tavares, Tiago Fernandes, 1984-
Avaliador
Wainer, Jacques, 1958-
Avaliador
Harnessing high-level concepts, visual, and auditory features for violence detection in videos [recurso eletrônico] = Utilizando conceitos de alto-nível, e características visuais e auditivas para detecção de violência em vídeos
Bruno Malveira Peixoto
Harnessing high-level concepts, visual, and auditory features for violence detection in videos [recurso eletrônico] = Utilizando conceitos de alto-nível, e características visuais e auditivas para detecção de violência em vídeos
Bruno Malveira Peixoto