Detecção de quedas de pessoas em vídeos utilizando redes neurais convolucionais com múltiplos canais [recurso eletrônico]
Guilherme Vieira Leite
DISSERTAÇÃO
Português
T/UNICAMP L536d
[Human fall detection on videos using convolutional neural networks with multiple channels]
Campinas, SP : [s.n.], 2020.
1 recurso online (52 p.) : il., digital, arquivo PDF.
Orientador: Hélio Pedrini
Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação
Resumo: Baixas taxas de mortalidade infantil, avanços na medicina e mudanças culturais aumentaram a expectativa de vida nos países desenvolvidos para mais de 60 anos. Alguns países esperam que, até 2030, 20% da sua população tenham mais de 65 anos. A qualidade de vida nessa idade avançada é...
Ver mais
Resumo: Baixas taxas de mortalidade infantil, avanços na medicina e mudanças culturais aumentaram a expectativa de vida nos países desenvolvidos para mais de 60 anos. Alguns países esperam que, até 2030, 20% da sua população tenham mais de 65 anos. A qualidade de vida nessa idade avançada é altamente determinada pela saúde do indivíduo, que ditará se o idoso pode se engajar em atividades importantes para o seu bem estar, independência e satisfação pessoal. O envelhecimento é acompanhado por problemas de saúde causados por limitações biológicas e fraqueza muscular. Esse enfraquecimento facilita a ocorrência de quedas, responsáveis pela morte de aproximadamente 646.000 pessoas em todo o mundo e, mesmo quando uma pequena queda ocorre, ela ainda pode fraturar ossos ou danificar tecidos moles, que não cicatrizam completamente. Lesões e danos dessa natureza, por sua vez, podem afetar a autoconfiança do indivíduo, diminuindo sua independência. Neste trabalho, propomos um método capaz de detectar quedas humanas em sequências de vídeo usando redes neurais convolucionais (CNNs) multicanais. Nós desenvolvemos dois métodos para detecção de quedas, o primeiro utilizando uma CNN 2D e o segundo utilizando uma CNN 3D. Nossos métodos utilizam características extraídas previamente de cada quadro do vídeo e as classificam. Após a etapa de classificação, uma máquina de vetores de suporte (SVM) é aplicada para ponderar os canais de entrada e indicar se houve ou não uma queda. Experimentamos quatro tipos de características, a saber: (i) fluxo óptico, (ii) ritmo visual, (iii) estimativa de pose e (iv) mapa de saliência. As bases de dados utilizadas (URFD e FDD) estão disponíveis publicamente e nossos resultados são comparados com os da literatura. As métricas selecionadas para avaliação são acurácia balanceada, acurácia, sensibilidade e especificidade. Nossos métodos apresentaram resultados competitivos com os obtidos pelo estado da arte na base de dados URFD e superam os obtidos na base de dados FDD. Ao conhecimento dos autores, nós somos os primeiros a realizar testes cruzados entre os conjuntos de dados em questão, e a reportar resultados de acurácia balanceada. Os métodos propostos são capazes de detectar quedas nas bases selecionadas. A detecção de quedas, bem como a classificação de atividades em vídeos, está fortemente relacionada à capacidade da rede de interpretar informações temporais e, como esperado, o fluxo óptico é a característica mais relevante para a detecção de quedas
Ver menos
Abstract: Lower child mortality rates, advances in medicine, and cultural changes have increased life expectancy in developed countries over 60 years old. Some countries expect that, by 2030, 20% of their population will be over 65 years old. The quality of life at this advanced age is highly...
Ver mais
Abstract: Lower child mortality rates, advances in medicine, and cultural changes have increased life expectancy in developed countries over 60 years old. Some countries expect that, by 2030, 20% of their population will be over 65 years old. The quality of life at this advanced age is highly dictated by the individual's health, which will determine whether the elderly can engage in important activities to their well-being, independence, and personal satisfaction. Old age is accompanied by health problems caused by biological limitations and muscle weakness. This weakening facilitates the occurrence of falls, which are responsible for the deaths of approximately 646,000 people worldwide and, even when a minor fall occurs, it can still cause fractures, break bones or damage soft tissues, which will not heal completely. Injuries and damages of this nature, in turn, will consume the self-confidence of the individual, diminishing their independence. In this work, we propose a method capable of detecting human falls in video sequences using multichannel convolutional neural networks (CNN). We developed two methods for fall detection, the first using a 2D CNN and the second using a 3D CNN. Our method uses features previously extracted from each frame and classifies them with a CNN. After the classification step, a support vector machine (SVM) is applied to weight the input channels and indicate whether or not there was a fall. We experiment with four types of features, namely: (i) optical flow, (ii) visual rhythm, (iii) pose estimation, and (iv) saliency map. The benchmarks used (URFD and FDD) are publicly available and our results are compared to those in the literature. The metrics selected for evaluation are balanced accuracy, accuracy, sensitivity, and specificity. Our results are competitive with those obtained by the state of the art on the URFD data set and surpass those on the FDD data set. To the authors' knowledge, we are the first to perform cross-tests between the datasets in question and to report results for the balanced accuracy metric. The proposed method is able to detect falls in the selected benchmarks. Fall detection, as well as activity classification in videos, is strongly related to the network's ability to interpret temporal information and, as expected, optical flow is the most relevant feature for detecting falls
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Detecção de quedas de pessoas em vídeos utilizando redes neurais convolucionais com múltiplos canais [recurso eletrônico]
Guilherme Vieira Leite
Detecção de quedas de pessoas em vídeos utilizando redes neurais convolucionais com múltiplos canais [recurso eletrônico]
Guilherme Vieira Leite