Hypercomplex-valued feedforward neural networks = Redes neurais progressivas com valores hipercomplexos
Guilherme Vieira Neto
TESE
Inglês
T/UNICAMP V673h
[Redes neurais progressivas com valores hipercomplexos]
Campinas, SP : [s.n.], 2023.
1 recurso online (73 p.) : il., digital, arquivo PDF.
Orientador: Marcos Eduardo Ribeiro do Valle Mesquita
Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Matemática, Estatística e Computação Científica
Resumo: Em décadas recentes redes neurais artificiais (RNAs) ganharam notável popularidade. Este tipo de modelo de inteligência artificial se ramificou através das décadas, alcançando uma grande variedade de áreas desde aplicações na indústria como processamento de sinais digitais, robótica,...
Ver mais
Resumo: Em décadas recentes redes neurais artificiais (RNAs) ganharam notável popularidade. Este tipo de modelo de inteligência artificial se ramificou através das décadas, alcançando uma grande variedade de áreas desde aplicações na indústria como processamento de sinais digitais, robótica, automação, previsão de séries temporais, assistência a diagnósticos médicos, reconhecimento de padrões e tarefas de classificação, até aplicações diretamente em contato com o usuário final tais como smartphones, sistemas de recomendação, reconhecimento facial e de voz e dispositivos interativos no geral. No entanto, a maioria esmagadora de aplicações de RNAs se baseia em modelos com valores reais. Nesta tese, exploramos dois tipos de RNAs baseadas em álgebras hipercomplexas, a saber as máquinas de aprendizado extremo (ELMs, do inglês Extreme Learning Machines) e as redes neurais convolucionais (CNNs, do inglês Convolutional Neural Networks). Discutimos detalhadamente seus principais aspectos arquiteturais e analisamos como estes modelos se comparam a modelos reais equivalentes com respeito a três aspectos centrais: armazenamento, desempenho e tempo de processamento. Em particular, implementamos ELMs com número similar de parâmetros treináveis e os modelos baseados em álgebras hipercomplexas mostram resultados expressivamente superiores aos do modelo real tanto numa tarefa de previsão de série temporal quanto em uma tarefa de auto-encoding de imagens coloridas. Já com relação às CNNs, desenvolvemos modelos compactos com valores hipercomplexos contendo aproximadamente 33% dos parâmetros treináveis contidos em um modelo real, e mostramos que estes ainda assim tem um desempenho muito superior ao modelo real em duas tarefas de classificação de imagens médicas aqui apresentadas. Ademais, exploramos estes modelos em uma gama variada de álgebras, desde as mais usuais como os quatérnios e os tessarinos até as mais não-usuais como álgebras de Cayley-Dickson e os quatérnios hiperbólicos de MacFarlane. Concluímos que na maioria das vezes uma álgebra não-usual mostra desempenho consistentemente superior aos quatérnios, apesar desta última dominar expressivamente a literatura em RNAs com valores hipercomplexos com respeito ao número de publicações. Ainda, mostramos na prática que a codificação de cores de uma imagem afeta cada modelo diferentemente, e discutimos as implicações deste fato na codificação de dados no geral. Por fim, incluimos uma aplicação de um modelo hipercomplexo baseado na álgebra dos quatérnios duais que demonstra sua equivariância de translação e a maneira com a qual este modelo trata conjuntos de testes transladados sem a necessidade de intervenção de um especialista. Discutimos brevemente o potencial desta álgebra em aplicações do mundo real. Em suma, operações nos modelos com valores hipercomplexos exibem custo computacional mais elevado que nos modelos reais, porém os modelos finais obtidos são mais compactos e tem desempenho consistentemente superior em todas as métricas avaliadas
Ver menos
Abstract: Over the past few decades artificial neural networks (ANNs) rose notably in popularity. This type of artificial intelligence model branched out, reaching a wide variety of areas from industry applications such as digital signal processing, robotics and automation, time series forecasting,...
Ver mais
Abstract: Over the past few decades artificial neural networks (ANNs) rose notably in popularity. This type of artificial intelligence model branched out, reaching a wide variety of areas from industry applications such as digital signal processing, robotics and automation, time series forecasting, medical diagnosis assistance, pattern recognition and classification tasks, all the way to end-user applications such as smartphones, recommendation systems, face and voice recognition and smart interactive devices in general. However, the dominant majority of ANN applications feature real-valued models. In this thesis we explore two ANN models based on hypercomplex algebras, namely the extreme learning machines (ELMs) and convolutional neural networks (CNNs). We explore the main architecture features in detail and show how these fair when compared to real-valued equivalent models regarding three key aspects: storage, performance and time. In particular, we build ELMs with similar number of free parameters and the hypercomplex-valued models dominate the real-valued one by a large margin on both a time series prediction task and a color image auto-encoding task. With respect to CNNs, we showcase compact hypercomplex-valued models featuring slightly over 33% of the free parameters in the real-valued model, yet the former heavily outperforms the latter on two classification tasks involving medical images. Moreover, we explore said models on a wide variety of algebras, ranging from usual ones such as quaternions and tessarines to unusual ones such as Cayley-Dickson algebras and MacFarlane's hyperbolic quaternions. We conclude that more often than not these unusual algebras fair consistently better than the quaternions, despite the latter boasting an overwhelmingly larger number of works. Notwithstanding, we also showcase in practice how color encoding of images affects models differently, and briefly discuss the implications of data encoding. Lastly, we include an application of a hypercomplex-valued model based on the dual quaternions that showcases the translation equivariance property and how effortlessly this model predicts translated test sets without specialist intervention. We briefly discuss this potential in real-world applications. In sum, operations in the hypercomplex-valued models exhibit higher computational cost, but the final models obtained are more compact than the real-valued counterparts and perform better according to all evaluated metrics
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Aberto
Florindo, João Batista, 1984-
Avaliador
Lavor, Carlile Campos, 1968-
Avaliador
Papa, João Paulo, 1981-
Avaliador
Fernandes, Leandro Augusto Frata
Avaliador
Hypercomplex-valued feedforward neural networks = Redes neurais progressivas com valores hipercomplexos
Guilherme Vieira Neto
Hypercomplex-valued feedforward neural networks = Redes neurais progressivas com valores hipercomplexos
Guilherme Vieira Neto