Deep reinforcement learning for bipedal locomotion = Aprendizado por reforço profundo para locomoção bípede

Yuri Corrêa Pinto Soares

Deep reinforcement learning for bipedal locomotion [recurso eletrônico] = Aprendizado por reforço profundo para locomoção bípede

Yuri Corrêa Pinto Soares

Material

DISSERTAÇÃO

Idioma

Inglês

Número de chamada

T/UNICAMP So11d

Título paralelo/equiv.

[Aprendizado por reforço profundo para locomoção bípede]

Publicação

Campinas, SP : [s.n.], 2020.

Descrição física

1 recurso online (64 p.) : il., digital, arquivo PDF.

Nota geral

Orientador: Esther Luna Colombini

Nota de dissertação ou tese

Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação

Resumo

Resumo: Robótica e suas aplicações de serviço com robôs bípedes tem se expandido recentementedevido a possibilidade de se usar robôs desta categoria em ambientes originalmente plane-jados para operação humana. No entanto, locomoção bípede tem se mostrado um desafioteórico e prático devido a alta... Ver mais

Resumo: Robótica e suas aplicações de serviço com robôs bípedes tem se expandido recentementedevido a possibilidade de se usar robôs desta categoria em ambientes originalmente plane-jados para operação humana. No entanto, locomoção bípede tem se mostrado um desafioteórico e prático devido a alta dimensionalidade do problema, visto que a ação de andartipicamente envolve o controle preciso em tempo-real de múltiplos atuadores e sensoresem conjunto com sistemas dinâmicos complexos. Concomitantemente, aprendizado porreforço (RL) e sua versão com redes neurais profundas (DRL) estão se tornando umaabordagem prominente para solucionar tais problemas, devido a sua capacidade de li-dar com processos contínuos e livres de modelo. Neste trabalho, modelamos a tarefade locomoção como um problema de aprendizagem por reforço, propondo representa-ções práticas baseada em MDPs e estratégias generalizáveis para funções de reforço. Emseguida, prosseguimos desenvolvendo um framework para integrar nosso simulador de es-colha (CoppeliaSim [11]) com a interface corrente padrão para aprendizagem por reforço(OpenAI Gym [5]). Finalmente, nós aplicamos algoritmos do estado-da-arte em apren-dizado por reforço profundo com nosso framework em experimentos configuráveis paravalidar nossa modelagem e aprender uma política de caminhada estável em simulaçãopara o robô Marta, um sofisticado robô humanoide com 25 graus de liberdade Ver menos

Abstract: Robotics and its service applications with biped robots have faced an upsurge lately asthis category of robots is suitable for deployment in environments originally designed foroperation by humans. However, bipedal locomotion has proven to be a challenge in theoryand practice due to the... Ver mais

Abstract: Robotics and its service applications with biped robots have faced an upsurge lately asthis category of robots is suitable for deployment in environments originally designed foroperation by humans. However, bipedal locomotion has proven to be a challenge in theoryand practice due to the problem¿s high dimensionality: as walking gaits typically involveprecise real-time control of multiple actuators and sensors, coupled with complex dynam-ical systems. Concomitantly, reinforcement learning (RL) and its deep neural networkversion (DRL) are becoming a prominent approach in solving such challenging controlproblems due to their capacity to work on continuous and model-free processes. In thiswork, we modeled a locomotion task as an RL problem by proposing practical MDP repre-sentations and generalizable reward engineering strategies. We then proceeded to developa framework for integrating our simulator of choice (CoppeliaSim [11]) with the de factostandard interface for Reinforcement Learning (OpenAI Gym [5]). Finally, we appliedstate-of-the-art DRL algorithms within our framework in configurable and reproducibleexperiments to validate our modeling and learn a stable walking gait in simulation for theMarta robot, a sophisticated humanoid robot with 25 DOFs Ver menos

Nota de sistema

Requisitos do sistema: Software para leitura de arquivo em PDF

Assuntos

Aprendizado por reforço profundo

Caminhada bípede

Robótica

Autoria

Soares, Yuri Corrêa Pinto, 1994-

Colombini, Esther Luna, 1980- Orientador

Maximo, Marcos Ricardo Omena de Albuquerque, 1989 Avaliador

Rohmer, Eric, 1974- Avaliador

Universidade Estadual de Campinas (UNICAMP). Instituto de Computação. Programa de Pós-Graduação em Ciência da Computação

Arquivos

Texto completo pdf

Deep reinforcement learning for bipedal locomotion [recurso eletrônico] = Aprendizado por reforço profundo para locomoção bípede

Yuri Corrêa Pinto Soares

Deep reinforcement learning for bipedal locomotion [recurso eletrônico] = Aprendizado por reforço profundo para locomoção bípede

Yuri Corrêa Pinto Soares

Terminal de consulta web

Deep reinforcement learning for bipedal locomotion [recurso eletrônico] = Aprendizado por reforço profundo para locomoção bípede

Deep reinforcement learning for bipedal locomotion [recurso eletrônico] = Aprendizado por reforço profundo para locomoção bípede

Deep reinforcement learning for bipedal locomotion [recurso eletrônico] = Aprendizado por reforço profundo para locomoção bípede