Please use this identifier to cite or link to this item: http://repositorio.unicamp.br/jspui/handle/REPOSIP/333344
Type: DISSERTAÇÃO DIGITAL
Degree Level: Mestrado
Title: Intelligent control of a quadrotor using reinforcement learning with proximal policy optimization : Controle inteligente de um quadricóptero com aprendizado por reforço e otimização de políticas proximais
Title Alternative: Controle inteligente de um quadricóptero com aprendizado por reforço e otimização de políticas proximais
Author: Lopes, Guilherme Cano, 1993-
Advisor: Colombini, Esther Luna, 1980-
Abstract: Resumo: Plataformas aéreas como quadrotores são sistemas inerentemente instáveis. Em vários trabalhos, a tarefa de estabilizar o vôo de um quadrotor foi abordada por diferentes técnicas, geralmente baseadas em algoritmos de controle clássicos. No entanto, recentemente, algoritmos de aprendizado de reforço "livres de modelo"tem se mostrado efetivos para controlar estas plataformas. Neste trabalho, mostramos a viabilidade de aplicar uma téc- nica de aprendizado por reforço livre de modelo para otimizar uma política de controle estocástica (durante o treinamento) para realizar o controle de posição do quadrotor. Este processo é alcançado, mantendo-se uma boa eficiência de amostragem e permitindo uma convergência rápida, mesmo em simuladores comerciais para robótica, que são sofisticados e computacionalmente mais caros, sem a necessidade de qualquer estratégia de explora- ção adicional. Utilizou-se o algoritmo de Proximal Policy Optimization (PPO) para que o agente aprenda uma política de controle confiável. Em seguida, os resultados obti- dos da resposta do controlador inteligente obtido em várias condições. Adicionalmente, foram investigados três funções de recompensa baseadas no controlador Proporcional- Integrativo-Derivativo (PID) e a possibilidade de reduzir o erro de estado estacionário do controlador. Os experimentos para o controlador inteligente resultantes foram realizados usando o simulador V-REP e o motor de física Vortex. Os resultados mostram que é possível utilizar o PPO para controlar um quadrotor

Abstract: Aerial platforms, such as quadrotors, are inherently unstable systems. In several prior works, the task of stabilizing the flight of a quadrotor was approached by different techniques, generally based on classic control algorithms. However, recently, model-free rein- forcement learning algorithms have been successfully used for controlling these platforms. In this work, we show the feasibility of applying a reinforcement learning method to optimize a stochastic control policy (during training), to perform the position control of the quadrotor. This process maintains a good sampling efficiency while allowing fast con- vergence even when using computationally expensive off-the-shelf simulators for robotics and without the necessity of any additional exploration strategy. We used the Proximal Policy Optimization (PPO) algorithm to make the agent learn a reliable control policy. Then, we presented the results of the response of the obtained intelligent controller in several conditions. Additionally, we investigated reward signals based on the Proportional-Integrative-Derivative controller and the possibility of reducing the steady state error of the controller. The experiments for the resultant intelligent controller were performed using the V-REP simulator and the Vortex physics engine and results show that it is possible to train such algorithms to control quadrotors
Subject: Sistemas inteligentes de controle
Aprendizado de máquina
Aeronave não tripulada
Language: Inglês
Editor: [s.n.]
Citation: LOPES, Guilherme Cano. Intelligent control of a quadrotor using reinforcement learning with proximal policy optimization: Controle inteligente de um quadricóptero com aprendizado por reforço e otimização de políticas proximais. 2018. 1 recurso online (69 p.). Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP.
Date Issue: 2018
Appears in Collections:IC - Tese e Dissertação

Files in This Item:
File SizeFormat 
Lopes_GuilhermeCano_M.pdf4.6 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.