Please use this identifier to cite or link to this item: http://repositorio.unicamp.br/jspui/handle/REPOSIP/320755
Type: TESE DIGITAL
Degree Level: Doutorado
Title: Aprendizado por reforço e programação dinâmica aproximada com máquinas kernel para controle de sistemas não lineares
Title Alternative: Reinforcement learning and approximate dynamic programming with kernel machines for nonlinear systems control
Author: Teixeira, Hugo Tanzarella, 1984-
Advisor: Bottura, Celso Pascoli, 1938-
Abstract: Resumo: Aprendizado por reforço e programação dinâmica aproximada são paradigmas para o aprendizado de controle ótimo. Um algoritmo on-line de iteração de política, em que é possível obter políticas de controle quase-ótimas sem que haja conhecimento a priori do modelo da dinâmica do sistema controlado é proposto. Nele, as melhorias de política devem ser realizadas a cada poucas transições de estado, usando somente uma avaliação incompleta da política atual. Para a etapa de avaliação de política é proposto o uso de máquinas kernel como aproximador da função valor com o objetivo de melhorar a capacidade de generalização dos algoritmos de predição de valor. Para esta etapa, são propostos dois algoritmos: o primeiro usa uma versão on-line da máquina de vetores suporte para regressão para aproximar a função valor no algoritmo de diferença temporal. O segundo algoritmo usa funções kernel Mercer para aproximar a função valor no algoritmo de diferença temporal por mínimos quadrados recursivo. Um procedimento de esparsificação com base na dependência linear aproximada das amostras é realizado para manter a esparsidade da solução. Para demonstrar a eficácia dos algoritmos propostos, os comparamos com outros algoritmos de aprendizado por reforço em problemas simples de controle não linear

Abstract: Reinforcement learning and approximate dynamic programming are paradigms for optimal control learning. An online policy iteration algorithm, where near-optimal control policies can be obtained whithout a priori knowledge of the controlled system dynamic model is proposed. For this algorithm, policy improvements must be performed once every few state transitions, using only an incomplete evaluation of the current policy. For the policy evaluation step, the use of kernel machines as a value function approximator to improve the generalization ability of value prediction algorithms is proposed. For this step, two algorithms are proposed: the first one uses an online version of support vector regression to approximate the value function in the temporal difference algorithm. The second algorithm uses kernel Mercer functions to approximate the value function in the recursive least-squares temporal difference algorithm. A sparsification procedure based on approximate linear dependency of the samples is performed to keep the sparsity of the solution. To demonstrate the effectiveness of the proposed algorithms, they are compared with other reinforcement learning algorithms in simple nonlinear control benchmark tasks
Subject: Reinforcement learning
Programação dinâmica
Kernel, Funções de
Controle automático
Aprendizado de máquina
Editor: [s.n.]
Date Issue: 2016
Appears in Collections:FEEC - Tese e Dissertação

Files in This Item:
File SizeFormat 
Teixeira_HugoTanzarella_D.pdf8.58 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.