【CoRL 2018】通过元策略优化的MBRL算法
2020/4/17 6:06:49
本文主要是介绍【CoRL 2018】通过元策略优化的MBRL算法,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
- 论文题目:Model-Based Reinforcement Learning via Meta-Policy Optimization
所解决的问题?
提出一种不依赖于learned dynamic model
精度的学习算法Model-Based Meta-Policy-Optimization (MB-MPO),。同样是使用emsemble的方法集成learned model,然后用meta-train的方法学一个policy,使得其能够对任意一个model都具有较好的学习效果。最终使得算法的鲁棒性更强。
背景
之前的大多数model-based方法都集中在trajectory sample和dynamic model train这两个步骤。如用贝叶神经网络的这些方法。贝叶斯的方法一般用于低维空间,神经网络虽然具备用于高维空间的潜力,但是很大程度会依赖模型预测的精度才能取得较好效果。
也有前人工作是解决model学习不准确的问题,与本文最相似的就是EM-TRPO算法,而本文采用的是元学习算法,指在模型不精确的情况下加强其鲁棒性。
所采用的方法?
Model Learning
在学习model的时候,作者学习的是状态的改变量。用的是one-step预测:
为了防止过拟合,作者采用以下三点:
- early stopping the training based on the validation loss;
- normalizing the inputs and outputs of the neural network;
- weight normalization
- T.Salimans and D.P.Kingma. Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks. In NIPS, 2 2016.
Meta-Reinforcement Learningon Learned Models
Each task constitutes a different belief about what the dynamics in the true environment could be. 优化目标为:
其中表示是在策略和估计的动态模型下的期望回报。
这里是直接学习如何调整,而不是从学好的模型的数据中学习policy,这也是与ME-TRPO的区别。
取得的效果?
与model-free算法对比:
与model-based算法对比:
作者还做了一些实验与MR-TRPO算法对比,感兴趣可以参考原文。
所出版信息?作者信息?
Ignasi Clavera 加州大学伯克利分校 CS的三年级博士生,导师伯克利人工智能研究(BAIR)实验室的Pieter Abbeel。研究方向是机器学习与控制的交集,旨在使机器人系统能够学习如何有效地执行复杂的任务。
参考链接
- 官方介绍:sites.google.com/view/mb-mpo
- 代码链接:github.com/jonasrothfu…
这篇关于【CoRL 2018】通过元策略优化的MBRL算法的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-26MATLAB 中 A(7)=[];什么意思?-icode9专业技术文章分享
- 2024-11-26UniApp 中如何实现使用输入法时保持页面列表不动的效果?-icode9专业技术文章分享
- 2024-11-26在 UniApp 中怎么实现输入法弹出时禁止页面向上滚动?-icode9专业技术文章分享
- 2024-11-26WebSocket是什么,怎么使用?-icode9专业技术文章分享
- 2024-11-26页面有多个ref 要动态传入怎么实现?-icode9专业技术文章分享
- 2024-11-26在 UniApp 中实现一个底部输入框的常见方法有哪些?-icode9专业技术文章分享
- 2024-11-26RocketMQ入门指南:搭建与使用全流程详解
- 2024-11-26RocketMQ入门教程:轻松搭建与使用指南
- 2024-11-26手写RocketMQ:从入门到实践的简单教程
- 2024-11-25【机器学习(二)】分类和回归任务-决策树(Decision Tree,DT)算法-Sentosa_DSML社区版