【NIPS 2018】循环World模型促进策略演变

2020/4/17 6:06:55

本文主要是介绍【NIPS 2018】循环World模型促进策略演变,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

  • 论文题目:Recurrent World Models Facilitate Policy Evolution

作者及标题信息

所解决的问题?

从world model中学一个policy,并将迁移到real world。

背景

人类通常是通过自己的感官数据建立自己对这个世界的认知模型。比如看同一张图片,不同的人能够得到不同的抽象理解,而这个理解跟他自己之前建立的世界观存在相关性。这种对世界的认知能够帮助我们,遇到问题或者是危险的时候,快速做出反应。

所采用的方法?

作者结合RNN和概率建模的方法做的。在这之前基于模型的强化学习算法能够取得比较好的效果,但是很多仍然在真实的环境中进行训练。而作者提出一种在生成的world model中学policy,并将其迁移到真实环境中。

Flow diagram showing how V, M, and C interacts with the environment (left).

VAE用于压缩信息得到latent vector。RNN用于输出一个概率密度函数p(z) (混合高斯模型做的)。RNN建模表示为P(z_{t+1}|a_{t},z_{t},h_{t}),具体关系如上图所示。控制器用的Covariance-Matrix Adaptation Evolution Strategy (CMA-ES) 。

总的来说就是基于观测的隐变量,对上一帧隐变量的预测,以及动作去预测下一帧隐变量。然后当前状态的隐变量和预测的状态隐变量来共同决定所选取哪个动作。

算法流程

这里作者期望RNN能够学的环境的编码之后隐变量与动作交互数据的潜在规律(因为RNN的输出是含有所有之前的历史信息的),然后用于辅助决策。VAE和RNN的训练都可以不需要奖励信息,只给交互数据就可以。

这么做的原因就是先对环境信息做了一个特征抽取,然后基于这个抽取的特征再用于训练得到policy,好处在于做了特征提取之后,观测的有效信息比较多,特征比较明显,那当然再做policy的学习会更快。

取得的效果?

实验结果

基于手工提取特征的智能体得分是V model 632分上下浮动。

实验效果

实验结果

所出版信息?作者信息?

David Ha谷歌大脑成员,主要研究机器智能。

David Ha

其它参考链接

  • 官方网页介绍:worldmodels.github.io/


这篇关于【NIPS 2018】循环World模型促进策略演变的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程