【NIPS 2018】循环World模型促进策略演变

2020/4/17 6:06:55

编程Tag： 强化学习

本文主要是介绍【NIPS 2018】循环World模型促进策略演变，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

论文题目：Recurrent World Models Facilitate Policy Evolution

所解决的问题？

从world model中学一个policy，并将迁移到real world。

背景

人类通常是通过自己的感官数据建立自己对这个世界的认知模型。比如看同一张图片，不同的人能够得到不同的抽象理解，而这个理解跟他自己之前建立的世界观存在相关性。这种对世界的认知能够帮助我们，遇到问题或者是危险的时候，快速做出反应。

所采用的方法？

作者结合RNN和概率建模的方法做的。在这之前基于模型的强化学习算法能够取得比较好的效果，但是很多仍然在真实的环境中进行训练。而作者提出一种在生成的world model中学policy，并将其迁移到真实环境中。

Flow diagram showing how V, M, and C interacts with the environment (left).

VAE用于压缩信息得到latent vector。RNN用于输出一个概率密度函数 $p(z)$ (混合高斯模型做的)。RNN建模表示为 $P(z_{t+1}|a_{t},z_{t},h_{t})$ ，具体关系如上图所示。控制器用的Covariance-Matrix Adaptation Evolution Strategy (CMA-ES) 。