【NIPS 2018】循环World模型促进策略演变
2020/4/17 6:06:55
本文主要是介绍【NIPS 2018】循环World模型促进策略演变,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
- 论文题目:Recurrent World Models Facilitate Policy Evolution
所解决的问题?
从world model中学一个policy,并将迁移到real world。
背景
人类通常是通过自己的感官数据建立自己对这个世界的认知模型。比如看同一张图片,不同的人能够得到不同的抽象理解,而这个理解跟他自己之前建立的世界观存在相关性。这种对世界的认知能够帮助我们,遇到问题或者是危险的时候,快速做出反应。
所采用的方法?
作者结合RNN和概率建模的方法做的。在这之前基于模型的强化学习算法能够取得比较好的效果,但是很多仍然在真实的环境中进行训练。而作者提出一种在生成的world model中学policy,并将其迁移到真实环境中。
VAE用于压缩信息得到latent vector。RNN用于输出一个概率密度函数 (混合高斯模型做的)。RNN建模表示为,具体关系如上图所示。控制器用的Covariance-Matrix Adaptation Evolution Strategy (CMA-ES) 。
总的来说就是基于观测的隐变量,对上一帧隐变量的预测,以及动作去预测下一帧隐变量。然后当前状态的隐变量和预测的状态隐变量来共同决定所选取哪个动作。
这里作者期望RNN能够学的环境的编码之后隐变量与动作交互数据的潜在规律(因为RNN的输出是含有所有之前的历史信息的),然后用于辅助决策。VAE和RNN的训练都可以不需要奖励信息,只给交互数据就可以。
这么做的原因就是先对环境信息做了一个特征抽取,然后基于这个抽取的特征再用于训练得到policy,好处在于做了特征提取之后,观测的有效信息比较多,特征比较明显,那当然再做policy的学习会更快。
取得的效果?
基于手工提取特征的智能体得分是V model 632分上下浮动。
所出版信息?作者信息?
David Ha谷歌大脑成员,主要研究机器智能。
其它参考链接
- 官方网页介绍:worldmodels.github.io/
这篇关于【NIPS 2018】循环World模型促进策略演变的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-01动态面包屑学习:新手入门教程
- 2024-11-01动态权限学习入门指南
- 2024-11-01动态主题处理学习:初学者指南
- 2024-10-3111 个全球最好的 AI 文本转语音工具分析(2024 年)
- 2024-10-30数据回测教程:初学者必备指南
- 2024-10-30自动交易学习:新手入门指南
- 2024-10-30基于卡尔曼滤波器的递归状态估计与ROS 2的应用讲解
- 2024-10-30?? pgai 向量化工具:用一条 SQL 命令在 PostgreSQL 自动生成 AI 嵌入向量
- 2024-10-30量化进阶实战:零基础到初级量化交易者的必修课
- 2024-10-30量化交易项目实战:初学者指南