【NIPS 2018】循环World模型促进策略演变
2020/4/17 6:06:55
本文主要是介绍【NIPS 2018】循环World模型促进策略演变,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
- 论文题目:Recurrent World Models Facilitate Policy Evolution
所解决的问题?
从world model中学一个policy,并将迁移到real world。
背景
人类通常是通过自己的感官数据建立自己对这个世界的认知模型。比如看同一张图片,不同的人能够得到不同的抽象理解,而这个理解跟他自己之前建立的世界观存在相关性。这种对世界的认知能够帮助我们,遇到问题或者是危险的时候,快速做出反应。
所采用的方法?
作者结合RNN和概率建模的方法做的。在这之前基于模型的强化学习算法能够取得比较好的效果,但是很多仍然在真实的环境中进行训练。而作者提出一种在生成的world model中学policy,并将其迁移到真实环境中。
VAE用于压缩信息得到latent vector。RNN用于输出一个概率密度函数 (混合高斯模型做的)。RNN建模表示为,具体关系如上图所示。控制器用的Covariance-Matrix Adaptation Evolution Strategy (CMA-ES) 。
总的来说就是基于观测的隐变量,对上一帧隐变量的预测,以及动作去预测下一帧隐变量。然后当前状态的隐变量和预测的状态隐变量来共同决定所选取哪个动作。
这里作者期望RNN能够学的环境的编码之后隐变量与动作交互数据的潜在规律(因为RNN的输出是含有所有之前的历史信息的),然后用于辅助决策。VAE和RNN的训练都可以不需要奖励信息,只给交互数据就可以。
这么做的原因就是先对环境信息做了一个特征抽取,然后基于这个抽取的特征再用于训练得到policy,好处在于做了特征提取之后,观测的有效信息比较多,特征比较明显,那当然再做policy的学习会更快。
取得的效果?
基于手工提取特征的智能体得分是V model 632分上下浮动。
所出版信息?作者信息?
David Ha谷歌大脑成员,主要研究机器智能。
其它参考链接
- 官方网页介绍:worldmodels.github.io/
这篇关于【NIPS 2018】循环World模型促进策略演变的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-26Textual Inversion入门教程:轻松掌握文本翻转技巧
- 2024-11-2570 个群都来问我的 AI 日报,是这么做的。
- 2024-11-20实战:30 行代码做一个网页端的 AI 聊天助手
- 2024-11-185分钟搞懂大模型的重复惩罚后处理
- 2024-11-18基于Ollama和pgai的个人知识助手项目:用Postgres和向量扩展打造智能数据库
- 2024-11-15我用同一个提示测试了4款AI工具,看看谁设计的界面更棒
- 2024-11-15深度学习面试的时候,如何回答1x1卷积的作用
- 2024-11-15检索增强生成即服务:开发者的得力新帮手
- 2024-11-15技术与传统:人工智能时代的最后一袭纱丽
- 2024-11-15未结构化数据不仅仅是给嵌入用的:利用隐藏结构提升检索性能