【5分钟 Paper】Deep Recurrent Q-Learning for Partially Observable MDPs

2020/3/15 6:01:33

编程Tag： 强化学习

本文主要是介绍【5分钟 Paper】Deep Recurrent Q-Learning for Partially Observable MDPs，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

这篇论文最开始是15年提出来的，但最新的修订版本是17年的，下文所有内容都以17年版本为主。

所解决的问题？

如题目中所述，作者解决的就是部分可观测马尔可夫决策过程 (Partially-Observable Markov Decision Process (POMDP)) 中难以获得全部的可观测信息这个问题。

主要就是对DQN做一个改进，变成了Deep Recurrent Q-Network (DRQN)。中国有句古话叫前因后果，DQN中一般取4帧图像数据，对序贯状态的割裂程度比较厉害，往往很难考虑到很久之前的状态对现在的影响，而有些问题却又得考虑周全。

作者采用Hochreiter 和 Schmidhuber 1997年提出来的Long Short Term Memory (LSTM)结合DQN来解决这个部分可观测的问题。

其网络结构如下所示：

由于网络里面有LSTM，作者主要考虑了两种更新方式：Bootstrapped Sequential Updates和Bootstrapped Random Updates。

这两种更新方式的区别在于隐含状态是否清零。每个Episode更新的话能学到更多的东西，而随机的话更符合DQN中随机采样的思想。这两种方法的实验结果是非常相似的。作者文中采用的是随机采样的方式，期望它具有更强的泛化能力。

部分可观测环境：在每个timestep，游戏图像都会以0.5的概率模糊化。这里作者给出了两个结果，一个最好的和一个最差的。

作者还提出了一个问题：直接在MDP框架下训练的强化学习算法，能否直接泛化到POMDP上面呢？实验结果如下所示：

从上述结果可以看出，DRQN的泛化能力比DQN的鲁棒性要好很多。这也就说明用了LSTM不仅能处理POMDP并且性能、鲁棒性都较DQN会有所提升。

这是一篇15年发表在national conference on artificial intelligence上的一篇文章。作者Matthew Hausknecht是得克萨斯大学奥斯汀分校（University of Texas at Austin）的博士，目前是微软的高级研究员。

作者也不是这篇文章的思想创始人，早在文献1：2007年Wierstra就有将LSTM用于解决部分可观测马尔可夫决策框架下的论文，但是是用在Policy Gradient的方法下，并且DRQN还结合了卷积神经网络一起训练，避免了手工提取特征。

文献2：在2001年的时候，Bakker在cartpole任务下实验了，LSTM解决POMDP是要比RNN要好的。

Wierstra, D.; Foerster, A.; Peters, J.; and Schmidthuber, J. 2007. Solving deep memory POMDPs with recurrent policy gradients.
Bakker, B. 2001. Reinforcement learning with long shortterm memory. In NIPS, 1475–1482. MIT Press.

我的微信公众号名称：深度学习与先进智能决策 微信公众号ID：MultiAgent1024 公众号介绍：主要研究分享深度学习、机器博弈、强化学习等相关内容！期待您的关注，欢迎一起学习交流进步！

这篇关于【5分钟 Paper】Deep Recurrent Q-Learning for Partially Observable MDPs的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！