Learning and Planning in Complex Action Spaces
2021/8/19 6:06:23
本文主要是介绍Learning and Planning in Complex Action Spaces,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
发表时间:2021
文章要点:文章想说,在动作空间很大或者连续的时候,想要枚举所有动作来做MCTS是不现实的。作者提出了sample-based policy iteration framework,通过采用的方式来做MCTS(Sampled MuZero)。大概思路就是说,在MCTS里面扩展动作的时候,并不枚举所有动作,而是取一个动作子集来作为备选集合,搜索就限制在这个集合里。其实思路就是这样简单,后面作者就说了很多理论的东西,大概就是想说虽然我是采样的方式来planning的,但是我这个方式是有收敛保证的,只要随着采样动作数量K趋近无穷,那么这个sample-based policy improvement operator就依分布收敛到true policy improvement operator。这个其实有点废话了,趋近无穷不就是全扩展的MCTS了。不过回过头来说这个问题,如果采样动作K远小于总的动作N,会不会学到好的策略呢?作者的结果是说完全可以,那这个怎么理解呢?这里有个隐晦的点我感觉是这样的,虽然每次在每个节点上都只采样了K个动作来做MCTS,但是不同的节点,以及每次新建一个search tree的时候,每次采样的K个动作都是不一样的。所以随着policy network和value network的更新,再加上随机探索的噪声,其实每个动作都有机会被采到,只是不是出现在同一次MCTS中的同一个节点罢了。感觉这才是这篇文章work的关键,既省了算力,同时还work。同时还有一个关键点在于,最优策略应该是确定性策略,所以最终一个节点只要有一个动作就够了,这也保证了采样K<<N个动作从原理上来说肯定是足够的。然后具体每次如何选择动作子集呢,文章简单提了一下可以均匀分布采样,也可以用policy network来采样。
总结:这篇文章还挺有意思的,至少说明了我们的树搜索其实不用完全扩展所有动作,在每次建树的时候,只需要扩展一部分来做搜索就可以了。然后这个训练的过程一直持续下去,也会探索到所有动作的。
疑问:文章扯了一堆理论的东西Operator view of Policy Improvement,其实没看明白在干啥。
这篇关于Learning and Planning in Complex Action Spaces的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2025-01-05Easysearch 可搜索快照功能,看这篇就够了
- 2025-01-04BOT+EPC模式在基础设施项目中的应用与优势
- 2025-01-03用LangChain构建会检索和搜索的智能聊天机器人指南
- 2025-01-03图像文字理解,OCR、大模型还是多模态模型?PalliGema2在QLoRA技术上的微调与应用
- 2025-01-03混合搜索:用LanceDB实现语义和关键词结合的搜索技术(应用于实际项目)
- 2025-01-03停止思考数据管道,开始构建数据平台:介绍Analytics Engineering Framework
- 2025-01-03如果 Azure-Samples/aks-store-demo 使用了 Score 会怎样?
- 2025-01-03Apache Flink概述:实时数据处理的利器
- 2025-01-01使用 SVN合并操作时,怎么解决冲突的情况?-icode9专业技术文章分享
- 2025-01-01告别Anaconda?试试这些替代品吧