Behaviour Suite for Reinforcement Learning(bsuite)
2021/7/23 6:05:50
本文主要是介绍Behaviour Suite for Reinforcement Learning(bsuite),对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
发表时间:2020(ICLR 2020)
文章要点:这篇文章设计了一个工具用来分析RL agent的各种能力,比如有没有记忆功能,泛化性如何,探索能力强不强,credit assignment做得怎么样,对reward scale稳不稳健等等,然后自动生成一个pdf的测试报告,让你以后写paper可以直接放在附录做appendix。设计的思路就是专门针对某个具体问题来设计一些环境(比如你想测credit assignment,就设计一个序列很长的环境,只在最后有一个reward,并且最后的reward只和你在第一个状态做的动作有关),然后你设计的算法在这上面跑,完了就生成这个算法的实验结果。有点像RL界的单元测试。目前的环境貌似还很简单,都是bandit,cartpole,deep sea这种toy environment的感觉。可能在前期设计和调整算法的时候,先在这样的简单环境上测试一下,方便调试。
总结:有点那个意思了,就是想分析算法各个方面的能力,但是环境还是太简单,测试的维度还比较少,不一定就真的能反应出问题。
疑问:无
这篇关于Behaviour Suite for Reinforcement Learning(bsuite)的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-20获取apk的md5值有哪些方法?-icode9专业技术文章分享
- 2024-11-20xml报文没有传 IdentCode ,为什么正常解析没报错呢?-icode9专业技术文章分享
- 2024-11-20如何知道代码有没有进行 Schema 验证?-icode9专业技术文章分享
- 2024-11-20Mycat教程:新手快速入门指南
- 2024-11-20WebSocket入门:轻松掌握WebSocket基础
- 2024-11-19WebSocket入门指南:轻松搭建实时通信应用
- 2024-11-19Nacos安装资料详解:新手入门教程
- 2024-11-19Nacos安装资料:新手入门教程
- 2024-11-19升级 Gerrit 时有哪些注意事项?-icode9专业技术文章分享
- 2024-11-19pnpm是什么?-icode9专业技术文章分享