Benchmarking Batch Deep Reinforcement Learning Algorithms
2021/9/4 6:05:58
本文主要是介绍Benchmarking Batch Deep Reinforcement Learning Algorithms,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
发表时间:2019
文章要点:这篇文章主要是针对batch RL做了一个离散动作空间的benchmark,对比了DQN和一些batch RL算法的性能(DQN,REM,QR-DQN,KL-Control,BCQ)。并且把BCQ从连续动作空间改成适用离散动作空间,取得了SOTA的效果。作者得出的结论是,要想batch RL效果好,就要考虑外推误差(extrapolation error)的问题,否则会造成unstable value estimates,导致效果不好。extrapolation error的意思就是说我在评估action value的时候,可能在fix data上并没有这个值,但是由于TD更新,不小心把这个data里没有的action value更新大了,但是其实这个值实际可能很差,这就造成了误差导致效果更差了(induced from evaluating state-action pairs which are not contained in the provided batch of data. This erroneous extrapolation is propagated through temporal difference update of most off-policy algorithms, causing extreme overestimation and poor performance)。这个其实不做实验也能想到,不过这个结论没毛病。
总结:这篇paper主要就是做了个benchmark,得出的结论也是make sense的。
疑问:文章提了好多个batch RL的算法都没看过,要是以后真要做batch RL的东西,可以从这篇里面找这些算法出来看看:QR-DQN,REM,BCQ,BEAR-QL,KL-Control,SPIBB-DQN。
这篇关于Benchmarking Batch Deep Reinforcement Learning Algorithms的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-12-20go-zero 框架的 RPC 服务 启动start和停止 底层是怎么实现的?-icode9专业技术文章分享
- 2024-12-19Go-Zero 框架的 RPC 服务启动和停止的基本机制和过程是怎么实现的?-icode9专业技术文章分享
- 2024-12-18怎么在golang中使用gRPC测试mock数据?-icode9专业技术文章分享
- 2024-12-15掌握PageRank算法核心!你离Google优化高手只差一步!
- 2024-12-15GORM 中的标签 gorm:"index"是什么?-icode9专业技术文章分享
- 2024-12-11怎么在 Go 语言中获取 Open vSwitch (OVS) 的桥接信息(Bridge)?-icode9专业技术文章分享
- 2024-12-11怎么用Go 语言的库来与 Open vSwitch 进行交互?-icode9专业技术文章分享
- 2024-12-11怎么在 go-zero 项目中发送阿里云短信?-icode9专业技术文章分享
- 2024-12-11怎么使用阿里云 Go SDK (alibaba-cloud-sdk-go) 发送短信?-icode9专业技术文章分享
- 2024-12-10搭建个人博客网站之一、使用hugo创建个人博客网站