网站首页 站内搜索

搜索结果

查询Tags标签: td3,共有 1条记录
  • 深度强化学习off-policy类算法多进程加速训练实现(以TD3为例)

    思路 与on-policy类算法的多进程加速不同,off-policy算法的子进程虽然也是用来探索环境,但是它收集到的数据可以随时添加进主进程的buffer中。另外,off-policy算法子进程探索环境的策略也不必与主进程等待训练的策略保持完全一致(off-policy名称由来)。听起来off-pol…

    2021/5/18 7:27:42 人评论 次浏览
扫一扫关注最新编程教程