网站首页 站内搜索

搜索结果

查询Tags标签: Retrace,共有 2条记录
  • Safe and efficient off-policy reinforcement learning(Retrace)

    发表时间:2016(NIPS 2016) 文章要点:提出了一种新的在off-policy算法中修正behavior policy和target policy的方法:Retrace(λ)。最常见的修正当然是importance sampling,这个方式不仅用在value based方法中,在policy based方法中也最常用。除此之外,在value base…

    2021/7/20 6:05:52 人评论 次浏览
  • Safe and efficient off-policy reinforcement learning(Retrace)

    发表时间:2016(NIPS 2016) 文章要点:提出了一种新的在off-policy算法中修正behavior policy和target policy的方法:Retrace(λ)。最常见的修正当然是importance sampling,这个方式不仅用在value based方法中,在policy based方法中也最常用。除此之外,在value base…

    2021/7/20 6:05:52 人评论 次浏览
扫一扫关注最新编程教程