热门标签
更多>
搜索结果
查询Tags标签: 隔得,共有 2条记录-
Safe and efficient off-policy reinforcement learning(Retrace)
发表时间:2016(NIPS 2016) 文章要点:提出了一种新的在off-policy算法中修正behavior policy和target policy的方法:Retrace(λ)。最常见的修正当然是importance sampling,这个方式不仅用在value based方法中,在policy based方法中也最常用。除此之外,在value base…
2021/7/20 6:05:52 人评论 次浏览 -
Safe and efficient off-policy reinforcement learning(Retrace)
发表时间:2016(NIPS 2016) 文章要点:提出了一种新的在off-policy算法中修正behavior policy和target policy的方法:Retrace(λ)。最常见的修正当然是importance sampling,这个方式不仅用在value based方法中,在policy based方法中也最常用。除此之外,在value base…
2021/7/20 6:05:52 人评论 次浏览