搜索结果
查询Tags标签: Proximal,共有 4条记录-
对偶与Proximal
定理.conjugate subgradient theorem这个定理比较重要的一点在于指导如何求解对偶梯度,例如对于\(y\)存在\(x\in\partial f^*(y)\),则\(x\)需要满足 \[\langle x,y\rangle-f(x)=f^*(y)=\max_{\sup \tilde{x}}(\langle \tilde x, y\rangle-f(\tilde x)) \]那么这时候我们…
2021/11/5 23:11:50 人评论 次浏览 -
对偶与Proximal
定理.conjugate subgradient theorem这个定理比较重要的一点在于指导如何求解对偶梯度,例如对于\(y\)存在\(x\in\partial f^*(y)\),则\(x\)需要满足 \[\langle x,y\rangle-f(x)=f^*(y)=\max_{\sup \tilde{x}}(\langle \tilde x, y\rangle-f(\tilde x)) \]那么这时候我们…
2021/11/5 23:11:50 人评论 次浏览 -
近端策略优化算法(Proximal Policy Optimization Algorithms, PPO)
近端策略优化算法(Proximal Policy Optimization Algorithms, PPO) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/这篇博文是Schulman, J., Wolski, F., Dhariwal, P., Radford, A., and Klimov, O. Proximal policy optimization algorithms. Advances in …
2021/10/12 11:14:45 人评论 次浏览 -
近端策略优化算法(Proximal Policy Optimization Algorithms, PPO)
近端策略优化算法(Proximal Policy Optimization Algorithms, PPO) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/这篇博文是Schulman, J., Wolski, F., Dhariwal, P., Radford, A., and Klimov, O. Proximal policy optimization algorithms. Advances in …
2021/10/12 11:14:45 人评论 次浏览