搜索结果
查询Tags标签: DQN,共有 12条记录-
强化学习(DQN)之基础概念
目录 1. 数学知识 1.1 随机变量与观测值 1.2 概率密度函数 1.3 期望 2. 专业术语 2.1 agent 2.2 action 2.3 state 2.4 policy 2.5 reward 2.6 state transition 2.7 trajectory 2.8 return 2.9 value function 2.9.1 动作价值函数 2.9.2 状态价值函数 3.OpenAI Gym讲完了…
2022/3/20 0:00:36 人评论 次浏览 -
强化学习入门笔记 | UCL silver RL | UC Berkely cs285 DRL
学习情况: 先后听了两门课程,分别是David Silver的RL和Sergey Levin的DRL。各耗时一周左右,后者更难一些。对RL基本概念、常用算法原理及其伪代码有了大致了解。但是因为时间有点赶,没有敲完整的算法代码。 由于已经有写得比较好的课程笔记 (RL 和 DRL),就不重复造轮…
2022/3/2 6:17:34 人评论 次浏览 -
再谈《强化学习算法之DQN算法中的经验池的实现》 experience_replay_buffer模块的实现
去年曾写过一篇DQN经验池模块编写的博文: 强化学习算法之DQN算法中的经验池的实现,experience_replay_buffer部分的实现
2022/2/1 17:39:18 人评论 次浏览 -
DDPG深度确定性策略梯度算法概述
DDPG(Deep Deterministic Policy Gradient)是连续控制领域的经典强化学习算法,是结合PG和DQN的一种off-policy方法。 可以看作是DQN的改进,在DQN的Q网络基础上引入Actor网络预测一个使Q值最大的动作值,从而能够应对连续动作空间,且使用了DQN中的目标网络和经验复现技巧…
2021/9/11 20:05:30 人评论 次浏览 -
DDPG深度确定性策略梯度算法概述
DDPG(Deep Deterministic Policy Gradient)是连续控制领域的经典强化学习算法,是结合PG和DQN的一种off-policy方法。 可以看作是DQN的改进,在DQN的Q网络基础上引入Actor网络预测一个使Q值最大的动作值,从而能够应对连续动作空间,且使用了DQN中的目标网络和经验复现技巧…
2021/9/11 20:05:30 人评论 次浏览 -
paddle2使用DQN跑CartPole(详细解读)
1.Model 使用的是动态图版本的Paddle。所以用了Paddle.nn。 输入维度为obs_dim;输出维度为act_dim。中间隐藏层是100个神经元。第一层网络输出使用tanh激活函数;第二层网络输出使用softmax函数将数值转化为概率。 class CartpoleModel(parl.Model):def __init__(self, ob…
2021/9/6 23:36:16 人评论 次浏览 -
paddle2使用DQN跑CartPole(详细解读)
1.Model 使用的是动态图版本的Paddle。所以用了Paddle.nn。 输入维度为obs_dim;输出维度为act_dim。中间隐藏层是100个神经元。第一层网络输出使用tanh激活函数;第二层网络输出使用softmax函数将数值转化为概率。 class CartpoleModel(parl.Model):def __init__(self, ob…
2021/9/6 23:36:16 人评论 次浏览 -
Benchmarking Batch Deep Reinforcement Learning Algorithms
发表时间:2019 文章要点:这篇文章主要是针对batch RL做了一个离散动作空间的benchmark,对比了DQN和一些batch RL算法的性能(DQN,REM,QR-DQN,KL-Control,BCQ)。并且把BCQ从连续动作空间改成适用离散动作空间,取得了SOTA的效果。作者得出的结论是,要想batch RL效…
2021/9/4 6:05:58 人评论 次浏览 -
Benchmarking Batch Deep Reinforcement Learning Algorithms
发表时间:2019 文章要点:这篇文章主要是针对batch RL做了一个离散动作空间的benchmark,对比了DQN和一些batch RL算法的性能(DQN,REM,QR-DQN,KL-Control,BCQ)。并且把BCQ从连续动作空间改成适用离散动作空间,取得了SOTA的效果。作者得出的结论是,要想batch RL效…
2021/9/4 6:05:58 人评论 次浏览 -
【强化学习】DQN及其延伸算法
目录 DQN算法价值函数的近似表示提出背景:近似表示:状态价值函数动作价值函数概述经验回放(experience replay)算法流程小结Nature DQN算法概述Nature DQN的优化点:Nature DQN 建模——双网络结构:算法流程小结Double DQN算法概述DDQN的优化点:DDQN建模——Q值与动…
2021/7/18 22:05:16 人评论 次浏览 -
【强化学习】DQN及其延伸算法
目录 DQN算法价值函数的近似表示提出背景:近似表示:状态价值函数动作价值函数概述经验回放(experience replay)算法流程小结Nature DQN算法概述Nature DQN的优化点:Nature DQN 建模——双网络结构:算法流程小结Double DQN算法概述DDQN的优化点:DDQN建模——Q值与动…
2021/7/18 22:05:16 人评论 次浏览 -
【强化学习】基于DQN的《只狼:影逝二度》自学习算法研究
前言 写在前面 作为强化学习的入门练手项目之一,得益于《只狼》的特殊游戏机制,这个看似复杂的课题实际上难度不高且相当有趣(特别鸣谢两位b站up提供的宝贵思路)。《只狼》作为一款3D动作游戏,一是战斗目标可锁定且视角可固定,这意味着图像区域可以被有效剪裁,很好…
2021/5/23 14:25:48 人评论 次浏览