7.2 确定策略梯度 (DPG) 确定策略梯度 (DPG) 确定策略梯度 (deterministic policy gradient, DPG) 是最常用的连续控制方法。DPG 是一种 actor-critic 方法,它有一个策略网络 (演员), 一个价值网络 (评委)。策略网络控制智能体做运动,它基于状态\(s\)做出动作\(a\)。价值网络不控制智能体,只是基于状态\(s\)给动作\(a\)打分,从而指导策略网络做出改 2024-12-04 AI > RL > DRL-王树森 #RL
7.1 连续控制 连续控制 前面的内容全部都是离散控制,即动作空间是一个离散的集合,比如超级玛丽游戏中的动作空间\(A=\{左,右,上\}\)是个离散集合。本章的内容是连续控制,即动作空间是个连续集合,比如汽车的转向\(A=[-40^{\circ},40^{\circ}]\)就是连续集合。如果把连续动作空间做离散化,那么离散控制的方法就能直接解决连续控制问题;先讨论连续集合的离散化。然而更好的办法是直接用连续控制 2024-12-04 AI > RL > DRL-王树森 #RL
6.3 Advantage Actor-Critic (A2C) Advantage Actor-Critic (A2C) 之前我们推导出了带基线的策略梯度,并且对策略梯度做了蒙特卡洛近似,得到策略梯度的一个无偏估计: \(g(s, a; \theta) = \left[ Q_\pi(s, a) - V_\pi(s) \right] \cdot \nabla_\theta \ln \pi(a | s; \theta). \quad (8.2)\) 公式 2024-12-04 AI > RL > DRL-王树森 #RL
6.2 带基线的 REINFORCE 算法 带基线的 REINFORCE 算法 上一节推导出了带基线的策略梯度,并且对策略梯度做了蒙特卡洛近似。本节中,我们使用状态价值\(V_\pi(s)\)作基线,得到策略梯度的一个无偏估计: \(\boldsymbol{g}(s,a;\theta) = \left[Q_\pi(s,a) - V_\pi(s)\right] \cdot \nabla_\theta \ln \pi(a|s;\thet 2024-12-04 AI > RL > DRL-王树森 #RL
6.1 带基线的策略梯度方法 带基线的策略梯度方法 上一章推导出策略梯度,并介绍了两种策略梯度方法——REINFORCE 和 actor-critic。 虽然上一章的方法在理论上是正确的,但是在实践中效果并不理想。本章介绍的带基线的策略梯度 (policy gradient with baseline) 可以大幅提升策略梯度方法的表现。使用基线(baseline) 之后,REINFORCE 变成 REINFORCE 2024-12-04 AI > RL > DRL-王树森 #RL
5.3 Dueling Network 对决网络 (Dueling Network) 本节介绍对决网络 (dueling network), 它是对 DQN 的神经网络结构的改进。它的基本想法是将最优动作价值\(Q^*\)分解成最优状态价值\(V^*\)加最优优势\(D^*\)。对决网络的训练与 DQN 完全相同,可以用 Q 学习算法或者双 Q 学习算法 。 最优优势函数 在介绍对决网络 (dueling network)之 2024-12-04 AI > RL > DRL-王树森 #RL
5.2 高估问题 高估问题及解决方法 Q 学习算法有一个缺陷:用 Q 学习训练出的 DQN 会高估真实的价值,而且高估通常是非均匀的。这个缺陷导致 DQN 的表现很差。高估问题并不是 DQN 模型的缺陷,而是 Q 学习算法的缺陷。 Q 学习产生高估的原因有两个:第一,自举导致偏差的传播;第二,最大化导致 TD 目标高估真实价值。为了缓解高估,需要从导致高估的两个原因下手,改进 Q学习算法。双 Q学习算 2024-12-04 AI > RL > DRL-王树森 #RL
5.1 经验回放 价值学习高级技巧 前面介绍了 DQN, 并且用 Q学习算法训练 DQN。如果用最原始的 Q 学习算法,那么训练出的 DQN 效果会很不理想。想要提升 DQN 的表现,需要用本章的高级技巧。文献中已经有充分实验结果表明这些高级技巧对 DQN 非常有效,而且这些技巧不冲突,可以一起使用。有些技巧并不局限于DQN,而是可以应用于多种价值学习和策略学习方法。 介绍经验回放 (experienc 2024-12-04 AI > RL > DRL-王树森 #RL
4.3 多步 TD目标 多步 TD 目标 首先回顾一下 SARSA 算法。给定五元组\((s_t, a_t, r_t, s_{t+1}, a_{t+1})\), SARSA 计算 TD 目标: \(\hat{y}_t = r_t + \gamma \cdot q(s_{t+1}, a_{t+1}; \boldsymbol{w}).\) 公式中只用到一个奖励\(r_t\),这样得到的\(\hat{y}_t\)叫做 2024-12-04 AI > RL > DRL-王树森 #RL
4.2 Q-learning算法 Q 学习与 SARSA 的对比: Q学习不依赖于\(\pi\), 因此Q学习属于异策略 (off-policy), 可以用经验回放。而 SARSA 依赖于\(\pi\), 因此 SARSA 属于同策略(on-policy), 不能用经验回放。两种算法的对比如图 5.2 所示。 Q学习的目标是学到表格\(\tilde{Q}\), 作为最优动作价值函数\(Q^*\)的近似。因为\(Q^*\) 2024-12-04 AI > RL > DRL-王树森 #RL