6.2 带基线的 REINFORCE 算法 带基线的 REINFORCE 算法 上一节推导出了带基线的策略梯度,并且对策略梯度做了蒙特卡洛近似。本节中,我们使用状态价值\(V_\pi(s)\)作基线,得到策略梯度的一个无偏估计: \(\boldsymbol{g}(s,a;\theta) = \left[Q_\pi(s,a) - V_\pi(s)\right] \cdot \nabla_\theta \ln \pi(a|s;\thet 2024-12-04 AI > RL > DRL-王树森 #RL
6.1 带基线的策略梯度方法 带基线的策略梯度方法 上一章推导出策略梯度,并介绍了两种策略梯度方法——REINFORCE 和 actor-critic。 虽然上一章的方法在理论上是正确的,但是在实践中效果并不理想。本章介绍的带基线的策略梯度 (policy gradient with baseline) 可以大幅提升策略梯度方法的表现。使用基线(baseline) 之后,REINFORCE 变成 REINFORCE 2024-12-04 AI > RL > DRL-王树森 #RL
5.3 Dueling Network 对决网络 (Dueling Network) 本节介绍对决网络 (dueling network), 它是对 DQN 的神经网络结构的改进。它的基本想法是将最优动作价值\(Q^*\)分解成最优状态价值\(V^*\)加最优优势\(D^*\)。对决网络的训练与 DQN 完全相同,可以用 Q 学习算法或者双 Q 学习算法 。 最优优势函数 在介绍对决网络 (dueling network)之 2024-12-04 AI > RL > DRL-王树森 #RL
5.2 高估问题 高估问题及解决方法 Q 学习算法有一个缺陷:用 Q 学习训练出的 DQN 会高估真实的价值,而且高估通常是非均匀的。这个缺陷导致 DQN 的表现很差。高估问题并不是 DQN 模型的缺陷,而是 Q 学习算法的缺陷。 Q 学习产生高估的原因有两个:第一,自举导致偏差的传播;第二,最大化导致 TD 目标高估真实价值。为了缓解高估,需要从导致高估的两个原因下手,改进 Q学习算法。双 Q学习算 2024-12-04 AI > RL > DRL-王树森 #RL
5.1 经验回放 价值学习高级技巧 前面介绍了 DQN, 并且用 Q学习算法训练 DQN。如果用最原始的 Q 学习算法,那么训练出的 DQN 效果会很不理想。想要提升 DQN 的表现,需要用本章的高级技巧。文献中已经有充分实验结果表明这些高级技巧对 DQN 非常有效,而且这些技巧不冲突,可以一起使用。有些技巧并不局限于DQN,而是可以应用于多种价值学习和策略学习方法。 介绍经验回放 (experienc 2024-12-04 AI > RL > DRL-王树森 #RL
4.3 多步 TD目标 多步 TD 目标 首先回顾一下 SARSA 算法。给定五元组\((s_t, a_t, r_t, s_{t+1}, a_{t+1})\), SARSA 计算 TD 目标: \(\hat{y}_t = r_t + \gamma \cdot q(s_{t+1}, a_{t+1}; \boldsymbol{w}).\) 公式中只用到一个奖励\(r_t\),这样得到的\(\hat{y}_t\)叫做 2024-12-04 AI > RL > DRL-王树森 #RL
4.2 Q-learning算法 Q 学习与 SARSA 的对比: Q学习不依赖于\(\pi\), 因此Q学习属于异策略 (off-policy), 可以用经验回放。而 SARSA 依赖于\(\pi\), 因此 SARSA 属于同策略(on-policy), 不能用经验回放。两种算法的对比如图 5.2 所示。 Q学习的目标是学到表格\(\tilde{Q}\), 作为最优动作价值函数\(Q^*\)的近似。因为\(Q^*\) 2024-12-04 AI > RL > DRL-王树森 #RL
4.1 Sarsa算法 TD 算法是一大类算法的总称。Q 学习是一种 TD 算法,Q 学习的目的是学习最优动作价值函数\(Q^*\)。这里介绍 SARSA, 它也是一种 TD 算法,SARSA 的目的是学习动作价值函数\(Q_\pi(s, a)\)。 表格形式的 SARSA 假设状态空间\(S\)和动作空间\(\mathcal{A}\)都是有限集,即集合中元素数量有限。比如,\(S\)中一共有 3 种状态,\( 2024-12-04 AI > RL > DRL-王树森 #RL
3.1 随机排列 Random Permutation(随机排列) What is uniform random permutation? Fisher-Yates 洗牌算法 排列数等于n! “uniform random permutation”(均匀随机排列)是指生成一个排列,其中每个可能的排列都以相等的概率出现。具体来说,对于含有n个元素的集合,它的所有n!个排列中的每一个都有相同的概率被选中。 2024-12-04 AI > RL > DRL-王树森 #RL
2.1 蒙特卡洛估计 ChatGPT对蒙特卡洛方法的介绍 蒙特卡洛方法是一类基于随机抽样和统计学原理的数值计算方法,其核心思想是通过随机抽样来近似解决问题。这种方法在强化学习、优化问题、概率估计等领域都有广泛的应用。以下是关于蒙特卡洛方法的一些基本概念: 基本思想 随机抽样: 蒙特卡洛方法利用随机抽样的方式来近似计算某个问题的数值解。通过大量的随机样本,可以得到对问题的概率分布、期望值等进行估计的结果。 2024-12-04 AI > RL > DRL-王树森 #RL