Binbo

6.2 带基线的 REINFORCE 算法

6.2 带基线的 REINFORCE 算法

带基线的 REINFORCE 算法上一节推导出了带基线的策略梯度，并且对策略梯度做了蒙特卡洛近似。本节中，我们使用状态价值\(V_\pi(s)\)作基线，得到策略梯度的一个无偏估计： \(\boldsymbol{g}(s,a;\theta) = \left[Q_\pi(s,a) - V_\pi(s)\right] \cdot \nabla_\theta \ln \pi(a|s;\thet

2024-12-04

AI > RL > DRL-王树森

#RL

6.1 带基线的策略梯度方法

6.1 带基线的策略梯度方法

带基线的策略梯度方法上一章推导出策略梯度，并介绍了两种策略梯度方法——REINFORCE 和 actor-critic。虽然上一章的方法在理论上是正确的，但是在实践中效果并不理想。本章介绍的带基线的策略梯度 (policy gradient with baseline) 可以大幅提升策略梯度方法的表现。使用基线(baseline) 之后，REINFORCE 变成 REINFORCE

2024-12-04

AI > RL > DRL-王树森

#RL

5.3 Dueling Network

5.3 Dueling Network

对决网络 (Dueling Network) 本节介绍对决网络 (dueling network), 它是对 DQN 的神经网络结构的改进。它的基本想法是将最优动作价值\(Q^*\)分解成最优状态价值\(V^*\)加最优优势\(D^*\)。对决网络的训练与 DQN 完全相同，可以用 Q 学习算法或者双 Q 学习算法。最优优势函数在介绍对决网络 (dueling network)之

2024-12-04

AI > RL > DRL-王树森

#RL

5.2 高估问题

5.2 高估问题

高估问题及解决方法 Q 学习算法有一个缺陷：用 Q 学习训练出的 DQN 会高估真实的价值，而且高估通常是非均匀的。这个缺陷导致 DQN 的表现很差。高估问题并不是 DQN 模型的缺陷，而是 Q 学习算法的缺陷。 Q 学习产生高估的原因有两个：第一，自举导致偏差的传播；第二，最大化导致 TD 目标高估真实价值。为了缓解高估，需要从导致高估的两个原因下手，改进 Q学习算法。双 Q学习算

2024-12-04

AI > RL > DRL-王树森

#RL

5.1 经验回放

5.1 经验回放

价值学习高级技巧前面介绍了 DQN, 并且用 Q学习算法训练 DQN。如果用最原始的 Q 学习算法，那么训练出的 DQN 效果会很不理想。想要提升 DQN 的表现，需要用本章的高级技巧。文献中已经有充分实验结果表明这些高级技巧对 DQN 非常有效，而且这些技巧不冲突，可以一起使用。有些技巧并不局限于DQN，而是可以应用于多种价值学习和策略学习方法。介绍经验回放 (experienc

2024-12-04

AI > RL > DRL-王树森

#RL

4.3 多步 TD目标

4.3 多步 TD目标

多步 TD 目标首先回顾一下 SARSA 算法。给定五元组\((s_t, a_t, r_t, s_{t+1}, a_{t+1})\), SARSA 计算 TD 目标： \(\hat{y}_t = r_t + \gamma \cdot q(s_{t+1}, a_{t+1}; \boldsymbol{w}).\) 公式中只用到一个奖励\(r_t\),这样得到的\(\hat{y}_t\)叫做

2024-12-04

AI > RL > DRL-王树森

#RL

4.2 Q-learning算法

4.2 Q-learning算法

Q 学习与 SARSA 的对比： Q学习不依赖于\(\pi\), 因此Q学习属于异策略 (off-policy), 可以用经验回放。而 SARSA 依赖于\(\pi\), 因此 SARSA 属于同策略(on-policy), 不能用经验回放。两种算法的对比如图 5.2 所示。 Q学习的目标是学到表格\(\tilde{Q}\), 作为最优动作价值函数\(Q^*\)的近似。因为\(Q^*\)

2024-12-04

AI > RL > DRL-王树森

#RL

4.1 Sarsa算法

4.1 Sarsa算法

TD 算法是一大类算法的总称。Q 学习是一种 TD 算法，Q 学习的目的是学习最优动作价值函数\(Q^*\)。这里介绍 SARSA, 它也是一种 TD 算法，SARSA 的目的是学习动作价值函数\(Q_\pi(s, a)\)。表格形式的 SARSA 假设状态空间\(S\)和动作空间\(\mathcal{A}\)都是有限集，即集合中元素数量有限。比如，\(S\)中一共有 3 种状态，\(

2024-12-04

AI > RL > DRL-王树森

#RL

3.1 随机排列

3.1 随机排列

Random Permutation（随机排列） What is uniform random permutation? Fisher-Yates 洗牌算法排列数等于n! “uniform random permutation”（均匀随机排列）是指生成一个排列，其中每个可能的排列都以相等的概率出现。具体来说，对于含有n个元素的集合，它的所有n!个排列中的每一个都有相同的概率被选中。

2024-12-04

AI > RL > DRL-王树森

#RL

2.1 蒙特卡洛估计

2.1 蒙特卡洛估计

ChatGPT对蒙特卡洛方法的介绍蒙特卡洛方法是一类基于随机抽样和统计学原理的数值计算方法，其核心思想是通过随机抽样来近似解决问题。这种方法在强化学习、优化问题、概率估计等领域都有广泛的应用。以下是关于蒙特卡洛方法的一些基本概念：基本思想随机抽样：蒙特卡洛方法利用随机抽样的方式来近似计算某个问题的数值解。通过大量的随机样本，可以得到对问题的概率分布、期望值等进行估计的结果。

2024-12-04

AI > RL > DRL-王树森

#RL