2. 探索与利用

1. 探索与利用

1.1 序列决策任务中的一个基本问题

基于目前策略获取已知最优收益还是尝试不同的决策：

Exploitation 执行能够获得已知最优收益的决策
Exploration 尝试更多可能的决策，不一定会是最优收益

\(\mathcal{E}_t = \left\{ \pi_t^i \mid i = 1, \ldots, n \right\} \xrightarrow{\text{探索}} \mathcal{E}_{t+1} = \left\{ \pi_t^i \mid i = 1, \ldots, n \right\} \cup \left\{ \pi_e^j \mid j = 1, \ldots, m \right\}\)

\(\exists V^* \left( \cdot \mid \pi_t^i \sim \mathcal{E}_t \right) \leq V^* \left( \cdot \mid \pi_{t+1}^i \sim \mathcal{E}_{t+1} \right) \quad \pi_{t+1}^i \sim \left\{ \pi_e^i \mid i = 1, \ldots, m \right\}\)

探索：可能发现更好的策略

1.2 策略探索的一些原则

朴素方法（Naïve Exploration）

添加策略噪声𝜖-greedy

积极初始化（Optimistic Initialization）

基于不确定性的度量（Uncertainty Measurement）

尝试具有不确定收益的策略，可能带来更高的收益

概率匹配（Probability Matching）

基于概率选择最佳策略

状态搜索（State Searching）

探索后续状态可能带来更高收益的策略

2. 多臂老虎机

2.1 问题的形式化描述

动作集合：\(a^i \in \mathcal{A}, \quad i = 1, \ldots, K\)

收益（反馈）函数分布：\(\mathcal{R}(r \mid a^i) = \mathbb{P}(r \mid a^i)\)

最大化累积时间的收益：\(\max \sum_{t=1}^{T} r_{t}, \quad r_{t} \sim \mathcal{R}\left(\cdot \mid a_{t}\right)\)

2.2 收益估计

期望收益和采样次数的关系: \(Q_n(a^i) = \frac{r_1 + r_2 + \cdots + r_{n-1}}{n - 1}\)

缺点：每次更新的空间复杂度是O(n)

增量实现: \[ Q_{n+1}(a^i) := \frac{1}{n} \sum_{i=1}^{n} r_i = \frac{1}{n} \left( r_n + \frac{n-1}{n-1} \sum_{i=1}^{n-1} r_i \right) = \frac{1}{n} r_n + \frac{n-1}{n} Q_n = Q_n(a^i) + \frac{1}{n} (r_n - Q_n) \]

空间复杂度为O(1)

2.3 算法：多臂老虎机

初始化：\(Q(a^i) := c^i, \quad N(a^i) = 0, \quad i = 1, ..., n\)
主循环\(t = 1:T\)
1. 利用策略𝜋选取某个动作a
2. 获取收益:\(r_t = \text{Bandit}(a)\)
3. 更新计数器:\(N(a) := N(a) + 1\)
4. 更新估值:\(Q(a) := Q(a) + \frac{1}{N(a)} [r_t - Q(a)]\)

2.4 应当选取什么样的策略

Regret函数(懊悔值)

决策的期望收益：\(Q(a^i) = \mathbb{E}_{r \sim \mathbb{P}(r \mid a^i)}[r]\)
最优收益：\(Q^{\star} = \max_{a^i \in \mathcal{A}} Q(a^i)\)
决策与最优决策的收益差：\(R(a') = Q^{\star} - Q(a')\)
Total Regret 函数：\(\sigma_{R} = \mathbb{E}_{a \sim \pi} \left[ \sum_{t=1}^{T} R(a_t^i) \right]\) 越接近于0越好

最小化Total Regret等价于最大化Q值：\(\min \sigma_{R} = \max \mathbb{E}_{a \sim \pi} \left[ \sum_{t=1}^{T} Q(a_{t}^{i}) \right]\)

如果一直探索新决策：\(\sigma_{R} \propto T \cdot R\) ,total regret将线性递增，无法收敛
如果一直不探索新决策：\(\sigma_{R} \propto T \cdot R\)，total regret 仍将线性递增

是否存在一个方法具有次线性（sublinear）收敛保证的regret？

下界
- 使用\(\Delta_a = Q^* - Q(a)\) 和反馈函数分布相似性：\(D_{KL}\left(\mathcal{R}(r \mid a) \parallel \mathcal{R}^*(r \mid a)\right)\)
- \(\lim_{T \to \infty} \sigma_R \geq \log T \sum_{a \mid \Delta_a > 0} \frac{\Delta_a}{D_{KL}\left(\mathcal{R}(r \mid a) \parallel \mathcal{R}^*(r \mid a)\right)}\)

2.5 贪心策略和 \(\epsilon\)-greedy 策略

贪心策略

\(Q(a^i) = \frac{1}{N(a^i)} \sum_{t=1}^{T} r_t \cdot 1(a_t = a^i)\)

\(a^* = \arg\max_{a^i} Q(a^i)\)

\(\sigma_R \propto T \cdot [Q(a^i) - Q^*]\)

线性增长的 Total regret

\(\epsilon\)-greedy 策略

\(a_t = \begin{cases} \arg\max_a \hat{Q}(a) & \text{采样概率：} 1 - \epsilon \\ U(0, |\mathcal{A}|) & \text{采样概率：} \epsilon \end{cases}\)

常量 \(\epsilon\) 保证 total regret 满足

\(\sigma_R \geq \frac{\epsilon}{|\mathcal{A}|} \sum_{a \in \mathcal{A}} \Delta_a\)

Total regret 仍然是线性递增的，只是增长率比贪心策略小

2.6 衰减贪心策略

\(\epsilon\)-greedy 的变种，\(\epsilon\) 随着时间衰减
理论上对数渐进收敛！
一种可能的衰减方式：

\[ c \geq 0, \quad d = \min_{a \mid \Delta_a > 0} \Delta_a, \quad \epsilon_t = \min\left\{1, \frac{c|\mathcal{A}|}{d^2 t}\right\} \]

缺点

很难找到合适的衰减规划

\(c \geq 0, \quad c_t = \min_{a \mid \Delta_a > 0} \Delta_a, \quad \epsilon_{r_t} = \min\left(1, \frac{c}{c_t^2 \cdot r_t}\right)\)

2.7 不同𝝐-greedy 策略对比：

Total Regret

平均收益

2.8 乐观初始化

给\(Q(a^i)\)一个较高的初始化值
增量式蒙特卡洛估计更新 \(Q(a^i)\)

\(Q(a^i) := Q(a^i) + \frac{1}{N(a^i)} (r_t - Q(a^i))\)

有偏估计，但是随着采样增加，这个偏差带来的影响会越来越小
但是仍然可能陷入局部最优

2.9 显式地考虑动作的价值分布

考虑以上三个动作的价值分布，平衡探索和利用，选择哪个动作？
1. 显式地鼓励不确定性； 2. 直接根据分布采样来选择

2.10 基于不确定性测度

不确定性越大的 \(Q(a^i)\)，越具有探索的价值，有可能会是最好的策略
一个经验性指导：
- \(N_{a}\) 大，\(U_{a}\) 小
- \(N_{a}\) 小，\(U_{a}\) 大
策略 \(\pi\)：\(a = \arg\max_{a \in \mathcal{A}} \hat{Q}(a) + \hat{U}(a)\)
也称为 UCB：上置信界法（Upper Confidence Bounds）

2.11 UCB：上置信界

Hoeffding 不等式：\(\mathbb{P}[\mathbb{E}[x] > \bar{x}_t + u] \leq e^{-2tu^2} \text{ for } x \in [0,1]\)

为每个动作收益估值估计一个上置信界：\(\hat{U}(a)\)
显然有：\(Q_t(a) \leq \hat{Q}_t(a) + \hat{U}_t(a)\) 以高概率 \(p\) 成立（Hoeffding不等式）
依据以下原则挑选进行决策： \[a = \arg\max_{a \in \mathcal{A}} \hat{Q}_t(a) + \hat{U}_t(a) \quad e^{-2N_t(a)U_t(a)^2} = p \Rightarrow \hat{U}_t(a) = \sqrt{-\frac{\log p}{2N_t(a)}}\]
收敛性：\(\lim_{t \to \infty} \sigma_R \leq 8 \log t \sum_{a \mid \Delta_a > 0} \Delta_a\)

2.12 Thompson Sampling方法

[Chapelle, Olivier, and Lihong Li. "An empirical evaluation of thompson sampling." Advances in neural information processing systems. 2011.]

想法：根据每个动作成为最优的概率来选择动作

\(p(a) = \int \mathbb{I} \left[ \mathbb{E}_{p(Q(a))} \left[ Q(a; \theta) \right] = \max_{a' \in \mathcal{A}} \mathbb{E}_{p(Q(a'))} \left( Q(a'; \theta) \right) \right] d\theta\)

实现：根据当前每个动作 \(a\) 的价值概率分布 \(p(Q(a))\) 来采样到其价值 \(\hat{Q}(a)\)，选择价值最大的动作

2.13 Thompson Sampling和UCB的实验对比

实验：K-arm多臂老虎机，用Beta分布建模每个arm的成功率，初始化成功率分布为Beta(1,1). \[\text{Beta}(x; \alpha, \beta) \propto x^{\alpha-1} (1 - x)^{\beta-1}\]

K-arms - The best arm has reward probability of 0.5 - K-1 other arms have the reward probability of 0.5-ε

2.14 探索与利用总结

探索与利用是强化学习的 trial-and-error 中的必备技术
多臂老虎机可以被看成是无状态 (state-less) 强化学习
多臂老虎机是研究探索与利用技术理论的最佳环境
- 理论的渐近最优 regret 为 \(O(\log T)\)
\(\epsilon\)-greedy、UCB 和 Thompson Sampling 方法在多臂老虎机任务中十分常用，在强化学习的探索中也十分常用，最常见的是 \(\epsilon\)-greedy

AI > RL > 动手学强化学习

#RL

2. 探索与利用

http://binbo-zappy.github.io/2024/12/16/动手学强化学习/2-探索与利用/

作者

Binbo

发布于

2024年12月16日

许可协议

git常用命令上一篇

9. nginx原理下一篇