9.1 多智能体强化学习

基本概念

多智能体强化学习有四种常见的设定：

Fully cooperative：各个agent的利益一致，获得的奖励相同，比如同一条生产流水线上的各个机器。
Fully competitive：各个agent相互竞争，一方的收获是另一方的损失。
Mixed Cooperative & competitive：各个agent之间即存在合作也存在竞争，比如moba游戏中多人一队，队伍之间相互对抗，队伍内部相互合作。
Self-interested：利己主义，是指每个agent只想最大化自己收益，至于别人收益的高低它不在乎。

第\(i\)个智能体的Discounted return\(U_t^i\)定义为：

\(U_t^i = R_t^i + \gamma R_{t+1}^i + \gamma^2 R_{t+2}^i + \gamma^3 R_{t+3}^i + \ldots + \gamma^n R_n^i\)

每个agent都有自己的policy network\(\pi(a^i | s; \theta^i)\)。

第\(i\)个agent的state-value function\(V^i(s_t; \theta^1, \ldots, \theta^n)\)定义为：

\(V^i(s_t; \theta^1, \ldots, \theta^n) = E[U_t^i | S_t = s_t]\)

单智能体强化学习的目标是使\(J(\theta) = E_S(V(S, \theta))\)。

多智能体强化学习判断收敛的标准是纳什均衡，每个玩家都有自己的\(J^i(\theta^1, \theta^2, \ldots, \theta^n) = E_S(V^i(S, \theta^1, \theta^2, \ldots, \theta^n))\)，

如果对于任意一个玩家来说，如果其他玩家选择的策略不变，那么不能通过改变当前策略来提高\(J^i\)值的话，就说明达到了nash均衡。

三种架构

三种架构分别为：

Fully decentralized：完全去中心化：每个agent使用自己的观测和奖励来学习自己的策略。Agents do not communicate。
Fully centralized：完全中心化：The agents send everything to the central controller. The controller makes decisions for all the agents。
Centralized training with decentralized execution：A central controller is used during training. The controller is disabled after training.

Fully decentralized 中每个agent单独训练自己的网络，它基于自己的策略网络采取动作，并观测动作发生后自己的状态和奖励，跟前面的单智能体强化学习一样。

Fully centralized 由中心决定该做什么，中心有n个策略网络和价值网络，对应n个agents，它接收观测值来更新网络并决定动作。这样做的好处是中心知道所有的状态和价值，可以更好的训练网络和决定动作，坏处是速度会变慢。

Centralized training with decentralized execution，每个agent独立持有自己的策略函数，中心持有n个价值函数，对应n个agent。训练过程是中心化的，中心知道所有的观测状态、动作、奖励；训练结果是去中心化的，每个agent已经训练好了自己的策略函数，中心的价值函数就没必要存在了。

如下图所示，每个agent基于自己的策略函数采取动作，然后相关信息传给中心。