9.1 多智能体强化学习

基本概念

多智能体强化学习有四种常见的设定:

  • Fully cooperative:各个agent的利益一致,获得的奖励相同,比如同一条生产流水线上的各个机器。
  • Fully competitive:各个agent相互竞争,一方的收获是另一方的损失。
  • Mixed Cooperative & competitive:各个agent之间即存在合作也存在竞争,比如moba游戏中多人一队,队伍之间相互对抗,队伍内部相互合作。
  • Self-interested:利己主义,是指每个agent只想最大化自己收益,至于别人收益的高低它不在乎。

\(i\)个智能体的Discounted return\(U_t^i\)定义为:

\(U_t^i = R_t^i + \gamma R_{t+1}^i + \gamma^2 R_{t+2}^i + \gamma^3 R_{t+3}^i + \ldots + \gamma^n R_n^i\)

每个agent都有自己的policy network\(\pi(a^i | s; \theta^i)\)

\(i\)个agent的state-value function\(V^i(s_t; \theta^1, \ldots, \theta^n)\)定义为:

\(V^i(s_t; \theta^1, \ldots, \theta^n) = E[U_t^i | S_t = s_t]\)

单智能体强化学习的目标是使\(J(\theta) = E_S(V(S, \theta))\)

多智能体强化学习判断收敛的标准是纳什均衡,每个玩家都有自己的\(J^i(\theta^1, \theta^2, \ldots, \theta^n) = E_S(V^i(S, \theta^1, \theta^2, \ldots, \theta^n))\)

如果对于任意一个玩家来说,如果其他玩家选择的策略不变,那么不能通过改变当前策略来提高\(J^i\)值的话,就说明达到了nash均衡。

三种架构

三种架构分别为:

  • Fully decentralized:完全去中心化:每个agent使用自己的观测和奖励来学习自己的策略。Agents do not communicate。
  • Fully centralized:完全中心化:The agents send everything to the central controller. The controller makes decisions for all the agents。
  • Centralized training with decentralized execution:A central controller is used during training. The controller is disabled after training.
  1. Fully decentralized 中每个agent单独训练自己的网络,它基于自己的策略网络采取动作,并观测动作发生后自己的状态和奖励,跟前面的单智能体强化学习一样。

  1. Fully centralized 由中心决定该做什么,中心有n个策略网络和价值网络,对应n个agents,它接收观测值来更新网络并决定动作。这样做的好处是中心知道所有的状态和价值,可以更好的训练网络和决定动作,坏处是速度会变慢。

Centralized training with decentralized execution,每个agent独立持有自己的策略函数,中心持有n个价值函数,对应n个agent。训练过程是中心化的,中心知道所有的观测状态、动作、奖励;训练结果是去中心化的,每个agent已经训练好了自己的策略函数,中心的价值函数就没必要存在了。

如下图所示,每个agent基于自己的策略函数采取动作,然后相关信息传给中心。

如图所示,中心接收到信息后,训练并调用q函数,计算q值返回给各个agent。


9.1 多智能体强化学习
http://binbo-zappy.github.io/2024/12/04/DRL-王树森/9-1-多智能体强化学习/
作者
Binbo
发布于
2024年12月4日
许可协议