基于层次控制的多智能体对抗研究

1. 主要内容

针对复杂动作状态空间场景下单智能体策略学习问题，提出了一种基于预训练模型的分层强化学习算法。该算法分为三个层次：
- 首先，基于先验知识为每个子策略设计了适宜其相应时间的宏动作；
- 其次是子策略控制器，其核心是基于监督学习的方法，训练能够适应不同需要的子策略，基于随机的宏动作产生子策略监督学习的数据，并且子策略只学习胜利时的操作轨迹；
- 最后是智能体的高级策略控制器，基于策略梯度算法进行扩展，屏蔽了底层繁琐的动作，只对于下层的子策略进行选择，使得作为决策的神经网络参数能够做出更好的动作。
针对复杂动作状态空间场景下多智能体策略学习问题，提出了一种基于双向协调网络的多智能体强化学习算法。该算法基于Actor-Critic框架，其特点是：
- 基于全局信息训练Critic网络，用以解决场景中马尔可夫性缺失问题；
- 采用双向RNN网络结构，用以解决场景中多智能体信息通信问题；
- 使用动作映射算法，使得智能体选择收益最高的合法联合动作。
基于上述研究成果和《星际争霸2》对抗学习环境，将单智能体强化学习算法和多智能体强化学习算法进行有机融合，设计实现了一个基于层次控制的多智能体强化学习原型系统，并进行实验验证。

2. 研究方法

这篇论文的主要研究方法和算法集中在解决复杂动作状态空间下的多智能体对抗问题，具体包括以下几个方面：

基于预训练模型的分层强化学习算法：
- 宏动作设计：将复杂的动作序列打包成宏动作，减少智能体需要学习的原子动作数量。
- 子策略控制器：基于监督学习的方法训练子策略，每个子策略对应一个宏动作。
- 高级策略控制器（APC）：基于策略梯度算法扩展，负责在子策略之间进行选择。
基于双向协调网络的多智能体强化学习算法（BiC-DDPG）：
- 集中训练分散执行：解决多智能体对抗场景下马尔可夫性缺失问题，提高算法收敛性。
- Bi-RNN网络结构：实现智能体合作时的信息通信。
- 动作映射算法：将连续的原始联合动作映射到合法离散联合动作空间，解决复杂联合动作空间下的智能体决策问题。
深度学习和强化学习算法：
- 深度神经网络：使用深度神经网络结构（如ResNet50）作为子策略的神经网络结构。
- 强化学习算法：包括Q学习、DQN、策略梯度、Actor-Critic算法等。
实验验证：
- 在《星际争霸2》环境中进行实验验证，包括全流程对抗和微操作对抗环境。
- 设计了不同难度的对抗场景，以及不同的子策略训练和测试。
原型系统实现：
- 将单智能体和多智能体强化学习算法融合，设计实现了一个基于层次控制的多智能体强化学习原型系统。
- 在Python-sc2接口上复现SMAC接口对于观察数据、奖励机制以及动作空间的设计，并部署BiC-DDPG算法。
算法优化和调整：
- 对算法的参数进行调整，以适应不同的实验环境和场景。
- 通过实验结果分析算法的性能和有效性。

[1]王功举.基于层次控制的多智能体对抗研究[D].军事科学院,2021.DOI:10.27193/d.cnki.gjsky.2021.000110.

科研 > 多智能体强化学习任务分配

#RL #科研

基于层次控制的多智能体对抗研究

http://binbo-zappy.github.io/2024/11/14/多智能体强化学习任务分配/基于层次控制的多智能体对抗研究/

作者

Binbo

发布于

2024年11月14日

许可协议

基于多智能体强化学习的分层决策优化方法上一篇

3.3 无监督学习-强化学习-吴恩达下一篇