面向兵棋推演的强化学习分层任务优化技术研究

1. 主要内容

论文深入探讨了分层控制结构的多智能体强化学习算法在兵棋推演环境中的应用,旨在优化复杂和不确定环境下的任务分配和多智能体任务的执行过程。主要研究内容包括:

  1. 针对实时兵棋推演环境,设计了兵棋AI的状态空间和动作空间,并生成了敌我对抗态势的关键特征信息。通过离散化连续动作的操作优化了原始动作空间,简化了多智能体的交互过程,加快了网络学习速度。
  2. 提出了一种融合注意力机制的DQN算法(ADQN),通过嵌入网络和注意力对输入进行向量化处理后输入DQN网络,将环境分解为独立的子环境,并重新定义特定于子任务的动作-价值函数,有效提高了在复杂环境中进行任务分配的质量和效率。
  3. 基于深度强化学习的多级控制结构,提出了多智能体分层自主决策算法(ADQN-MAPPO),结合了多智能体近端策略优化算法与ADQN算法,通过将复杂任务划分成子任务进行分配后再执行,增强了智能体自主决策的能力,提高了算法模型的训练速度和决策能力。

论文通过在山地3v3和水田3v3的兵棋推演环境中的实验,验证了ADQN-MAPPO算法在得分能力、胜率、步均推理时间以及模型的泛化能力等方面的优越性能。研究结果对进一步提升分层控制结构的多智能体强化学习算法在兵棋推演以及其他复杂应用环境中的性能和应用范围提供了参考意义。

2. 分层决策框架

这篇论文中提出的分层决策框架是为了解决兵棋推演环境中的多智能体任务分配和执行问题。分层决策框架包括两个主要层次:任务分配层和智能体决策层。以下是这两个层次的详细介绍:

2.1 任务分配层

任务分配层的目的是将全局任务分解为多个子任务,并将这些子任务分配给不同的智能体。这一层主要关注如何在多智能体系统中高效地分配任务,以便每个智能体可以专注于自己的子任务,从而提高整体任务执行的效率和效果。

  • 状态空间和动作空间设计:在这一层中,状态空间包括了整个环境的总体状态,如战场上的地形、敌我双方的兵力部署等。动作空间则由子任务的编号集合构成,意味着每个智能体的动作是选择一个子任务来执行。
  • 子任务设计:根据兵棋推演游戏的特性,将总体任务细分为行军、进攻、防御、支援、夺控等子任务。每个子任务由任务名称、编号、类型、关系、目标等元素组成。
  • ADQN算法:提出了一种融合注意力机制的DQN算法(ADQN),用于处理任务分配问题。ADQN算法通过智能体对子任务的执行,将环境分解为独立的子环境,并重新定义特定于子任务的动作-价值函数。

2.2 智能体决策层

智能体决策层根据任务分配层分配的子任务,每个智能体需要做出具体的行动决策来完成任务。这一层主要关注智能体如何在局部环境中做出最优决策。

  • MAPPO算法:在这一层中,使用了多智能体近端策略优化算法(MAPPO),它是一种适用于多智能体环境的强化学习算法,可以处理分布式部分可观察马尔可夫决策过程(DEC-POMDP)。
  • 策略网络和评价网络:每个智能体都有自己的策略网络,根据局部观测信息产生动作。同时,有一个全局评价网络根据全局环境信息生成状态价值,用于指导策略网络的更新。
  • 分层架构的优势:通过分层架构,上层任务分配网络可以在更大的时间尺度上运行,而下层智能体策略网络则在更细的尺度上做出决策。这种分层方法有助于提高智能体在兵棋推演环境中的决策效率和效果。

2.3 ADQN-MAPPO算法

ADQN-MAPPO算法是将ADQN算法和MAPPO算法结合的分层决策框架。这种框架通过将复杂任务分解为子任务,并在不同的抽象层次上学习策略,解决了大规模复杂环境下的决策问题。ADQN-MAPPO算法在实验中表现出了优越的性能,包括更高的得分能力、胜率以及更快的收敛速度。


面向兵棋推演的强化学习分层任务优化技术研究
http://binbo-zappy.github.io/2024/11/15/多智能体强化学习任务分配/面向兵棋推演的强化学习分层任务优化技术研究/
作者
Binbo
发布于
2024年11月15日
许可协议