基于分层强化学习的多智能体博弈对抗策略

1. 主要内容

1.1 研究内容

  • 提出了一种结合任务可解释性的指挥官-集群多智能体分层强化学习算法,提高算法在复杂博弈场景中的收敛速度。
  • 设计了一种结合软决策树的多智能体分层强化学习算法,增强了策略的解释性。
  • 基于模糊决策树建立了博弈对抗策略,通过挖掘战法规则,模拟人的决策过程。
  • 在联合作战实验平台上设计了空战博弈场景和海空联合作战场景,验证了所提算法的有效性。

1.2 算法设计与实验验证

  • 设计了指挥官-集群分层强化学习算法,并通过实验验证了其在收敛性、解释性与作战效能方面的优势。
  • 设计了结合软决策树的分层强化学习算法,验证了其在策略解释性和算法收敛性方面的优势。
  • 提出了基于模糊决策树的博弈对抗策略,并通过实验验证了其分类效果和战法规则提取效果。

1.3 实验环境与设置

  • 使用了“StarCraft2”作为实验平台,设计了多种博弈场景,包括简单同构智能体控制场景、复杂同构智能体控制场景和复杂异构智能体控制场景。

1.4 结论与展望

  • 论文提出的分层强化学习算法在多智能体博弈对抗中具有实际应用价值和潜力,尤其在提高指挥部快速决策能力和军队快速反应打击能力上。
  • 论文还指出了研究的局限性,并对未来的研究方向提出了展望,包括消除上层智能体学习训练结果对模型性能的负面影响,以及针对模糊环境下多层次、多目标的决策问题开展研究。

2. 研究方法

  • 分层强化学习(HRL):文章采用分层强化学习方法来处理多智能体复杂博弈场景中的策略优化问题。这种方法通过将复杂的决策问题分解为多个层次,使得学习过程更加高效和可解释。
  • 结合任务可解释性:文章提出了结合任务可解释性的指挥官-集群分层强化学习算法,通过模仿学习设计可解释的子任务,引入专家经验,提高算法的收敛速度。
  • 软决策树:为了增强策略的解释性,文章设计了结合软决策树的分层强化学习算法,通过引入线性权重表示状态特征与决策结果之间的因果逻辑。
  • 模糊决策树:文章进一步挖掘战法规则,建立基于模糊决策树的博弈对抗策略,模拟人的决策过程,并提取模糊决策树中隐藏的战术规则。

3. 算法实现

  • 指挥官-集群分层强化学习算法(HES):文章实现了一种指挥官-集群分层强化学习算法,该算法包含上层指挥官决策模型和下层集群作战模型,通过可解释子任务实现信息传递。
  • 结合软决策树的分层强化学习算法(HEE):文章实现了一种结合软决策树的分层强化学习算法,该算法在HES算法框架基础上,将软决策树结构融入宏观决策过程中。
  • 基于模糊决策树的博弈对抗策略(FDTGAS):文章实现了一种基于模糊决策树的博弈对抗策略,通过预处理对抗数据,构建模糊决策树,并从中提取战法规则。

4. 上层决策模型的主要特点和实现细节:

4.1 指挥官-集群分层强化学习算法(HES)中的上层决策模型

  • 指挥官决策模型:模拟战争中高级指挥官的决策过程,基于战争总体形势的变化制定总体作战规划,并将战斗子任务分配给下层战斗单位。
  • 任务可解释性:结合任务可解释性思想,设计可解释的子任务,将专家经验引入到分层框架中,引导智能体进行定向学习,提高算法的收敛速度。

4.2 结合软决策树的分层强化学习算法(HEE)中的上层决策模型

  • 软决策树(SDT):引入软决策树结构,改进传统的决策树模型,使其可以替代神经网络拟合动作价值函数,增强模型的可解释性。
  • 线性权重:在软决策树的叶子节点引入线性模型,通过线性权重表示状态特征与决策结果之间的因果逻辑,增强策略的解释性。

4.3 基于模糊决策树的博弈对抗策略中的上层决策模型

  • 模糊决策树:构建模糊决策树模拟人的决策过程,处理高维度数据集中的模糊性和不确定性,提高分类的准确率和模型的泛化能力。
  • 战法规则提取:从模糊决策树中提取隐含的战法规则,建立以IF-THEN规则形式表示的博弈对抗策略。

4.4 实现细节

  • 神经网络建模:上层决策模型通常采用神经网络进行建模,使用深度学习技术来处理高维数据和复杂的决策问题。
  • 参数更新:上层决策模型的参数通过梯度下降法进行更新,利用经验回放机制和策略梯度方法来优化模型性能。
  • 目标分解:上层智能体学习目标的分解策略,将复杂的任务分解为多个子目标,通过子目标的实现逐步达成最终目标。

4.5 应用场景

  • 联合作战实验平台:在空战博弈场景和海空联合作战场景中,上层决策模型负责制定整体作战策略,指导下层作战单元执行具体的作战任务。

5. 上层决策模型的具体实现细节

5.1 指挥官-集群分层强化学习算法(HES)的上层决策模型

设计理念

  • 指挥官角色:模拟高级指挥官的决策过程,负责在战争或博弈的宏观层面上制定战略。
  • 任务分解:将复杂的任务分解为可解释的子任务,这些子任务对下层集群作战模型来说是具体的战术目标。

实现细节

  • 神经网络架构:使用神经网络来拟合指挥官的决策策略,该网络输入全局观测状态,输出子任务或战术目标。
  • 模仿学习:基于专家经验设计可解释的子任务,通过模仿学习将专家知识整合到神经网络的训练过程中。
  • 参数更新:利用梯度下降方法更新神经网络参数,以最小化损失函数,提高决策质量。

5.2 结合软决策树的分层强化学习算法(HEE)的上层决策模型

设计理念

  • 软决策树(SDT):引入软决策树来增强策略的解释性,SDT 结合了神经网络的非线性建模能力和决策树的可解释性。

实现细节

  • 树结构优化:对传统的软决策树结构进行改进,引入线性权重来表示状态特征与决策结果之间的因果逻辑。
  • 线性叶子节点:在SDT的叶子节点使用线性模型,这些模型通过学习状态特征的权重来预测动作价值。
  • 在线学习:SDT模型支持在线学习,能够根据实时数据更新模型参数,增强模型对新态势的适应能力。

5.3 基于模糊决策树的博弈对抗策略的上层决策模型

设计理念

  • 模糊决策树:利用模糊决策树处理高维度数据集中的模糊性和不确定性,提高决策的准确性和泛化能力。

实现细节

  • 属性模糊化:将连续型属性转换为模糊集合,并通过隶属度函数计算属性值在模糊集合中的隶属度。
  • 分裂属性选择:基于分类不确定性选择分裂属性,以最小化节点的平均模糊信息熵。
  • 战法规则提取:从模糊决策树中提取IF-THEN形式的战法规则,为博弈对抗提供具体的策略指导。

5.4 通用实现细节

损失函数与优化

  • 损失函数:设计损失函数以衡量模型预测与实际结果之间的差异,常用的损失函数包括均方误差等。
  • 优化算法:采用Adam优化器等高级优化算法来更新模型参数,提高训练效率和模型性能。

训练与验证

  • 训练过程:通过与环境的交互不断收集数据,利用这些数据训练上层决策模型。
  • 验证与测试:在不同的博弈场景中验证上层决策模型的有效性,调整模型参数以适应不同的战术需求。

这些实现细节共同构成了上层决策模型的核心,使其能够在多智能体博弈对抗中发挥关键作用。通过这些细节的实现,上层决策模型能够提供有效的战略指导,并与下层执行模型协同工作,实现整体任务目标。

[1]乔天润.基于分层强化学习的多智能体博弈对抗策略[D].东南大学,2023.DOI:10.27014/d.cnki.gdnau.2023.001144.


基于分层强化学习的多智能体博弈对抗策略
http://binbo-zappy.github.io/2024/11/15/多智能体强化学习任务分配/基于分层强化学习的多智能体博弈对抗策略/
作者
Binbo
发布于
2024年11月15日
许可协议