基于多智能体强化学习的分层决策优化方法

1. 主要内容

  1. 背景与目的
    • 随着信息技术和人工智能的发展,大数据驱动的辅助决策方法变得更加科学和准确。
    • 强化学习在决策优化方面具有优势,但传统方法难以解决多层次、多目标的决策优化问题,尤其是在长周期决策优化问题中,学习奖励的滞后性限制了效率。
  2. 方法论
    • 提出基于多智能体强化学习的分层决策优化方法,应用目标分解思想解决长期决策优化问题。
    • 该方法基于强化学习理论,使具有层级关系的多智能体相互合作,上层智能体学习目标的分解策略,下层智能体学习完成目标的行动策略。

2. 研究方法

文章中提到的分层决策优化方法(HDQ)算法的具体实现涉及以下几个关键步骤:

  1. 定义智能体和环境交互
    • 强化学习基于马尔可夫决策过程(MDP),包含状态集合 ( S ),动作集合 ( A ),状态转移矩阵 ( P ),奖励集合 ( R ),以及折扣率 ( )。
  2. 目标分解与层级决策
    • 将长期目标 ( G ) 分解为子目标 ( g_t ),并通过计算状态 ( s_t ) 与子目标 ( g_t ) 之间的距离 ( dis(gt, st) ) 来判断子目标是否完成。
  3. 智能体的层级结构
    • 设计具有层级关系的上层智能体 ( _1 ) 和下层智能体 ( _2 )。
    • 上层智能体学习目标的分解策略,下层智能体学习实现子目标的行动策略。
  4. 神经网络建模
    • 使用深度Q网络(DQN)作为值函数逼近器,引入神经网络来估计动作价值 ( Q(s, a; ) )。
    • 采用Dueling DQN来缓解高估Q值的问题,引入优势函数 ( A(s, a) )。
  5. 智能体的参数更新
    • 智能体参数交替更新,共同学习完成团队任务的最佳策略。
    • 使用梯度下降法更新神经网络参数 ( ),学习率 ( )。
  6. 实验设计与数据预处理
    • 从MIMIC-IV数据库中提取脓毒症患者数据,包括性别、年龄、体重、SOFA评分等45个特征。
    • 使用均值插值方法处理缺失值,最大最小归一化方法消除特征量纲。
  7. 状态和动作空间的定义
    • 状态空间通过K-means算法聚类降维,定义700个不同的状态类别。
    • 子目标基于SOFA评分,动作空间定义为两种药物组成的二维矩阵。
  8. 奖励函数的设计
    • 设计分段常数函数作为奖励函数,根据患者的生存状态和状态改善情况给予不同的奖励。

[1]张倩,李天皓,白春光.基于多智能体强化学习的分层决策优化方法[J].电子科技大学学报(社科版),2022,24(06):90-96.DOI:10.14071/j.1008-8105(2022)-1056.


基于多智能体强化学习的分层决策优化方法
http://binbo-zappy.github.io/2024/11/15/多智能体强化学习任务分配/基于多智能体强化学习的分层决策优化方法/
作者
Binbo
发布于
2024年11月15日
许可协议