基于多智能体强化学习的分层决策优化方法
1. 主要内容
- 背景与目的:
- 随着信息技术和人工智能的发展,大数据驱动的辅助决策方法变得更加科学和准确。
- 强化学习在决策优化方面具有优势,但传统方法难以解决多层次、多目标的决策优化问题,尤其是在长周期决策优化问题中,学习奖励的滞后性限制了效率。
- 方法论:
- 提出基于多智能体强化学习的分层决策优化方法,应用目标分解思想解决长期决策优化问题。
- 该方法基于强化学习理论,使具有层级关系的多智能体相互合作,上层智能体学习目标的分解策略,下层智能体学习完成目标的行动策略。
2. 研究方法
文章中提到的分层决策优化方法(HDQ)算法的具体实现涉及以下几个关键步骤:
- 定义智能体和环境交互:
- 强化学习基于马尔可夫决策过程(MDP),包含状态集合 ( S ),动作集合 ( A ),状态转移矩阵 ( P ),奖励集合 ( R ),以及折扣率 ( )。
- 目标分解与层级决策:
- 将长期目标 ( G ) 分解为子目标 ( g_t ),并通过计算状态 ( s_t ) 与子目标 ( g_t ) 之间的距离 ( dis(gt, st) ) 来判断子目标是否完成。
- 智能体的层级结构:
- 设计具有层级关系的上层智能体 ( _1 ) 和下层智能体 ( _2 )。
- 上层智能体学习目标的分解策略,下层智能体学习实现子目标的行动策略。
- 神经网络建模:
- 使用深度Q网络(DQN)作为值函数逼近器,引入神经网络来估计动作价值 ( Q(s, a; ) )。
- 采用Dueling DQN来缓解高估Q值的问题,引入优势函数 ( A(s, a) )。
- 智能体的参数更新:
- 智能体参数交替更新,共同学习完成团队任务的最佳策略。
- 使用梯度下降法更新神经网络参数 ( ),学习率 ( )。
- 实验设计与数据预处理:
- 从MIMIC-IV数据库中提取脓毒症患者数据,包括性别、年龄、体重、SOFA评分等45个特征。
- 使用均值插值方法处理缺失值,最大最小归一化方法消除特征量纲。
- 状态和动作空间的定义:
- 状态空间通过K-means算法聚类降维,定义700个不同的状态类别。
- 子目标基于SOFA评分,动作空间定义为两种药物组成的二维矩阵。
- 奖励函数的设计:
- 设计分段常数函数作为奖励函数,根据患者的生存状态和状态改善情况给予不同的奖励。
[1]张倩,李天皓,白春光.基于多智能体强化学习的分层决策优化方法[J].电子科技大学学报(社科版),2022,24(06):90-96.DOI:10.14071/j.1008-8105(2022)-1056.
基于多智能体强化学习的分层决策优化方法
http://binbo-zappy.github.io/2024/11/15/多智能体强化学习任务分配/基于多智能体强化学习的分层决策优化方法/