HCTA：多智能体强化学习中的分层合作任务分配

HCTA:Hierarchical Cooperative Task Allocation in Multi-Agent Reinforcement Learning

1. 主要内容

子任务选择：

基于行动链的长期行为特征动态选择每个智能体适合的子任务。

层次化策略学习：

结合上述子任务分解和选择，形成层次化合作策略学习框架。在上层动态选择子任务，并在下层根据上层的任务分配结果指导具体决策策略的学习。

双时序分辨率框架：

HCTA使用双时序分辨率框架，在低时序分辨率的时标上进行任务选择，然后在高时序分辨率的时标上进行策略学习。

实验验证：

在StarCraft II环境中进行广泛的实验，以评估HCTA框架在不同难度级别上的表现，并与其他基线算法进行比较。

这些方法共同构成了文章提出的HCTA框架，旨在通过层次化和动态的任务分配来提高多智能体系统在复杂任务中的合作效率和学习效果。

在本文中，我们的目标是使个体的子组能够通过人类在处理复杂任务时使用的分解思想来学习解决不同的子任务。

2. 子任务分解

在文章中提到的HCTA（Hierarchical Cooperative Task Allocation）框架中，子任务的分解是通过以下步骤实现的：

行动表示学习（Action Representation Learning）：

首先，框架通过行动表示学习来实现子任务的分解。这是通过创建一个能够反映行动对环境和其他智能体影响的表示（即za = fθ(a; θe)）来完成的，其中za是行动的表示，a是行动本身，θ是学习到的参数。

行动空间聚类（Action Space Clustering）：

基于行动表示的结果，整个行动空间被聚类分解为多个子行动空间，每个子行动空间对应一个子任务。这样的分解减少了每个子任务的行动空间维度，使得相应的智能体在具有相似效果的行动空间中搜索。

行动链模型（Action Chain Model）：

使用行动链模型来学习行动编码器。每个智能体选择多个时间步的行动表示作为行动链编码器的输入。通过自注意力机制，智能体学习与自身属性相关的多步行动的累积效应。

子任务定义（Subtask Definition）：

文章中对子任务的定义是：对于一个给定的合作多智能体任务G，一个角色ρi是一个包含子任务ϕi的元组，ϕi由⟨Ai, Ii, S, P, R, Ωi, O, γ⟩组成，其中Ai是子任务的行动空间，Ii是智能体的子集，且满足Ii ⊂ I，∪iIi = I，Ii ∩ Ij = ∅（对于i ≠ j）。

长期行为链（Long-term Behavior Chain）：

基于行动链的结果，生成反映智能体行为特征的长期行动链。这个长期行为链用于动态选择适合每个智能体的子任务。

通过这些步骤，HCTA框架能够将复杂的多智能体任务分解为更小、更易于管理的子任务，每个子任务都涉及一个较小的行动观察空间，从而使智能体能够更有效地专注于特定的子任务。这种分解方法不仅提高了任务分配的效率，还降低了计算复杂度，并使得智能体能够更好地协作以完成复杂的任务。

科研 > 多智能体强化学习任务分配

#RL #科研

HCTA：多智能体强化学习中的分层合作任务分配

http://binbo-zappy.github.io/2024/11/15/多智能体强化学习任务分配/HCTA：多智能体强化学习中的分层合作任务分配/

作者

Binbo

发布于

2024年11月15日

许可协议

1.3 三种交换方式上一篇

面向兵棋推演的强化学习分层任务优化技术研究下一篇