基于动态自注意力机制的多智能体事件触发控制方法

阅读: 评论:0



1.本发明涉及多智能体分布式编队控制领域,具体涉及一种基于动态注意力机制的多智能体事件触发控制方法。


背景技术:



2.多智能体系统是一种全新的分布式计算技术,是由多个能在环境中自由交互,并且具有独立决策能力的智能体组成的计算系统。多智能体系统是分布式控制系统的一个重要分支,目前在无人机集控制、无人车控制、对抗网络、抗灾搜救等领域得到了广泛应用。
3.分布式编队控制的核心在于满足系统稳定性的前提下,通过设置各种触发条件和分布式控制器,当满足条件时对相应的智能体进行特殊控制,实现降低通信次数、执行局部任务或人工干预控制等目的。
4.传统研究中基于固定拓扑上具有全局或局部目标的高阶线性时不变多智能体系统分布式控制问题,一般采用如下方法:1)通过求解里卡提方程的形式设计控制器;2)通过观测领导节点的状态来协调智能体的行为;3)使用事件触发机制,将动态线性触发控制应用于一般线性多智能体系统,在每个代理中都设置一个事件触发装置,且仅在事件触发时广播自己的当前状态。传统方法中存在以下问题:1)控制器设计求解困难,复杂环境中存在维数爆炸的问题。2)集通信不稳定,邻节点状态无法正常观测的问题。3)信息同步控制不够精准的问题。
5.而自注意力机制是基于注意力机制产生的一种变体,主要特点在于产生注意力的结构部分处于模型内部,q(qurry)、k(key)、v(value)矩阵来源于同一组序列输入y(t),并经过不同的线性变化规则得到最终的注意力输出。
6.注意力机制的研究中表明,人们在观察事物时,会有侧重的关注事物中重要的一部分,同时忽略事物中可见的其他部分,直到注意力发生转变。但是人们在关注一个事物时,并不会一直将注意力放在某个特定的部分上,而是以时间为序列将注意力分布在事物的各个方面。重点关注的地方在某一时间段内注意力分布较为密集,反之被忽略的地方在同时间内注意力分布较为稀疏。
7.传统的自注意力机制能够对重点数据进行筛选,但是存在感受野狭窄的问题,在特殊取会出现情况下注意力过于集中,陷入某一局部特征中,导致无法跳出的问题。


技术实现要素:



8.发明目的:针对现有技术中存在的问题,本发明提供一种基于动态自注意力机制的多智能体事件触发控制方法,基于动态自注意力机制更好的模拟注意力在各关注点之间移动的过程,并用分布密度来表示当前注意力关注的重点位置,通过设置动态增益补偿来缓解注意力在某些时候过于专注的问题。
9.技术方案:本发明提供了一种基于动态自注意力机制的多智能体事件触发控制方法,包括如下步骤:
10.步骤1:考虑一个多智能体系统的数学模型如下:
11.领导者节点f0(x)的数学模型为:
[0012][0013]
跟随者节点fi(x)的数学模型为:
[0014][0015]
其中,α
ij
表示编队干扰折扣因子,α
ij
=1表示智能体i能与智能体j进行通信,反之则α
ij
=0,di(vi,ti)表示第i个智能体在t时刻受到队内的飞行约束控制,ui表示第i个智能体受到环境中的飞行约束控制;
[0016]
步骤2:构建动态自注意力机制模型,所述动态自注意力机制模型定义了新的线性变换规则和矩阵运算方法;所述动态自注意力机制模型包括如下步骤:
[0017]
步骤2.1:定义自注意力模型中q、k、v矩阵的线性变换规则为:
[0018][0019][0020]
令φ(x)为正态分布函数,使得wd服从均值为μ方差为σ的随机正态分布,其中,d代表通信传输向量y(t)的维数,y(t)=[y1(t),y2(t),...,yd(t)];
[0021]
步骤2.2:每个智能体会基于当前状态,从自身中产生一组查询与键值对矩阵qi(qurey)、ki(key)、vi(value):
[0022][0023]
其中,qi代表智能体的查询矩阵,ki代表智能体的关键字矩阵,vi代表智能体的值矩阵,y(t)代表t时刻的通信传输向量;
[0024]
步骤2.3:定义不同维数的注意力在关键字矩阵上的分布情况:
[0025][0026]
其中,qn为矩阵q中的向量(1
×
m),kn为矩阵k中的向量(1
×
m);
[0027]
步骤2.4:得到的矩阵qk通过一个池化层进行维数压缩,得到新矩阵q
′k;
[0028]
步骤2.5:矩阵q
′k与值矩阵再经过矩阵乘法与池化层,得到最终的注意力分布矩
阵v

=[v

1 v

2 ... v
′n]
t

[0029]
步骤2.6:将最终的注意力分布矩阵输入softmax函数中,并取出其中的最大值项作为当前注意力所关注的重点,整理后得到注意力分布函数γ;
[0030]
步骤3:利用所述动态自注意力机制模型得到注意力分布,并且设置事件触发阈值ζ,在注意力分布满足触发条件时将对应节点的α
ij
置为0,达到触发事件时切换相应局部任务的目的。
[0031]
进一步地,所述步骤2.4中使用“和池化层”的方式压缩矩阵,定义和池化层为:
[0032][0033]
其中q
kn
代表矩阵qk中第n行的行和。
[0034]
进一步地,所述步骤2.6之前步骤2.5之后还执行如下操作:
[0035]
定义一个动态补偿增益g=[gi]d×1:
[0036][0037]
其中,g是一个与信息传递向量y(t)同维数的矩阵,gi(i=1,2,...,d)表示g中的第i行,δ表示动态补偿常数;
[0038]
定义矩阵表示补偿后的注意力结果矩阵,并将其作为最终的注意力分布矩阵:
[0039][0040]
将公式(9)带入softmax函数中,整理后得到注意力分布函数γ:
[0041][0042]
当γi>ζ时,注意力分布满足事件触发条件,智能体i切换执行对应的局部任务,其中,ζ表示人工设定的事件触发阈值。
[0043]
进一步地,根据所述注意力分布是否满足事件触发阈值,自动切换执行相应的局部任务;如公式(11)所示,具体为:当注意力的关注重点落在全局任务的区间上时,即γi≤ζ,α
ij
被置为1,智能体i跟随集执行全局任务;反之,当注意力的关注重点落在某一局部任务的区间上时,即γi>ζ,α
ij
被置为0,智能体i脱离集执行对应的局部任务:
[0044][0045]

[0046]
有益效果:
[0047]
1、本发明在基于自注意力机制的基础上,提出了“动态自注意力机制”,主要提出了一种新的线性变换规则和矩阵运算方法,能更好的模拟注意力在各关注点之间移动的过程,让注意力不会专注于某一固定特征点,而是以时间序列为单位有序分布在所有特征点
上,并用分布密度来表示当前注意力关注的重点位置。并且通过设置动态增益补偿来缓解注意力在某些时候过于专注的问题。
[0048]
2、本发明提出的事件触发装置设计简单,因为动态自注意力机制会将注意力分布在各个需要被关注的要点上,所以可以用一个时间段内的注意力分布密度γ来定义当前重点关注的目标对象。当注意力分布满足事件触发阈值条件时,智能体执行相应的局部任务。切换行为由模型通过主动学习进行决定,避免了复杂的控制器设计过程。
[0049]
3、本发明降低了智能体的通信量需求。由于模型的注意力基于自身当前所处状态产生,所以即使在较为极端的环境下(智能体集无法通信),仍然能通过自我观测的方式进行事件触发检测。
[0050]
4、本发明信息同步精准,且不易陷入局部值。在某些极端情况下,由于智能体状态较为特殊,注意力可能陷入到某一任务约束中不再变化。针对该问题,本发明设置了动态增益补偿来缓解这一现象。并且通过注意力的关注点,智能体会自动选择最重要的信息进行同步,降低了系统的通信量。
附图说明
[0051]
图1为本发明提出的动态自注意力机制的算法流程图;
[0052]
图2为本发明实验1全信息同步下基于动态自注意力的多任务切换仿真;其中,(a)距离与时间均衡,(b)引入人工控制,(c)时间大于距离,(d)距离大于时间;
[0053]
图3为本发明实验2仅同步单一维数信息下基于动态自注意力的多任务切换仿真;其中,(a)距离与时间均衡,(b)引入人工控制,(c)时间大于距离,(d)距离大于时间。
具体实施方式
[0054]
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
[0055]
本发明公开了一种基于动态自注意力机制的多智能体事件触发控制方法,在基于自注意力机制的基础上,提出了“动态自注意力机制”,主要提出了一种新的线性变换规则和矩阵运算方法,能更好的模拟注意力在各关注点之间移动的过程,让注意力不会专注于某一固定特征点,而是以时间序列为单位有序分布在所有特征点上,并用分布密度来表示当前注意力关注的重点位置。并且通过设置动态增益补偿来缓解注意力在某些时候过于专注的问题。主要包括如下步骤:
[0056]
步骤1:考虑一个多智能体系统的数学模型如下:
[0057]
领导者节点f0(x)的数学模型为:
[0058][0059]
跟随者节点fi(x)的数学模型为:
[0060][0061]
其中α
ij
表示编队干扰折扣因子(α
ij
=1表示智能体i能与智能体j进行通信,反之
则α
ij
=0),di(vi,ti)表示第i个智能体在t时刻受到队内的飞行约束控制,ui表示第i个智能体受到环境中的飞行约束控制。
[0062]
步骤2:构建动态自注意力机制模型,动态自注意力机制模型提出了一种新的线性变换规则和矩阵运算方法。动态自注意力机制模型包括如下步骤:
[0063]
步骤2.1:定义自注意力模型中q、k、v矩阵的线性变换规则为:
[0064][0065][0066]
令φ(x)为正态分布函数,使得wd服从均值为μ方差为σ的随机正态分布,其中,d代表通信传输向量y(t)的维数,y(t)=[y1(t),y2(t),...,yd(t)];
[0067]
步骤2.2:每个智能体会基于当前时刻从自身中产生一组查询与键值对矩阵qi(qurey)、ki(key)、vi(value):
[0068][0069]
其中,qi代表智能体的查询矩阵,ki代表智能体的关键字矩阵,vi代表智能体的值矩阵,y(t)代表t时刻的通信传递向量;
[0070]
步骤2.3:定义不同维数的注意力在关键字矩阵上的分布情况:
[0071][0072]
其中,qn为矩阵q中的向量(1
×
m),kn为矩阵k中的向量(1
×
m);
[0073]
步骤2.4:得到的矩阵qk通过一个池化层进行维数压缩,得到新矩阵q
′k,本发明使用“和池化层”的方式压缩矩阵,定义和池化层为:
[0074][0075]
其中q
kn
代表矩阵qk中第n行的行和。
[0076]
步骤2.5:矩阵q
′k与值矩阵再经过矩阵乘法与池化层,即将公式(7)带入到公式(5)和公式(6)中,得到最终的注意力分布矩阵:
[0077]v′
=[v

1 v

2 ... v
′n]
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0078]
其中,v

表示最终的注意力分布矩阵,v
′n表示矩阵v

中的行向量。
[0079]
步骤2.6:定义一个动态补偿增益g=[gi]d×1:
[0080][0081]
其中,g是一个与信息传递向量y(t)同维数的矩阵,gi(i=1,2,...,d)表示g中的第i行,δ表示动态补偿常数;
[0082]
步骤2.7:定义矩阵表示补偿后的注意力结果矩阵,并将其作为最终的注意力分布矩阵:
[0083][0084]
步骤2.8:将公式(8)带入softmax函数中,整理后得到注意力分布函数γ:
[0085][0086]
当γi>ζ时,注意力分布满足事件触发条件,智能体i切换执行对应的局部任务,其中,ζ表示人工设定的事件触发阈值。
[0087]
步骤3:利用所述动态自注意力机制模型得到注意力分布,并且设置事件触发阈值ζ,在注意力分布满足触发条件时将对应节点的α
ij
置为0,达到触发事件时切换相应局部任务的目的。则触发条件如下所示:
[0088][0089]
如公式(12)所示,根据所述注意力分布是否满足事件触发阈值,自动切换执行相应的局部任务。具体为:当注意力的关注重点落在全局任务的区间上时(γi≤ζ),α
ij
被置为1,智能体i跟随集执行全局任务;反之,当注意力的关注重点落在某一局部任务的区间上时(γi>ζ),α
ij
被置为0,智能体i脱离集执行对应的局部任务。
[0090]
为了验证算法的有效性,本文设置了一个仿真实验,参数设置如下:
[0091]
仿真实验中使用了一个五维向量y(y1,y2,...,y5)作为信息传递矩阵,其中y1~y5分别代表的特征维数为:所走路程、所用时间、剩余路程、剩余时间、人工控制。
[0092]
仿真实验中的数据更新规则设置为:
[0093]
(1)y1、y2随时间推移逐渐递减,y3、y4随时间推移逐渐递增,y5为人工控制项,不随时序变化;
[0094]
(2)动态补偿常数δ∈[0.1,0.3];
[0095]
(3)信息同步维数为1/5。
[0096]
参见附图2和附图3,附图2为本发明实验1:全信息同步下基于动态自注意力的事件触发控制方法仿真,即五维向量全信息同步。图3为本发明实验2:仅同步单一维数信息下基于动态自注意力的事件触发控制方法仿真。
[0097]
仿真结果如图2和图3所示:
[0098]
图2和图3中的(a)中所展示的是当飞行距离与限定时间相匹配时,智能体在飞行前期主要关注所走距离与所用时间,此时飞行行为表现为执行全局任务;在飞行后期主要
关注剩余距离与剩余时间,此时飞行行为表现为脱离集并执行局部任务。
[0099]
图2和图3中的(b)中展示的则是在飞行过程中引入人工控制的情况,注意力会优先关注人工控制命令,但也会兼顾其他特征的变化情况。
[0100]
图2和图3中的(c)与(d)中展示的是当距离与时间之中一个较为紧急时,智能体注意力的关注情况。则可根据实际需要设定事件触发阈值条件,当注意力的主要关注点发生移动时,可达到触发不同事件的功能,进而进行多任务切换控制。
[0101]
从实验1中可以看出,注意力的关注结果γi分别使用不同颜的圆点表示,颜较浅的点为时间序列较早时的注意力分布,颜较深的点为时间序列较晚时的注意力分布。智能体能够通过主动学习的方式,在各特征点之间切换关注重点,并且基于时间序列有序分布。
[0102]
从实验2中可以看出,在引入了动态纵向同步机制后,智能体之间的通信量减小为原来的1/5。但是通信控制效果与全信息同步时基本保持不变,智能体仍能通过自我观察的方式满足设定的事件触发控制条件。两次实验结果均验证了本文所提出算法的有效性。
[0103]
上述实施方式只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。

技术特征:


1.一种基于动态自注意力机制的多智能体事件触发控制方法,其特征在于,包括如下步骤:步骤1:考虑一个多智能体系统的数学模型如下:领导者节点f0(x)的数学模型为:跟随者节点f
i
(x)的数学模型为:其中,α
ij
表示编队干扰折扣因子,α
ij
=1表示智能体i能与智能体j进行通信,反之则α
ij
=0,d
i
(v
i
,t
i
)表示第i个智能体在t时刻受到队内的飞行约束控制,u
i
表示第i个智能体受到环境中的飞行约束控制;步骤2:构建动态自注意力机制模型,所述动态自注意力机制模型定义了新的线性变换规则和矩阵运算方法;所述动态自注意力机制模型包括如下步骤:步骤2.1:定义自注意力模型中q、k、y矩阵的线性变换规则为:y矩阵的线性变换规则为:令φ(x)为正态分布函数,使得w
d
服从均值为μ方差为σ的随机正态分布,其中,d代表通信传输向量y(t)的维数,y(t)=[y1(t),y2(t),...,y
d
(t)];步骤2.2:每个智能体会基于当前状态,从自身中产生一组查询与键值对矩阵q
i
(qurey)、k
i
(key)、v
i
(value):其中,q
i
代表智能体的查询矩阵,k
i
代表智能体的关键字矩阵,v
i
代表智能体的值矩阵,y(t)代表t时刻的通信传输向量;步骤2.3:定义不同维数的注意力在关键字矩阵上的分布情况:其中,q
n
为矩阵q中的向量(1
×
m),k
n
为矩阵k中的向量(1
×
m);
步骤2.4:得到的矩阵q
k
通过一个池化层进行维数压缩,得到新矩阵q

k
;步骤2.5:矩阵q

k
与值矩阵再经过矩阵乘法与池化层,得到最终的注意力分布矩阵v

=[v

1 v

2 ... v

n
]
t
;步骤2.6:将最终的注意力分布矩阵输入softmax函数中,并取出其中的最大值项作为当前注意力所关注的重点,整理后得到注意力分布函数γ;步骤3:利用所述动态自注意力机制模型得到注意力分布,并且设置事件触发阈值ζ,在注意力分布满足触发条件时将对应节点的α
ij
置为0,达到触发事件时切换相应局部任务的目的。2.根据权利要求1所述的基于动态自注意力机制的多智能体事件触发控制方法,其特征在于,所述步骤2.4中使用“和池化层”的方式压缩矩阵,定义和池化层为:其中q
kn
代表矩阵q
k
中第n行的行和。3.根据权利要求1所述的基于动态自注意力机制的多智能体事件触发控制方法,其特征在于,所述步骤2.6之前步骤2.5之后还执行如下操作:定义一个动态补偿增益g=[g
i
]
d
×1:其中,g是一个与信息传递向量y(t)同维数的矩阵,g
i
(i=1,2,...,d)表示g中的第i行,δ表示动态补偿常数;定义矩阵表示补偿后的注意力结果矩阵,并将其作为最终的注意力分布矩阵:将公式(9)带入softmax函数中,整理后得到注意力分布函数γ:当γ
i
>ζ时,注意力分布满足事件触发条件,智能体i切换执行对应的局部任务,其中,ζ表示人工设定的事件触发阈值。4.根据权利要求1至3任一所述的基于动态自注意力机制的多智能体事件触发控制方法,其特征在于,根据所述注意力分布是否满足事件触发阈值,自动切换执行相应的局部任务;如公式(11)所示,具体为:当注意力的关注重点落在全局任务的区间上时,即γ
i
≤ζ,α
ij
被置为1,智能体i跟随集执行全局任务;反之,当注意力的关注重点落在某一局部任务的区间上时,即γ
i
>ζ,α
ij
被置为0,智能体i脱离集执行对应的局部任务:

技术总结


本发明涉及多智能体分布式编队控制领域,公开了一种基于动态自注意力机制的多智能体事件触发控制方法,包括构建动态自注意力机制模型,动态自注意力机制模型改变了线性变换规则和矩阵运算方法;对得到的矩阵进行和池化层方式压缩,增加注意力的感受野范围。定义了动态补偿增益,提升跳出局部极值能力,将补偿后的结果作为最终的注意力分布矩阵,最后得到注意力分布函数,并根据设置的事件触发阈值自动切换执行相应的局部任务。与现有技术相比,本发明提出的动态自注意力机制能更好的模拟注意力在各关注点之间移动的过程,并用分布密度来表示当前注意力关注的重点位置,通过设置动态增益补偿来缓解注意力在某些时候过于专注的问题。的问题。的问题。


技术研发人员:

冯翔翊 赵环宇 陈冬梅 蔡萍萍 刘伟 郭浩宇 华尚

受保护的技术使用者:

淮阴工学院

技术研发日:

2022.11.18

技术公布日:

2023/3/3

本文发布于:2023-03-06 01:14:07,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/67268.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:注意力   矩阵   智能   动态
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图