一种可重构智能表面增强的MISO-OFDM传输方法

阅读: 评论:0


一种可重构智能表面增强的miso-ofdm传输方法
技术领域
1.本发明属于可重构智能表面辅助的多用户多输入单输出正交频分复用(multiple-input single-output orthogonal frequency division multiplexing,miso-ofdm)下行系统自适应传输技术领域,特别涉及一种可重构智能表面增强的miso-ofdm传输方法。


背景技术:



2.可重构智能表面(reconfigurable intelligent surface,ris)得益于超材料的快速发展被视为新一代无线通信中可以低成本和低能量消耗获得高频谱效率的关键技术之一。ris是一种由大量无源且可重构的反射元件组成的软件可控的平面阵列超表面,通过实时动态调整反射信号的幅度和/或相位,反射信号能量在特定方向被加强或减弱,因而目标用户的信噪比性能被极大改善,同时用户间干扰可得到有效控制。此外,ris仅依赖于无源信号的反射,因此与传统的有源收发器/继电器相比,大大降低了硬件成本和能耗。同时,ris在实际部署中易附接到建筑物上,展现出极大的灵活性和兼容性。将具有适量反射元件的ris部署到大规模多输入多输出(multiple-input multiple-output,mimo)系统中可有效解决物理尺寸受限、硬件成本过高以及能量消耗过大等问题。除此以外,ris可在毫米波(millimeter wave,mmwave)信号被障碍物阻塞时提供反射径以维持设备间的正常通信,扩大设备覆盖范围。综上可见,ris的引入为实现通信服务质量提升以及部署开销缩减的双赢目标提供了可能性。
3.然而,实际部署的ris反射元件数量一般是从几千个到几万个变化且ris处存在恒模约束,因而如何在ris辅助的无线通信系统中通过联合设计提高通信性能是一个多任务问题。传统设计方法有逐次凸逼近和半正定松弛算法等,这些传统算法在ris反射元件数量较少时可以显示出较好的性能,但随着反射元件数目的增长,导致系统复杂度过高,且会引入较大的通信处理时延而无法满足实时通信的需求。若将这些传统数值算法应用于宽带系统,则设计复杂度进一步提高,这主要归因于宽带系统中各子载波信道不一致,单个子载波信道的最优设计对于其他子载波将不再是最优,这就需要具有低时间成本和高性能的联合设计算法来进一步解决这些问题。
4.现有针对ris处反射矩阵设计的低复杂度算法的研究主要是基于对ris处反射模式的设计或使用深度学习方法,ris处反射模式的设计需要基于多次信道试验才能获得最佳模式,深度学习方法对训练数据量有很高的要求,且对信道衰落变化很敏感。这些方法是以牺牲一定的系统性能来换取时间复杂度的下降,无法实现双赢目标,实际应用困难。


技术实现要素:



5.发明目的:为了克服现有技术中存在的不足,本发明提供一种可重构智能表面增强的miso-ofdm传输方法,为配置均匀线性阵列,部署多个单天线用户并放置ris提升通信服务质量,在用户间共享频域资源时采用迫零预编码方案消除用户间干扰,并进一步
利用注水算法和深度强化学习算法联合设计发射功率向量和ris处相移偏置矩阵以最大化系统频谱效率。本发明能够有效抑制干扰,降低所需时间成本且对信道衰落变化具有很好的稳定性。
6.技术方案:为实现上述发明目的,本发明的一种可重构智能表面增强的miso-ofdm传输方法,包括以下步骤:
7.步骤一、配置均匀线性天线阵,该天线阵包括n
t
个天线阵元,服务k个单天线用户,可重构智能表面配置均匀平面反射阵,共m=x
×
y个反射单元,包括垂直方向x行反射单元,水平方向每行y个反射单元;系统整体带宽被划分为n个子载波,k个单天线用户共享全部子载波,和可重构智能表面已知用户的时域信道状态信息;
8.步骤二、利用时域信道状态信息构建从到用户k的频域子载波信道i上的向量从可重构智能表面到用户k的频域子载波信道i上的向量和从到可重构智能表面的频域子载波信道i上的矩阵gi,k=1,2,

,k,i=0,1,

,n-1;
9.步骤三、构建智能体x的经验池及深度强化学习神经网络,包括:动作输出在线网络a、动作输出目标网络状态动作评价在线网络c
ρ
,ρ=1,2,即c1和c2,以及状态动作评价目标网络即和所述动作输出在线网络a和动作输出目标网络构成智能体x的动作网络;所述状态动作评价在线网络c1和c2以及状态动作评价目标网络和构成智能体x的评价网络;
10.智能体x在t时刻的环境状态为其中为智能体x在t-1时刻输出的可重构智能表面各个反射元件的相移参数,c
(t-1)
是t-1时刻的系统频谱效率,环境输出奖励值r
(t)
评价动作输出在线网络a在当前状态s
(t)
下输出的动作;
11.步骤四、随机初始化动作输出在线网络a的网络参数及状态动作评价在线网络c
ρ
的网络参数并令动作输出目标网络的网络参数和状态动作评价目标网络的网络参数分别满足和
12.初始化单次随机采样数量nb;初始化t=0;可重构智能表面在t=0时刻的相移矩阵中的各个相移参数从[-π,π]中随机选取;
[0013]
计算得到t=0时刻的系统频谱效率c
(0)

[0014]
令t=t+1,得到t时刻的环境状态
[0015]
步骤五、将t时刻的环境状态s
(t)
作为动作输出在线网络的输入,计算得到t时刻的可重构智能表面的相移偏置矩阵φ
(t)
、子载波i上的端预编码矩阵和端发射功率向量以及t+1时刻的环境状态且t时刻的系统频谱效率c
(t)
作为环境输出奖励值r
(t)
;将最终得到的四元组{s
(t)
,a
(t)
,r
(t)
,s
(t+1)
}作为一个经验样本存入经验池中,若经验池已存满后,则用该经验样本覆盖经验池中最早的一个经验样本;
[0016]
步骤六、智能体x将状态动作对(s
(t)
,a
(t)
)输入状态动作评价在线网络c1和c2中,输出状态动作对(s
(t)
,a
(t)
)的评价值和其中,和表示状态动作评价在线网络c1和c2的状态动作对的评价值函数;
[0017]
随后从经验池随机采样nb个样本,随机采样按如下步骤进行:
[0018]
若t≥nb,则从经验池d中随机选择nb个样本其中每个样本均为学习过程中存入经验池中的四元组,进入步骤七;若t《nb,则不采样并令t=t+1,转到步骤五;
[0019]
步骤七、利用采样结果对动作输出在线网络和状态动作评价在线网络进行更新,并对动作输出目标网络和状态动作评价目标网络进行软更新;若|c
(t)-c
(t-1)
|≤ε,是网络收敛条件,则停止迭代转到步骤八,否则令t=t+1并转到步骤五;
[0020]
步骤八、将当前时刻t所得的可重构智能表面的相移偏置矩阵φ
(t)
,用户共享子载波时各子载波i上的端预编码矩阵和端发射功率向量作为当前信道状态信息下的可重构智能表面的最佳相移偏置矩阵φ
opt
,以及相应的最佳预编码方案和功率分配方案。
[0021]
进一步的,步骤一所述时域信道状态信息包括:
[0022]
到用户k的时域块循环信道矩阵表示为:
[0023][0024]
其中,是到用户k的具有l0个抽头的直接路径时域基带等效多径信道矩阵,(
·
)
t
表示转置,(
·
)h表示共轭转置;
[0025]
从到可重构智能表面的时域块循环信道矩阵表示为:
[0026][0027]
其中,为到可重构智能表面的具有l1个抽头的时域等效多径信道矩阵,
[0028]
从可重构智能表面到用户k的时域块循环矩阵表示为:
[0029][0030]
其中,是可重构智能表面到用户k的具有l2个抽头的时域等效多径信道矩阵,
[0031]
进一步的,步骤二所述构建从到用户k的频域子载波信道i上的向量从可重构智能表面到用户k的频域子载波信道i上的向量和从到可重构智能表面的频域子载波信道i上的矩阵gi,具体包括以下步骤:
[0032]
步骤2.1、按下式计算中间矩阵和
[0033][0034][0035][0036]
其中,表示矩阵的第n列向量,表示矩阵的第n
t
+(n-1)
×nt
列向量,表示矩阵的第p行第q列元素,
表示矩阵的第m+(p-1)
×
m行第n
t
+(q-1)
×nt
列元素,表示矩阵的第n列向量,表示矩阵的第m+(n-1)
×
m列向量,n,p,q=1,2,

,n;
[0037]
步骤2.2、利用和计算过渡对角矩阵:计算过渡对角矩阵:其中,是归一化的离散傅里叶变换矩阵,其第n
row
行第n
col
列元素为列元素为
[0038]
步骤2.3、按下式构建向量和矩阵gi:
[0039][0040][0041][0042]
其中,表示向量的第n
t
个元素,表示矩阵的第i+1行第i+1列元素,表示向量的第m个元素,表示矩阵的第i+1行第i+1列元素,gi(m,n
t
)表示矩阵gi的第m行第n
t
列元素,表示矩阵的第i+1行第i+1列元素,n
t
=1,2,

,n
t
,m=1,2,

,m,(
·
)
*
表示共轭。
[0043]
进一步的,步骤四所述计算得到t=0时刻的系统频谱效率c
(0)
,具体包括以下步骤:
[0044]
步骤4.1、计算t=0时刻可重构智能表面的相移偏置矩阵:
[0045][0046]
其中,是以为对角元的对角矩阵;
[0047]
步骤4.2、采用迫零预编码方法计算t=0时刻子载波i上的端预编码矩阵其中是子载波i上对应于用户k的预编码向量,利用下式计算:
[0048][0049]
其中,表示矩阵的第k列,表示伪逆,||
·
||
表示frobenius范数;
[0050]
步骤4.3、t=0时刻子载波i上的端发射功率向量利用下式计算子载波i上对应于用户k的发射功率
[0051][0052]
其中,(x)
+
=max(0,x),为噪声功率,注水参数满足p
t
为总发射功率;
[0053]
步骤4.4、用下式计算在t=0时刻的系统频谱效率c
(0)
,并作为环境输出奖励值r
(0)

[0054][0055]
其中,n
cp
为循环前缀以避免正交频分复用(orthogonal frequency division multiplexing,ofdm)符号间干扰,为t=0时刻用户k在子载波i上的信噪比,如下式所示:
[0056][0057]
进一步的,所述步骤五具体包括以下步骤:
[0058]
步骤5.1、将t时刻的环境状态s
(t)
作为动作输出在线网络的输入,该网络输出t时刻的动作其中πa(
·
)为动作输出在线网络的策略函数;
[0059]
进而得到智能体x的动作其中,为服从标准正态分布的探索噪声,且将a
(t)
的m个元素作为当前t时刻可重构智能表面反射元件的相移参数;
[0060]
步骤5.2、基于动作a
(t)
计算可重构智能表面的相移偏置矩阵:
[0061][0062]
步骤5.3、t时刻在子载波i上的端预编码矩阵其中是t时刻子载波i上对应于用户k的预编码向量,采用下式计算:
[0063][0064]
其中,表示矩阵的第k列,
[0065][0066]
步骤5.4、t时刻在子载波i上端发射功率向量其中t时刻子载波i上对应于用户k的发射功率采用下式计算:
[0067][0068]
其中,注水参数λ满足
[0069]
步骤5.5、t时刻的系统频谱效率c
(t)
用下式计算,同时作为环境输出奖励值r
(t)

[0070][0071]
其中,为t时刻用户k在子载波i上的信噪比,用下式计算:
[0072][0073]
步骤5.6、得到t+1时刻的状态
[0074]
步骤5.7、将得到的四元组{s
(t)
,a
(t)
,r
(t)
,s
(t+1)
}作为一个经验样本存入经验池中,若经验池已存满后,则用该经验样本覆盖经验池中最早的一个经验样本。
[0075]
进一步的,步骤七所述利用采样结果对动作输出在线网络和状态动作评价在线网络进行更新,并对动作输出目标网络和状态动作评价目标网络进行软更新,具体包括以下步骤:
[0076]
步骤7.1、将所采的nb个样本的状态动作对输入状态动作评价目标网络和得到相应的状态动作对的价值函数估计值和其中,和分别是动作状态评价目标网络和的状态动作对评价值函数,每个样本为经验池存储的第tj个时刻的样本四元组;
[0077]
按照贝尔曼方程(bellman equation)计算得到价值函数目标值
[0078]
其中,γ∈(0,1)为奖励函数的折扣因子,为动作输出目标网络根据产生的动作,是动作输出目标网络的策略函数,是通过对噪声功率为的正态分布随机噪声按输出动作维度进行采样并按比例放缩在(-c,c)范围内产生的,是噪声截断上限值;
[0079]
步骤7.2、计算所采nb个样本的均方误差作为状态动作评价在线网络c
ρ
的损失函数:
[0080][0081]
通过令状态动作评价在线网络c
ρ
的输出与目标值间的均方误差值尽可能小,不断更新状态动作评价在线网络c
ρ
的网络参数
[0082]
步骤7.3、当时刻t为网络更新间隔时刻nu的整数倍时,对动作输出在线网络a的网络参数利用下式进行更新:
[0083][0084]
其中,是nb个样本的动作输出在线网络a的累计价值函数;
[0085]
并对动作输出目标网络和状态动作评价目标网络的网络参数和进行软更新:
[0086][0087][0088]
其中,τ<<1为软更新参数。
[0089]
进一步的,所述动作输出在线网络a、动作输出目标网络状态动作评价在线网络c
ρ
,ρ=1,2,和状态动作评价目标网络包含四个全连接层:输入层、两个隐藏层和输出层,隐藏层都使用relu激活函数,其中动作输出目标网络和动作输出在线网络的输出层使用tanh激活函数。
[0090]
进一步的,步骤四所述动作输出在线网络a的网络参数动作输出目标网络的网络参数状态动作评价在线网络c
ρ
的网络参数和状态动作评价目标网络的网络参数包括全连接层的权重和偏置。
[0091]
有益效果:与现有技术相比,本发明具有以下有益效果:
[0092]
1)本方法对信道快衰落具有很好的鲁棒性,适用于各种典型的无线通信环境;
[0093]
2)本方法中的端预编码矩阵、发射功率向量和ris处相移偏置矩阵联合设计方法收敛速度快、易于实现,特别是在用户数和天线数较大的时候,本方法的计算效率与传统的计算方法相比提高了数倍;
[0094]
3)本方法能以较低的时间成本获得较高的系统频谱效率。
附图说明
[0095]
图1是本发明方法利用深度强化学习智能体优化ris相移偏置矩阵的网络框架图;
[0096]
图2是本发明智能体中动作输出网络和状态动作评价网络的网络结构图。
具体实施方式
[0097]
下面结合说明书附图以及具体实施例对本发明作更进一步的说明。
[0098]
本发明的一种可重构智能表面增强的miso-ofdm传输方法,考虑一个ris辅助的多用户miso-ofdm系统中,基于频谱效率最大化准则,联合设计端预编码矩阵、发射功率向量以及ris反射相移偏置矩阵,框架如图1所示,包括以下步骤:
[0099]
步骤一、配置均匀线性天线阵,该天线阵包括n
t
=8个天线阵元,服务k=2个单天线用户,可重构智能表面配置均匀平面反射阵,共m=x
×
y=10
×
10个反射单元,包括垂直方向x=10行反射单元,水平方向每行y=10个反射单元;系统整体带宽被划分为n=64个子载波,k=2个单天线用户共享全部子载波,和可重构智能表面已知用户的信道状态信息;
[0100]
所述时域信道状态信息包括:
[0101]
为到用户k的时域块循环信道矩阵,如下式所示:
[0102][0103]
其中,是到用户k,的具有l0=16个抽头的直接路径时域基带等效多径信道矩阵,表示转置,(
·
)h表示共轭转置;
[0104]
为从到可重构智能表面的时域块循环信道矩阵,如下式所示:
[0105][0106]
其中,为到可重构智能表面的具有l1=4个抽头的时域等效多径信道矩阵,
[0107]
为从可重构智能表面到用户k的时域块循环矩阵,如下式所示:
[0108][0109]
其中,是可重构智能表面到用户k的具有l2=13个抽头的时域等效多径信道矩阵,
[0110]
步骤二、利用步骤一获得的时域信道状态信息采用下述方法构建从到用户k的频域子载波信道i上的向量从可重构智能表面到用户k的频域子载波信道i上的向量和从到可重构智能表面的频域子载波信道i上的矩阵gi,k=1,2,i=0,1,

,63:
[0111]
步骤2.1、按下式计算中间矩阵和
[0112]
使得
[0113][0114][0115]
其中,表示矩阵的第n列向量,表示矩阵的第n
t
+(n-1)
×
8列向量,表示矩阵的第p行第q列元素,表示矩阵的第m+(p-1)
×
100行第n
t
+(q-1)
×
8列元素,表示矩阵的第n列向量,表示矩阵的第m+(n-1)
×
100列向量,n,p,q=1,2,

,64;
[0116]
步骤2.2、利用和计算过渡对角矩阵和其中,是归一化离散傅里叶变换矩阵(discrete fourier transform,dft),其第n
row
行第n
col
列元素为(
·
)h表示共轭转置;
[0117]
步骤2.3、按下式构建向量和矩阵gi:
[0118][0119]
[0120][0121]
其中,表示向量的第n
t
个元素,表示矩阵的第i+1行第i+1列元素,表示向量的第m个元素,表示矩阵的第i+1行第i+1列元素,gi(m,n
t
)表示矩阵gi的第m行第n
t
列元素,表示矩阵的第i+1行第i+1列元素,n
t
=1,2,

,8,m=1,2,

,100,(
·
)
*
表示共轭。
[0122]
步骤三、如图1所示,构建智能体x的经验池及深度强化学习神经网络,包括:动作输出在线网络a、动作输出目标网络状态动作评价在线网络c
ρ
ρ=1,2即c1和c2,以及状态动作评价目标网络即和所述动作输出在线网络a和动作输出目标网络构成智能体x的动作网络;所述状态动作评价在线网络c1和c2和状态动作评价目标网络和构成智能体x的评价网络;
[0123]
动作网络和评价网络都包含四个全连接层:输入层、两个隐藏层和输出层,动作网络的输入层包含101神经元,两层隐藏层分别包含300、400个神经元,输出层包含100个神经元;评价网络的输入层均包含201个神经元,两个隐藏层的神经元个数与动作网络一致,输出层包含1个神经元;隐藏层使用relu激活函数,动作输出在线网络和动作输出目标的输出层使用tanh激活函数,如图2所示。
[0124]
所述智能体x在t时刻的环境状态为其中为智能体x在t-1时刻输出的可重构智能表面各个反射元件的相移参数,c
(t-1)
是t-1时刻的系统频谱效率,环境输出奖励值r
(t)
评价动作输出在线网络a在当前状态s
(t)
下输出的动作;
[0125]
所述动作输出在线网络a,其网络参数每隔nu=2个时刻利用策略梯度上升更新网络,nu为网络更新间隔时刻;根据当前t时刻的环境状态动作输出在线网络a选择最优动作其中πa(
·
)为动作输出在线网络a的策略函数,将a
(t)
与服从标准正态分布的探索噪声相加得到智能体x的动作将向量a
(t)
的m=100个元素作为当前t时刻可重构智能表面反射元件的相移参数;
[0126]
动作输出目标网络的网络结构与动作输出在线网络a一致,其网络参数每隔nu=2个时刻基于动作输出在线网络a的网络参数软更新一次;
[0127]
所述状态动作评价在线网络c
ρ
,ρ=1,2,两者网络结构一致,对应的网络参数为并在每个时刻进行更新,表示状态动作评价在线网络的评价值函数,计算当前t时刻的状态动作对的价值函数
[0128]
状态动作评价目标网络两者网络结构相同,且与对应的状态动作评
价在线网络c
ρ
,ρ=1,2,结构一致,网络参数每隔nu=2个时刻基于对应的状态动作评价在线网络c
ρ
的网络参数软更新一次;
[0129]
其中,动作输出在线网络a、动作输出目标网络状态动作评价在线网络c
ρ
,ρ=1,2,和状态动作评价目标网络的网络参数包括全连接层的权重和偏置。
[0130]
所述容量为nd=500的经验池d用于存放学习过程中每个时刻产生的经验四元组{s
(t)
,a
(t)
,r
(t)
,s
(t+1)
}。
[0131]
步骤四、随机初始化动作输出在线网络a的网络参数及状态动作评价在线网络c
ρ
的网络参数并令动作输出目标网络和状态动作评价目标网络的网络参数分别满足和
[0132]
初始化单次随机采样数量nb=32;可重构智能表面在t=0时刻的相移矩阵中的各个相移参数从[-π,π]中随机选取;
[0133]
然后计算在t=0时刻的系统频谱效率,具体包括以下步骤:
[0134]
步骤4.1、计算t=0时刻可重构智能表面的相移偏置矩阵表示以为对角元的对角矩阵。
[0135]
步骤4.2、采用迫零预编码方法计算t=0时刻子载波i上的端预编码矩阵其中是子载波i上对应于用户k的预编码向量,利用下式计算:
[0136][0137]
其中,表示矩阵的第k列,表示伪逆,(
·
)
*
表示共轭,||
·
||表示frobenius范数。
[0138]
步骤4.3、t=0时刻子载波i上的端发射功率向量利用下式计算子载波i上对应于用户k的发射功率
[0139][0140]
其中,(x)
+
=max(0,x),注水参数满足
[0141]
步骤4.4、利用下式计算t=0时刻用户k在子载波i上的信噪比:
[0142][0143]
用下式计算在t=0时刻的系统频谱效率,同时作为环境输出奖励值r
(0)

[0144][0145]
其中,n
cp
=64为循环前缀以避免ofdm符号间干扰;
[0146]
步骤4.5、令t=t+1,则
[0147]
步骤五、具体包括以下步骤:
[0148]
步骤5.1、将t时刻的状态s
(t)
作为动作输出在线网络的输入,该网络输出t时刻的动作将a
(t)
与服从标准正态分布的探索噪声相加得到智能体x的动作
[0149]
步骤5.2、基于动作a
(t)
计算可重构智能表面的相移偏置矩阵
[0150]
步骤5.3、t时刻在子载波i,i=0,1,

,63,上的端预编码矩阵其中是t时刻子载波i上对应于用户k的预编码向量,采用下式计算,本实施例中
[0151][0152]
其中,表示矩阵的第k列,的第k列,
[0153]
步骤5.4、t时刻子载波i上的端发射功率向量本实施例中利用下式计算t时刻子载波i上对应于用户k的发射功率
[0154][0155]
其中,注水参数λ满足
[0156]
步骤5.5、利用下式计算t时刻用户k在子载波i上的信噪比:
[0157][0158]
t时刻的系统频谱效率可用下式计算,同时作为环境输出奖励值r
(t)

[0159][0160]
步骤5.6、则t+1时刻的状态
[0161]
步骤5.7、将得到的四元组{s
(t)
,a
(t)
,r
(t)
,s
(t+1)
}作为一个经验样本存入经验池中,若经验池已存满后,则用该经验样本覆盖经验池中最早的一个经验样本。
[0162]
步骤六、智能体x将状态动作对(s
(t)
,a
(t)
)输入状态动作评价在线网络c1和c2中,输出状态动作对(s
(t)
,a
(t)
)的评价值和随后从经验池随机采样nb=32个样本;
[0163]
所述随机采样按如下步骤进行:
[0164]
若t≥32,则从经验池d中随机选择nb=32个样本d={d1,d2,

,d
32
},其中每个样本均为学习过程中存入经验池中的四元组,进入步骤七;若t《32,则不采样并令t=t+1,转到步骤五。
[0165]
步骤七、利用采样结果对动作输出在线网络和状态动作评价在线网络进行更新,并对动作输出目标网络和状态动作评价目标网络进行软更新;若|c
(t)-c
(t-1)
|≤0.0001,则停止迭代转到步骤八,否则令t=t+1并转到步骤五;
[0166]
对动作输出在线网络和状态动作评价在线网络的更新,并对动作输出目标网络和状态动作评价目标网络的软更新,按如下步骤进行:
[0167]
步骤7.1、将所采的nb=32个样本的状态动作对输入状态动作评价目标网络和得到相应的状态动作对的价值函数估计值和
[0168]
按照贝尔曼方程(bellman equation)计算得到价值函数目标值
[0169]
其中,为动作输出目标网络根据产生的动作,其中,是动作输出目标网络的策略函数,是通过对噪声功率为的正态分布随机噪声按输出动作维度进行采样并放缩在(-0.05,0.05)范围内产生的;
[0170]
步骤7.2、计算所采nb=32个样本的均方误差作为状态动作评价在线网络c
ρ
的损失函数:
[0171][0172]
其中,损失函数中涉及到状态动作评价在线网络c
ρ
网络参数更新,更新的目标是让状态动作评价在线网络c
ρ
的输出与目标尽可能接近;
[0173]
步骤7.3、当t=2n
num
,时,对动作输出在线网络a的网络参数每隔nu=2个时刻利用下式进行更新:
[0174][0175]
其中,为nb=32个样本的动作输出在线网络a的累计价值函数。
[0176]
每隔nu=2个时刻对动作目标网络和评价目标网络的网络参数和进行软更新:
[0177][0178][0179]
步骤八、将当前时刻t所得的可重构智能表面的相移偏置矩阵φ
(t)
、用户共享子载波时子载波i上端预编码矩阵和端发射功率向量作为当前信道状态信息下的可重构智能表面的最佳相移偏置矩阵φ
opt
、相应的最佳预编码方案及功率分配方案。
[0180]
综上,本发明在运行时间复杂度和系统性能上均优于传统的数值迭代设计方法,利用深度神经网络强大的非线性建模能力,快速学习出最优的ris反射相移矩阵,特别是对于快速时变信道有很强的鲁棒性,可以实现高效的系统频谱效率。
[0181]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术特征:


1.一种可重构智能表面增强的miso-ofdm传输方法,其特征在于,包括以下步骤:步骤一、配置均匀线性天线阵,该天线阵包括n
t
个天线阵元,服务k个单天线用户,可重构智能表面配置均匀平面反射阵,共m=x
×
y个反射单元,包括垂直方向x行反射单元,水平方向每行y个反射单元;系统整体带宽被划分为n个子载波,k个单天线用户共享全部子载波,和可重构智能表面已知用户的时域信道状态信息;步骤二、利用时域信道状态信息构建从到用户k的频域子载波信道i上的向量从可重构智能表面到用户k的频域子载波信道i上的向量和从到可重构智能表面的频域子载波信道i上的矩阵g
i
,k=1,2,

,k,i=0,1,

,n-1;步骤三、构建智能体x的经验池及深度强化学习神经网络,包括:动作输出在线网络a、动作输出目标网络状态动作评价在线网络c
ρ
,ρ=1,2,即c1和c2,以及状态动作评价目标网络即和所述动作输出在线网络a和动作输出目标网络构成智能体x的动作网络;所述状态动作评价在线网络c1和c2以及状态动作评价目标网络和构成智能体x的评价网络;智能体x在t时刻的环境状态为其中为智能体x在t-1时刻输出的可重构智能表面各个反射元件的相移参数,c
(t-1)
是t-1时刻的系统频谱效率,环境输出奖励值r
(t)
评价动作输出在线网络a在当前状态s
(t)
下输出的动作;步骤四、随机初始化动作输出在线网络a的网络参数及状态动作评价在线网络c
ρ
的网络参数并令动作输出目标网络的网络参数和状态动作评价目标网络的网络参数分别满足和初始化单次随机采样数量n
b
;初始化t=0;可重构智能表面在t=0时刻的相移矩阵中的各个相移参数从[-π,π]中随机选取;计算得到t=0时刻的系统频谱效率c
(0)
;令t=t+1,得到t时刻的环境状态步骤五、将t时刻的环境状态s
(t)
作为动作输出在线网络的输入,计算得到t时刻的可重构智能表面的相移偏置矩阵φ
(t)
、子载波i上的端预编码矩阵和端发射功率向量以及t+1时刻的环境状态且t时刻的系统频谱效率c
(t)
作为环境输出奖励值r
(t)
;将最终得到的四元组{s
(t)
,a
(t)
,r
(t)
,s
(t+1)
}作为一个经验样本存入经验池中,若经验池已存满后,则用该经验样本覆盖经验池中最早的一个经验样本;步骤六、智能体x将状态动作对(s
(t)
,a
(t)
)输入状态动作评价在线网络c1和c2中,输出状态动作对(s
(t)
,a
(t)
)的评价值和其中,和表示状态动作评价在线网络c1和c2的状态动作对的评价值函数;
随后从经验池随机采样n
b
个样本,随机采样按如下步骤进行:若t≥n
b
,则从经验池d中随机选择n
b
个样本其中每个样本均为学习过程中存入经验池中的四元组,进入步骤七;若t<n
b
,则不采样并令t=t+1,转到步骤五;步骤七、利用采样结果对动作输出在线网络和状态动作评价在线网络进行更新,并对动作输出目标网络和状态动作评价目标网络进行软更新;若|c
(t)-c
(t-1)
|≤ε,是网络收敛条件,则停止迭代转到步骤八,否则令t=t+1并转到步骤五;步骤八、将当前时刻t所得的可重构智能表面的相移偏置矩阵φ
(t)
,用户共享子载波时各子载波i上的端预编码矩阵和端发射功率向量作为当前信道状态信息下的可重构智能表面的最佳相移偏置矩阵φ
opt
,以及相应的最佳预编码方案和功率分配方案。2.根据权利要求1所述的一种可重构智能表面增强的miso-ofdm传输方法,其特征在于,步骤一所述时域信道状态信息包括:到用户k的时域块循环信道矩阵表示为:其中,是到用户k的具有l0个抽头的直接路径时域基带等效多径信道矩阵,(
·
)
t
表示转置,(
·
)
h
表示共轭转置;从到可重构智能表面的时域块循环信道矩阵表示为:
其中,为到可重构智能表面的具有l1个抽头的时域等效多径信道矩阵,从可重构智能表面到用户k的时域块循环矩阵表示为:其中,是可重构智能表面到用户k的具有l2个抽头的时域等效多径信道矩阵,3.根据权利要求1所述的一种可重构智能表面增强的miso-ofdm传输方法,其特征在于,步骤二所述构建从到用户k的频域子载波信道i上的向量从可重构智能表面到用户k的频域子载波信道i上的向量和从到可重构智能表面的频域子载波信道i上的矩阵g
i
,具体包括以下步骤:步骤2.1、按下式计算中间矩阵和和和和其中,表示矩阵的第n列向量,表示矩阵的第n
t
+(n-1)
×
n
t
列向量,表示矩阵的第p行第q列元素,表示矩阵的第m+(p-1)
×
m行第n
t
+(q-1)
×
n
t
列元素,表示矩阵的第n列向量,表示矩阵的第m+(n-1)
×
m列向量,n,p,q=1,2,

,n;步骤2.2、利用和计算过渡对角矩阵:计算过渡对角矩阵:其中,是归一化的离散傅里叶变换矩阵,其第n
row
行第n
col
列元素为列元素为
步骤2.3、按下式构建向量和矩阵g
i
:::其中,表示向量的第n
t
个元素,表示矩阵的第i+1行第i+1列元素,表示向量的第m个元素,表示矩阵的第i+1行第i+1列元素,g
i
(m,n
t
)表示矩阵g
i
的第m行第n
t
列元素,表示矩阵的第i+1行第i+1列元素,n
t
=1,2,

,n
t
,m=1,2,

,m,(
·
)
*
表示共轭。4.根据权利要求1所述的一种可重构智能表面增强的miso-ofdm传输方法,其特征在于,步骤四所述计算得到t=0时刻的系统频谱效率c
(0)
,具体包括以下步骤:步骤4.1、计算t=0时刻可重构智能表面的相移偏置矩阵:其中,是以为对角元的对角矩阵;步骤4.2、采用迫零预编码方法计算t=0时刻子载波i上的端预编码矩阵其中是子载波i上对应于用户k的预编码向量,利用下式计算:其中,表示矩阵的第k列,表示伪逆,||
·
||表示frobenius范数;步骤4.3、t=0时刻子载波i上的端发射功率向量利用下式计算子载波i上对应于用户k的发射功率利用下式计算子载波i上对应于用户k的发射功率其中,(x)
+
=max(0,x),=max(0,x),为噪声功率,注水参数满足满足p
t
为总发射功率;步骤4.4、用下式计算在t=0时刻的系统频谱效率c
(0)
,并作为环境输出奖励值r
(0)

其中,n
cp
为循环前缀以避免正交频分复用(orthogonal frequency division multiplexing,ofdm)符号间干扰,为t=0时刻用户k在子载波i上的信噪比,如下式所示:5.根据权利要求1所述的一种可重构智能表面增强的miso-ofdm传输方法,其特征在于,所述步骤五具体包括以下步骤:步骤5.1、将t时刻的环境状态s
(t)
作为动作输出在线网络的输入,该网络输出t时刻的动作其中π
a
(
·
)为动作输出在线网络的策略函数;进而得到智能体x的动作其中,为服从标准正态分布的探索噪声,且将a
(t)
的m个元素作为当前t时刻可重构智能表面反射元件的相移参数;步骤5.2、基于动作a
(t)
计算可重构智能表面的相移偏置矩阵:步骤5.3、t时刻在子载波i上的端预编码矩阵其中是t时刻子载波i上对应于用户k的预编码向量,采用下式计算:其中,表示矩阵的第k列,步骤5.4、t时刻在子载波i上端发射功率向量其中t时刻子载波i上对应于用户k的发射功率采用下式计算:其中,注水参数λ满足步骤5.5、t时刻的系统频谱效率c
(t)
用下式计算,同时作为环境输出奖励值r
(t)

其中,为t时刻用户k在子载波i上的信噪比,用下式计算:步骤5.6、得到t+1时刻的状态步骤5.7、将得到的四元组{s
(t)
,a
(t)
,r
(t)
,s
(t+1)
}作为一个经验样本存入经验池中,若经验池已存满后,则用该经验样本覆盖经验池中最早的一个经验样本。6.根据权利要求1所述的一种可重构智能表面增强的miso-ofdm传输方法,其特征在于,步骤七所述利用采样结果对动作输出在线网络和状态动作评价在线网络进行更新,并对动作输出目标网络和状态动作评价目标网络进行软更新,具体包括以下步骤:步骤7.1、将所采的n
b
个样本的状态动作对输入状态动作评价目标网络和得到相应的状态动作对的价值函数估计值和其中,和分别是动作状态评价目标网络和的状态动作对评价值函数,每个样本为经验池存储的第t
j
个时刻的样本四元组;按照贝尔曼方程(bellman equation)计算得到价值函数目标值其中,γ∈(0,1)为奖励函数的折扣因子,为动作输出目标网络根据产生的动作,是动作输出目标网络的策略函数,是通过对噪声功率为的正态分布随机噪声按输出动作维度进行采样并按比例放缩在(-c,c)范围内产生的,是噪声截断上限值;步骤7.2、计算所采n
b
个样本的均方误差作为状态动作评价在线网络c
ρ
的损失函数:通过令状态动作评价在线网络c
ρ
的输出与目标值间的均方误差值尽可能小,不断更新状态动作评价在线网络c
ρ
的网络参数步骤7.3、当时刻t为网络更新间隔时刻n
u
的整数倍时,对动作输出在线网络a的网络参数利用下式进行更新:其中,是n
b
个样本的动作输出在线网络a的累计价值函数;
并对动作输出目标网络和状态动作评价目标网络的网络参数和进行软更新:新:其中,τ<<1为软更新参数。7.根据权利要求1所述的一种可重构智能表面增强的miso-ofdm传输方法,其特征在于,所述动作输出在线网络a、动作输出目标网络状态动作评价在线网络c
ρ
,ρ=1,2,和状态动作评价目标网络包含四个全连接层:输入层、两个隐藏层和输出层,隐藏层都使用relu激活函数,其中动作输出目标网络和动作输出在线网络的输出层使用tanh激活函数。8.根据权利要求1所述的一种可重构智能表面增强的miso-ofdm传输方法,其特征在于,步骤四所述动作输出在线网络a的网络参数动作输出目标网络的网络参数状态动作评价在线网络c
ρ
的网络参数和状态动作评价目标网络的网络参数包括全连接层的权重和偏置。

技术总结


本发明公开了一种可重构智能表面增强的MISO-OFDM传输方法,该方法中和可重构智能表面利用已知的信道状态信息,基于系统频谱效率最大化原则,在用户间共享子载波的前提下,通过迫零预编码方案、注水功率分配算法和深度强化学习算法联合设计端预编码矩阵、功率分配矩阵和可重构智能表面处反射相移矩阵。该传输方法中发送的信号经可重构智能表面反射到达用户端,可重构智能表面能改变入射到其上的信号的相位,从而达到在接收用户端增强其接收信号的效果。本发明收敛速度快,以相对传统数值方法较低的计算复杂度和时延获得较高的系统吞吐量。得较高的系统吞吐量。得较高的系统吞吐量。


技术研发人员:

李潇 黄文婷 金石

受保护的技术使用者:

东南大学

技术研发日:

2022.04.21

技术公布日:

2022/11/24

本文发布于:2022-11-26 07:44:28,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/4593.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:在线   动作   矩阵   网络
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图