光伏发电柔性功率点追踪控制方法、装置和系统与流程

阅读: 评论:0



1.本发明涉及光伏发电柔性功率点追踪的技术领域,尤其涉及一种基于强化学习的光伏发电柔性功率输出的控制装置和方法。


背景技术:



2.近年来光伏行业一直在探索和应用不同的方法来寻光伏发电最大功率点,而光伏电站发电功率具有较强的随机性和波动性,且受天气及地域的影响较大,单纯追求最大功率也容易产生功率输出不稳定的情况;且大规模光伏集中接入电网后必然会对系统热稳定、暂态稳定、电压稳定、频率稳定及电能质量产生影响。为了保障电力系统的安全稳定运行,光伏发电的安全稳定成为了首要考虑的问题之一,光伏发电柔性功率输出控制的研究也开始诞生和发展。传统方法控制简单,但难以应对快速剧烈变化的环境条件,当环境条件复杂变化时控制精度较差。


技术实现要素:



3.本发明提出了一种伏发电柔性功率点追踪控制方法、装置和系统,能够克服传统方法难以应对快速变换的复杂环境条件和容易出现误判的问题。
4.为了达到上述目的,本发明提出了一种光伏发电柔性功率点追踪控制方法,包括以下步骤:
5.s1、将光伏模型的电源决策模块作为强化学习的智能体,并针对光伏模型中光伏发电柔性功率点进行智能追踪;
6.s2、基于智能体的反馈信号与环境互动,强化学习算法调整和改善智能决策行为,决策出柔性功率点最优追踪策略;
7.s3、智能体通过与环境交互,决策出最优调度策略,以在不断变化的环境中追踪光伏发电柔性功率点。
8.进一步地,所述智能体基于动作价值函数的actor-critic架构,包括四个网络,即演员网络、演员目标网络、批评家网络和批评家目标网络;其中演员网络学习策略函数π,评论家网络学习动作价值函数q;动作值函数和动作函数分别由深度神经网络q(s
t
,a
t
|θq)和μ(s
t

μ
)训练得到,其中θq与θ
μ
对应了批评家网络和演员网络中的各层各节点的权值与偏差的参数;演员网络的参数θ
μ
可以通过梯度方法更新:
[0009][0010]
其中为偏导数,j为演员网络参数关于回报期望的分布,ρ
β
为状态s
t
所服从的分布。
[0011]
评论家网络critic通过随机梯度下降来最小化损失函数:
[0012]
l(θq)=e
(s,a)
[(q(s
t
,a
t
|θq)-y
t
)2],
[0013]yt
=r
t
(s
t
,a
t
)+γq(s
t+1
,μ(s
t

μ
)|θq)。
[0014]
其中l(θq)为损失函数,y
t
为预期回报,r
t
为当前状态动作下的奖励,γ为衰减率,一般取0.9~1。
[0015]
进一步地,所述针对光伏模型中光伏发电柔性功率点进行智能追踪的方法,包括以下步骤:将光伏发电柔性功率点智能追踪过程建模描述为马尔科夫决策过程,基于马尔科夫决策过程建立基于ddpg强化学习算法的光伏发电柔性功率点追踪的环境模型、状态空间模型、动作空间模型、奖励函数模型和神经网络模型。
[0016]
进一步地,所述步骤2包括以下步骤:
[0017]
s2.1、设定相对应的任务目标;
[0018]
s2.2、智能体通过动作与环境进行交互;
[0019]
s2.3、强化学习算法利用所述智能体和环境交互的数据进行训练,修改自身的动作策略;
[0020]
s2.4、经过数次迭代后,最终得到相应任务的最优追踪策略。
[0021]
进一步地,所述强化学习算法包括训练模型,所述训练模型包括:
[0022]
以(状态、行为、奖励、下一个状态)构成的元组(s
t
、a
t
、r
t
、s
t-1
、s
t-2
)为样本进行训练,使起始分布j=e(r
t
)的预期回报最大化,其中s
t
为当前的状态,a
t
为当前状态下执行的动作,r
t
为在执行动作后获得的即时奖励,s
t-1
为上一时刻状态,s
t-2
为前一时刻状态;
[0023]
用状态动作值函数q
π
(s,a)来表示在状态s
t
下遵循策略π采取动作a
t
时得到奖励r
t
的期望:
[0024]
引入奖励和折扣因子构建强化学习贝尔曼方程为:
[0025]
该目标值函数是当前动作获得的奖励加上下一步动作获得的最大期望价值,其中r(s
t
,a
t
)为执行动作后获得的即时奖励,γ为折扣因子,取值范围为[0,1],根据未来奖励在学习中的重要性而设定。
[0026]
进一步地,对强化学习算法进行训练的方法包括以下步骤:
[0027]
s2.3.1:在每个时间步长上,智能体观测环境量包含状态s
t
,s
t-1
,s
t-2
,动作a
t
和奖励函数r
t

[0028]
s2.3.2:智能体在当前状态s
t
下采取动作a
t
并通过动作函数a转移到下一状态s
t+1
:s
t+1
=a(s
t
,a
t
);
[0029]
s2.3.3:环境模型根据当前状态s
t
、执行动作a
t
和下一状态s
t+1
通过奖励函数r:r
t
=r(s
t
,a
t
,s
t+1
)返回;
[0030]
s2.3.4:将q
π
(s,a)称为状态-动作值函数q
π
(s,a)=e
π
[g
t
|s
t
=s,a
t
=a],表征智能体在某一状态s及某一动作a下做出相应策略的价值;
[0031]
s2.3.5:当智能体在某一状态s采用动作后,通过定义累计回报来衡量状态s做出动作的价值v(s)=e[g
t
|s
t
=s];
[0032]
其中,所述价值函数v为从该状态开始的马尔科夫决策过程获得的总期望。
[0033]
进一步地,所述状态空间模型包括:温度、光照、电压、功率,其中电压和功率包含最近三个时刻的值,此外还有功率在p-v曲线中的变化率和电流在i-v曲线中的变化率,两
个变化率包含最近两个时刻的值;
[0034]
所述状态空间模型的表示方式如下所示:
[0035][0036]
其中g为当前时刻的光照强度,t为当前时刻的温度,v(t)为当前时刻的电压,v(t-1)为上一个时刻的电压,v(t-2)为上两个时刻的电压,p(t)为当前时刻的功率,p(t-1)为上一个时刻的功率,p(t-2)为上两个时刻的功率,i为电流值,i(t)=p(t)/v(t),δp为功率变化值,δp(t)=p(t)-p(t-1),为电流变化率,为上一时刻的电流变化率,为当前时刻的电导变化,为上一时刻的电导变化;
[0037]
所述动作空间模型包括:动作值a
t
被设定为电压的变化量,智能体通过获取当前的状态判断接下来电压的增减以完成柔性功率点的持续追踪;
[0038]
所述动作空间模型的表示方式如下所示:
[0039]
a=(δv
min
,δv
max
);
[0040]
其中a为动作,其中δv
min
为电压减少量阈值,δv
max
为电压增加量阈值;
[0041]
所述奖励函数模型包括奖励函数,根据光伏功率点追踪控制的实际特点采用了分段式奖励函数,使得强化学习任务的难度分解,在未完成任务时也能获得部分奖励;
[0042]
所述奖励函数的表示方式如下所示:
[0043][0044][0045]
其中,r
t
为奖励,δe为当前时刻相比上一时刻的电流变化率。
[0046]
基于同一构思,本发明还提出了一种光伏发电柔性功率点追踪控制装置,包括:光伏模型模块和强化学习模型;
[0047]
所述光伏模型模块包括光伏电源、dc/dc直流降压变换器、电阻负载以及电源决策模块,所述电源决策模块作为强化学习的智能体;
[0048]
所述强化学习模块还包括环境模型模块、状态空间模型模块、动作空间模型模块、奖励函数模型模块和神经网络模型模,分别用于配置环境模型、状态空间模型、动作空间模型、奖励函数模型和神经网络模型,实现光伏发电柔性功率输出的追踪控制。
[0049]
本发明还提出了一种光伏柔性功率输出的控制系统,包括:上述的光伏发电柔性功率点追踪控制装置、处理器、储存器以及储存在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现上述的光伏发电柔性功率点追踪控制方法。
[0050]
本发明具有以下优势:
[0051]
本发明将光伏模型的电源决策模块作为强化学习的智能体,并基于智能体与环境的互动,强化学习调整和改善智能决策行为,获得光伏发电柔性功率带你的最优追踪策略,再通过智能体通与环境交互的决策出最优储能调度策略,在不断变化的环境中追踪柔性功率点。本发明可以在环境条件突变的情况下,能够快速、精确的追踪到光伏发电的柔性功率点,不易出现误判现象,而且也适用于环境条件固定、无先验知识的情况。
附图说明
[0052]
图1为本发明光伏发电柔性功率点追踪控制方法的流程示意图。
[0053]
图2为光伏模型中光伏电源的单二极管模型的电路结构示意图。
[0054]
图3为传统光伏电源的p-v、i-v曲线示意图。
[0055]
图4为本发明强化学习算法的原理图。
[0056]
图5本发明中光伏柔性功率输出的控制装置的结构示意图。
具体实施方式
[0057]
以下结合附图和具体实施例对本发明作进一步详细说明。根据下面说明和权利要求书,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比率,仅用以方便、明晰地辅助说明本发明实施例的目的。
[0058]
本发明针对现有光伏发电柔性功率输出控制在的问题,提出了一种基于深度确定性策略梯度(depth deterministic policy gradient,ddpg)强化学习算法的光伏发电柔性功率点追踪控制方法,ddpg强化学习是一种无模型、自学习的控制方法,基于强化学习自主学习的特性,本发明能够克服传统方法难以应对快速变换的复杂环境条件和容易出现误判的问题。
[0059]
如图1所示,本发明提出了一种光伏发电柔性功率点追踪控制方法,包含以下步骤:
[0060]
s1、将光伏模型的电源决策模块作为强化学习的智能体,并针对光伏模型中光伏发电柔性功率点进行智能追踪。
[0061]
所述光伏模型包括光伏电源、dc/dc直流降压变换器以及电阻负载,光伏电源与变换器前端相连,变换器将转换后的电压输出到与后端相连的负载。如图2所示为光伏电源的单二极管模型,其中,i
ph
是太阳光产生的电流,i
ds
是流过二极管的电流,v
ds
是二极管两端电压,i
sh
为通过分流并联电阻r
sh
的电流,当环境温度与光照强度不变时,太阳光产生的电流i
ph
保持不变,光伏电源可以看作一个恒流源。光伏模型的电源决策模块为强化学习算法的智能体结构,用于光伏发电柔性功率点的追踪。所述光伏发电柔性功率点,即当光伏环境中的温度和光照强度变化时,原先工作点输出功率会发生变化,通过调整输出电压变化量,从而调整工作点位置最终调整光伏系统的输出功率,当光伏系统的输出功率达到所需功率时,此时工作点所处位置称为柔性功率点。光伏发电的柔性功率点并非光伏阵列p-v特性曲线上的峰值,而是处于系统所需功率点,当工作点位于该点时,此时光伏阵列输出的功率将满足并网系统所需功率。恒定环境条件下的光伏阵列p-v曲线(功率-电压曲线)是由任意时刻的光伏阵列输出的功率ppv和电压vpv所形成,传统光伏电源的输出曲线如图3所示,中图
a、b分别为相同温度不同辐照度下的p-v和i-v曲线,图c、d分别为不同温度相同辐照度下的p-v和i-v曲线。
[0062]
所述智能体基于动作价值函数的actor-critic架构,包括演员网络,即actor、演员目标网络、批评家网络,即critic和批评家目标网络;其中演员网络actor学习策略函数π,评论家网络critic学习动作价值函数q;动作值函数和动作函数分别由深度神经网络q(s
t
,a
t
|θq)和μ(s
t

μ
)训练得到,其中θq与θ
μ
对应了批评家网络和演员网络中的各层各节点的权值与偏差的参数;
[0063]
演员网络的参数θ
μ
可以通过梯度方法更新:
[0064][0065]
其中为偏导数,j为演员网络参数关于回报期望的分布,ρ
β
为状态s
t
所服从的分布;
[0066]
评论家网络critic通过随机梯度下降来最小化损失函数:
[0067]
l(θq)=e
(s,a)
[(q(s
t
,a
t
|θq)-y
t
)2],
[0068]yt
=r
t
(s
t
,a
t
)+γq(s
t+1
,μ(s
t

μ
)|θq)
[0069]
其中,l(θq)为损失函数,y
t
为预期回报,r
t
为当前状态动作下的奖励,γ为衰减率,一般取0.9~1。
[0070]
将光伏发电柔性功率点智能追踪过程建模描述为马尔科夫决策过程,基于马尔科夫决策过程建立基于ddpg强化学习算法的光伏发电柔性功率点追踪的环境模型、状态空间模型、动作空间模型、奖励函数模型和神经网络模型。
[0071]
其中,所述环境模型指光伏发电柔性功率点追踪过程的背景,即为智能体运行的世界。所述环境模型具体为:光伏发电柔性功率点,状态值为工作点所处的位置,行为为占空比的增加与减少。
[0072]
所述状态空间模型包括:温度、光照、电压、功率,其中电压和功率包含最近三个时刻的值,此外还有功率在p-v曲线中的变化率和电流在i-v曲线中的变化率,可解决普通ddpg算法中训练时间过长、收敛难度大的问题,两个变化率包含最近两个时刻的值。
[0073]
所述状态空间模型的表示方式如下所示:
[0074][0075]
其中,g为当前时刻的光照强度,t为当前时刻的温度,v(t)为当前时刻的电压,v(t-1)为上一个时刻的电压,v(t-2)为上两个时刻的电压,p(t)为当前时刻的功率,p(t-1)为上一个时刻的功率,p(t-2)为上两个时刻的功率,i为电流值,i(t)=p(t)/v(t),δp为功率变化值,δp(t)=p(t)-p(t-1),为电流变化率,为上一时刻的电流变化率,为当前时刻的电导变化,为上一时刻的电导变化。
[0076]
所述动作空间模型包括:动作值at被设定为电压的变化量,智能体通过获取当前的状态判断接下来电压的增减以完成柔性功率点的持续追踪。所述动作空间模型的表示方式如下所示:
[0077]
a=(δv
min
,δv
max
)
[0078]
其中,a为动作,δv
min
为电压减少量阈值,δv
max
为电压增加量阈值。
[0079]
所述电压变化量对于不同状态具有不同的动作值,但都被规定在最小和最大动作范围内,以防止动作过小导致的训练速度慢及动作过大导致的功率振荡。
[0080]
所述奖励函数模型包括奖励函数,根据光伏功率点追踪控制的实际特点采用了分段式奖励函数,使得强化学习任务的难度分解,在未完成任务时也能获得部分奖励,与稀疏奖励对比,这样的方式增加了模型收敛的可能性。所述奖励函数的表示方式如下所示:
[0081][0082][0083]
其中,r
t
为奖励,δe为当前时刻相比上一时刻的电流变化率。
[0084]
s2、基于智能体的反馈信号与环境互动,强化学习算法调整和改善智能决策行为,决策出柔性功率点最优追踪策略。
[0085]
所述智能体决策出最优追踪策略,是智能体通过策略在不断变化的环境中可以最快追踪到所述光伏发电柔性功率点的过程。智能体在每次训练中都会与环境模型进行交互得到不同的策略,通过多次训练奖励,强化学习过程在每一个时刻,智能体都处于一个状态,智能体根据当前状态的价值,结合自己历史策略做出行动。随后,智能体从环境中获得新的环境观测值和回报,智能体根据新的观测值进行学习,做出新的动作。以此循环,最终得到最优策略。
[0086]
具体地,所述步骤2包括以下步骤:
[0087]
s2.1、设定相对应的任务目标;
[0088]
s2.2、智能体通过动作与环境进行交互;
[0089]
s2.3、强化学习算法利用所述智能体和环境交互的数据进行训练,修改自身的动作策略;
[0090]
s2.4、经过数次迭代后,最终得到相应任务的最优追踪策略。
[0091]
本技术基于ddpg强化学习算法训练得到最优追踪策略。强化学习是一种目标导向型的智能方法,学习者在未被告知行为的情况下,通过其行为后果进行学习。ddpg是强化学习中的一种经典的策略梯度算法,核心在于其独有的actor-critic架构,包括四个网络,即演员网络、演员目标网络、批评家网络和批评家目标网络,其中演员网络(actor)即策略网络,负责输出动作,评论家网络(critic)即q网络,在每一步都对actor输出的动作的收益进行评估,即估计该动作值的q值;故actor根据critic的评估来调整自己的策略,即更新actor的神经网络参数,critic则根据环境的收益反馈来调整自己的评估策略,即更新critic的神经网络参数,其目的都在于最大化未来的总收益。本技术中,强化学习主要由智
能体和环境构成,通过设定相对应的任务目标,智能体便会通过动作与环境进行交互,强化学习算法利用智能体和环境交互的数据修改自身的动作策略,经过数次迭代学习后,最终得到相应任务的最优追踪策略。
[0092]
如图4所示为强化学习的原理图,所述强化学习算法的训练模型以(状态、行为、奖励、下一个状态)构成的元组(s
t
、a
t
、r
t
、s
t-1
、s
t-2
)为样本进行训练,其中s
t
为当前的状态,a
t
为当前状态下执行的动作,r
t
为在执行动作后获得的即时奖励,s
t-1
为上一时刻状态,s
t-2
为前一时刻状态。强化学习的目标是学习一个策略,使起始分布j=e(r
t
)的预期回报最大化,该预期回报为一个动作——价值函数,描述了在状态s
t
下采取一个行动后的预期回报,此后遵循策略π:引入奖励和折扣因子构建强化学习贝尔曼方程为该目标值函数是当前动作获得的奖励加上下一步获得的最大期望价值,式中r(s
t
,a
t
)为执行动作后获得的即时奖励,γ为折扣因子;所述下一步获得的最大期望价值通过乘以折扣因子γ来评估未来奖励对当前状态的影响;根据未来奖励在学习中的重要性而设定,γ∈[0,1]。
[0093]
具体的,对本实施例中对强化学习算法进行训练的方法包括以下步骤:
[0094]
s2.3.1:在每个时间步长上,智能体观测环境量包含状态s
t
,s
t-1
,s
t-2
,动作a
t
和奖励函数r
t

[0095]
s2.3.2:智能体在当前状态s
t
下采取动作a
t
并通过动作函数a转移到下一状态s
t+1
:s
t+1
=a(s
t
,a
t
);
[0096]
s2.3.3:环境模型根据当前状态s
t
、执行动作a
t
和下一状态s
t+1
通过奖励函数r:r
t
=r(s
t
,a
t
,s
t+1
)返回;
[0097]
s2.3.4:将q
π
(s,a)称为状态-动作值函数q
π
(s,a)=e
π
[g
t
|s
t
=s,a
t
=a],表征智能体在某一状态s及某一动作a下做出相应策略的价值;
[0098]
s2.3.5:当智能体在某一状态s采用动作后,通过定义累计回报来衡量状态s做出动作的价值v(s)=e[g
t
|s
t
=s];
[0099]
其中,所述价值函数v为从该状态开始的马尔科夫决策过程获得的总期望。
[0100]
s3:智能体通过与环境交互,决策出最优调度策略,以在不断变化的环境中追踪光伏发电柔性功率点。
[0101]
所述最优调度策略可以理解为:系统为负载提供一组电流电压,但在这组电流电压的条件下,系统的输出功率没有达到所需柔性功率,此时就需要我们追踪到最合适的电流电压以达到柔性功率点,追踪的过程我们称为调度策略。调度策略具体为:当光伏环境中的温度和光照强度变化时,原先工作点输出功率会发生变化,通过调整输出电压变化量,从而调整工作点位置最终调整光伏系统的输出功率,当光伏系统的输出功率达到所需功率时,此时工作点所处位置称为为柔性功率点,这个过程称为调度策略。
[0102]
当光伏环境中的温度和光照强度变化时,光伏电源的电源决策模块以调度策略为依据,原先工作点输出功率会发生变化,电源决策模块通过调整电压变化量,调整工作点位置从而调整光伏系统输出功率,通过所述最优调度策略即可以最短时间追踪到柔性功率点。本实施例设置的是状态量为光强、温度、功率、电压,控制量为电压变化量,奖励函数的设定是针对电压变化两的限定值。其中控制量为电压变化量,通过控制电压的变化情况,影
响功率输出,从而最终可以追踪到柔性功率点。
[0103]
基于同一设计构思,本发明还提出了一种光伏柔性功率输出的控制装置,如图5所示,包括光伏模型模块和强化学习模块。所述光伏模型模块包括光伏电源、dc/dc直流降压变换器、电阻负载以及光伏电源的决策模块,所述光伏模型的电源决策模块作为强化学习模块的智能体。所述强化学习模块包括环境模型模块、状态空间模型模块、动作空间模型模块、奖励函数模型模块和神经网络模型模,分别用于配置环境模型、状态空间模型、动作空间模型、奖励函数模型和神经网络模型,实现光伏发电柔性功率输出的追踪控制。。
[0104]
此外,本发明实施例还提出了一种光伏柔性功率输出的控制系统,包括:光伏发电柔性功率点追踪控制装置、处理器、储存器以及储存在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现光伏发电柔性功率点追踪控制方法。
[0105]
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术——包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
[0106]
实施例
[0107]
为了评价本发明所提出的调度策略的有效性和准确性,本实施例通过在环境条件(光照强度、温度)固定和环境条件变化等情况下分别进行仿真,验证了本实施例所提出的调度策略的有效性和准确性。本实施例使用python基于gym设计开发了基于强化学习ddpg算法的柔性功率点追踪控制方法,旨在快速输出柔性功率。在本组仿真中,本实施例基于开路电压voc为17.1v,短路电流isc为3.8a,在温度和光强分别变化的环境下进行仿真,验证本实施例在温度、光照幅度恒定的情况下时所提出的调度策略的有效性。
[0108]
强化学习算法中设定t=0.001s,λ=0.00001,γ=0.8。由于前期环境知,智能体在开始阶段首先会进行探索,直到完成探索后算法收敛。训练完成后将保存网络参数,此时控制算法在变化的环境条件下均能准确追踪到柔性功率点,完成柔性功率输出控制。
[0109]
本发明通过功率维持在系统所需功率水平来证明了智能体成功追踪到了柔性功率点,证明了本发明所提出的方法在变化环境下的有效性。
[0110]
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

技术特征:


1.一种光伏发电柔性功率点追踪控制方法,其特征在于,包括以下步骤:s1、将光伏模型的电源决策模块作为强化学习的智能体,并针对光伏模型中光伏发电柔性功率点进行智能追踪;s2、基于智能体的反馈信号与环境互动,强化学习算法调整和改善智能决策行为,决策出柔性功率点最优追踪策略;s3、智能体通过与环境交互,决策出最优调度策略,以在不断变化的环境中追踪光伏发电柔性功率点。2.如权利要求1所述的光伏发电柔性功率点追踪控制方法,其特征在于,所述智能体基于动作价值函数的actor-critic架构,包括四个网络,即演员网络、演员目标网络、批评家网络和批评家目标网络;其中演员网络学习策略函数π,评论家网络学习动作价值函数q;动作值函数和动作函数分别由深度神经网络q(s
t
,a
t

q
)和μ(s
t

μ
)训练得到,其中θ
q
与θ
μ
对应了批评家网络和演员网络中的各层各节点的权值与偏差的参数;演员网络的参数θ
μ
可以通过梯度方法更新:其中,为偏导数,j为演员网络参数关于回报期望的分布,ρ
β
为状态s
t
所服从的分布;评论家网络通过随机梯度下降来最小化损失函数:l(θ
q
)=e
(s,a)
[(q(s
t
,a
t

q
)-y
t
)2],y
t
=r
t
(s
t
,a
t
)+γq(s
t+1
,μ(s
t

μ
)|θ
q
)其中,l(θ
q
)为损失函数,y
t
为预期回报,r
t
为当前状态动作下的奖励,γ为衰减率,一般取0.9~1。3.如权利要求1所述的光伏发电柔性功率点追踪控制方法,其特征在于,所述针对光伏模型中光伏发电柔性功率点进行智能追踪的方法,包括以下步骤:将光伏发电柔性功率点智能追踪过程建模描述为马尔科夫决策过程,基于马尔科夫决策过程建立基于ddpg强化学习算法的光伏发电柔性功率点追踪的环境模型、状态空间模型、动作空间模型、奖励函数模型和神经网络模型。4.如权利要求1所述的光伏发电柔性功率点追踪控制方法,其特征在于,所述步骤s2包括以下步骤:s2.1、设定相对应的任务目标;s2.2、智能体通过动作与环境模型进行交互;s2.3、强化学习算法利用所述智能体和环境模型交互的数据进行训练,修改自身的动作策略;s2.4、经过数次迭代后,最终得到相应任务的最优追踪策略。5.如权利要求4所述的光伏发电柔性功率点追踪控制方法,其特征在于,所述强化学习算法包括训练模型,所述训练模型包括:以(状态、行为、奖励、下一个状态)构成的元组(s
t
、a
t
、r
t
、s
t-1
、s
t-2
)为样本进行训练,使起始分布j=e(r
t
)的预期回报最大化,其中s
t
为当前的状态,a
t
为当前状态下执行的动作,
r
t
为在执行动作后获得的即时奖励,s
t-1
为上一时刻状态,s
t-2
为前一时刻状态;用动作值函数q
π
(s,a)来表示在状态s
t
下遵循策略π采取动作a
t
时得到奖励r
t
的期望:引入奖励和折扣因子构建强化学习贝尔曼方程为:该目标值函数是当前动作获得的奖励加上下一步动作获得的最大期望价值,其中r(s
t
,a
t
)为执行动作后获得的即时奖励,γ为折扣因子,取值范围为[0,1],根据未来奖励在学习中的重要性而设定。6.如权利要求5所述的光伏发电柔性功率点追踪控制方法,其特征在于,对强化学习算法进行训练的方法包括以下步骤:s2.3.1:在每个时间步长上,智能体观测环境量包含状态s
t
,s
t-1
,s
t-2
,动作a
t
和奖励函数r
t
;s2.3.2:智能体在当前状态s
t
下采取动作a
t
并通过动作函数a转移到下一状态s
t+1
:s
t+1
=a(s
t
,a
t
);s2.3.3:环境模型根据当前状态s
t
、执行动作a
t
和下一状态s
t+1
通过奖励函数r:r
t
=r(s
t
,a
t
,s
t+1
)返回;s2.3.4:将qπ(s,a)称为状态-动作值函数q
π
(s,a)=e
π
[g
t
|s
t
=s,a
t
=a],表征智能体在某一状态s及某一动作a下做出相应策略的价值;s2.3.5:当智能体在某一状态s采用动作后,通过定义累计回报来衡量状态s做出动作的价值v(s)=e[g
t
|s
t
=s];其中,所述价值函数v为从该状态开始的马尔科夫决策过程获得的总期望。7.如权利要求3所述的光伏发电柔性功率点追踪控制方法,其特征在于,所述状态空间模型包括:温度、光照、电压、功率,其中电压和功率包含最近三个时刻的值,此外还有功率在p-v曲线中的变化率和电流在i-v曲线中的变化率,两个变化率包含最近两个时刻的值;所述状态空间模型的表示方式如下所示:其中,g为当前时刻的光照强度,t为当前时刻的温度,v(t)为当前时刻的电压,v(t-1)为上一个时刻的电压,v(t-2)为上两个时刻的电压,p(t)为当前时刻的功率,p(t-1)为上一个时刻的功率,p(t-2)为上两个时刻的功率,i为电流值,i(t)=p(t)/v(t),δp为功率变化值,δp(t)=p(t)-p(t-1),为电流变化率,为上一时刻的电流变化率,为当前时刻的电导变化,为上一时刻的电导变化;所述动作空间模型包括:动作值a
t
被设定为电压的变化量,智能体通过获取当前的状态
判断接下来电压的增减以完成柔性功率点的持续追踪;所述动作空间模型的表示方式如下所示:a=(δv
min
,δv
max
);其中,a为动作,δv
min
为电压减少量阈值,δv
max
为电压增加量阈值;所述奖励函数模型包括奖励函数,根据光伏功率点追踪控制的实际特点采用了分段式奖励函数,使得强化学习任务的难度分解,在未完成任务时也能获得部分奖励;所述奖励函数的表示方式如下所示:所述奖励函数的表示方式如下所示:其中,r
t
为奖励,δe为当前时刻相比上一时刻的电流变化率。8.一种应用于如权利要求1-7任意一项所述的光伏发电柔性功率点追踪控制方法的控制装置,其特征在于,包括:光伏模型模块和强化学习模块;所述光伏模型模块包括光伏电源、dc/dc直流降压变换器、电阻负载以及电源决策模块,所述电源决策模块作为强化学习的智能体;所述强化学习模块还包括环境模型模块、状态空间模型模块、动作空间模型模块、奖励函数模型模块和神经网络模型模,分别用于配置环境模型、状态空间模型、动作空间模型、奖励函数模型和神经网络模型,实现光伏发电柔性功率输出的追踪控制。9.一种光伏柔性功率输出的控制系统,其特征在于,包括:如权利要求8所述的光伏发电柔性功率点追踪控制装置、处理器、储存器以及储存在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现如权利要求1-7任意一项所述的光伏发电柔性功率点追踪控制方法。

技术总结


本发明提出了一种光伏发电柔性功率点追踪控制方法,包括以下步骤:S1、将光伏模型的电源决策模块作为强化学习的智能体,并针对光伏模型中光伏发电柔性功率点进行智能追踪;S2、基于智能体的反馈信号与环境互动,强化学习算法调整和改善智能决策行为,决策出柔性功率点最优追踪策略;S3、智能体通过与环境交互,决策出最优调度策略,以在不断变化的环境中追踪光伏发电柔性功率点。本发明可以在环境条件突变的情况下,能够快速、精确的追踪到光伏发电的柔性功率点,不易出现误判现象,而且也适用于环境条件固定、无先验知识的情况。无先验知识的情况。无先验知识的情况。


技术研发人员:

张佳杰 金欣茹 范佳 张文博 王岚青 辉 陈乃娟 张江涛 夏云飞 张燕华 倪杏斐 张小芳 陈少霞 张伟阳 周洁

受保护的技术使用者:

中国电建集团装备研究院有限公司

技术研发日:

2022.11.18

技术公布日:

2023/2/23

本文发布于:2023-02-27 05:02:28,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/57744.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:功率   柔性   光伏   所述
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图