基于深度强化学习的充光储能源站调度策略

时间：分类：推荐论文浏览次数：

摘要:为了应对大规模电动汽车调度模型求解复杂、算力要求高的问题，机器学习方法在电动汽车充电导航调度中越来越受到关注。针对充光储一体化能源站，文中提出了一种基于深度强化学习(DRL)的充光储能源站调度策略。首先，分析了能源站运行策略与DRL基本理论。

　　摘要:为了应对大规模电动汽车调度模型求解复杂、算力要求高的问题，机器学习方法在电动汽车充电导航调度中越来越受到关注。针对充光储一体化能源站，文中提出了一种基于深度强化学习(DRL)的充光储能源站调度策略。首先，分析了能源站运行策略与DRL基本理论。其次，基于后悔理论刻画用户对不同充电方案时间与费用的心理状态，建立了智能体对“人-车-站”状态环境全感知模型，并引入时变ε-greedy策略作为智能体动作选择方法以提高算法收敛速度。最后，结合南京市实际道路与能源站分布设计了多场景算例仿真，结果表明所提方法在考虑用户心理效应的基础上能够有效提高能源站光伏消纳率，为电动汽车充电调度提供了一种新思路。

　　关键词:电动汽车;充光储能源站;充电调度;深度强化学习;后悔理论;全感知模型

光储能源论文

　　0引言

　　面对日益严峻的能源危机与环境污染问题，电动汽车(electricvehicle，EV)作为环境友好型交通工具迎来了发展机遇[1—2]。然而规模化EV的随机充电行为会导致负荷峰值增加、电能质量降低等问题，给配电网的安全与经济运行带来了挑战[3—4]。同时，面对规模化电动汽车调度算力要求高、计算复杂的问题，传统优化模型无法满足实时调度需求。因此，研究充光储一体化能源站的区域电动汽车优化调度策略，已成为亟待解决的重要问题。目前，国内外学者在针对光储能源站的电动汽车调度方面已取得一定成果。

　　新能源汽车论文：新能源电动汽车低温热泵型空调系统研究

　　考虑光伏发电等可再生能源对优化调度策略的影响，文献[5]以能源站运行成本为优化目标，基于多模态近似动态规划进行求解，在不同定价模型与光伏出力情况下均表现出较强鲁棒性。文献[6]以减少微电网与配电网交换功率以及微电网网络损耗为优化目标，采用序列二次规划算法进行求解。通过对EV进行充放电调度使日负荷曲线跟踪发电曲线，并网模式下的网络损耗及离网模式下的所需储能系统容量均得到降低。

　　文献[7]考虑能源站源荷互补特性，提出了一种考虑不确定性风险的能源站多时间尺度调度模型。文献[8—9]考虑光伏出力预测误差等不确定性，建立了以充光储能源站日运行成本最小为目标的充电站日前优化模型，并在此基础上建立实时滚动优化模型。文献[10]以大规模EV接入的配电网运行成本最小和负荷曲线方差最小为目标建立EV优化调度模型，在保证系统运行成本的同时有效降低了负荷峰谷差。

　　上述研究均建立单/多目标-多约束优化模型解决EV调度问题，但应用在实时调度方面均面临着海量计算的压力，无法满足实时调度的需求。同时，上述研究过度依赖模型，当实际应用中包含模型未考虑的不确定性因素时，模型的优化结果得不到保证，算法的鲁棒性与泛化能力有待改进。随着机器学习算法的逐渐成熟，已有少量学者开展了深度强化学习(deepreinforcementlearning，DRL)应用于EV充电调度的研究。

　　文献[11]提出一种基于竞争深度Q网络的充电控制方法，在含高渗透率分布式电源的系统中能够兼顾配电网的安全运行与用户出行需求。文献[12]考虑EV行驶距离限制，以最小化EV总充电时间为目标，建立DRL模型进行训练求解。文献[13]考虑用户用电需求，将EV充放电能量边界作为部分状态空间，建立了以最小化功率波动与充放电费用为目标的实时调度模型。文献[14]考虑电价与用户通勤行为的不确定性，从充电电价中提取特征训练Q网络，并采用Q值最大化原则执行动作。文献[15]以最小化EV用户行驶时间与充电成本为目标，利用最短路径法提取当前环境状态训练智能体。

　　虽然上述研究理解了DRL方法的本质，以用户充放电时间或费用作为目标，将车辆与充电站参数作为环境状态进行求解。然而，作为车辆行驶与充电行为的最终执行者，EV车主对充电方案的感知效应尤为重要，影响调度策略的可执行性与适用性。为此，文中提出了一种考虑人类行为心理的能源站EV调度方法。基于后悔理论刻画EV用户心理状态，建立智能体“人-车-站”全状态环境感知模型。同时，引入时变ε-greedy策略作为智能体动作选择方法以提高算法收敛速度。最后结合南京市实际道路与能源站分布设计了多场景算例仿真，验证文中所提策略的有效性与实用性。

　　1EV调度问题构建

　　光伏系统由多组太阳能电池板串并联组成，电池板接收太阳能发电经DC/DC变换器接入直流母线，电能主要用于EV充电。储能系统由电池组构成，通过双向DC/DC变换器接入直流母线。当光伏系统发电有剩余时，其储存电能;当光伏发电不足时，其释放电能。AC/DC模块为配电网系统与能源站的连接单元，当能源站内部电能不能满足充电需求时由配电网经AC/DC接入充电负荷。

　　2基于DRL的EV调度方法

　　2.1DRL基本原理

　　DRL是一种结合深度学习的感知能力与强化学习的决策能力的人工智能算法。通过智能体不断与环境进行交互，并采取一定的动作使得累计奖励最大化[17—18]。智能体本质上是一个状态空间到动作空间的映射关系。强化学习算法以马尔科夫过程(Markovdecisionprocess，MDP)为数学基础，即环境下一时刻状态仅与当前状态有关，与前序状态无关。

　　2.2人类行为决策理论

　　EV用户在充电过程中不仅仅追求预期效用的最大化，也会受限于认知水平及主观心理情绪等因素的影响，因此很难选择出全局最优或个人利益最大的充电选择方案。事实上，个体往往寻求决策后的正面情绪，从而规避决策可能带来的负面情绪。为此，文中引入后悔理论建立人类行为决策心理模型，刻画用户在EV充电调度过程中的心理状态，作为DRL智能体“人-车-站”环境状态感知的一部分。后悔理论最早由Bell提出，其将后悔描述为一件给定事件的结果或状态与他将要选择的状态进行比较所产生的情绪[19]。依据人类在离散事件选择中的后悔规避心理，当所选方案优于备选方案时，决策者会感到欣喜，反之则会感到后悔。因此，决策者个体更倾向于选择预期后悔最小的方案。

　　2.3DQN实现

　　EV充电调度针对能源站的EV充电调度问题每一个时刻的状态仅与前一时刻状态及智能体动作有关，符合马尔科夫决策过程，因此，文中采用DQN方法建立EV充电调度模型，利用智能体进行“人-车-站”多主体状态感知，通过不断地探索与利用，建立状态-动作与Q值的映射关系，实现EV实时调度。

　　3EV充电调度框架

　　该过程可分为以下3个步骤:2Flowchartofoptimizedschedulingstrategy(1)智能体通过更新时间、EV位置及动力电池SOC获取车辆状态，更新各能源站运行状态并预测下一时刻光伏出力，通过后悔理论感知EV用户的心理状态，得到当前时刻环境状态st。(2)智能体将感知到的环境状态输入深度神经网络，得到各备选动作的Q值，通过时变ε-greedy策略选择动作at。(3)智能体执行所选动作，重复上述步骤直至车辆抵达所选能源站。

　　4算例分析

　　4.1参数设置

　　为验证文中所提策略的有效性与实用性，选取南京市部分区域，范围为经度(东经)118.735152～118.784076，纬度(北纬)32.059057～32.092003作为算例路网。同时，选取该区域已经投入运营的15座能源站，假设该区域能源站均配置了光伏发电及储能系统，且站内充电桩均为快充。

　　不同天气类型对智能体所获得奖励值有较大影响，3种天气下智能体平均奖励分别为9.95，9.38，7.23，特别地，阴雨天气奖励值较晴天降低27.34%。这是由于智能体的到站奖励与区域内能源站平均光伏消纳功率有较大关系，虽然阴雨天气智能体所得奖励较晴天更低，但此时智能体已经实现了最优策略的学习。同时，观察算法收敛速度可见，所提DQN方法在前2种场景下分别在400与200回合达到稳定，而在第3种场景下训练约80回合即实现收敛，表明智能体能够有效利用前期累积的经验，当环境状态发生较大改变时，其能够调整神经网络参数以快速适应当前环境状态。

　　5结论

　　针对能源站EV充电导航与调度问题，提出基于DRL方法的调度策略。算例从多角度分析了优化调度策略，得到如下结论:(1)DQN方法中智能体对EV状态、能源站运行状态以及用户心理状态进行全状态感知，通过学习状态-动作与Q值的映射关系能够有效进行充电调度。(2)在晴天与阴雨天等能源站常见运行场景下，所提方法均能够兼顾用户心理感知进行调度，同时有效提高了能源站光伏利用率，具有较强的实用性与泛化能力。(3)不同行为人对时间与费用的感知效用会影响智能体状态感知与策略参数，进而影响所提方法对其的导航与调度策略。尽管如此，限于篇幅文中并未分析DQN算法参数对调度策略的影响，在下一步的工作中DQN算法参数的选择可以继续完善。此外，基于用户感知异质性的研究，可以进一步改进所提策略。

　　参考文献：

　　[1]肖定垚，王承民，曾平良，等.电力系统灵活性及其评价综述[J].电网技术，2014，38(6):1569-1576.XIAODingyao，WANGChengmin，ZENGPingliang，etal.Asurveyonpowersystemflexibilityanditsevaluations[J].PowerSystemTechnology，2014，38(6):1569-1576.

　　[2]刘洪，阎峻，葛少云，等.考虑多车交互影响的电动汽车与快充站动态响应[J].中国电机工程学报，2020，40(20):6455-6468LIUHong，YANJun，GEShaoyun，etal.Dynamicresponseofelectricvehicleandfastchargingstationsconsideringmulti-vehicleinteraction[J].ProceedingsoftheCSEE，2020，40(20):6455-6468.

　　[3]邵尹池，穆云飞，余晓丹，等.“车-路-网”模式下电动汽车充电负荷时空预测及其对配电网潮流的影响[J].中国电机工程学报，2017，37(18):5207-5219，5519.SHAOYinchi，MUYunfei，YUXiaodan，etal.Aspatial-temporalchargingloadforecastandimpactanalysismethodfordistributionnetworkusingEVs-traffic-distributionmodel[J].ProceedingsoftheCSEE，2017，37(18):5207-5219，5519.

　　[4]江明，许庆强，季振亚.基于时序差分学习的充电站有序充电方法[J].电力工程技术，2021，40(1):181-187

　　作者：孙广明1，陈良亮1，王瑞升2，陈中2，邢强2

上一篇：淮安市智慧社区建设研究下一篇：计及光伏出力不确定性的氢能综合能源系统经济运行策略