基于双层强化学习方法的多能园区实时经济调度

时间：2021年01月19日分类：电子论文次数：

摘要：综合能源系统(IES)中复杂的能量耦合关系，可再生能源出力和负荷等因素的不确定性，给IES的实时调度带来了诸多挑战。针对此，本文提出了一种双层强化学习(RL)模型以实现IES的实时经济调度。该模型上层是一个RL智能体，下层为优化求解器。本文将RL和传统

　　摘要：综合能源系统(IES)中复杂的能量耦合关系，可再生能源出力和负荷等因素的不确定性，给IES的实时调度带来了诸多挑战。针对此，本文提出了一种双层强化学习(RL)模型以实现IES的实时经济调度。该模型上层是一个RL智能体，下层为优化求解器。本文将RL和传统优化方法进行了结合，可简化RL的动作和奖励设计，提高其训练速度和收敛性能，解决动作具有复杂约束的RL问题。本文模型仅根据IES的即时信息进行决策，不依赖于对负荷、可再生能源出力的准确预测。多能园区经济调度中的成功应用表明双层模型可以得到接近于拥有完美预测信息的动态规划的性能，同时求解速度大幅提高，可以实现IES的实时调度。

　　关键词：动态规划，经济调度，强化学习，综合能源系统

电网技术

　　0引言

　　综合能源系统[1](integratedenergysystem,IES)集成了冷、热、电、气等多种能源形式，可以实现多种能源形式的相互转化与能量耦合互补利用[2]。IES经济调度面临两大挑战，挑战之一来自于可再生能源出力和负荷需求的不确定性。由于天气、人类行为等因素的影响，风能、太阳能等可再生能源的生产和负荷需求具有强烈不确定性，给IES的调度增添了难度。另一个挑战是IES中紧密复杂的能量耦合关系[3]。能量耦合其一是冷热气电等各种能源形式之间的转换所引起的能源形式耦合;能量耦合其二是储能系统的存在导致的时间轴上的能量存储消耗耦合;此两种能量耦合关系使IES的经济调度更加复杂。已有研究中，IES经济调度多为日前调度的离线优化问题[4]-[8]，随机规划[9][10]和鲁棒优化[11][12]等被用来处理系统中可再生能源、负荷及实时电价波动[13]导致的不确定性。

　　此类传统的处理不确定的优化方法依赖于对日前可再生能源出力、负荷等数据的预测，通过对不确定性建模将问题转化为确定性问题求解，可以得到较好的优化调度方案。本文考虑另一类经济调度的方法：学习驱动的优化方法。强化学习(reinforcementlearning,RL)/深度强化学习(deepRL,DRL)等方法[14]自AlphaGo成功[15]后广受关注。RL利用交互试错的方式学习，不依赖于对日前可再生能源出力、负荷等数据的精准预测[16]，可以采用无模型算法处理系统中难以准确建模的因素，实时决策性能较好，可用于IES在线实时调度。

　　已有研究将RL应用于微电网能量管理[17]-[22]。RL被用于微电网内部能量管理[17]-[19]，进行储能设备的优化调度[21];被用于微电网群的能量管理，以减小调度成本[20]、提高供电和运行可靠性[22]。上述研究展示了基于RL的优化调度的可行性，也显示了其弱点。首先，复杂的设备运行约束会急剧增加RL的动作空间复杂度，现有研究[17]-[22]将约束建模为奖励函数中的惩罚，导致其奖励函数异常复杂;其次，RL的应用易遭受维数灾害[23]-[25]，训练多需要几十小时[20]甚至更长，策略学习及更新代价较大，难以在以5分钟为时间尺度的在线调度环境下，完成对实时数据的策略训练更新。

　　为简化RL奖励设计、加速其训练收敛，满足IES实时调度的时间尺度要求，本文提出一个双层RL模型。所提模型实现了RL与传统优化方法的结合，上层是用于序列决策的RL智能体，负责全局优化;下层是混合整数线性规划(mixed-integerlinearprogramming,MILP)求解器，用于单次寻优。所提双层模型用于一个多能园区系统的经济调度，并与动态规划(dynamicprogramming,DP)方法进行了比较。结果表明，所提出的双层模型在只利用有限即时信息的情况下，可以达到接近拥有完美预测信息的DP方法的性能，同时计算时间大大缩短。第二节进行问题建模，第三节介绍了双层RL模型，第四节为实验部分，第五节对本文进行总结。

　　1IES经济调度问题

　　研究一个多能园区系统。在此多能园区系统中，电力和天然气可以从外部购买;热、气、电等能源形式可以利用热电转换设备相互转换以满足热、电负荷需求;微型燃气轮机利用燃气发电，遵循“以热定电”的原则;可再生能源和储能系统用于提高能源利用效率;本系统中的可再生能源为风能，储能系统为电池。

　　2双层RL模型

　　强化学习中，智能体通过和环境交互试错从而选择动作序列以最大化累计收益。在时刻t，智能体观察环境状态ts，执行动作ta作用于环境，并接收到一个奖励信号tr反应动作好坏，之后环境进入下一状态t1s,一条经验1,,,ttttsars被记录下并放进经验池中供RL训练学习使用。IES经济调度问题是一个具有复杂约束的离散连续混合动作空间问题，针对该问题的特点，本文提出一种双层RL模型，实现模型高效学习和IES实时调控。

　　2.1双层RL模型框架

　　IES经济调度的动作空间包含两类动作。电池的动作会影响未来的能量状态，称此类动作为远视动作。其他可控装置的动作不影响系统未来能量状态，只影响即时系统运行成本，称此类为短视动作。针对此，上层RL智能体负责学习策略选择合适远视动作。下层优化解算器接收上层的远视动作，使用优化方法求出最佳短视动作返回至上层。每一时刻t，下层实现了对短视动作的最优搜索，避免了短视动作空间的无效探索。

　　3实验验证

　　3.1算例配置

　　燃气价格设为定值3.45gcRMB/m3。一个三层神经网络被用于近似Q值函数，三个隐藏层的大小分别为400、300、200，激活函数为tanh函数，更详细的模型结构参数见文[24]。本文经济调度是一个阶段性任务，具有24小时的有限时间范围，折扣系数设为1，即无折扣，惩罚系数设置为一个很大的数字1000。

　　3.2单场景测试

　　首先，在单个确定性场景下对双层模型进行测试。确定性场景即假定拥有实时电价、燃气价格、热负荷、电负荷和新能源出力的完全准确的预测信息。分别采取以下两种策略作为对照：(1)设园区中不含电池储能，仅利用下层MILP求解器进行IES调度求解;(2)利用DP，在预测信息准确已知情况下进行搜索。DP的状态变量为SOC，离散维数为100，电池动作同DRL的动作变量定义，搜索时间步数为24，整个搜索空间为=100524=12000。理论上的系统运行成本应当满足DP<双层DRL模型<无储能。

　　3.3多场景测试为测试所提模型应对系统不确定性的能力，考虑IES中三种不确定性的来源：电、热负荷和新能源出力。不确定性的存在导致进行IES调度时会遇到海量不同场景,需要测试双层RL模型在多个场景下的性能。采用的风电出力基准曲线为单峰型，抽样概率分布为伽马分布;电负荷和热负荷的基准曲线均为双峰型，抽样概率分布为正态分布。显示了风电出力、电、热负荷在各自的基准曲线上根据其概率分布抽样得到的100个场景。在此100个场景下进行测试以验证双层RL模型应对系统不确定性的能力。

　　电力论文投稿刊物：电力系统自动化(半月刊)是由国网电力科学研究院主办的全国性专业技术期刊，每月10日、25日出版，国内外公开发行。以“立足行业，鼓励创新，面向应用，促进电力工业科技进步”为办刊宗旨，主要面向电力行业从事科研、设计、运行、试验、制造、管理与营销的专业技术人员以及相关专业的大专院校师生、电力产品用户等，既具有学术性和前瞻性，又注重实用性和导向性，同时也重视和鼓励来自科研、生产第一线的经验、改进和革新的技术交流。

　　4结论

　　为了应对IES中的不确定性，处理复杂的能量耦合关系，本文介绍了一种用于IES实时经济调度的双层RL模型框架。模型上层应用DQN进行电池充放电出力行为学习，其他设备动作由下层的MILP求解器求解结果提供，模型可以简化RL奖励函数设计，提升RL训练速度。算例分析表明，双层模型的计算结果接近DP给出的近似最优解。此外，模型结合了数据驱动的RL方法和传统优化算法，具有更高的求解效率，可以实现IES的实时经济调度，且不依赖于精确的预测及物理模型。

　　参考文献

　　[1]刘振亚.全球能源互联网跨国跨洲互联研究及展望[J].中国电机工程学报，2016，36(19)：5103-5110+5391.LiuZhenya.ResearchofGlobalCleanEnergyResourceandPowerGridInterconnection[J].ProceedingsoftheCSEE，2016，36(19)：5103-5110+5391(inChinese).

　　[2]孙宏斌，郭庆来，潘昭光.能源互联网:理念、架构与前沿展望[J].电力系统自动化，2015，39(19)：1-8.SunHongbin,GuoQinglai,PanZhaoguang.EnergyInternet:Concept,ArchitectureandFrontierOutlook[J].AutomationofElectricPowerSystems，2015，39(19)：1-8(inChinese).

　　[3]曾鸣,杨雍琦,刘敦楠,曾博,欧阳邵杰,林海英,韩旭.能源互联网“源–网–荷–储”协调优化运营模式及关键技术[J].电网技术,2016,40(01):114-124.ZengMing,YangYongqi,LiuDunnan,eta1.“Generation-Grid-Load-Storage”CoordinativeOptimalOperationModeofEnergyInternetandKeyTechnologies[J].PowerSystemTechnology，2016，40(01)：114-124(inChinese).

　　[4]白牧可,王越,唐巍,吴聪,张博.基于区间线性规划的区域综合能源系统日前优化调度[J].电网技术,2017,41(12):3963-3970.BaiMuke,WangYue,TangWei,etal.Day-AheadOptimalDispatchingofRegionalIntegratedEnergySystemBasedonIntervalLinearProgramming[J].PowerSystemTechnology，2017，41(12)：3963-3970(inChinese).

　　作者：聂欢欢，张家琦，陈颖，肖谭南

上一篇：面向6G的雾无线接入网内生安全数据共享机制研究下一篇：数字技术、员工参与与企业创新绩效

SCI期刊目录

SCI论文

2024-10-19有没有1个月Accept的sci期刊?
2024-10-19艺术类SCI、SSCI、AHCI检索期刊
2024-10-18COMPUTERS & ELECTRICAL ENGINEE

学术咨询

让论文发表更省时、省事、省心

基于双层强化学习方法的多能园区实时经济调度

专项学术专题

SCI期刊目录

热门核心期刊目录

SCI论文

SSCI论文

EI论文

SCOPUS

翻译润色

期刊知识

发表指导

符合学术规范的服务助力您的学术成果走向世界

学术咨询

让论文发表更省时、省事、省心

基于双层强化学习方法的多能园区实时经济调度

专项学术专题

SCI期刊目录

热门核心期刊目录

SCI论文

SSCI论文

EI论文

SCOPUS

翻译润色

期刊知识

发表指导

符合学术规范的服务 助力您的学术成果走向世界

符合学术规范的服务助力您的学术成果走向世界