说明:最全电力标准
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211167510.9 (22)申请日 2022.09.23 (71)申请人 广西师范大学 地址 541004 广西壮 族自治区桂林市七 星 区育才路15号 (72)发明人 李先贤 周梁昊杰  刘鹏 李东城  陈柠天 霍浩 王博仪  (74)专利代理 机构 桂林市华杰 专利商标事务所 有限责任公司 451 12 专利代理师 覃永峰 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 10/06(2012.01) G06Q 30/02(2012.01) G06Q 50/06(2012.01)G06F 21/60(2013.01) G06N 3/04(2006.01) G06N 3/08(2006.01) H02J 3/46(2006.01) H02J 3/28(2006.01) (54)发明名称 一种基于区块链和深度强化学习的电力调 度方法 (57)摘要 本发明公开了一种基于区块链和深度强化 学习的电力调度方法, 包括如下步骤: 步骤一、 用 户注册; 步骤二、 采集数据并加密上链; 步骤三、 DRL状态空间、 动作空间设置; 步骤四、 DRL奖励函 数R(t)设置以及用户约束与惩罚机制; 步骤五、 基于改进DQN的DRL训练获得预测结果, 向电网部 门申报电力; 步骤六、 信誉值更新; 步骤七、 电网 部门将调度信息使用申请用户的公钥加密后上 传到区块链进行保存, 用户信誉 值同样上链存储 在区块链中; 步骤八、 基于信誉值完成电力调度。 这种方法能基于区块链技术采集到的大数据进 行融合管理, 实现不同的来源的数据汇聚共享, 平衡电力问题, 完 善能量管理体系。 权利要求书3页 说明书8页 附图3页 CN 115438873 A 2022.12.06 CN 115438873 A 1.一种基于区块链和深度强化学习的电力调度方法, 其特 征在于, 包括如下步骤: 步骤一、 用户注册账号和添加需要管理的设备, 获得用户id和设备id, 电网部门作 为可 信安全的证书授权 机构为用户分发 公私密钥; 步骤二、 智能电表将注册设备的电力参数提交并通过用户自己的公钥进行加密后上 链, 上链数据格式如下: <Uid, ID, Pc, P, Se, C, V>, 其中Uid为用户ID, ID为设备ID, Pc为用户公钥, P为设备发电功率, Se为设备状态, C为 设备电流, V为设备电压; 对电力数据进行数据分析, 针对用户在电力市场中各个阶段的数据进行处理, 将上链 的数据通过 过滤、 去重、 纠错 等离散化预处 理操作后的数据作为后续网络的训练样本; 步骤三、 DRL状态空间、 动作空间设置: 状态空间S由实时t时刻负荷功率Pload(t)、 t时刻 分时电价TOU(t)、 t时刻储能装置电荷 状态SOC(t); 其中SOC(t)定义 为: SOC(t)=SOC(t ‑1)+Pload(t)·Δt/Eb, Eb为储能装置的最大容 量, 状态空间S定义 为: S={Pload(t), TOU(t), SOC(t)}; 动作空间Act定义如下: 其中 为下一时刻负荷预测值, 将连续的负荷进行离散化处理, 处理过程如 下: … Pmin表示允许最小的负荷预测值, Pmax表示允许最大的负荷预测值, 表示均分值, 的值由智能体在A ‑Z中进行选择; B(t)>0表示用户有多余电能, 向储能装置进行充电, 充电电量为B(t), B(t)<0表示用 户缺少负荷, 需要向电网申请电力调度, 需要调度的电能为B(t); 步骤四、 DRL奖励函数R(t)设置以及用户约束与惩罚机制: 在学习环节中, 深度强化学习算法需要根据外部环境返回的奖励值来确定控制器参数 的更新方向与幅度; 市场环境下, 优化控制的目标是最小化购电用户的长期购电成本以及权 利 要 求 书 1/3 页 2 CN 115438873 A 2降低现有设备的运行成本: (一)P为惩罚成本, 主要体现了用户违反运行约束的程度, 为了防止恶意的用户为了追 逐利益制定极端的负荷预测值 运行的约束 有: (1)负荷容 量限制约束: (2)偏差电量约束: 式中: Pallow表示允许的最大偏差值; 在优化过程中, 若用户违反了约束条件, 将根据用户越限程度支付惩罚, 降低奖励, 具 体惩罚费用计算如下: P=P1+P2+P3, 式中: ρ, δ 为相应的惩罚系数; (二)运行成本: fg(t)=TOU(t) ·Δt(Pload‑Bstore), 其中Bstore代表储能装置中存 储的电能, 若用户没有储能装置, Bstore为0; (三)奖励函数, 用户拥有N个设备, 步骤五、 基于改进DQ N的DRL训练: (1)经验积累: 评价网络根据电力市场环境下用户状态St输出动作空间Act中所有动作 的Q值, 并依据贪婪策略选择动作at, 市场反馈奖励rt, 并且得到下一状态St+1, 自此得到一次 完整的马尔 可夫元组(St, at, rt, St+1)作为一个样本集放到经验池中, 重复进行训练直到样 本数量达 到经验池设置的大小; (2)更新Q函数的参数: 根据优先采样算法, 将根据经验池中不 同样本数据的TD ‑Error 的大小进行随机抽样, TD ‑Error大的样本将有更高的概 率被选中进行训练; (3)神经网络训练: 构 建神经网络的损失函数L进行训练, 每当评价网络完整的训练完N 轮后, 将评价网络的参数完整的拷贝至目标网络; (4)优化参数: 若控制器获取的收益不在增长并且长期趋于稳定, 则代表此时的评价网 络参数已经收敛, 反 之重复执 行(1)至(4); (5)DRL输出电力操作执 行命令格式如下: <Uid, Pk, ID, Op, Qty>, 其中Uid为用户ID, Pk为用户公钥, ID为设备ID, Op为对设备的操作, 即 申请调度和存储 电量, Qty为预测电量;权 利 要 求 书 2/3 页 3 CN 115438873 A 3

PDF文档 专利 一种基于区块链和深度强化学习的电力调度方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于区块链和深度强化学习的电力调度方法 第 1 页 专利 一种基于区块链和深度强化学习的电力调度方法 第 2 页 专利 一种基于区块链和深度强化学习的电力调度方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:26:05上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。