说明:最全电力标准
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210648996.1 (22)申请日 2022.06.09 (71)申请人 贵州电网有限责任公司 地址 550002 贵州省贵阳市南明区滨河路 17号 (72)发明人 王立 刘志宏 彭军 王伟 王斌  杨世平 张裕 杨珂  (74)专利代理 机构 南京禹为知识产权代理事务 所(特殊普通 合伙) 32272 专利代理师 褚晓英 (51)Int.Cl. G06V 20/13(2022.01) G06V 10/44(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称 一种用于遥感图像字幕的新型表演者-双批 评家模型 (57)摘要 本发明公开了一种用于遥感图像字幕的新 型表演者 ‑双批评家模型包括: 表演者根据给定 图像生成一个句子; 批评家根据所述句子的质量 和相关性对表演者提供奖励; 将所述奖励使用强 化学习算法更新表演者的参数; 使用所述奖励更 新批评家的参数; 循环至表演者达到优化目标。 本发明提供的用于遥感图像字幕的新型表演者 ‑ 双批评家模型针对遥感数据为卫星场景生成自 动字幕, 使用强化学习算法训练模型, 从而提高 由成对图像和字幕组成的环境分析程度, 提高了 模型生成自动字幕的效率和精 准性。 本发明在测 试数据上生成的句子与基本事实高度相似, 并且 在许多关键情况 下成功地 生成了更好的字幕。 权利要求书3页 说明书11页 附图1页 CN 115205697 A 2022.10.18 CN 115205697 A 1.一种用于 遥感图像字幕的新型表演者 ‑双批评家模型, 其特 征在于, 包括: S1: 表演者 根据给定图像生成一个句子; S2: 批评家根据所述句子的质量和相关性对表演者 提供奖励; S3: 将所述奖励使用强化学习算法更新表演者的参数; S4: 使用所述奖励更新批 评家的参数; S5: 循环S1到S4至表演者达 到优化目标。 2.如权利要求1所述的用于遥感图像字幕的新型表演者 ‑双批评家模型, 其特征在于, 所述生成一个句子包括: 所述表演者提供了一个置信度度量qπ(at∣ st)来根据当前状态预测 下一个动作at=wt+1∈Rd, 其中at表示根据t 时刻的句 子所预测的t+1时刻的单词, st表示当 前t时刻的描述所述给定图像的句子 。 3.如权利要求1或2所述的用于遥感图像字幕的新型表演者 ‑双批评家模型, 其特征在 于, 所述生成一个句子包括: 所述表演者使用预训练的卷积神经网络(CNN)从图像中提取特 征, 提取的特征 作为输入传递给门控循环单元(GRU), 当t ‑1时刻预测的单词wt‑1被送 入到GRU时, GRU的隐藏状态层 随时间t而变化, GRU间接充当上 下文向量的生成器。 4.如权利要求1所述的用于遥感图像字幕的新型表演者 ‑双批评家模型, 其特征在于, 所述批评家包括 一个RNN批评家和一个编码器 ‑解码器RN N批评家。 5.如权利要求1或4所述的用于遥感图像字幕的新型表演者 ‑双批评家模型, 其特征在 于, 所述提供奖励包括: 给定 当前策略预测的单词和CNN提取的特征, 所述RNN批评家便根据 所述句子的质量和相关性对表演者 提供奖励, 即输出一个价 值函数, 表示 为: 其中, 表示所述RNN批评家在自身参数集为θ, 表演者策略为π, 目前(t时刻)已经 生成的句子为st的情况下所评估的价值; T表示总时间; γ表示奖励衰减因子, 取值范围为 [0,1], γ=0表 示所述RNN批评家所评估的价值仅仅与当前已经生 成的句子的奖励 有关, γ =1表示所述RNN批评家平等对待当前已经生成的句子st的奖励和后 续状态的奖励; rx表示 在已知x时刻输出的句子sx的情况下, 使用ROUGE ‑L或BLEU评估标准为该句子sx所评估的奖 励; at+1,…,aT~π,I表示 at+1,…,aT分别是在输入图像为I的情况下, 由表演者的现行策略π 所生成的在t+1,. ..,T时刻的单词。 6.如权利要求1所述的用于遥感图像字幕的新型表演者 ‑双批评家模型, 其特征在于, 所述更新批评家的参数包括: 所述 RNN批评家使用所述奖励更新参数, 使用的优化方程表 示 为: 其中, L表示所述RNN批评家训练时所用的损失函数; 表示 的2‑范数, 表示 的1‑范数; 表示所述RNN批评家在自身参数集为θ, 表演者策略为π, 目 前(t时刻)已经生成的句子为st的情况下所评估的价值函数; rT表示在已知T时刻输出的句权 利 要 求 书 1/3 页 2 CN 115205697 A 2子sT的情况下, 使用ROUGE ‑L或BLEU评估标准为该句子sT所评估的奖励; δ为 该损失函数中的 可设定的系数。 7.如权利要求1或4所述的用于遥感图像字幕的新型表演者 ‑双批评家模型, 其特征在 于, 所述提供奖励包括: 所述的编码器 ‑解码器RN N批评家工作原理表示 为: 其中, 表示对应t=0时刻的编码器的隐藏层的值; 表示对应t时刻的编码器的隐 藏层的值; 表示对应t=0时刻的解码器的隐藏层的值; 表示对应t时刻的解码器的隐 藏层的值; 表示对应t时刻 的编码器的输入的值; 表示对应t时刻 的解码器的输入的 值; 表示对应t时刻的编码器的输出的值; 表示对应t时刻的解码器的输出的值; RNNenc和RNNdec分别表示所述编码器 ‑解码器RNN批评家的编码器和解码器的循环神经网络 函数; S=(w1,w2,...,wT)表示图像的自然语言描述; ψ2表示将RNN编码器的隐藏层 状态变换 到RNN解码器隐藏层状态的线性映射, ψ1表示将RNN编码器的输出向量变换到RNN解码器的 输入向量的线性映射; I表示输入的图像; CNN(I)表示输入的图像经过卷积神经网络后的输 出; Wx(CNN(I))表示将上述输出嵌入到RNN的隐藏状态空间中的线性映射; ζ(S)表示将图像 的自然语言描述以词为单位的嵌入到RNN编码器的输入空间中线性映射; ηt表示RNN编码器 在t时刻的输入。 8.如权利要求1所述的用于遥感图像字幕的新型表演者 ‑双批评家模型, 其特征在于, 所述更新批 评家的参数包括: 所述的编码器 ‑解码器RN N批评家的优化目标表示 为: 其中, L表示编码器 ‑解码器RNN的损失函数; 是RNN解码器在t时刻的输出向量, T表 示总时间; |S|代表图像的自然语言描述的距离的绝对值; f=Wx(CNN(I)), 其中I表示输入 的图像, CNN(I)表示输入的图像经过卷积神经网络后的输出, Wx(CNN(I))表示将上述输出 嵌入到RN N的隐藏状态空间中的线性映射。 9.如权利要求1或8所述的用于遥感图像字幕的新型表演者 ‑双批评家模型, 其特征在 于, 所述更新批评家的参数包括: 所述的编码器 ‑解码器RNN批评家的解码器输出的准确性 由解码器输出与特 征之间的余弦相似度给 出:权 利 要 求 书 2/3 页 3 CN 115205697 A 3

PDF文档 专利 一种用于遥感图像字幕的新型表演者-双批评家模型

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种用于遥感图像字幕的新型表演者-双批评家模型 第 1 页 专利 一种用于遥感图像字幕的新型表演者-双批评家模型 第 2 页 专利 一种用于遥感图像字幕的新型表演者-双批评家模型 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:43:24上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。