(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210648996.1
(22)申请日 2022.06.09
(71)申请人 贵州电网有限责任公司
地址 550002 贵州省贵阳市南明区滨河路
17号
(72)发明人 王立 刘志宏 彭军 王伟 王斌
杨世平 张裕 杨珂
(74)专利代理 机构 南京禹为知识产权代理事务
所(特殊普通 合伙) 32272
专利代理师 褚晓英
(51)Int.Cl.
G06V 20/13(2022.01)
G06V 10/44(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
(54)发明名称
一种用于遥感图像字幕的新型表演者-双批
评家模型
(57)摘要
本发明公开了一种用于遥感图像字幕的新
型表演者 ‑双批评家模型包括: 表演者根据给定
图像生成一个句子; 批评家根据所述句子的质量
和相关性对表演者提供奖励; 将所述奖励使用强
化学习算法更新表演者的参数; 使用所述奖励更
新批评家的参数; 循环至表演者达到优化目标。
本发明提供的用于遥感图像字幕的新型表演者 ‑
双批评家模型针对遥感数据为卫星场景生成自
动字幕, 使用强化学习算法训练模型, 从而提高
由成对图像和字幕组成的环境分析程度, 提高了
模型生成自动字幕的效率和精 准性。 本发明在测
试数据上生成的句子与基本事实高度相似, 并且
在许多关键情况 下成功地 生成了更好的字幕。
权利要求书3页 说明书11页 附图1页
CN 115205697 A
2022.10.18
CN 115205697 A
1.一种用于 遥感图像字幕的新型表演者 ‑双批评家模型, 其特 征在于, 包括:
S1: 表演者 根据给定图像生成一个句子;
S2: 批评家根据所述句子的质量和相关性对表演者 提供奖励;
S3: 将所述奖励使用强化学习算法更新表演者的参数;
S4: 使用所述奖励更新批 评家的参数;
S5: 循环S1到S4至表演者达 到优化目标。
2.如权利要求1所述的用于遥感图像字幕的新型表演者 ‑双批评家模型, 其特征在于,
所述生成一个句子包括: 所述表演者提供了一个置信度度量qπ(at∣ st)来根据当前状态预测
下一个动作at=wt+1∈Rd, 其中at表示根据t 时刻的句 子所预测的t+1时刻的单词, st表示当
前t时刻的描述所述给定图像的句子 。
3.如权利要求1或2所述的用于遥感图像字幕的新型表演者 ‑双批评家模型, 其特征在
于, 所述生成一个句子包括: 所述表演者使用预训练的卷积神经网络(CNN)从图像中提取特
征, 提取的特征
作为输入传递给门控循环单元(GRU), 当t ‑1时刻预测的单词wt‑1被送
入到GRU时, GRU的隐藏状态层
随时间t而变化, GRU间接充当上 下文向量的生成器。
4.如权利要求1所述的用于遥感图像字幕的新型表演者 ‑双批评家模型, 其特征在于,
所述批评家包括 一个RNN批评家和一个编码器 ‑解码器RN N批评家。
5.如权利要求1或4所述的用于遥感图像字幕的新型表演者 ‑双批评家模型, 其特征在
于, 所述提供奖励包括: 给定 当前策略预测的单词和CNN提取的特征, 所述RNN批评家便根据
所述句子的质量和相关性对表演者 提供奖励, 即输出一个价 值函数, 表示 为:
其中,
表示所述RNN批评家在自身参数集为θ, 表演者策略为π, 目前(t时刻)已经
生成的句子为st的情况下所评估的价值; T表示总时间; γ表示奖励衰减因子, 取值范围为
[0,1], γ=0表 示所述RNN批评家所评估的价值仅仅与当前已经生 成的句子的奖励 有关, γ
=1表示所述RNN批评家平等对待当前已经生成的句子st的奖励和后 续状态的奖励; rx表示
在已知x时刻输出的句子sx的情况下, 使用ROUGE ‑L或BLEU评估标准为该句子sx所评估的奖
励; at+1,…,aT~π,I表示 at+1,…,aT分别是在输入图像为I的情况下, 由表演者的现行策略π
所生成的在t+1,. ..,T时刻的单词。
6.如权利要求1所述的用于遥感图像字幕的新型表演者 ‑双批评家模型, 其特征在于,
所述更新批评家的参数包括: 所述 RNN批评家使用所述奖励更新参数, 使用的优化方程表 示
为:
其中, L表示所述RNN批评家训练时所用的损失函数;
表示
的2‑范数,
表示
的1‑范数;
表示所述RNN批评家在自身参数集为θ, 表演者策略为π, 目
前(t时刻)已经生成的句子为st的情况下所评估的价值函数; rT表示在已知T时刻输出的句权 利 要 求 书 1/3 页
2
CN 115205697 A
2子sT的情况下, 使用ROUGE ‑L或BLEU评估标准为该句子sT所评估的奖励; δ为 该损失函数中的
可设定的系数。
7.如权利要求1或4所述的用于遥感图像字幕的新型表演者 ‑双批评家模型, 其特征在
于, 所述提供奖励包括: 所述的编码器 ‑解码器RN N批评家工作原理表示 为:
其中,
表示对应t=0时刻的编码器的隐藏层的值;
表示对应t时刻的编码器的隐
藏层的值;
表示对应t=0时刻的解码器的隐藏层的值;
表示对应t时刻的解码器的隐
藏层的值;
表示对应t时刻 的编码器的输入的值;
表示对应t时刻 的解码器的输入的
值;
表示对应t时刻的编码器的输出的值;
表示对应t时刻的解码器的输出的值;
RNNenc和RNNdec分别表示所述编码器 ‑解码器RNN批评家的编码器和解码器的循环神经网络
函数; S=(w1,w2,...,wT)表示图像的自然语言描述; ψ2表示将RNN编码器的隐藏层 状态变换
到RNN解码器隐藏层状态的线性映射, ψ1表示将RNN编码器的输出向量变换到RNN解码器的
输入向量的线性映射; I表示输入的图像; CNN(I)表示输入的图像经过卷积神经网络后的输
出; Wx(CNN(I))表示将上述输出嵌入到RNN的隐藏状态空间中的线性映射; ζ(S)表示将图像
的自然语言描述以词为单位的嵌入到RNN编码器的输入空间中线性映射; ηt表示RNN编码器
在t时刻的输入。
8.如权利要求1所述的用于遥感图像字幕的新型表演者 ‑双批评家模型, 其特征在于,
所述更新批 评家的参数包括: 所述的编码器 ‑解码器RN N批评家的优化目标表示 为:
其中, L表示编码器 ‑解码器RNN的损失函数;
是RNN解码器在t时刻的输出向量, T表
示总时间; |S|代表图像的自然语言描述的距离的绝对值; f=Wx(CNN(I)), 其中I表示输入
的图像, CNN(I)表示输入的图像经过卷积神经网络后的输出, Wx(CNN(I))表示将上述输出
嵌入到RN N的隐藏状态空间中的线性映射。
9.如权利要求1或8所述的用于遥感图像字幕的新型表演者 ‑双批评家模型, 其特征在
于, 所述更新批评家的参数包括: 所述的编码器 ‑解码器RNN批评家的解码器输出的准确性
由解码器输出与特 征之间的余弦相似度给 出:权 利 要 求 书 2/3 页
3
CN 115205697 A
3
专利 一种用于遥感图像字幕的新型表演者-双批评家模型
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:43:24上传分享