专利 一种用于遥感图像字幕的新型表演者-双批评家模型

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210648996.1 (22)申请日 2022.06.09 (71)申请人贵州电网有限责任公司地址 550002 贵州省贵阳市南明区滨河路 17号 (72)发明人王立　刘志宏　彭军　王伟　王斌　杨世平　张裕　杨珂　 (74)专利代理机构南京禹为知识产权代理事务所(特殊普通合伙) 32272 专利代理师褚晓英 (51)Int.Cl. G06V 20/13(2022.01) G06V 10/44(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称一种用于遥感图像字幕的新型表演者-双批评家模型 (57)摘要本发明公开了一种用于遥感图像字幕的新型表演者 ‑双批评家模型包括：表演者根据给定图像生成一个句子；批评家根据所述句子的质量和相关性对表演者提供奖励；将所述奖励使用强化学习算法更新表演者的参数；使用所述奖励更新批评家的参数；循环至表演者达到优化目标。本发明提供的用于遥感图像字幕的新型表演者 ‑ 双批评家模型针对遥感数据为卫星场景生成自动字幕，使用强化学习算法训练模型，从而提高由成对图像和字幕组成的环境分析程度，提高了模型生成自动字幕的效率和精准性。本发明在测试数据上生成的句子与基本事实高度相似，并且在许多关键情况下成功地生成了更好的字幕。权利要求书3页说明书11页附图1页 CN 115205697 A 2022.10.18 CN 115205697 A 1.一种用于遥感图像字幕的新型表演者 ‑双批评家模型，其特征在于，包括： S1：表演者根据给定图像生成一个句子； S2：批评家根据所述句子的质量和相关性对表演者提供奖励； S3：将所述奖励使用强化学习算法更新表演者的参数； S4：使用所述奖励更新批评家的参数； S5：循环S1到S4至表演者达到优化目标。 2.如权利要求1所述的用于遥感图像字幕的新型表演者 ‑双批评家模型，其特征在于，所述生成一个句子包括：所述表演者提供了一个置信度度量qπ(at∣ st)来根据当前状态预测下一个动作at＝wt+1∈Rd，其中at表示根据t 时刻的句子所预测的t+1时刻的单词， st表示当前t时刻的描述所述给定图像的句子。 3.如权利要求1或2所述的用于遥感图像字幕的新型表演者 ‑双批评家模型，其特征在于，所述生成一个句子包括：所述表演者使用预训练的卷积神经网络(CNN)从图像中提取特征，提取的特征作为输入传递给门控循环单元(GRU)，当t ‑1时刻预测的单词wt‑1被送入到GRU时， GRU的隐藏状态层随时间t而变化， GRU间接充当上下文向量的生成器。 4.如权利要求1所述的用于遥感图像字幕的新型表演者 ‑双批评家模型，其特征在于，所述批评家包括一个RNN批评家和一个编码器 ‑解码器RN N批评家。 5.如权利要求1或4所述的用于遥感图像字幕的新型表演者 ‑双批评家模型，其特征在于，所述提供奖励包括：给定当前策略预测的单词和CNN提取的特征，所述RNN批评家便根据所述句子的质量和相关性对表演者提供奖励，即输出一个价值函数，表示为：其中，表示所述RNN批评家在自身参数集为θ，表演者策略为π，目前(t时刻)已经生成的句子为st的情况下所评估的价值； T表示总时间； γ表示奖励衰减因子，取值范围为 [0,1]， γ＝0表示所述RNN批评家所评估的价值仅仅与当前已经生成的句子的奖励有关， γ ＝1表示所述RNN批评家平等对待当前已经生成的句子st的奖励和后续状态的奖励； rx表示在已知x时刻输出的句子sx的情况下，使用ROUGE ‑L或BLEU评估标准为该句子sx所评估的奖励； at+1,…,aT～π,I表示 at+1,…,aT分别是在输入图像为I的情况下，由表演者的现行策略π 所生成的在t+1,. ..,T时刻的单词。 6.如权利要求1所述的用于遥感图像字幕的新型表演者 ‑双批评家模型，其特征在于，所述更新批评家的参数包括：所述 RNN批评家使用所述奖励更新参数，使用的优化方程表示为：其中， L表示所述RNN批评家训练时所用的损失函数；表示的2‑范数，表示的1‑范数；表示所述RNN批评家在自身参数集为θ，表演者策略为π，目前(t时刻)已经生成的句子为st的情况下所评估的价值函数； rT表示在已知T时刻输出的句权　利　要　求　书 1/3 页 2 CN 115205697 A 2子sT的情况下，使用ROUGE ‑L或BLEU评估标准为该句子sT所评估的奖励； δ为该损失函数中的可设定的系数。 7.如权利要求1或4所述的用于遥感图像字幕的新型表演者 ‑双批评家模型，其特征在于，所述提供奖励包括：所述的编码器 ‑解码器RN N批评家工作原理表示为：其中，表示对应t＝0时刻的编码器的隐藏层的值；表示对应t时刻的编码器的隐藏层的值；表示对应t＝0时刻的解码器的隐藏层的值；表示对应t时刻的解码器的隐藏层的值；表示对应t时刻的编码器的输入的值；表示对应t时刻的解码器的输入的值；表示对应t时刻的编码器的输出的值；表示对应t时刻的解码器的输出的值； RNNenc和RNNdec分别表示所述编码器 ‑解码器RNN批评家的编码器和解码器的循环神经网络函数； S＝(w1,w2,...,wT)表示图像的自然语言描述； ψ2表示将RNN编码器的隐藏层状态变换到RNN解码器隐藏层状态的线性映射， ψ1表示将RNN编码器的输出向量变换到RNN解码器的输入向量的线性映射； I表示输入的图像； CNN(I)表示输入的图像经过卷积神经网络后的输出； Wx(CNN(I))表示将上述输出嵌入到RNN的隐藏状态空间中的线性映射； ζ(S)表示将图像的自然语言描述以词为单位的嵌入到RNN编码器的输入空间中线性映射； ηt表示RNN编码器在t时刻的输入。 8.如权利要求1所述的用于遥感图像字幕的新型表演者 ‑双批评家模型，其特征在于，所述更新批评家的参数包括：所述的编码器 ‑解码器RN N批评家的优化目标表示为：其中， L表示编码器 ‑解码器RNN的损失函数；是RNN解码器在t时刻的输出向量， T表示总时间； |S|代表图像的自然语言描述的距离的绝对值； f＝Wx(CNN(I))，其中I表示输入的图像， CNN(I)表示输入的图像经过卷积神经网络后的输出， Wx(CNN(I))表示将上述输出嵌入到RN N的隐藏状态空间中的线性映射。 9.如权利要求1或8所述的用于遥感图像字幕的新型表演者 ‑双批评家模型，其特征在于，所述更新批评家的参数包括：所述的编码器 ‑解码器RNN批评家的解码器输出的准确性由解码器输出与特征之间的余弦相似度给出：权　利　要　求　书 2/3 页 3 CN 115205697 A 3

专利 一种用于遥感图像字幕的新型表演者-双批评家模型

专利一种用于遥感图像字幕的新型表演者-双批评家模型