说明:最全电力标准
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210645115.0 (22)申请日 2022.06.09 (71)申请人 南开大学 地址 300071 天津市津南区海河教育园区 同砚路38号 (72)发明人 程明明 李钟毓 高尚华  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 李琳 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一 种 基 于 多 维 度 关 系 建 模 的 视 觉 Transformer自监 督学习方法及系统 (57)摘要 本发明属于计算机视觉技术领域, 提供了一 种基于多维度关系建模的视觉Tran sformer自监 督学习方法及系统, 该方法利用空间维度和通道 维度上的自关系建模, 使用不同的图像变换处理 图像得到图像的不同视图; 图像的不同视图分别 由教师网络和学生网络处理, 得到特征图; 学生 网络提取的特征图进一步通过卷积层处理; 通过 点积计算特征图在空间维度与通道维度的自关 系矩阵, 计算教师网络与学生网络提取的关系矩 阵的差异作为损失函数, 并利用其关于网络参数 的导数更新网络参数, 相较于 现有的自监督学习 方法只考虑视觉模式的特征, 该方法同时考虑了 视觉模式在空间和通道维度的相关性, 可以显著 提升图像识别、 语义分割、 目标检测、 实例检测等 任务的准确性。 权利要求书2页 说明书7页 附图2页 CN 115424288 A 2022.12.02 CN 115424288 A 1.一种基于多维度关系建模的视觉Transformer自监督学习方法, 其特征在于, 包括如 下步骤: 对待训练图像样本数据进行预处理得到每张图像对应的不同视图并提取得到对应视 图的特征图; 基于每张图像对应的不同视图的特征图和Transformer网络进行自监督学习得到语义 特征; 其中, 所述自监 督学习的过程包括: 基于不同视 图的特征图, 通过点积计算得到所有视 图在通道维度上的自关系矩阵, 将 每张视图的特征图沿着通道维度划分为多个子集, 通过点乘计算每个子特征图上像素之间 在空间维度上的自关系矩阵; 将通道维度上和空间维度上的自关系矩阵的差异作为损失函数, 通过损失函数的梯度 更新Transformer网络的参数。 2.如权利 要求1所述的一种基于多维度关系建模的视觉Transformer自监督学习方法, 其特征在于, 所述将通道维度上和空间维度上 的自关系矩阵的差异, 通过损失函数 的梯度 更新学生网络和教师网络的参数包括: 基于通道维度 上和空间维度 上的自关系矩阵, 分别利用交叉熵损失函数计算通道维度 上和空间维度上自关系矩阵的差异得到对应的损失函数; 将损失函数作为梯度利用反向传播更新学生网络的参数; 按照学生网络的参数动量更新得到教师网络的参数。 3.如权利 要求1所述的一种基于多维度关系建模的视觉Transformer自监督学习方法, 其特征在于, 每张图像对应的不同视图通过采用教师网络和学生网络进 行特征提取得到对 应视图的特 征图表示 为: z1=S(x1) z2=T(x2) 其中, S表示学生网络, T表示教师网络, x1和x2表示不同的视图。 4.如权利 要求1所述的一种基于多维度关系建模的视觉Transformer自监督学习方法, 其特征在于, 在获取待训练图像样 本数据后, 对数据进 行预处理, 分别将 每张图像 分别采用 不同的图像 变换方法进行随机变换处 理, 得到每张图像对应的不同视图。 5.如权利 要求3所述的一种基于多维度关系建模的视觉Transformer自监督学习方法, 其特征在于, 分别采用教师网络和学生网络进行特征提取得到对应视图的特征图, 其中, 学 生网络提取的特 征图采用卷积层、 归一 化层和激活层进一 步处理。 6.如权利 要求2所述的一种基于多维度关系建模的视觉Transformer自监督学习方法, 其特征在于, 所述分别利用交叉熵损失函数计算通道维度上和空间维度上自关系矩阵的差 异得到对应的损失函数中: 通道维度上的损失函数为: 式中, 表示第一视图通道维度上像素i和像素j之间的关系, 表示第二视图权 利 要 求 书 1/2 页 2 CN 115424288 A 2通道维度上像素i和像素j之间的关系; 空间维度上的损失函数为: 式中, 表示第一视图空间维度上像素i和像素j之间的关系, 表示第二视图 空间维度上像素i和像素j之间的关系。 7.如权利 要求2所述的一种基于多维度关系建模的视觉Transformer自监督学习方法, 其特征在于, 所述将损失函数作为梯度利用反向传播更新学生网络的参数的表达式为: 其中, 是时刻t的学生网络参数, 是损失函数关于网络参数的导数即梯度, α 是学 习率, 表示更新后的模型的参数; 所述按照学生网络的参数动量更新得到教师网络的参数的表达式为: 其中, m表示动量, 是时刻t的教师网络参数。 8.一种基于多维度关系建模的视 觉Transformer自监 督学习系统, 其特 征在于, 包括: 特征提取模块, 用于对待训练图像样本数据进行预处理得到每张图像对应的不同视图 并提取得到对应视图的特 征图; 自监督学习模块, 用于基于每张图像对应的不同视图的特征图和Transformer网络进 行自监督学习得到语义特 征; 其中, 所述自监 督学习的过程包括: 基于不同视 图的特征图, 通过点积计算得到所有视 图在通道维度上的自关系矩阵, 将 每张视图的特征图沿着通道维度划分为多个子集, 通过点乘计算每个子特征图上像素之间 在空间维度上的自关系矩阵; 将通道维度上和空间维度上的自关系矩阵的自关系矩阵的差异作为损失函数, 通过损 失函数的梯度更新Transformer网络的参数。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执 行时实现如权利要求1 ‑7中任一项所述的一种基于多维度关系建模的视觉Tr ansformer自 监督学习方法中的步骤。 10.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑7中任一项 所述的一 种基于多维度关系建模的视 觉Transformer自监 督学习方法中的步骤。权 利 要 求 书 2/2 页 3 CN 115424288 A 3

PDF文档 专利 一种基于多维度关系建模的视觉Transformer自监督学习方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多维度关系建模的视觉Transformer自监督学习方法及系统 第 1 页 专利 一种基于多维度关系建模的视觉Transformer自监督学习方法及系统 第 2 页 专利 一种基于多维度关系建模的视觉Transformer自监督学习方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:43:24上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。