(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210652631.6
(22)申请日 2022.06.10
(71)申请人 华南理工大 学
地址 511458 广东省广州市南沙区环市大
道南路25号 华工大广州产研院
申请人 广州现代产业 技术研究院
(72)发明人 刘屿 江镔 兰炜圣
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
专利代理师 黄卫萍
(51)Int.Cl.
G06V 10/26(2022.01)
G06V 10/44(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 16/583(2019.01)
G06F 16/55(2019.01)
(54)发明名称
一种少样本环境下的语义分割方法
(57)摘要
本发明公开了一种少样本环境下的语义分
割方法, 该方法首先使用预训练的深度残差网络
提取图像的特征, 根据同目标类的图像特征的余
弦相似度获取图像特征各个位置匹配得分。 在此
基础上, 根据统计学原理修改匹配各个位置得分
的统计分布。 最后, 利用4维卷积核对多层特征构
成的关联张量进行自适应学习, 输出查询图像的
细粒度分割预测。 该方法基于目标类的多层网络
特征自适应融合的过程能够建立同目标类图像
之间的语义联系, 在缺少足够训练样本的情况下
进行知识迁移, 进而准确地分割出查询图像的语
义对象, 可用于密集标注样本缺乏的工业场景。
权利要求书3页 说明书7页 附图2页
CN 115131558 A
2022.09.30
CN 115131558 A
1.一种少样本环境下的语义分割方法, 其特 征在于, 所述语义分割方法包括以下步骤:
S1、 利用语义分割公开数据集构建同类的支持查询样本对;
S2、 通过预训练网络分别提取支持图像和查询图像的特征, 将支持图像的特征和掩膜
通过哈达 玛积滤除无关的背景区域, 其中, 所述预训练网络采用预训练的深度残差网络;
S3、 特征关联模块首先利用余弦相似性建立支持特征与查询特征的中间层关联, 然后
通过去模糊函数抑制模糊的关联性;
S4、 通过预测网络输出查询图像的预测分割结果, 其中, 所述预测网络采用编码器解码
器结构, 所述编码 器由4维卷积核构成, 用于将4 维的特征关联压缩至2维, 所述解码 器由2维
卷积核构成。
2.根据权利要求1所述的一种少样本环境下的语义分割方法, 其特征在于, 所述步骤S1
中构建支持查询样本对的过程如下:
将语义分割公开数据集按类别平均分成4组, 其中3组作为训练集, 另外1组作为测试
集, 其中, 训练集的训练样 本对以及测试集的测试样本对都包含支持集分支和查询集分支,
所述支持集分支由支持图像以及相应的密集标注掩膜, 所述查询集分支由同类的单张图像
及其掩膜组成, 支持集图像的密集标注掩膜作为先验知识, 在训练的过程中 以查询集图像
的密集标注掩膜作为监督信息训练预测网络的参数, 在测试过程中查询图像的密集标注掩
膜作为标准 来评估模型的性能。
3.根据权利要求1所述的一种少样本环境下的语义分割方法, 其特征在于, 所述步骤S2
中预训练网络提取支持图像和查询图像的特 征的过程如下:
S2.1、 从单个支持查询样本对中取出大小均为H ×W×3的支持图像Is以及查询图像Iq,
利用预训练的深度残差网络作为特征提取器提取图像的特征, 其中H为图像的高, W为图像
的宽, 3为图像的通道数:
(Fs,Fq)=backbo ne(Is,Iq), Fs,Fq∈Rh×w×c
其中, backbone()表 示预训练的深度残差网络, 预训练的深度残差网络采用ResNet50,
Fs,Fq分别表示支持特征以及查询特征, h表示特征的高, w表示特征的宽, c表示特征的通道
数;
S2.2、 利用双线性内插 的方法将已知的支持图像的二进制掩膜的尺寸调整为h ×w, 根
据全卷积神经网络的位置不变性原理, 利用哈达 玛积提取支持特 征Fs的前景区域:
Fs=Fs⊙Ms, Fs∈Rh×w×c
其中M为支持图像的二进制掩膜, “⊙”表示哈达 玛积。
4.根据权利要求1所述的一种少样本环境下的语义分割方法, 其特征在于, 所述步骤S3
中特征关联模块 提取支持特 征与查询特 征的关联张量的过程如下:
S3.1、 利用余弦相似度计算支持特 征Fs和查询特 征Fq的关联张量C:
C∈Rh×w×h×w
其中“·”表示特征所有位置上的3维向量内积运 算, ‖·‖代表l2范数;
S3.2、 去除关联张量中无关的匹配分值, 同时计算出该关联张量中匹配分值中的最大
项:权 利 要 求 书 1/3 页
2
CN 115131558 A
2Δ=maxi(max(0,Ci))
其中i∈{1 ×1×1×1,…,h×w×h×w}表示关联张量的位置, Ci是关联张量C在位置i上
的匹配分值, 余弦相似度为负值被认为是无关的匹配分值, 去除之后通过maxi()获取所有
位置中的最大的匹配分值;
S3.3、 按照统计学知识, 设定阈值进行修 正:
其中j代表一个批量中第j个支持查询样本对, Δj是关联张量中匹配分值最大项Δ在第
j个支持查询样本对上的值, cv()计算一个批量的Δj的变异系数, 所述变异系数是概率分
布离散程度的一个归一 化量度, 定义 为一组数据的标准差与平均值之比;
S3.4、 对于一个批量中的多个不同的张量, 进行归一 化处理:
其中ε是为了防止分母为0而设置的参数, Cij是关联张量在位置i以及在第j个支持查询
样本对上的匹配分值;
S3.5、 对于已经批量归一化的关联张量, 使用sigmoid函数修改匹配分值的统计分布,
计算公式如下:
Ci=sigmoid( α(Ci‑β ))
其中
为输入变量, α 是控制去模糊化的程度的第一超参 数, β 是
定位语义模糊阈值的第二超参数。
5.根据权利要求1所述的一种少样本环境下的语义分割方法, 其特征在于, 所述步骤S4
中通过预测网络 输出查询图像的预测分割结果的过程如下:
S4.1、 利用编码器对关联张量进行自适应编码, 其中, 编码器通过轴向装配4维卷积核
构建, 轴向装配4维卷积定义如下:
K(x,y)*C(x,y)=K1(xh)*[K2(xw,y)*C(x,y)]
其中x,y∈R2分别表示关联张量查询子空间以及支持子空间的二维坐标, xh,xw则分别
代表查询子空间h轴坐标和w轴坐标;
S4.2、 不同特征层构建的关联张量经过轴向装配4维卷积序列、 Group normalization
以及ReLU激活单元的处理, 其中Group normalization是层归一化方法, ReLU激活单元的定
义为ReLU(z)=max(0,z), z是输入变量, 通过自上而下的形式, 将不同层的关联张量输入到
编码器中, 得到压缩后的关联张量, 其中编码 器由3组轴向装配卷积序列构成, 第1组轴向装
配卷积序列包含3层轴向装配卷积层, 在第1组轴向装配卷积序列中, 第1层, 第2层和第3层
的轴向装配卷积的卷积核大小均为3 ×3×3×3, 步长均为(1,1,2,2), 输入通道数分别为3,
16,64, 输出通道数分别为16,64,128, 在第2组轴向装配卷积序列中, 第1层, 第2层和第3层
的轴向装配卷积的卷积核大小分别为5 ×5×5×5, 3×3×3×3, 3×3×3×3, 步长分别为
(1,1,4,4), (1,1,2,2), (1,1,2,2), 输入通道数分别为3,16,64, 输出通道数分别为16,64,
128, 在第3组轴向装配卷积序列中, 第1层, 第2层和第3层的轴向装配卷积的卷积核大小分权 利 要 求 书 2/3 页
3
CN 115131558 A
3
专利 一种少样本环境下的语义分割方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:43:22上传分享