说明:最全电力标准
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210658263.6 (22)申请日 2022.06.10 (71)申请人 西安电子科技大 学 地址 710071 陕西省西安市太白南路2号 (72)发明人 李阳阳 封星宇 赵逸群 刘睿娇  陈彦桥 焦李成 尚荣华 马文萍  (74)专利代理 机构 陕西电子 工业专利中心 61205 专利代理师 侯琼 王品华 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/44(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于自监督的视频目标分割方法 (57)摘要 本发明公开了一种基于自监督的视频目标 分割方法, 主要解决现有技术分割精度较低、 目 标遮挡和追踪漂移影响较大的问题。 方案包括: 1)从视频目标分割数据集中获取视频序列并进 行预处理, 划分得到训练、 验证及测试样本集; 2) 构建并训练图像重建神经网络模 型, 采用基于多 像素尺度图像重建任务的自监督学习法进行目 标特征提取; 3)构建并训练侧输出边缘检测网络 模型; 4)构建并训练基于自监督的边缘修正网络 模型; 5)对训练后的三种模型进行组合, 得到视 频目标分割模型; 6)将测试集输入视频目标分割 模型得到目标分割结果。 本发明能够有效提升视 频目标分割的泛化性和精确度, 可用于自动驾 驶、 智能监控、 无 人机智能跟踪等领域。 权利要求书4页 说明书12页 附图1页 CN 114863348 A 2022.08.05 CN 114863348 A 1.一种基于自监 督的视频目标分割方法, 其特 征在于, 包括如下步骤: (1)获取训练样本集、 验证样本集和 测试样本集: 从视频目标分割数据集中获取视频序列, 并进行预处理, 得到帧序列集合V, 对该集合 中的帧序列进行划分, 得到训练样本集Vtrain、 验证样本集Vval及测试样本集Vtest; (2)构建并训练图像重建神经网络模型R: (2a)搭建由特征提取网络构成的图像重建神经网络模型R, 特征提取网络采用包括顺 次连接的多个卷积层、 多个池化层、 多个残差单 元模块和单个全连接层的残差网络; (2b)定义图像重建神经网络模型R的损失函数: Lmix=α Lcls+(1‑α )Lreg 其中, 表示量化图像重建任务的交叉熵损失函数, 针对训练样本 集 选取E个聚类质心点{ μ1, μ2,..., μE}, 且E≤50; 根据训练样本与聚类 质心点的距离, 计算样本所属类别, 设帧序列集合V中所包含目标类别数为C; 修正聚类质心 点位置, 使得帧间同类目标标签相同, 不同目标标签不同, 其中, 表示给定的帧图片It的 第i个像素所属类别, 表示使用K均值算法的预测结果, Lreg表示RGB图像重建任务的回归 损失函数, 其中, 其中 为真实目标帧像素, 为重建目标帧像素, α 表示权 重系数, 0.1≤α ≤ 0.9; (2c)设定特征提取网络参数及最大迭代次数N, 根据图像重建神经网络模型R的损失函 数, 并利用训练样本 集Vtrain中的目标帧图片对图像重建神经网络模型R进行迭代训练, 得到 训练好的图像重建神经网络模型R; (3)构建并训练侧输出边 缘检测网络模型Q: (3a)构建包括顺次连接的侧输出边缘检测层SODL和侧输出边缘融合层SOFL的边缘检 测网络模 型Q, 侧输出边缘检测层SODL包括一个反卷积层和一个卷积核尺寸为 1×1, 且输出 通道数为 1的卷积层, 侧输出边缘融合层SOFL是一个卷积核尺 寸为1×1且通道数为 1的卷积 层; (3b)定义侧输出边 缘检测网络模型Q的损失函数: Ledge=Lside+Lfuse 其中, Lside表示侧输出边缘检测损失函数, 其中, βi表示第i个侧输出 边缘检测网络的权 重系数, 表示第i个侧输出边 缘检测网络预测结果的损失函数: 其中, 其中, e表示输入图像目标边缘真值, |e‑|表示图像目标边 缘真值中为边缘的像素数, |e+|表示图像目标边缘真值中非边缘的像素数, ωi表示卷积层 的参数, Lfuse表示边缘融合损失函数:权 利 要 求 书 1/4 页 2 CN 114863348 A 2(3c)设定最大迭代次数I, 根据侧输出边缘检测网络模型Q的损失函数, 并利用图像重 建神经网络模型R中特征提取网络每一结构层输出的特征图集合对侧输出边缘检测网络模 型Q进行迭代训练, 得到训练好的侧输出边 缘检测网络模型Q; (4)构建并训练边 缘修正网络模型Z: (4a)顺次连接空洞空间卷积池化金字塔模型Fγ和softmax激活函数输出层, 其 中, 空洞 空间卷积池化金字塔模型Fγ由顺次连接的多个卷积层和池化层构成, 得到边缘修正网络模 型Z; (4b)定义 边缘修正网络模型Z的损失函数: 其中, 为边缘检测 层输出的目标帧粗分割结果, 为空洞空间卷积池化金字塔模型 Fγ的预测结果, 其中, 表示Canny算法得到的图像边 缘, M表示掩膜 中像素的类别数量, 表示掩膜 中像素总数量; (4c)设定最大迭代次数H, 根据边缘修正网络模型Z 的损失函数, 并利用图像重建网络 模型R和边缘检测网络模型Q的输出结果对边缘修正网络模型Z进行迭代训练, 得到训练好 的边缘修正网络模型Z; (5)由训练好的图像重建神经网络R、 侧输出边缘检测网络Q和边缘修正网络模型Z组合 得到基于图像目标边 缘修正分割结果的视频目标分割模型; (6)获取自监 督视频目标分割结果: 将测试集 中的帧图像作为视频目标分割模型的输入进行前向 传播, 得到所有测试帧图片预测分割 标签, 根据测试帧图片预测分割标签得到最终的分割 结果图。 2.根据权利要求1所述的方法, 其特征在于: 步骤(1)中训练样本集Vtrain、 验证样本集 Vval及测试样本集Vtest, 按照如下步骤获取: (1a)从视频目标分割数据集中获取S个多类别的视频序列, 预处理后得到帧序列集合 S≥3000; 其 中 表示第k个由预处理过 的图像帧构成的帧序列, 表示第k个帧序列中的第n个图像帧, M≥3 0; (1 b) 从 帧 序 列 集 合 V 中 随 机 抽 取 半 数 以 上 的 帧 序 列 组 成 训练 样 本 集 其中 S/2<N<S , 针对 训练 样本集中 每一个帧 序列 将每一张待分割的目标帧图片 缩放成p×p×h大小的图像块, 并 将图片格式由RGB转化为Lab; 从剩余的帧序列中抽取一半帧序列组成验证样本集 其中J≤S/4; 另一半组成测试样本集 T≤ S/4, 并将图片格式由RGB转 化为Lab。 3.根据权利要求1所述的方法, 其特征在于: 步骤(2c)中对图像重建神经网络模型R进 行迭代训练, 实现如下:权 利 要 求 书 2/4 页 3 CN 114863348 A 3

PDF文档 专利 基于自监督的视频目标分割方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于自监督的视频目标分割方法 第 1 页 专利 基于自监督的视频目标分割方法 第 2 页 专利 基于自监督的视频目标分割方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:43:22上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。