(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210660853.2
(22)申请日 2022.06.13
(71)申请人 河南理工大 学
地址 454003 河南省焦作市高新区世纪大
道2001号
(72)发明人 赵彦如 牛东杰 杨蕙萌 陈春朝
郑中原
(74)专利代理 机构 郑州睿途知识产权代理事务
所(普通合伙) 41183
专利代理师 李伊宁
(51)Int.Cl.
G06V 40/10(2022.01)
G06V 10/42(2022.01)
G06V 10/44(2022.01)
G06V 10/764(2022.01)G06V 10/774(2022.01)
G06V 20/40(2022.01)
(54)发明名称
一种基于先验知识的视频行 人再识别方法
(57)摘要
本发明公开了一种基于先验知识的视频行
人再识别方法, 包括以下步骤: A:对训练集进行
数据预处理; B: 构建包括局部特征网络和全局特
征网络的基于先验知识的视频行人再识别网络
模型; C: 将局部特征和全局特征在时间维度上分
别作平均池化处理, 得到最终的行人视频序列的
局部特征和全局特征; D: 进行训练得到训练后的
基于先验知识的视频行人再识别网络模型; E: 利
用网络模型对 行人视频序列进行再识别, 然后通
过对局部特征和全局特征施加不同的权重进行
优化融合, 得到融合后的视频序列的最终特征表
示。 本发明能够得到更为全面的行人特征表示,
且与目前卷积网络处理的诸多方法进行融合, 可
以作为基础网络进行 特征提取。
权利要求书3页 说明书9页 附图1页
CN 115050050 A
2022.09.13
CN 115050050 A
1.一种基于先验知识的视频 行人再识别方法, 其特 征在于, 依次包括以下步骤:
A: 对基于 视频的行 人再识别数据集中的训练集进行 数据预处 理;
B: 构建包括局部特征网络和全局特征网络的基于先验知识 的视频行人再识别网络模
型;
局部特征网络用于对输入图像进行局部特征提取, 最终得到行人图像的局部特征; 局
部特征网络依 次包括不变卷积层、 池化层和第一至第四残差层, 不变卷积层用于对输入图
像进行局部特征 的初次提取, 池化层用于对初次提取 的特征进行挑选并降维, 第一至第四
残差层用于对降维后的特征逐层进行特征提取, 得到图像的中间局部特征; 局部特征网络
输出的特 征向量经固定平均池化层处 理后得到行 人图像的局部特 征;
全局特征网络用于提取局部特征网络中第一至第四残差层输出的中间局部特征的全
局结构信息; 全局特征网络包括可变卷积层、 标准化层、 第一至第四编码层; 可变卷积层用
于将局部特征网络不同残差层输出的中间特征的特征图通道数 统一, 标准化层用于对每个
样本内部进行标准化, 第一至第四编 码层用于对输入的中间局部特征进 行全局结构信息提
取, 并输出通道数相同而特征图大小不一致的特征向量; 全局特征网络输出 的特征向量经
自适应平均池化处 理后得到行 人图像的全局特 征;
C: 将步骤B中得到的行人图像的局部特征和全局特征在时间维度 上分别作平均池化处
理, 得到最终的行 人视频序列的局部特 征和全局特 征;
D: 利用步骤A中得到的经数据预处理后的训练集, 对基于先验知识的视频行人再识别
网络模型进行训练, 最终得到训练后的基于先验知识的视频 行人再识别网络模型;
E: 利用训练后的基于先验知识的视频行人再识别网络模型, 对行人视频序列进行再识
别, 生成行人视频序列的局部特征和全局特征; 然后通过对局部特征和全局特征施加 不同
的权重进行优化融合, 得到融合后的视频序列的最终特 征表示。
2.根据权利要求1所述的基于先验知识的视频行人再识别方法, 其特征在于, 所述的步
骤A包括以下 具体步骤:
A1: 获取基于视频的行人再识别数据集的训练集中的行人图像, 并设定基于先验知识
的视频行人再识别网络模 型的输入图像总数m ×n, 其中, m为每个批次向基于先验知识的视
频行人再识别网络模型中输入的视频序列数, n为每个视频序列的视频帧中随机抽取 的图
像数量;
A2: 将所有输入图像的高和宽分别设定为25 6像素和128像素;
A3: 对步骤A 2中调整后的输入图像进行概 率为0.5的随机水平翻转;
A4: 对步骤A3中随机水平翻转的输入图像进行归一 化处理;
A5: 对步骤A4中归一化处理后的输入图像进行概率为0.5的随机擦除, 最终得到预处理
后的输入图像。
3.根据权利要求1所述的基于先验知识的视频行人再识别方法, 其特征在于, 所述的步
骤B中: 全局特征网络中每个编 码层均包含编码 器块, 编码 器块由标准化层、 MSA模块和一个
具有GELU非线性单元的2层MLP组成, 标准化层设置在每个MSA模块和每个MLP之前, 在每个
MSA模块和每个MLP之后通过残差连接; 第一编码层的编码器块前设置有线性嵌入层, 第二
至第四编码层的编码器块前均设置有面片合并层。
4.根据权利要求3所述的基于先验知识的视频行人再识别方法, 其特征在于: 所述的权 利 要 求 书 1/3 页
2
CN 115050050 A
2MSA模块将输入特征向量经一个线性层映射到查询向量Q、 关键字向量K和值向量V三个空
间, 通过计算Q和K的点积得到Q和K的权重相关性矩阵, 然后使用Softmax函数对权重进行归
一化; 最后将权 重和相应的值向量进行加权求和得到最后的向量;
自注意力机制的运 算公式为:
其中, Attention(Q,K,V)表示自注意力机制, Softmax为多分类归一化指数函数,
为
缩放因子, 能够缓解由于Softmax函数引入的梯度消失问题, B为相对位置偏差矩阵。
5.根据权利要求4所述的基于先验知识的视频行人再识别方法, 其特征在于: 所述的步
骤B中, 在全局特征网络中利用W ‑MSA模块降低计算量, 并利用SW ‑MSA模块实现不同窗口之
间信息交流;
每个编码层中编码器块的计算过程均为:
其中, W‑MSA模块指基于常规窗口的MSA模块, SW ‑MSA模块指基于移位窗口的MSA模块,
和
分别表示 W‑MSA模块和SW ‑MSA模块对l的输出, zl和zl+1分别表示MLP模块对l的输出,
LN表示标准 化层。
6.根据权利要求1所述的基于先验知识的视频行人再识别方法, 其特征在于: 所述的步
骤C中, 分别将局部特征网络和全局特征网络输出的局部特征和全局特征, 在第一个维度m
×n拆分为[m,n]后, 对m个视频序列的n张行人图像作平均池化处理, 得到最终的行人视频
序列的局部特 征和全局特 征:
其中, fl表示局部特征, fg表示全局特征, t表示图像序号, n表示某个视频序列的n张行
人图像。
7.根据权利要求1所述的基于先验知识的视频行人再识别方法, 其特征在于: 所述的步
骤D中, 对局部特征网络和全局特征网络均使用相同的损失函数进 行训练, 损失函数采用困
难三元组损失函数和标签平 滑交叉熵损失函数。权 利 要 求 书 2/3 页
3
CN 115050050 A
3
专利 一种基于先验知识的视频行人再识别方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:43:21上传分享