专利 一种基于先验知识的视频行人再识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210660853.2 (22)申请日 2022.06.13 (71)申请人河南理工大学地址 454003 河南省焦作市高新区世纪大道2001号 (72)发明人赵彦如　牛东杰　杨蕙萌　陈春朝　郑中原　 (74)专利代理机构郑州睿途知识产权代理事务所(普通合伙) 41183 专利代理师李伊宁 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/42(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01)G06V 10/774(2022.01) G06V 20/40(2022.01) (54)发明名称一种基于先验知识的视频行人再识别方法 (57)摘要本发明公开了一种基于先验知识的视频行人再识别方法，包括以下步骤： A:对训练集进行数据预处理； B：构建包括局部特征网络和全局特征网络的基于先验知识的视频行人再识别网络模型； C：将局部特征和全局特征在时间维度上分别作平均池化处理，得到最终的行人视频序列的局部特征和全局特征； D：进行训练得到训练后的基于先验知识的视频行人再识别网络模型； E：利用网络模型对行人视频序列进行再识别，然后通过对局部特征和全局特征施加不同的权重进行优化融合，得到融合后的视频序列的最终特征表示。本发明能够得到更为全面的行人特征表示，且与目前卷积网络处理的诸多方法进行融合，可以作为基础网络进行特征提取。权利要求书3页说明书9页附图1页 CN 115050050 A 2022.09.13 CN 115050050 A 1.一种基于先验知识的视频行人再识别方法，其特征在于，依次包括以下步骤： A：对基于视频的行人再识别数据集中的训练集进行数据预处理； B：构建包括局部特征网络和全局特征网络的基于先验知识的视频行人再识别网络模型；局部特征网络用于对输入图像进行局部特征提取，最终得到行人图像的局部特征；局部特征网络依次包括不变卷积层、池化层和第一至第四残差层，不变卷积层用于对输入图像进行局部特征的初次提取，池化层用于对初次提取的特征进行挑选并降维，第一至第四残差层用于对降维后的特征逐层进行特征提取，得到图像的中间局部特征；局部特征网络输出的特征向量经固定平均池化层处理后得到行人图像的局部特征；全局特征网络用于提取局部特征网络中第一至第四残差层输出的中间局部特征的全局结构信息；全局特征网络包括可变卷积层、标准化层、第一至第四编码层；可变卷积层用于将局部特征网络不同残差层输出的中间特征的特征图通道数统一，标准化层用于对每个样本内部进行标准化，第一至第四编码层用于对输入的中间局部特征进行全局结构信息提取，并输出通道数相同而特征图大小不一致的特征向量；全局特征网络输出的特征向量经自适应平均池化处理后得到行人图像的全局特征； C：将步骤B中得到的行人图像的局部特征和全局特征在时间维度上分别作平均池化处理，得到最终的行人视频序列的局部特征和全局特征； D：利用步骤A中得到的经数据预处理后的训练集，对基于先验知识的视频行人再识别网络模型进行训练，最终得到训练后的基于先验知识的视频行人再识别网络模型； E：利用训练后的基于先验知识的视频行人再识别网络模型，对行人视频序列进行再识别，生成行人视频序列的局部特征和全局特征；然后通过对局部特征和全局特征施加不同的权重进行优化融合，得到融合后的视频序列的最终特征表示。 2.根据权利要求1所述的基于先验知识的视频行人再识别方法，其特征在于，所述的步骤A包括以下具体步骤： A1：获取基于视频的行人再识别数据集的训练集中的行人图像，并设定基于先验知识的视频行人再识别网络模型的输入图像总数m ×n，其中， m为每个批次向基于先验知识的视频行人再识别网络模型中输入的视频序列数， n为每个视频序列的视频帧中随机抽取的图像数量； A2：将所有输入图像的高和宽分别设定为25 6像素和128像素； A3：对步骤A 2中调整后的输入图像进行概率为0.5的随机水平翻转； A4：对步骤A3中随机水平翻转的输入图像进行归一化处理； A5：对步骤A4中归一化处理后的输入图像进行概率为0.5的随机擦除，最终得到预处理后的输入图像。 3.根据权利要求1所述的基于先验知识的视频行人再识别方法，其特征在于，所述的步骤B中：全局特征网络中每个编码层均包含编码器块，编码器块由标准化层、 MSA模块和一个具有GELU非线性单元的2层MLP组成，标准化层设置在每个MSA模块和每个MLP之前，在每个 MSA模块和每个MLP之后通过残差连接；第一编码层的编码器块前设置有线性嵌入层，第二至第四编码层的编码器块前均设置有面片合并层。 4.根据权利要求3所述的基于先验知识的视频行人再识别方法，其特征在于：所述的权　利　要　求　书 1/3 页 2 CN 115050050 A 2MSA模块将输入特征向量经一个线性层映射到查询向量Q、关键字向量K和值向量V三个空间，通过计算Q和K的点积得到Q和K的权重相关性矩阵，然后使用Softmax函数对权重进行归一化；最后将权重和相应的值向量进行加权求和得到最后的向量；自注意力机制的运算公式为：其中， Attention(Q,K,V)表示自注意力机制， Softmax为多分类归一化指数函数，为缩放因子，能够缓解由于Softmax函数引入的梯度消失问题， B为相对位置偏差矩阵。 5.根据权利要求4所述的基于先验知识的视频行人再识别方法，其特征在于：所述的步骤B中，在全局特征网络中利用W ‑MSA模块降低计算量，并利用SW ‑MSA模块实现不同窗口之间信息交流；每个编码层中编码器块的计算过程均为：其中， W‑MSA模块指基于常规窗口的MSA模块， SW ‑MSA模块指基于移位窗口的MSA模块，和分别表示 W‑MSA模块和SW ‑MSA模块对l的输出， zl和zl+1分别表示MLP模块对l的输出， LN表示标准化层。 6.根据权利要求1所述的基于先验知识的视频行人再识别方法，其特征在于：所述的步骤C中，分别将局部特征网络和全局特征网络输出的局部特征和全局特征，在第一个维度m ×n拆分为[m,n]后，对m个视频序列的n张行人图像作平均池化处理，得到最终的行人视频序列的局部特征和全局特征：其中， fl表示局部特征， fg表示全局特征， t表示图像序号， n表示某个视频序列的n张行人图像。 7.根据权利要求1所述的基于先验知识的视频行人再识别方法，其特征在于：所述的步骤D中，对局部特征网络和全局特征网络均使用相同的损失函数进行训练，损失函数采用困难三元组损失函数和标签平滑交叉熵损失函数。权　利　要　求　书 2/3 页 3 CN 115050050 A 3

专利 一种基于先验知识的视频行人再识别方法

专利一种基于先验知识的视频行人再识别方法