说明:最全电力标准
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211116817.6 (22)申请日 2022.09.14 (71)申请人 北京海泰方圆科技股份有限公司 地址 100094 北京市海淀区东北旺西路8号 中关村软件园9 号楼国际软件大厦E座 一层、 二层 (72)发明人 张阳 刘雪梅 胡伯良  (74)专利代理 机构 北京科慧致远知识产权代理 有限公司 1 1739 专利代理师 赵红凯 (51)Int.Cl. G06F 16/23(2019.01) G06F 16/245(2019.01) G06K 9/62(2022.01) (54)发明名称 查重向量库更新、 数据查重方法、 装置、 设备 和介质 (57)摘要 本申请实施例提供了一种查重向量库更新、 数据查重方法、 装置、 计算机设备和存储介质, 涉 及数据处理领域。 该查重向量库更新方法包括: 从当前查重向量库中对待查向量数据进行查重 检索, 得到与所述待查向量数据的相似度大于预 设阈值的多个相似向量数据; 其中, 所述当前查 重向量库中包括多个数据类别, 每个所述数据类 别中包含初始向量数据以及基于所述初始向量 数据新增的新增向量数据; 分别确定各所述相似 向量数据在所述当前查重向量库中所属数据类 别, 得到多个目标类别; 将各所述目标类别中的 新增向量数据更新为所述待查向量数据, 得到新 的查重向量库。 解决了目前的在 线数据查重效果 均较差的技术问题, 达到了提高在线查重效果的 目的。 权利要求书2页 说明书11页 附图3页 CN 115544033 A 2022.12.30 CN 115544033 A 1.一种查重向量库更新方法, 其特 征在于, 包括: 从当前查重向量库中对待查向量数据进行查重检索, 得到与 所述待查向量数据的相似 度大于预设阈值的多个相似向量数据; 其中, 所述当前查重向量库中包括多个数据类别, 每 个所述数据类别中包 含初始向量数据以及基于所述初始向量数据新增的新增向量数据; 分别确定各所述相似向量数据在所述当前查重向量库中所属数据类别, 得到多个目标 类别; 将各所述目标类别中的新增向量数据更新为所述待查向量数据, 得到新的查重向量 库。 2.根据权利要求1所述的查重向量库 更新方法, 其特征在于, 在所述从当前查重向量库 中对待查向量数据进 行查重检索, 得到与所述待查向量数据的相似度大于预设阈值的多个 相似向量数据之前, 所述方法还 包括: 对初始查重向量库中的各所述初始向量数据进行聚类处理, 得到多个初始类别集合; 其中, 每个所述初始类别集 合中包含多个所述初始向量数据; 针对每个所述初始类别集合中的所述多个初始向量数据分别进行数据增强处理, 得到 多个所述 新增向量数据; 对多个所述新增向量数据与 所有的所述初始向量数据重新进行聚类处理, 得到多个新 的类别集 合; 基于所述 新的类别集 合中的各向量数据生成所述当前查重向量库。 3.根据权利要求2所述的查重向量库 更新方法, 其特征在于, 在所述基于所述新的类别 集合中的各向量数据生成所述当前查重向量库之前, 所述方法还 包括: 确定所述多个新的类别集合的新的层次数量、 新的集合数量, 以及各所述新的类别集 合中向量数据的新的数据数量; 对应地, 所述基于所述新的类别集合中的各向量数据生成 所述当前查重向量库, 包括: 若所述新的层次数量与所述多个初始类别集合的初始层次数量相同, 且所述多个新的 类别集合的新的集合数量与所述多个初始类别集合的初始集合数量的比值小于预设比值, 则基于所述 新增向量数据对所述初始查重向量库进行 更新, 得到所述当前查重向量库。 4.根据权利要求2所述的查重向量库 更新方法, 其特征在于, 所述基于所述新的类别集 合中的各向量数据生成所述当前查重向量库, 还 包括: 若所述多个新的类别集合的所述新的集合数量与所述多个初始类别集合的所述初始 集合数量的比值不小于预设比值, 则调整对每个所述初始类别集合中的所述多个初始向量 数据分别进行 数据增强处 理的增强参数; 重新确定新的新增向量数据, 直至所述新的新增向量数据与 所述初始向量数据的比值 小于所述预设比值, 则基于所述新的新增向量数据对所述初始查重 向量库进行更新, 得到 所述当前查重向量库。 5.根据权利要求2所述的查重向量库 更新方法, 其特征在于, 所述针对每个所述初始类 别集合中的所述多个初始向量数据分别进行 数据增强处 理, 得到多个新增向量数据, 包括: 针对每个所述初始类别集合, 根据 预设的增强比例与 所述初始类别集合中所述初始向 量数据的总数量计算所述初始类别集 合中需要进行数据增强的增强数量; 针对每个所述初始类别集合, 对所述初始类别集合中的所述初始向量数据进行数据增权 利 要 求 书 1/2 页 2 CN 115544033 A 2强处理, 得到所述增强数量的所述 新增向量数据。 6.一种数据查重方法, 其特 征在于, 包括: 对待查数据进行向量 化处理, 得到待查向量数据; 从新的查重向量库中对所述待查向量数据进行查重检索, 得到与所述待查向量数据的 相似度大于预设阈值的多个相似向量数据; 其中, 所述新的查重 向量库是根据如权利要求 1‑5任一项所述的查重向量库更新方法对当前查重向量库进行 更新得到的。 7.一种查重向量库更新装置, 其特 征在于, 包括: 第一查重模块, 用于从当前查重向量库中对待查向量数据进行查重检索, 得到与所述 待查向量数据的相似度大于预设阈值的多个相似向量数据; 其中, 所述当前查重 向量库中 包括多个数据类别, 每个所述数据类别中包含初始向量数据以及基于所述初始向量数据新 增的新增向量数据; 确定模块, 用于分别确定各所述相似向量数据在所述当前查重向量库中所属数据类 别, 得到多个目标类别; 更新模块, 用于将各所述目标类别 中的新增向量数据更新为所述待查向量数据, 得到 新的查重向量库。 8.一种数据查重装置, 其特 征在于, 包括: 处理模块, 用于对待查数据进行向量 化处理, 得到待查向量数据; 第二查重模块, 用于从新的查重向量库中对所述待查向量数据进行查重检索, 得到与 所述待查向量数据的相似度大于预设阈值的多个相似向量数据; 其中, 所述新的查重 向量 库是根据如上权利要求 1‑5任一项所述的查重向量库更新方法对当前查重向量库进 行更新 得到的。 9.一种计算机设备, 包括: 包括存储器和 处理器, 所述存储器存储有计算机程序, 其特 征在于, 所述处 理器执行所述计算机程序时实现权利要求1至 6中任一项所述方法的步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至 6中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115544033 A 3

PDF文档 专利 查重向量库更新、数据查重方法、装置、设备和介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 查重向量库更新、数据查重方法、装置、设备和介质 第 1 页 专利 查重向量库更新、数据查重方法、装置、设备和介质 第 2 页 专利 查重向量库更新、数据查重方法、装置、设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:42:51上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。