说明:最全电力标准
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211116817.6 (22)申请日 2022.09.14 (71)申请人 北京海泰方圆科技股份有限公司 地址 100094 北京市海淀区东北旺西路8号 中关村软件园9 号楼国际软件大厦E座 一层、 二层 (72)发明人 张阳 刘雪梅 胡伯良 (74)专利代理 机构 北京科慧致远知识产权代理 有限公司 1 1739 专利代理师 赵红凯 (51)Int.Cl. G06F 16/23(2019.01) G06F 16/245(2019.01) G06K 9/62(2022.01) (54)发明名称 查重向量库更新、 数据查重方法、 装置、 设备 和介质 (57)摘要 本申请实施例提供了一种查重向量库更新、 数据查重方法、 装置、 计算机设备和存储介质, 涉 及数据处理领域。 该查重向量库更新方法包括: 从当前查重向量库中对待查向量数据进行查重 检索, 得到与所述待查向量数据的相似度大于预 设阈值的多个相似向量数据; 其中, 所述当前查 重向量库中包括多个数据类别, 每个所述数据类 别中包含初始向量数据以及基于所述初始向量 数据新增的新增向量数据; 分别确定各所述相似 向量数据在所述当前查重向量库中所属数据类 别, 得到多个目标类别; 将各所述目标类别中的 新增向量数据更新为所述待查向量数据, 得到新 的查重向量库。 解决了目前的在 线数据查重效果 均较差的技术问题, 达到了提高在线查重效果的 目的。 权利要求书2页 说明书11页 附图3页 CN 115544033 A 2022.12.30 CN 115544033 A 1.一种查重向量库更新方法, 其特 征在于, 包括: 从当前查重向量库中对待查向量数据进行查重检索, 得到与 所述待查向量数据的相似 度大于预设阈值的多个相似向量数据; 其中, 所述当前查重向量库中包括多个数据类别, 每 个所述数据类别中包 含初始向量数据以及基于所述初始向量数据新增的新增向量数据; 分别确定各所述相似向量数据在所述当前查重向量库中所属数据类别, 得到多个目标 类别; 将各所述目标类别中的新增向量数据更新为所述待查向量数据, 得到新的查重向量 库。 2.根据权利要求1所述的查重向量库 更新方法, 其特征在于, 在所述从当前查重向量库 中对待查向量数据进 行查重检索, 得到与所述待查向量数据的相似度大于预设阈值的多个 相似向量数据之前, 所述方法还 包括: 对初始查重向量库中的各所述初始向量数据进行聚类处理, 得到多个初始类别集合; 其中, 每个所述初始类别集 合中包含多个所述初始向量数据; 针对每个所述初始类别集合中的所述多个初始向量数据分别进行数据增强处理, 得到 多个所述 新增向量数据; 对多个所述新增向量数据与 所有的所述初始向量数据重新进行聚类处理, 得到多个新 的类别集 合; 基于所述 新的类别集 合中的各向量数据生成所述当前查重向量库。 3.根据权利要求2所述的查重向量库 更新方法, 其特征在于, 在所述基于所述新的类别 集合中的各向量数据生成所述当前查重向量库之前, 所述方法还 包括: 确定所述多个新的类别集合的新的层次数量、 新的集合数量, 以及各所述新的类别集 合中向量数据的新的数据数量; 对应地, 所述基于所述新的类别集合中的各向量数据生成 所述当前查重向量库, 包括: 若所述新的层次数量与所述多个初始类别集合的初始层次数量相同, 且所述多个新的 类别集合的新的集合数量与所述多个初始类别集合的初始集合数量的比值小于预设比值, 则基于所述 新增向量数据对所述初始查重向量库进行 更新, 得到所述当前查重向量库。 4.根据权利要求2所述的查重向量库 更新方法, 其特征在于, 所述基于所述新的类别集 合中的各向量数据生成所述当前查重向量库, 还 包括: 若所述多个新的类别集合的所述新的集合数量与所述多个初始类别集合的所述初始 集合数量的比值不小于预设比值, 则调整对每个所述初始类别集合中的所述多个初始向量 数据分别进行 数据增强处 理的增强参数; 重新确定新的新增向量数据, 直至所述新的新增向量数据与 所述初始向量数据的比值 小于所述预设比值, 则基于所述新的新增向量数据对所述初始查重 向量库进行更新, 得到 所述当前查重向量库。 5.根据权利要求2所述的查重向量库 更新方法, 其特征在于, 所述针对每个所述初始类 别集合中的所述多个初始向量数据分别进行 数据增强处 理, 得到多个新增向量数据, 包括: 针对每个所述初始类别集合, 根据 预设的增强比例与 所述初始类别集合中所述初始向 量数据的总数量计算所述初始类别集 合中需要进行数据增强的增强数量; 针对每个所述初始类别集合, 对所述初始类别集合中的所述初始向量数据进行数据增权 利 要 求 书 1/2 页 2 CN 115544033 A 2强处理, 得到所述增强数量的所述 新增向量数据。 6.一种数据查重方法, 其特 征在于, 包括: 对待查数据进行向量 化处理, 得到待查向量数据; 从新的查重向量库中对所述待查向量数据进行查重检索, 得到与所述待查向量数据的 相似度大于预设阈值的多个相似向量数据; 其中, 所述新的查重 向量库是根据如权利要求 1‑5任一项所述的查重向量库更新方法对当前查重向量库进行 更新得到的。 7.一种查重向量库更新装置, 其特 征在于, 包括: 第一查重模块, 用于从当前查重向量库中对待查向量数据进行查重检索, 得到与所述 待查向量数据的相似度大于预设阈值的多个相似向量数据; 其中, 所述当前查重 向量库中 包括多个数据类别, 每个所述数据类别中包含初始向量数据以及基于所述初始向量数据新 增的新增向量数据; 确定模块, 用于分别确定各所述相似向量数据在所述当前查重向量库中所属数据类 别, 得到多个目标类别; 更新模块, 用于将各所述目标类别 中的新增向量数据更新为所述待查向量数据, 得到 新的查重向量库。 8.一种数据查重装置, 其特 征在于, 包括: 处理模块, 用于对待查数据进行向量 化处理, 得到待查向量数据; 第二查重模块, 用于从新的查重向量库中对所述待查向量数据进行查重检索, 得到与 所述待查向量数据的相似度大于预设阈值的多个相似向量数据; 其中, 所述新的查重 向量 库是根据如上权利要求 1‑5任一项所述的查重向量库更新方法对当前查重向量库进 行更新 得到的。 9.一种计算机设备, 包括: 包括存储器和 处理器, 所述存储器存储有计算机程序, 其特 征在于, 所述处 理器执行所述计算机程序时实现权利要求1至 6中任一项所述方法的步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至 6中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115544033 A 3
专利 查重向量库更新、数据查重方法、装置、设备和介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-07 12:42:51
上传分享
举报
下载
原文档
(624.2 KB)
分享
友情链接
GB-T 28827.3-2012 信息技术服务 运行维护 第3部分:应急响应规范.pdf
GB-T 20270-2006 信息安全技术 网络基础安全技术要求.pdf
DB32-T 3614-2019 工贸企业安全风险管控基本规范 江苏省.pdf
信通院 数据治理标准化白皮书 2021.pdf
DL-T 2021-2019 抽水蓄能机组设备监造导则.pdf
全知科技数据安全治理之数据安全风险评估白皮书.pdf
T-GDNS 001—2020 广东省网络安全等级保护专家库管理规范.pdf
NY-T 2539-2014 农村土地承包经营权确权登记数据库规范.pdf
GB-T 36630.4-2018 信息安全技术 信息技术产品安全可控评价指标 第4部分:办公套件.pdf
爱分析 2023大模型厂商全景报告 .pdf
GB-T 29352-2012 物证检验照相录像规则.pdf
NB-T 10869—2021 水电工程移民安置生活污水处理技术规范.pdf
360 2022智能网联汽车信息安全研究报告.pdf
GB-T 43048-2023 智慧城市 城市运行指标体系 总体框架.pdf
GB-T 10067.31-2013 电热装置基本技术条件 第31部分:中频无心感应炉.pdf
GB-T 40909-2021 纺织品 甲基环硅氧烷残留量的测定.pdf
T-CEC 691—2022 故障录波及行波测距一体化装置技术规范.pdf
JCT 2743-2022 平板玻璃生产企业节能技术指南.pdf
GB-T 37681-2019 大型铸钢件 通用技术规范.pdf
T-ZZB 0334—2018 电子驻车 EPB 制动钳总成.pdf
1
/
17
评价文档
赞助2.5元 点击下载(624.2 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。