说明:最全电力标准
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211111428.4 (22)申请日 2022.09.13 (71)申请人 达而观科技 (北京) 有限公司 地址 100088 北京市海淀区知春路27号9层 907-911室 (72)发明人 邬默 昝云飞 徐红 纪传俊  纪达麒 陈运文  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 李礼 (51)Int.Cl. G06F 16/23(2019.01) G06F 16/22(2019.01) G06F 16/28(2019.01) G06K 9/62(2022.01) (54)发明名称 一种基于用户行为分析的搜索意图识别方 法、 装置及设备 (57)摘要 本发明公开了一种针对用户行为的分类模 型更新方法、 装置及设备。 包括: 获取原始分类模 型所对应的用户原表数据集和新增数据, 其中, 原表数据集中包含原始数据; 根据原表数据集和 新增数据获取新表数据集; 判断新表数据集的有 效性, 当确定新表数据集有效时获取新表数据集 中的有效字段, 根据有效字段更新原表数据集; 采用更新后的原表数据集对原始分类模型进行 更新。 通过 获取原始分类模型中的原表数据集和 新增数据建立新表数据集, 并且 可以通过筛选出 的有效字段增加分类模型的维度, 再采用更新后 的原表数据集对原始分类模型进行更新, 提升了 分类模型计算的准确性, 同时实现了分类模型的 迭代更新, 并且不需要人工干预, 进而节省了人 工成本。 权利要求书2页 说明书10页 附图4页 CN 115455019 A 2022.12.09 CN 115455019 A 1.一种针对用户行为的分类模型 更新方法, 其特 征在于, 包括: 获取原始分类模型所对应的用户原表数据集和新增数据, 其中, 所述原表数据集中包 含原始数据; 根据所述原 表数据集和所述 新增数据获取新表数据集; 判断所述新表数据集的有 效性, 当确定所述新表数据集有 效时获取所述新表数据集中 的有效字段, 根据所述有效字段 更新所述原 表数据集; 采用更新后的所述原 表数据集对所述原 始分类模型进行 更新。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述原表数据集和所述新增数据 获取新表数据集, 包括: 确定所述 新增数据中的新增字段; 对所述新增字段进行缺失值处 理得到第一处 理字段; 对所述第一处 理字段进行极值处 理或进行归一 化处理得到第二处 理字段; 将所述原 表数据集加上 所述第二处 理字段对应的新增数据作为所述 新表数据集。 3.根据权利要求2所述的方法, 其特征在于, 所述确定所述新增数据中的新增字段, 包 括: 获取所述新增数据中的全部 字段; 对所述全部 字段进行筛 选获得结构化字段, 并将所述结构化字段作为所述 新增字段。 4.根据权利要求2所述的方法, 其特征在于, 所述对所述新增字段进行缺失值处理得到 第一处理字段, 包括: 依次将各 所述新增字段作为目标字段; 判断所述目标字段对应的新增数据的缺失数据量与总数据量的比值是否大于第一预 设阈值, 若是, 将所述目标字段作为第一处 理字段, 否则, 将所述目标字段删除。 5.根据权利要求2所述的方法, 其特征在于, 所述对所述第 一处理字段进行极值处理或 进行归一 化处理得到第二处 理字段, 包括: 将所述第一处理字段对应的新增数据由小到大进行排列得到第 一处理集, 获取第 一处 理集中两个指定位置的差值或比值; 判断所述差值或比值是否小于第二预设阈值, 若是, 对所述第一处理字段进行极值处 理得到第二处 理字段, 否则, 对所述第一处 理字段进行归一 化处理得到第二处 理字段。 6.根据权利要求1所述的方法, 其特 征在于, 所述判断所述 新表数据集的有效性, 包括: 获取所述原表数据集和所述新表数据集的相关数据指标, 其中, 所述相关数据指标中 包含准确率、 召回率和接收者操作特 征曲线下 方面积; 计算所述原 表数据集和所述 新表数据集中各相同相关数据指标之间的差值; 判断所述差值是否满足预设条件, 若满足, 确定所述新表数据集有效, 否则, 确定所述 新表数据集无效。 7.根据权利要求6所述的方法, 其特征在于, 所述获取所述原表数据集和所述新表数据 集的相关数据指标, 包括: 将所述原表数据集和所述新表数据集分别划分成第 一数据集和第 二数据集, 并获取用 户输入的所述第一数据集和所述第二数据集的实际标签; 采用所述第一数据集和所述第一数据集的实际标签对所述原始分类模型进行训练得权 利 要 求 书 1/2 页 2 CN 115455019 A 2到训练分类模型; 通过所述训练分类模型对所述第 二数据集进行计算获得计算标签, 并计算所述实际标 签和所述计算标签的相关数据指标。 8.根据权利要求7所述的方法, 其特征在于, 所述当确定所述新表数据集有 效时获取所 述新表数据集中的有效字段, 根据所述有效字段 更新所述原 表数据集, 包括: 获取所述新表数据集和所述原 表数据集中的各字段的贡献度; 确定所述原表数据集中字段的最小贡献度, 将所述新表数据集中贡献度 大于所述最小 贡献度的字段作为所述有效字段; 将所述有效字段和所述有效字段对应的新增数据添加到所述原表数据集中对所述原 表数据集进行 更新。 9.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所 述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑8所述的方法。 10.一种计算机存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机指令, 所述计算机指令用于使处 理器执行时实现权利要求1 ‑8中所述的方法。权 利 要 求 书 2/2 页 3 CN 115455019 A 3

PDF文档 专利 一种基于用户行为分析的搜索意图识别方法、装置及设备

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于用户行为分析的搜索意图识别方法、装置及设备 第 1 页 专利 一种基于用户行为分析的搜索意图识别方法、装置及设备 第 2 页 专利 一种基于用户行为分析的搜索意图识别方法、装置及设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:42:51上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。