(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211123879.X
(22)申请日 2022.09.15
(71)申请人 中国平安财产保险股份有限公司
地址 518000 广东省深圳市福田区益田路
5033号平安金融中心12、 13、 38、 39、 40
层
(72)发明人 吕泽
(74)专利代理 机构 深圳国新 南方知识产权代理
有限公司 4 4374
专利代理师 周雷
(51)Int.Cl.
G06F 16/215(2019.01)
G06F 16/23(2019.01)
(54)发明名称
数据清洗方法、 装置、 计算机设备及存储介
质
(57)摘要
本申请公开了一种数据 清洗方法, 应用于数
据处理技术领域。 本申请提供的方法包括: 获取
包含目标系统的目标数据库以及所述目标数据
库的目标数据表的目标数据清洗任务; 获取所述
目标系统的部署环境的数量; 根据所述部署环境
的数量以及所述部署环境的硬件资源性能拆分
所述目标数据清洗任务得到数据获取任务列表;
按照预设数据获取规则执行所述数据获取任务
加入待处理数据表集合; 根据所述目标数据清洗
任务中对所述目标数据表生成数据处理任务列
表; 执行所述数据处理任务列表中的数据处理任
务, 将被处理后的所述目标数据表作为待更新数
据表; 根据预设数据更新规则获取所述待更新数
据表, 并将所述待更新数据表更新至所述目标系
统的部署环境。
权利要求书3页 说明书10页 附图2页
CN 115481114 A
2022.12.16
CN 115481114 A
1.一种数据清洗方法, 其特 征在于, 包括:
获取目标数据清洗任务, 所述数据清洗任务包含目标系统的目标数据库, 以及所述目
标数据库的目标 数据表;
获取所述目标系统的所有部署环境, 每个所述部署环境中包含了所述目标数据库, 以
及所述目标 数据表;
生成数据获取任务列表, 所述数据获取任务列表是根据获取的所述部署环境的硬件资
源性能拆分所述目标 数据清洗任务得到的;
按照预设数据获取规则执行所述数据获取任务列表中的数据获取任务以获取所述目
标数据表, 并将获取的所述目标 数据表加入待处 理数据表集 合;
生成数据处理任务列表, 所述数据处理任务列表是根据 所述目标数据清洗任务中对所
述目标数据表的不同处 理方式生成的;
执行所述数据处理任务列表中的数据处理任务, 将被处理后的所述目标数据表作为待
更新数据表加入待更新数据表集 合;
根据预设数据 更新规则获取所述待更新数据表集合中的所述待更新数据表, 并将所述
待更新数据表更新至所述目标系统的所有部署环境。
2.根据权利要求1所述的数据清洗方法, 其特征在于, 所述获取目标数据清洗任务之前
还包括:
获取所述目标系统所包含的数据集, 所述数据集包含所述目标数据库以及所述目标数
据库的目标 数据表;
按照数据更新时间对所述数据集进行分区处 理;
生成被分区处 理后的所述数据集的数据操作时间索引。
3.根据权利要求1所述的数据清洗方法, 其特征在于, 所述获取所述目标系统的所有部
署环境, 包括:
获取所述目标系统 的正式环境的第 一环境数量, 以及所述目标系统 的灰度环境的第 二
环境数量, 所述部署环境包括所述 正式环境和所述灰度环境;
根据所述正式环境的硬件资源性能设置第 一访问频率, 根据所述灰度环境的硬件资源
性能设置第二访问频率;
配置所述正式环境和所述灰度环境的访问开关, 所述访问开关用于判断是否能从所述
访问开关对应的所述 正式环境或所述灰度环境获取 所述目标 数据表中的数据。
4.根据权利要求3所述的数据清洗方法, 其特征在于, 所述生成数据获取任务列表包
括:
分别获取所述第一环境数量的所述正式环境的硬件性能和所述第二环境数量的所述
灰度环境的硬件性能;
根据历史数据获取任务执行记录、 所述目标数据清洗任务中所包含的所述目标数据表
的数据量以及预设数据获取渠道设置规则, 获取满足硬件性能的所述正式环境和/或所述
灰度环境作为数据获取渠道 环境;
打开所述数据获取渠道环境的所述访问开关, 关闭其他不属于所述数据获取渠道环境
的所述正式环境和/或所述灰度环境的所述访问开关;
根据所述预设数据获取渠道设置规则将所述目标数据清洗任务对应拆分成数据获取权 利 要 求 书 1/3 页
2
CN 115481114 A
2子任务;
将所述数据获取子任务关联所述数据获取渠道环境, 并将所述数据获取子任务添加至
所述数据处 理任务列表。
5.根据权利要求2所述的数据清洗方法, 其特征在于所述按照预设数据获取规则执行
所述数据获取任务列表中的数据获取任务以获取 所述目标 数据表包括:
获取所述数据操作时间索引中最 早的数据操作时间作为初始时间;
将所述初始时间作为第 一时间范围的开始时间, 将所述第 一时间范围的开始时间与 预
设时间跨度的和作为所述第一时间范围的结束时间;
从所述目标 数据表中获取 数据操作时间在所述第一时间范围内的数据;
每次成功获取数据后将所述第一时间范围的开始时间和结束时间分别加上所述预设
时间以对所述第一时间范围进 行更新, 再使用更新后的所述第一时间范围获取所述目标数
据表中的数据, 直至所述目标 数据表中的数据都被获取。
6.根据权利要求5所述的数据清洗方法, 其特征在于, 所述从所述目标数据表中获取数
据操作时间在所述第一时间范围内的数据之后还 包括:
记录从所述目标数据表中获取数据操作时间在所述第一时间范围内的数据的第一耗
时;
判断所述第一耗时是否在预设时间调整范围内, 若在, 则根据预设时间调整规则调整
所述预设时间跨度。
7.一种数据清洗装置, 其特 征在于, 包括:
数据清洗任务获取模块, 用于获取目标数据清洗任务, 所述数据清洗任务包含目标系
统的目标 数据库, 以及所述目标 数据库的目标 数据表;
部署环境获取模块, 用于获取所述目标系统的所有部署环境, 每个所述部署环境中包
含了所述目标 数据库, 以及所述目标 数据表;
数据获取任务模块, 用于生成数据获取任务列表, 所述数据获取任务列表是根据获取
的所述部署环境的硬件资源性能拆分所述目标 数据清洗任务得到的;
数据获取执行模块, 用于按照预设数据获取规则执行所述数据获取任务列表中的数据
获取任务以获取 所述目标 数据表, 并将获取的所述目标 数据表加入待处 理数据表集 合;
数据处理任务模块, 用于生成数据处理任务列表, 所述数据处理任务列表是根据所述
目标数据清洗任务中对所述目标 数据表的不同处 理方式生成的;
数据处理执行模块, 用于执行所述数据处理任务列表中的数据处理任务, 将被处理后
的所述目标 数据表作为待更新数据表加入待更新数据表集 合;
数据更新模块, 用于根据预设数据 更新规则获取所述待更新数据表集合中的所述待更
新数据表, 并将所述待更新数据表更新至所述目标系统的所有部署环境。
8.根据权利要求7 所述的数据清洗装置, 其特 征在于,
数据集获取子模块, 用于获取所述目标系统所包含的数据集, 所述数据集包含所述目
标数据库以及所述目标 数据库的目标 数据表;
数据分区处 理子模块, 用于按照数据更新时间对所述数据集进行分区处 理;
数据索引生成子模块, 用于生成被分区处 理后的所述数据集的数据操作时间索引。
9.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器权 利 要 求 书 2/3 页
3
CN 115481114 A
3
专利 数据清洗方法、装置、计算机设备及存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-07 12:42:51上传分享