说明:最全电力标准
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111599923.X (22)申请日 2021.12.24 (71)申请人 江苏网进科技股份有限公司 地址 215300 江苏省苏州市昆山市玉山 镇 登云路288号 (72)发明人 罗磊 袁宁康  (74)专利代理 机构 苏州佳博知识产权代理事务 所(普通合伙) 32342 代理人 罗宏伟 (51)Int.Cl. H04L 9/40(2022.01) H04L 67/1097(2022.01) G06F 16/27(2019.01) G06F 16/901(2019.01) G06F 16/906(2019.01) (54)发明名称 一种基于 Kafka收集分布式系统数据链路的 方法 (57)摘要 本发明公开了一种基于Kafka收集分布式系 统数据链路的方法, 其包括如下步骤: 接入数据 及分类处理, 并对预设的数据传入Kafka动态主 题中; 根据Kafka动态主题, 对传入的数据进行分 发处理校验; 若通过格式校验, 数据回滚至分发 到Kafka数据动态主题, 然后再次供平台接入进 行数据消费, 在原数据异常节点进行重新操作, 再次根据校验消费组和对应设定的数据格式进 行数据判断, 通过校验, 则数据实现恢复。 精准的 选定出哪些需要回滚处理的数据, 提高数据处理 速度。 权利要求书1页 说明书3页 附图1页 CN 114301658 A 2022.04.08 CN 114301658 A 1.一种基于Kafka收集分布式系统数据链路的方法, 其特 征在于, 其包括如下步骤: 步骤S1: 接入数据及分类处 理, 并对预设的数据传入Kafka动态主题中; 步骤S2: 根据Kafka动态主题, 对传入的数据进行分发处 理校验; 其中, 首先定义所识别数据的校验消费组, 然后根据校验消费组和对应设定的数据格式进行 数据判断, 排除不需要进行数据异常校验的数据, 直接存储; 针对非排除的数据, 按照设定 的校验方式进行 校验, 若无法通过 校验, 则进行本地存 储, 并提醒需手动修改; 步骤S3: 若通过格式校验, 数据 回滚至分发到Kafka数据动态主题, 然后再次供平台接 入进行数据消费, 在原数据异常节点进行重新操作, 再次根据校验消费组和对应设定的数 据格式进行 数据判断, 通过 校验, 则数据实现恢复。 2.根据权利要求1所述的基于Kafka收集分布式系统数据链路的方法, 其特征在于, 上 述步骤S1中, 其包括: 步骤101, 根据获取的数据类型, 并按照设预设方式进行 数据分类统计; 步骤102, 对数据进行待处理标识, 对设定的其中一类或多类待处理标识数据生成识别 码传入平台; 步骤103, 把形成识别码的数据写入Kafka动态主题中。 3.根据权利要求2所述的基于Kafka收集分布式系统数据链路的方法, 其特征在于, 步 骤S102中, 将待处理的数据在数据处理的开始阶段传入平台开始标识, 根据开始标识生成 分布式通用唯一识别码返回给传入平台, 传入平台后续数据处理步骤的都需要把开始阶段 反馈的UUID传入, 用来后续形成完整链路信息进行展示 查看。权 利 要 求 书 1/1 页 2 CN 114301658 A 2一种基于Kafka收集分布式系统数据链路的方 法 技术领域 [0001]本发明涉及数据处理技术领域, 尤其涉及一种基于Kafka收集分布式系统数据链 路的方法。 背景技术 [0002]Kafka是一种高吞吐量 的分布式系统, 它可以处理消费者规模的网站中的所有动 作流数据。 这些数据通常是 由于吞吐量的要求而通过处理日志和日志 聚合来解决。 对于像 Hadoop的一样的日志数据和 离线分析系统, 但又要求实时处理的限制, 这是一个可行的解 决方案。 Kafka的目的是通过Hadoop(一种分布 式系统基础架构)的并行加载机制来统一线 上和离线的消息处理, 也是为了通过集群来提供实时的消费。 Kafka是一个分布式的, 可划 分的, 冗余备份的持久性的日志 服务, 它主要用于处理活跃的流式数据, 可以同时为 发布和 订阅提供高吞吐量, 因此, 越来越多的数据处 理, 通过Kafka收集分布式系统来处 理。 [0003]在数据处理过程中, 往往会出现数据异常丢失的现象, 与正常日志清理相比, 其表 现为不定时触发, 一触发丢失大量数据。 [0004]故, 有必要提出一种基于Kafka收集分布式系统数据链路的方法来 解决上述问题。 发明内容 [0005]针对上述提出的问题, 本发明目的在于提供一种基于Kafka收集分布式系统数据 链路的方法, 用以通过 数据完整性校验后进行异常处 理步骤回写数据。 [0006]为实现上述目的, 本 发明采用如下技术方案: 一种基于Kafka收集分布式系统数据 链路的方法, 其包括如下步骤: [0007]接入数据及分类处 理, 并对预设的数据传入Kafka动态主题中; [0008]根据Kafka动态主题, 对传入的数据进行分发处 理校验; 其中, [0009]首先定义所识别数据的校验消费组, 然后根据校验消费组和对应设定的数据格式 进行数据判断, 排除不需要进行数据异常校验的数据, 直接存储; 针对非排除的数据, 按照 设定的校验方式进行 校验, 若无法通过 校验, 则进行本地存 储, 并提醒需手动修改; [0010]若通过格式校验, 数据回滚至分发到Kafka数据动态主题, 然后再次供平台接入进 行数据消费, 在原数据异常节点进行重新操作, 再次根据校验消费组和对应设定的数据格 式进行数据判断, 通过 校验, 则数据实现恢复。 [0011]根据获取的数据类型, 并按照设预设方式进行 数据分类统计; [0012]对数据进行待处理标识, 对设定的其中一类或多类待处理标识数据生成识别码传 入平台; [0013]把形成识别码的数据写入Kafka动态主题中。 [0014]将待处理的数据在数据处理的开始阶段传入平台开始标识, 根据开始标识生成分 布式通用唯一识别码返回给传 入平台, 传 入平台后续数据处理步骤的都需要把开始阶段反 馈的UUID传入, 用来后续形成完整链路信息进行展示 查看。说 明 书 1/3 页 3 CN 114301658 A 3

.PDF文档 专利 一种基于Kafka收集分布式系统数据链路的方法

文档预览
中文文档 6 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于Kafka收集分布式系统数据链路的方法 第 1 页 专利 一种基于Kafka收集分布式系统数据链路的方法 第 2 页 专利 一种基于Kafka收集分布式系统数据链路的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:03:23上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。