(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210965335.1
(22)申请日 2022.08.12
(71)申请人 茂名市云计算研究院
地址 525000 广东省茂名市高凉中路6号大
院中海大厦15 01-1503号房
(72)发明人 黄勤 庾明超
(51)Int.Cl.
H04L 67/1097(2022.01)
H04L 67/10(2022.01)
G06F 16/906(2019.01)
G06F 16/27(2019.01)
G06F 16/23(2019.01)
G06F 16/215(2019.01)
G06F 11/14(2006.01)
(54)发明名称
一种基于云计算的大数据信息处理方法和
系统
(57)摘要
本发明公开了一种基于云计算的大数据信
息处理方法和系统, 属于大数据信息处理技术领
域, 包括数据采集模块、 数据通道模块和数据云
端存储模块, 所述数据通道模块与数据采集模块
双向电性连接, 数据采集模块的输出端与数据云
端存储模块的输入端电性连接, 数据云端存储模
块的输出端与云计算模块的输入端电性连接。 本
发明中, 通过设置数据采集模块和数据通道模
块, 数据通道模块分别为多个不同的数据采集端
口, 而数据采集模块根据不同的数据采集端口采
集到大量不同的数据, 并将大量数据输送到数据
云端存储模块内存储起来, 而采集方向更改模块
能够更改数据采集模块从何种通道采集数据, 以
及在何种时间增大或降低采集量, 能够有效降低
数据采集重复率。
权利要求书1页 说明书5页 附图2页
CN 115361402 A
2022.11.18
CN 115361402 A
1.一种基于云计算的大数据信息处理方法和系统, 包括数据采集模块、 数据通道模块
和数据云端存储模块, 其特征在于, 所述数据通道模块与数据采集模块双向电性连接, 数据
采集模块的输出端与数据云端存储模块的输入端电性连接, 数据云端存储模块的输出端与
云计算模块的输入端电性连接, 云计算模块的输出端与重复数据筛选模块的输入端电性连
接, 重复数据筛选模块的输出端与重复数据删除模块的输入端电性连接, 重复数据筛选模
块的输出端与重复数据率计算模块的输入端电性连接, 重复数据率计算模块的输出端与数
据重复率表制作模块的输入端电性连接, 数据重复率表制作模块的输出端与数据公布模块
的输入端电性连接 。
2.根据权利要求1所述的一种基于云计算的大数据信 息处理方法和系统, 其特征在于,
所述数据公布模块的输出端与重复率高时段检测模块的输入端电性连接, 重复率高时段检
测模块的输出端与采集方向更改模块的输入端电性连接, 采集方向更改模块的输出端与数
据采集模块的输入端电性连接 。
3.根据权利要求1所述的一种基于云计算的大数据信 息处理方法和系统, 其特征在于,
所述云计算模块包括采集数据分类模块、 多通道传输模块、 云储存空间分割模块和数据备
份模块。
4.根据权利要求3所述的一种基于云计算的大数据信 息处理方法和系统, 其特征在于,
所述采集数据分类模块的输出端与多通道传输模块的输入端电性连接, 多通道传输模块的
输出端与云储 存空间分隔模块的输入端电性连接 。
5.根据权利要求4所述的一种基于云计算的大数据信 息处理方法和系统, 其特征在于,
所述数据备份模块的输出端与云储 存空间分隔模块的输入端电性连接 。
6.根据权利要求1所述的一种基于云计算的大数据信 息处理方法和系统, 其特征在于,
所述数据公布模块包括市场公布数据采集模块、 数据对比模块、 重复数据信息上传 模块、 数
据总量占比计算模块和正常数据信息上传模块。
7.根据权利要求6所述的一种基于云计算的大数据信 息处理方法和系统, 其特征在于,
所述市场公布数据采集模块的输出端与数据对比模块的输入端电性连接, 重复数据信息上
传模块的输出端与数据对比模块的输入端电性连接 。
8.根据权利要求7所述的一种基于云计算的大数据信 息处理方法和系统, 其特征在于,
所述数据对比模块的输出端与数据总量占比计算模块的输入端电性连接, 正常数据信息上
传模块的输出端与数据总量占比计算模块的输入端电性连接 。权 利 要 求 书 1/1 页
2
CN 115361402 A
2一种基于云计算的大数据信息处理 方法和系统
技术领域
[0001]本发明属于大数据信息处理技术领域, 尤其涉及 一种基于云计算的大数据信息处
理方法和系统。
背景技术
[0002]大数据技术的战略意义不在于掌握庞大的数据信息, 而在于对这些含有意义的数
据进行专业化处理。 换而言之, 如果把大数据比作一种产业, 那么这种产业实现盈利的关
键, 在于提高对数据的 “加工能力”, 通过“加工”实现数据的 “增值”, 从技术上看, 大数据与
云计算的关系就像一枚硬币的正反面一样密不可分。 大数据必然 无法用单台的计算机进 行
处理, 必须采用分布式架构 。 它的特色在于对海量数据进行分布式数据挖掘。 但它必须依 托
云计算的分布式处理、 分布式数据库和云存储、 虚拟化技术, 大数据需要特殊的技术, 以有
效地处理大量的容忍经过时间内的数据。 适用于大数据的技术, 包括大规模并行 处理(MPP)
数据库、 数据挖掘、 分布式文件系统、 分布式数据库、 云计算平台、 互联网和可扩展的存储系
统。
[0003]大数据采集信息一般都是从多个渠道进行收集的, 这样会导致收集的数据不可避
免的出现重复的情况, 而重复的数据一般都会被筛选并删除掉, 数据无法得到有效利用, 因
而无法很好的提高数据采集效率, 导致花费大量时间采集的数据重复率较高, 影响数据的
及时更新公布。
发明内容
[0004]本发明的目的在于: 为了解决大数据采集信息一般都是从多个渠道进行收集的,
这样会导致收集的数据不可避免的出现重复的情况, 而重复的数据一般都会被筛选并删除
掉, 数据无法得到有效利用, 因而 无法很好的提高数据采集效率, 导致花费大量时间采集的
数据重复率较高, 影响数据的及时更新公布的问题, 而提出 的一种基于云计算的大数据信
息处理方法和系统。
[0005]为了实现上述目的, 本发明采用了如下技 术方案:
[0006]一种基于云计算的大数据信息处理方法和系统, 包括数据采集模块、 数据通道模
块和数据云端存储模块, 所述数据通道模块与数据采集模块双向电性连接, 数据采集模块
的输出端与数据云端存储模块的输入端电性连接, 数据云端存储模块的输出端与云计算模
块的输入端电性连接, 云计算模块的输出端与重复数据筛选模块的输入端电性连接, 重复
数据筛选模块的输出端与重复数据删除模块的输入端电性连接, 重复数据筛选模块的输出
端与重复数据率计算模块的输入端电性连接, 重复数据率计算模块的输出端与数据重复率
表制作模块的输入端电性连接, 数据重复率表制作模块的输出端与数据公布模块的输入端
电性连接 。
[0007]作为上述 技术方案的进一 步描述:
[0008]所述数据公布模块的输出端与重复率高时段检测模块的输入端电性连接, 重复率说 明 书 1/5 页
3
CN 115361402 A
3
专利 一种基于云计算的大数据信息处理方法和系统
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-07 12:43:01上传分享