说明:最全电力标准
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211248926.3 (22)申请日 2022.10.12 (71)申请人 北京金堤科技有限公司 地址 100086 北京市海淀区知春路6 5号院1 号楼B座20层20 01号 (72)发明人 李凯 (74)专利代理 机构 北京市浩天知识产权代理事 务所(普通 合伙) 11276 专利代理师 宋菲 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/338(2019.01) G06F 16/35(2019.01) G06F 40/258(2020.01) G06F 40/295(2020.01) (54)发明名称 企业名单信息获取方法、 装置、 存储介质和 电子设备 (57)摘要 本发明提供了一种企业名单信息获取方法、 装置、 存储介质和电子设备, 其中, 该方法包括: 获取舆情数据的标题, 判断所述标题中是否存在 预设关键词信息, 若是, 则对所述舆情数据的舆 情正文进行预处理; 根据标题和预处理后的舆情 正文获取目标数据, 所述目标数据包括: 列入负 面企业名单的企业、 名单发布机构、 列入名单时 间和惩戒类型中的一项或多项; 将获取的所述目 标数据作为企业名单信息。 通过使用上述步骤对 舆情数据中的企业名单信息进行抽取, 可以有效 地过滤掉无效信息, 并获得 企业名单关键的四个 维度信息: 时间、 机构、 公司和类型, 直接提供给 用户结构化的信息, 降低了用户对于繁杂的舆情 数据的阅读成本 。 权利要求书2页 说明书12页 附图2页 CN 115357688 A 2022.11.18 CN 115357688 A 1.一种企业名单信息获取 方法, 其特 征在于, 所述方法包括: 获取舆情数据的标题, 判断所述标题中是否存在预设关键词信 息, 若是, 则对所述舆情 数据的舆情正文 进行预处理; 根据标题和预处理后的舆情正文获取目标数据, 所述目标数据包括: 列入负面企业名 单的企业、 名单发布机构、 列入名单时间和惩戒类型中的一项或多 项; 将获取的所述目标 数据作为企业名单信息 。 2.根据权利要求1所述的企业名单信 息获取方法, 其特征在于, 所述预设关键词信 息包 括预设的对应于负面企业名单的负面关键词信息和预设的对应于正面企业名单的正面关 键词信息, 所述根据标题和预处 理后的舆情正文获取目标 数据, 包括: 遍历预处理后的舆情正文中的各个语句, 并在其中提取出包含负面关键词信 息且不包 含正面关键词信息的第一类目标语句; 从第一类目标语句中提取企业实体信 息, 基于提取到的企业实体信 息确定列入负面企 业名单的企业。 3.根据权利要求2所述的企业名单信 息获取方法, 其特征在于, 若未能提取出第 一类目 标语句, 或第一类目标语句中未能提取 出企业实体信息, 则执 行以下步骤: 在预处理后的舆情正文中, 分别确定正面关键词信息、 负面关键词信息和企业实体的 定位信息; 将所述正面关键词信 息、 所述负面关键词信 息和所述企业实体各自的定位信 息从前向 后进行排序, 得到目标 数组; 根据所述目标数组中的负面关键词信息的定位信息与所述企业实体的定位信息的相 对位置, 确定列入负面企业名单的企业。 4.根据权利要求3所述的企业名单信 息获取方法, 其特征在于, 所述在预处理后的舆情 正文中, 分别确定正面关键词信息、 负面关键词信息和企业 实体的定位信息, 将所述正面关 键词信息、 所述负面关键词信息和所述企业实体各自的定位信息从前向后进行排序, 得到 目标数组, 包括: 分别确定正面关键词的首字符和负面关键词的首字符在预处理后的舆情正文中的第 一类定位信息, 将各个所述第一类定位信息从前到后进行排序, 得到初始数组; 对所述预处 理后的舆情正文 进行实体识别, 得到其中包 含的企业实体; 分别确定各个所述企业实体的首字符在预处 理后的舆情正文中的第二类定位信息; 将所述第二类定位信 息插入所述初始数组中, 使所述初始数组中的各个定位信 息从前 到后排序, 得到目标 数组。 5.根据权利要求1所述的企业名单信 息获取方法, 其特征在于, 所述根据标题和预处理 后的舆情正文获取目标 数据, 包括: 在所述舆情正文的开头的第 一预设数量个字符和末尾的第 二预设数量个字符中, 使用 命名实体识别的方式提取其中的日期实体和机构实体, 分别作为所述列入名单时间和所述 名单发布机构。 6.根据权利要求1所述的企业名单信 息获取方法, 其特征在于, 所述根据标题和预处理 后的舆情正文获取目标 数据, 包括:权 利 要 求 书 1/2 页 2 CN 115357688 A 2将所述标题和所述舆情正文的开头的第三预设数量个字符输入预先训练的分类模型 中, 基于所述分类模型的输出 结果确定所述目标 数据中的惩戒类型。 7.根据权利要求5所述的企业名单信 息获取方法, 其特征在于, 若使用命名实体识别的 方式未能提取到其中的日期实体和机构实体, 则执 行以下步骤: 从所述舆情数据中提取 出所述舆情数据的来源数据地址; 从所述来源数据地址采集原始正文, 从所述原始正文中提取日期实体和机构实体, 分 别作为所述列入名单时间和所述名单发布机构。 8.根据权利要求7所述的企业名单信 息获取方法, 其特征在于, 所述从所述舆情数据中 提取出所述舆情数据的来源数据地址, 包括: 根据第一预设匹配规则, 提取 所述舆情数据中的所有链接; 遍历所提取 出的链接, 解析 出每个链接对应的链接数据的链接数据标题; 筛选出大于或者 等于预设标题字符数量的链接数据标题作为第一相似标题; 获取所述舆情数据的标题, 并根据所述舆情数据的标题和第一相似标题, 从第一相似 标题中筛 选出第二相似标题, 并将其对应的链接数据作为相似数据; 获取所述舆情数据的文本 内容以及相似数据的文本内容, 计算所述舆情数据的文本 内 容与相似数据的文本内容的文本相似度, 并将文本相似度最高的相似数据的地址作为所述 舆情数据的来源数据地址 。 9.根据权利要求8所述的方法, 其特征在于, 若所述舆情数据中不存在所述链接, 或者 所述链接数据中不存在所述相似数据, 所述方法还 包括: 若不存在, 确定所述舆情数据不存在所述 来源数据地址; 或者, 若不存在, 将所述舆情数据的标题转发至目标搜索引擎进行搜索操作, 得到至少 一个搜索结果链接; 获取所述搜索结果链接对应的链接数据的文本 内容, 计算所述舆情数据的文本内容与 所述链接数据的文本内容的文本相似度, 并将文本相似度最高的链接数据的地址作为所述 舆情数据的来源数据地址 。 10.一种企业名单信息获取装置, 其特 征在于, 所述装置包括: 预处理模块, 用于获取舆情数据的标题, 判断所述标题中是否存在预设关键词信 息, 若 是, 则对所述舆情数据的舆情正文 进行预处理; 目标数据获取模块, 用于根据标题和预处理后的舆情正文获取目标数据, 所述目标数 据包括: 列入负面 企业名单的企业、 名单发布机构、 列入名单时间和惩戒类型中的一项或多 项; 企业名单信息获取模块, 用于将获取的所述目标 数据作为企业名单信息 。 11.一种电子设备, 其特 征在于, 所述电子设备包括: 处理器; 用于存储所述处 理器可执行指令的存 储器; 所述处理器, 用于从所述存储器中读取所述可执行指令, 并执行所述可执行指令以实 现上述权利要求1 ‑9中任一项所述的方法。 12.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机程 序, 所述计算机程序用于执 行上述权利要求1 ‑9中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115357688 A 3
专利 企业名单信息获取方法、装置、存储介质和电子设备
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助1元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1元下载
本文档由 SC 于
2024-02-24 00:45:06
上传分享
举报
下载
原文档
(476.6 KB)
分享
友情链接
信通院 应用程序接口-API数据安全研究报告-2020年.pdf
GB-T 35397-2017 科技人才元数据元素集.pdf
GB-T 31914-2015 电子文件管理系统建设指南.pdf
GB-T 35536-2017 酵母浸出粉检测方法.pdf
T-LYCY 018—2020 文冠果油.pdf
GB-T 39786-2021 信息安全技术 信息系统密码应用基本要求.pdf
JY-T 0580-2020 元素分析仪分析方法通则.pdf
GM-T 0067-2019 基于数字证书的身份鉴别接口规范.pdf
T-GZBD 10—2022 大数据容灾备份建设指南.pdf
GB-T 38671-2020 信息安全技术 远程人脸识别系统技术要求.pdf
GB-T 21369-2008 火力发电企业能源计量器具配备和管理要求.pdf
GB-T 19228.3-2012 不锈钢卡压式管件组件 第3部分: O形橡胶密封圈.pdf
GB-T 31595-2015 公共安全 业务连续性管理体系 指南.pdf
GB-T 33817-2017 铜及铜合金管材内表面碳含量的测定方法.pdf
GB-T 22026-2008 气雾剂级丙烷 A-108.pdf
T-WSJD 29—2022 化妆品安全评估 毒理学关注阈值法.pdf
GB-T 38360-2019 裸露坡面植被恢复技术规范.pdf
T-CIAPS 0031—2023 钠离子电池通用规范.pdf
GB-T 5975-2006 钢丝绳用压板.pdf
GB-T 40682-2021 工业自动化和控制系统安全 IACS服务提供商的安全程序要求 IEC 62443-2-4-2015.pdf
1
/
17
评价文档
赞助1元 点击下载(476.6 KB)
回到顶部
×
微信扫码支付
1
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。