说明:最全电力标准
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211156862.4 (22)申请日 2022.09.22 (71)申请人 《中华医学杂志》 社有限责任公司 地址 100010 北京市东城区东四西大街 42 号 (72)发明人 马明 张佳玮 刘冰  (74)专利代理 机构 北京酷爱智慧知识产权代理 有限公司 1 1514 专利代理师 钟继莲 (51)Int.Cl. G06F 16/33(2019.01) G06F 11/34(2006.01) G06F 16/338(2019.01) G06F 11/30(2006.01) G06Q 10/06(2012.01) (54)发明名称 一种基于相关性和重要性的文献搜索排序 方法及电子设备 (57)摘要 本发明实施例公开了一种基于相关性和重 要性的文献搜索排序方法及电子设备。 方法包 括: 获取用户输入的待搜索数据; 根据所述待搜 索数据计算相关性排序指标; 计算重要性排序指 标; 根据所述相关性排序指标、 重要性排序指标 和算法公式得到文章最终评分; 根据所述文章最 终评分进行搜索结果排序。 实施本发明实施例, 在学术文献搜索排序中, 综合考虑了文章的相关 性和重要性, 并将两者进行有机结合后提出了一 种综合性的排序算法。 基于该排序算法所得到的 文章搜索排序结果更加符合用户的预期。 权利要求书2页 说明书8页 附图3页 CN 115438155 A 2022.12.06 CN 115438155 A 1.一种基于相关性和重要性的文献搜索排序方法, 其特 征在于, 包括: 获取用户输入的待搜索数据; 根据所述待搜索数据计算相关性 排序指标; 计算重要性 排序指标; 根据所述相关性 排序指标、 重要性 排序指标和算法公式得到文章 最终评分; 根据所述文章 最终评分进行搜索结果 排序。 2.如权利要求1所述的文献搜索排序 方法, 其特征在于, 所述相关性排序指标包括BM25 算法的评分、 搜索词的近邻 关系累计评分; 根据所述待搜索数据计算相关性排序指标具体 为: 基于BM25算法, 采用Elasticsearch引擎对所述待搜索数据进行处理, 得到BM25算法的 评分; 采用Elasticsearch引擎对所述待搜索数据进行处理, 得到搜索词的近邻关系累计评 分。 3.如权利要求2所述的文献搜索排序方法, 其特征在于, 近邻关系累计评分通过 elasticsearch引擎的脚本评分进行自定义实现, 每个词出现的位置可通过配置 elasticsearch引擎的term_vector中的with_position_offsets获得, 每个搜索词的逆文 档频率可通过 elasticsearc h引擎的_termverctor接口获得。 4.如权利要求2所述的文献搜索排序方法, 其特征在于, 所述重要性排序指标包括文章 学术影响力评分、 文章类型评分和时间衰减因子, 计算重要性 排序指标 具体为: 采用neo4j的插件计算文章学术影响力评分; 采用Elasticsearc h引擎所提供的脚本 评分计算时间衰减因子 。 5.如权利要求1所述的文献搜索方法, 其特 征在于, 所述 算法公式表示 为: ScoreFinal=k0×ScoreRelevance×DecayFactor+k1×ScoreArticleRan k+k2×ScoredocType 其中, ScoreFinal为文章最 终评分; ScoreRelevance为文章与用户所输入的搜索词、 短语、 句 子之间的经规范化的相关性评分, 范围为[0,100]; ScoreArticleRank为文章学术影响力评分; ScoredocType为文章类型评分; DecayFactor为时间衰减因子; k0、 k1和k2为待定系数。 6.如权利要求5所述的文献搜索排序方法, 其特 征在于, 待定系数的计算过程 为: 确定所述待定系数的初始值; 收集分析用户搜索行为日志, 得到 搜索结果的点击特 征数据和评分结果数据; 基于多元线性 回归方式, 根据 所述点击特征数据和评分结果数据对所述初始值进行优 化, 得到优化 值; 根据所述初始值和优化 值得到所述待定系数的目标值。 7.一种电子设备, 其特 征在于, 包括: 获取单元, 用于获取用户输入的待搜索数据; 第一计算单 元, 用于根据所述待搜索数据计算相关性 排序指标; 第二计算单 元, 用于计算重要性 排序指标; 评分单元, 用于根据所述相关性排序指标、 重要性排序指标和算法公式得到文章最终 评分; 排序单元, 用于根据所述文章 最终评分进行搜索结果 排序。权 利 要 求 书 1/2 页 2 CN 115438155 A 28.如权利要求7所述的电子设备, 其特征在于, 所述相关性排序指标包括BM25算法的评 分、 搜索词的近邻关系 累计评分; 所述第一计算单 元用于: 基于BM25算法, 采用Elasticsearch引擎对所述待搜索数据进行处理, 得到BM25算法的 评分; 采用Elasticsearch引擎对所述待搜索数据进行处理, 得到搜索词的近邻关系累计评 分; 其中, 近邻关系累计评分通过el asticsearch引擎的脚本评分进行自定义实现, 每个词 出现的位置 可通过配置 elasticsearch引擎的term_vector中的wit h_position_offsets获 得, 每个搜索词的逆文档频率可通过 elasticsearc h引擎的_termverctor接口获得。 9.如权利要求7或8所述的电子设备, 其特 征在于, 所述 算法公式表示 为: ScoreFinal=k0×ScoreRelevance×DecayFactor+k1×ScoreArticleRan k+k2×ScoredocType ScoreFinal为文章最终评分; ScoreRelevance为文章与用户所输入的搜索词、 短语、 句子之 间的经规范化的相关性评分, 范围为[0,100]; ScoreArticleRank为文章学术影响力评分; ScoredocType为文章类型评分; DecayFactor为时间衰减因子; k0、 k1和k2为待定系数; 其中, 待定系数的计算过程 为: 确定所述待定系数的初始值; 收集分析用户搜索行为日志, 得到 搜索结果的点击特 征数据和评分结果数据; 基于多元线性 回归方式, 根据 所述点击特征数据和评分结果数据对所述初始值进行优 化, 得到优化 值; 根据所述初始值和优化 值得到所述待定系数的目标值。 10.一种电子设备, 其特征在于, 包括处理器、 输入设备、 输出设备和存储器, 所述处理 器、 输入设备、 输出设备和存储器相互连接, 其中, 所述存储器用于存储计算机程序, 所述计 算机程序包括程序指 令, 所述处理器被配置用于调用所述程序指 令, 执行如权利要求 1‑6任 一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115438155 A 3

PDF文档 专利 一种基于相关性和重要性的文献搜索排序方法及电子设备

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于相关性和重要性的文献搜索排序方法及电子设备 第 1 页 专利 一种基于相关性和重要性的文献搜索排序方法及电子设备 第 2 页 专利 一种基于相关性和重要性的文献搜索排序方法及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:26:06上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。