(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211156862.4
(22)申请日 2022.09.22
(71)申请人 《中华医学杂志》 社有限责任公司
地址 100010 北京市东城区东四西大街 42
号
(72)发明人 马明 张佳玮 刘冰
(74)专利代理 机构 北京酷爱智慧知识产权代理
有限公司 1 1514
专利代理师 钟继莲
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 11/34(2006.01)
G06F 16/338(2019.01)
G06F 11/30(2006.01)
G06Q 10/06(2012.01)
(54)发明名称
一种基于相关性和重要性的文献搜索排序
方法及电子设备
(57)摘要
本发明实施例公开了一种基于相关性和重
要性的文献搜索排序方法及电子设备。 方法包
括: 获取用户输入的待搜索数据; 根据所述待搜
索数据计算相关性排序指标; 计算重要性排序指
标; 根据所述相关性排序指标、 重要性排序指标
和算法公式得到文章最终评分; 根据所述文章最
终评分进行搜索结果排序。 实施本发明实施例,
在学术文献搜索排序中, 综合考虑了文章的相关
性和重要性, 并将两者进行有机结合后提出了一
种综合性的排序算法。 基于该排序算法所得到的
文章搜索排序结果更加符合用户的预期。
权利要求书2页 说明书8页 附图3页
CN 115438155 A
2022.12.06
CN 115438155 A
1.一种基于相关性和重要性的文献搜索排序方法, 其特 征在于, 包括:
获取用户输入的待搜索数据;
根据所述待搜索数据计算相关性 排序指标;
计算重要性 排序指标;
根据所述相关性 排序指标、 重要性 排序指标和算法公式得到文章 最终评分;
根据所述文章 最终评分进行搜索结果 排序。
2.如权利要求1所述的文献搜索排序 方法, 其特征在于, 所述相关性排序指标包括BM25
算法的评分、 搜索词的近邻 关系累计评分; 根据所述待搜索数据计算相关性排序指标具体
为:
基于BM25算法, 采用Elasticsearch引擎对所述待搜索数据进行处理, 得到BM25算法的
评分;
采用Elasticsearch引擎对所述待搜索数据进行处理, 得到搜索词的近邻关系累计评
分。
3.如权利要求2所述的文献搜索排序方法, 其特征在于, 近邻关系累计评分通过
elasticsearch引擎的脚本评分进行自定义实现, 每个词出现的位置可通过配置
elasticsearch引擎的term_vector中的with_position_offsets获得, 每个搜索词的逆文
档频率可通过 elasticsearc h引擎的_termverctor接口获得。
4.如权利要求2所述的文献搜索排序方法, 其特征在于, 所述重要性排序指标包括文章
学术影响力评分、 文章类型评分和时间衰减因子, 计算重要性 排序指标 具体为:
采用neo4j的插件计算文章学术影响力评分;
采用Elasticsearc h引擎所提供的脚本 评分计算时间衰减因子 。
5.如权利要求1所述的文献搜索方法, 其特 征在于, 所述 算法公式表示 为:
ScoreFinal=k0×ScoreRelevance×DecayFactor+k1×ScoreArticleRan k+k2×ScoredocType
其中, ScoreFinal为文章最 终评分; ScoreRelevance为文章与用户所输入的搜索词、 短语、 句
子之间的经规范化的相关性评分, 范围为[0,100]; ScoreArticleRank为文章学术影响力评分;
ScoredocType为文章类型评分; DecayFactor为时间衰减因子; k0、 k1和k2为待定系数。
6.如权利要求5所述的文献搜索排序方法, 其特 征在于, 待定系数的计算过程 为:
确定所述待定系数的初始值;
收集分析用户搜索行为日志, 得到 搜索结果的点击特 征数据和评分结果数据;
基于多元线性 回归方式, 根据 所述点击特征数据和评分结果数据对所述初始值进行优
化, 得到优化 值;
根据所述初始值和优化 值得到所述待定系数的目标值。
7.一种电子设备, 其特 征在于, 包括:
获取单元, 用于获取用户输入的待搜索数据;
第一计算单 元, 用于根据所述待搜索数据计算相关性 排序指标;
第二计算单 元, 用于计算重要性 排序指标;
评分单元, 用于根据所述相关性排序指标、 重要性排序指标和算法公式得到文章最终
评分;
排序单元, 用于根据所述文章 最终评分进行搜索结果 排序。权 利 要 求 书 1/2 页
2
CN 115438155 A
28.如权利要求7所述的电子设备, 其特征在于, 所述相关性排序指标包括BM25算法的评
分、 搜索词的近邻关系 累计评分; 所述第一计算单 元用于:
基于BM25算法, 采用Elasticsearch引擎对所述待搜索数据进行处理, 得到BM25算法的
评分;
采用Elasticsearch引擎对所述待搜索数据进行处理, 得到搜索词的近邻关系累计评
分;
其中, 近邻关系累计评分通过el asticsearch引擎的脚本评分进行自定义实现, 每个词
出现的位置 可通过配置 elasticsearch引擎的term_vector中的wit h_position_offsets获
得, 每个搜索词的逆文档频率可通过 elasticsearc h引擎的_termverctor接口获得。
9.如权利要求7或8所述的电子设备, 其特 征在于, 所述 算法公式表示 为:
ScoreFinal=k0×ScoreRelevance×DecayFactor+k1×ScoreArticleRan k+k2×ScoredocType
ScoreFinal为文章最终评分; ScoreRelevance为文章与用户所输入的搜索词、 短语、 句子之
间的经规范化的相关性评分, 范围为[0,100]; ScoreArticleRank为文章学术影响力评分;
ScoredocType为文章类型评分; DecayFactor为时间衰减因子; k0、 k1和k2为待定系数;
其中, 待定系数的计算过程 为:
确定所述待定系数的初始值;
收集分析用户搜索行为日志, 得到 搜索结果的点击特 征数据和评分结果数据;
基于多元线性 回归方式, 根据 所述点击特征数据和评分结果数据对所述初始值进行优
化, 得到优化 值;
根据所述初始值和优化 值得到所述待定系数的目标值。
10.一种电子设备, 其特征在于, 包括处理器、 输入设备、 输出设备和存储器, 所述处理
器、 输入设备、 输出设备和存储器相互连接, 其中, 所述存储器用于存储计算机程序, 所述计
算机程序包括程序指 令, 所述处理器被配置用于调用所述程序指 令, 执行如权利要求 1‑6任
一项所述的方法。权 利 要 求 书 2/2 页
3
CN 115438155 A
3
专利 一种基于相关性和重要性的文献搜索排序方法及电子设备
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:26:06上传分享