Nothing Special   »   [go: up one dir, main page]

CN110083696B - 基于元结构技术的全局引文推荐方法、推荐系统 - Google Patents

基于元结构技术的全局引文推荐方法、推荐系统 Download PDF

Info

Publication number
CN110083696B
CN110083696B CN201910326299.2A CN201910326299A CN110083696B CN 110083696 B CN110083696 B CN 110083696B CN 201910326299 A CN201910326299 A CN 201910326299A CN 110083696 B CN110083696 B CN 110083696B
Authority
CN
China
Prior art keywords
article
articles
meta
similarity
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910326299.2A
Other languages
English (en)
Other versions
CN110083696A (zh
Inventor
赵姝
赵桓幜
陈喜
陈洁
段震
张燕平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhipu Huazhang Technology Co ltd
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN201910326299.2A priority Critical patent/CN110083696B/zh
Publication of CN110083696A publication Critical patent/CN110083696A/zh
Application granted granted Critical
Publication of CN110083696B publication Critical patent/CN110083696B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开基于元结构技术的全局引文推荐方法,对原始数据集进行文章提取、词频统计、关键短语筛选数据清洗操作,得到文章并使用文章、文章的作者、出版商和术语信息构建文章库;通过文章库中文章以及文章的作者、出版商和术语,建立异构信息网络;使用三度影响力原则选取三度以内的元结构,并依据所选的元结构和基于元结构的相似度计算技术得到文章库中文章的相似度;提出方法为每个元结构加权来融合文章间基于不同元结构获得的不同的相似度;使用优化算法优化以求得使推荐效果最优的权重;为每篇文章根据最优权重下的相似度和年份生成推荐列表。本发明通过元结构将语义信息融入到文章的相似性计算中,增强了引文推荐的可解释性。

Description

基于元结构技术的全局引文推荐方法、推荐系统
技术领域
本发明涉及信息推荐技术领域,尤其涉及基于元结构技术的全局引文推荐方法、推荐系统。
近年来,随着科学技术的发展,学者们把撰写论文作为展示自己科研成果的重要手段,随之带来的科研文献数量飞速的增长。因此,如何准确地、高效地为科研人员推荐参考文献是一个具有挑战性的任务。全局引文推荐可以提高科研人员查找文献的效率,增强初学者对当前领域的认知,同时一定程度上降低错、漏引出现的概率。
如专利申请201511026567.7公开的一种基于文献内容知识图谱的多层引文推荐方法,首先获取用户的查询需求,查询需求由需要推荐引用论文或引用文献的论文的标题和摘要的关键词构成。然后,基于文献内容的知识图谱扩展查询检索词语,知识图谱由文献的研究对象词语和研究行为词语结点,以及表示同义、近义、上下位、部分整体、并列等各种语义关系的边构成。最后,构建数据集中文献的倒排索引,选取候选引文,计算候选引文和查询的相似度,采用梯度渐进回归树来进行引文推荐。
又如专利申请201810994562.0公开的一种基于神经机器翻译技术的局部引文推荐方法及系统,通过对原始数据集进行引文提取、词形还原、词频统计数据清洗操作,得到引文上下文与被引文章标题的平行语料并构建初始待被引文章列表库;通过词向量模型中的跳字模型结合负采样的方法将引文上下文与被引文章标题中出现的词嵌入到低维语义空间得到词向量,构建一个带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架,将平行语料中的引文上下文通过词向量模型转换为词向量后作为模型的输入,被引文章标题作为输出来训练模型;将编码器-解码器框架输出的种子标题与待被引文章列表中的所有文章标题逐条进行余弦相似度计算;依据文章年份,选取符合要求的文章作为推荐列表。
目前,全局引文推荐主要有两种方法:(1)基于主题的方法;(2)基于图结构的方法。其中基于主题的方法认为引文周围的词与引文外部的词享有不同的主题分布,并根据引文上下文和文章主题的相关性来推荐引文。基于图结构的方法相对于基于主题的方法增加了更多的限定条件,例如将论文合作者信息加入到引文推荐中,构建多层图结构用以分析特征间的联系。然而每张图只能呈现出两个特征间的关系(邻接矩阵的行和列),这些分析方法并不能从全局的角度综合的考量文章与多种特征之间的关系。两种方法相比,基于主题适用于整理较为干净的文本,对文章的内容信息要求较高。而基于图结构的方法使用的文章特征较多,虽然精确度较高,但适用场景却十分有限。
发明内容
本发明所要解决的技术问题在于如何通过增强了引文推荐的可解释性来提高引文推荐的精确度。
本发明通过以下技术手段实现解决上述技术问题的:一种基于元结构技术的全局引文推荐方法,包括以下步骤:
S1、收集文章,构建原始数据集,原始数据集包括候选文章集与目标文章集;对原始数据集中的文章进行文章提取,得到文章的作者、出版商和术语,并使用文章、文章的作者、出版商和术语四种属性构建文章库;
S2、通过文章库中文章的作者、文章、术语和出版商四种属性建立异构信息网络;
S3、列举所有在异构信息网络中度数在三以内的元结构,并依据所选的元结构和基于元结构的相似度得到文章库中候选文章与目标文章的相似度;
S4、对S3中的每个元结构进行加权,用以融合文章间基于不同元结构获得的不同的相似度;根据候选文章与目标文章之间的相似度,为所有目标文章根据相似度排名生成推荐列表;
S5、使用优化算法优化推荐列表。
优选地,所述步骤S1中的术语的提取包括以下步骤:
S11、提取原始数据集中所有的文章信息,并去除信息不全的文章,将题目和摘要作为文章的文本信息;
S12、根据词频和逆文本频率指数相乘得到每个词的TF-IDF,文章中的某个词α的词频计算公式如下:
Figure BDA0002036305060000031
词a的逆文本频率计算公式如下:
Figure BDA0002036305060000032
根据词频和逆文本频率计算词a的TF-IDF值,公式如下:
TF-IDF=TF(a)×IDF(a)
取TF-IDF值排名靠近的词作为文章的关键词;
将每篇文章的文本输入TextBlob工具,得到每篇文章的关键短语;
S13、将步骤S11获得的关键词与步骤S12获得的关键短语进行合并、去重,将去重后的关键词、关键短语作为文章的术语。
优选地,所述S2中通过以下步骤建立异构信息网络;
S21、根据每篇文章和该文章包含的术语构建异构信息网络的文章、术语边;
S22、根据每篇文章和该文章的作者构建异构信息网络的文章、作者边;
S23、根据每篇文章和该文章的出版商构建异构信息网络的文章、出版商边;
S24、根据每篇候选文章和该候选文章的引文构建异构信息网络的文章、文章边。
优选地,所述S3包括以下步骤:
S31、列举所有在异构信息网络中文章、文章的作者、出版商和术语中度数在三以内的从文章节点出发到文章节点结束的M个元结构,表示为S={S1,S2,...,SM};
S32、使用基于元结构的BSCSE算法处理文章间基于S31中所有元结构的相似度,得到目标文章tpu与候选文章cpi在元结构下的相似度;
原始数据集中K篇目标文章TP={tp1,tp2,...,tpK}和N篇候选文章CP={cp1,cp2,...,cpN}之间基于所选的M个元结构下的相似度:
Figure BDA0002036305060000041
其中,tpu表示第u篇目标文章,
Figure BDA0002036305060000042
表示第u篇目标文章在网络中对应的节点,u∈[1,K];
Sj表示第j个元结构;
Figure BDA0002036305060000043
其中,d(Sj)表示元结构Sj的维度;j∈[1,M];
cpi表示第i篇候选文章,
Figure BDA0002036305060000051
表示第i篇候选文章在网络中对应的节点,i∈[1,N];
Figure BDA0002036305060000052
表示从目标文章节点
Figure BDA0002036305060000053
的邻居节点中选出类型为
Figure BDA0002036305060000054
的节点,其中,vl表示目标文章节点
Figure BDA0002036305060000055
的邻居节点中,类型为
Figure BDA0002036305060000056
的节点中的第l个,
Figure BDA0002036305060000057
Figure BDA0002036305060000058
表示网络中目标文章节点
Figure BDA0002036305060000059
的所有邻居节点,
Figure BDA00020363050600000510
表示目标文章节点
Figure BDA00020363050600000511
的邻居节点个数,
Figure BDA00020363050600000512
|V|表示网络中所有节点的个数;r(vl)∈{文章,作者,出版商,术语};
Figure BDA00020363050600000513
表示元结构Sj的第二项;
Figure BDA00020363050600000514
表示网络中从节点vl开始到候选文章节点
Figure BDA00020363050600000515
为止,所有满足元结构
Figure BDA00020363050600000516
的路径实例的个数;其中,
Figure BDA00020363050600000517
表示Sj去除第一项
Figure BDA00020363050600000518
的剩余部分的元结构,
Figure BDA00020363050600000519
表示元结构Sj的第一项;
Figure BDA00020363050600000520
表示网络中从点vl开始,所有满足元结构
Figure BDA00020363050600000521
的路径实例的个数,其中,
Figure BDA00020363050600000522
表示Sj去除第一项
Figure BDA00020363050600000523
的剩余部分的元结构,
Figure BDA00020363050600000524
表示元结构Sj的第一项;
Figure BDA00020363050600000525
表示网络中从目标文章节点
Figure BDA00020363050600000526
开始,满足元结构
Figure BDA00020363050600000527
的路径实例的个数的β次幂,其中,
Figure BDA00020363050600000528
表示第u篇目标文章在网络中对应的节点;
Figure BDA00020363050600000529
表示由元结构Sj的第一项
Figure BDA00020363050600000530
和第二项
Figure BDA00020363050600000531
组成的元结构;β是一个权重系数,取值在[0,1]之间。
优选地,所述S4包括:
S41、为S31步骤中所选的M个元结构赋予权重,权重依次为W={w1,w2,...,wM};其中,wM表示第M个元结构的权重;
S42、采用相似度模型以衡量目标文章tpu∈TP与候选文章cpi∈CP之间的相似性,相似度模型如下:
Figure BDA0002036305060000061
优选地,所述S5采用粒子群优化算法,包括以下步骤:
S51、将待求解的权重W={w1,w2,...,wM}作为粒子群优化算法中待求解的问题,不同权重的排列组合构成解空间中不同的解,在粒子群优化算法第h次迭代中,解xh
Figure BDA0002036305060000062
并且,每个解xh作为粒子群优化算法中粒子的位置;
S52、在粒子群优化算法的下一次迭代中,解
Figure BDA0002036305060000063
优化的过程中,将推荐的召回率作为目标函数,并且每个粒子记录自己所走过的位置中的最优位置pbest,优化过程中也会记录空间中所有粒子走过的位置中的最优位置gbest,设置终止的损失函数值γ,方法遵循以下步骤:
S521、将解中的权重值
Figure BDA0002036305060000064
输入S42步骤中的相似度模型中,计算所有目标文章TP与所有候选文章CP之间的相似度,SIM(tpu,cpi),其中tpu∈TP,cpi∈CP;
S522、根据候选文章与目标文章之间的相似度,为所有目标文章根据相似度排名生成推荐列表,推荐列表长度为25;若某一篇目标文章的推荐列表长度不足25,则以其推荐列表长度为准;
S523、根据推荐结果与目标文章实际的参考文献作对比,计算召回率,公式如下:
Figure BDA0002036305060000065
其中,K为目标文章的总数,
Figure BDA0002036305060000071
为目标文章tpu的推荐列表中的所有文章集合,
Figure BDA0002036305060000072
为目标文章tpu的实际的参考文献集合;
S524、若没有达到设定的迭代次数或Recall@25<γ,继续下一步S525,否则跳出循环,确定当前的解
Figure BDA0002036305060000073
为最优解;
S525、计算每个粒子的速度
vh=vh+c1×rand×(pbest-xh)+c2×rand×(gbest-xh)
其中,vh表示粒子在第h次迭代时的速度,c1,c2为学习因子,rand表示随机数,rand∈(0,1);
使用粒子的速度来更新第·h+1次迭代时,粒子的位置xh+1=xh+vh,其中,
Figure BDA0002036305060000074
S53、将步骤S524中的最优权重
Figure BDA0002036305060000075
输入步骤S42中的相似度模型SIM(tpu,cpi)中,其中tpu∈TP,cpi∈CP;得到所有目标文章TP和所有候选文章CP之间的相似度;
S54、根据用户的推荐篇数的需求,为每篇目标文章返回相似性排名靠前的候选文章作为全局引文推荐算法的输出。
本发明还公开一种基于元结构技术的全局引文推荐系统,
包括:
文章库模块,用以构建文章、文章的作者、出版商和术语四种属性;
异构信息网络模块,用以构建文章、文章的作者、出版商和术语四种属性之间的网络关系;
元结构模块,用以列举所述属性在异构信息网络中度数在三以内的元结构;
BSCSE算法模块,所选的元结构和基于元结构的相似度通过所述BSCSE算法模块得到文章库中候选文章与目标文章的相似度;
相似度模型,用以融合文章间基于不同元结构获得的不同的相似度;
优化算法模块,用以优化相似度模型。
优选地,包括以下步骤建立所述异构信息网络;
S21、根据每篇文章和该文章包含的术语构建异构信息网络的文章、术语边;
S22、根据每篇文章和该文章的作者构建异构信息网络的文章、作者边;
S23、根据每篇文章和该文章的出版商构建异构信息网络的文章、出版商边;
S24、根据每篇文章和该文章的引文构建异构信息网络的文章、文章边。
优选地,所述S3列举所述属性在异构信息网络中度数在三以内的元结构,包括以下步骤:
S31、列举所有在异构信息网络中文章、文章的作者、出版商和术语中度数在三以内的从文章节点出发到文章节点结束的M个元结构,表示为S={S1,S2,...,SM};
S32、使用基于元结构的BSCSE算法处理文章间基于S31中所有元结构的相似度,得到目标文章tpu与候选文章cpi在元结构下的相似度;
原始数据集中K篇目标文章TP={tp1,tp2,...,tpK}和N篇候选文章CP={cp1,cp2,...,cpN}之间基于所选的M个元结构下的相似度:
Figure BDA0002036305060000081
其中,tpu表示第u篇目标文章,
Figure BDA0002036305060000082
表示第u篇目标文章在网络中对应的节点,u∈[1,K];
Sj表示第j个元结构;
Figure BDA0002036305060000091
其中,d(Sj)表示元结构Sj的维度;j∈[1,M];
cpi表示第i篇候选文章,
Figure BDA0002036305060000092
表示第i篇候选文章在网络中对应的节点,i∈[1,N];
Figure BDA0002036305060000093
表示从目标文章节点
Figure BDA0002036305060000094
的邻居节点中选出类型为
Figure BDA0002036305060000095
的节点,其中,vl表示目标文章节点
Figure BDA0002036305060000096
的邻居节点中,类型为
Figure BDA0002036305060000097
的节点中的第l个,
Figure BDA0002036305060000098
Figure BDA0002036305060000099
表示网络中目标文章节点
Figure BDA00020363050600000910
的所有邻居节点,
Figure BDA00020363050600000911
表示目标文章节点
Figure BDA00020363050600000912
的邻居节点个数,
Figure BDA00020363050600000913
|V|表示网络中所有节点的个数;r(vl)∈{文章,作者,出版商,术语};
Figure BDA00020363050600000914
表示元结构Sj的第二项;
Figure BDA00020363050600000915
表示网络中从节点vl开始到候选文章节点
Figure BDA00020363050600000916
为止,所有满足元结构
Figure BDA00020363050600000917
的路径实例的个数;其中,
Figure BDA00020363050600000918
表示Sj去除第一项
Figure BDA00020363050600000919
的剩余部分的元结构,
Figure BDA00020363050600000920
表示元结构Sj的第一项;
Figure BDA00020363050600000921
表示网络中从点vl开始,所有满足元结构
Figure BDA00020363050600000922
的路径实例的个数,其中,
Figure BDA00020363050600000923
表示Sj去除第一项
Figure BDA00020363050600000924
的剩余部分的元结构,
Figure BDA00020363050600000925
表示元结构Sj的第一项;
Figure BDA00020363050600000926
表示网络中从目标文章节点
Figure BDA00020363050600000927
开始,满足元结构
Figure BDA00020363050600000928
的路径实例的个数的β次幂,其中,
Figure BDA00020363050600000929
表示第u篇目标文章在网络中对应的节点;
Figure BDA00020363050600000930
表示由元结构Sj的第一项
Figure BDA00020363050600000931
和第二项
Figure BDA00020363050600000932
组成的元结构;β是一个权重系数,取值在[0,1]之间。
优选地,所选的元结构和基于元结构的相似度通过所述元结构的BSCSE算法模块得到文章库中候选文章与目标文章的相似度,包括以下步骤:
S41、为S31步骤中所选的M个元结构赋予权重,权重依次为W={w1,w2,...,wM};其中,wM表示第M个元结构的权重;
S42、采用相似度模型以衡量目标文章tpu∈TP与候选文章cpi∈CP之间的相似性,相似度模型如下:
Figure BDA0002036305060000101
本发明的优点在于:从全局的角度出发,综合文章的各种特征,以及多种特征间的联系,来衡量两篇文章互为引用关系的可能性;异构信息网络蕴含着多种语义信息,本发明通过元结构将语义信息融入到文章的相似性计算中,增强了引文推荐的可解释性。
附图说明
图1为本发明实施例1的结构流程图。
图2为本发明实施例1中的异构信息网络的拓扑示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。
如图1所示,本实施例公开一种基于元结构技术的全局引文推荐方法,包括以下步骤:
S1、收集文章,构建原始数据集,对原始数据集进行文章提取,词频统计、逆文本频率指数计算以及关键短语筛选数据清洗,得到文章的作者、出版商和术语,并使用文章、文章的作者、出版商和术语构建文章库;
本实施方式中,需要对原始数据集中信息不全的文章进行去除,确定年份,发表在该年份之前的文章定义为候选文章,在该年份发表的文章定义为目标文章,候选文章集包含去除目标文章在该年份下的引文后得到的目标文章的引文。
将文章的题目和摘要作为文章的文本信息,计算词频和逆文本频率指数作为文本中词的权重;本实施例选择权重排名前十五的词语和采用TextBlob工具提取该文章的关键短语作为文章的术语。
在实际操作过程中,步骤S1具体包括以下步骤:
S11、提取原始数据集中所有的文章信息,并去除信息不全的文章(无题目、无摘要、无年份、无出版商、无作者,满足以上条件之一的均视为信息不全),将题目和摘要作为文章的文本信息;
S12、根据词频(TF)和逆文本频率指数(IDF)相乘得到每个词的TF-IDF,文章中的某个词α的词频计算公式如下:
Figure BDA0002036305060000111
词a的逆文本频率计算公式如下:
Figure BDA0002036305060000112
根据词频和逆文本频率计算词a的TF-IDF值,公式如下:
TF-IDF=TF(a)×IDF(a)
对于文章库中的每篇文章,取TF-IDF值排名前十五的词作为文章的关键词;
将每篇文章的文本输入TextBlob工具,使用该工具的“noun_phrases”(名词短语)功能得到每篇文章的关键短语;
S13、将步骤S11获得的关键词与步骤S12获得的关键短语使用现有技术的字符匹配进行合并、去重,将去重后的关键词、关键短语作为文章的术语。
S2、通过文章库中文章的作者1、文章2、术语3和出版商4共四种类型,建立异构信息网络,类型间的关系如图2所示;
本发明的异构信息网络为下式:
G=(V,E,T,φ,ψ)
其中,V表示网络中所有的节点,E表示网络中所有的边,T表示网络中所有的类型,对于网络中的任意一个节点v∈V和的任意一个边e∈E存在影射Φ(v):V→Tv和Ψ(v):E→TE;Tv和TE分别表示节点和边的类型,Tv={文本信息、作者、出版商、术语},TE={作者写文章(作者→文章)、文章被作者写(文章→作者)、文章发表在出版商(文章→出版商)、出版商刊登文章(出版商→文章)、文章包含术语(文章→术语)、术语属于文章(术语→文章)、文章引用文章(文章→文章)};
在本实施例中,在文章库里使用节点与节点之间表示一条边,点与点之间采用分隔符分隔。
在实际操作过程中,步骤S2具体包括以下步骤:
S21、根据每篇文章和该文章包含的术语构建异构信息网络的文章、术语边;
S22、根据每篇文章和该文章的作者构建异构信息网络的文章、作者边;
S23、根据每篇文章和该文章的出版商构建异构信息网络的文章、出版商边;
S24、根据每篇候选文章和该候选文章的引文构建异构信息网络的文章、文章边。因目标是为目标文章推荐候选文章集中的文章作为目标文章的引文,所以在异构信息网络构建中,不加入目标文章与其引文的连边;
S3、使用三度影响力原则选取三度以内的元结构,并依据所选的元结构和基于元结构的相似度技术计算得到文章库中文章的相似度;
本实施方式中,使用社交网络中的三度影响力原则来选取元结构,三度影响力原则认为信息在网络中传播的过程中,经过的对象越多,影响力会逐渐削弱,如果传播范围超出三度,则影响力会消失;本步骤计算异构信息网络中两个文章类型的节点的相似度时,若两篇文章通过三度以上(不包括三度)的元结构连接,则两篇文章之间的关联可以忽略。
在实际操作过程中,S3具体包括:
S31、列举所有在异构信息网络(包括文章、作者、术语和出版商构成)中度数在三以内的(包括三度)从目标文章节点出发到候选文章节点结束的M个元结构,表示为S={S1,S2,...,SM};
本步骤使用的元结构如表1所示:
表1
Figure BDA0002036305060000141
S32、使用基于元结构的BSCSE算法处理文章间基于S31中所有元结构的相似度,得到目标文章tpu与候选文章cpi在元结构下的相似度;
原始数据集中K篇目标文章TP={tp1,tp2,...,tpK}和N篇候选文章CP={cp1,cp2,...,cpN}之间基于所选的M个元结构下的相似度:
Figure BDA0002036305060000151
其中,tpu表示第u篇目标文章,
Figure BDA0002036305060000152
表示第u篇目标文章在网络中对应的节点,u∈[1,K];
Sj表示第j个元结构;
Figure BDA0002036305060000153
其中,d(Sj)表示元结构Sj的维度;j∈[1,M];
cpi表示第i篇候选文章,
Figure BDA0002036305060000154
表示第i篇候选文章在网络中对应的节点,i∈[1,N];
Figure BDA0002036305060000155
表示从目标文章节点
Figure BDA0002036305060000156
的邻居节点中选出类型为
Figure BDA0002036305060000157
的节点,其中,vl表示目标文章节点
Figure BDA0002036305060000158
的邻居节点中,类型为
Figure BDA0002036305060000159
的节点中的第l个,
Figure BDA00020363050600001510
Figure BDA00020363050600001511
表示网络中目标文章节点
Figure BDA00020363050600001512
的所有邻居节点,
Figure BDA00020363050600001513
表示目标文章节点
Figure BDA00020363050600001514
的邻居节点个数,
Figure BDA00020363050600001515
|V|表示网络中所有节点的个数;r(vl)表示网络中节点vl的类型,本发明节点的类型为四种,文章、作者,出版商和术语,r(vl)∈{文章,作者,出版商,术语};
Figure BDA00020363050600001516
表示元结构Sj的第二项;
Figure BDA00020363050600001517
表示网络中从节点vl开始到候选文章节点
Figure BDA00020363050600001518
为止,所有满足元结构
Figure BDA00020363050600001519
的路径实例的个数;其中,
Figure BDA00020363050600001520
表示Sj去除第一项
Figure BDA00020363050600001521
的剩余部分的元结构,
Figure BDA00020363050600001522
表示元结构Sj的第一项。
Figure BDA00020363050600001523
表示网络中从点vl开始,所有满足元结构
Figure BDA00020363050600001524
的路径实例的个数,其中,
Figure BDA0002036305060000161
表示Sj去除第一项
Figure BDA0002036305060000162
的剩余部分的元结构,
Figure BDA0002036305060000163
表示元结构Sj的第一项。
Figure BDA0002036305060000164
表示网络中从目标文章节点
Figure BDA0002036305060000165
开始,满足元结构
Figure BDA0002036305060000166
的路径实例的个数的β次幂,其中,
Figure BDA0002036305060000167
表示第u篇目标文章在网络中对应的节点;
Figure BDA0002036305060000168
表示由元结构Sj的第一项
Figure BDA0002036305060000169
和第二项
Figure BDA00020363050600001610
组成的元结构;β是一个权重系数,取值在[0,1]之间。
S4、对S3中的每个元结构进行加权,用以融合文章间基于不同元结构获得的不同的相似度;
在实际操作过程中,步骤S4具体包括:
S41、为S31步骤中所选的M个元结构赋予权重,权重依次为W={w1,w2,...,wM};其中,wM表示第M个元结构的权重;
S42、采用相似度模型以衡量目标文章tpu∈TP与候选文章cpi∈CP之间的相似性,相似度模型如下:
Figure BDA00020363050600001611
S5、使用优化算法优化以求得使推荐效果最优的权重;
本实施方式中,我们可以采用四种优化算法来优化相似度模型,分别是,遗传算法、粒子群优化算法、和声算法和模拟退火算法;在推荐的准确度上,遗传算法略高于其他三种算法,而在时间开销上,和声算法速度最快。
在本发明中,以粒子群优化算法为例,步骤S5具体包括:
S51、将待求解的权重W={w1,w2,...,wM}作为粒子群优化算法中待求解的问题,不同权重的排列组合构成解空间中不同的解,在粒子群优化算法第h次迭代中,解xh
Figure BDA00020363050600001612
并且,每个解xh作为粒子群优化算法中粒子的位置;
S52、在粒子群优化算法的下一次迭代中,解
Figure BDA0002036305060000171
优化的过程中,将推荐的召回率作为目标函数,并且每个粒子记录自己所走过的位置中的最优位置pbest,优化过程中也会记录空间中所有粒子走过的位置中的最优位置gbest,设置终止的损失函数值γ,方法遵循以下步骤:
S521、将解中的权重值
Figure BDA0002036305060000172
输入S42步骤中的相似度模型中,计算所有目标文章TP与所有候选文章CP之间的相似度,SIM(tpu,cpi),其中tpu∈TP,cpi∈CP;
S522、根据候选文章与目标文章之间的相似度,为所有目标文章根据相似度排名生成推荐列表,推荐列表长度为25;若某一篇目标文章的推荐列表长度不足25,则以其推荐列表长度为准;
S523、根据推荐结果与目标文章实际的参考文献作对比,计算召回率,公式如下:
Figure BDA0002036305060000173
其中,K为目标文章的总数,
Figure BDA0002036305060000174
为目标文章tpu的推荐列表中的所有文章集合,
Figure BDA0002036305060000175
为目标文章tpu的实际的参考文献集合;
S524、若没有达到设定的迭代次数或Recall@25<γ,继续下一步S525,否则跳出循环,确定当前的解
Figure BDA0002036305060000176
为最优解;
S525、计算每个粒子的速度
vh=vh+c1×rand×(pbest-xh)+c2×rand×(gbest-xh)
其中,vh表示粒子在第h次迭代时的速度,c1,c2为学习因子,rand表示随机数,rand∈(0,1)。
使用粒子的速度来更新第·h+1次迭代时,粒子的位置xh+1=xh+vh,其中,
Figure BDA0002036305060000181
S6、为每篇文章根据最优权重下的相似度和年份生成推荐列表。
在实际操作过程中,步骤S6具体包括:
S61、将步骤S5中的最优权重
Figure BDA0002036305060000182
输入步骤S42中的相似度模型SIM(tpu,cpi)中,其中tpu∈TP,cpi∈CP;计算所有目标文章TP和所有候选文章CP之间的相似度;
S62、根据用户的推荐篇数NUM的需求,也就是需要为每篇目标文章推荐NUM篇候选文章,所以,为每篇目标文章返回相似性排名靠前的NUM篇候选文章作为全局引文推荐算法的输出。NUM指推荐篇数。
实施例2
以题目为“Exploiting partial annotations with EM training”的文章为例,在数据集中,它的真实引文为“5275”,“4908”,“10302”,“12534”,“7374”,“3703”,“11213”,“2217”,“7400”,“12704”,“9144”,“9095”,“471”,“9733”,“10540”;我们的方法推荐的前10篇文章为“p9233”,“p10302”,“p7126”,“p7374”,“p8026”,“p8621”,“p1251”,“p3355”,“p9095”,“p11182”;其中,下划线“_”列出的文章为本方法预测正确的三篇文章,本方法在数据集中为每篇目标文章推荐5,10,15和20篇文章时的准确率和F1值如表2,表3所示,不同的优化算法对本技术的推荐效果影响不大,本方法同现有的引文推荐方法“文章-词图算法”和“多层次相互查询算法”的对比如表4所示,在推荐篇数25,50,75时在召回率和归一化折损累计增益两个指标下均对原方法有所提升。
表2
Figure BDA0002036305060000191
表3
Figure BDA0002036305060000192
表4
Figure BDA0002036305060000201

Claims (5)

1.一种基于元结构技术的全局引文推荐方法,其特征在于,包括以下步骤:
S1、收集文章,构建原始数据集,原始数据集包括候选文章集与目标文章集;对原始数据集中的文章进行文章提取,得到文章的作者、出版商和术语,并使用文章、文章的作者、出版商和术语四种属性构建文章库;
S2、通过文章库中文章的作者、文章、术语和出版商四种属性建立异构信息网络;
S3、列举所有在异构信息网络中度数在三以内的元结构,并依据所选的元结构和基于元结构的相似度得到文章库中候选文章与目标文章的相似度;
S4、对S3中的每个元结构进行加权,用以融合文章间基于不同元结构获得的不同的相似度;根据候选文章与目标文章之间的相似度,为所有目标文章根据相似度排名生成推荐列表;
S5、使用优化算法优化推荐列表;
其中,所述S2中通过以下步骤建立异构信息网络;
S21、根据每篇文章和该文章包含的术语构建异构信息网络的文章、术语边;
S22、根据每篇文章和该文章的作者构建异构信息网络的文章、作者边;
S23、根据每篇文章和该文章的出版商构建异构信息网络的文章、出版商边;
S24、根据每篇候选文章和该候选文章的引文构建异构信息网络的文章、文章边;
所述S3包括以下步骤:
S31、列举所有在异构信息网络中文章、文章的作者、出版商和术语中度数在三以内的从文章节点出发到文章节点结束的M个元结构,表示为S={S1,S2,...,SM};
S32、使用基于元结构的BSCSE算法处理文章间基于S31中所有元结构的相似度,得到目标文章tpu与候选文章cpt在元结构下的相似度;
原始数据集中K篇目标文章TP={tp1,tp2,...,tpK}和N篇候选文章cP={cp1,cp2,...,cpN}之间基于所选的M个元结构下的相似度:
Figure FDA0003885320820000011
其中,tpu表示第u篇目标文章,
Figure FDA0003885320820000012
表示第u篇目标文章在网络中对应的节点,u∈[1,K];Sj表示第j个元结构;
Figure FDA0003885320820000013
其中,d(Sj)表示元结构Sj的维度;j∈[1,M];cpi表示第i篇候选文章,
Figure FDA0003885320820000021
表示第i篇候选文章在网络中对应的节点,i∈[1,N];
Figure FDA0003885320820000022
表示从目标文章节点
Figure FDA0003885320820000023
的邻居节点中选出类型为
Figure FDA00038853208200000232
的节点,其中,vi表示目标文章节点
Figure FDA0003885320820000024
的邻居节点中,类型为
Figure FDA0003885320820000025
的节点中的第l个,
Figure FDA0003885320820000026
Figure FDA0003885320820000027
表示网络中目标文章节点
Figure FDA0003885320820000028
的所有邻居节点,
Figure FDA0003885320820000029
表示目标文章节点
Figure FDA00038853208200000210
的邻居节点个数,
Figure FDA00038853208200000211
|V|表示网络中所有节点的个数;r(vl)∈{文章,作者,出版商,术语};
Figure FDA00038853208200000212
表示元结构Sj的第二项;
Figure FDA00038853208200000213
表示网络中从节点vl开始到候选文章节点
Figure FDA00038853208200000214
为止,所有满足元结构
Figure FDA00038853208200000215
的路径实例的个数;其中,
Figure FDA00038853208200000216
表示Sj去除第一项
Figure FDA00038853208200000217
的剩余部分的元结构,
Figure FDA00038853208200000218
表示元结构Sj的第一项;
Figure FDA00038853208200000219
表示网络中从点vl开始,所有满足元结构
Figure FDA00038853208200000220
的路径实例的个数,其中,
Figure FDA00038853208200000221
表示Sj去除第一项
Figure FDA00038853208200000233
的剩余部分的元结构,
Figure FDA00038853208200000222
表示元结构Sj的第一项;
Figure FDA00038853208200000223
表示网络中从目标文章节点
Figure FDA00038853208200000224
开始,满足元结构
Figure FDA00038853208200000225
的路径实例的个数的β次幂,其中,
Figure FDA00038853208200000226
表示第u篇目标文章在网络中对应的节点;
Figure FDA00038853208200000227
表示由元结构Sj的第一项
Figure FDA00038853208200000228
和第二项
Figure FDA00038853208200000229
组成的元结构;β是一个权重系数,取值在[0,1]之间;
所述S5采用粒子群优化算法,包括以下步骤:
S51、将待求解的权重W={w1,w2,...,wM}作为粒子群优化算法中待求解的问题,不同权重的排列组合构成解空间中不同的解,在粒子群优化算法第h次迭代中,解xh
Figure FDA00038853208200000230
并且,每个解xh作为粒子群优化算法中粒子的位置;
S52、在粒子群优化算法的下一次迭代中,解
Figure FDA00038853208200000231
优化的过程中,将推荐的召回率作为目标函数,并且每个粒子记录自己所走过的位置中的最优位置pbest,优化过程中也会记录空间中所有粒子走过的位置中的最优位置gbest,设置终止的损失函数值γ,方法遵循以下步骤:
S521、将解中的权重值
Figure FDA0003885320820000031
输入S42步骤中的相似度模型中,计算所有目标文章TP与所有候选文章CP之间的相似度,SIM(tpu,cpt),其中tpu∈TP,cpt∈CP;
S522、根据候选文章与目标文章之间的相似度,为所有目标文章根据相似度排名生成推荐列表,推荐列表长度为25;若某一篇目标文章的推荐列表长度不足25,则以其推荐列表长度为准;
S523、根据推荐结果与目标文章实际的参考文献作对比,计算召回率,公式如下:
Figure FDA0003885320820000032
其中,K为目标文章的总数,
Figure FDA0003885320820000033
为目标文章tpu的推荐列表中的所有文章集合,
Figure FDA0003885320820000034
为目标文章tpu的实际的参考文献集合;
S524、若没有达到设定的迭代次数或Recall@25<γ,继续下一步S525,否则跳出循环,确定当前的解
Figure FDA0003885320820000035
为最优解;
S525、计算每个粒子的速度
vh=vh+c1×rand×(pbest-xh)+c2×rand×(gbest-xh)
其中,vh表示粒子在第h次迭代时的速度,c1,c2为学习因子,rand表示随机数,rand∈(0,1);
使用粒子的速度来更新第h+1次迭代时,粒子的位置xh+1=xh+vh,其中,
Figure FDA0003885320820000036
S53、将步骤S524中的最优权重
Figure FDA0003885320820000037
输入步骤S42中的相似度模型SIM(tpu,cpi)中,其中tpu∈TP,cpi∈CP;得到所有目标文章TP和所有候选文章CP之间的相似度;
S54、根据用户的推荐篇数的需求,为每篇目标文章返回相似性排名靠前的候选文章作为全局引文推荐算法的输出。
2.根据权利要求1所述的基于元结构技术的全局引文推荐方法,其特征在于,所述步骤S1中的术语的提取包括以下步骤:
S11、提取原始数据集中所有的文章信息,并去除信息不全的文章,将题目和摘要作为文章的文本信息;
S12、根据词频和逆文本频率指数相乘得到每个词的TF-IDF,文章中的某个词α的词频计算公式如下:
Figure FDA0003885320820000041
词a的逆文本频率计算公式如下:
Figure FDA0003885320820000042
根据词频和逆文本频率计算词a的TF-IDF值,公式如下:
TF-IDF=TF(a)×IDF(a)
取TF-IDF值排名靠近的词作为文章的关键词;
将每篇文章的文本输入TextBlob工具,得到每篇文章的关键短语;
S13、将步骤S11获得的关键词与步骤S12获得的关键短语进行合并、去重,将去重后的关键词、关键短语作为文章的术语。
3.根据权利要求1所述的基于元结构技术的全局引文推荐方法,其特征在于,所述S4包括:
S41、为S31步骤中所选的M个元结构赋予权重,权重依次为W={w1,w2,...,wM};其中,wM表示第M个元结构的权重;
S42、采用相似度模型以衡量目标文章tpu∈TP与候选文章cpt∈CP之间的相似性,相似度模型如下:
Figure FDA0003885320820000043
4.一种基于元结构技术的全局引文推荐系统,其特征在于,包括:
文章库模块,用以构建文章、文章的作者、出版商和术语四种属性;
异构信息网络模块,用以构建文章、文章的作者、出版商和术语四种属性之间的网络关系;
元结构模块,用以列举所述属性在异构信息网络中度数在三以内的元结构;
BSCSE算法模块,所选的元结构和基于元结构的相似度通过所述BSCSE算法模块得到文章库中候选文章与目标文章的相似度;
相似度模型,用以融合文章间基于不同元结构获得的不同的相似度;
优化算法模块,用以优化相似度模型;
其中,包括以下步骤建立所述异构信息网络;
S21、根据每篇文章和该文章包含的术语构建异构信息网络的文章、术语边;
S22、根据每篇文章和该文章的作者构建异构信息网络的文章、作者边;
S23、根据每篇文章和该文章的出版商构建异构信息网络的文章、出版商边;
S24、根据每篇文章和该文章的引文构建异构信息网络的文章、文章边;
所述列举所述属性在异构信息网络中度数在三以内的元结构,包括以下步骤:
S31、列举所有在异构信息网络中文章、文章的作者、出版商和术语中度数在三以内的从文章节点出发到文章节点结束的M个元结构,表示为S={S1,S2,...,SM};
S32、使用基于元结构的BSCSE算法处理文章间基于S31中所有元结构的相似度,得到目标文章tpu与候选文章cpi在元结构下的相似度;
原始数据集中K篇目标文章TP={tp1,tp2,...,tpK}和N篇候选文章CP={cp1,cp2,...,cpN}之间基于所选的M个元结构下的相似度:
Figure FDA0003885320820000051
其中,tpu表示第u篇目标文章,
Figure FDA0003885320820000052
表示第u篇目标文章在网络中对应的节点,u∈[1,K];
Sj表示第j个元结构;
Figure FDA0003885320820000053
其中,d(Sj)表示元结构Sj的维度;j∈[1,M];
cpi表示第i篇候选文章,
Figure FDA0003885320820000054
表示第i篇候选文章在网络中对应的节点,l∈[1,N];
Figure FDA0003885320820000055
表示从目标文章节点
Figure FDA0003885320820000056
的邻居节点中选出类型为
Figure FDA0003885320820000057
的节点,其中,vl表示目标文章节点
Figure FDA0003885320820000058
的邻居节点中,类型为
Figure FDA0003885320820000059
的节点中的第l个,
Figure FDA00038853208200000510
Figure FDA00038853208200000511
表示网络中目标文章节点
Figure FDA00038853208200000512
的所有邻居节点,
Figure FDA00038853208200000513
表示目标文章节点
Figure FDA00038853208200000514
的邻居节点个数,
Figure FDA0003885320820000061
|V|表示网络中所有节点的个数;
r(vl)∈{文章,作者,出版商,术语};
Figure FDA0003885320820000062
表示元结构Sj的第二项;
Figure FDA0003885320820000063
表示网络中从节点vl开始到候选文章节点
Figure FDA0003885320820000064
为止,所有满足元结构
Figure FDA0003885320820000065
的路径实例的个数;其中,
Figure FDA0003885320820000066
表示Sj去除第一项
Figure FDA0003885320820000067
的剩余部分的元结构,
Figure FDA0003885320820000068
表示元结构Sj的第一项;
Figure FDA0003885320820000069
表示网络中从点vl开始,所有满足元结构
Figure FDA00038853208200000610
的路径实例的个数,其中,
Figure FDA00038853208200000611
表示Sj去除第一项
Figure FDA00038853208200000612
的剩余部分的元结构,
Figure FDA00038853208200000613
表示元结构Sj的第一项;
Figure FDA00038853208200000614
表示网络中从目标文章节点
Figure FDA00038853208200000615
开始,满足元结构
Figure FDA00038853208200000616
的路径实例的个数的β次幂,其中,
Figure FDA00038853208200000617
表示第u篇目标文章在网络中对应的节点;
Figure FDA00038853208200000618
表示由元结构Sj的第一项
Figure FDA00038853208200000619
和第二项
Figure FDA00038853208200000620
组成的元结构;β是一个权重系数,取值在[0,1]之间;
所述优化算法模块采用粒子群优化算法,包括以下步骤:
S51、将待求解的权重W={w1,w2,...,wM}作为粒子群优化算法中待求解的问题,不同权重的排列组合构成解空间中不同的解,在粒子群优化算法第h次迭代中,解xh
Figure FDA00038853208200000621
并且,每个解xh作为粒子群优化算法中粒子的位置;
S52、在粒子群优化算法的下一次迭代中,解
Figure FDA00038853208200000622
优化的过程中,将推荐的召回率作为目标函数,并且每个粒子记录自己所走过的位置中的最优位置pbest,优化过程中也会记录空间中所有粒子走过的位置中的最优位置gbest,设置终止的损失函数值γ,方法遵循以下步骤:
S521、将解中的权重值
Figure FDA00038853208200000623
输入S42步骤中的相似度模型中,计算所有目标文章TP与所有候选文章CP之间的相似度,SIM(tpu,cpt),其中tpu∈TP,cpi∈CP;
S522、根据候选文章与目标文章之间的相似度,为所有目标文章根据相似度排名生成推荐列表,推荐列表长度为25;若某一篇目标文章的推荐列表长度不足25,则以其推荐列表长度为准;
S523、根据推荐结果与目标文章实际的参考文献作对比,计算召回率,公式如下:
Figure FDA0003885320820000071
其中,K为目标文章的总数,
Figure FDA0003885320820000072
为目标文章tpu的推荐列表中的所有文章集合,
Figure FDA0003885320820000073
为目标文章tpu的实际的参考文献集合;
S524、若没有达到设定的迭代次数或Recall@25<γ,继续下一步S525,否则跳出循环,确定当前的解
Figure FDA0003885320820000074
为最优解;
S525、计算每个粒子的速度
vh=vh+c1×rand×(pbest-xh)+c2×randx(gbest-xh)
其中,vh表示粒子在第h次迭代时的速度,c1,c2为学习因子,rand表示随机数,rand∈(0,1);
使用粒子的速度来更新第h+1次迭代时,粒子的位置xh+1=xh+vh,其中,
Figure FDA0003885320820000075
S53、将步骤S524中的最优权重
Figure FDA0003885320820000076
输入步骤S42中的相似度模型SIM(tpu,cpi)中,其中tpu∈TP,cpi∈CP;得到所有目标文章TP和所有候选文章CP之间的相似度;
S54、根据用户的推荐篇数的需求,为每篇目标文章返回相似性排名靠前的候选文章作为全局引文推荐算法的输出。
5.根据权利要求4中所述的基于元结构技术的全局引文推荐系统,其特征在于,所选的元结构和基于元结构的相似度通过所述元结构的BSCSE算法模块得到文章库中候选文章与目标文章的相似度,包括以下步骤:
S41、为S31步骤中所选的M个元结构赋予权重,权重依次为W={w1,w2,...,wM};其中,wM表示第M个元结构的权重;
S42、采用相似度模型以衡量目标文章tpu∈TP与候选文章cpt∈CP之间的相似性,相似度模型如下:
Figure FDA0003885320820000081
CN201910326299.2A 2019-04-23 2019-04-23 基于元结构技术的全局引文推荐方法、推荐系统 Active CN110083696B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910326299.2A CN110083696B (zh) 2019-04-23 2019-04-23 基于元结构技术的全局引文推荐方法、推荐系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910326299.2A CN110083696B (zh) 2019-04-23 2019-04-23 基于元结构技术的全局引文推荐方法、推荐系统

Publications (2)

Publication Number Publication Date
CN110083696A CN110083696A (zh) 2019-08-02
CN110083696B true CN110083696B (zh) 2022-11-25

Family

ID=67416146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910326299.2A Active CN110083696B (zh) 2019-04-23 2019-04-23 基于元结构技术的全局引文推荐方法、推荐系统

Country Status (1)

Country Link
CN (1) CN110083696B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688474B (zh) * 2019-09-03 2023-03-14 西北工业大学 基于深度学习与链接预测的嵌入表示获得及引文推荐方法
CN110598061A (zh) * 2019-09-20 2019-12-20 东北大学 一种多元图融合的异构信息网嵌入方法
CN111091005B (zh) * 2019-12-20 2022-05-13 北京邮电大学 一种基于元结构的无监督异质网络表示学习方法
CN113297462A (zh) * 2020-05-12 2021-08-24 阿里巴巴集团控股有限公司 数据处理方法、装置、设备和存储介质
CN111815396B (zh) * 2020-06-04 2024-05-31 清华大学 基于元图的产品筛选方法、系统、设备及存储介质
CN111831910A (zh) * 2020-07-14 2020-10-27 西北工业大学 一种基于异构网络的引文推荐算法
CN112148989B (zh) * 2020-10-16 2021-08-24 重庆理工大学 基于局部节点以及度折扣的社交网络节点影响力推荐系统
CN112364151B (zh) * 2020-10-26 2023-06-27 西北大学 一种基于图、引文和内容的论文混合推荐方法
CN113158041B (zh) * 2021-04-19 2022-07-29 电子科技大学 一种基于多属性特征的文章推荐方法
CN115129850A (zh) * 2022-06-20 2022-09-30 武汉大学 基于学术异质网络表示学习的参考文献引荐方法及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573103A (zh) * 2015-01-30 2015-04-29 福州大学 一种科技文献异构网络下合作作者推荐方法
CN107992542A (zh) * 2017-11-27 2018-05-04 中山大学 一种基于主题模型的相似文章推荐方法
CN109492156A (zh) * 2018-10-24 2019-03-19 宿州元化信息科技有限公司 一种文献推送方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2573685A1 (en) * 2011-09-23 2013-03-27 Alcatel Lucent Ranking of heterogeneous information objects

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573103A (zh) * 2015-01-30 2015-04-29 福州大学 一种科技文献异构网络下合作作者推荐方法
CN107992542A (zh) * 2017-11-27 2018-05-04 中山大学 一种基于主题模型的相似文章推荐方法
CN109492156A (zh) * 2018-10-24 2019-03-19 宿州元化信息科技有限公司 一种文献推送方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
学术异构信息网络中的作者合作关系预测;张舒虹;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20170315;第I138-3678页 *
结合节点度和节点聚类系数的链路预测算法;赵姝 等;《小型微型计算机系统》;20170804;第1436-1441页 *

Also Published As

Publication number Publication date
CN110083696A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN110083696B (zh) 基于元结构技术的全局引文推荐方法、推荐系统
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN104834735B (zh) 一种基于词向量的文档摘要自动提取方法
Deshpande et al. Building, maintaining, and using knowledge bases: a report from the trenches
CN105653706B (zh) 一种基于文献内容知识图谱的多层引文推荐方法
CN103440329B (zh) 权威作者和高质量论文推荐系统和推荐方法
CN109960756B (zh) 新闻事件信息归纳方法
CN103544267B (zh) 一种基于搜索建议词进行搜索的方法以及装置
Sarawagi et al. Open-domain quantity queries on web tables: annotation, response, and consensus models
CN104199833B (zh) 一种网络搜索词的聚类方法和聚类装置
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
Jotheeswaran et al. OPINION MINING USING DECISION TREE BASED FEATURE SELECTION THROUGH MANHATTAN HIERARCHICAL CLUSTER MEASURE.
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN103838833A (zh) 基于相关词语语义分析的全文检索系统
CN105335487A (zh) 基于农业技术信息本体库的农业专家信息检索系统及方法
CN106372122B (zh) 一种基于维基语义匹配的文档分类方法及系统
CN103544266A (zh) 一种搜索建议词生成的方法以及装置
Xue et al. Ontology alignment based on instance using NSGA-II
CN105740310B (zh) 一种用于问答系统中的自动答案摘要方法及系统
CN113962293A (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
JP5497105B2 (ja) 文書検索装置および方法
CN105005616A (zh) 基于文本图片特征交互扩充的文本图解方法及系统
Zhang et al. The use of dependency relation graph to enhance the term weighting in question retrieval
Nguyen et al. Social context summarization using user-generated content and third-party sources
Nikas et al. Open domain question answering over knowledge graphs using keyword search, answer type prediction, SPARQL and pre-trained neural models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230607

Address after: 100084 603a, 6th floor, building 6, yard 1, Zhongguancun East Road, Haidian District, Beijing

Patentee after: Beijing Zhipu Huazhang Technology Co.,Ltd.

Address before: 230000 No.3 Feixi Road, Shushan District, Hefei City, Anhui Province

Patentee before: ANHUI University

TR01 Transfer of patent right