CN110083696B - 基于元结构技术的全局引文推荐方法、推荐系统 - Google Patents
基于元结构技术的全局引文推荐方法、推荐系统 Download PDFInfo
- Publication number
- CN110083696B CN110083696B CN201910326299.2A CN201910326299A CN110083696B CN 110083696 B CN110083696 B CN 110083696B CN 201910326299 A CN201910326299 A CN 201910326299A CN 110083696 B CN110083696 B CN 110083696B
- Authority
- CN
- China
- Prior art keywords
- article
- articles
- meta
- similarity
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000005516 engineering process Methods 0.000 title claims abstract description 16
- 238000005457 optimization Methods 0.000 claims abstract description 38
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 239000002245 particle Substances 0.000 claims description 49
- 239000013256 coordination polymer Substances 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 9
- 239000000470 constituent Substances 0.000 claims 2
- 230000009191 jumping Effects 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000004140 cleaning Methods 0.000 abstract description 2
- 238000012216 screening Methods 0.000 abstract 1
- 238000011160 research Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000002068 genetic effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开基于元结构技术的全局引文推荐方法,对原始数据集进行文章提取、词频统计、关键短语筛选数据清洗操作,得到文章并使用文章、文章的作者、出版商和术语信息构建文章库;通过文章库中文章以及文章的作者、出版商和术语,建立异构信息网络;使用三度影响力原则选取三度以内的元结构,并依据所选的元结构和基于元结构的相似度计算技术得到文章库中文章的相似度;提出方法为每个元结构加权来融合文章间基于不同元结构获得的不同的相似度;使用优化算法优化以求得使推荐效果最优的权重;为每篇文章根据最优权重下的相似度和年份生成推荐列表。本发明通过元结构将语义信息融入到文章的相似性计算中,增强了引文推荐的可解释性。
Description
技术领域
本发明涉及信息推荐技术领域,尤其涉及基于元结构技术的全局引文推荐方法、推荐系统。
近年来,随着科学技术的发展,学者们把撰写论文作为展示自己科研成果的重要手段,随之带来的科研文献数量飞速的增长。因此,如何准确地、高效地为科研人员推荐参考文献是一个具有挑战性的任务。全局引文推荐可以提高科研人员查找文献的效率,增强初学者对当前领域的认知,同时一定程度上降低错、漏引出现的概率。
如专利申请201511026567.7公开的一种基于文献内容知识图谱的多层引文推荐方法,首先获取用户的查询需求,查询需求由需要推荐引用论文或引用文献的论文的标题和摘要的关键词构成。然后,基于文献内容的知识图谱扩展查询检索词语,知识图谱由文献的研究对象词语和研究行为词语结点,以及表示同义、近义、上下位、部分整体、并列等各种语义关系的边构成。最后,构建数据集中文献的倒排索引,选取候选引文,计算候选引文和查询的相似度,采用梯度渐进回归树来进行引文推荐。
又如专利申请201810994562.0公开的一种基于神经机器翻译技术的局部引文推荐方法及系统,通过对原始数据集进行引文提取、词形还原、词频统计数据清洗操作,得到引文上下文与被引文章标题的平行语料并构建初始待被引文章列表库;通过词向量模型中的跳字模型结合负采样的方法将引文上下文与被引文章标题中出现的词嵌入到低维语义空间得到词向量,构建一个带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架,将平行语料中的引文上下文通过词向量模型转换为词向量后作为模型的输入,被引文章标题作为输出来训练模型;将编码器-解码器框架输出的种子标题与待被引文章列表中的所有文章标题逐条进行余弦相似度计算;依据文章年份,选取符合要求的文章作为推荐列表。
目前,全局引文推荐主要有两种方法:(1)基于主题的方法;(2)基于图结构的方法。其中基于主题的方法认为引文周围的词与引文外部的词享有不同的主题分布,并根据引文上下文和文章主题的相关性来推荐引文。基于图结构的方法相对于基于主题的方法增加了更多的限定条件,例如将论文合作者信息加入到引文推荐中,构建多层图结构用以分析特征间的联系。然而每张图只能呈现出两个特征间的关系(邻接矩阵的行和列),这些分析方法并不能从全局的角度综合的考量文章与多种特征之间的关系。两种方法相比,基于主题适用于整理较为干净的文本,对文章的内容信息要求较高。而基于图结构的方法使用的文章特征较多,虽然精确度较高,但适用场景却十分有限。
发明内容
本发明所要解决的技术问题在于如何通过增强了引文推荐的可解释性来提高引文推荐的精确度。
本发明通过以下技术手段实现解决上述技术问题的:一种基于元结构技术的全局引文推荐方法,包括以下步骤:
S1、收集文章,构建原始数据集,原始数据集包括候选文章集与目标文章集;对原始数据集中的文章进行文章提取,得到文章的作者、出版商和术语,并使用文章、文章的作者、出版商和术语四种属性构建文章库;
S2、通过文章库中文章的作者、文章、术语和出版商四种属性建立异构信息网络;
S3、列举所有在异构信息网络中度数在三以内的元结构,并依据所选的元结构和基于元结构的相似度得到文章库中候选文章与目标文章的相似度;
S4、对S3中的每个元结构进行加权,用以融合文章间基于不同元结构获得的不同的相似度;根据候选文章与目标文章之间的相似度,为所有目标文章根据相似度排名生成推荐列表;
S5、使用优化算法优化推荐列表。
优选地,所述步骤S1中的术语的提取包括以下步骤:
S11、提取原始数据集中所有的文章信息,并去除信息不全的文章,将题目和摘要作为文章的文本信息;
S12、根据词频和逆文本频率指数相乘得到每个词的TF-IDF,文章中的某个词α的词频计算公式如下:
词a的逆文本频率计算公式如下:
根据词频和逆文本频率计算词a的TF-IDF值,公式如下:
TF-IDF=TF(a)×IDF(a)
取TF-IDF值排名靠近的词作为文章的关键词;
将每篇文章的文本输入TextBlob工具,得到每篇文章的关键短语;
S13、将步骤S11获得的关键词与步骤S12获得的关键短语进行合并、去重,将去重后的关键词、关键短语作为文章的术语。
优选地,所述S2中通过以下步骤建立异构信息网络;
S21、根据每篇文章和该文章包含的术语构建异构信息网络的文章、术语边;
S22、根据每篇文章和该文章的作者构建异构信息网络的文章、作者边;
S23、根据每篇文章和该文章的出版商构建异构信息网络的文章、出版商边;
S24、根据每篇候选文章和该候选文章的引文构建异构信息网络的文章、文章边。
优选地,所述S3包括以下步骤:
S31、列举所有在异构信息网络中文章、文章的作者、出版商和术语中度数在三以内的从文章节点出发到文章节点结束的M个元结构,表示为S={S1,S2,...,SM};
S32、使用基于元结构的BSCSE算法处理文章间基于S31中所有元结构的相似度,得到目标文章tpu与候选文章cpi在元结构下的相似度;
原始数据集中K篇目标文章TP={tp1,tp2,...,tpK}和N篇候选文章CP={cp1,cp2,...,cpN}之间基于所选的M个元结构下的相似度:
表示从目标文章节点的邻居节点中选出类型为的节点,其中,vl表示目标文章节点的邻居节点中,类型为的节点中的第l个, 表示网络中目标文章节点的所有邻居节点,表示目标文章节点的邻居节点个数,|V|表示网络中所有节点的个数;r(vl)∈{文章,作者,出版商,术语};
优选地,所述S4包括:
S41、为S31步骤中所选的M个元结构赋予权重,权重依次为W={w1,w2,...,wM};其中,wM表示第M个元结构的权重;
S42、采用相似度模型以衡量目标文章tpu∈TP与候选文章cpi∈CP之间的相似性,相似度模型如下:
优选地,所述S5采用粒子群优化算法,包括以下步骤:
S51、将待求解的权重W={w1,w2,...,wM}作为粒子群优化算法中待求解的问题,不同权重的排列组合构成解空间中不同的解,在粒子群优化算法第h次迭代中,解xh为并且,每个解xh作为粒子群优化算法中粒子的位置;
S52、在粒子群优化算法的下一次迭代中,解优化的过程中,将推荐的召回率作为目标函数,并且每个粒子记录自己所走过的位置中的最优位置pbest,优化过程中也会记录空间中所有粒子走过的位置中的最优位置gbest,设置终止的损失函数值γ,方法遵循以下步骤:
S522、根据候选文章与目标文章之间的相似度,为所有目标文章根据相似度排名生成推荐列表,推荐列表长度为25;若某一篇目标文章的推荐列表长度不足25,则以其推荐列表长度为准;
S523、根据推荐结果与目标文章实际的参考文献作对比,计算召回率,公式如下:
S525、计算每个粒子的速度
vh=vh+c1×rand×(pbest-xh)+c2×rand×(gbest-xh)
其中,vh表示粒子在第h次迭代时的速度,c1,c2为学习因子,rand表示随机数,rand∈(0,1);
S54、根据用户的推荐篇数的需求,为每篇目标文章返回相似性排名靠前的候选文章作为全局引文推荐算法的输出。
本发明还公开一种基于元结构技术的全局引文推荐系统,
包括:
文章库模块,用以构建文章、文章的作者、出版商和术语四种属性;
异构信息网络模块,用以构建文章、文章的作者、出版商和术语四种属性之间的网络关系;
元结构模块,用以列举所述属性在异构信息网络中度数在三以内的元结构;
BSCSE算法模块,所选的元结构和基于元结构的相似度通过所述BSCSE算法模块得到文章库中候选文章与目标文章的相似度;
相似度模型,用以融合文章间基于不同元结构获得的不同的相似度;
优化算法模块,用以优化相似度模型。
优选地,包括以下步骤建立所述异构信息网络;
S21、根据每篇文章和该文章包含的术语构建异构信息网络的文章、术语边;
S22、根据每篇文章和该文章的作者构建异构信息网络的文章、作者边;
S23、根据每篇文章和该文章的出版商构建异构信息网络的文章、出版商边;
S24、根据每篇文章和该文章的引文构建异构信息网络的文章、文章边。
优选地,所述S3列举所述属性在异构信息网络中度数在三以内的元结构,包括以下步骤:
S31、列举所有在异构信息网络中文章、文章的作者、出版商和术语中度数在三以内的从文章节点出发到文章节点结束的M个元结构,表示为S={S1,S2,...,SM};
S32、使用基于元结构的BSCSE算法处理文章间基于S31中所有元结构的相似度,得到目标文章tpu与候选文章cpi在元结构下的相似度;
原始数据集中K篇目标文章TP={tp1,tp2,...,tpK}和N篇候选文章CP={cp1,cp2,...,cpN}之间基于所选的M个元结构下的相似度:
表示从目标文章节点的邻居节点中选出类型为的节点,其中,vl表示目标文章节点的邻居节点中,类型为的节点中的第l个, 表示网络中目标文章节点的所有邻居节点,表示目标文章节点的邻居节点个数,|V|表示网络中所有节点的个数;r(vl)∈{文章,作者,出版商,术语};
优选地,所选的元结构和基于元结构的相似度通过所述元结构的BSCSE算法模块得到文章库中候选文章与目标文章的相似度,包括以下步骤:
S41、为S31步骤中所选的M个元结构赋予权重,权重依次为W={w1,w2,...,wM};其中,wM表示第M个元结构的权重;
S42、采用相似度模型以衡量目标文章tpu∈TP与候选文章cpi∈CP之间的相似性,相似度模型如下:
本发明的优点在于:从全局的角度出发,综合文章的各种特征,以及多种特征间的联系,来衡量两篇文章互为引用关系的可能性;异构信息网络蕴含着多种语义信息,本发明通过元结构将语义信息融入到文章的相似性计算中,增强了引文推荐的可解释性。
附图说明
图1为本发明实施例1的结构流程图。
图2为本发明实施例1中的异构信息网络的拓扑示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。
如图1所示,本实施例公开一种基于元结构技术的全局引文推荐方法,包括以下步骤:
S1、收集文章,构建原始数据集,对原始数据集进行文章提取,词频统计、逆文本频率指数计算以及关键短语筛选数据清洗,得到文章的作者、出版商和术语,并使用文章、文章的作者、出版商和术语构建文章库;
本实施方式中,需要对原始数据集中信息不全的文章进行去除,确定年份,发表在该年份之前的文章定义为候选文章,在该年份发表的文章定义为目标文章,候选文章集包含去除目标文章在该年份下的引文后得到的目标文章的引文。
将文章的题目和摘要作为文章的文本信息,计算词频和逆文本频率指数作为文本中词的权重;本实施例选择权重排名前十五的词语和采用TextBlob工具提取该文章的关键短语作为文章的术语。
在实际操作过程中,步骤S1具体包括以下步骤:
S11、提取原始数据集中所有的文章信息,并去除信息不全的文章(无题目、无摘要、无年份、无出版商、无作者,满足以上条件之一的均视为信息不全),将题目和摘要作为文章的文本信息;
S12、根据词频(TF)和逆文本频率指数(IDF)相乘得到每个词的TF-IDF,文章中的某个词α的词频计算公式如下:
词a的逆文本频率计算公式如下:
根据词频和逆文本频率计算词a的TF-IDF值,公式如下:
TF-IDF=TF(a)×IDF(a)
对于文章库中的每篇文章,取TF-IDF值排名前十五的词作为文章的关键词;
将每篇文章的文本输入TextBlob工具,使用该工具的“noun_phrases”(名词短语)功能得到每篇文章的关键短语;
S13、将步骤S11获得的关键词与步骤S12获得的关键短语使用现有技术的字符匹配进行合并、去重,将去重后的关键词、关键短语作为文章的术语。
S2、通过文章库中文章的作者1、文章2、术语3和出版商4共四种类型,建立异构信息网络,类型间的关系如图2所示;
本发明的异构信息网络为下式:
G=(V,E,T,φ,ψ)
其中,V表示网络中所有的节点,E表示网络中所有的边,T表示网络中所有的类型,对于网络中的任意一个节点v∈V和的任意一个边e∈E存在影射Φ(v):V→Tv和Ψ(v):E→TE;Tv和TE分别表示节点和边的类型,Tv={文本信息、作者、出版商、术语},TE={作者写文章(作者→文章)、文章被作者写(文章→作者)、文章发表在出版商(文章→出版商)、出版商刊登文章(出版商→文章)、文章包含术语(文章→术语)、术语属于文章(术语→文章)、文章引用文章(文章→文章)};
在本实施例中,在文章库里使用节点与节点之间表示一条边,点与点之间采用分隔符分隔。
在实际操作过程中,步骤S2具体包括以下步骤:
S21、根据每篇文章和该文章包含的术语构建异构信息网络的文章、术语边;
S22、根据每篇文章和该文章的作者构建异构信息网络的文章、作者边;
S23、根据每篇文章和该文章的出版商构建异构信息网络的文章、出版商边;
S24、根据每篇候选文章和该候选文章的引文构建异构信息网络的文章、文章边。因目标是为目标文章推荐候选文章集中的文章作为目标文章的引文,所以在异构信息网络构建中,不加入目标文章与其引文的连边;
S3、使用三度影响力原则选取三度以内的元结构,并依据所选的元结构和基于元结构的相似度技术计算得到文章库中文章的相似度;
本实施方式中,使用社交网络中的三度影响力原则来选取元结构,三度影响力原则认为信息在网络中传播的过程中,经过的对象越多,影响力会逐渐削弱,如果传播范围超出三度,则影响力会消失;本步骤计算异构信息网络中两个文章类型的节点的相似度时,若两篇文章通过三度以上(不包括三度)的元结构连接,则两篇文章之间的关联可以忽略。
在实际操作过程中,S3具体包括:
S31、列举所有在异构信息网络(包括文章、作者、术语和出版商构成)中度数在三以内的(包括三度)从目标文章节点出发到候选文章节点结束的M个元结构,表示为S={S1,S2,...,SM};
本步骤使用的元结构如表1所示:
表1
S32、使用基于元结构的BSCSE算法处理文章间基于S31中所有元结构的相似度,得到目标文章tpu与候选文章cpi在元结构下的相似度;
原始数据集中K篇目标文章TP={tp1,tp2,...,tpK}和N篇候选文章CP={cp1,cp2,...,cpN}之间基于所选的M个元结构下的相似度:
表示从目标文章节点的邻居节点中选出类型为的节点,其中,vl表示目标文章节点的邻居节点中,类型为的节点中的第l个, 表示网络中目标文章节点的所有邻居节点,表示目标文章节点的邻居节点个数,|V|表示网络中所有节点的个数;r(vl)表示网络中节点vl的类型,本发明节点的类型为四种,文章、作者,出版商和术语,r(vl)∈{文章,作者,出版商,术语};表示元结构Sj的第二项;
S4、对S3中的每个元结构进行加权,用以融合文章间基于不同元结构获得的不同的相似度;
在实际操作过程中,步骤S4具体包括:
S41、为S31步骤中所选的M个元结构赋予权重,权重依次为W={w1,w2,...,wM};其中,wM表示第M个元结构的权重;
S42、采用相似度模型以衡量目标文章tpu∈TP与候选文章cpi∈CP之间的相似性,相似度模型如下:
S5、使用优化算法优化以求得使推荐效果最优的权重;
本实施方式中,我们可以采用四种优化算法来优化相似度模型,分别是,遗传算法、粒子群优化算法、和声算法和模拟退火算法;在推荐的准确度上,遗传算法略高于其他三种算法,而在时间开销上,和声算法速度最快。
在本发明中,以粒子群优化算法为例,步骤S5具体包括:
S51、将待求解的权重W={w1,w2,...,wM}作为粒子群优化算法中待求解的问题,不同权重的排列组合构成解空间中不同的解,在粒子群优化算法第h次迭代中,解xh为并且,每个解xh作为粒子群优化算法中粒子的位置;
S52、在粒子群优化算法的下一次迭代中,解优化的过程中,将推荐的召回率作为目标函数,并且每个粒子记录自己所走过的位置中的最优位置pbest,优化过程中也会记录空间中所有粒子走过的位置中的最优位置gbest,设置终止的损失函数值γ,方法遵循以下步骤:
S522、根据候选文章与目标文章之间的相似度,为所有目标文章根据相似度排名生成推荐列表,推荐列表长度为25;若某一篇目标文章的推荐列表长度不足25,则以其推荐列表长度为准;
S523、根据推荐结果与目标文章实际的参考文献作对比,计算召回率,公式如下:
S525、计算每个粒子的速度
vh=vh+c1×rand×(pbest-xh)+c2×rand×(gbest-xh)
其中,vh表示粒子在第h次迭代时的速度,c1,c2为学习因子,rand表示随机数,rand∈(0,1)。
S6、为每篇文章根据最优权重下的相似度和年份生成推荐列表。
在实际操作过程中,步骤S6具体包括:
S62、根据用户的推荐篇数NUM的需求,也就是需要为每篇目标文章推荐NUM篇候选文章,所以,为每篇目标文章返回相似性排名靠前的NUM篇候选文章作为全局引文推荐算法的输出。NUM指推荐篇数。
实施例2
以题目为“Exploiting partial annotations with EM training”的文章为例,在数据集中,它的真实引文为“5275”,“4908”,“10302”,“12534”,“7374”,“3703”,“11213”,“2217”,“7400”,“12704”,“9144”,“9095”,“471”,“9733”,“10540”;我们的方法推荐的前10篇文章为“p9233”,“p10302”,“p7126”,“p7374”,“p8026”,“p8621”,“p1251”,“p3355”,“p9095”,“p11182”;其中,下划线“_”列出的文章为本方法预测正确的三篇文章,本方法在数据集中为每篇目标文章推荐5,10,15和20篇文章时的准确率和F1值如表2,表3所示,不同的优化算法对本技术的推荐效果影响不大,本方法同现有的引文推荐方法“文章-词图算法”和“多层次相互查询算法”的对比如表4所示,在推荐篇数25,50,75时在召回率和归一化折损累计增益两个指标下均对原方法有所提升。
表2
表3
表4
Claims (5)
1.一种基于元结构技术的全局引文推荐方法,其特征在于,包括以下步骤:
S1、收集文章,构建原始数据集,原始数据集包括候选文章集与目标文章集;对原始数据集中的文章进行文章提取,得到文章的作者、出版商和术语,并使用文章、文章的作者、出版商和术语四种属性构建文章库;
S2、通过文章库中文章的作者、文章、术语和出版商四种属性建立异构信息网络;
S3、列举所有在异构信息网络中度数在三以内的元结构,并依据所选的元结构和基于元结构的相似度得到文章库中候选文章与目标文章的相似度;
S4、对S3中的每个元结构进行加权,用以融合文章间基于不同元结构获得的不同的相似度;根据候选文章与目标文章之间的相似度,为所有目标文章根据相似度排名生成推荐列表;
S5、使用优化算法优化推荐列表;
其中,所述S2中通过以下步骤建立异构信息网络;
S21、根据每篇文章和该文章包含的术语构建异构信息网络的文章、术语边;
S22、根据每篇文章和该文章的作者构建异构信息网络的文章、作者边;
S23、根据每篇文章和该文章的出版商构建异构信息网络的文章、出版商边;
S24、根据每篇候选文章和该候选文章的引文构建异构信息网络的文章、文章边;
所述S3包括以下步骤:
S31、列举所有在异构信息网络中文章、文章的作者、出版商和术语中度数在三以内的从文章节点出发到文章节点结束的M个元结构,表示为S={S1,S2,...,SM};
S32、使用基于元结构的BSCSE算法处理文章间基于S31中所有元结构的相似度,得到目标文章tpu与候选文章cpt在元结构下的相似度;
原始数据集中K篇目标文章TP={tp1,tp2,...,tpK}和N篇候选文章cP={cp1,cp2,...,cpN}之间基于所选的M个元结构下的相似度:
其中,tpu表示第u篇目标文章,表示第u篇目标文章在网络中对应的节点,u∈[1,K];Sj表示第j个元结构;其中,d(Sj)表示元结构Sj的维度;j∈[1,M];cpi表示第i篇候选文章,表示第i篇候选文章在网络中对应的节点,i∈[1,N];
表示从目标文章节点的邻居节点中选出类型为的节点,其中,vi表示目标文章节点的邻居节点中,类型为的节点中的第l个, 表示网络中目标文章节点的所有邻居节点,表示目标文章节点的邻居节点个数,|V|表示网络中所有节点的个数;r(vl)∈{文章,作者,出版商,术语};
所述S5采用粒子群优化算法,包括以下步骤:
S51、将待求解的权重W={w1,w2,...,wM}作为粒子群优化算法中待求解的问题,不同权重的排列组合构成解空间中不同的解,在粒子群优化算法第h次迭代中,解xh为并且,每个解xh作为粒子群优化算法中粒子的位置;
S52、在粒子群优化算法的下一次迭代中,解优化的过程中,将推荐的召回率作为目标函数,并且每个粒子记录自己所走过的位置中的最优位置pbest,优化过程中也会记录空间中所有粒子走过的位置中的最优位置gbest,设置终止的损失函数值γ,方法遵循以下步骤:
S522、根据候选文章与目标文章之间的相似度,为所有目标文章根据相似度排名生成推荐列表,推荐列表长度为25;若某一篇目标文章的推荐列表长度不足25,则以其推荐列表长度为准;
S523、根据推荐结果与目标文章实际的参考文献作对比,计算召回率,公式如下:
S525、计算每个粒子的速度
vh=vh+c1×rand×(pbest-xh)+c2×rand×(gbest-xh)
其中,vh表示粒子在第h次迭代时的速度,c1,c2为学习因子,rand表示随机数,rand∈(0,1);
S54、根据用户的推荐篇数的需求,为每篇目标文章返回相似性排名靠前的候选文章作为全局引文推荐算法的输出。
2.根据权利要求1所述的基于元结构技术的全局引文推荐方法,其特征在于,所述步骤S1中的术语的提取包括以下步骤:
S11、提取原始数据集中所有的文章信息,并去除信息不全的文章,将题目和摘要作为文章的文本信息;
S12、根据词频和逆文本频率指数相乘得到每个词的TF-IDF,文章中的某个词α的词频计算公式如下:
词a的逆文本频率计算公式如下:
根据词频和逆文本频率计算词a的TF-IDF值,公式如下:
TF-IDF=TF(a)×IDF(a)
取TF-IDF值排名靠近的词作为文章的关键词;
将每篇文章的文本输入TextBlob工具,得到每篇文章的关键短语;
S13、将步骤S11获得的关键词与步骤S12获得的关键短语进行合并、去重,将去重后的关键词、关键短语作为文章的术语。
4.一种基于元结构技术的全局引文推荐系统,其特征在于,包括:
文章库模块,用以构建文章、文章的作者、出版商和术语四种属性;
异构信息网络模块,用以构建文章、文章的作者、出版商和术语四种属性之间的网络关系;
元结构模块,用以列举所述属性在异构信息网络中度数在三以内的元结构;
BSCSE算法模块,所选的元结构和基于元结构的相似度通过所述BSCSE算法模块得到文章库中候选文章与目标文章的相似度;
相似度模型,用以融合文章间基于不同元结构获得的不同的相似度;
优化算法模块,用以优化相似度模型;
其中,包括以下步骤建立所述异构信息网络;
S21、根据每篇文章和该文章包含的术语构建异构信息网络的文章、术语边;
S22、根据每篇文章和该文章的作者构建异构信息网络的文章、作者边;
S23、根据每篇文章和该文章的出版商构建异构信息网络的文章、出版商边;
S24、根据每篇文章和该文章的引文构建异构信息网络的文章、文章边;
所述列举所述属性在异构信息网络中度数在三以内的元结构,包括以下步骤:
S31、列举所有在异构信息网络中文章、文章的作者、出版商和术语中度数在三以内的从文章节点出发到文章节点结束的M个元结构,表示为S={S1,S2,...,SM};
S32、使用基于元结构的BSCSE算法处理文章间基于S31中所有元结构的相似度,得到目标文章tpu与候选文章cpi在元结构下的相似度;
原始数据集中K篇目标文章TP={tp1,tp2,...,tpK}和N篇候选文章CP={cp1,cp2,...,cpN}之间基于所选的M个元结构下的相似度:
表示从目标文章节点的邻居节点中选出类型为的节点,其中,vl表示目标文章节点的邻居节点中,类型为的节点中的第l个, 表示网络中目标文章节点的所有邻居节点,表示目标文章节点的邻居节点个数,|V|表示网络中所有节点的个数;
r(vl)∈{文章,作者,出版商,术语};
所述优化算法模块采用粒子群优化算法,包括以下步骤:
S51、将待求解的权重W={w1,w2,...,wM}作为粒子群优化算法中待求解的问题,不同权重的排列组合构成解空间中不同的解,在粒子群优化算法第h次迭代中,解xh为并且,每个解xh作为粒子群优化算法中粒子的位置;
S52、在粒子群优化算法的下一次迭代中,解优化的过程中,将推荐的召回率作为目标函数,并且每个粒子记录自己所走过的位置中的最优位置pbest,优化过程中也会记录空间中所有粒子走过的位置中的最优位置gbest,设置终止的损失函数值γ,方法遵循以下步骤:
S522、根据候选文章与目标文章之间的相似度,为所有目标文章根据相似度排名生成推荐列表,推荐列表长度为25;若某一篇目标文章的推荐列表长度不足25,则以其推荐列表长度为准;
S523、根据推荐结果与目标文章实际的参考文献作对比,计算召回率,公式如下:
S525、计算每个粒子的速度
vh=vh+c1×rand×(pbest-xh)+c2×randx(gbest-xh)
其中,vh表示粒子在第h次迭代时的速度,c1,c2为学习因子,rand表示随机数,rand∈(0,1);
S54、根据用户的推荐篇数的需求,为每篇目标文章返回相似性排名靠前的候选文章作为全局引文推荐算法的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910326299.2A CN110083696B (zh) | 2019-04-23 | 2019-04-23 | 基于元结构技术的全局引文推荐方法、推荐系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910326299.2A CN110083696B (zh) | 2019-04-23 | 2019-04-23 | 基于元结构技术的全局引文推荐方法、推荐系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110083696A CN110083696A (zh) | 2019-08-02 |
CN110083696B true CN110083696B (zh) | 2022-11-25 |
Family
ID=67416146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910326299.2A Active CN110083696B (zh) | 2019-04-23 | 2019-04-23 | 基于元结构技术的全局引文推荐方法、推荐系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110083696B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688474B (zh) * | 2019-09-03 | 2023-03-14 | 西北工业大学 | 基于深度学习与链接预测的嵌入表示获得及引文推荐方法 |
CN110598061A (zh) * | 2019-09-20 | 2019-12-20 | 东北大学 | 一种多元图融合的异构信息网嵌入方法 |
CN111091005B (zh) * | 2019-12-20 | 2022-05-13 | 北京邮电大学 | 一种基于元结构的无监督异质网络表示学习方法 |
CN113297462A (zh) * | 2020-05-12 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、设备和存储介质 |
CN111815396B (zh) * | 2020-06-04 | 2024-05-31 | 清华大学 | 基于元图的产品筛选方法、系统、设备及存储介质 |
CN111831910A (zh) * | 2020-07-14 | 2020-10-27 | 西北工业大学 | 一种基于异构网络的引文推荐算法 |
CN112148989B (zh) * | 2020-10-16 | 2021-08-24 | 重庆理工大学 | 基于局部节点以及度折扣的社交网络节点影响力推荐系统 |
CN112364151B (zh) * | 2020-10-26 | 2023-06-27 | 西北大学 | 一种基于图、引文和内容的论文混合推荐方法 |
CN113158041B (zh) * | 2021-04-19 | 2022-07-29 | 电子科技大学 | 一种基于多属性特征的文章推荐方法 |
CN115129850A (zh) * | 2022-06-20 | 2022-09-30 | 武汉大学 | 基于学术异质网络表示学习的参考文献引荐方法及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573103A (zh) * | 2015-01-30 | 2015-04-29 | 福州大学 | 一种科技文献异构网络下合作作者推荐方法 |
CN107992542A (zh) * | 2017-11-27 | 2018-05-04 | 中山大学 | 一种基于主题模型的相似文章推荐方法 |
CN109492156A (zh) * | 2018-10-24 | 2019-03-19 | 宿州元化信息科技有限公司 | 一种文献推送方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2573685A1 (en) * | 2011-09-23 | 2013-03-27 | Alcatel Lucent | Ranking of heterogeneous information objects |
-
2019
- 2019-04-23 CN CN201910326299.2A patent/CN110083696B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573103A (zh) * | 2015-01-30 | 2015-04-29 | 福州大学 | 一种科技文献异构网络下合作作者推荐方法 |
CN107992542A (zh) * | 2017-11-27 | 2018-05-04 | 中山大学 | 一种基于主题模型的相似文章推荐方法 |
CN109492156A (zh) * | 2018-10-24 | 2019-03-19 | 宿州元化信息科技有限公司 | 一种文献推送方法及装置 |
Non-Patent Citations (2)
Title |
---|
学术异构信息网络中的作者合作关系预测;张舒虹;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20170315;第I138-3678页 * |
结合节点度和节点聚类系数的链路预测算法;赵姝 等;《小型微型计算机系统》;20170804;第1436-1441页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110083696A (zh) | 2019-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083696B (zh) | 基于元结构技术的全局引文推荐方法、推荐系统 | |
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
CN104834735B (zh) | 一种基于词向量的文档摘要自动提取方法 | |
Deshpande et al. | Building, maintaining, and using knowledge bases: a report from the trenches | |
CN105653706B (zh) | 一种基于文献内容知识图谱的多层引文推荐方法 | |
CN103440329B (zh) | 权威作者和高质量论文推荐系统和推荐方法 | |
CN109960756B (zh) | 新闻事件信息归纳方法 | |
CN103544267B (zh) | 一种基于搜索建议词进行搜索的方法以及装置 | |
Sarawagi et al. | Open-domain quantity queries on web tables: annotation, response, and consensus models | |
CN104199833B (zh) | 一种网络搜索词的聚类方法和聚类装置 | |
CN106156272A (zh) | 一种基于多源语义分析的信息检索方法 | |
Jotheeswaran et al. | OPINION MINING USING DECISION TREE BASED FEATURE SELECTION THROUGH MANHATTAN HIERARCHICAL CLUSTER MEASURE. | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
CN103838833A (zh) | 基于相关词语语义分析的全文检索系统 | |
CN105335487A (zh) | 基于农业技术信息本体库的农业专家信息检索系统及方法 | |
CN106372122B (zh) | 一种基于维基语义匹配的文档分类方法及系统 | |
CN103544266A (zh) | 一种搜索建议词生成的方法以及装置 | |
Xue et al. | Ontology alignment based on instance using NSGA-II | |
CN105740310B (zh) | 一种用于问答系统中的自动答案摘要方法及系统 | |
CN113962293A (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
JP5497105B2 (ja) | 文書検索装置および方法 | |
CN105005616A (zh) | 基于文本图片特征交互扩充的文本图解方法及系统 | |
Zhang et al. | The use of dependency relation graph to enhance the term weighting in question retrieval | |
Nguyen et al. | Social context summarization using user-generated content and third-party sources | |
Nikas et al. | Open domain question answering over knowledge graphs using keyword search, answer type prediction, SPARQL and pre-trained neural models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230607 Address after: 100084 603a, 6th floor, building 6, yard 1, Zhongguancun East Road, Haidian District, Beijing Patentee after: Beijing Zhipu Huazhang Technology Co.,Ltd. Address before: 230000 No.3 Feixi Road, Shushan District, Hefei City, Anhui Province Patentee before: ANHUI University |
|
TR01 | Transfer of patent right |