Nothing Special   »   [go: up one dir, main page]

CN112966091B - 一种融合实体信息与热度的知识图谱推荐系统 - Google Patents

一种融合实体信息与热度的知识图谱推荐系统 Download PDF

Info

Publication number
CN112966091B
CN112966091B CN201911272709.6A CN201911272709A CN112966091B CN 112966091 B CN112966091 B CN 112966091B CN 201911272709 A CN201911272709 A CN 201911272709A CN 112966091 B CN112966091 B CN 112966091B
Authority
CN
China
Prior art keywords
entity
similarity
entities
information
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911272709.6A
Other languages
English (en)
Other versions
CN112966091A (zh
Inventor
杜雨燕
梁斌
梁家卿
肖仰华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201911272709.6A priority Critical patent/CN112966091B/zh
Publication of CN112966091A publication Critical patent/CN112966091A/zh
Application granted granted Critical
Publication of CN112966091B publication Critical patent/CN112966091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的在于提出能够充分利用知识图谱中语义信息以及图结构信息的推荐系统,该系统的主要特点包括:采用了实体的语义相似度的计算方法;采用了针对实体推荐应用的实体嵌入的计算方法;结合了图谱中的语义信息与图结构信息推荐实体。推荐系统具体包括:实体相似度计算模块,获取知识图谱的文本信息输入后计算获得实体的相似度;图谱嵌入式表示学习模块,以知识图谱中实体间的关系作为输入获得实体的嵌入式表示;以及实体推荐生成模块,基于用户的点击反馈数据,将实体相似度计算模块得到的相似度以及图谱嵌入式表示学习模块得到的嵌入式表示融合成最终相似度分数,从而让推荐应用向用户推荐实体。

Description

一种融合实体信息与热度的知识图谱推荐系统
技术领域
本发明属于信息技术领域,涉及一种信息内容推荐系统,具体涉及融合实体信息与热度的知识图谱推荐系统。
背景技术
随着信息技术的迅猛发展,各个领域的大量数据不断交叉融合,生成了超越以往任何年代的巨量数据,造成了信息过载的问题;同时,信息爆炸使得信息的利用率降低,导致用户难以高效获取信息,因此,如何让用户从海量的信息中有效地获取信息成为了一件值得深入挖掘的课题。
传统的搜索算法(即基于用户的搜索词进行相关对象搜索的方法)只能呈现给用户相同对象的排序结果,无法针对不同用户兴趣爱好提供相应服务的排序结果。
为此,现有技术的网页浏览、APP浏览等信息浏览手段中多采用推荐系统,即,根据用户的当前浏览情况或浏览记录等向用户推荐并推送相关信息。推荐系统作为一种重要的信息过滤手段,是当前解决信息超载的有效方法之一,能够根据用户提供的相对模糊的意图推荐用户感兴趣的信息。
现有的技术中,推荐系统所采用的推荐方法可以分为三类:1)基于内容相似度的推荐,该方法根据用户当前已经选择的对象为用户提供推荐,通过当前对象判断用户的兴趣内容,推荐与当前访问对象在内容上相似的其他对象。2)协同过滤推荐,其核心思想是利用与用户行为相似的其他用户群体的历史行为来推荐,用户的历史行为一般被表示成用户到对象的关系矩阵,通过该关系矩阵计算获取历史行为相似的用户,从而推荐用户感兴趣的内容。该方法是推荐系统算法中最著名的,在有足够量的用户行为数据时效果很好。3)基于知识图谱的推荐推荐,知识图谱是一种语义网络,将不同类型的实体通过各种样语义关系给联在一起,这些实体以及关系一起构成了一个大规模的图。由于知识图谱中包含了丰富的实体之间的语义关联知识,近年来一些推荐系统利用知识图谱的知识,引入了图谱中的辅助信息,提出了基于图谱中实体路径的推荐方法以及基于特征的推荐方法。
上述现有的推荐技术中,主要存在数据的稀疏性问题与推荐系统在缺少用户数据时的冷启动问题。在现实的应用场景中,由于用户往往只会直接与少量的物品存在任意形式的交互,因此用户与物品的交互信息一般是非常稀疏的。例如在电影的推荐场景中,电影的总数可能有上万部之多,而每个用户打过分的电影一般仅有几十部。利用如此稀疏的观测数据来预测大量未知信息时,会极大增加模型过拟合的风险。作为目前最为流行的推荐算法,协同过滤在系统仅有少量的用户行为的积累时难以提供有效的推荐;而且,对于新加入的用户或者物品,由于系统中没有其对应的交互信息,因此也难以准确地进行建模和推荐。而现有的基于知识图谱的推荐往只利用了少量的知识图谱中的知识,没有充分使用图谱中的语义信息与图结构信息,使得推荐效果尚有缺陷。
发明内容
为解决上述问题,本发明提出了一种能够充分利用知识图谱中语义信息以及图结构信息的推荐系统,该系统的主要特点包括:1)采用了实体的语义相似度的计算方法;2)采用了针对实体推荐应用的实体嵌入的计算方法;3)结合了图谱中的语义信息与图结构信息推荐实体。
具体地,本发明提供了一种融合实体信息与热度的知识图谱推荐系统,设置在对用户进行实体推荐的推荐应用中,用于根据由多个实体的相关信息建立的知识图谱以及用户在浏览实体相关信息时的点击反馈信息获得实体的相似度分数从而让推荐应用根据该相似度分数进行推荐,其特征在于,包括:实体相似度计算模块,获取知识图谱的文本信息输入后利用该知识图谱中实体的实体名、文本描述信息、三元组语义信息计算获得实体的相似度;图谱嵌入式表示学习模块,包含一个针对推荐应用改进后的TransE模型,以知识图谱中实体间的关系作为输入进行机器学习从而获得知识图谱中实体的嵌入式表示;以及实体推荐生成模块,基于用户的点击反馈数据,将实体相似度计算模块得到的相似度以及图谱嵌入式表示学习模块得到的嵌入式表示融合成最终相似度分数,从而让前述的推荐应用根据该相似度分数向用户推荐实体。
本发明提供的融合实体信息与热度的知识图谱推荐系统,还可以具有这样的技术特征,其中,实体相似度计算模块包括用于计算实体的名称之间相似度的字面相似度计算子模块、用于计算实体的描述文本之间相似度的文本相似度计算子模块以及根据字面相似度计算子模块和文本相似度计算子模块的结果生成实体相似度矩阵作为相似度的矩阵生成子模块。
进一步,上述融合实体信息与热度的知识图谱推荐系统,还可以具有这样的技术特征,其中,字面相似度计算子模块以实体的实体名作为输入,基于最长公共子序列LCS以及编辑距离Levenshtein计算得到实体的文本相似度,设实体ei与ej所对应的实体名为si与sj,实体ei与ej的基于最长公共子序列LCS的相似度SimLCSij为:
Figure BDA0002314636270000031
上式中,|LCS(si,sj)|为si与sj最长公共子序列长度,|si|与|sj|分别为si与sj的长度;
实体ei与ej的基于编辑距离Levenshtein的相似度SimEDij为:
Figure BDA0002314636270000032
上式中,ldist(si,sj)为si与sj的类编辑距离,|si|与|sj|分别为si与sj的长度。
进一步,上述融合实体信息与热度的知识图谱推荐系统,还可以具有这样的技术特征,其中,文本相似度计算子模块以各实体的描述文本作为输入文档,分别使用TF-IDF、LSI模型、LDA模型、HDP模型和Jaccard系数五个指标计算实体的文本相似度。
进一步,上述融合实体信息与热度的知识图谱推荐系统,还可以具有这样的技术特征,其中,对于实体ei与ej,设该两个实体ei与ej所对应的描述文本分别为di与dj
实体ei与ej的基于TF-IDF的相似度SimTFIDFij为:
SimTFIDFij=cos(vi,vj)
上式中,vi为di的TF-IDF加权后的向量,其每一维wij定义为平滑后的TF-IDF因子;
实体ei与ej的基于LSI的相似度SimLSIij为:
SimLSIij=cos(vi,vj)
上式中,vi为D′中di对应的向量,vj为D′中dj对应的向量,D′为降维后的文档向量化表示;
实体ei与ej的基于LDA的相似度SimLDAij为:
SimLDAij=cos(vi,vj)
上式中,vi为di对应的(文档-主题)分布,vj为dj对应的(文档-主题)分布;
实体ei与ej的基于HDP的相似度SimHDPij为:
SimHDPij=cos(vi,vj)
上式中,vi为di对应的(文档-主题)分布,vj为dj对应的(文档-主题)分布;
实体ei与ej的基于Jaccard的相似度SimJaccardij为:
Figure BDA0002314636270000041
上式中,Inter(di,dj)为di与dj中词汇的交集,Union(di,dj)为di与dj中词汇的并集。
本发明提供的融合实体信息与热度的知识图谱推荐系统,还可以具有这样的技术特征,
其中,图谱嵌入式表示学习模块采用基于TransE算法的改进方法进行学习,该方法中对于TransE算法的改进在于:
在训练时,每条边引入权重w:
Figure BDA0002314636270000051
Figure BDA0002314636270000052
上式中,vt为尾实体的访问次数,用于衡量实体的流行度;vmax、vmin分别表示头实体h的所有的边中最大、最小访问次数,用于归一化每个实体的权重;α为超参,用于补偿低流行度的边的权重,对于知识图谱的中的每条边<h,r,t>,计算权重w,得到模型的一组输入(h,r,t,w),最终的loss function为:
Figure BDA0002314636270000053
上式中,(h′,r,t′)代表负样本;γ为margin超参,取值为预先设定。
进一步,上述融合实体信息与热度的知识图谱推荐系统,还可以具有这样的技术特征,其中,γ的取值为1。
本发明提供的融合实体信息与热度的知识图谱推荐系统,还可以具有这样的技术特征,其中,实体推荐生成模块采用改进RankNet模型,改进RankNet模型包含底层、中间层、主体部分以及输出层,底层具有三个输入veci,vecj,veck,该三个输入veci,vecj,veck分别为实体ei,ej,ek的嵌入式表示,经由底层部分的计算得到实体间的嵌入式表示的差距;中间层还具有两个输入simk.i与simk.j,该simk.i与simk.j分别为实体对(ei,ek)与(ej,ek)的相似度分数向量,该中间层的输入与上述底层的输出(即计算得到的嵌入式表示的差距)相结合,经由主体部分计算得出Sk,i以及Sk,j,输出层采用如下计算式计算得到probi,j作为最终相似度分数:
Figure BDA0002314636270000054
上式中,Pij为实体ei比ej与目标实体ek更相关的概率,即probi,j
进一步,上述融合实体信息与热度的知识图谱推荐系统,还可以具有这样的技术特征,其中,改进RankNet模型训练时采用各个用户的访问数据作为输入,获得训练完成的改进RankNet模型分别与各个用户对应。
发明作用与效果
根据本发明提供的融合实体信息与热度的知识图谱推荐系统,由于实体相似度计算模块能够利用知识图谱中实体的实体名、文本描述信息、三元组语义信息计算实体的相似度,图谱嵌入式表示学习模块能够以知识图谱中实体间的关系作为输入学习获得知识图谱中实体的嵌入式表示,实体推荐生成模块能够利用用户的点击反馈数据,将上述实体相似度计算模块、图谱嵌入式表示学习模块的输出融合成最终相似度分数,因此,基于该最终相似度分数进行实体相似度排序以及实体推荐时,不仅能够充分利用知识图谱中的语义信息以及图结构信息,还能够结合用户的意图,推荐结果更为准确且具有个性化的优点。
附图说明
图1为本发明实施例的融合实体信息与热度的知识图谱推荐系统的构成图;
图2是本发明实施例的实体相似度计算模块的构成示意图;
图3是TransE算法的核心思想示意图;
图4是本发明实施例的实体推荐生成模块的模型框架示意图。
具体实施方式
以下说明本发明的具体实施方式。
图1为本发明实施例的融合实体信息与热度的知识图谱推荐系统的构成图。
如图1所示,本实施例的融合实体信息与热度的知识图谱推荐系统(以下简称推荐系统)100包括实体相似度计算模块10、图谱嵌入式表示学习模块20以及实体推荐生成模块30。
本实施例的推荐系统100用于在建立可被推荐的多个对象(即不同的实体,例如网购商品)的知识图谱200后,根据该知识图谱200进行实体推荐。该推荐系统100可以设置在需要对用户进行实体推荐的推荐应用中,这些推荐应用可以是网购网站、综合性内容发布网站及相关APP等。其中,知识图谱200为根据该推荐应用所涉及的实体信息(例如商品的名称、属性、类别、文字简介/描述等)将不同类型的实体通过各种样语义关系联系在一起而得到,具体获得方法可以参照现有技术中的知识图谱获得构建方法,在此不再赘述。
实体相似度计算模块10在获取知识图谱的文本信息输入后,利用知识图谱200中实体的实体名、文本描述信息、三元组语义信息计算实体的相似度,进而获得多个推荐实体;图谱嵌入式表示学习模块20以知识图谱200中实体间的关系作为输入,使用一个针对推荐应用改进后的TransE模型,学习获得知识图谱200中实体的嵌入式表示,从而充分利用图谱中蕴含的丰富的图结构信息;实体推荐生成模块30包含一个基于RankNet的推荐排序模型,利用用户的点击反馈数据,将上述实体相似度计算模块10、图谱嵌入式表示学习模块20的输出融合成最终相似度分数,从而让前述的推荐应用根据该相似度分数向用户推荐实体(例如将相似度分数高的实体信息显示在内容浏览界面中以便用户点击查看)。
以下依次说明各个模块的结构以及具体工作原理。
1、实体相似度计算模块
本实施例的实体相似度计算模块10的输入信息为知识图谱200中获取的实体名、文本描述信息、三元组语义信息,其中,对于知识图谱200中结构化的三元组信息<h,r,t>,转成非结构化的文本数据加入到实体的文本描述中,计算总体的文本相似度。
图2是本发明实施例的实体相似度计算模块的构成示意图。
如图2所示,实体相似度计算模块10包括用于计算实体的名称之间相似度的字面相似度计算子模块11、用于计算实体的描述文本之间相似度的文本相似度计算子模块12以及根据字面相似度计算子模块11和文本相似度计算子模块12的结果生成实体相似度矩阵的矩阵生成子模块13。
实体的名称(即实体名)往往蕴含了很多直观的信息,本实施例的字面相似度计算子模块11以实体名作为输入,基于最长公共子序列LCS以及编辑距离Levenshtein计算得到实体的文本相似度。
基于LCS的字面相似度计算采用如下方式:
如果一个序列S任意删除若干个字符得到的新序列T,则T叫做S的子序列。两个序列X和Y的公共子序列中,长度最长的子序列,定义为X和Y的最长公共子序列。设实体ei与ej所对应的实体名为si与sj,则它们的基于最长公共子序列的相似度SimLCSij为:
Figure BDA0002314636270000081
其中,|LCS(si,sj)|为si与sj最长公共子序列长度,|si|与|sj|分别为si与sj的长度。
基于Levenshtein的字面相似度计算采用如下方式:
Levenshtein距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数,是一种利用操作步数来衡量相似度的距离度量函数。
本实施例中许可的编辑操作包括:将一个字符替换成另一个字符;插入一个字符;删除一个字符。本实施例中具体使用编辑距离中的类编辑距离来进行衡量,即,删除、插入操作步数+1,但是替换操作步数+2。
对于实体名si与sj,它们的基于编辑距离Levenshtein的相似度SimEDij为:
Figure BDA0002314636270000082
其中,ldist(si,sj)为si与sj的类编辑距离,|si|与|sj|分别为si与sj的长度。
文本相似度计算子模块12以各实体的描述文本作为输入文档,分别使用TF-IDF、LSI模型、LDA模型、HDP模型和Jaccard系数五个指标计算实体的文本相似度。对于输入文档,先进行分词、去掉停用词后将其向量化(词袋模型),即完成预处理,然后使用四种相似度模型对预处理后的输入文档两两之间的相似度进行计算。
基于TF-IDF的实体文本相似度计算采用如下方式:
预处理后得到的特征项以向量空间模型表示,并使用TF-IDF因子进行特征项加权,用向量夹角余弦计算文档相似性。
对于实体ei与ej,他们所对应的描述文本为di与dj,它们的基于TF-IDF的相似度SimTFIDFij为:
SimTFIDFij=cos(vi,vj)
其中,vi为di的TF-IDF加权后的向量,其每一维wij定义为平滑后的TF-IDF因子:
Figure BDA0002314636270000091
其中,tfij为给定单词在文档中的词频,N为语料库的文档总数,dfij为包含该单词的文档数目。
基于LSI的实体文本相似度计算采用如下方式:
LSI通过SVD捕获单词之间的相关性,将文档向量映射到一个新的语义向量空间。对于一个(单词-文档)矩阵,奇异值分解后保留最大的k个奇异值,得出降维后的文档向量化表示D′。
对于描述文本di与dj,它们的基于LSI的相似度SimLSIij为:
SimLSIij=cos(vi,vj)
其中,vi为D′中di对应的向量,vj为D′中dj对应的向量。
基于LDA的实体文本相似度计算采用如下方式:
LDA模型通过类似词聚类的办法将相似词聚类为一个主题,使得同一主题下的词具有近义词的特性,而不同主题之间的词具有多义词的特性。在使用LDA进行文本相似的计算时,其目标是找到每一篇文档的主题分布,并使用该主题分布来计算文本间的相似度。
对于描述文本di与dj,它们的基于LDA的相似度SimLDAij为:
SimLDAij=cos(vi,vj)
其中,vi为di对应的(文档-主题)分布,vj为dj对应的(文档-主题)分布。
基于HDP的实体文本相似度计算采用如下方式:
HDP在狄利克雷过程的基础上,可以自动学习主题数目,它使用一个趋于无限的概率测度取代LDA中有限的主题混合,根据不同的混合比例为每个文档建立一个新的DP,提取的主题被所有DP所共享,但不同的DP具有不同的混合比例,可以通过从上层的DP中抽样获取。
与LDA类似,对于描述文本di与dj,它们的基于HDP的相似度SimHDPij为:
SimHDPij=cos(vi,vj)
其中,vi为di对应的(文档-主题)分布,vj为dj对应的(文档-主题)分布。
基于Jaccard的实体文本相似度计算采用如下方式计算:
直观上来说,两个句子的相同部分越大,共现的词汇数目越多,它们的相似度应该越高,传统的Jaccard算法正是基于这样的思想。而共现词相对于所有词汇所占的比例可以从数值上反映这两个句子的相似度。
对于描述文本di与dj,它们的基于Jaccard的相似度SimJaccardij为:
Figure BDA0002314636270000101
其中,Inter(di,dj)为di与dj中词汇的交集,Union(di,dj)为di与dj中词汇的并集。
上述不同的相似度计算完成后,矩阵生成模块13按照两两配对关系对实体对之间的各种相似度结果进行汇总,从而形成不同的实体对之间的相似度矩阵。
2、图谱嵌入式表示学习模块
图谱嵌入式表示学习模块20的作用在于意在利用知识图谱实体间的关系推荐实体,使用图嵌入学习方法(Graph embedding)为知识图谱中的每个实体和关系进行学习得到一个低维向量,保持图中原有的结构信息,该信息将作为下一模块的重要输入,影响系统最终的实体推荐输出。
本实施例中,图谱嵌入式表示学习模块20采用基于TransE算法的改进方法进行学习。
图3是TransE算法的核心思想示意图。
如图3所示,TransE算法是一个经典的知识图谱的图嵌入学习方法,其中,对于一组三元组<head,relation,tail>,(h+r)应该尽可能地与t相等。
在TransE算法中,每个三元组都同等重要,也就是说,其每一条<h,t,r>边的权重都是相同的。而在许多推荐应用中,用户可能更倾向于更加热门的实体的推荐。比如,知识图谱200中实体“吴京”有多部“代表作品”:<吴京,代表作品,流浪地球>、<吴京,代表作品,少林武王>,显然对于用户而言,当接收实体“吴京”的相关实体推荐时,他们更倾向于需要热门实体“流浪地球”的推荐。
本实施例针对上述推荐应用的特性,在TransE算法的基础上,对实体的嵌入式学习方法进行了修改。在训练时,每条边引入权重w:
Figure BDA0002314636270000111
其中,vt为尾实体的访问次数,用于衡量实体的流行度;vmax、vmin分别表示头实体h的所有的边中最大、最小访问次数,用于归一化每个实体的权重;α为超参,用于补偿低流行度的边的权重。
由于知识图谱200中还存在一些访问次数高的平凡实体,但在应用中我们并不需要这条边有太重的权重,如三元组<吴京,国籍,中国>里,实体“中国”的访问次数是非常高,这对于推荐任务来说是不合适的。
因此,考虑到对于一个实体,如果其入度数量过高,那么以这个实体作尾实体的关系本身所含信息量就偏低,本模块引入尾实体的入度的算术平方根作为此类平凡实体的衡量指标,更新后的权重w为:
Figure BDA0002314636270000112
对于知识图谱的中的每条边<h,r,t>,计算其权重w,得到模型的一组输入(h,r,t,w),最终的损失函数为:
Figure BDA0002314636270000113
其中,(h′,r,t′)代表负样本;γ为margin超参,本实施例取值为1。
3、实体推荐生成模块
本实施例的实体推荐生成模块30包含一个排序模型,该模型的训练采用基于Pairwise的训练方法,利用用户点击数据训练模型中的参数w。
现有技术中,直接利用基于语义信息的实体相似度计算模块可以提供一套无监督的实体推荐方案,即,根据用户关心内容(例如正在浏览的实体内容),将相似度高的其他实体进行排序并推荐给用户。但是,这样的推荐系统中,排序的好坏完全取决于模型的输出,而无监督的方法输出的排序结果难以反映用户的偏好,它仅使用ranking分数的方法将不同相似度模型的分数相加,因此无法拟合真实环境下用户的行为。为了将用户在真实环境中的选择偏好结果融入推荐系统中,问题转换成了如何利用用户访问数据去获得最优的模型参数w。
本实施例中,训练模型是一种基于Pairwise的排序学习方法,因此其训练集中,每一个训练样例为一对具有偏序关系的实体对。实体推荐生成模块30中的模型在训练时采用的训练数据集从用户点击数据中构建:通过系统中用户在推荐引擎呈现给用户的链接的点击记录,将系统中原有的推荐列表中的实体与目标实体的相关程度进行排序,从该排序中选取一个高点击量的实体以及一个低点击量的实体,构建一对具有偏序关系的实体对作为一组训练数据。具体利用方法如下:
对于图谱中的某一目标实体ek,将曾经被推荐引擎呈现给用户的ek的实体按用户通过该推荐链接的点击次数排序,取该排序序列的前N个实体和后N个实体构成两个集合Ak与Bk,认为相对于集合Bk中的实体而言,集合Ak中的实体与实体ek更为相关。分别从Ak与Bk取出一个实体构成一个实体对(ei,ej),若ei∈Ak,ej∈Bk则目标Y=1,反之则Y=0。
图4是本发明实施例的实体推荐生成模块的模型框架示意图。
如图4所示,实体推荐生成模块30中采用了一个RankNet模型,该模型用于预测实体之间的更相关概率,即,对于任意一个实体对ei与ej,预测ei比ej更与目标实体ek相关的概率Pij为:
Figure BDA0002314636270000121
具体地,模型结构如图4所示。该模型的底层具有三个输入,即veci,vecj,veck,该三个输入veci,vecj,veck分别为实体ei,ej,ek的嵌入式表示,由图谱嵌入式表示学习模块20得到。veci,vecj,veck输入模型底层后,经由模型底层部分中的计算式得到两实体间的嵌入式表示的差距:
disk,i=veck-veci
模型的中间层还具有两个输入,即simk.i与simk.j,该simk.i与simk.j分别为实体对(ei,ek)与(ej,ek)的相似度分数向量,该中间层的输入与上述底层的输出(即计算得到的嵌入式表示的差距)相结合,经由模型的主体部分计算得出Sk,i以及Sk,j,再经由上式计算可得probi,j,该probi,j即为实体ei比ej更与目标实体ek相关的概率Pij,即最终相似度分数。
由此,模型中,增加了实体在知识图谱200中的距离特征,从而能够在得出最终相似度分数的同时衡量两个实体在知识图谱200中的远近关系。另外,模型的主体部分采用现有技术的RankNet模型的架构,其含有多个DENSE模块,具体结构及工作原理与现有技术中的RankNet模型相同,在此不再赘述。
实施例的作用与效果
本实施例中,由于实体相似度计算模块能够利用知识图谱中实体的实体名、文本描述信息、三元组语义信息计算实体的相似度,图谱嵌入式表示学习模块能够以知识图谱中实体间的关系作为输入学习获得知识图谱中实体的嵌入式表示,实体推荐生成模块能够利用用户的点击反馈数据,将上述实体相似度计算模块、图谱嵌入式表示学习模块的输出融合成最终相似度分数,因此,基于该最终相似度分数进行实体相似度排序以及实体推荐时,不仅能够充分利用知识图谱中的语义信息以及图结构信息,还能够结合用户的意图,推荐结果更为准确且具有个性化的优点。
现有的类似表示学习方法在训练时往往忽视了三元组本身的质量,公平地对待图谱中的每一组三元组,本实施例中,由于图谱嵌入式表示学习模块通过尾实体热度与其入度信息,衡量三元组的权重,因此,与现有技术相比,本实施例这样的图谱嵌入式表示学习模块能够使质量更高的三元组拥有更高的训练权重,从而提高表示学习算法的效果。
实施例中,由于实体相似度计算模块包括用于计算实体的名称之间相似度的字面相似度计算子模块、用于计算实体的描述文本之间相似度的文本相似度计算子模块,该两个模块能够利用知识图谱中所拥有的大量知识信息,如三元组信息与实体描述信息等,可以在不需要用户点击或反馈数据的情况下进行无监督的实体相似度的计算,该计算结果就可以提供实体之间的相似度排序而让推荐应用为用户提供推荐的实体列表,因此,本实施例的推荐系统是一种不需要用户点击或反馈就能启动的系统,即,是一种冷启动系统,与现有技术中需要热启动的系统(即需要一定量的用户点击或反馈数据才能进行推荐)相比,应用时环境限制小。
实施例的实体推荐生成模块可以利用用户的点击信息,通过一种基于排序学习方法的模型,融合实体相似度计算模块所得的实体间相似度与图谱嵌入式表示学习模块所得的实体嵌入式向量信息,然后得到实体的最终相似度分数,基于该最终相似度分数来为相似实体进行排序,即可使得排序结果更拟合用户的真实意图,达到更好的个性化推荐效果。

Claims (6)

1.一种融合实体信息与热度的知识图谱推荐系统,设置在对用户进行实体推荐的推荐应用中,用于根据由多个所述实体的相关信息建立的知识图谱以及所述用户在浏览所述实体相关信息时的点击反馈信息获得所述实体的相似度分数从而让所述推荐应用根据该相似度分数进行推荐,其特征在于,包括:
实体相似度计算模块,获取所述知识图谱的文本信息输入后利用该知识图谱中实体的实体名、文本描述信息、三元组语义信息计算获得所述实体的相似度;
图谱嵌入式表示学习模块,包含一个针对推荐应用改进后的TransE模型,以所述知识图谱中实体间的关系作为输入进行机器学习从而获得所述知识图谱中所述实体的嵌入式表示;以及
实体推荐生成模块,基于所述用户的点击反馈数据,将所述实体相似度计算模块得到的所述相似度以及所述图谱嵌入式表示学习模块得到的所述嵌入式表示融合成最终相似度分数,从而让前述的推荐应用根据该相似度分数向所述用户推荐所述实体,
其中,所述实体相似度计算模块包括字面相似度计算子模块、文本相似度计算子模块以及矩阵生成子模块,
所述字面相似度计算子模块以所述实体的实体名作为输入,基于最长公共子序列LCS以及编辑距离Levenshtein计算得到所述实体的名称之间相似度,
所述文本相似度计算子模块以各所述实体的描述文本作为输入文档,分别使用TF-IDF、LSI模型、LDA模型、HDP模型和Jaccard系数五个指标计算所述实体的文本相似度,
所述矩阵生成子模块按照两两配对关系对实体对之间的各种相似度结果进行汇总,形成所述实体对之间的相似度矩阵,
所述图谱嵌入式表示学习模块采用基于TransE算法的改进方法为所述知识图谱中的每个所述实体和关系进行学习得到低维向量,即所述嵌入式表示,该方法中对于TransE算法的改进在于:
在训练时,每条边引入权重w:
Figure FDA0003829539180000021
上式中,vt为尾实体的访问次数,用于衡量实体的流行度;vmax、vmin分别表示头实体h的所有的边中最大、最小访问次数,用于归一化每个实体的权重;α为超参,用于补偿低流行度的边的权重,
考虑到对于一个实体,如果其入度数量过高,那么以这个实体作尾实体的关系本身所含信息量就偏低,引入尾实体的入度的算术平方根作为此类平凡实体的衡量指标,更新后的权重w为:
Figure FDA0003829539180000022
对于知识图谱的中的每条边<h,r,t>,计算所述权重w,得到模型的一组输入(h,r,t,w),最终的loss function为:
Figure FDA0003829539180000023
上式中,(h′,r,t′)代表负样本;γ为margin超参,取值为预先设定。
2.根据权利要求1所述的融合实体信息与热度的知识图谱推荐系统,其特征在于:
其中,所述字面相似度计算子模块中,
设实体ei与ej所对应的实体名为si与sj
所述实体ei与ej的基于最长公共子序列LCS的相似度SimLCSij为:
Figure FDA0003829539180000031
上式中,|LCS(si,sj)|为si与sj最长公共子序列长度,|si|与|sj|分别为si与sj的长度;
所述实体ei与ej的基于编辑距离Levenshtein的相似度SimEDij为:
Figure FDA0003829539180000032
上式中,ldist(si,sj)为si与sj的类编辑距离,|si|与|sj|分别为si与sj的长度。
3.根据权利要求1所述的融合实体信息与热度的知识图谱推荐系统,其特征在于:
其中,所述文本相似度计算子模块中,
对于实体ei与ej,设该两个实体ei与ej所对应的描述文本分别为di与dj
所述实体ei与ej的基于TF-IDF的相似度SimTFIDFij为:
SimTFIDFij=cos(vi,vj)
上式中,vi为di的TF-IDF加权后的向量,其每一维wij定义为平滑后的TF-IDF因子;
实体ei与ej的基于LSI的相似度SimLSIij为:
SimLSIij=cos(vi,vj)
上式中,vi为D′中di对应的向量,vj为D′中dj对应的向量,D′为降维后的文档向量化表示;
所述实体ei与ej的基于LDA的相似度SimLDAij为:
SimLDAij=cos(vi,vj)
上式中,vi为di对应的文档-主题分布,vj为dj对应的文档-主题分布;
所述实体ei与ej的基于HDP的相似度SimHDPij为:
SimHDPij=cos(vi,vj)
上式中,vi为di对应的文档-主题分布,vj为dj对应的文档-主题分布;
所述实体ei与ej的基于Jaccard的相似度SimJaccardij为:
Figure FDA0003829539180000041
上式中,Inter(di,dj)为di与dj中词汇的交集,Union(di,dj)为di与dj中词汇的并集。
4.根据权利要求1所述的融合实体信息与热度的知识图谱推荐系统,其特征在于:
其中,γ的取值为1。
5.根据权利要求1所述的融合实体信息与热度的知识图谱推荐系统,其特征在于:
其中,所述实体推荐生成模块采用改进RankNet模型,
所述改进RankNet模型包含底层、中间层、主体部分以及输出层。
6.根据权利要求5所述的融合实体信息与热度的知识图谱推荐系统,其特征在于:
其中,所述改进RankNet模型训练时采用各个所述用户的访问数据作为输入,获得训练完成的所述改进RankNet模型分别与各个所述用户对应。
CN201911272709.6A 2019-12-12 2019-12-12 一种融合实体信息与热度的知识图谱推荐系统 Active CN112966091B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911272709.6A CN112966091B (zh) 2019-12-12 2019-12-12 一种融合实体信息与热度的知识图谱推荐系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911272709.6A CN112966091B (zh) 2019-12-12 2019-12-12 一种融合实体信息与热度的知识图谱推荐系统

Publications (2)

Publication Number Publication Date
CN112966091A CN112966091A (zh) 2021-06-15
CN112966091B true CN112966091B (zh) 2022-10-14

Family

ID=76270986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911272709.6A Active CN112966091B (zh) 2019-12-12 2019-12-12 一种融合实体信息与热度的知识图谱推荐系统

Country Status (1)

Country Link
CN (1) CN112966091B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254789B (zh) * 2021-06-30 2021-09-17 中国气象局公共气象服务中心(国家预警信息发布中心) 一种推送气象服务内容的方法及装置
CN113282839B (zh) * 2021-07-15 2021-09-14 长沙豆芽文化科技有限公司 一种互联网数据推送处理方法及系统
CN114564636B (zh) * 2021-12-29 2024-06-25 东方财富信息股份有限公司 一种金融信息搜索中台的召回排序算法和层叠式技术架构
CN114693485A (zh) * 2022-04-15 2022-07-01 北京飞象星球科技有限公司 题目推荐方法及装置
CN116702899B (zh) * 2023-08-07 2023-11-28 上海银行股份有限公司 一种适用于公私联动场景的实体融合方法
CN116910371B (zh) * 2023-09-07 2024-01-23 南京大数据集团有限公司 一种基于深层关系的推荐方法及系统
CN116993237A (zh) * 2023-09-21 2023-11-03 北京上奇数字科技有限公司 一种基于余弦相似度算法的企业推荐方法及系统
CN117891899B (zh) * 2024-01-25 2024-10-15 北京圆心科技集团股份有限公司 一种基于患者病历的信息智能推送方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733798A (zh) * 2018-05-17 2018-11-02 电子科技大学 一种基于知识图谱的个性化推荐方法
CN109063188A (zh) * 2018-08-28 2018-12-21 国信优易数据有限公司 一种实体推荐方法和装置
CN110188208A (zh) * 2019-06-04 2019-08-30 河海大学 一种基于知识图谱的信息资源查询推荐方法和系统
CN110321482A (zh) * 2019-06-11 2019-10-11 阿里巴巴集团控股有限公司 一种信息的推荐方法、装置及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733798A (zh) * 2018-05-17 2018-11-02 电子科技大学 一种基于知识图谱的个性化推荐方法
CN109063188A (zh) * 2018-08-28 2018-12-21 国信优易数据有限公司 一种实体推荐方法和装置
CN110188208A (zh) * 2019-06-04 2019-08-30 河海大学 一种基于知识图谱的信息资源查询推荐方法和系统
CN110321482A (zh) * 2019-06-11 2019-10-11 阿里巴巴集团控股有限公司 一种信息的推荐方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Knowledge embedding towards the recommendation with sparse user-item interactions;Deqing Yang;《2019 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining》;20190831;325-332 *

Also Published As

Publication number Publication date
CN112966091A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN112966091B (zh) 一种融合实体信息与热度的知识图谱推荐系统
CN111737495B (zh) 基于领域自分类的中高端人才智能推荐系统及其方法
CN110046304B (zh) 一种用户推荐方法和装置
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN106815297B (zh) 一种学术资源推荐服务系统与方法
US7844592B2 (en) Ontology-content-based filtering method for personalized newspapers
Sang et al. Context-dependent propagating-based video recommendation in multimodal heterogeneous information networks
CN105139211B (zh) 产品简介生成方法及系统
CN111143672B (zh) 基于知识图谱的专业特长学者推荐方法
Huang et al. Expert as a service: Software expert recommendation via knowledge domain embeddings in stack overflow
Yang et al. A decision method for online purchases considering dynamic information preference based on sentiment orientation classification and discrete DIFWA operators
Li et al. TagDC: A tag recommendation method for software information sites with a combination of deep learning and collaborative filtering
Wang et al. Topic sentiment analysis in online learning community from college students
Sun et al. Graph force learning
JP2022035314A (ja) 情報処理装置及びプログラム
Zhang et al. An interpretable and scalable recommendation method based on network embedding
Wei et al. Online education recommendation model based on user behavior data analysis
CN113609248B (zh) 词权重生成模型训练方法及装置、词权重生成方法及装置
CN113610626A (zh) 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质
Ren et al. Resource recommendation algorithm based on text semantics and sentiment analysis
Liang et al. Enhancing scenic recommendation and tour route personalization in tourism using ugc text mining
CN118069927A (zh) 基于知识感知和用户多兴趣特征表示的新闻推荐方法及系统
CN118260717A (zh) 互联网低轨卫星情报挖掘方法、系统、装置及介质
Jafari Sadr et al. Popular tag recommendation by neural network in social media
CN117271894A (zh) 一种基于混合网络与dpp的论文推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant