Nothing Special   »   [go: up one dir, main page]

CN111723301A - 基于层次化主题偏好语义矩阵的关注关系识别及标注方法 - Google Patents

基于层次化主题偏好语义矩阵的关注关系识别及标注方法 Download PDF

Info

Publication number
CN111723301A
CN111723301A CN202010483759.5A CN202010483759A CN111723301A CN 111723301 A CN111723301 A CN 111723301A CN 202010483759 A CN202010483759 A CN 202010483759A CN 111723301 A CN111723301 A CN 111723301A
Authority
CN
China
Prior art keywords
user
topic
grained
attention
preference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010483759.5A
Other languages
English (en)
Other versions
CN111723301B (zh
Inventor
郑建兴
李沁文
李德玉
梁吉业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN202010483759.5A priority Critical patent/CN111723301B/zh
Publication of CN111723301A publication Critical patent/CN111723301A/zh
Application granted granted Critical
Publication of CN111723301B publication Critical patent/CN111723301B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于社交网络可解释性链路预测方法技术领域,公开了基于层次化主题偏好语义矩阵的关注关系识别及标注方法,首先针对社交用户关注关系网络图以及用户文本内容数据,构建学习层次化主题偏好语义矩阵,并通过层次化主题和偏好语义矩阵标注网络节点关注关系,通过用户文本内容解释偏好语义矩阵;接着通过层次化主题偏好语义矩阵计算新用户与其他用户之间的关注关系相关性,将相关性高的用户识别为具有关注关系,通过层次化主题和偏好语义矩阵标记关注关系,依据用户文本内容解释偏好语义矩阵。本发明从层次化主题方面预测了用户关注关系,提高了社交网络用户关注关系识别的准确率,尤其是在网络诈骗团伙异地社交关注关系识别方面提供极大支持。

Description

基于层次化主题偏好语义矩阵的关注关系识别及标注方法
技术领域
本发明涉及社交网络可解释性链路预测方法技术领域,具体涉及基于层次化主题偏好语义矩阵的关注关系识别及标注方法。
背景技术
在社交网络中,用户之间的关注关系能够形成关注网络结构。在许多的关注关系社交网络中,用户可能对不同类型的主题和不同层次的主题具有不同的兴趣点,通过探索用户间关注关系在不同类型主题以及不同层次主题下的隐含语义联系,可以深入挖掘用户的关注关系兴趣动机所在,从而更容易发现用户的潜在关注用户,建立更可信的关注关系预测解释。一位用户关注了另一位用户,则可能转发该用户的微博内容,或点赞该微博内容。通过分析两个用户发布的微博内容,能够在某些潜在的共同兴趣特征上发现语义相似性,预测用户之间的关注行为;同时用户的兴趣具有层次化结构,两个在CBA主题上建立关注关系的用户比两个在篮球主题上建立关注关系的用户更具有语义的解释性。基于用户间潜在兴趣主题提取细粒度的可解释性的关注关系原因能够提升推荐系统链路预测的性能。
社交网络中的关注关系链路预测通常依赖于网络结构,基于网络结构的标注技术分析了用户之间的链接影响力,忽略了用户的微博内容中丰富的兴趣信息;基于用户行为记录的关注关系技术侧重于利用用户显式的主题关键词标注。另一方面,社交网络用户的兴趣具有多样化,具有多层次化,例如,关注者用户发布的微博内容包含了体育关键词,被关注者用户发布的微博内容包含了篮球、CBA等主题词,则通过主题词体育、篮球、CBA之间的潜在语义关系可以提取及解释标注用户间的关注关系行为。因此,如何根据用户的微博内容,挖掘用户间潜在语义兴趣的动机,在层次化兴趣主题偏好语义矩阵上学习用户间的关注关系,进而实现在细粒度兴趣主题方面的用户网络关注关系预测,完成可解释的精准的用户关注关系链路预测是十分必要的。
发明内容
针对上述问题本发明提供了基于层次化主题偏好语义矩阵的关注关系识别及标注方法。
为了达到上述目的,本发明采用了下列技术方案:
基于层次化主题偏好语义矩阵的关注关系识别及标注方法,包括以下步骤:
步骤S1,构建主题偏好语义矩阵初始化的关注关系网络图;
步骤S2,学习基于翻译模型的层次化主题偏好语义矩阵;
步骤S3,通过偏好语义矩阵标注网络节点关注关系;
步骤S4,基于用户文本内容解释层次化主题偏好语义矩阵;
步骤S5,计算新用户与其他用户节点在层次化主题下的相关性;
步骤S6,选取具有最大相关性的层次化主题标注用户间关注关系;
步骤S7,标记关注关系的层次化主题偏好语义矩阵;
步骤S8,依据用户文本内容解释偏好语义矩阵。
进一步,所述步骤S1,构建主题偏好语义矩阵初始化的关注关系网络图还包括以下步骤:
步骤S1.1,根据用户的关注关系,建立关注关系图G(V,R),其中V为节点的集合,R为边的集合;关注关系图中的节点表示用户,边表示用户间的关注关系r,若用户h关注了用户t,则构建从用户h指向用户t的一条边;其中,h、t均表示用户;关注关系图描述了用户之间的显式的社会化关注关系,有利于用来预测用户之间的潜在关注关系;
步骤S1.2,基于用户h发布的文本内容提取关键词集合Sh;基于用户t发布的文本内容提取关键词集合St;根据Sh、St分别计算与中文维基百科l层N个粗粒度主题的jaccard相似度系数,选取用户h和用户t的相似度高的m个粗粒度主题解释用户间的关注关系,并初始化m个粗粒度主题偏好语义矩阵
Figure BDA0002518156070000031
在l层粗粒度主题基础上,根据Sh、St分别计算与中文维基百科l+1层P个细粒度主题的jaccard相似度系数,选取用户h和用户t的相似度高的q个细粒度主题解释用户间的关注关系,并初始化q个细粒度主题偏好语义矩阵
Figure BDA0002518156070000032
粗粒度主题c的细粒度主题集合记为Child(c)={c1,c2,...,ck,...,cb};初始化的主题偏好语义矩阵反映了用户h和用户t之间的文本内容关联,有利于揭示反映用户之间关注关系的原因。
进一步,所述步骤S2,学习基于翻译模型的层次化主题偏好语义矩阵还包括以下步骤:
步骤S2.1,基于关注关系图上的用户h,用户t及关注关系建立三元组(h,r,t),r为用户h到用户t的关注关系;进而在粗粒度主题方面基于翻译模型建模用户和关系的表示,给定粗粒度主题c,记用户h在粗粒度主题c方面的向量表示为
Figure BDA0002518156070000033
用户t在粗粒度主题c方面的向量表示为
Figure BDA0002518156070000034
其中,
Figure BDA0002518156070000035
分别为用户h和用户t的向量表示;用户h和用户t的向量表示
Figure BDA0002518156070000036
Figure BDA0002518156070000037
映射到粗粒度主题c方面的关系空间,得到粗粒度主题c方面的关系空间的向量表示
Figure BDA0002518156070000038
粗粒度主题c方面的用户向量表示了用户在某一方面的投影语义兴趣,可以根据粗粒度主题c的语义兴趣解释用户之间关注关系的原因;
步骤S2.2,基于粗粒度主题c关于关注关系的解释作用,通过粗粒度主题c的细粒度主题Child(c)={c1,c2,...,ck,...,cb}可以进一步详细描述刻画用户间的关注关系;设ck为粗粒度主题c的第k个细粒度主题,当粗粒度主题c为篮球时,则细粒度主题ck表示CBA,在粗粒度主题c的主题偏好语义矩阵
Figure BDA0002518156070000041
的基础上,学习细粒度主题ck的主题偏好语义矩阵
Figure BDA0002518156070000042
用户h在细粒度主题ck上的向量表示
Figure BDA0002518156070000043
用户t在细粒度主题ck上的向量表示
Figure BDA0002518156070000044
建立用户h和用户t在粗粒度主题c的细粒度主题ck上的关注关系距离函数为:
Figure BDA0002518156070000045
其中,
Figure BDA0002518156070000046
表示用户h和用户t在细粒度主题ck方面的关注关系r上的距离函数;
Figure BDA0002518156070000047
代表用户h在细粒度主题ck方面的向量表示;
Figure BDA0002518156070000048
代表用户t在细粒度主题ck方面的向量表示;
Figure BDA0002518156070000049
代表用户u和用户v的关注关系r的空间表示;用户h和用户t在细粒度主题ck方面的关注关系距离反映了用户之间语义兴趣的差别,距离越大,兴趣差距越大,距离越小,用户之间的兴趣越相似,越能解释用户之间的关注关系原因;
步骤S2.3,根据三元组(h,r,t)的距离函数,对于具有真实关注关系r的正样本三元组(h,r,t)和不具有关注关系r的负样本三元组
Figure BDA00025181560700000410
定义基于翻译关系的Hinge Loss目标函数为:
Figure BDA00025181560700000411
其中,c、t是l层的粗粒度主题;ci、cj是粗粒度主题c的细粒度主题;
Figure BDA00025181560700000412
Figure BDA00025181560700000413
为粗粒度主题c、t的偏好语义矩阵,
Figure BDA00025181560700000414
为粗粒度主题c的细粒度主题ci、cj的偏好语义矩阵;
Figure BDA00025181560700000415
为单位矩阵;
Figure BDA00025181560700000416
为Hinge Loss损失函数;S为(h,r,t)用户关注关系的正样本集合,用户h与用户t具有关注关系r;
Figure BDA0002518156070000051
为用户关注关系的负样本集合,
Figure BDA0002518156070000052
为基于(h,r,t)替换的用户h,且
Figure BDA0002518156070000053
与t不存在关注关系r,
Figure BDA0002518156070000054
为基于(h,r,t)替换的用户t,且h与
Figure BDA0002518156070000055
不存在关注关系r;γ表示边界参数;λ表示粗粒度主题的正则化超参数;η表示细粒度主题的正则化超参数;
Figure BDA0002518156070000056
Figure BDA0002518156070000057
正交保证了粗粒度主题c、t可以学习到不同的参数矩阵;
Figure BDA0002518156070000058
Figure BDA0002518156070000059
正交保证了细粒度主题ci、cj可以学习到不同的参数矩阵;Hinge Loss最小化使得正样本用户间的距离要小于负样本用户间的距离,且低于边界参数γ,能够从细粒度主题语义兴趣方面迭代学习用户的分布式表示,有利于从细粒度主题方面预测用户之间的关注关系,根据细粒度主题对用户间关注关系进行解释。
进一步,所述步骤S3,通过偏好语义矩阵标注网络节点关注关系还包括以下步骤:
步骤3.1,从步骤S2.3学习到的粗粒度主题c的偏好语义矩阵
Figure BDA00025181560700000510
解释用户之间的关注关系;
步骤3.2,从步骤S2.3学习到的粗粒度主题c的细粒度主题ck的偏好语义矩阵
Figure BDA00025181560700000511
解释用户之间的关注关系;从粗粒度、细粒度主题方面全面性地解释了用户节点之间的关注关系原因,有利于精准地为用户推荐主题兴趣相关的产品或用户。
进一步,所述步骤S4,基于用户文本内容解释层次化主题偏好语义矩阵的方法如下:
基于用户发布文本内容的分词结果,根据步骤S3.1选取的粗粒度主题c关联的主题词文本内容解释标注用户之间的关注关系;同时,根据步骤S3.2选取的细粒度主题ck关联的主题词文本内容解释标注用户之间的关注关系;粗粒度主题、细粒度主题关联的文本内容解释了主题偏好语义矩阵,可以识别社交网络用户间的行为兴趣关系,根据用户文本内容的变化可以监测用户间关注关系的变化,在网络团伙异地社交关系识别方面具有重要作用。
进一步,所述步骤S5,计算新用户与其他用户节点在层次化主题下的相关性的方法如下:
在用户粗粒度主题c偏好语义矩阵
Figure BDA0002518156070000061
的基础上,根据新用户u的向量表示
Figure BDA0002518156070000062
计算与已有用户t的向量表示
Figure BDA0002518156070000063
的相似性,利用
Figure BDA0002518156070000064
表示用户u与用户t在粗粒度主题c方面的关注关系r上的距离;进而在粗粒度主题c的细粒度主题ck偏好语义矩阵
Figure BDA0002518156070000065
的基础上,为新用户u计算与已有用户t的相似性,利用
Figure BDA0002518156070000066
表示用户u与用户t在细粒度主题ck方面的关注关系r上的距离;距离越小,表明用户u关注了用户t,用户u到用户t之间具有关注关系,粗粒度主题c、细粒度主题ck分别从不同方面预测了用户之间的关注关系。
进一步,所述步骤S6,选取具有最大相关性的层次化主题标注用户间关注关系的方法如下:
根据不同的主题可以计算新用户u与用户t之间关注关系的相关性,从具有相关性的粗粒度主题集合里,选取距离最小的最大相关性的粗粒度主题c标记用户之间的关注关系,同时,在粗粒度主题c的基础上,选取相关性最高的细粒度主题ck,标记用户之间的关注关系;针对新用户,从粗粒度、细粒度兴趣主题方面解释了与用户t之间的关注关系行为,提升了为新用户进行关注好友推荐过程中的可解释性。
进一步,所述步骤S7,标记关注关系的层次化主题偏好语义矩阵的方法如下:
将步骤S6中最大相关性的粗粒度主题c的偏好语义矩阵
Figure BDA0002518156070000067
作为新用户关注关系的粗粒度主题偏好语义矩阵,在粗粒度主题c的基础上,选取最大相关性的细粒度主题ck的偏好语义矩阵
Figure BDA0002518156070000071
作为新用户关注关系的细粒度主题偏好语义矩阵;针对新用户,从粗粒度、细粒度兴趣主题偏好的程度方面揭示了与用户t的关注关系原因,解释了新用户在不同主题领域关注不同用户的行为。
进一步,所述步骤S8,依据用户文本内容解释偏好语义矩阵的方法如下:
基于用户发布内容的分词结果,为粗粒度主题c选取关联的主题词文本内容解释标注用户之间新的关注关系;同时,为细粒度主题ck选取关联的主题词文本内容解释标注用户之间新的关注关系;文本内容反映了用户的行为,通过文本内容解释了主题偏好语义矩阵,识别了用户间兴趣诱发的行为关注关系,为新用户提供了关注关系的可视化解释,能够提升新用户对推荐系统的可理解性和信任性,同时文本内容有利于追踪社交网络异地用户之间的社会化关注行为。
本发明提出了基于层次化主题偏好语义矩阵的关注关系识别及标注方法,首先针对已有用户社交关系网络图以及用户文本内容数据,构建基于翻译模型的层次化主题偏好语义矩阵,并通过偏好语义矩阵标注网络节点关注关系,通过用户文本内容解释偏好语义矩阵;接着通过层次化主题偏好语义矩阵计算新用户与其他节点之间的关注关系相关性,将相关性高的用户识别为具有关注关系,更新网络中新用户与这些节点的关注关系,标记关注关系的层次化主题偏好语义矩阵,依据用户文本内容解释偏好语义矩阵,标注后的社交网络关注关系是本发明的最终输出结果。
与现有技术相比本发明具有以下优点:
本发明中提供的方法区别于现有方法的显著特征在于构建了基于翻译模型的层次化主题偏好语义矩阵,并通过偏好语义矩阵标注网络节点关注关系,通过文本内容和层次化主题偏好语义矩阵计算新用户与其他节点之间的关注关系相关性,将相关性高的用户识别为具有关注关系,并依据用户文本内容解释偏好语义矩阵。本发明从层次化主题方面预测了用户关注关系,提高了社交网络识别用户关注关系的准确率,尤其是在网络诈骗团伙异地关系识别方面提供极大支持。
附图说明
图1为整体模型架构示意图。
具体实施方式
本发明所述的基于用户层次化主题偏好语义矩阵的关注关系识别及标注方法通过计算机程序实施。下面将按照流程详述本发明提出的技术方案的具体实施方式,本发明整体模型架构如图1所示。
基于层次化主题偏好语义矩阵的关注关系识别及标注方法,包括以下步骤:
步骤S1,构建主题偏好语义矩阵初始化的关注关系网络图;
步骤S1.1,根据用户的关注关系,建立关注关系图G(V,R),其中V为节点的集合,R为边的集合;关注关系图中的节点表示用户,边表示用户间的关注关系r,若用户h关注了用户t,则构建从用户h指向用户t的一条边;其中,h、t均表示用户;关注关系图描述了用户之间的显式的社会化关注关系,有利于用来预测用户之间的潜在关注关系;
步骤S1.2,基于用户h发布的文本内容提取关键词集合Sh;基于用户t发布的文本内容提取关键词集合St;根据Sh、St分别计算与中文维基百科l层N个粗粒度主题的jaccard相似度系数,选取用户h和用户t的相似度高的m个粗粒度主题解释用户间的关注关系,并初始化m个粗粒度主题偏好语义矩阵
Figure BDA0002518156070000081
在l层粗粒度主题基础上,根据Sh、St分别计算与中文维基百科l+1层P个细粒度主题的jaccard相似度系数,选取用户h和用户t的相似度高的q个细粒度主题解释用户间的关注关系,并初始化q个细粒度主题偏好语义矩阵
Figure BDA0002518156070000091
粗粒度主题c的细粒度主题集合记为Child(c)={c1,c2,...,ck,...,cb}。
步骤S2,学习基于翻译模型的层次化主题偏好语义矩阵;
步骤S2.1,基于关注关系图上的用户h,用户t及关注关系建立三元组(h,r,t),r为用户h到用户t的关注关系;进而在粗粒度主题方面基于翻译模型建模用户和关系的表示,给定粗粒度主题c,记用户h在粗粒度主题c方面的向量表示为
Figure BDA0002518156070000092
用户t在粗粒度主题c方面的向量表示为
Figure BDA0002518156070000093
其中,
Figure BDA0002518156070000094
分别为用户h和用户t的向量表示;用户h和用户t的向量表示
Figure BDA0002518156070000095
Figure BDA0002518156070000096
映射到粗粒度主题c方面的关系空间,得到粗粒度主题c方面的关系空间的向量表示
Figure BDA0002518156070000097
步骤S2.2,基于粗粒度主题c关于关注关系的解释作用,通过粗粒度主题c的细粒度主题Child(c)={c1,c2,...,ck,...,cb}可以进一步详细描述刻画用户间的关注关系;设ck为粗粒度主题c的第k个细粒度主题,当粗粒度主题c为篮球时,则细粒度主题ck表示CBA,在粗粒度主题c的主题偏好语义矩阵
Figure BDA0002518156070000098
的基础上,学习细粒度主题ck的主题偏好语义矩阵
Figure BDA0002518156070000099
用户h在细粒度主题ck上的向量表示
Figure BDA00025181560700000910
用户t在细粒度主题ck上的向量表示
Figure BDA00025181560700000911
建立用户h和用户t在粗粒度主题c的细粒度主题ck上的关注关系距离函数为:
Figure BDA00025181560700000912
其中,
Figure BDA00025181560700000913
表示用户h和用户t在细粒度主题ck方面的关注关系r上的距离函数;
Figure BDA00025181560700000914
代表用户h在细粒度主题ck方面的向量表示;
Figure BDA00025181560700000915
代表用户t在细粒度主题ck方面的向量表示;
Figure BDA00025181560700000916
代表用户u和用户v的关注关系r的空间表示;
步骤S2.3,根据三元组(h,r,t)的距离函数,对于具有真实关注关系r的正样本三元组(h,r,t)和不具有关注关系r的负样本三元组
Figure BDA00025181560700000917
定义基于翻译关系的Hinge Loss目标函数为:
Figure BDA0002518156070000101
其中,c、t是l层的粗粒度主题;ci、cj是粗粒度主题c的细粒度主题;
Figure BDA0002518156070000102
Figure BDA0002518156070000103
为粗粒度主题c、t的偏好语义矩阵,
Figure BDA0002518156070000104
为粗粒度主题c的细粒度主题ci、cj的偏好语义矩阵;
Figure BDA0002518156070000105
为单位矩阵;
Figure BDA0002518156070000106
为Hinge Loss损失函数;S为(h,r,t)用户关注关系的正样本集合,用户h与用户t具有关注关系r;
Figure BDA0002518156070000107
为用户关注关系的负样本集合,
Figure BDA0002518156070000108
为基于(h,r,t)替换的用户h,且
Figure BDA0002518156070000109
与t不存在关注关系r,
Figure BDA00025181560700001010
为基于(h,r,t)替换的用户t,且h与
Figure BDA00025181560700001011
不存在关注关系r;γ表示边界参数;λ表示粗粒度主题的正则化超参数;η表示细粒度主题的正则化超参数;
Figure BDA00025181560700001012
Figure BDA00025181560700001013
正交保证了粗粒度主题c、t可以学习到不同的参数矩阵;
Figure BDA00025181560700001014
Figure BDA00025181560700001015
正交保证了细粒度主题ci、cj可以学习到不同的参数矩阵。
步骤S3,通过偏好语义矩阵标注网络节点关注关系;
步骤S3.1,从步骤S2.3学习到的粗粒度主题c的偏好语义矩阵
Figure BDA00025181560700001016
解释用户之间的关注关系;
步骤S3.2,从步骤S2.3学习到的粗粒度主题c的细粒度主题ck的偏好语义矩阵
Figure BDA00025181560700001017
解释用户之间的关注关系。
步骤S4,基于用户文本内容解释层次化主题偏好语义矩阵;基于用户发布文本内容的分词结果,根据步骤S3.1选取的粗粒度主题c关联的主题词文本内容解释标注用户之间的关注关系;同时,根据步骤S3.2选取的细粒度主题ck关联的主题词文本内容解释标注用户之间的关注关系。
步骤S5,计算新用户与其他用户节点在层次化主题下的相关性;在用户粗粒度主题c偏好语义矩阵
Figure BDA0002518156070000111
的基础上,根据新用户u的向量表示
Figure BDA0002518156070000112
计算与已有用户t的向量表示
Figure BDA0002518156070000113
的相似性,利用
Figure BDA0002518156070000114
表示用户u与用户t在粗粒度主题c方面的关注关系r上的距离;进而在粗粒度主题c的细粒度主题ck偏好语义矩阵
Figure BDA0002518156070000115
的基础上,为新用户u计算与已有用户t的相似性,利用
Figure BDA0002518156070000116
表示用户u与用户t在细粒度主题ck方面的关注关系r上的距离。
步骤S6,选取具有最大相关性的层次化主题标注用户间关注关系;根据不同的主题可以计算新用户u与用户t之间关注关系的相关性,从具有相关性的粗粒度主题集合里,选取距离最小的最大相关性的粗粒度主题c标记用户之间的关注关系,同时,在粗粒度主题c的基础上,选取相关性最高的细粒度主题ck,标记用户之间的关注关系。
步骤S7,标记关注关系的层次化主题偏好语义矩阵;将步骤S6中最大相关性的粗粒度主题c的偏好语义矩阵
Figure BDA0002518156070000117
作为新用户关注关系的粗粒度主题偏好语义矩阵,在粗粒度主题c的基础上,选取最大相关性的细粒度主题ck的偏好语义矩阵
Figure BDA0002518156070000118
作为新用户关注关系的细粒度主题偏好语义矩阵。
步骤S8,依据用户文本内容解释偏好语义矩阵;基于用户发布内容的分词结果,为粗粒度主题c选取关联的主题词文本内容解释标注用户之间新的关注关系;同时,为细粒度主题ck选取关联的主题词文本内容解释标注用户之间新的关注关系。
技术效果评价
为验证本发明提出技术方案的有效性和先进性,选取几种已有的翻译模型方法进行对比:TransE、TransD、TransH、TransR。通过平均排名(MeanRank)和Hits@K对上述方法在微博社交网络数据集上的关注关系链路预测检测结果进行评价,结果如表1所示:
表1
Figure BDA0002518156070000121
由表中结果可以看出,本发明技术方案在进行社交网络的链路预测时,能获得精度和可靠性优于已有方法的检测结果。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (9)

1.基于层次化主题偏好语义矩阵的关注关系识别及标注方法,其特征在于:包括以下步骤:
步骤S1,构建主题偏好语义矩阵初始化的关注关系网络图;
步骤S2,学习基于翻译模型的层次化主题偏好语义矩阵;
步骤S3,通过偏好语义矩阵标注网络节点关注关系;
步骤S4,基于用户文本内容解释层次化主题偏好语义矩阵;
步骤S5,计算新用户与其他用户节点在层次化主题下的相关性;
步骤S6,选取具有最大相关性的层次化主题标注用户间关注关系;
步骤S7,标记关注关系的层次化主题偏好语义矩阵;
步骤S8,依据用户文本内容解释偏好语义矩阵。
2.根据权利要求1所述基于层次化主题偏好语义矩阵的关注关系识别及标注方法,其特征在于:所述步骤S1,构建主题偏好语义矩阵初始化的关注关系网络图还包括以下步骤:
步骤S1.1,根据用户的关注关系,建立关注关系图G(V,R),其中V为节点的集合,R为边的集合;关注关系图中的节点表示用户,边表示用户间的关注关系r,若用户h关注了用户t,则构建从用户h指向用户t的一条边;其中,h、t均表示用户;关注关系图描述了用户之间的显式的社会化关注关系,有利于用来预测用户之间的潜在关注关系;
步骤S1.2,基于用户h发布的文本内容提取关键词集合Sh;基于用户t发布的文本内容提取关键词集合St;根据Sh、St分别计算与中文维基百科l层N个粗粒度主题的jaccard相似度系数,选取用户h和用户t的相似度高的m个粗粒度主题解释用户间的关注关系,并初始化m个粗粒度主题偏好语义矩阵
Figure FDA0002518156060000011
在l层粗粒度主题基础上,根据Sh、St分别计算与中文维基百科l+1层P个细粒度主题的jaccard相似度系数,选取用户h和用户t的相似度高的q个细粒度主题解释用户间的关注关系,并初始化q个细粒度主题偏好语义矩阵
Figure FDA0002518156060000021
粗粒度主题c的细粒度主题集合记为Child(c)={c1,c2,...,ck,...,cb}。
3.根据权利要求1所述基于层次化主题偏好语义矩阵的关注关系识别及标注方法,其特征在于:所述步骤S2,学习基于翻译模型的层次化主题偏好语义矩阵还包括以下步骤:
步骤S2.1,基于关注关系图上的用户h,用户t及关注关系建立三元组(h,r,t),r为用户h到用户t的关注关系;进而在粗粒度主题方面基于翻译模型建模用户和关系的表示,给定粗粒度主题c,记用户h在粗粒度主题c方面的向量表示为
Figure FDA0002518156060000022
用户t在粗粒度主题c方面的向量表示为
Figure FDA0002518156060000023
其中,
Figure FDA0002518156060000024
分别为用户h和用户t的向量表示;用户h和用户t的向量表示
Figure FDA0002518156060000025
映射到粗粒度主题c方面的关系空间,得到粗粒度主题c方面的关系空间的向量表示
Figure FDA0002518156060000026
步骤S2.2,基于粗粒度主题c关于关注关系的解释作用,通过粗粒度主题c的细粒度主题Child(c)={c1,c2,...,ck,...,cb}可以进一步详细描述刻画用户间的关注关系;设ck为粗粒度主题c的第k个细粒度主题,当粗粒度主题c为篮球时,则细粒度主题ck表示CBA,在粗粒度主题c的主题偏好语义矩阵
Figure FDA0002518156060000027
的基础上,学习细粒度主题ck的主题偏好语义矩阵
Figure FDA0002518156060000028
用户h在细粒度主题ck上的向量表示
Figure FDA0002518156060000029
用户t在细粒度主题ck上的向量表示
Figure FDA00025181560600000210
建立用户h和用户t在粗粒度主题c的细粒度主题ck上的关注关系距离函数为:
Figure FDA00025181560600000211
其中,
Figure FDA00025181560600000212
表示用户h和用户t在细粒度主题ck方面的关注关系r上的距离函数;
Figure FDA00025181560600000213
代表用户h在细粒度主题ck方面的向量表示;
Figure FDA00025181560600000214
代表用户t在细粒度主题ck方面的向量表示;
Figure FDA0002518156060000031
代表用户u和用户v的关注关系r的空间表示;
步骤S2.3,根据三元组(h,r,t)的距离函数,对于具有真实关注关系r的正样本三元组(h,r,t)和不具有关注关系r的负样本三元组
Figure FDA0002518156060000032
定义基于翻译关系的Hinge Loss目标函数为:
Figure FDA0002518156060000033
其中,c、t是l层的粗粒度主题;ci、cj是粗粒度主题c的细粒度主题;
Figure FDA0002518156060000034
Figure FDA0002518156060000035
为粗粒度主题c、t的偏好语义矩阵,
Figure FDA0002518156060000036
为粗粒度主题c的细粒度主题ci、cj的偏好语义矩阵;
Figure FDA0002518156060000037
为单位矩阵;
Figure FDA0002518156060000038
为Hinge Loss损失函数;S为(h,r,t)用户关注关系的正样本集合,用户h与用户t具有关注关系r;
Figure FDA0002518156060000039
为用户关注关系的负样本集合,
Figure FDA00025181560600000310
为基于(h,r,t)替换的用户h,且
Figure FDA00025181560600000311
与t不存在关注关系r,
Figure FDA00025181560600000312
为基于(h,r,t)替换的用户t,且h与
Figure FDA00025181560600000313
不存在关注关系r;γ表示边界参数;λ表示粗粒度主题的正则化超参数;η表示细粒度主题的正则化超参数;
Figure FDA00025181560600000314
Figure FDA00025181560600000315
正交保证了粗粒度主题c、t可以学习到不同的参数矩阵;
Figure FDA00025181560600000316
Figure FDA00025181560600000317
正交保证了细粒度主题ci、cj可以学习到不同的参数矩阵。
4.根据权利要求1所述基于层次化主题偏好语义矩阵的关注关系识别及标注方法,其特征在于:所述步骤S3,通过偏好语义矩阵标注网络节点关注关系还包括以下步骤:
步骤S3.1,从步骤S2.3学习到的粗粒度主题c的偏好语义矩阵
Figure FDA00025181560600000318
解释用户之间的关注关系;
步骤S3.2,从步骤S2.3学习到的粗粒度主题c的细粒度主题ck的偏好语义矩阵
Figure FDA0002518156060000041
解释用户之间的关注关系。
5.根据权利要求1所述基于层次化主题偏好语义矩阵的关注关系识别及标注方法,其特征在于:所述步骤S4,基于用户文本内容解释层次化主题偏好语义矩阵的方法如下:基于用户发布文本内容的分词结果,根据步骤S3.1选取的粗粒度主题c关联的主题词文本内容解释标注用户之间的关注关系;同时,根据步骤S3.2选取的细粒度主题ck关联的主题词文本内容解释标注用户之间的关注关系。
6.根据权利要求1所述基于层次化主题偏好语义矩阵的关注关系识别及标注方法,其特征在于:所述步骤S5,计算新用户与其他用户节点在层次化主题下的相关性的方法如下:在用户粗粒度主题c偏好语义矩阵
Figure FDA0002518156060000042
的基础上,根据新用户u的向量表示
Figure FDA0002518156060000043
计算与已有用户t的向量表示
Figure FDA0002518156060000044
的相似性,利用
Figure FDA0002518156060000045
表示用户u与用户t在粗粒度主题c方面的关注关系r上的距离;进而在粗粒度主题c的细粒度主题ck偏好语义矩阵
Figure FDA0002518156060000046
的基础上,为新用户u计算与已有用户t的相似性,利用
Figure FDA0002518156060000047
表示用户u与用户t在细粒度主题ck方面的关注关系r上的距离。
7.根据权利要求1所述基于层次化主题偏好语义矩阵的关注关系识别及标注方法,其特征在于:所述步骤S6,选取具有最大相关性的层次化主题标注用户间关注关系的方法如下:根据不同的主题可以计算新用户u与用户t之间关注关系的相关性,从具有相关性的粗粒度主题集合里,选取距离最小的最大相关性的粗粒度主题c标记用户之间的关注关系,同时,在粗粒度主题c的基础上,选取相关性最高的细粒度主题ck,标记用户之间的关注关系。
8.根据权利要求1所述基于层次化主题偏好语义矩阵的关注关系识别及标注方法,其特征在于:所述步骤S7,标记关注关系的层次化主题偏好语义矩阵的方法如下:将步骤S6中最大相关性的粗粒度主题c的偏好语义矩阵
Figure FDA0002518156060000051
作为新用户关注关系的粗粒度主题偏好语义矩阵,在粗粒度主题c的基础上,选取最大相关性的细粒度主题ck的偏好语义矩阵
Figure FDA0002518156060000052
作为新用户关注关系的细粒度主题偏好语义矩阵。
9.根据权利要求1所述基于层次化主题偏好语义矩阵的关注关系识别及标注方法,其特征在于:所述步骤S8,依据用户文本内容解释偏好语义矩阵的方法如下:基于用户发布内容的分词结果,为粗粒度主题c选取关联的主题词文本内容解释标注用户之间新的关注关系;同时,为细粒度主题ck选取关联的主题词文本内容解释标注用户之间新的关注关系。
CN202010483759.5A 2020-06-01 2020-06-01 基于层次化主题偏好语义矩阵的关注关系识别及标注方法 Active CN111723301B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010483759.5A CN111723301B (zh) 2020-06-01 2020-06-01 基于层次化主题偏好语义矩阵的关注关系识别及标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010483759.5A CN111723301B (zh) 2020-06-01 2020-06-01 基于层次化主题偏好语义矩阵的关注关系识别及标注方法

Publications (2)

Publication Number Publication Date
CN111723301A true CN111723301A (zh) 2020-09-29
CN111723301B CN111723301B (zh) 2022-05-27

Family

ID=72565598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010483759.5A Active CN111723301B (zh) 2020-06-01 2020-06-01 基于层次化主题偏好语义矩阵的关注关系识别及标注方法

Country Status (1)

Country Link
CN (1) CN111723301B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807600A (zh) * 2021-09-26 2021-12-17 河南工业职业技术学院 一种动态社交网络中的链路预测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077417A (zh) * 2014-07-18 2014-10-01 中国科学院计算技术研究所 社交网络中的人物标签推荐方法和系统
US20150293989A1 (en) * 2014-04-11 2015-10-15 Palo Alto Research Center Incorporated Computer-Implemented System And Method For Generating An Interest Profile For A User From Existing Online Profiles
CN108460153A (zh) * 2018-03-27 2018-08-28 广西师范大学 一种混合博文与用户关系的社交媒体好友推荐方法
CN109033069A (zh) * 2018-06-16 2018-12-18 天津大学 一种基于社会媒体用户动态行为的微博主题挖掘方法
CN109189936A (zh) * 2018-08-13 2019-01-11 天津科技大学 一种基于网络结构和语义相关性度量的标签语义学习方法
CN109325171A (zh) * 2018-08-08 2019-02-12 微梦创科网络科技(中国)有限公司 基于领域知识的用户兴趣分析方法及系统
US20190073410A1 (en) * 2017-09-05 2019-03-07 Estia, Inc. Text-based network data analysis and graph clustering
CN109766431A (zh) * 2018-12-24 2019-05-17 同济大学 一种基于词义主题模型的社交网络短文本推荐方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150293989A1 (en) * 2014-04-11 2015-10-15 Palo Alto Research Center Incorporated Computer-Implemented System And Method For Generating An Interest Profile For A User From Existing Online Profiles
CN104077417A (zh) * 2014-07-18 2014-10-01 中国科学院计算技术研究所 社交网络中的人物标签推荐方法和系统
US20190073410A1 (en) * 2017-09-05 2019-03-07 Estia, Inc. Text-based network data analysis and graph clustering
CN108460153A (zh) * 2018-03-27 2018-08-28 广西师范大学 一种混合博文与用户关系的社交媒体好友推荐方法
CN109033069A (zh) * 2018-06-16 2018-12-18 天津大学 一种基于社会媒体用户动态行为的微博主题挖掘方法
CN109325171A (zh) * 2018-08-08 2019-02-12 微梦创科网络科技(中国)有限公司 基于领域知识的用户兴趣分析方法及系统
CN109189936A (zh) * 2018-08-13 2019-01-11 天津科技大学 一种基于网络结构和语义相关性度量的标签语义学习方法
CN109766431A (zh) * 2018-12-24 2019-05-17 同济大学 一种基于词义主题模型的社交网络短文本推荐方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FATTANE ZARRINKALAM等: "Mining user interests over active topics on social networks", 《INFORMATION PROCESSING & MANAGEMENT》 *
JIANXING ZHENG等: "Personalized recommendation based on hierarchical interest overlapping community", 《INFORMATION SCIENCES》 *
朱倩: "面向自由文本的细粒度关系抽取的关键技术研究", 《中国博士学位论文全文数据库 信息科技辑》 *
郑建兴: "社会化用户模型研究及其在推荐系统中的应用", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807600A (zh) * 2021-09-26 2021-12-17 河南工业职业技术学院 一种动态社交网络中的链路预测方法
CN113807600B (zh) * 2021-09-26 2023-07-25 河南工业职业技术学院 一种动态社交网络中的链路预测方法

Also Published As

Publication number Publication date
CN111723301B (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN111506714B (zh) 基于知识图嵌入的问题回答
US10380259B2 (en) Deep embedding for natural language content based on semantic dependencies
Ren et al. Cotype: Joint extraction of typed entities and relations with knowledge bases
CN105393263B (zh) 计算机‑人交互式学习中的特征完成
Jebbara et al. Aspect-based sentiment analysis using a two-step neural network architecture
CN111552855A (zh) 一种基于深度学习的网络威胁情报自动抽取方法
Zhao et al. Simple question answering with subgraph ranking and joint-scoring
Wang et al. Predicting hypernym–hyponym relations for Chinese taxonomy learning
CN103020221A (zh) 一种基于多模态自适应社会关系强度挖掘的社会搜索方法
Shi et al. A brief survey of relation extraction based on distant supervision
Nie et al. Cross-domain semantic transfer from large-scale social media
Zhao et al. Fake news detection based on dual-channel graph convolutional attention network
Hong et al. Rule-enhanced noisy knowledge graph embedding via low-quality error detection
CN111723301B (zh) 基于层次化主题偏好语义矩阵的关注关系识别及标注方法
CN111753151B (zh) 一种基于互联网用户行为的服务推荐方法
Rahman et al. Knowledge graph embedding via entities’ type mapping matrix
Xin et al. Entity disambiguation based on parse tree neighbours on graph attention network
Hong et al. High-quality noise detection for knowledge graph embedding with rule-based triple confidence
CN116386895A (zh) 基于异构图神经网络的流行病舆情实体识别方法与装置
Hamdi et al. BERT and word embedding for interest mining of instagram users
Xie et al. Dynamic knowledge graph completion with jointly structural and textual dependency
Ren et al. Mining Structures of Factual Knowledge from Text: An Effort-Light Approach
Lin et al. Sentiment analysis model based on structure attention mechanism
Qiu et al. Learning the concept embeddings of ontology
US12038960B2 (en) Using neural networks to detect incongruence between headlines and body text of documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant