CN111723301A

CN111723301A - 基于层次化主题偏好语义矩阵的关注关系识别及标注方法

Info

Publication number: CN111723301A
Application number: CN202010483759.5A
Authority: CN
Inventors: 郑建兴; 李沁文; 李德玉; 梁吉业
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2020-09-29
Anticipated expiration: 2040-06-01
Also published as: CN111723301B

Abstract

本发明属于社交网络可解释性链路预测方法技术领域，公开了基于层次化主题偏好语义矩阵的关注关系识别及标注方法，首先针对社交用户关注关系网络图以及用户文本内容数据，构建学习层次化主题偏好语义矩阵，并通过层次化主题和偏好语义矩阵标注网络节点关注关系，通过用户文本内容解释偏好语义矩阵；接着通过层次化主题偏好语义矩阵计算新用户与其他用户之间的关注关系相关性，将相关性高的用户识别为具有关注关系，通过层次化主题和偏好语义矩阵标记关注关系，依据用户文本内容解释偏好语义矩阵。本发明从层次化主题方面预测了用户关注关系，提高了社交网络用户关注关系识别的准确率，尤其是在网络诈骗团伙异地社交关注关系识别方面提供极大支持。

Description

基于层次化主题偏好语义矩阵的关注关系识别及标注方法

技术领域

本发明涉及社交网络可解释性链路预测方法技术领域，具体涉及基于层次化主题偏好语义矩阵的关注关系识别及标注方法。

背景技术

在社交网络中，用户之间的关注关系能够形成关注网络结构。在许多的关注关系社交网络中，用户可能对不同类型的主题和不同层次的主题具有不同的兴趣点，通过探索用户间关注关系在不同类型主题以及不同层次主题下的隐含语义联系，可以深入挖掘用户的关注关系兴趣动机所在，从而更容易发现用户的潜在关注用户，建立更可信的关注关系预测解释。一位用户关注了另一位用户，则可能转发该用户的微博内容，或点赞该微博内容。通过分析两个用户发布的微博内容，能够在某些潜在的共同兴趣特征上发现语义相似性，预测用户之间的关注行为；同时用户的兴趣具有层次化结构，两个在CBA主题上建立关注关系的用户比两个在篮球主题上建立关注关系的用户更具有语义的解释性。基于用户间潜在兴趣主题提取细粒度的可解释性的关注关系原因能够提升推荐系统链路预测的性能。

社交网络中的关注关系链路预测通常依赖于网络结构，基于网络结构的标注技术分析了用户之间的链接影响力，忽略了用户的微博内容中丰富的兴趣信息；基于用户行为记录的关注关系技术侧重于利用用户显式的主题关键词标注。另一方面，社交网络用户的兴趣具有多样化，具有多层次化，例如，关注者用户发布的微博内容包含了体育关键词，被关注者用户发布的微博内容包含了篮球、CBA等主题词，则通过主题词体育、篮球、CBA之间的潜在语义关系可以提取及解释标注用户间的关注关系行为。因此，如何根据用户的微博内容，挖掘用户间潜在语义兴趣的动机，在层次化兴趣主题偏好语义矩阵上学习用户间的关注关系，进而实现在细粒度兴趣主题方面的用户网络关注关系预测，完成可解释的精准的用户关注关系链路预测是十分必要的。

发明内容

针对上述问题本发明提供了基于层次化主题偏好语义矩阵的关注关系识别及标注方法。

为了达到上述目的，本发明采用了下列技术方案：

基于层次化主题偏好语义矩阵的关注关系识别及标注方法，包括以下步骤：

步骤S1，构建主题偏好语义矩阵初始化的关注关系网络图；

步骤S2，学习基于翻译模型的层次化主题偏好语义矩阵；

步骤S3，通过偏好语义矩阵标注网络节点关注关系；

步骤S4，基于用户文本内容解释层次化主题偏好语义矩阵；

步骤S5，计算新用户与其他用户节点在层次化主题下的相关性；

步骤S6，选取具有最大相关性的层次化主题标注用户间关注关系；

步骤S7，标记关注关系的层次化主题偏好语义矩阵；

步骤S8，依据用户文本内容解释偏好语义矩阵。

进一步，所述步骤S1，构建主题偏好语义矩阵初始化的关注关系网络图还包括以下步骤：

步骤S1.1，根据用户的关注关系，建立关注关系图G(V,R)，其中V为节点的集合，R为边的集合；关注关系图中的节点表示用户，边表示用户间的关注关系r，若用户h关注了用户t，则构建从用户h指向用户t的一条边；其中，h、t均表示用户；关注关系图描述了用户之间的显式的社会化关注关系，有利于用来预测用户之间的潜在关注关系；

步骤S1.2，基于用户h发布的文本内容提取关键词集合S_h；基于用户t发布的文本内容提取关键词集合S_t；根据S_h、S_t分别计算与中文维基百科l层N个粗粒度主题的jaccard相似度系数，选取用户h和用户t的相似度高的m个粗粒度主题解释用户间的关注关系，并初始化m个粗粒度主题偏好语义矩阵

在l层粗粒度主题基础上，根据S_h、S_t分别计算与中文维基百科l+1层P个细粒度主题的jaccard相似度系数，选取用户h和用户t的相似度高的q个细粒度主题解释用户间的关注关系，并初始化q个细粒度主题偏好语义矩阵

粗粒度主题c的细粒度主题集合记为Child(c)＝{c₁,c₂,...,c_k,...,c_b}；初始化的主题偏好语义矩阵反映了用户h和用户t之间的文本内容关联，有利于揭示反映用户之间关注关系的原因。

进一步，所述步骤S2，学习基于翻译模型的层次化主题偏好语义矩阵还包括以下步骤：

步骤S2.1，基于关注关系图上的用户h，用户t及关注关系建立三元组(h,r,t)，r为用户h到用户t的关注关系；进而在粗粒度主题方面基于翻译模型建模用户和关系的表示，给定粗粒度主题c，记用户h在粗粒度主题c方面的向量表示为

用户t在粗粒度主题c方面的向量表示为

其中，

分别为用户h和用户t的向量表示；用户h和用户t的向量表示

映射到粗粒度主题c方面的关系空间，得到粗粒度主题c方面的关系空间的向量表示

粗粒度主题c方面的用户向量表示了用户在某一方面的投影语义兴趣，可以根据粗粒度主题c的语义兴趣解释用户之间关注关系的原因；

步骤S2.2，基于粗粒度主题c关于关注关系的解释作用，通过粗粒度主题c的细粒度主题Child(c)＝{c₁,c₂,...,c_k,...,c_b}可以进一步详细描述刻画用户间的关注关系；设c_k为粗粒度主题c的第k个细粒度主题，当粗粒度主题c为篮球时，则细粒度主题c_k表示CBA，在粗粒度主题c的主题偏好语义矩阵

的基础上，学习细粒度主题c_k的主题偏好语义矩阵

用户h在细粒度主题c_k上的向量表示

用户t在细粒度主题c_k上的向量表示

建立用户h和用户t在粗粒度主题c的细粒度主题c_k上的关注关系距离函数为：

其中，

表示用户h和用户t在细粒度主题c_k方面的关注关系r上的距离函数；

代表用户h在细粒度主题c_k方面的向量表示；

代表用户t在细粒度主题c_k方面的向量表示；

代表用户u和用户v的关注关系r的空间表示；用户h和用户t在细粒度主题c_k方面的关注关系距离反映了用户之间语义兴趣的差别，距离越大，兴趣差距越大，距离越小，用户之间的兴趣越相似，越能解释用户之间的关注关系原因；

步骤S2.3，根据三元组(h,r,t)的距离函数，对于具有真实关注关系r的正样本三元组(h,r,t)和不具有关注关系r的负样本三元组

定义基于翻译关系的Hinge Loss目标函数为：

其中，c、t是l层的粗粒度主题；c_i、c_j是粗粒度主题c的细粒度主题；

为粗粒度主题c、t的偏好语义矩阵，

为粗粒度主题c的细粒度主题c_i、c_j的偏好语义矩阵；

为单位矩阵；

为Hinge Loss损失函数；S为(h,r,t)用户关注关系的正样本集合，用户h与用户t具有关注关系r；

为用户关注关系的负样本集合，

为基于(h,r,t)替换的用户h，且

与t不存在关注关系r，

为基于(h,r,t)替换的用户t，且h与

不存在关注关系r；γ表示边界参数；λ表示粗粒度主题的正则化超参数；η表示细粒度主题的正则化超参数；

与

正交保证了粗粒度主题c、t可以学习到不同的参数矩阵；

与

正交保证了细粒度主题c_i、c_j可以学习到不同的参数矩阵；Hinge Loss最小化使得正样本用户间的距离要小于负样本用户间的距离，且低于边界参数γ，能够从细粒度主题语义兴趣方面迭代学习用户的分布式表示，有利于从细粒度主题方面预测用户之间的关注关系，根据细粒度主题对用户间关注关系进行解释。

进一步，所述步骤S3，通过偏好语义矩阵标注网络节点关注关系还包括以下步骤：

步骤3.1，从步骤S2.3学习到的粗粒度主题c的偏好语义矩阵

解释用户之间的关注关系；

步骤3.2，从步骤S2.3学习到的粗粒度主题c的细粒度主题c_k的偏好语义矩阵

解释用户之间的关注关系；从粗粒度、细粒度主题方面全面性地解释了用户节点之间的关注关系原因，有利于精准地为用户推荐主题兴趣相关的产品或用户。

进一步，所述步骤S4，基于用户文本内容解释层次化主题偏好语义矩阵的方法如下：

基于用户发布文本内容的分词结果，根据步骤S3.1选取的粗粒度主题c关联的主题词文本内容解释标注用户之间的关注关系；同时，根据步骤S3.2选取的细粒度主题c_k关联的主题词文本内容解释标注用户之间的关注关系；粗粒度主题、细粒度主题关联的文本内容解释了主题偏好语义矩阵，可以识别社交网络用户间的行为兴趣关系，根据用户文本内容的变化可以监测用户间关注关系的变化，在网络团伙异地社交关系识别方面具有重要作用。

进一步，所述步骤S5，计算新用户与其他用户节点在层次化主题下的相关性的方法如下：

在用户粗粒度主题c偏好语义矩阵

的基础上，根据新用户u的向量表示

计算与已有用户t的向量表示

的相似性，利用

表示用户u与用户t在粗粒度主题c方面的关注关系r上的距离；进而在粗粒度主题c的细粒度主题c_k偏好语义矩阵

的基础上，为新用户u计算与已有用户t的相似性，利用

表示用户u与用户t在细粒度主题c_k方面的关注关系r上的距离；距离越小，表明用户u关注了用户t，用户u到用户t之间具有关注关系，粗粒度主题c、细粒度主题c_k分别从不同方面预测了用户之间的关注关系。

进一步，所述步骤S6，选取具有最大相关性的层次化主题标注用户间关注关系的方法如下：

根据不同的主题可以计算新用户u与用户t之间关注关系的相关性，从具有相关性的粗粒度主题集合里，选取距离最小的最大相关性的粗粒度主题c标记用户之间的关注关系，同时，在粗粒度主题c的基础上，选取相关性最高的细粒度主题c_k，标记用户之间的关注关系；针对新用户，从粗粒度、细粒度兴趣主题方面解释了与用户t之间的关注关系行为，提升了为新用户进行关注好友推荐过程中的可解释性。

进一步，所述步骤S7，标记关注关系的层次化主题偏好语义矩阵的方法如下：

将步骤S6中最大相关性的粗粒度主题c的偏好语义矩阵

作为新用户关注关系的粗粒度主题偏好语义矩阵，在粗粒度主题c的基础上，选取最大相关性的细粒度主题c_k的偏好语义矩阵

作为新用户关注关系的细粒度主题偏好语义矩阵；针对新用户，从粗粒度、细粒度兴趣主题偏好的程度方面揭示了与用户t的关注关系原因，解释了新用户在不同主题领域关注不同用户的行为。

进一步，所述步骤S8，依据用户文本内容解释偏好语义矩阵的方法如下：

基于用户发布内容的分词结果，为粗粒度主题c选取关联的主题词文本内容解释标注用户之间新的关注关系；同时，为细粒度主题c_k选取关联的主题词文本内容解释标注用户之间新的关注关系；文本内容反映了用户的行为，通过文本内容解释了主题偏好语义矩阵，识别了用户间兴趣诱发的行为关注关系，为新用户提供了关注关系的可视化解释，能够提升新用户对推荐系统的可理解性和信任性，同时文本内容有利于追踪社交网络异地用户之间的社会化关注行为。

本发明提出了基于层次化主题偏好语义矩阵的关注关系识别及标注方法，首先针对已有用户社交关系网络图以及用户文本内容数据，构建基于翻译模型的层次化主题偏好语义矩阵，并通过偏好语义矩阵标注网络节点关注关系，通过用户文本内容解释偏好语义矩阵；接着通过层次化主题偏好语义矩阵计算新用户与其他节点之间的关注关系相关性，将相关性高的用户识别为具有关注关系，更新网络中新用户与这些节点的关注关系，标记关注关系的层次化主题偏好语义矩阵，依据用户文本内容解释偏好语义矩阵，标注后的社交网络关注关系是本发明的最终输出结果。

与现有技术相比本发明具有以下优点：

本发明中提供的方法区别于现有方法的显著特征在于构建了基于翻译模型的层次化主题偏好语义矩阵，并通过偏好语义矩阵标注网络节点关注关系，通过文本内容和层次化主题偏好语义矩阵计算新用户与其他节点之间的关注关系相关性，将相关性高的用户识别为具有关注关系，并依据用户文本内容解释偏好语义矩阵。本发明从层次化主题方面预测了用户关注关系，提高了社交网络识别用户关注关系的准确率，尤其是在网络诈骗团伙异地关系识别方面提供极大支持。

附图说明

图1为整体模型架构示意图。

具体实施方式

本发明所述的基于用户层次化主题偏好语义矩阵的关注关系识别及标注方法通过计算机程序实施。下面将按照流程详述本发明提出的技术方案的具体实施方式，本发明整体模型架构如图1所示。

步骤S1，构建主题偏好语义矩阵初始化的关注关系网络图；

粗粒度主题c的细粒度主题集合记为Child(c)＝{c₁,c₂,...,c_k,...,c_b}。

步骤S2，学习基于翻译模型的层次化主题偏好语义矩阵；

用户t在粗粒度主题c方面的向量表示为

其中，

分别为用户h和用户t的向量表示；用户h和用户t的向量表示

的基础上，学习细粒度主题c_k的主题偏好语义矩阵

用户h在细粒度主题c_k上的向量表示

用户t在细粒度主题c_k上的向量表示

其中，

代表用户h在细粒度主题c_k方面的向量表示；

代表用户t在细粒度主题c_k方面的向量表示；

代表用户u和用户v的关注关系r的空间表示；

定义基于翻译关系的Hinge Loss目标函数为：

为粗粒度主题c、t的偏好语义矩阵，

为粗粒度主题c的细粒度主题c_i、c_j的偏好语义矩阵；

为单位矩阵；

为用户关注关系的负样本集合，

为基于(h,r,t)替换的用户h，且

与t不存在关注关系r，

为基于(h,r,t)替换的用户t，且h与

与

正交保证了粗粒度主题c、t可以学习到不同的参数矩阵；

与

正交保证了细粒度主题c_i、c_j可以学习到不同的参数矩阵。

步骤S3，通过偏好语义矩阵标注网络节点关注关系；

步骤S3.1，从步骤S2.3学习到的粗粒度主题c的偏好语义矩阵

解释用户之间的关注关系；

步骤S3.2，从步骤S2.3学习到的粗粒度主题c的细粒度主题c_k的偏好语义矩阵

解释用户之间的关注关系。

步骤S4，基于用户文本内容解释层次化主题偏好语义矩阵；基于用户发布文本内容的分词结果，根据步骤S3.1选取的粗粒度主题c关联的主题词文本内容解释标注用户之间的关注关系；同时，根据步骤S3.2选取的细粒度主题c_k关联的主题词文本内容解释标注用户之间的关注关系。

步骤S5，计算新用户与其他用户节点在层次化主题下的相关性；在用户粗粒度主题c偏好语义矩阵

的基础上，根据新用户u的向量表示

计算与已有用户t的向量表示

的相似性，利用

的基础上，为新用户u计算与已有用户t的相似性，利用

表示用户u与用户t在细粒度主题c_k方面的关注关系r上的距离。

步骤S6，选取具有最大相关性的层次化主题标注用户间关注关系；根据不同的主题可以计算新用户u与用户t之间关注关系的相关性，从具有相关性的粗粒度主题集合里，选取距离最小的最大相关性的粗粒度主题c标记用户之间的关注关系，同时，在粗粒度主题c的基础上，选取相关性最高的细粒度主题c_k，标记用户之间的关注关系。

步骤S7，标记关注关系的层次化主题偏好语义矩阵；将步骤S6中最大相关性的粗粒度主题c的偏好语义矩阵

作为新用户关注关系的细粒度主题偏好语义矩阵。

步骤S8，依据用户文本内容解释偏好语义矩阵；基于用户发布内容的分词结果，为粗粒度主题c选取关联的主题词文本内容解释标注用户之间新的关注关系；同时，为细粒度主题c_k选取关联的主题词文本内容解释标注用户之间新的关注关系。

技术效果评价

为验证本发明提出技术方案的有效性和先进性，选取几种已有的翻译模型方法进行对比：TransE、TransD、TransH、TransR。通过平均排名(MeanRank)和Hits@K对上述方法在微博社交网络数据集上的关注关系链路预测检测结果进行评价，结果如表1所示：

表1

由表中结果可以看出，本发明技术方案在进行社交网络的链路预测时，能获得精度和可靠性优于已有方法的检测结果。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.基于层次化主题偏好语义矩阵的关注关系识别及标注方法，其特征在于：包括以下步骤：

步骤S1，构建主题偏好语义矩阵初始化的关注关系网络图；

步骤S2，学习基于翻译模型的层次化主题偏好语义矩阵；

步骤S3，通过偏好语义矩阵标注网络节点关注关系；

步骤S4，基于用户文本内容解释层次化主题偏好语义矩阵；

步骤S7，标记关注关系的层次化主题偏好语义矩阵；

步骤S8，依据用户文本内容解释偏好语义矩阵。

2.根据权利要求1所述基于层次化主题偏好语义矩阵的关注关系识别及标注方法，其特征在于：所述步骤S1，构建主题偏好语义矩阵初始化的关注关系网络图还包括以下步骤：

3.根据权利要求1所述基于层次化主题偏好语义矩阵的关注关系识别及标注方法，其特征在于：所述步骤S2，学习基于翻译模型的层次化主题偏好语义矩阵还包括以下步骤：

用户t在粗粒度主题c方面的向量表示为

其中，

分别为用户h和用户t的向量表示；用户h和用户t的向量表示

的基础上，学习细粒度主题c_k的主题偏好语义矩阵

用户h在细粒度主题c_k上的向量表示

用户t在细粒度主题c_k上的向量表示

其中，

代表用户h在细粒度主题c_k方面的向量表示；

代表用户t在细粒度主题c_k方面的向量表示；

代表用户u和用户v的关注关系r的空间表示；

定义基于翻译关系的Hinge Loss目标函数为：

为粗粒度主题c、t的偏好语义矩阵，

为粗粒度主题c的细粒度主题c_i、c_j的偏好语义矩阵；

为单位矩阵；

为用户关注关系的负样本集合，

为基于(h,r,t)替换的用户h，且

与t不存在关注关系r，

为基于(h,r,t)替换的用户t，且h与

与

正交保证了粗粒度主题c、t可以学习到不同的参数矩阵；

与

正交保证了细粒度主题c_i、c_j可以学习到不同的参数矩阵。

4.根据权利要求1所述基于层次化主题偏好语义矩阵的关注关系识别及标注方法，其特征在于：所述步骤S3，通过偏好语义矩阵标注网络节点关注关系还包括以下步骤：

步骤S3.1，从步骤S2.3学习到的粗粒度主题c的偏好语义矩阵

解释用户之间的关注关系；

解释用户之间的关注关系。

5.根据权利要求1所述基于层次化主题偏好语义矩阵的关注关系识别及标注方法，其特征在于：所述步骤S4，基于用户文本内容解释层次化主题偏好语义矩阵的方法如下：基于用户发布文本内容的分词结果，根据步骤S3.1选取的粗粒度主题c关联的主题词文本内容解释标注用户之间的关注关系；同时，根据步骤S3.2选取的细粒度主题c_k关联的主题词文本内容解释标注用户之间的关注关系。

6.根据权利要求1所述基于层次化主题偏好语义矩阵的关注关系识别及标注方法，其特征在于：所述步骤S5，计算新用户与其他用户节点在层次化主题下的相关性的方法如下：在用户粗粒度主题c偏好语义矩阵

的基础上，根据新用户u的向量表示

计算与已有用户t的向量表示

的相似性，利用

的基础上，为新用户u计算与已有用户t的相似性，利用

7.根据权利要求1所述基于层次化主题偏好语义矩阵的关注关系识别及标注方法，其特征在于：所述步骤S6，选取具有最大相关性的层次化主题标注用户间关注关系的方法如下：根据不同的主题可以计算新用户u与用户t之间关注关系的相关性，从具有相关性的粗粒度主题集合里，选取距离最小的最大相关性的粗粒度主题c标记用户之间的关注关系，同时，在粗粒度主题c的基础上，选取相关性最高的细粒度主题c_k，标记用户之间的关注关系。

8.根据权利要求1所述基于层次化主题偏好语义矩阵的关注关系识别及标注方法，其特征在于：所述步骤S7，标记关注关系的层次化主题偏好语义矩阵的方法如下：将步骤S6中最大相关性的粗粒度主题c的偏好语义矩阵

作为新用户关注关系的细粒度主题偏好语义矩阵。

9.根据权利要求1所述基于层次化主题偏好语义矩阵的关注关系识别及标注方法，其特征在于：所述步骤S8，依据用户文本内容解释偏好语义矩阵的方法如下：基于用户发布内容的分词结果，为粗粒度主题c选取关联的主题词文本内容解释标注用户之间新的关注关系；同时，为细粒度主题c_k选取关联的主题词文本内容解释标注用户之间新的关注关系。