CN111723301A - 基于层次化主题偏好语义矩阵的关注关系识别及标注方法 - Google Patents
基于层次化主题偏好语义矩阵的关注关系识别及标注方法 Download PDFInfo
- Publication number
- CN111723301A CN111723301A CN202010483759.5A CN202010483759A CN111723301A CN 111723301 A CN111723301 A CN 111723301A CN 202010483759 A CN202010483759 A CN 202010483759A CN 111723301 A CN111723301 A CN 111723301A
- Authority
- CN
- China
- Prior art keywords
- user
- topic
- grained
- attention
- preference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 108
- 238000002372 labelling Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims description 15
- 238000013519 translation Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 description 7
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Machine Translation (AREA)
Abstract
本发明属于社交网络可解释性链路预测方法技术领域,公开了基于层次化主题偏好语义矩阵的关注关系识别及标注方法,首先针对社交用户关注关系网络图以及用户文本内容数据,构建学习层次化主题偏好语义矩阵,并通过层次化主题和偏好语义矩阵标注网络节点关注关系,通过用户文本内容解释偏好语义矩阵;接着通过层次化主题偏好语义矩阵计算新用户与其他用户之间的关注关系相关性,将相关性高的用户识别为具有关注关系,通过层次化主题和偏好语义矩阵标记关注关系,依据用户文本内容解释偏好语义矩阵。本发明从层次化主题方面预测了用户关注关系,提高了社交网络用户关注关系识别的准确率,尤其是在网络诈骗团伙异地社交关注关系识别方面提供极大支持。
Description
技术领域
本发明涉及社交网络可解释性链路预测方法技术领域,具体涉及基于层次化主题偏好语义矩阵的关注关系识别及标注方法。
背景技术
在社交网络中,用户之间的关注关系能够形成关注网络结构。在许多的关注关系社交网络中,用户可能对不同类型的主题和不同层次的主题具有不同的兴趣点,通过探索用户间关注关系在不同类型主题以及不同层次主题下的隐含语义联系,可以深入挖掘用户的关注关系兴趣动机所在,从而更容易发现用户的潜在关注用户,建立更可信的关注关系预测解释。一位用户关注了另一位用户,则可能转发该用户的微博内容,或点赞该微博内容。通过分析两个用户发布的微博内容,能够在某些潜在的共同兴趣特征上发现语义相似性,预测用户之间的关注行为;同时用户的兴趣具有层次化结构,两个在CBA主题上建立关注关系的用户比两个在篮球主题上建立关注关系的用户更具有语义的解释性。基于用户间潜在兴趣主题提取细粒度的可解释性的关注关系原因能够提升推荐系统链路预测的性能。
社交网络中的关注关系链路预测通常依赖于网络结构,基于网络结构的标注技术分析了用户之间的链接影响力,忽略了用户的微博内容中丰富的兴趣信息;基于用户行为记录的关注关系技术侧重于利用用户显式的主题关键词标注。另一方面,社交网络用户的兴趣具有多样化,具有多层次化,例如,关注者用户发布的微博内容包含了体育关键词,被关注者用户发布的微博内容包含了篮球、CBA等主题词,则通过主题词体育、篮球、CBA之间的潜在语义关系可以提取及解释标注用户间的关注关系行为。因此,如何根据用户的微博内容,挖掘用户间潜在语义兴趣的动机,在层次化兴趣主题偏好语义矩阵上学习用户间的关注关系,进而实现在细粒度兴趣主题方面的用户网络关注关系预测,完成可解释的精准的用户关注关系链路预测是十分必要的。
发明内容
针对上述问题本发明提供了基于层次化主题偏好语义矩阵的关注关系识别及标注方法。
为了达到上述目的,本发明采用了下列技术方案:
基于层次化主题偏好语义矩阵的关注关系识别及标注方法,包括以下步骤:
步骤S1,构建主题偏好语义矩阵初始化的关注关系网络图;
步骤S2,学习基于翻译模型的层次化主题偏好语义矩阵;
步骤S3,通过偏好语义矩阵标注网络节点关注关系;
步骤S4,基于用户文本内容解释层次化主题偏好语义矩阵;
步骤S5,计算新用户与其他用户节点在层次化主题下的相关性;
步骤S6,选取具有最大相关性的层次化主题标注用户间关注关系;
步骤S7,标记关注关系的层次化主题偏好语义矩阵;
步骤S8,依据用户文本内容解释偏好语义矩阵。
进一步,所述步骤S1,构建主题偏好语义矩阵初始化的关注关系网络图还包括以下步骤:
步骤S1.1,根据用户的关注关系,建立关注关系图G(V,R),其中V为节点的集合,R为边的集合;关注关系图中的节点表示用户,边表示用户间的关注关系r,若用户h关注了用户t,则构建从用户h指向用户t的一条边;其中,h、t均表示用户;关注关系图描述了用户之间的显式的社会化关注关系,有利于用来预测用户之间的潜在关注关系;
步骤S1.2,基于用户h发布的文本内容提取关键词集合Sh;基于用户t发布的文本内容提取关键词集合St;根据Sh、St分别计算与中文维基百科l层N个粗粒度主题的jaccard相似度系数,选取用户h和用户t的相似度高的m个粗粒度主题解释用户间的关注关系,并初始化m个粗粒度主题偏好语义矩阵在l层粗粒度主题基础上,根据Sh、St分别计算与中文维基百科l+1层P个细粒度主题的jaccard相似度系数,选取用户h和用户t的相似度高的q个细粒度主题解释用户间的关注关系,并初始化q个细粒度主题偏好语义矩阵粗粒度主题c的细粒度主题集合记为Child(c)={c1,c2,...,ck,...,cb};初始化的主题偏好语义矩阵反映了用户h和用户t之间的文本内容关联,有利于揭示反映用户之间关注关系的原因。
进一步,所述步骤S2,学习基于翻译模型的层次化主题偏好语义矩阵还包括以下步骤:
步骤S2.1,基于关注关系图上的用户h,用户t及关注关系建立三元组(h,r,t),r为用户h到用户t的关注关系;进而在粗粒度主题方面基于翻译模型建模用户和关系的表示,给定粗粒度主题c,记用户h在粗粒度主题c方面的向量表示为用户t在粗粒度主题c方面的向量表示为
其中,分别为用户h和用户t的向量表示;用户h和用户t的向量表示 映射到粗粒度主题c方面的关系空间,得到粗粒度主题c方面的关系空间的向量表示粗粒度主题c方面的用户向量表示了用户在某一方面的投影语义兴趣,可以根据粗粒度主题c的语义兴趣解释用户之间关注关系的原因;
步骤S2.2,基于粗粒度主题c关于关注关系的解释作用,通过粗粒度主题c的细粒度主题Child(c)={c1,c2,...,ck,...,cb}可以进一步详细描述刻画用户间的关注关系;设ck为粗粒度主题c的第k个细粒度主题,当粗粒度主题c为篮球时,则细粒度主题ck表示CBA,在粗粒度主题c的主题偏好语义矩阵的基础上,学习细粒度主题ck的主题偏好语义矩阵用户h在细粒度主题ck上的向量表示用户t在细粒度主题ck上的向量表示建立用户h和用户t在粗粒度主题c的细粒度主题ck上的关注关系距离函数为:
其中,表示用户h和用户t在细粒度主题ck方面的关注关系r上的距离函数;代表用户h在细粒度主题ck方面的向量表示;代表用户t在细粒度主题ck方面的向量表示;代表用户u和用户v的关注关系r的空间表示;用户h和用户t在细粒度主题ck方面的关注关系距离反映了用户之间语义兴趣的差别,距离越大,兴趣差距越大,距离越小,用户之间的兴趣越相似,越能解释用户之间的关注关系原因;
其中,c、t是l层的粗粒度主题;ci、cj是粗粒度主题c的细粒度主题; 为粗粒度主题c、t的偏好语义矩阵,为粗粒度主题c的细粒度主题ci、cj的偏好语义矩阵;为单位矩阵;为Hinge Loss损失函数;S为(h,r,t)用户关注关系的正样本集合,用户h与用户t具有关注关系r;为用户关注关系的负样本集合,为基于(h,r,t)替换的用户h,且与t不存在关注关系r,为基于(h,r,t)替换的用户t,且h与不存在关注关系r;γ表示边界参数;λ表示粗粒度主题的正则化超参数;η表示细粒度主题的正则化超参数;与正交保证了粗粒度主题c、t可以学习到不同的参数矩阵;与正交保证了细粒度主题ci、cj可以学习到不同的参数矩阵;Hinge Loss最小化使得正样本用户间的距离要小于负样本用户间的距离,且低于边界参数γ,能够从细粒度主题语义兴趣方面迭代学习用户的分布式表示,有利于从细粒度主题方面预测用户之间的关注关系,根据细粒度主题对用户间关注关系进行解释。
进一步,所述步骤S3,通过偏好语义矩阵标注网络节点关注关系还包括以下步骤:
步骤3.2,从步骤S2.3学习到的粗粒度主题c的细粒度主题ck的偏好语义矩阵解释用户之间的关注关系;从粗粒度、细粒度主题方面全面性地解释了用户节点之间的关注关系原因,有利于精准地为用户推荐主题兴趣相关的产品或用户。
进一步,所述步骤S4,基于用户文本内容解释层次化主题偏好语义矩阵的方法如下:
基于用户发布文本内容的分词结果,根据步骤S3.1选取的粗粒度主题c关联的主题词文本内容解释标注用户之间的关注关系;同时,根据步骤S3.2选取的细粒度主题ck关联的主题词文本内容解释标注用户之间的关注关系;粗粒度主题、细粒度主题关联的文本内容解释了主题偏好语义矩阵,可以识别社交网络用户间的行为兴趣关系,根据用户文本内容的变化可以监测用户间关注关系的变化,在网络团伙异地社交关系识别方面具有重要作用。
进一步,所述步骤S5,计算新用户与其他用户节点在层次化主题下的相关性的方法如下:
在用户粗粒度主题c偏好语义矩阵的基础上,根据新用户u的向量表示计算与已有用户t的向量表示的相似性,利用表示用户u与用户t在粗粒度主题c方面的关注关系r上的距离;进而在粗粒度主题c的细粒度主题ck偏好语义矩阵的基础上,为新用户u计算与已有用户t的相似性,利用表示用户u与用户t在细粒度主题ck方面的关注关系r上的距离;距离越小,表明用户u关注了用户t,用户u到用户t之间具有关注关系,粗粒度主题c、细粒度主题ck分别从不同方面预测了用户之间的关注关系。
进一步,所述步骤S6,选取具有最大相关性的层次化主题标注用户间关注关系的方法如下:
根据不同的主题可以计算新用户u与用户t之间关注关系的相关性,从具有相关性的粗粒度主题集合里,选取距离最小的最大相关性的粗粒度主题c标记用户之间的关注关系,同时,在粗粒度主题c的基础上,选取相关性最高的细粒度主题ck,标记用户之间的关注关系;针对新用户,从粗粒度、细粒度兴趣主题方面解释了与用户t之间的关注关系行为,提升了为新用户进行关注好友推荐过程中的可解释性。
进一步,所述步骤S7,标记关注关系的层次化主题偏好语义矩阵的方法如下:
将步骤S6中最大相关性的粗粒度主题c的偏好语义矩阵作为新用户关注关系的粗粒度主题偏好语义矩阵,在粗粒度主题c的基础上,选取最大相关性的细粒度主题ck的偏好语义矩阵作为新用户关注关系的细粒度主题偏好语义矩阵;针对新用户,从粗粒度、细粒度兴趣主题偏好的程度方面揭示了与用户t的关注关系原因,解释了新用户在不同主题领域关注不同用户的行为。
进一步,所述步骤S8,依据用户文本内容解释偏好语义矩阵的方法如下:
基于用户发布内容的分词结果,为粗粒度主题c选取关联的主题词文本内容解释标注用户之间新的关注关系;同时,为细粒度主题ck选取关联的主题词文本内容解释标注用户之间新的关注关系;文本内容反映了用户的行为,通过文本内容解释了主题偏好语义矩阵,识别了用户间兴趣诱发的行为关注关系,为新用户提供了关注关系的可视化解释,能够提升新用户对推荐系统的可理解性和信任性,同时文本内容有利于追踪社交网络异地用户之间的社会化关注行为。
本发明提出了基于层次化主题偏好语义矩阵的关注关系识别及标注方法,首先针对已有用户社交关系网络图以及用户文本内容数据,构建基于翻译模型的层次化主题偏好语义矩阵,并通过偏好语义矩阵标注网络节点关注关系,通过用户文本内容解释偏好语义矩阵;接着通过层次化主题偏好语义矩阵计算新用户与其他节点之间的关注关系相关性,将相关性高的用户识别为具有关注关系,更新网络中新用户与这些节点的关注关系,标记关注关系的层次化主题偏好语义矩阵,依据用户文本内容解释偏好语义矩阵,标注后的社交网络关注关系是本发明的最终输出结果。
与现有技术相比本发明具有以下优点:
本发明中提供的方法区别于现有方法的显著特征在于构建了基于翻译模型的层次化主题偏好语义矩阵,并通过偏好语义矩阵标注网络节点关注关系,通过文本内容和层次化主题偏好语义矩阵计算新用户与其他节点之间的关注关系相关性,将相关性高的用户识别为具有关注关系,并依据用户文本内容解释偏好语义矩阵。本发明从层次化主题方面预测了用户关注关系,提高了社交网络识别用户关注关系的准确率,尤其是在网络诈骗团伙异地关系识别方面提供极大支持。
附图说明
图1为整体模型架构示意图。
具体实施方式
本发明所述的基于用户层次化主题偏好语义矩阵的关注关系识别及标注方法通过计算机程序实施。下面将按照流程详述本发明提出的技术方案的具体实施方式,本发明整体模型架构如图1所示。
基于层次化主题偏好语义矩阵的关注关系识别及标注方法,包括以下步骤:
步骤S1,构建主题偏好语义矩阵初始化的关注关系网络图;
步骤S1.1,根据用户的关注关系,建立关注关系图G(V,R),其中V为节点的集合,R为边的集合;关注关系图中的节点表示用户,边表示用户间的关注关系r,若用户h关注了用户t,则构建从用户h指向用户t的一条边;其中,h、t均表示用户;关注关系图描述了用户之间的显式的社会化关注关系,有利于用来预测用户之间的潜在关注关系;
步骤S1.2,基于用户h发布的文本内容提取关键词集合Sh;基于用户t发布的文本内容提取关键词集合St;根据Sh、St分别计算与中文维基百科l层N个粗粒度主题的jaccard相似度系数,选取用户h和用户t的相似度高的m个粗粒度主题解释用户间的关注关系,并初始化m个粗粒度主题偏好语义矩阵在l层粗粒度主题基础上,根据Sh、St分别计算与中文维基百科l+1层P个细粒度主题的jaccard相似度系数,选取用户h和用户t的相似度高的q个细粒度主题解释用户间的关注关系,并初始化q个细粒度主题偏好语义矩阵粗粒度主题c的细粒度主题集合记为Child(c)={c1,c2,...,ck,...,cb}。
步骤S2,学习基于翻译模型的层次化主题偏好语义矩阵;
步骤S2.1,基于关注关系图上的用户h,用户t及关注关系建立三元组(h,r,t),r为用户h到用户t的关注关系;进而在粗粒度主题方面基于翻译模型建模用户和关系的表示,给定粗粒度主题c,记用户h在粗粒度主题c方面的向量表示为用户t在粗粒度主题c方面的向量表示为
步骤S2.2,基于粗粒度主题c关于关注关系的解释作用,通过粗粒度主题c的细粒度主题Child(c)={c1,c2,...,ck,...,cb}可以进一步详细描述刻画用户间的关注关系;设ck为粗粒度主题c的第k个细粒度主题,当粗粒度主题c为篮球时,则细粒度主题ck表示CBA,在粗粒度主题c的主题偏好语义矩阵的基础上,学习细粒度主题ck的主题偏好语义矩阵用户h在细粒度主题ck上的向量表示用户t在细粒度主题ck上的向量表示建立用户h和用户t在粗粒度主题c的细粒度主题ck上的关注关系距离函数为:
其中,c、t是l层的粗粒度主题;ci、cj是粗粒度主题c的细粒度主题; 为粗粒度主题c、t的偏好语义矩阵,为粗粒度主题c的细粒度主题ci、cj的偏好语义矩阵;为单位矩阵;为Hinge Loss损失函数;S为(h,r,t)用户关注关系的正样本集合,用户h与用户t具有关注关系r;为用户关注关系的负样本集合,为基于(h,r,t)替换的用户h,且与t不存在关注关系r,为基于(h,r,t)替换的用户t,且h与不存在关注关系r;γ表示边界参数;λ表示粗粒度主题的正则化超参数;η表示细粒度主题的正则化超参数;与正交保证了粗粒度主题c、t可以学习到不同的参数矩阵;与正交保证了细粒度主题ci、cj可以学习到不同的参数矩阵。
步骤S3,通过偏好语义矩阵标注网络节点关注关系;
步骤S4,基于用户文本内容解释层次化主题偏好语义矩阵;基于用户发布文本内容的分词结果,根据步骤S3.1选取的粗粒度主题c关联的主题词文本内容解释标注用户之间的关注关系;同时,根据步骤S3.2选取的细粒度主题ck关联的主题词文本内容解释标注用户之间的关注关系。
步骤S5,计算新用户与其他用户节点在层次化主题下的相关性;在用户粗粒度主题c偏好语义矩阵的基础上,根据新用户u的向量表示计算与已有用户t的向量表示的相似性,利用表示用户u与用户t在粗粒度主题c方面的关注关系r上的距离;进而在粗粒度主题c的细粒度主题ck偏好语义矩阵的基础上,为新用户u计算与已有用户t的相似性,利用表示用户u与用户t在细粒度主题ck方面的关注关系r上的距离。
步骤S6,选取具有最大相关性的层次化主题标注用户间关注关系;根据不同的主题可以计算新用户u与用户t之间关注关系的相关性,从具有相关性的粗粒度主题集合里,选取距离最小的最大相关性的粗粒度主题c标记用户之间的关注关系,同时,在粗粒度主题c的基础上,选取相关性最高的细粒度主题ck,标记用户之间的关注关系。
步骤S7,标记关注关系的层次化主题偏好语义矩阵;将步骤S6中最大相关性的粗粒度主题c的偏好语义矩阵作为新用户关注关系的粗粒度主题偏好语义矩阵,在粗粒度主题c的基础上,选取最大相关性的细粒度主题ck的偏好语义矩阵作为新用户关注关系的细粒度主题偏好语义矩阵。
步骤S8,依据用户文本内容解释偏好语义矩阵;基于用户发布内容的分词结果,为粗粒度主题c选取关联的主题词文本内容解释标注用户之间新的关注关系;同时,为细粒度主题ck选取关联的主题词文本内容解释标注用户之间新的关注关系。
技术效果评价
为验证本发明提出技术方案的有效性和先进性,选取几种已有的翻译模型方法进行对比:TransE、TransD、TransH、TransR。通过平均排名(MeanRank)和Hits@K对上述方法在微博社交网络数据集上的关注关系链路预测检测结果进行评价,结果如表1所示:
表1
由表中结果可以看出,本发明技术方案在进行社交网络的链路预测时,能获得精度和可靠性优于已有方法的检测结果。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (9)
1.基于层次化主题偏好语义矩阵的关注关系识别及标注方法,其特征在于:包括以下步骤:
步骤S1,构建主题偏好语义矩阵初始化的关注关系网络图;
步骤S2,学习基于翻译模型的层次化主题偏好语义矩阵;
步骤S3,通过偏好语义矩阵标注网络节点关注关系;
步骤S4,基于用户文本内容解释层次化主题偏好语义矩阵;
步骤S5,计算新用户与其他用户节点在层次化主题下的相关性;
步骤S6,选取具有最大相关性的层次化主题标注用户间关注关系;
步骤S7,标记关注关系的层次化主题偏好语义矩阵;
步骤S8,依据用户文本内容解释偏好语义矩阵。
2.根据权利要求1所述基于层次化主题偏好语义矩阵的关注关系识别及标注方法,其特征在于:所述步骤S1,构建主题偏好语义矩阵初始化的关注关系网络图还包括以下步骤:
步骤S1.1,根据用户的关注关系,建立关注关系图G(V,R),其中V为节点的集合,R为边的集合;关注关系图中的节点表示用户,边表示用户间的关注关系r,若用户h关注了用户t,则构建从用户h指向用户t的一条边;其中,h、t均表示用户;关注关系图描述了用户之间的显式的社会化关注关系,有利于用来预测用户之间的潜在关注关系;
3.根据权利要求1所述基于层次化主题偏好语义矩阵的关注关系识别及标注方法,其特征在于:所述步骤S2,学习基于翻译模型的层次化主题偏好语义矩阵还包括以下步骤:
步骤S2.1,基于关注关系图上的用户h,用户t及关注关系建立三元组(h,r,t),r为用户h到用户t的关注关系;进而在粗粒度主题方面基于翻译模型建模用户和关系的表示,给定粗粒度主题c,记用户h在粗粒度主题c方面的向量表示为用户t在粗粒度主题c方面的向量表示为其中,分别为用户h和用户t的向量表示;用户h和用户t的向量表示映射到粗粒度主题c方面的关系空间,得到粗粒度主题c方面的关系空间的向量表示
步骤S2.2,基于粗粒度主题c关于关注关系的解释作用,通过粗粒度主题c的细粒度主题Child(c)={c1,c2,...,ck,...,cb}可以进一步详细描述刻画用户间的关注关系;设ck为粗粒度主题c的第k个细粒度主题,当粗粒度主题c为篮球时,则细粒度主题ck表示CBA,在粗粒度主题c的主题偏好语义矩阵的基础上,学习细粒度主题ck的主题偏好语义矩阵用户h在细粒度主题ck上的向量表示用户t在细粒度主题ck上的向量表示建立用户h和用户t在粗粒度主题c的细粒度主题ck上的关注关系距离函数为:
其中,c、t是l层的粗粒度主题;ci、cj是粗粒度主题c的细粒度主题; 为粗粒度主题c、t的偏好语义矩阵,为粗粒度主题c的细粒度主题ci、cj的偏好语义矩阵;为单位矩阵;为Hinge Loss损失函数;S为(h,r,t)用户关注关系的正样本集合,用户h与用户t具有关注关系r;为用户关注关系的负样本集合,为基于(h,r,t)替换的用户h,且与t不存在关注关系r,为基于(h,r,t)替换的用户t,且h与不存在关注关系r;γ表示边界参数;λ表示粗粒度主题的正则化超参数;η表示细粒度主题的正则化超参数;与正交保证了粗粒度主题c、t可以学习到不同的参数矩阵;与正交保证了细粒度主题ci、cj可以学习到不同的参数矩阵。
5.根据权利要求1所述基于层次化主题偏好语义矩阵的关注关系识别及标注方法,其特征在于:所述步骤S4,基于用户文本内容解释层次化主题偏好语义矩阵的方法如下:基于用户发布文本内容的分词结果,根据步骤S3.1选取的粗粒度主题c关联的主题词文本内容解释标注用户之间的关注关系;同时,根据步骤S3.2选取的细粒度主题ck关联的主题词文本内容解释标注用户之间的关注关系。
7.根据权利要求1所述基于层次化主题偏好语义矩阵的关注关系识别及标注方法,其特征在于:所述步骤S6,选取具有最大相关性的层次化主题标注用户间关注关系的方法如下:根据不同的主题可以计算新用户u与用户t之间关注关系的相关性,从具有相关性的粗粒度主题集合里,选取距离最小的最大相关性的粗粒度主题c标记用户之间的关注关系,同时,在粗粒度主题c的基础上,选取相关性最高的细粒度主题ck,标记用户之间的关注关系。
9.根据权利要求1所述基于层次化主题偏好语义矩阵的关注关系识别及标注方法,其特征在于:所述步骤S8,依据用户文本内容解释偏好语义矩阵的方法如下:基于用户发布内容的分词结果,为粗粒度主题c选取关联的主题词文本内容解释标注用户之间新的关注关系;同时,为细粒度主题ck选取关联的主题词文本内容解释标注用户之间新的关注关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010483759.5A CN111723301B (zh) | 2020-06-01 | 2020-06-01 | 基于层次化主题偏好语义矩阵的关注关系识别及标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010483759.5A CN111723301B (zh) | 2020-06-01 | 2020-06-01 | 基于层次化主题偏好语义矩阵的关注关系识别及标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111723301A true CN111723301A (zh) | 2020-09-29 |
CN111723301B CN111723301B (zh) | 2022-05-27 |
Family
ID=72565598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010483759.5A Active CN111723301B (zh) | 2020-06-01 | 2020-06-01 | 基于层次化主题偏好语义矩阵的关注关系识别及标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111723301B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807600A (zh) * | 2021-09-26 | 2021-12-17 | 河南工业职业技术学院 | 一种动态社交网络中的链路预测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077417A (zh) * | 2014-07-18 | 2014-10-01 | 中国科学院计算技术研究所 | 社交网络中的人物标签推荐方法和系统 |
US20150293989A1 (en) * | 2014-04-11 | 2015-10-15 | Palo Alto Research Center Incorporated | Computer-Implemented System And Method For Generating An Interest Profile For A User From Existing Online Profiles |
CN108460153A (zh) * | 2018-03-27 | 2018-08-28 | 广西师范大学 | 一种混合博文与用户关系的社交媒体好友推荐方法 |
CN109033069A (zh) * | 2018-06-16 | 2018-12-18 | 天津大学 | 一种基于社会媒体用户动态行为的微博主题挖掘方法 |
CN109189936A (zh) * | 2018-08-13 | 2019-01-11 | 天津科技大学 | 一种基于网络结构和语义相关性度量的标签语义学习方法 |
CN109325171A (zh) * | 2018-08-08 | 2019-02-12 | 微梦创科网络科技(中国)有限公司 | 基于领域知识的用户兴趣分析方法及系统 |
US20190073410A1 (en) * | 2017-09-05 | 2019-03-07 | Estia, Inc. | Text-based network data analysis and graph clustering |
CN109766431A (zh) * | 2018-12-24 | 2019-05-17 | 同济大学 | 一种基于词义主题模型的社交网络短文本推荐方法 |
-
2020
- 2020-06-01 CN CN202010483759.5A patent/CN111723301B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150293989A1 (en) * | 2014-04-11 | 2015-10-15 | Palo Alto Research Center Incorporated | Computer-Implemented System And Method For Generating An Interest Profile For A User From Existing Online Profiles |
CN104077417A (zh) * | 2014-07-18 | 2014-10-01 | 中国科学院计算技术研究所 | 社交网络中的人物标签推荐方法和系统 |
US20190073410A1 (en) * | 2017-09-05 | 2019-03-07 | Estia, Inc. | Text-based network data analysis and graph clustering |
CN108460153A (zh) * | 2018-03-27 | 2018-08-28 | 广西师范大学 | 一种混合博文与用户关系的社交媒体好友推荐方法 |
CN109033069A (zh) * | 2018-06-16 | 2018-12-18 | 天津大学 | 一种基于社会媒体用户动态行为的微博主题挖掘方法 |
CN109325171A (zh) * | 2018-08-08 | 2019-02-12 | 微梦创科网络科技(中国)有限公司 | 基于领域知识的用户兴趣分析方法及系统 |
CN109189936A (zh) * | 2018-08-13 | 2019-01-11 | 天津科技大学 | 一种基于网络结构和语义相关性度量的标签语义学习方法 |
CN109766431A (zh) * | 2018-12-24 | 2019-05-17 | 同济大学 | 一种基于词义主题模型的社交网络短文本推荐方法 |
Non-Patent Citations (4)
Title |
---|
FATTANE ZARRINKALAM等: "Mining user interests over active topics on social networks", 《INFORMATION PROCESSING & MANAGEMENT》 * |
JIANXING ZHENG等: "Personalized recommendation based on hierarchical interest overlapping community", 《INFORMATION SCIENCES》 * |
朱倩: "面向自由文本的细粒度关系抽取的关键技术研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
郑建兴: "社会化用户模型研究及其在推荐系统中的应用", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807600A (zh) * | 2021-09-26 | 2021-12-17 | 河南工业职业技术学院 | 一种动态社交网络中的链路预测方法 |
CN113807600B (zh) * | 2021-09-26 | 2023-07-25 | 河南工业职业技术学院 | 一种动态社交网络中的链路预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111723301B (zh) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111506714B (zh) | 基于知识图嵌入的问题回答 | |
US10380259B2 (en) | Deep embedding for natural language content based on semantic dependencies | |
Ren et al. | Cotype: Joint extraction of typed entities and relations with knowledge bases | |
CN105393263B (zh) | 计算机‑人交互式学习中的特征完成 | |
Jebbara et al. | Aspect-based sentiment analysis using a two-step neural network architecture | |
CN111552855A (zh) | 一种基于深度学习的网络威胁情报自动抽取方法 | |
Zhao et al. | Simple question answering with subgraph ranking and joint-scoring | |
Wang et al. | Predicting hypernym–hyponym relations for Chinese taxonomy learning | |
CN103020221A (zh) | 一种基于多模态自适应社会关系强度挖掘的社会搜索方法 | |
Shi et al. | A brief survey of relation extraction based on distant supervision | |
Nie et al. | Cross-domain semantic transfer from large-scale social media | |
Zhao et al. | Fake news detection based on dual-channel graph convolutional attention network | |
Hong et al. | Rule-enhanced noisy knowledge graph embedding via low-quality error detection | |
CN111723301B (zh) | 基于层次化主题偏好语义矩阵的关注关系识别及标注方法 | |
CN111753151B (zh) | 一种基于互联网用户行为的服务推荐方法 | |
Rahman et al. | Knowledge graph embedding via entities’ type mapping matrix | |
Xin et al. | Entity disambiguation based on parse tree neighbours on graph attention network | |
Hong et al. | High-quality noise detection for knowledge graph embedding with rule-based triple confidence | |
CN116386895A (zh) | 基于异构图神经网络的流行病舆情实体识别方法与装置 | |
Hamdi et al. | BERT and word embedding for interest mining of instagram users | |
Xie et al. | Dynamic knowledge graph completion with jointly structural and textual dependency | |
Ren et al. | Mining Structures of Factual Knowledge from Text: An Effort-Light Approach | |
Lin et al. | Sentiment analysis model based on structure attention mechanism | |
Qiu et al. | Learning the concept embeddings of ontology | |
US12038960B2 (en) | Using neural networks to detect incongruence between headlines and body text of documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |