Nothing Special   »   [go: up one dir, main page]

CN113590928A - 内容推荐方法、装置及计算机可读存储介质 - Google Patents

内容推荐方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN113590928A
CN113590928A CN202110071458.6A CN202110071458A CN113590928A CN 113590928 A CN113590928 A CN 113590928A CN 202110071458 A CN202110071458 A CN 202110071458A CN 113590928 A CN113590928 A CN 113590928A
Authority
CN
China
Prior art keywords
content
user
information
target content
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110071458.6A
Other languages
English (en)
Inventor
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110071458.6A priority Critical patent/CN113590928A/zh
Publication of CN113590928A publication Critical patent/CN113590928A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了所涉及通信技术领域中的一种内容推荐方法、装置及计算机可读存储介质;该方法可以基于目标内容和目标内容的提供用户关联信息,获取目标内容的内容多维度特征向量,内容多维度特征向量包括目标内容和提供用户关联信息的特征信息;对目标内容的至少两种互动关联信息进行特征提取,得到目标内容的至少一个互动情况表征向量,其中,至少一个互动情况表征向量可以基于人工智能领域中的自然语言处理技术实现;对内容多维度特征向量和至少一个互动情况表征向量进行融合,得到融合后向量;基于融合后向量进行目标内容的内容分类,得到目标内容的内容分类结果;基于内容分类结果,对目标内容进行推荐。本申请可以提高内容推荐的准确性。

Description

内容推荐方法、装置及计算机可读存储介质
技术领域
本申请涉及通信技术领域,具体涉及一种内容推荐方法、装置及计算机可读存储介质。
背景技术
随着信息技术的飞速发展,越来越多的内容被发布在客户端和网站中,用户可以在客户端和网站中浏览各种内容,并且客户端和网站还可以向用户推荐各种类型的内容以供浏览。但是,目前内容推荐的准确性较差。
发明内容
本申请实施例提供一种内容推荐方法、装置及计算机可读存储介质,可以提高内容推荐的准确性。
本申请实施例提供了一种内容推荐方法,包括:
基于目标内容和所述目标内容的提供用户关联信息,获取所述目标内容的内容多维度特征向量,所述内容多维度特征向量包括所述目标内容和所述提供用户关联信息的特征信息;
对所述目标内容的至少两种互动关联信息进行特征提取,得到所述目标内容的至少一个互动情况表征向量;
对所述内容多维度特征向量和所述至少一个互动情况表征向量进行融合,得到融合后向量;
基于所述融合后向量进行所述目标内容的内容分类,得到所述目标内容的内容分类结果;
基于所述内容分类结果,对所述目标内容进行推荐。
相应的,本申请实施例提供了一种内容推荐装置,包括:
获取单元,用于基于目标内容和所述目标内容的提供用户关联信息,获取所述目标内容的内容多维度特征向量,所述内容多维度特征向量包括所述目标内容和所述提供用户关联信息的特征信息;
特征提取单元,用于对所述目标内容的至少两种互动关联信息进行特征提取,得到所述目标内容的至少一个互动情况表征向量;
向量融合单元,用于对所述内容多维度特征向量和所述至少一个互动情况表征向量进行融合,得到融合后向量;
内容分类单元,用于基于所述融合后向量进行所述目标内容的内容分类,得到所述目标内容的内容分类结果;
推荐单元,用于基于所述内容分类结果,对所述目标内容进行推荐。
在一实施例中,所述获取单元,包括:
获取子单元,用于基于所述目标内容提供用户的用户信息、所述关联用户的用户信息、以及所述目标内容提供用户与所述关联用户的关联程度,获取所述目标内容提供用户的第一用户表征向量;
第一提取子单元,用于对所述目标内容进行特征提取,得到所述目标内容的内容特征向量;
向量融合子单元,用于将所述第一用户表征向量和所述内容特征向量进行融合,得到所述目标内容的内容多维度特征向量。
在一实施例中,所述获取子单元还用于获取用户关系图,所述用户关系图包括:至少两个内容发布用户和至少两个互动用户的节点,每个内容发布用户的节点和对应的互动用户的节点间设置有连接边,所述连接边设置有权重,所述权重表示内容发布用户和对应的互动用户之间的关联程度,所述内容发布用户包括所述目标内容的目标内容提供用户;根据图游走算法,确定从互动用户的节点到目标内容提供用户的节点的游走路径,其中,所述游走路径上的互动用户为所述内容发布用户的关联用户;基于所述游走路径上的关联用户的用户信息、所述目标内容提供用户的用户信息、以及所述游走路径上的连接边的权重,确定所述目标内容提供用户的节点的节点向量,将所述节点向量确定为所述目标内容提供用户的第一用户表征向量。
在一实施例中,所述特征提取单元,包括:
第二提取子单元,用于对所述用户互动信息从至少两个维度进行特征提取,得到所述用户互动信息的至少两个维度的信息特征向量;
第三提取子单元,用于对所述互动信息发布用户关联信息进行用户特征提取,得到所述用户互动信息的发布用户的第二用户表征向量;
处理子单元,用于对所述至少两个维度的信息特征向量和所述第二用户表征向量进行处理,得到所述目标内容的至少一个互动情况表征向量。
在一实施例中,所述第二提取子单元还用于对所述用户互动信息从时间维度进行特征提取,得到所述用户互动信息的时间特征向量;对所述用户互动信息从内容维度进行特征提取,得到所述用户互动信息的内容特征向量;将所述时间特征向量和所述内容特征向量,作为所述用户互动信息的至少两个维度的信息特征向量。
在一实施例中,所述特征提取单元,包括:
转换子单元,用于将所述用户互动信息中的词语转换为词向量,根据所述用户互动信息中的词语所在句子的顺序,以及所述词语的词向量,得到所述用户互动信息的初始文本向量;
编码子单元,用于对所述互动信息发布用户关联信息进行编码,得到所述用户互动信息的发布用户的初始用户表征向量;
融合子单元,用于将所述初始文本向量和所述初始用户表征向量进行融合,得到融合后初始向量;
第四提取子单元,用于对所述融合后初始向量进行深度特征提取,得到互动情况表征向量。
在一实施例中,所述内容分类单元,包括:
映射子单元,用于对所述融合后向量按照分类映射矩阵进行映射,得到所述目标内容在至少两个预设的内容类型下的预测分类概率;
结果确定子单元,用于基于所述目标内容在至少两个预设的内容类型下的预测分类概率,确定所述目标内容的当前内容类型作为内容分类结果。
在一实施例中,所述推荐单元,包括:
获取子单元,用于获取所述目标内容在距离当前时刻的预设历史时长内的历史内容分类结果,以及对应的结果获取时间;
权重确定子单元,用于基于所述内容分类结果和所述历史内容分类结果的结果获取时间,确定所述内容分类结果和各个所述历史内容分类结果的推荐参考权重;
分值确定子单元,用于根据所述内容分类结果和所述历史内容分类结果中,各预设的内容类型的出现次数,以及每次出现的预设的内容类型对应的推荐参考权重,确定各预设的内容类型对所述目标内容的内容类型表征分值;
推荐子单元,用于根据所述预设的内容类型中推荐参考内容类型对应的内容类型表征分值,确定所述目标内容的推荐强度,基于所述推荐强度对所述目标内容进行推荐。
相应的,本申请实施例还提供了一种计算机设备,包括存储器,处理器及存储在储存器上并可在处理器上运行的计算机程序,其中,所述处理器执行本申请实施例任一提供的内容推荐方法中的步骤。
相应的,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适用于处理器进行加载,以执行本申请实施例任一提供的内容推荐方法中的步骤。
本申请实施例可以基于目标内容和所述目标内容的提供用户关联信息,获取所述目标内容的内容多维度特征向量,所述内容多维度特征向量包括所述目标内容和所述提供用户关联信息的特征信息;对所述目标内容的至少两种互动关联信息进行特征提取,得到所述目标内容的至少一个互动情况表征向量;对所述内容多维度特征向量和所述至少一个互动情况表征向量进行融合,得到融合后向量;基于所述融合后向量进行所述目标内容的内容分类,得到所述目标内容的内容分类结果;基于所述内容分类结果,对所述目标内容进行推荐。本方案可以通过将包括目标内容和提供用户关联信息的内容多维度特征向量、与至少一个互动情况表征向量进行融合,得到包含更多特征信息的融合后向量,然后基于融合后向量对目标内容进行内容分类,之后可以运用在推荐系统中对目标内容进行推荐,能够对于审核前期人工和机器先验没有发现的多种内容质量负面的问题,通过内容分类挖掘能够快速发现,有效控制低质量内容的扩散和传播影响,可以使优质的内容得到有效的加权快速推荐分发和提升,可以提高内容推荐的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的内容推荐方法的场景示意图;
图2a是本申请实施例提供的内容推荐方法的流程图;
图2b是本申请实施例提供的内容推荐方法的情感分析系统流程图;
图2c是本申请实施例提供的内容推荐方法的技术流程图;
图2d是本申请实施例提供的内容推荐方法的用户关系图;
图2e是本申请实施例提供的内容推荐方法的节点关系图;
图3是本申请实施例提供的内容推荐方法的另一流程图;
图4a是本申请实施例提供的内容推荐方法的装置图;
图4b是本申请实施例提供的内容推荐方法的另一装置图;
图4c是本申请实施例提供的内容推荐方法的另一装置图;
图4d是本申请实施例提供的内容推荐方法的另一装置图;
图4e是本申请实施例提供的内容推荐方法的另一装置图;
图5是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种内容推荐方法、装置、计算机设备及计算机可读存储介质。具体地,本申请实施例提供适用于计算机设备的内容推荐装置。其中,该计算机设备可以为终端或服务器等设备,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
参考图1,以计算机设备为服务器为例,该服务器可以基于目标内容和目标内容的提供用户关联信息,获取目标内容的内容多维度特征向量,内容多维度特征向量包括目标内容和提供用户关联信息的特征信息;对目标内容的至少两种互动关联信息进行特征提取,得到目标内容的至少一个互动情况表征向量;对内容多维度特征向量和至少一个互动情况表征向量进行融合,得到融合后向量;基于融合后向量进行目标内容的内容分类,得到目标内容的内容分类结果;基于内容分类结果,对目标内容进行推荐。
其中,互动情况表征向量可以基于人工智能领域中的自然语言处理技术实现,比如,可以基于自然语言处理技术,对目标内容的至少两种互动关联信息进行特征提取,可以得到至少一个互动情况表征向量。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模型、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳效果的理论、方法、技术及应用系统。人工智能技术是一门综合学科,涉及领域广泛,集有硬件层面的技术也有软件层面的技术。人工智能软件技术主要包括自然语言处理、机器学习/深度学习等方向。
自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
由以上可知,本申请实施例可以通过将包括目标内容和提供用户关联信息的内容多维度特征向量、与至少一个互动情况表征向量进行融合,得到包含更多特征信息的融合后向量,然后基于融合后向量对目标内容进行内容分类,之后可以运用在推荐系统中对目标内容进行推荐,能够对于审核前期人工和机器先验没有发现的多种内容质量负面的问题,通过内容分类挖掘能够快速发现,有效控制低质量内容的扩散和传播影响,可以使优质的内容得到有效的加权快速推荐分发和提升,可以提高内容推荐的准确性。
本实施例可以以下分别进行详细说明,需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本申请实施例提供一种内容推荐方法,该方法可以由终端或服务器执行,也可以由终端和服务器共同执行;本申请实施例以内容推荐方法由服务器执行为例来进行说明,具体的,由集成在服务器中的内容推荐装置来执行。如图2a所示,该内容推荐方法的具体流程可以如下:
201、基于目标内容和目标内容的提供用户关联信息,获取目标内容的内容多维度特征向量,内容多维度特征向量包括目标内容和提供用户关联信息的特征信息。
其中,提供用户关联信息可以包括目标内容的目标内容提供用户、目标内容提供用户的用户信息(如目标内容提供用户的账号、昵称、头像等信息)、以及目标内容提供用户的关联用户的用户信息,目标内容提供用户可以包括目标内容的目标内容发布用户和目标内容生产用户。
其中,目标内容发布用户指的是发布目标内容的用户,目标内容生产用户指的是生产目标内容的用户,目标内容生产用户可能也是目标内容发布用户。
其中,关联用户指的是与目标内容提供用户存在关联的目标用户,以及这些目标用户的目标关联用户,例如,存在用户A、用户B,用户A是与目标内容提供用户存在关联的目标用户,用户A可能因为与用户B曾共同浏览过同一个阅读内容,或者是对同一个阅读内容进行了点赞、评论、转发、删除、收藏等操作,产生了用户之间的关联,此时,用户B就是用户A的目标关联用户。
其中,内容多维度特征向量可以表征目标内容的多个维度的特征信息,内容多维度特征向量可以通过提取目标内容的内容特征向量、目标内容提供用户的特征向量,然后对这两个向量进行融合得到。
在一示例中,如图2b所示,可以从评论情感分析系统的内容生产端获取目标内容,其中,内容生产端可以通过和上下行内容接口服务器的通讯,先获取上传服务器接口地址然后再发布目标内容,上下行内容接口服务器和内容生产端直接通讯,从前端提交的目标内容,通常是内容的标题,发布者,摘要,封面图,发布时间,可以将目标内容存储到内容数据库中。
在一实施例中,提供用户关联信息包括目标内容的目标内容提供用户、以及目标内容提供用户的关联用户的用户信息,为了得到目标内容的多个维度特征信息,可以提取目标内容提供用户、关联用户的用户信息的特征向量,以得到包含多个维度特征信息的目标内容的多个维度特征向量,步骤“基于目标内容和目标内容的提供用户关联信息,获取目标内容的内容多维度特征向量”,可以包括:
基于目标内容提供用户的用户信息、关联用户的用户信息、以及目标内容提供用户与关联用户的关联程度,获取目标内容提供用户的第一用户表征向量;
对目标内容进行特征提取,得到目标内容的内容特征向量;
将第一用户表征向量和内容特征向量进行融合,得到目标内容的内容多维度特征向量。
其中,对目标内容进行的特征提取,可以包括对目标内容的标题内容、正文内容、目标内容提供用户(如,内容生产用户、内容发布用户等)进行特征提取。
在一示例中,如图2c所示,可以将目标内容的正文内容和内容生产用户的用户信息(比如昵称、ID等信息)通过BERT(Bidirectional Encoder Representation fromTransformers)模型,得到目标内容提供用户的内容特征向量,然后可以与目标内容提供用户的第一用户表征向量进行融合,得到内容多维度特征向量。
其中,第一用户表征向量(poster embedding)可以基于目标内容的消费用户(比如,目标内容的互动信息发布用户,即对目标内容进行点赞、转发、评论、浏览的用户,等等)和目标内容提供用户,比如,自媒体作者等,形成关注关系来构建得到,这种表示可以构建目标内容发布者的embedding向量,也即可以得到提供用户关联信息的关联特征向量。
在一实施例中,为了得到表征目标内容提供用户的用户表征信息的第一用户表征向量,可以基于用户关系图去获取,步骤“基于目标内容提供用户的用户信息、关联用户的用户信息、以及目标内容提供用户与关联用户的关联程度,获取目标内容提供用户的第一用户表征向量”,可以包括:
获取用户关系图,用户关系图包括:至少两个内容发布用户和至少两个互动用户的节点,每个内容发布用户的节点和对应的互动用户的节点间设置有连接边,连接边设置有权重,权重表示内容发布用户和对应的互动用户之间的关联程度,内容发布用户包括目标内容的目标内容提供用户;
根据图游走算法,确定从互动用户的节点到目标内容提供用户的节点的游走路径,其中,游走路径上的互动用户为内容发布用户的关联用户;
基于游走路径上的关联用户的用户信息、目标内容提供用户的用户信息、以及游走路径上的连接边的权重,确定目标内容提供用户的节点的节点向量,将节点向量确定为目标内容提供用户的第一用户表征向量。
在一示例中,如图2d所示,作者被用户关注就是作者的自媒体账号被用户的账号Follow的行为,构建关注作者的poster embedding(即上文所说的第一用户表征向量),用户u1和自媒体作者p1(poster,有很多不同的用户和不同作者),一个作者会被很多不同的用户关注,它们之间的关注关系构成了一个图Graph,包括了节点和边,同样类似,对于用户与账号的正向行为(比如正向评论,收藏,转发,分享,点赞,如果是视频账号,对账号视频内容的平均播放完成度,图文内容的平均阅读完成率数据),这些行为的权重程度是不一样,所以在用户正向行为当中构建的是一个带有权重的Graph,基于边的权重去采样(weightedwalk),使采样尽量往热门节点方向游走,这样采样出来的样本置信度才更高。另外在图结构当中,利用poster的side-info(账号的属性:权威度,内容质量,账号活跃度),这对一些长尾稀疏poster是非常友好的,一定程度解决了冷启动的问题。最后采用DeepWalk(深度游走)&Skip-gram方式来构建poster embedding向量。DeepWalk就是Random Walk(随机游走)与Skip-gram的组合。Random Walk负责对图结构进行采样,获得图中节点与节点的邻接关系,Skip-gram从采样的序列中训练节点的Embedding向量。
其中,冷启动指的是作者账号没有关注关系或者关注关系很少的情况下,通过side-info可以得到作者账号的向量。而长尾稀疏是指大量的作者账号刚开始是没有关注信息的。
在一示例中,如图2e所示,Deep Walk属于Random Walk类的图算法。在用户行为序列的原始数据上,Random Walk生成新的序列,然后使用word2vec训练得到行为embedding。由于节点类型不同,有如下两种构图方法:
同构图:使用行为类型的节点,生成只包含行为的同构图。基于同构图进行RandomWalk+Word2Vec,训练即可得到action的embedding表述。然后可以使用与action2vec同样池化方法,生成poster embedding。
异构图:使用action、action attributes、poster等多种类型的节点,生成包含多类节点的异构图。Action attributes节点的加入,可以通过side info缓解低频item训练不充分的问题;poster节点的加入,使得模型可以通过训练直接得到poster embedding。账号图嵌入的过程如下,为了得到poster的特征表示,从发布者被关注的关系网络中抽取数据集,采用Randomwalk方法抽样有序的节点,从而将关注网络转化为有序节点进行学习,将Skip-gram神经语言模型应用于这些随机游走来得到图嵌入,具体步骤可以包括以下:
采样:对每个节点生成多个随机游走。
训练Skip-gram:将这些随机游走当成word2vec中的句子。Skip-gram神经网络将随机游走中的一个节点作为输入,试图预测其邻居节点。
计算poster Embedding向量。
202、对目标内容的至少两种互动关联信息进行特征提取,得到目标内容的至少一个互动情况表征向量。
其中,互动关联信息可以包括与目标内容有互动关联的信息,比如,互动行为(如对目标内容进行点赞、评论、删除、转发、收藏等)、用户互动信息、互动时间(互动信息的发布时间)、互动用户的信息,等等。
在一实施例中,目标内容的至少两种互动关联信息包括用户互动信息和互动信息发布用户关联信息,为了得到目标内容的互动情况特征信息,可以对目标内容的互动关联信息进行特征提取,步骤“对目标内容的至少两种互动关联信息进行特征提取,得到目标内容的至少一个互动情况表征向量”,可以包括:
对用户互动信息从至少两个维度进行特征提取,得到用户互动信息的至少两个维度的信息特征向量;
对互动信息发布用户关联信息进行用户特征提取,得到用户互动信息的发布用户的第二用户表征向量;
对至少两个维度的信息特征向量和第二用户表征向量进行处理,得到目标内容的至少一个互动情况表征向量。
其中,用户互动信息可以包括时间维度上的时间信息、以及内容维度上的互动内容信息,可以对时间维度上的时间信息和内容维度上的互动内容信息进行特征信息提取,再进行处理,得到目标内容的至少一个互动情况表征向量。
在一实施例中,对用户互动信息从至少两个维度进行特征提取,可以从时间维度和内容维度进行特征提取,步骤“对用户互动信息从至少两个维度进行特征提取,得到用户互动信息的至少两个维度的信息特征向量”,可以包括:
对用户互动信息从时间维度进行特征提取,得到用户互动信息的时间特征向量;
对用户互动信息从内容维度进行特征提取,得到用户互动信息的内容特征向量;
将时间特征向量和内容特征向量,作为用户互动信息的至少两个维度的信息特征向量。
在一示例中,如图2c所示,而目标内容的至少一个互动情况表征向量可以由目标内容的用户互动信息和用户互动信息发布用户的信息,通过BERT模型得到,并且,对用户互动信息对应的时间戳进行编码得到的时间特征向量,也可以作为目标内容的一个互动情况表征信息。
在一实施例中,目标内容的至少两种互动关联信息包括用户互动信息和互动信息发布用户关联信息,步骤“对目标内容的至少两种互动关联信息进行特征提取,得到目标内容的至少一个互动情况表征向量”,可以包括:
将用户互动信息中的词语转换为词向量,根据用户互动信息中的词语所在句子的顺序,以及词语的词向量,得到用户互动信息的初始文本向量;
对互动信息发布用户关联信息进行编码,得到用户互动信息的发布用户的初始用户表征向量;
将初始文本向量和初始用户表征向量进行融合,得到融合后初始向量;
对融合后初始向量进行深度特征提取,得到互动情况表征向量。
在一示例中,目标内容的至少两种互动关联信息可以包括用户互动信息和互动信息发布用户关联信息,例如,以用户互动信息为目标内容的评论信息、互动信息发布用户关联信息为评论信息的发布用户的用户信息为例,如图2b所示,在评论情感分析系统中可以从内容数据库中获取目标内容、以及目标内容的评论信息和评论信息的发布用户的用户信息,等等。
在一示例中,以目标内容的至少两种互动关系信息包括用户互动信息和互动信息发布用户关联信息为例进行说明,目标内容的特征向量和用户互动信息的信息特征向量可以通过以下进行提取:
可以对目标内容和用户互动信息采用的Bert-Pretrained方式进行向量化,得到目标内容的特征向量、以及用户互动信息的信息特征向量。BERT的核心是双向TransformerEncoder。实现过程当中,12层BERT的效果显然优于2层BERT,但是训练速度、推理速度也远慢于2层模型。综合模型效果与效率两方面考虑,可以选择2层模型作为实际模型,在损失少量精度的前提下,大幅提高推理速度。BERT是基于Transformer的深度双向语言表征模型,本质上是利用Transformer结构构造了一个多层双向的Encoder网络。Transformer是Google在2017年提出的基于自注意力机制(Self-attention)的深层模型,在包括机器翻译在内的多项NLP任务上效果显著,超过RNN且训练速度更快。预训练模型Comment-Bert预训练模型,在信息流业务场景下,每天有大量的评论产生,通过收集过去一年业务当中产生的评论数据,经过清洗和处理以后大约有5亿多条,这个是非常重要的一份数据资源。在通用中文语料基础上加入大量的这些评论业务语料进行模型预训练,完成领域迁移。通过这种方式能够很好收集和表征评论与正文内容当中的语义信息。
203、对内容多维度特征向量和至少一个互动情况表征向量进行融合,得到融合后向量。
其中,融合后向量为比内容多维度特征向量和至少一个互动情况表征向量包含更多信息的向量,可以基于融合后向量对目标内容进行分类,以确定目标内容的内容类型。
在一示例中,可以采用最简单的向量直接联合拼接的方法,对内容多维度特征向量和至少一个互动情况表征向量进行向量拼接,得到融合后向量,例如,如图2c所示,基于对目标内容、至少两种互动关联信息(如,至少两种互动关联信息可以包括第一互动关联信息和第二互动关联信息)、以及目标内容发布用户关联信息的信息处理,得到的内容多维度特征向量和至少一个互动情况表征向量(如至少一个互动情况表征向量可以包括第一互动情况表征向量和第二互动情况表征向量),再进行向量拼接得到融合后向量,再基于融合后向量对目标内容进行内容分类,得到内容分类结果。
204、基于融合后向量进行目标内容的内容分类,得到目标内容的内容分类结果。
其中,内容分类指的是对目标内容按照内容的类型进行分类,比如,可以基于对融合后向量的分析,识别出目标内容的内容情感类型为正向情感类型、负向情感类型、或者是中性情感类型,等等。
例如,对各内容提供用户发布的文章、视频、音频等按照情感类型进行分类,如果各文章、视频、音频的内容表达传递的是正向、积极的思想,那么可以将这些文章、视频、音频等的内容情感类型分为正向情感类型,同理,如果各文章、视频、音频的内容表达传递的是负向、消极的思想,那么可以将这些文章、视频、音频等的内容情感类型分为负向情感类型,如果各文章、视频、音频的内容表达传递思想是介于正向和负向情感之间,那么可以将这些文章、视频、音频等的内容情感类型分为正向情感类型内容中性情感类型。在一实施例中,为了确定目标内容的内容类型,可以对目标内容进行内容分类,以根据目标内容的内容分类结果确定目标内容的内容类型,步骤“基于融合后向量进行目标内容的内容分类,得到目标内容的内容分类结果”,可以包括:
对融合后向量按照分类映射矩阵进行映射,得到目标内容在至少两个预设的内容类型下的预测分类概率;
基于目标内容在至少两个预设的内容类型下的预测分类概率,确定目标内容的当前内容类型作为内容分类结果。
在一示例中,可以通过softmax函数把一个k维的向量,即融合后向量,比如,融合后向量为(a1,a2,a3,a4,…)映射成一个(b1,b2,b3,b4,…),其中bi是一个0—1的常数,输出神经元之和为1.0,所以相当于概率值,然后可以根据bi的概率大小来进行目标内容的内容分类。
在一实施例中,内容分类还可以包括内容情感分类,可以对融合后向量按照预设情感分类映射矩阵进行映射,得到目标内容在至少两个预设的情感内容类型下的预测情感分类概率,然后基于预设情感分类概率确定目标内容的当前内容类型作为目标内容的内容分类结果。
其中,内容情感分类用户互动信息(评论)语料处理可以包括:情感分类系统分为在线、离线两大流程,在线流程将用户输出的语句进行特征挖掘、情感分类、并返回情感分析结果。离线流程则负责语料下载、特征挖掘等工作。语料的积累是情感分类的基石,而语料又分为已标注的语料和未标注的语料,已标注的语料如对图文内容的评论、对短视频或者小视频的评论,对作者的评论标注等,这些语料可通过分级确定用户的情感倾向,标注最终结果的时候需要参考内容的账号和正文内容;而未标注的语料,在使用前则需要分类模型或人工进行标注。极性词挖掘(正向,负向和中性),有一种方法是“全词表法”,即将所有的词都作为极性词(正倾向,负倾向和中性)。评论语料预处理:包含分词、去噪、最佳匹配等相关技术。去噪是内容中无关信息如“@jjhuang”、html标签等,和一些不具有分类意义的虚词、代词如“的”、“啊”、“我”等。最佳匹配则是为了确保提出的特征能够正确地反映正负倾向,如“逍遥法外”一词,如果提取出的是“逍遥”一词,则会被误认为是正面情感特征,而“逍遥法外”本身是一个负面情感词,这里一般可以采用最长匹配的方法。
这里直接使用交叉熵损失作为最终损失函数,交叉熵代价函数(Cross Entry)如下:
Figure BDA0002906082810000141
交叉熵是用来评估当前训练得到的概率分布与真实分布的差异情况,减少交叉熵损失就是在提高模型的预测准确率。其中p(x)是指真实分布的概率,q(x)是模型通过数据计算出来的概率估计。二分类交叉熵代价函数:
Figure BDA0002906082810000151
其中f(x)可以是sigmoid函数。或深度学习中的其它激活函数。而y(i)∈0,1。通常用做分类问题的代价函数。二分类时:sigmoid+交叉熵,也就是本申请当中的选择。最终通过这个概率结果的值来预测最终文章的情感倾向。
其中,情感分类,也称为情感分析(Sentiment Analysis),属于自然语言处理(Natural Language Processing,NLP)领域的一个分支任务,随着互联网的发展而兴起。多数情况下该任务分析一个文本所呈现的信息是正面、负面或者中性,也有一些研究会区分得更细,例如在正负极性中再进行分级,区分不同情感强度。
在一示例中,在如图2b所示的评论情感分析系统中,内容生产端模块C1通过和上下行内容接口服务器C2的通讯,先获取上传服务器接口地址,然后再发布内容,B1表示的是内容生产端基于获取的上传服务器接口地址,将待发布的内容上传到上下行内容接口服务器C2。上下行内容接口服务器模块C2和内容生产端C1直接通讯,获取从前端提交的内容,通常是内容的标题、发布者、摘要、封面图、发布时间,将这些信息存储在内容数据库模块C6,B5表示的是将上下行内容接口服务器C2获取到的信息写入内容数据库模块C6。
其中,内容数据库模块C6是内容的核心数据库,所有生产者发布内容的元信息都保存在这个业务数据库当中,重点是内容本身的元信息,比如内容大小、封面图链接、标题、发布时间、作者账号、内容来源渠道、内容入库时间,还包括人工审核过程中对内容的分类结果,等信息。
其中,内容生产端模块C1与上下行内容接口服务器模块C2通信之后,可以上传的发布内容,上传的发布内容可以为PGC或者UGC,MCN或者PUGC的内容生产者,通过移动端或者后端接口API系统,提供本地或者web发布系统提供的图文内容或者上传视频内容包括短视频和小视频。
其中,评论情感分析服务模块C11可以从内容数据库模块C6中获取内容,对于每个新增的需要分发的内容产生的评论和评论内容,可以通过评论情感分析服务模块C11进行情感倾向的分析,然后再通过评论情感分析模型模块C12对分析结果进行处理,可以得到情感分析样本B15,然后可以将情感分析样本等信息存储到情感分析样本数据库模块C13中,并且,评论情感分析服务模块C11可以同时和推荐排序服务模块C8进行通信,对发布的内容中的低质内容进行降权,优质内容进行加权分发,比如,可以将分析后得到的正向内容加速提高分发权重,对负向情感内容可以打压降低其排序的权重,得到内容分发结果,之后内容分发出口服务模块C9和推荐排序服务C8通讯,获取推荐分发的结果,并将推荐分发的结果下发到内容消费端模块C10,并将分发的内容展示在用户的Feeds列表当中。
其中,在对内容进行情感分析时,可以根据用户对发布的内容的观看时长比(比如,观看内容的时长比上完整观看该内容的总时长)、缓存时间(比如,用户在浏览到一个内容后将该内容留存在终端中的时间)、以及用户针对内容的各种互动行为来确定该用户行为是正向行为和负向行为,进而可以辅助判断该内容的内容类型是正向情感类型,还是负向情感类型等等。比如,可以将用户对内容进行评论、转发、分享、收藏、点赞、以及对内容提供账号的关注等行为作为正向行为,将用户对内容进行内容举报、对该内容的提供账号取消关注的行为作为负向行为。
其中,PGC(全称:Professional Generated Content)互联网术语,指专业生产内容(视频网站)、专家生产内容(微博)。用来泛指内容个性化、视角多元化、传播民主化、社会关系虚拟化。也称为PPC,(Professionally-produced Content)。
其中,MCN(Multi-Channel Network):是一种多频道网络的产品形态,将PGC内容联合起来,在资本的有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现。
其中,Feeds:消息来源,又译为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源(英文:web feed、news feed、syndicated feed)是一种资料格式,网站透过它将最新资讯传播给用户,通常以时间轴方式排列,Timeline是Feed最原始最直接也最基本的展示形式。用户能够订阅网站的先决条件是,网站提供了消息来源。将feed汇流于一处称为聚合(aggregation),而用于聚合的软体称为聚合器(aggregator)。对最终用户而言,聚合器是专门用来订阅网站的软件,一般亦称为RSS阅读器、feed阅读器、新闻阅读器等。
205、基于内容分类结果,对目标内容进行推荐。
其中,内容分类结果可以指示目标内容的内容类型,比如,内容分类结果可以指示目标内容的内容类型为正向情感类型、负向情感类型、或者中性情感类型,对于正向情感类型的内容可以提高内容分发的权重,提高该类型内容的曝光度。
在一实施例中,为了提高内容推荐的准确性,可以基于内容分类结果对内容进行推荐,步骤“基于内容分类结果,对目标内容进行推荐”,可以包括:
获取目标内容在距离当前时刻的预设历史时长内的历史内容分类结果,以及对应的结果获取时间;
基于内容分类结果和历史内容分类结果的结果获取时间,确定内容分类结果和各个历史内容分类结果的推荐参考权重;
根据内容分类结果和历史内容分类结果中,各预设的内容类型的出现次数,以及每次出现的预设的内容类型对应的推荐参考权重,确定各预设的内容类型对目标内容的内容类型表征分值;
根据预设的内容类型中推荐参考内容类型对应的内容类型表征分值,确定目标内容的推荐强度,基于推荐强度对目标内容进行推荐。
在一示例中,内容类型表征分值越高,对应的内容的推荐强度就越强,对于一个具体的内容,预测时候只有发表评论的用户和评论当前内容是变化,其他的内容和账号embedding短期内是不变化的,可以事先计算好,保存在内存当中,这样可以加速预测过程。最后和评论与用户的embedding contact在一起来做最终的预测。实际和推荐分发排序结合的过程当中,设定一个时间窗口Wt,(不同类型的内容可以设置不同的Wt)然后设定3个计数器Cp正向,Cm中性,Cn负向。然后在Wt分别统计这个内容对应的这个3个值的计数,最近时间窗口的计算权重越高。如果Cp大于某一个值N,排序对应文章的时候提升权重增加曝光,增加的概率和SUMCp(多个Cp时间窗口的累加)成正比;同样的,如果Cn大于某一个值,反之则降权减少曝光。这样用户评论的变化会和曝光概率直接关联在一起,影响到最终内容的分发效率。
在一示例中,通过建立评论-内容-账号多模态模型,以评论和内容为主体,多维度判断内容质量的情感倾向趋势,联动推荐对低质内容进行降权,优质内容进行加权分发。如果是正向内容,能够加速上升分发权重,如果是负向情感内容,可以打压降低其排序的权重。评论的情感分析倾向是负向的,但是内容本身不一定是负向,如果单纯只看用户评论内容本身的情感倾向正面或者负面会造成结果的失真,所以需要结合评论所对应内容本身来做区分。用户评论的情感分析需要区分是对内容本身用户表达观点还是针对其他内容,性质是完全不一样的。如果一些评论内容明显是负面倾向的评论,但是他们本地对应的内容却不是负面的,这些内容本身容易引起读者的讨论氛围,讨论往往围绕这些明星或者社会事件进行,单个评论是负向,但是在信息流内容分发上可以引发广泛的讨论和流量,这种是不应该被降权或者限制处理的。所以可以为了区分这些情况,可以引入评论内容及用户本身。
在对相关技术的研究和实践过程中,本申请的发明人发现目前向用户推荐内容的过程中,大都只考虑内容的语义对内容进行推荐,内容推荐的准确性较差,而通过本申请实施例能够对于审核前期人工和机器先验没有发现的多种质量负面的问题,通过用户情感倾向挖掘能够快速发现,有效控制低质内容的扩散和传播影响;可以提升优质内容分发的权重,让用户的评论行为信息更好促进了优质账号的分发,优质账号能够优先得到定向的流量,用户层面能够更多感知到优质账号发布的内容,使内容生态进入良性的循环和形成健康的内容生态,提升优质内容冷启动的速度。
本申请实施例可以提供一种用户对内容的实时评论内容进行实时的挖掘的分析系统,判断单条评论的正负向情感,根据所有评论结果POP内容,结果直接应用在推荐系统当中。对用户的反馈和感知能够得到快速的响应和反馈,能够让系统在正向的维度进行循环。其核心思想是:针对情感分类处理评论的文本特点:时新性、短文本、不规则表达、信息量大。将情感分析系统分为在线、离线两大流程,在线流程将用户输出的语句进行特征挖掘、情感分类、并返回结果。离线流程则负责语料下载和预处理等工作。情感分析具体模型当中,将评论-用户-内容多模态联合建模,对图文内容正文BERT预训练,评论,用户,账号DeepWalk向量化,区分评论和内容信息,评论包括评论内容和用户信息,内容包括账号和内容信息;最后与推荐系统内容处理的主流程相结合。
由以上可知,本申请实施例可以通过将包括目标内容和提供用户关联信息的内容多维度特征向量、与至少一个互动情况表征向量进行融合,得到包含更多特征信息的融合后向量,然后基于融合后向量对目标内容进行内容分类,之后可以运用在推荐系统中对目标内容进行推荐,能够对于审核前期人工和机器先验没有发现的多种内容质量负面的问题,通过内容分类挖掘能够快速发现,有效控制低质量内容的扩散和传播影响,可以使优质的内容得到有效的加权快速推荐分发和提升,可以提高内容推荐的准确性。
根据上述介绍的内容,下面将举例来进一步说明本申请的内容推荐方法。参考图3,一种内容推荐方法,具体流程可以如下:
301、服务器基于目标内容的内容特征向量和目标内容提供用户的第一用户表征向量,确定目标内容的内容多维度特征向量。
其中,目标用户的第一用户表征向量,可以基于目标内容提供用户的用户信息、所述关联用户的用户信息、以及所述目标内容提供用户与所述关联用户的关联程度获取得到,比如,如图2d所示,基于图游走算法从用户关系图中确定从互动用户的节点到目标内容提供用户的节点的游走路径,然后基于所述游走路径上的关联用户的用户信息、所述目标内容提供用户的用户信息、以及所述游走路径上的连接边的权重,确定所述目标内容提供用户的节点的节点向量,将所述节点向量确定为所述目标内容提供用户的第一用户表征向量。
其中,目标内容的内容特征向量可以通过对目标内容的标题内容、正文内容、目标内容提供用户(如,内容生产用户、内容发布用户等)等进行特征提取得到。
302、服务器对目标内容的用户互动信息从至少两个维度进行特征提取,得到用户互动信息的至少两个维度的信息特征向量。
其中,在对目标内容的用户互动信息从至少两个维度进行特征提取时,可以从时间维度和内容维度这两个维度上进行特征提,以得到用户互动信息的至少两个维度的信息特征向量。
在一示例中,可以对用户互动信息从时间维度进行特征提取,得到用户互动信息的时间特征向量,比如,可以对用户互动信息的时间戳编码得到用户互动信息的时间特征向量,然后,对用户互动信息从内容维度进行特征提取,得到用户互动信息的内容特征向量,最后将时间特征向量和内容特征向量,作为用户互动信息的至少两个维度的信息特征向量。
303、服务器对互动信息发布用户关联信息进行用户特征提取,得到用户互动信息的发布用户的第二用户表征向量。
在一示例中,对互动信息发布用户关联信息进行用户特征提取,可以为对互动信息发布用户的用户信息(如,昵称、ID等信息)进行用户特征提取,比如,可以对互动信息发布用户的ID进行One-hot编码,可以得到互动信息的发布用户的第二用户表征向量。
304、服务器对至少两个维度的信息特征向量和第二用户表征向量进行处理,得到目标内容的至少一个互动情况表征向量。
在一示例中,至少两个维度的信息特征向量可以包括用户互动信息的时间特征向量和用户互动信息的内容特征向量,可以对用户互动信息的内容特征向量和第二用户表征向量进行融合,比如进行向量拼接,可以得到目标内容的一个互动情况表征向量,对用户互动信息的时间特征向量进行处理,可以得到目标内容的另一个互动情况表征向量。
305、服务器对内容多维度特征向量和至少一个互动情况表征向量进行融合,得到融合后向量。
在一示例中,可以采用最简单的向量直接联合拼接的方法,对内容多维度特征向量和至少一个互动情况表征向量进行向量拼接,得到融合后向量,融合后向量比内容多维度特征向量和至少一个互动情况表征向量包含更多的特征信息。
306、服务器基于融合后向量进行目标内容的内容分类,得到目标内容的内容分类结果。
在一示例中,可以通过softmax函数对目标内容进行内容分类,即softmax函数可以把一个k维的融合后向量,比如,融合后向量为(a1,a2,a3,a4,…)映射成一个(b1,b2,b3,b4,…),其中bi是一个0-1的常数,输出神经元之和为1.0,所以相当于概率值,然后可以根据bi的概率大小来进行目标内容的内容分类,确定目标内容的内容类型作为目标内容的内容分类结果。
307、服务器基于内容分类结果,对目标内容进行推荐。
在一示例中,内容分类结果可以指示目标内容的内容类型,可以基于内容分类结果,确定目标内容的内容类型,对于正向优质的内容,加重其分发权重,基于分发权重对目标内容进行推荐,可以提高优质内容的曝光度。
通过本申请,能够对于审核前期人工和机器先验没有发现的多种质量负面的问题,通过用户情感倾向挖掘能够快速发现,有效控制低质内容的扩散和传播影响;对于用户正向评价的优质内容,能够快速发现,提升优质作者内容分发冷启动的速度,同时提升优质内容分发的权重,让用户的评论行为信息更好促进了优质账号的分发,优质账号能够优先得到定向的流量,用户层面能够更多感知到优质账号发布的内容,使内容生态进入良性的循环和形成健康的内容生态;整个挖掘和处理扩充是由用户的实时互动驱动,能够有效保障时效。
由以上可知,本申请实施例可以通过将包括目标内容和提供用户关联信息的内容多维度特征向量、与至少一个互动情况表征向量进行融合,得到包含更多特征信息的融合后向量,然后基于融合后向量对目标内容进行内容分类,之后可以运用在推荐系统中对目标内容进行推荐,能够对于审核前期人工和机器先验没有发现的多种内容质量负面的问题,通过内容分类挖掘能够快速发现,有效控制低质量内容的扩散和传播影响,可以使优质的内容得到有效的加权快速推荐分发和提升,可以提高内容推荐的准确性。
为了更好地实施以上方法,相应的,本申请实施例还提供一种内容推荐装置,其中,该内容推荐装置具体可以集成在服务器中,参考图4a,该内容推荐装置可以包括获取单元401、特征提取单元402、向量融合单元403、内容分类单元404和推荐单元405,如下:
(1)获取单元401;
获取单元401,用于基于目标内容和目标内容的提供用户关联信息,获取目标内容的内容多维度特征向量,内容多维度特征向量包括目标内容和提供用户关联信息的特征信息。
在一实施例中,如图4b所示,获取单元401,包括:
获取子单元4011,用于基于目标内容提供用户的用户信息、关联用户的用户信息、以及目标内容提供用户与关联用户的关联程度,获取目标内容提供用户的第一用户表征向量;
第一提取子单元4012,用于对目标内容进行特征提取,得到目标内容的内容特征向量;
向量融合子单元4013,用于将第一用户表征向量和内容特征向量进行融合,得到目标内容的内容多维度特征向量。
在一实施例中,获取子单元4011还用于获取用户关系图,用户关系图包括:至少两个内容发布用户和至少两个互动用户的节点,每个内容发布用户的节点和对应的互动用户的节点间设置有连接边,连接边设置有权重,权重表示内容发布用户和对应的互动用户之间的关联程度,内容发布用户包括目标内容的目标内容提供用户;根据图游走算法,确定从互动用户的节点到目标内容提供用户的节点的游走路径,其中,游走路径上的互动用户为内容发布用户的关联用户;基于游走路径上的关联用户的用户信息、目标内容提供用户的用户信息、以及游走路径上的连接边的权重,确定目标内容提供用户的节点的节点向量,将节点向量确定为目标内容提供用户的第一用户表征向量。
(2)特征提取单元402;
特征提取单元402,用于对目标内容的至少两种互动关联信息进行特征提取,得到目标内容的至少一个互动情况表征向量。
在一实施例中,如图4c所示,特征提取单元402,包括:
第二提取子单元4021,用于对用户互动信息从至少两个维度进行特征提取,得到用户互动信息的至少两个维度的信息特征向量;
第三提取子单元4022,用于对互动信息发布用户关联信息进行用户特征提取,得到用户互动信息的发布用户的第二用户表征向量;
处理子单元4023,用于对至少两个维度的信息特征向量和第二用户表征向量进行处理,得到目标内容的至少一个互动情况表征向量。
在一实施例中,第二提取子单元4021还用于对用户互动信息从时间维度进行特征提取,得到用户互动信息的时间特征向量;对用户互动信息从内容维度进行特征提取,得到用户互动信息的内容特征向量;将时间特征向量和内容特征向量,作为用户互动信息的至少两个维度的信息特征向量。
在一实施例中,如图4c所示,特征提取单元402,包括:
转换子单元4024,用于将用户互动信息中的词语转换为词向量,根据用户互动信息中的词语所在句子的顺序,以及词语的词向量,得到用户互动信息的初始文本向量;
编码子单元4025,用于对互动信息发布用户关联信息进行编码,得到用户互动信息的发布用户的初始用户表征向量;
融合子单元4026,用于将初始文本向量和初始用户表征向量进行融合,得到融合后初始向量;
第四提取子单元4027,用于对融合后初始向量进行深度特征提取,得到互动情况表征向量。
(3)向量融合单元403;
向量融合单元403,用于对内容多维度特征向量和至少一个互动情况表征向量进行融合,得到融合后向量。
(4)内容分类单元404;
内容分类单元404,用于基于融合后向量进行目标内容的内容分类,得到目标内容的内容分类结果。
在一实施例中,如图4d所示,内容分类单元404,包括:
映射子单元4041,用于对融合后向量按照分类映射矩阵进行映射,得到目标内容在至少两个预设的内容类型下的预测分类概率;
结果确定子单元4042,用于基于目标内容在至少两个预设的内容类型下的预测分类概率,确定目标内容的当前内容类型作为内容分类结果。
(5)推荐单元405;
推荐单元405,用于基于内容分类结果,对目标内容进行推荐。
在一实施例中,如图4e所示,推荐单元405,包括:
获取子单元4051,用于获取目标内容在距离当前时刻的预设历史时长内的历史内容分类结果,以及对应的结果获取时间;
权重确定子单元4052,用于基于内容分类结果和历史内容分类结果的结果获取时间,确定内容分类结果和各个历史内容分类结果的推荐参考权重;
分值确定子单元4053,用于根据内容分类结果和历史内容分类结果中,各预设的内容类型的出现次数,以及每次出现的预设的内容类型对应的推荐参考权重,确定各预设的内容类型对目标内容的内容类型表征分值;
推荐子单元4054,用于根据预设的内容类型中推荐参考内容类型对应的内容类型表征分值,确定目标内容的推荐强度,基于推荐强度对目标内容进行推荐。
由以上可知,本申请实施例的内容推荐装置的获取单元401基于目标内容和目标内容的提供用户关联信息,获取目标内容的内容多维度特征向量,内容多维度特征向量包括目标内容和提供用户关联信息的特征信息;然后,由特征提取单元402对目标内容的至少两种互动关联信息进行特征提取,得到目标内容的至少一个互动情况表征向量;由向量融合单元403对内容多维度特征向量和至少一个互动情况表征向量进行融合,得到融合后向量;由内容分类单元404基于融合后向量进行目标内容的内容分类,得到目标内容的内容分类结果;由推荐单元405基于内容分类结果,对目标内容进行推荐。该方案可以通过将包括目标内容和提供用户关联信息的内容多维度特征向量、与至少一个互动情况表征向量进行融合,得到包含更多特征信息的融合后向量,然后基于融合后向量对目标内容进行内容分类,之后可以运用在推荐系统中对目标内容进行推荐,能够对于审核前期人工和机器先验没有发现的多种内容质量负面的问题,通过内容分类挖掘能够快速发现,有效控制低质量内容的扩散和传播影响,可以使优质的内容得到有效的加权快速推荐分发和提升,可以提高内容推荐的准确性。
此外,本申请实施例还提供一种计算机设备,该计算机设备可以为终端或者服务器等设备,如图5所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解,图5中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器501是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器501可包括一个或多个处理核心;优选的,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
计算机设备还包括给各个部件供电的电源503,优选的,电源503可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元504,该输入单元504可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能,如下:
基于目标内容和目标内容的提供用户关联信息,获取目标内容的内容多维度特征向量,内容多维度特征向量包括目标内容和提供用户关联信息的特征信息;对目标内容的至少两种互动关联信息进行特征提取,得到目标内容的至少一个互动情况表征向量;对内容多维度特征向量和至少一个互动情况表征向量进行融合,得到融合后向量;基于融合后向量进行目标内容的内容分类,得到目标内容的内容分类结果;基于内容分类结果,对目标内容进行推荐。
由以上可知,本申请实施例可以通过将包括目标内容和提供用户关联信息的内容多维度特征向量、与至少一个互动情况表征向量进行融合,得到包含更多特征信息的融合后向量,然后基于融合后向量对目标内容进行内容分类,之后可以运用在推荐系统中对目标内容进行推荐,能够对于审核前期人工和机器先验没有发现的多种内容质量负面的问题,通过内容分类挖掘能够快速发现,有效控制低质量内容的扩散和传播影响,可以使优质的内容得到有效的加权快速推荐分发和提升,可以提高内容推荐的准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种内容推荐方法中的步骤。例如,该指令可以执行如下步骤:
基于目标内容和目标内容的提供用户关联信息,获取目标内容的内容多维度特征向量,内容多维度特征向量包括目标内容和提供用户关联信息的特征信息;对目标内容的至少两种互动关联信息进行特征提取,得到目标内容的至少一个互动情况表征向量;对内容多维度特征向量和至少一个互动情况表征向量进行融合,得到融合后向量;基于融合后向量进行目标内容的内容分类,得到目标内容的内容分类结果;基于内容分类结果,对目标内容进行推荐。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种内容推荐方法中的步骤,因此,可以实现本申请实施例所提供的任一种内容推荐方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述发明内容和实施例中提供的内容推荐方法。
以上对本申请实施例所提供的一种内容推荐方法、装置、计算机设备及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种内容推荐方法,其特征在于,包括:
基于目标内容和所述目标内容的提供用户关联信息,获取所述目标内容的内容多维度特征向量,所述内容多维度特征向量包括所述目标内容和所述提供用户关联信息的特征信息;
对所述目标内容的至少两种互动关联信息进行特征提取,得到所述目标内容的至少一个互动情况表征向量;
对所述内容多维度特征向量和所述至少一个互动情况表征向量进行融合,得到融合后向量;
基于所述融合后向量进行所述目标内容的内容分类,得到所述目标内容的内容分类结果;
基于所述内容分类结果,对所述目标内容进行推荐。
2.根据权利要求1所述的方法,其特征在于,所述提供用户关联信息包括所述目标内容的目标内容提供用户、以及所述目标内容提供用户的关联用户的用户信息;
所述基于目标内容和所述目标内容的提供用户关联信息,获取所述目标内容的内容多维度特征向量,包括:
基于所述目标内容提供用户的用户信息、所述关联用户的用户信息、以及所述目标内容提供用户与所述关联用户的关联程度,获取所述目标内容提供用户的第一用户表征向量;
对所述目标内容进行特征提取,得到所述目标内容的内容特征向量;
将所述第一用户表征向量和所述内容特征向量进行融合,得到所述目标内容的内容多维度特征向量。
3.根据权利要求2所述的方法,其特征在于,所述基于所述目标内容提供用户的用户信息、所述关联用户的用户信息、以及所述目标内容提供用户与所述关联用户的关联程度,获取所述目标内容提供用户的第一用户表征向量,包括:
获取用户关系图,所述用户关系图包括:至少两个内容发布用户和至少两个互动用户的节点,每个内容发布用户的节点和对应的互动用户的节点间设置有连接边,所述连接边设置有权重,所述权重表示内容发布用户和对应的互动用户之间的关联程度,所述内容发布用户包括所述目标内容的目标内容提供用户;
根据图游走算法,确定从互动用户的节点到目标内容提供用户的节点的游走路径,其中,所述游走路径上的互动用户为所述内容发布用户的关联用户;
基于所述游走路径上的关联用户的用户信息、所述目标内容提供用户的用户信息、以及所述游走路径上的连接边的权重,确定所述目标内容提供用户的节点的节点向量,将所述节点向量确定为所述目标内容提供用户的第一用户表征向量。
4.根据权利要求1所述的方法,其特征在于,所述目标内容的至少两种互动关联信息包括用户互动信息和互动信息发布用户关联信息;
所述对所述目标内容的至少两种互动关联信息进行特征提取,得到所述目标内容的至少一个互动情况表征向量,包括:
对所述用户互动信息从至少两个维度进行特征提取,得到所述用户互动信息的至少两个维度的信息特征向量;
对所述互动信息发布用户关联信息进行用户特征提取,得到所述用户互动信息的发布用户的第二用户表征向量;
对所述至少两个维度的信息特征向量和所述第二用户表征向量进行处理,得到所述目标内容的至少一个互动情况表征向量。
5.根据权利要求4所述的方法,其特征在于,所述对所述用户互动信息从至少两个维度进行特征提取,得到所述用户互动信息的至少两个维度的信息特征向量,包括:
对所述用户互动信息从时间维度进行特征提取,得到所述用户互动信息的时间特征向量;
对所述用户互动信息从内容维度进行特征提取,得到所述用户互动信息的内容特征向量;
将所述时间特征向量和所述内容特征向量,作为所述用户互动信息的至少两个维度的信息特征向量。
6.根据权利要求1所述的方法,其特征在于,所述目标内容的至少两种互动关联信息包括用户互动信息和互动信息发布用户关联信息;
所述对所述目标内容的至少两种互动关联信息进行特征提取,得到所述目标内容的至少一个互动情况表征向量,包括:
将所述用户互动信息中的词语转换为词向量,根据所述用户互动信息中的词语所在句子的顺序,以及所述词语的词向量,得到所述用户互动信息的初始文本向量;
对所述互动信息发布用户关联信息进行编码,得到所述用户互动信息的发布用户的初始用户表征向量;
将所述初始文本向量和所述初始用户表征向量进行融合,得到融合后初始向量;
对所述融合后初始向量进行深度特征提取,得到互动情况表征向量。
7.根据权利要求1所述的方法,其特征在于,所述基于所述融合后向量进行所述目标内容的内容分类,得到所述目标内容的内容分类结果,包括:
对所述融合后向量按照分类映射矩阵进行映射,得到所述目标内容在至少两个预设的内容类型下的预测分类概率;
基于所述目标内容在至少两个预设的内容类型下的预测分类概率,确定所述目标内容的当前内容类型作为内容分类结果。
8.根据权利要求7所述的方法,其特征在于,所述基于所述内容分类结果,对所述目标内容进行推荐,包括:
获取所述目标内容在距离当前时刻的预设历史时长内的历史内容分类结果,以及对应的结果获取时间;
基于所述内容分类结果和所述历史内容分类结果的结果获取时间,确定所述内容分类结果和各个所述历史内容分类结果的推荐参考权重;
根据所述内容分类结果和所述历史内容分类结果中,各预设的内容类型的出现次数,以及每次出现的预设的内容类型对应的推荐参考权重,确定各预设的内容类型对所述目标内容的内容类型表征分值;
根据所述预设的内容类型中推荐参考内容类型对应的内容类型表征分值,确定所述目标内容的推荐强度,基于所述推荐强度对所述目标内容进行推荐。
9.一种内容推荐装置,其特征在于,包括:
获取单元,用于基于目标内容和所述目标内容的提供用户关联信息,获取所述目标内容的内容多维度特征向量,所述内容多维度特征向量包括所述目标内容和所述提供用户关联信息的特征信息;
特征提取单元,用于对所述目标内容的至少两种互动关联信息进行特征提取,得到所述目标内容的至少一个互动情况表征向量;
向量融合单元,用于对所述内容多维度特征向量和所述至少一个互动情况表征向量进行融合,得到融合后向量;
内容分类单元,用于基于所述融合后向量进行所述目标内容的内容分类,得到所述目标内容的内容分类结果;
推荐单元,用于基于所述内容分类结果,对所述目标内容进行推荐。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至8任一项所述的内容推荐方法。
CN202110071458.6A 2021-01-19 2021-01-19 内容推荐方法、装置及计算机可读存储介质 Pending CN113590928A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110071458.6A CN113590928A (zh) 2021-01-19 2021-01-19 内容推荐方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110071458.6A CN113590928A (zh) 2021-01-19 2021-01-19 内容推荐方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113590928A true CN113590928A (zh) 2021-11-02

Family

ID=78238103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110071458.6A Pending CN113590928A (zh) 2021-01-19 2021-01-19 内容推荐方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113590928A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114155039A (zh) * 2021-12-10 2022-03-08 云南联达信息科技有限公司 基于电商意图大数据挖掘的信息处理方法及大数据系统
CN114780842A (zh) * 2022-04-20 2022-07-22 北京字跳网络技术有限公司 一种数据处理方法、装置、设备及存储介质
CN115689648A (zh) * 2022-10-28 2023-02-03 广东柏烨互动网络科技有限公司 应用于定向投放的用户信息处理方法及系统
CN116108162A (zh) * 2023-03-02 2023-05-12 广东工业大学 一种基于语义增强的复杂文本推荐方法及系统
CN116521971A (zh) * 2022-01-19 2023-08-01 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备、存储介质及计算机程序产品
CN116610745A (zh) * 2023-06-08 2023-08-18 云南庸目科技有限公司 应用数字孪生技术的ai场景信息推送处理方法及系统
CN116975654A (zh) * 2023-08-22 2023-10-31 腾讯科技(深圳)有限公司 对象互动方法、装置、电子设备、存储介质及程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158638A1 (en) * 2010-12-20 2012-06-21 Yahoo! Inc. Classification recommendation based on social actions
US20190050875A1 (en) * 2017-06-22 2019-02-14 NewVoiceMedia Ltd. Customer interaction and experience system using emotional-semantic computing
CN111339404A (zh) * 2020-02-14 2020-06-26 腾讯科技(深圳)有限公司 基于人工智能的内容热度预测方法、装置和计算机设备
CN111797197A (zh) * 2020-06-04 2020-10-20 南京擎盾信息科技有限公司 舆情分析的方法及装置
CN112131472A (zh) * 2020-09-24 2020-12-25 腾讯科技(深圳)有限公司 信息推荐方法、装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158638A1 (en) * 2010-12-20 2012-06-21 Yahoo! Inc. Classification recommendation based on social actions
US20190050875A1 (en) * 2017-06-22 2019-02-14 NewVoiceMedia Ltd. Customer interaction and experience system using emotional-semantic computing
CN111339404A (zh) * 2020-02-14 2020-06-26 腾讯科技(深圳)有限公司 基于人工智能的内容热度预测方法、装置和计算机设备
CN111797197A (zh) * 2020-06-04 2020-10-20 南京擎盾信息科技有限公司 舆情分析的方法及装置
CN112131472A (zh) * 2020-09-24 2020-12-25 腾讯科技(深圳)有限公司 信息推荐方法、装置、电子设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
查鲁·C.阿加沃尔: "文本机器学习", 31 May 2020, 机械工业出版社, pages: 383 - 384 *
陈庭贵: "网络群体行为涌现过程的建模仿真及其实证", 31 December 2020, 浙江工商大学出版社, pages: 236 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114155039A (zh) * 2021-12-10 2022-03-08 云南联达信息科技有限公司 基于电商意图大数据挖掘的信息处理方法及大数据系统
CN116521971A (zh) * 2022-01-19 2023-08-01 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备、存储介质及计算机程序产品
CN114780842A (zh) * 2022-04-20 2022-07-22 北京字跳网络技术有限公司 一种数据处理方法、装置、设备及存储介质
CN114780842B (zh) * 2022-04-20 2022-12-13 北京字跳网络技术有限公司 一种数据处理方法、装置、设备及存储介质
CN115689648A (zh) * 2022-10-28 2023-02-03 广东柏烨互动网络科技有限公司 应用于定向投放的用户信息处理方法及系统
CN116108162A (zh) * 2023-03-02 2023-05-12 广东工业大学 一种基于语义增强的复杂文本推荐方法及系统
CN116108162B (zh) * 2023-03-02 2024-03-08 广东工业大学 一种基于语义增强的复杂文本推荐方法及系统
CN116610745A (zh) * 2023-06-08 2023-08-18 云南庸目科技有限公司 应用数字孪生技术的ai场景信息推送处理方法及系统
CN116610745B (zh) * 2023-06-08 2023-12-26 深圳市巨灵数字有限公司 应用数字孪生技术的ai场景信息推送处理方法及系统
CN116975654A (zh) * 2023-08-22 2023-10-31 腾讯科技(深圳)有限公司 对象互动方法、装置、电子设备、存储介质及程序产品
CN116975654B (zh) * 2023-08-22 2024-01-05 腾讯科技(深圳)有限公司 对象互动方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Kumar et al. Sentiment analysis of multimodal twitter data
CN113590928A (zh) 内容推荐方法、装置及计算机可读存储介质
Giannoulakis et al. Evaluating the descriptive power of Instagram hashtags
Sohrabi et al. An efficient preprocessing method for supervised sentiment analysis by converting sentences to numerical vectors: a twitter case study
CN111767403B (zh) 一种文本分类方法和装置
Astya Sentiment analysis: approaches and open issues
CN112231563B (zh) 一种内容推荐方法、装置及存储介质
Ortis et al. An Overview on Image Sentiment Analysis: Methods, Datasets and Current Challenges.
CN108388608B (zh) 基于文本感知的情感反馈方法、装置、计算机设备和存储介质
CN110336700B (zh) 一种基于时间及用户的转发序列的微博流行度预测方法
CN106105096A (zh) 用于连续社交通信的系统和方法
CN112257661A (zh) 低俗图像的识别方法、装置、设备及计算机可读存储介质
CN111723295B (zh) 一种内容分发方法、装置和存储介质
CN103020712B (zh) 一种海量微博数据的分布式分类装置及方法
CN113392331A (zh) 文本处理方法及设备
CN108845986A (zh) 一种情感分析方法、设备及系统、计算机可读存储介质
CN110321918A (zh) 基于微博的舆论机器人系统情感分析和图像标注的方法
Su et al. Personalized clothing recommendation based on user emotional analysis
Suresh et al. Mining of customer review feedback using sentiment analysis for smart phone product
Kumari et al. Sentiment analysis of tweets
Cai et al. Deep learning approaches on multimodal sentiment analysis
CN116561441A (zh) 一种基于自注意力神经网络的社交网络用户认知状态刻画方法
Liu et al. Hierarchical Attention‐Based Multimodal Fusion Network for Video Emotion Recognition
Chouhan et al. Sentiment analysis of Twitch. tv livestream messages using machine learning methods
CN115378890A (zh) 信息输入方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40056136

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination