Nothing Special   »   [go: up one dir, main page]

CN103780625B - 用户兴趣发现方法和装置 - Google Patents

用户兴趣发现方法和装置 Download PDF

Info

Publication number
CN103780625B
CN103780625B CN201410038066.XA CN201410038066A CN103780625B CN 103780625 B CN103780625 B CN 103780625B CN 201410038066 A CN201410038066 A CN 201410038066A CN 103780625 B CN103780625 B CN 103780625B
Authority
CN
China
Prior art keywords
network access
behavioral data
user
field
access behavioral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410038066.XA
Other languages
English (en)
Other versions
CN103780625A (zh
Inventor
汤传喜
郭奇
崔华
居胜峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201410038066.XA priority Critical patent/CN103780625B/zh
Publication of CN103780625A publication Critical patent/CN103780625A/zh
Application granted granted Critical
Publication of CN103780625B publication Critical patent/CN103780625B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种用户兴趣发现方法和装置,其中的方法主要包括:采集用户的网络访问行为数据;根据网络访问行为数据所包含的实体词以及预先设定的各领域分别对应的多个实体词确定网络访问行为数据所属的领域;根据网络访问行为数据对应的多个维度上的属性信息计算网络访问行为数据的权重值;根据用户的网络访问行为数据的权重值确定用户对网络访问行为数据所属的领域的关注度;根据用户对网络访问行为数据所属领域的关注度和预先设定的相应领域对应的兴趣阈值识别所述用户的兴趣;其中,领域对应的兴趣阈值是根据网络中多个用户对该领域进行访问的网络访问行为数据设置的。本发明提供的上述技术方案可以进一步准确的确定出用户兴趣。

Description

用户兴趣发现方法和装置
技术领域
本发明涉及网络访问技术领域,具体涉及用户兴趣发现方法以及相应的用户兴趣发现装置。
背景技术
个性化信息推荐技术由于其能够使网络侧向用户下发符合用户兴趣的信息,因此,个性化信息推荐技术可以有效提高网络资源的点击量和阅读量。有鉴于此,个性化信息推荐技术逐渐在网络访问中得到越来越多的应用。
在个性化信息推荐技术中,准确及时的发现用户兴趣是该技术中的一个非常重要的环节。
现有的用户兴趣发现方式主要包括两种,即一种方式为引导用户主动将其兴趣告知网络侧;而另一种方式为自动发现用户兴趣,即根据用户的行为信息(即用户的网络访问行为数据)发现用户兴趣;其中,上述用户的行为信息可以包括:用户浏览过的网页的信息、用户搜索过的关键词、用户发表的微博的信息、用户发表的博客(blog)的信息以及用户购买的商品等等。
目前,根据用户的行为信息发现用户兴趣的具体实现方式通常为:在用户阅读一篇文档或者阅读网页等内容时,确定出该文档所属的领域,从而可以将该领域确定为用户的兴趣;当然,也可以进一步将该用户所涉足的多个领域进行比对,将用户涉足最多的一个或者两个领域确定为用户的兴趣。
发明人在实现本发明过程中发现,现有的发现用户兴趣的实现方式易产生误判现象,下面举两个具体的例子进行说明:
第一个具体的例子,用户阅读某一内容有时是存在干扰性因素的,而依据该干扰性因素所发现的用户兴趣很可能并不是用户真正的兴趣;如某一领域是热门领域,从而用户阅读该领域的内容的机会往往更多,然而,这并不代表用户对该领域真正感兴趣;再如,由于弹窗推送或者用户被标题误导会引发用户浏览相关内容,然而,用户浏览的这些内容并不能表示出用户真正的兴趣所在。
第二个具体的例子,用户的阅读可能会表现出其浅度且暂时的兴趣,而如 果根据用户阅读的这部分内容将用户浅度且暂时的兴趣识别为用户真正的兴趣,则产生用户兴趣的误判;如用户在看一部电视剧的过程中,有时会对电视剧中的演员进行搜索,以阅读了一些有关于该演员的介绍信息,用户的这种阅读行为通常并不具有高阅读量以及持续发生的特点,如果据此识别出用户对该演员感兴趣,并向用户推送与该演员相关的信息显然并不合适。
发明内容
本发明的目的在于,克服现有的用户兴趣发现方式所存在的技术问题,提供一种用户兴趣发现方法以及相应的用户兴趣发现装置,所要解决的技术问题是,进一步准确的确定出用户兴趣。
本发明的目的以及解决其技术问题可以采用以下的技术方案来实现。
依据本发明提出的一种用户兴趣发现方法,其中,所述方法包括:采集用户的网络访问行为数据;根据网络访问行为数据所包含的实体词以及预先设定的各领域分别对应的多个实体词确定所述网络访问行为数据所属的领域;根据所述网络访问行为数据对应的多个维度上的属性信息计算所述网络访问行为数据的权重值;根据所述用户的网络访问行为数据的权重值确定所述用户对所述网络访问行为数据所属的领域的关注度;根据所述用户对所述网络访问行为数据所属领域的关注度和预先设定的相应领域对应的兴趣阈值识别所述用户的兴趣,其中,所述领域对应的兴趣阈值是根据网络中多个用户对该领域进行访问的网络访问行为数据设置的。
依据本发明实施例提供的一种用户兴趣发现装置,其中,该装置包括:采集模块,用于采集用户的网络访问行为数据;确定领域模块,用于根据所述网络访问行为数据所包含的实体词以及预先设定的各领域分别对应的多个实体词确定所述网络访问行为数据所属的领域;权重值模块,用于根据所述网络访问行为数据对应的多个维度上的属性信息计算所述网络访问行为数据的权重值;关注度模块,用于根据所述用户的网络访问行为数据的权重值确定所述用户对所述网络访问行为数据所属的领域的关注度;兴趣识别模块,用于根据所述用户对所述网络访问行为数据所属领域的关注度和预先设定的相应领域对 应的兴趣阈值识别所述用户的兴趣;其中,所述领域对应的兴趣阈值是根据网络中多个用户对该领域进行访问的网络访问行为数据设置的。
借由上述技术方案,本发明提供的用户兴趣发现方法和装置至少具有下列优点及有益效果:本发明实施例通过利用网络中多个用户对相应领域进行网络访问的网络访问行为数据来设置相应领域的兴趣阈值,使相应领域的兴趣阈值可以建立在多个用户对相应领域进行网络访问所形成的网络访问分布特点之上,从而使相应领域的兴趣阈值被设置成合理的兴趣阈值;通过利用本发明设置的相应领域的兴趣阈值来衡量单个用户对相应领域的关注度,可以尽可能的避免通过对单个用户自身的不同网络访问行为之间的比对来确定用户兴趣的过程中所存在的误判现象;最终本发明可以更加准确的确定出用户对相应领域的兴趣,并更为精准的为用户下发其真正感兴趣的内容。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述以及其他目的、特征和优点能够更明显易懂,以下特举较佳的实施例,详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的用户兴趣发现方法流程图;
图2是本发明实施例提供的用户兴趣发现方法的框架示意图;
图3是本发明实施例提供的用户兴趣发现装置示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,说明书所描述的实施例仅仅是本发明部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员依次所获得的、而没有经过创造性劳动付出的其他实施例,都属于本发明保护的范围。
实施例一、用户兴趣发现方法。该用户兴趣发现方法的流程以及示意如图1和图2所示。
图1中,S100、采集用户的网络访问行为数据。
具体的,本实施例中的用户的网络访问行为数据包括:用户浏览过的网页的信息、用户搜索过的关键词、用户发表的微博的信息(如从微博中提取出的至少一个关键词等)、用户发表的博客的信息(如从博客中提取出的至少一个关键词等)以及用户购买的商品的信息等等。上述网络访问行为数据还可以包括用户进行网络访问行为的时间信息,如用户激活浏览器客户端的时间、用户关闭浏览器客户端的时间、用户登录网络的时间、用户浏览网页的时间、用户搜索关键词的时间、用户发表微博的时间、用户发表博客的时间以及用户购买商品的时间等等。上述用户进行网络访问行为的时间信息可以用于后续的访问频度以及访问间隔等的计算。
本实施例可以利用用户的网络终端设备中的浏览器客户端来采集用户的网络访问行为数据。一个具体的例子,用户的网络终端设备中的浏览器客户端可以方便的获取到用户执行网络访问操作的相关信息,即用户的网络访问行为数据,这样,浏览器客户端可以根据其内部预先设定的网络设备地址,将其采集到的用户的网络访问行为数据传输给相应的网络设备(如浏览器服务器端所在的网络设备或者其他设备),从而使相应的网络设备可以方便的采集到用户的网络访问行为数据。需要特别说明的是,本实施例在进行用户的网络访问行为数据的传输过程中,浏览器客户端还应将其标识信息随网络访问行为数据一起传输至相应的网络设备,这样,网络设备可以基于浏览器客户端的标识信息来确定出其接收到的网络访问行为数据所对应的用户;也就是说,在本实施例中,用户可以使用浏览器客户端的标识信息来表示。
浏览器客户端可以将其采集到的网络访问行为数据实时传输给相应的网络设备,浏览器客户端也可以将其采集到的网络访问行为数据定时或者不定时的传输给相应的网络设备,例如每到整点时刻,浏览器客户端将其采集并本地存储的由用户在前一小时中所进行的网络访问操作而产生的网络访问行为数据传输给相应的网络设备,在成功传输后,浏览器客户端删除上述本地存储的已经成功传输至相应的网络设备的网络访问行为数据;再例如,浏览器客户端 在其采集并本地存储的网络访问行为数据达到预定数量(如采集并本地存储的网络访问行为数据所占用的存储空间达到预定存储空间大小)时,将本地存储的所有网络访问行为数据传输给相应的网络设备,并在成功传输后,浏览器客户端删除上述本地存储的已经成功传输至相应的网络设备的网络访问行为数据。
本实施例也可以利用API(Application Programming Interface,应用程序接口)从网络侧来采集用户的网络访问行为数据。在利用API从网络侧来采集用户的网络访问行为数据的情况下,本实施例可以获取到用户更多的网络访问行为数据,如本实施例可以利用API获取到在浏览器客户端开始向网络设备上报网络访问行为数据之前用户执行的网络访问所产生并存储在网络侧的网络访问行为数据,也就是说,在浏览器客户端在被配置为获取用户的网络访问行为数据并向相应的网络设备发送网络访问行为数据之前,用户利用该浏览器客户端所执行的网络访问操作对应的网络访问行为数据可以通过API采集。
利用API采集用户的网络访问行为数据的第一个具体的例子为:网络设备(如浏览器服务器端所在的网络设备等)在接收到浏览器客户端通过其所在的网络终端设备传输来的信息时,立即判断其接收到的信息中是否包含有微博或者博客等的登录信息,如果网络设备判断出其接收到的信息中包含有登录信息,则网络设备从登录信息中获取登录用户的登录账户信息,并利用API从相应的服务器中获取登录用户利用其登录账号所发表的内容(如登录用户发表的博客或者微博等内容),然后,网络设备针对其获取的内容进行提取关键词等处理,从而网络设备采集到用户(即浏览器客户端标识所表示的用户)的网络访问行为数据;其中,利用API获取登录用户利用其登录账号所发表的内容并不仅限于登录用户利用其登录账号本次发表的内容,还可以包括登录用户利用其登录账号在之前一段时间(如当前时间的前一个月)所发表的内容。
利用API采集用户的网络访问行为数据的第二个具体的例子为:网络设备根据预先设定的时间(如每天的凌晨)定时的针对其在预定时间间隔(如24小时)内接收到的所有浏览器客户端通过其网络终端设备传输来的所有信息进行集中分析,以从其接收到的所有信息中识别出包含有微博或者博客等的登录信息的信息,然后,网络设备根据这些识别出的信息中所包含的登录用户的登 录信息利用API从相应的服务器(如微博或者博客等对应的服务器)中获取各登录用户利用其登录账号所发表的内容(如登录用户发表的博客或者微博等内容),之后,网络设备针对其获取的内容进行提取关键词等处理,从而网络设备采集到用户(即浏览器客户端标识所表示的用户)的网络访问行为数据;其中,利用API获取登录用户利用其登录账号所发表的内容并不仅限于登录用户利用其登录账号本次发表的内容,还可以包括登录用户利用其登录账号在之前一段时间(如当前时间的前一个月)所发表的内容。
需要说明的是,在上述第一个具体的例子和第二个具体的例子中,如果一台网络终端设备存在多人使用的情况,则来自该网络终端设备中的浏览器客户端的多条信息中可能会包括多个不同的登录用户的登录信息;在该情况下,本实施例可以将来自一台网络终端设备中的浏览器客户端的多条信息中的多个不同的登录用户的登录信息分别对应的内容中的关键词都作为一个用户(即浏览器客户端标识所表示的用户)的网络访问行为数据,也就是说,不对登录用户进行区分;当然,本实施例也可以将来自一台网络终端设备中的浏览器客户端的多条信息中的多个不同的登录用户中的其中一个登录用户的登录信息对应的内容中的关键词作为一个用户(即浏览器客户端所表示的用户)的网络访问行为数据,也就是说,本实施例可以对登录用户进行区分;例如,本实施例可以将多个登录用户中登录次数最多的一个登录用户的登录信息对应的内容中的关键词作为本实施例中的用户(即浏览器客户端所表示的用户)的网络访问行为数据,而对其他登录用户的登录信息不进行获取相应内容以及提取关键词等的处理操作,即将登录次数最多的一个登录用户与浏览器客户端标识所表示的用户相关联。
本实施例还可以采用除上述两种例举的利用浏览器客户端采集方式以及API采集方式之外的其他方式来获取用户的网络访问行为数据。另外,本实施例中的用户的网络终端设备可以是用户的计算机或者智能移动电话或者平板电脑等可以进行网络访问的网络终端设备。
S110、根据网络访问行为数据所包含的实体词以及预先设定的各领域分别对应的多个实体词确定上述步骤采集到的网络访问行为数据所属的领域。
具体的,本实施例可以预先将每个领域表示为由一系列的实体词构成的一 个向量,针对网络设备接收到的一网络访问行为数据而言,网络设备可以先将该网络访问行为数据所包含的实体词(如包含一个或者多个实体词)通过预定算法计算出一向量,然后,通过预定的距离函数度量该网络访问行为数据所对应的向量与各领域对应的向量之间的距离,之后,根据度量出的各距离确定出上述接收到的网络访问行为数据所属的领域(如将距离最近的领域确定为该网络访问行为数据所属的领域)。
本实施例也可以采用其他方式来确定上述采集到的网络访问行为数据所属的领域,在此不再一一例举说明。
S120、根据网络访问行为数据对应的多个维度上的属性信息计算网络访问行为数据的权重值。
具体的,本实施例中的网络访问行为数据对应有多个维度(这里的维度也可以称为统计维度),且在每一个维度上均对应有相应的属性信息,该属性信息并不表示网络访问行为数据在其对应的维度上所固有的属性,而是一种由于用户的访问行为而使其在维护上所具有的临时属性。
一个具体的例子,本实施例中的网络访问行为数据对应的多个维度上的属性信息可以包括:网络访问行为数据所属领域的触达次数、网络访问行为数据所属领域的访问频度、产生该网络访问行为数据的访问方式以及网络访问行为数据所对应的内容资源的信息质量。
另一个具体的例子,本实施例中的网络访问行为数据对应的多个维度上的属性信息可以包括:网络访问行为数据所属领域的触达次数、网络访问行为数据所属领域的访问间隔、产生该网络访问行为数据的访问方式以及网络访问行为数据所对应的内容资源的信息质量。
再一个具体的例子,本实施例中的网络访问行为数据对应的多个维度上的属性信息可以包括:网络访问行为数据所属领域的触达次数、网络访问行为数据所属领域的访问频度、网络访问行为数据所属领域的访问间隔、产生该网络访问行为数据的访问方式以及网络访问行为数据所对应的内容资源的信息质量。
其中,上述网络访问行为数据所属领域的触达次数表示用户对该领域的触达次数,也就是说,在一个领域范围内,如果对该领域的所有网络访问行为数 据的触达进行顺序计次的话,则该网络访问行为数据对应的顺序计次值即为该网络访问行为数据所属领域的触达次数。上述网络访问行为数据所属领域的触达次数可以由网络设备来设置。
其中,上述网络访问行为数据所属领域的访问频度表示用户对该领域的访问频度,也就是说,在一个领域范围内,如果将该领域中的每一条网络访问行为数据均作为用户对该领域的一次访问,则在将该网络访问行为数据实时纳入到对该领域的访问频度的计算时所获得的访问频度值可以作为该网络访问行为数据所述领域的访问频度。上述网络访问行为数据所属领域的访问频度可以由网络设备来计算并设置。触达次数和访问频度之间是存在关系的,如在一段时间内的触达次数越多,则访问频度会越高,一个具体的例子,如果用户经常看NBA新闻,则实体词NBA的触达次数会很多,与此同时,实体词NBA在时间维度上所表现出的访问频度也会越高。
其中,上述产生该网络访问行为数据的访问方式是指用户在进行相应的网络访问而产生该网络访问行为数据时所采用的具体的访问方式,如网络访问行为数据是用户由于主动访问而产生的(如主动打开浏览器客户端并在地址栏中输入相应的URL的网页浏览以及主动搜索关键词的网页浏览等),还是用户由于点击推送的弹窗或者网页中的内容而产生的。上述产生该网络访问行为数据的访问方式可以由浏览器客户端来设置,并随网络访问行为数据一起传输至网络设备。
其中,上述网络访问行为数据所对应的内容资源的信息质量可以在一定程度上表示出相应的内容资源的专业程度,内容资源的信息质量可以利用该内容资源所属领域中至少一个高端用户对该网络访问行为数据所对应的内容资源的访问情况来确定;这里的高端用户可以为已经被确定为对该领域(上述接收到的网络访问行为数据所属的领域)具有兴趣的用户(也可以称为该领域中的资深用户)。一个具体的例子,本实施例可以根据网络访问行为数据所对应的内容资源是否被相应领域中的一个或多个高端用户所访问和/或被相应领域中的所有高端用户所访问的次数等相关信息来决定该网络访问行为数据所对应的内容资源在信息质量上的具体取值。上述网络访问行为数据所对应的内容资源的信息质量可以由网络设备来设置。另外,上述高端用户也可以为不但被确 定为对该领域具有兴趣且还应对该领域的兴趣达到发烧程度的用户,如在用户对内容资源所属领域的关注度不但达到相应的兴趣阈值,而且还达到预定阈值的情况下,该用户被确定为该领域的高端用户,该预定阈值高于网络资源所属领域对应的兴趣阈值;再如,在用户对内容资源所属领域的关注度不但达到相应的兴趣阈值,而且该用户还对预定网站进行过访问,则可以将该用户确定为高端用户;上述预定网站通常为专业性较强的网站。
其中,上述网络访问行为数据所属领域的访问间隔表示用户对该领域的访问间隔;即在用户的多次上网过程中,对一领域的前一次访问和对该领域的下一次访问之间间隔的用户上网次数;这里的上网次数可以以天为单位计算(即用户在一天之内的多次上网作为该用户的一次上网),本实施例中的上网次数也可以以其他单位来计算,如以用户打开浏览器客户端的次数为单位计算。上述网络访问行为数据所属领域的访问间隔可以由网络设备来计算并设置。一个具体的例子,用户在1月7日上网访问了体育领域中的内容资源,之后,用户一直没有上网,直到1月10日,用户才再次上网,并再次访问了体育领域中的内容资源,那么可以将相应的网络访问行为数据所属领域的访问间隔设置为1,而并不是将该访问间隔设置为1月7日与1月10日之间间隔的天数。
本实施例可以预先为所有维度或者部分维度上的不同属性信息分别设置相应的系数,如为主动访问设置的系数高于为被动访问设置的系数,再如为被高端用户访问的内容资源对应的信息质量设置的系数高于没有被高端用户访问的内容资源对应的信息质量设置的系数。这样,本实施例在确定出网络访问行为数据对应的多个维度上的属性信息后,可以利用各属性信息以及相对应的系数计算出网络访问行为数据的权重值。本实施例可以根据实际情况采用相应的计算方法来进行网络访问行为数据的权重值的计算,具体的计算方法在此不再一一详细举例说明。
本实施例可以在接收到一条网络访问行为数据或者同时接收到多条网络访问行为数据时,立即计算接收到的网络访问行为数据的权重值,并将计算出的权重值与网络访问行为数据以及其所对应的各维度上的属性信息一起本地存储。当然,本实施例也可以采用定时或者不定时的方式来处理其接收到的网络访问行为数据,例如,每到整点时刻,网络设备将其接收并本地存储的所有 未进行计算的网络访问行为数据进行权重值计算,并在计算完成后,将计算出的权重值连同相应的网络访问行为数据以及网络访问行为数据对应的各维度上的属性信息一起存储;再例如,网络设备在其本地存储的网络访问行为数据达到预定数量(如接收并本地存储的网络访问行为数据所占用的存储空间达到预定存储空间大小)时,对本地存储的所有未进行权重值计算的网络访问行为数据进行权重值计算,并在计算完成后,将计算出的各权重值连同对应的网络访问行为数据以及网络访问行为数据对应的各维度上的属性信息一起存储。
用户的网络访问行为数据、网络访问行为数据对应的多个维度上的属性信息以及计算出的权重值等可以一起存储在该用户的特征库(如图2所示)中。
本实施例可以采用多种方式来计算网络访问行为数据的权重值,具体的实现方式可以根据实际应用情况来设置,在此不再详细例举说明。
S130、根据用户的网络访问行为数据的权重值确定用户对网络访问行为数据所属的领域的关注度。
具体的,本实施例可以实时的方式计算用户对网络访问行为数据所属的领域的关注度,也就是说,网络设备每接收到一条网络访问行为数据或者网络设备同时接收到多条网络访问行为数据时,可以立即进行网络访问行为数据的关注度计算,并利用当前计算出的关注度来修正用户对该网络访问行为数据所属领域的关注度(如图2中的“在线处理”,并利用“在线处理”的结果修正“特征库”中的存储信息)。
本实施例也可以采用非实时的方式(即离线方式)计算用户对网络访问行为数据所属的领域的关注度,例如,在每天的凌晨对前一天接收到的该用户的网络访问行为数据进行关注度的计算处理,在计算处理完成后,利用当前计算出的关注度来修正用户对各网络访问行为数据所属领域的关注度(如图2中的“离线处理”,并利用“离线处理”的结果修正“特征库”中的存储信息)。
本实施例可以采用多种方式利用用户的网络访问行为数据的权重值来计算用户对网络访问行为数据所属领域的关注度,具体的实现方式可以根据实际情况来设置,在此不再详细例举说明。
S140、根据用户对网络访问行为数据所属领域的关注度和预先设定的相应领域对应的兴趣阈值识别用户的兴趣。
具体的,本实施例中预先设定的相应领域对应的兴趣阈值是根据网络中多个用户(如全网用户)对属于该领域中的内容资源进行访问所产生的网络访问行为数据而设置的。
由于多个用户(如全网用户)对一个领域的访问情况可以体现出该领域被不同用户所关注的程度的差异,因此,利用多个用户对一个领域的访问情况来设置该领域的兴趣阈值可以较准确的体现出对该领域感兴趣的用户对该领域的实际访问情况,从而本实施例通过利用这样的兴趣阈值来对用户是否对该领域有兴趣进行判断,可以使判断的结果更加准确。
一个具体的例子,设定有两个领域,即第一领域和第二领域,第一领域是一个能够时常被大家接触到的领域(如NBA),而第二领域是一个不能够时常被大家接触到的领域(如观赏鱼),用户A对第一领域的访问次数往往会大大超出用户A对第二领域的访问次数,然而,这并不能准确的表示出第一领域是用户A的兴趣所在,也就是说,如果通过将用户A对第一领域的访问次数和对第二领域的访问次数进行比较来确定用户A的兴趣是第一领域,则很有可能确定出的兴趣并不是用户A的兴趣。从实际情况来看,由于多个用户(如全网用户)接触第一领域的机会都较多,而接触第二领域的机会都较少,因此,根据网络中多个用户对该第一领域和第二领域的访问情况来看,为第一领域设置的兴趣阈值应高于为第二领域设置的兴趣阈值。
一个更具体的例子,体育新闻领域的内容更新量较大,用户A平均每天都有10篇体育新闻的阅读量,而观赏鱼领域的内容更新量较少,用户A平均每天有2篇观赏鱼内容的阅读量,而从全网用户的访问情况来看,每天有20篇体育新闻的阅读量的用户才算是对体育新闻领域感兴趣,而每天有2篇观赏鱼的阅读量的用户就可以算是对观赏鱼领域感兴趣了。
不同用户对不同领域的网络访问分布情况与不同用户对同一领域的网络访问分布情况如下述表1和表2所示。
表1
表1中,Total User14560表示本次参与统计的用户的数量,Info“**”表示**领域,User_num表示对领域的内容资源进行过访问的用户数量,User_prop表示对领域的内容资源进行过访问的用户占本次参与统计的用户的比例,一个具体的例子,针对“互联网”领域而言,User_prop=13095/14560=0.899。
由表1可知,由于信息量(或者说信息更新量)的不同以及是否为热门领域等多种原因,使用户对不同领域的访问具有不同的特点,通过针对同一用户对不同领域的访问进行对比来确定用户感兴趣的领域是不合理的。
表2
表2是表1中“互联网”领域的进一步展示的具体内容,User_num表示对该领域中的内容资源进行过访问的用户的数量,User_prop表示对该领域中的内容资源进行过访问的用户占本次参与统计的用户的比例,Days表示用户访问“互联网”领域的天数,pv表示用户对“互联网”领域的触达次数,entity_num表示用户访问“互联网”中的内容资源所包含的实体词的数量。
表2中的数据可以表明对“互联网”进行过访问的不同用户在对该领域的触达次数、所触达的实体词数量以及对该领域的访问频度等方面存在的差异。
在本实施例中,预先设置领域对应的兴趣阈值的一个具体的例子为,定时或者不定时的采集网络中多个用户(如全网用户)的网络访问行为数据(即以离线方式获取多个用户的网络访问行为数据,如图2中的“离线处理”方框所示);针对获取到的每一条网络访问行为数据而言,分别确定该网络访问行为数据所包含的实体词,根据网络访问行为数据所包含的实体词以及预先设定的各领域分别对应的多个实体词确定各网络访问行为数据分别所属的领域;之后,根据各网络访问行为数据对应的多个维度上的属性信息(这里的属性信息具体如上述S120中的描述)计算各网络访问行为数据的权重值(权重值的计算具 体如上述S120中的描述);然后,针对每一个领域而言,根据各领域中的所有网络访问行为数据的权重值的分布情况分别设置各领域对应的兴趣阈值,如针对一个领域而言,可以将属于该领域的所有网络访问行为数据的权重值放入坐标中,每个权重值作为坐标中的一个点,将每个点连接起来可以形成一条折线,对该领域不感兴趣的用户对应的权重值通常会聚集在折线中的一个较平缓的区间中,而对该领域感兴趣的用户对应的权重值通常会聚集在折线中的另一个区间,且该另一个区间相对于前述区间通常会表现为突然上升的趋势,从而本实施例可以通过查找该折线中相应的拐点来确定该领域对应的兴趣阈值,本实施例可以将查找到的拐点的权重值作为该领域对应的兴趣阈值。本实施例确定拐点的一个具体的例子为,在覆盖一定比例的权重值的情况下,如果确定出相邻斜线的斜率的差异达到一定的阈值时,则可以将相邻斜线的交点确定为拐点;本实施例可以对选取的拐点进行人工调整。
本实施例计算出的各领域对应的兴趣阈值可以存储于如图2所示领域分布库中。
本实施例可以在判断出用户对网络访问行为数据所属领域的关注度达到或者超过预先设定的该领域对应的兴趣阈值时,将该领域作为用户的兴趣,并据此向用户推荐符合其兴趣的内容资源,即如图2所示,将“特征库”以及“领域分布库”中存储的数据作为“个性化引擎”的输入信息,从而“个性化引擎”可以输出符合用户兴趣的内容资源,进而本实施例可以向用户下发其感兴趣的内容资源。
在用户具有被动浏览习惯的情况下,用户通常习惯于浏览各种头条新闻以及实时弹窗推送的内容,正是基于这样的被动浏览习惯,会造成用户可能对多个领域都会有较多的网络访问现象;然而,由于这些访问是即兴且随意的,因此,用户对其访问涉及到的多个领域的关注度很可能并不会达到相应领域的兴趣阈值,从而本实施例利用基于多个用户设置的各领域的兴趣阈值可以排除将用户即兴且随意的浏览的内容所属的领域确定为用户感兴趣的领域的现象。
利用本实施例提供的上述技术方案,可以较准确的确定出用户感兴趣的领域,进一步的,本实施例还可以更细致的确定出用户所感兴趣的实体词,如本实施例中的网络访问行为数据对应的多个维度上的属性信息还可以包括:网络 访问行为数据所包含的实体词在网络访问行为数据所属领域中的触达次数、网络访问行为数据所包含的实体词在网络访问行为数据所属领域中的访问频度以及网络访问行为数据所包含的实体词在所述网络访问行为数据所属领域中的访问间隔,这三个属性信息均是针对领域中的网络访问行为数据所包含的实体词的,而不是针对网络访问行为数据所属领域的。一个具体的例子,图2中示出的特征库中不但记录有用户的多条网络访问行为数据,且该特征库中还记录有针对领域的在触达次数、访问频度、访问间隔、访问方式和信息质量维度上的属性信息以及针对领域中的实体词的触达次数、访问频度和访问间隔。
基于上述针对实体词的属性信息,本实施例在设置领域对应的兴趣阈值时,还可以进一步设置领域中的各实体词的兴趣阈值,这样,不仅可以根据领域中的各实体词的兴趣阈值来判断用户所感兴趣的领域中的更具体细化的内容,而且,即便是在用户不感兴趣的领域中,也可以通过比较判断出用户更关注一些的内容。
设置实体词的兴趣阈值的方式与上述设置领域对应的兴趣阈值的方式基本相同,在此不再详细说明。本实施例为领域中的实体词设置的兴趣阈值也可以存储于如图2所示的领域分布库中。
需要特别说明的是,在预先为实体词设置了兴趣阈值的情况下,本实施例在为领域设置对应的兴趣阈值时,不仅应考虑多个用户对领域的关注度,还可以将该领域中的各实体词对应的兴趣阈值作为确定领域对应的兴趣阈值的一个参考因素。另外,上述产生网络访问行为数据的访问方式以及网络访问行为数据所对应的内容资源的信息质量可以用于为实体词设置兴趣阈值以及识别用户感兴趣的实体词的过程中,也就是说,产生网络访问行为数据的访问方式可以作为产生网络访问行为数据所包含的实体词的访问方式,网络访问行为数据所对应的内容资源的信息质量可以作为网络访问行为数据中所包含的实体词的访问方式。
本实施例在确定出用户感兴趣的领域以及感兴趣的实体词之后,在向用户推送其感兴趣的内容资源时,可以参考用户感兴趣的领域中用户感兴趣的实体词,从而可以向用户下发符合其更细致的兴趣的内容资源。
本实施例也可以在向用户推荐内容资源时,考虑推荐内容资源集合中的各 内容资源在信息质量维度上的取值,例如,针对用户感兴趣的领域,在向该用户推荐其感兴趣领域中的内容资源时,可以向该用户推荐其感兴趣的领域中的在信息质量维度上取值较高的内容资源;一个具体的例子,如果用户对观赏鱼领域感兴趣(即该用户为观赏鱼领域的资深用户),则在向该用户推荐观赏鱼的内容资源时,应向其推荐在信息质量维度上取值较高的内容资源,这样,可以避免向其推荐观赏鱼养殖的基础知识等不符合用户实际需求的内容的现象。
本实施例还可以根据用户当前的访问场景向用户下发相应的内容资源,一个具体的例子,网络设备接收到浏览器客户端采集并传输来的用户的网络访问行为数据后,网络设备从该网络访问行为数据中提取实体词,并利用提取出的实体词判断该网络访问行为数据所属的领域,进而,在根据其特征库和领域分布库中存储的信息确定出该用户对该领域不感兴趣时,网络设备可以在特征库中查找该领域下的所有实体词对应的关注度,然后,选取关注度最高的实体词所对应的内容资源(即信息源),并将该内容资源下发给用户;当然,本实施例也可以在确定出该用户对该领域不感兴趣时,向该用户推荐一些该领域中的在信息质量维度上取值较低的内容资源;一个具体的例子,如果用户对观赏鱼领域不感兴趣,则在根据用户当前的访问场景向该用户推荐观赏鱼中的相应的内容资源时,应向其推荐在信息质量维度上取值较低的内容资源,如向用户推荐观赏鱼养殖的基础知识以及入门指导等相关内容。
另外,本实施例也可以根据用户的网络访问行为数据所包含的实体词向用户下发相应的内容。
实施例二、用户兴趣发现装置,该装置如图3所示。
图3中,该装置主要包括:采集模块300、确定领域模块310、权重值模块320、关注度模块330以及兴趣识别模块340。该装置还可以包括:阈值设置模块350以及下发模块360。
采集模块300与确定领域模块310和权重值模块320分别连接。采集模块300主要用于采集用户的网络访问行为数据。
具体的,采集模块300采集的用户的网络访问行为数据包括:用户浏览过的网页的信息、用户搜索过的关键词、用户发表的微博的信息(如从微博中提取出的至少一个关键词等)、用户发表的博客的信息(如从博客中提取出的至 少一个关键词等)以及用户购买的商品的信息等等。采集模块300采集的用户的网络访问行为数据还可以包括用户进行网络访问行为的时间信息,该时间信息可以用于后续的访问频度以及访问间隔等的计算。
采集模块300可以利用用户的网络终端设备中的浏览器客户端来采集用户的网络访问行为数据,采集模块300也可以利用API来采集用户的网络访问行为数据。在利用API来采集用户的网络访问行为数据的情况下,采集模块300可以获取到用户更多的网络访问行为数据。采集模块300还可以采用除上述两种例举的利用浏览器客户端采集方式以及API采集方式之外的其他方式来获取用户的网络访问行为数据。具体如上述方法实施例的描述,在此不再重复说明。
确定领域模块310还与关注度模块330连接。确定领域模块310主要用于根据网络访问行为数据所包含的实体词以及预先设定的各领域分别对应的多个实体词确定网络访问行为数据所属的领域。
具体的,确定领域模块310可以预先将每个领域表示为由一系列的实体词构成的一个向量,针对网络设备接收到的一网络访问行为数据而言,确定领域模块310可以先将该网络访问行为数据所包含的实体词(如包含一个或者多个实体词)通过预定算法计算出一向量,然后,确定领域模块310通过预定的距离函数度量该网络访问行为数据所对应的向量与各领域对应的向量之间的距离,之后,确定领域模块310根据度量出的各距离确定出上述接收到的网络访问行为数据所属的领域(如将距离最近的领域确定为该网络访问行为数据所属的领域)。
权重值模块320还与关注度模块330连接。权重值模块320主要用于根据网络访问行为数据对应的多个维度上的属性信息计算网络访问行为数据的权重值。
具体的,本实施例中的网络访问行为数据对应有多个维度(这里的维度也可以称为统计维度),且在每一个维度上均对应有相应的属性信息,该属性信息并不表示网络访问行为数据在其对应的维度上所固有的属性,而是一种由于用户的访问行为而使其在维护上所具有的临时属性。
本实施例中的网络访问行为数据对应的多个维度上的属性信息所包括的 具体参数以及各参数所表示的含义如上述方法实施例的描述。
权重值模块320可以预先为所有维度或者部分维度上的不同属性信息分别设置相应的系数,如为主动访问设置的系数高于为被动访问设置的系数,再如为被高端用户访问的内容资源对应的信息质量设置的系数高于没有被高端用户访问的内容资源对应的信息质量设置的系数。这样,权重值模块320在确定出网络访问行为数据对应的多个维度上的属性信息后,可以利用各属性信息以及相对应的系数计算出网络访问行为数据的权重值。权重值模块320可以根据实际情况采用相应的计算方法来进行网络访问行为数据的权重值的计算,具体的计算方法在此不再一一详细举例说明。
权重值模块320可以在采集模块300接收到一条网络访问行为数据或者同时接收到多条网络访问行为数据时,立即计算接收到的网络访问行为数据的权重值,并将计算出的权重值与网络访问行为数据以及其所对应的各维度上的属性信息一起本地存储。当然,权重值模块320也可以采用定时或者不定时的方式来处理其接收到的网络访问行为数据,例如,每到整点时刻,权重值模块320将采集模块300接收并本地存储的所有未进行计算的网络访问行为数据进行权重值计算,并在计算完成后,权重值模块320将计算出的权重值连同相应的网络访问行为数据以及网络访问行为数据对应的各维度上的属性信息一起存储;再例如,权重值模块320在本地存储的网络访问行为数据达到预定数量(如接收并本地存储的网络访问行为数据所占用的存储空间达到预定存储空间大小)时,对本地存储的所有未进行权重值计算的网络访问行为数据进行权重值计算,并在计算完成后,权重值模块320将计算出的各权重值连同对应的网络访问行为数据以及网络访问行为数据对应的各维度上的属性信息一起存储。
权重值模块320可以采用多种方式来计算网络访问行为数据的权重值,具体的实现方式可以根据实际应用情况来设置,在此不再详细例举说明。
关注度模块330还与兴趣识别模块340连接。关注度模块330主要用于根据用户的网络访问行为数据的权重值确定用户对网络访问行为数据所属的领域的关注度。
具体的,关注度模块330可以实时的方式计算用户对网络访问行为数据所 属的领域的关注度,也就是说,采集模块300每接收到一条网络访问行为数据或者采集模块300同时接收到多条网络访问行为数据时,关注度模块330可以立即进行网络访问行为数据的关注度计算,并利用当前计算出的关注度来修正用户对该网络访问行为数据所属领域的关注度。
关注度模块330也可以采用非实时的方式(即离线方式)计算用户对网络访问行为数据所属的领域的关注度,例如,在每天的凌晨关注度模块330对前一天采集模块300采集的用户的网络访问行为数据进行关注度的计算处理,在计算处理完成后,关注度模块330利用当前计算出的关注度来修正用户对各网络访问行为数据所属领域的关注度。
关注度模块330可以采用多种方式利用用户的网络访问行为数据的权重值来计算用户对网络访问行为数据所属领域的关注度,具体的实现方式可以根据实际情况来设置,在此不再详细例举说明。
兴趣识别模块340还与阈值设置模块350以及下发模块360分别连接。兴趣识别模块340主要用于根据用户对网络访问行为数据所属领域的关注度和预先设定的相应领域对应的兴趣阈值识别用户的兴趣。兴
具体的,兴趣识别模块340可以在判断出用户对网络访问行为数据所属领域的关注度达到或者超过预先设定的该领域对应的兴趣阈值时,将该领域作为用户的兴趣,并使下发模块360据此向用户推荐符合其兴趣的内容资源。
阈值设置模块350主要用于根据各领域中的网络访问行为数据的权重值的分布设置各领域分别对应的兴趣阈值。
具体的,阈值设置模块350预先设置领域对应的兴趣阈值的一个具体的例子为,采集模块300定时或者不定时的采集网络中多个用户(如全网用户)的网络访问行为数据(即以离线方式获取多个用户的网络访问行为数据);针对获取到的每一条网络访问行为数据而言,确定领域模块310分别确定该网络访问行为数据所包含的实体词,确定领域模块310根据网络访问行为数据所包含的实体词以及预先设定的各领域分别对应的多个实体词确定各网络访问行为数据分别所属的领域;之后,权重值模块320根据各网络访问行为数据对应的多个维度上的属性信息(这里的属性信息具体如上述S120中的描述)计算各网络访问行为数据的权重值(权重值的计算具体如上述S120中的描述);然 后,针对每一个领域而言,阈值设置模块350根据各领域中的所有网络访问行为数据的权重值的分布情况分别设置各领域对应的兴趣阈值,如针对一个领域而言,阈值设置模块350可以将属于该领域的所有网络访问行为数据的权重值放入坐标中,每个权重值作为坐标中的一个点,阈值设置模块350将每个点连接起来可以形成一条折线,阈值设置模块350可以通过查找该折线中相应的拐点来确定该领域对应的兴趣阈值,阈值设置模块350可以将查找到的拐点的权重值作为该领域对应的兴趣阈值。
下发模块360还可以用于根据实时采集到的用户的网络访问行为数据所属的领域中的各实体词所对应的关注度,向用户下发相应的内容。
具体的,兴趣识别模块340还可以更细致的确定出用户所感兴趣的实体词,如本实施例中的网络访问行为数据对应的多个维度上的属性信息还可以包括:网络访问行为数据所包含的实体词在网络访问行为数据所属领域中的触达次数、网络访问行为数据所包含的实体词在网络访问行为数据所属领域中的访问频度以及网络访问行为数据所包含的实体词在所述网络访问行为数据所属领域中的访问间隔,这三个属性信息均是针对领域中的网络访问行为数据所包含的实体词的,而不是针对网络访问行为数据所属领域的。
基于上述针对实体词的属性信息,阈值设置模块350在设置领域对应的兴趣阈值时,还可以进一步设置领域中的各实体词的兴趣阈值,这样,兴趣识别模块340不仅可以根据领域中的各实体词的兴趣阈值来判断用户所感兴趣的领域中的更具体细化的内容,而且,即便是在用户不感兴趣的领域中,下发模块360也可以通过比较判断出用户更关注一些的内容。
阈值设置模块350设置实体词的兴趣阈值的方式与上述设置领域对应的兴趣阈值的方式基本相同,在此不再详细说明。
在确定出用户感兴趣的领域以及感兴趣的实体词之后,下发模块360在向用户推送其感兴趣的内容资源时,可以参考用户感兴趣的领域中用户感兴趣的实体词,从而可以向用户下发符合其更细致的兴趣的内容资源。
下发模块360也可以在向用户推荐内容资源时,考虑推荐内容资源集合中的各内容资源在信息质量维度上的取值,例如,针对用户感兴趣的领域,下发模块360在向该用户推荐其感兴趣领域中的内容资源时,可以向该用户推荐其 感兴趣的领域中的在信息质量维度上取值较高的内容资源。
下发模块360还可以根据用户当前的访问场景向用户下发相应的内容资源,一个具体的例子,采集模块300接收到浏览器客户端采集并传输来的用户的网络访问行为数据后,确定领域模块310从该网络访问行为数据中提取实体词,并利用提取出的实体词判断该网络访问行为数据所属的领域,进而,在兴趣识别模块340根据特征库和领域分布库中存储的信息确定出该用户对该领域不感兴趣时,下发模块360可以在特征库中查找该领域下的所有实体词对应的关注度,然后,下发模块360选取关注度最高的实体词所对应的内容资源(即信息源),并将该内容资源下发给用户;当然,下发模块360也可以在兴趣识别模块340确定出该用户对该领域不感兴趣时,向该用户推荐一些该领域中的在信息质量维度上取值较低的内容资源;一个具体的例子,如果用户对观赏鱼领域不感兴趣,则下发模块360在根据用户当前的访问场景向该用户推荐观赏鱼中的相应的内容资源时,下发模块360应向其推荐在信息质量维度上取值较低的内容资源,如下发模块360向用户推荐观赏鱼养殖的基础知识以及入门指导等相关内容。下发模块360也可以根据用户的网络访问行为数据所包含的实体词向用户下发相应的内容。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或者系统的实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实 际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明所提供的用户兴趣发现方法和装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (22)

1.一种用户兴趣发现方法,其特征在于,包括:
采集用户的网络访问行为数据;
根据所述网络访问行为数据所包含的实体词以及预先设定的各领域分别对应的多个实体词确定所述网络访问行为数据所属的领域;
根据所述网络访问行为数据对应的多个维度上的属性信息计算所述网络访问行为数据的权重值;
根据所述用户的网络访问行为数据的权重值确定所述用户对所述网络访问行为数据所属的领域的关注度;
根据所述用户对所述网络访问行为数据所属领域的关注度和预先设定的相应领域对应的兴趣阈值识别所述用户的兴趣,其中,所述领域对应的兴趣阈值是根据网络中多个用户对该领域进行访问的网络访问行为数据设置的;
其中,根据所述网络访问行为数据所包含的实体词以及预先设定的各领域分别对应的多个实体词确定所述网络访问行为数据所属的领域,包括:
预先将各个领域表示为由一系列的实体词构成的一个向量;
将所述网络访问行为数据所包含的实体词通过预定算法计算出一向量;
通过预定的距离函数度量所述网络访问行为数据所对应的向量与各领域对应的向量之间的距离;
根据度量出的各距离确定出所述网络访问行为数据所属的领域。
2.如权利要求1所述的方法,其特征在于,所述采集用户的网络访问行为数据包括:
接收用户的网络终端设备传输来的通过浏览器客户端采集的用户的网络访问行为数据;和/或
通过应用程序接口API从网络侧采集用户的网络访问行为数据。
3.如权利要求1所述的方法,其特征在于:
所述网络访问行为数据对应的多个维度上的属性信息包括但不限于:网络访问行为数据所属领域的触达次数、网络访问行为数据所属领域的访问频度、产生所述网络访问行为数据的访问方式以及网络访问行为数据所对应的内容资源的信息质量;或者
所述网络访问行为数据对应的多个维度上的属性信息包括但不限于:网络访问行为数据所属领域的触达次数、网络访问行为数据所属领域的访问间隔、产生所述网络访问行为数据的访问方式以及网络访问行为数据所对应的内容资源的信息质量;或者
所述网络访问行为数据对应的多个维度上的属性信息包括但不限于:网络访问行为数据所属领域的触达次数、网络访问行为数据所属领域的访问频度、网络访问行为数据所属领域的访问间隔、产生所述网络访问行为数据的访问方式以及网络访问行为数据所对应的内容资源的信息质量;
其中,所述访问方式包括:主动访问以及推送访问。
4.如权利要求3所述的方法,其特征在于:
所述内容资源的信息质量根据对所述内容资源所属领域有兴趣的用户对所述内容资源的访问来确定;或者
所述内容资源的信息质量根据对所述内容资源所属领域有兴趣且对所述网络资源所属的领域的关注度达到预定阈值的用户对所述内容资源的访问来确定,其中,所述预定阈值高于所述网络资源所属领域对应的兴趣阈值;或者
所述内容资源的信息质量根据对所述内容资源所属领域有兴趣且对所述网络资源所属的领域中的预定网站进行过访问的用户对所述内容资源的访问来确定。
5.如权利要求1所述的方法,其特征在于,所述领域对应的兴趣阈值通过下述方式设置:
采集多个用户的网络访问行为数据;
根据所述多个用户的网络访问行为数据所包含的实体词以及预先设定的各领域分别对应的多个实体词确定各网络访问行为数据分别所属的领域;
根据所述网络访问行为数据对应的多个维度上的属性信息计算各网络访问行为数据的权重值;
根据各领域中的网络访问行为数据的权重值的分布设置各领域分别对应的兴趣阈值。
6.如权利要求5所述的方法,其特征在于,所述根据各领域中的网络访问行为数据的权重值的分布设置各领域分别对应的兴趣阈值的步骤还包括:
针对一个领域而言,在属于该领域的所有网络访问行为数据的权重值的分布中确定权重值拐点,并将所述权重值拐点设置为该领域对应的兴趣阈值。
7.如权利要求3所述的方法,其特征在于,所述网络访问行为数据对应的多个维度上的属性信息还包括:
网络访问行为数据所包含的实体词在所述网络访问行为数据所属领域中的触达次数;
网络访问行为数据所包含的实体词在所述网络访问行为数据所属领域中的访问频度;
网络访问行为数据所包含的实体词在所述网络访问行为数据所属领域中的访问间隔。
8.如权利要求7所述的方法,其特征在于,所述方法还包括:
根据所述网络访问行为数据对应的多个维度上的属性信息计算所述网络访问行为数据中的实体词的权重值;
根据所述网络访问行为数据中的实体词的权重值确定所述用户对所述网络访问行为数据所属的领域中的实体词的关注度;
根据所述用户对所述网络访问行为数据所属领域中的实体词的关注度和预先设定的相应领域中的实体词对应的兴趣阈值识别所述用户的兴趣。
9.如权利要求8所述的方法,其特征在于,所述方法还包括:
根据实时采集到的用户的网络访问行为数据所属的领域中的各实体词对应的关注度,向用户下发相应的内容。
10.如权利要求1至9中任一权利要求所述的方法,其特征在于,所述方法还包括:
根据用户的网络访问行为数据所包含的实体词向用户下发相应的内容。
11.如权利要求1至9中任一权利要求所述的方法,其特征在于:
所述用户对所述网络访问行为数据所属的领域的关注度以及所述用户的兴趣根据实时采集到的用户的网络访问行为数据实时更新;或者
所述用户对所述网络访问行为数据所属的领域的关注度以及所述用户的兴趣根据采集到的用户的网络访问行为数据定期更新。
12.一种用户兴趣发现装置,其特征在于,该装置包括:
采集模块,用于采集用户的网络访问行为数据;
确定领域模块,用于根据所述网络访问行为数据所包含的实体词以及预先设定的各领域分别对应的多个实体词确定所述网络访问行为数据所属的领域;
权重值模块,用于根据所述网络访问行为数据对应的多个维度上的属性信息计算所述网络访问行为数据的权重值;
关注度模块,用于根据所述用户的网络访问行为数据的权重值确定所述用户对所述网络访问行为数据所属的领域的关注度;
兴趣识别模块,用于根据所述用户对所述网络访问行为数据所属领域的关注度和预先设定的相应领域对应的兴趣阈值识别所述用户的兴趣;
其中,所述领域对应的兴趣阈值是根据网络中多个用户对该领域进行访问的网络访问行为数据设置的;
其中,所述确定领域模块用于预先将各个领域表示为由一系列的实体词构成的一个向量;将所述网络访问行为数据所包含的实体词通过预定算法计算出一向量;通过预定的距离函数度量所述网络访问行为数据所对应的向量与各领域对应的向量之间的距离;根据度量出的各距离确定出所述网络访问行为数据所属的领域。
13.如权利要求12所述的装置,其特征在于,所述采集用户的网络访问行为数据包括:
接收用户的网络终端设备传输来的通过浏览器客户端采集的用户的网络访问行为数据;和/或
通过应用程序接口API从网络侧采集用户的网络访问行为数据。
14.如权利要求12所述的装置,其特征在于:
所述网络访问行为数据对应的多个维度上的属性信息包括但不限于:网络访问行为数据所属领域的触达次数、网络访问行为数据所属领域的访问频度、产生所述网络访问行为数据的访问方式以及网络访问行为数据所对应的内容资源的信息质量;或者
所述网络访问行为数据对应的多个维度上的属性信息包括但不限于:网络访问行为数据所属领域的触达次数、网络访问行为数据所属领域的访问间隔、产生所述网络访问行为数据的访问方式以及网络访问行为数据所对应的内容资源的信息质量;或者
所述网络访问行为数据对应的多个维度上的属性信息包括但不限于:网络访问行为数据所属领域的触达次数、网络访问行为数据所属领域的访问频度、网络访问行为数据所属领域的访问间隔、产生所述网络访问行为数据的访问方式以及网络访问行为数据所对应的内容资源的信息质量;
其中,所述访问方式包括:主动访问以及推送访问。
15.如权利要求14所述的装置,其特征在于:
所述内容资源的信息质量是根据对所述内容资源所属领域有兴趣的用户对所述内容资源的访问来确定的;或者
所述内容资源的信息质量根据对所述内容资源所属领域有兴趣且对所述网络资源所属的领域的关注度达到预定阈值的用户对所述内容资源的访问来确定,其中,所述预定阈值高于所述网络资源所属领域对应的兴趣阈值;或者
所述内容资源的信息质量根据对所述内容资源所属领域有兴趣且对所述网络资源所属的领域中的预定网站进行过访问的用户对所述内容资源的访问来确定。
16.如权利要求12所述的装置,其特征在于,所述领域对应的兴趣阈值通过下述方式设置:
采集多个用户的网络访问行为数据;
根据所述多个用户的网络访问行为数据所包含的实体词以及预先设定的各领域分别对应的多个实体词确定各网络访问行为数据分别所属的领域;
根据所述各网络访问行为数据对应的多个维度上的属性信息计算各网络访问行为数据的权重值;
且所述装置还包括:
阈值设置模块,用于根据各领域中的网络访问行为数据的权重值的分布设置各领域分别对应的兴趣阈值。
17.如权利要求16所述的装置,其特征在于,所述根据各领域中的网络访问行为数据的权重值的分布设置各领域分别对应的兴趣阈值的步骤包括:
针对一个领域而言,在属于该领域的所有网络访问行为数据的权重值的分布中确定权重值拐点,并将所述权重值拐点设置为该领域对应的兴趣阈值。
18.如权利要求14所述的装置,其特征在于,所述网络访问行为数据对应的多个维度上的属性信息还包括:
网络访问行为数据所包含的实体词在所述网络访问行为数据所属领域中的触达次数;
网络访问行为数据所包含的实体词在所述网络访问行为数据所属领域中的访问频度;
网络访问行为数据所包含的实体词在所述网络访问行为数据所属领域中的访问间隔。
19.如权利要求18所述的装置,其特征在于:
权重值模块还用于,根据所述网络访问行为数据对应的多个维度上的属性信息计算所述网络访问行为数据中的实体词的权重值;
关注度模块还用于,根据所述网络访问行为数据中的实体词的权重值确定所述用户对所述网络访问行为数据所属的领域中的实体词的关注度;
兴趣识别模块还用于,根据所述用户对所述网络访问行为数据所属领域中的实体词的关注度和预先设定的相应领域中的实体词对应的兴趣阈值识别所述用户的兴趣。
20.如权利要求19所述的装置,其特征在于,所述装置还包括:
下发模块,用于根据实时采集到的用户的网络访问行为数据所属的领域中的各实体词所对应的关注度,向用户下发相应的内容。
21.如权利要求12至20中任一权利要求所述的装置,其特征在于,所述装置还包括:
下发模块,用于根据用户的网络访问行为数据所包含的实体词向用户下发相应的内容。
22.如权利要求12至20中任一权利要求所述的装置,其特征在于:
所述用户对所述网络访问行为数据所属的领域的关注度以及所述用户的兴趣根据实时采集到的用户的网络访问行为数据实时更新;或者
所述用户对所述网络访问行为数据所属的领域的关注度以及所述用户的兴趣根据采集到的用户的网络访问行为数据定期更新。
CN201410038066.XA 2014-01-26 2014-01-26 用户兴趣发现方法和装置 Active CN103780625B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410038066.XA CN103780625B (zh) 2014-01-26 2014-01-26 用户兴趣发现方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410038066.XA CN103780625B (zh) 2014-01-26 2014-01-26 用户兴趣发现方法和装置

Publications (2)

Publication Number Publication Date
CN103780625A CN103780625A (zh) 2014-05-07
CN103780625B true CN103780625B (zh) 2017-07-04

Family

ID=50572455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410038066.XA Active CN103780625B (zh) 2014-01-26 2014-01-26 用户兴趣发现方法和装置

Country Status (1)

Country Link
CN (1) CN103780625B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361063B (zh) * 2014-11-04 2018-03-16 北京字节跳动网络技术有限公司 用户兴趣发现方法和装置
CN104991935B (zh) * 2015-07-06 2019-03-12 无锡天脉聚源传媒科技有限公司 一种网站关注度的处理方法和装置
CN105893407A (zh) * 2015-11-12 2016-08-24 乐视云计算有限公司 个体用户画像方法和系统
CN106202502B (zh) * 2016-07-20 2020-02-07 福州大学 音乐信息网络中用户兴趣发现方法
CN108460050A (zh) * 2017-02-21 2018-08-28 中兴通讯股份有限公司 一种历史记录管理方法和装置
CN107358447B (zh) * 2017-06-29 2021-01-29 安徽大学 一种以服务质量为中心的个性化服务推荐方法和系统
CN108769809B (zh) * 2018-05-28 2021-06-29 成都极米科技股份有限公司 基于智能电视的家庭用户行为数据采集方法、装置及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6385619B1 (en) * 1999-01-08 2002-05-07 International Business Machines Corporation Automatic user interest profile generation from structured document access information
CN101866341A (zh) * 2009-04-17 2010-10-20 华为技术有限公司 一种信息推送方法、装置及系统
CN102402766A (zh) * 2011-12-27 2012-04-04 纽海信息技术(上海)有限公司 一种基于网页浏览的用户兴趣建模方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7613664B2 (en) * 2005-03-31 2009-11-03 Palo Alto Research Center Incorporated Systems and methods for determining user interests
US8438170B2 (en) * 2006-03-29 2013-05-07 Yahoo! Inc. Behavioral targeting system that generates user profiles for target objectives

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6385619B1 (en) * 1999-01-08 2002-05-07 International Business Machines Corporation Automatic user interest profile generation from structured document access information
CN101866341A (zh) * 2009-04-17 2010-10-20 华为技术有限公司 一种信息推送方法、装置及系统
CN102402766A (zh) * 2011-12-27 2012-04-04 纽海信息技术(上海)有限公司 一种基于网页浏览的用户兴趣建模方法

Also Published As

Publication number Publication date
CN103780625A (zh) 2014-05-07

Similar Documents

Publication Publication Date Title
CN103780625B (zh) 用户兴趣发现方法和装置
CN106528813B (zh) 一种多媒体推荐方法和装置
US9405746B2 (en) User behavior models based on source domain
TWI636416B (zh) 內容個人化之多相排序方法和系統
CN103455522B (zh) 应用程序扩展工具推荐方法及系统
CN103888466B (zh) 用户兴趣发现方法和装置
CN103886090A (zh) 基于用户喜好的内容推荐方法及装置
CN102929928A (zh) 基于多维相似度的个性化新闻推荐方法
US9996630B2 (en) System and/or method for linking network content
CN102316167B (zh) 网站推荐方法和系统以及网络服务器
CN105245583A (zh) 一种推广信息推送方法及装置
US20100131335A1 (en) User interest mining method based on user behavior sensed in mobile device
CN101482884A (zh) 一种基于用户偏好评分分布的协作推荐系统
CN102831114B (zh) 实现互联网用户访问情况统计分析的方法及装置
CN107341245A (zh) 数据处理方法、装置及服务器
CN102298615A (zh) 一种计算机实现的用于展示搜索结果的方法与设备
CN103399861B (zh) 一种网址导航中的网址推荐方法、装置和系统
CN107103062A (zh) 一种网页推荐方法及系统
CN102890725B (zh) 搜索引擎的结果排序方法
CN102708174A (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN103220305A (zh) 网络媒介信息的分享处理系统和处理方法
US20140274354A1 (en) Intelligent merchandising of games
CN103699603A (zh) 一种基于用户行为的信息推荐方法和系统
CN107679239A (zh) 一种基于用户行为的个性化社区推荐方法
GB2456916A (en) Method for presenting promotional information on a web page, e.g. an on-line targeted advertising method.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant