CN104598624A

CN104598624A - 一种微博用户的用户类别确定方法及装置

Info

Publication number: CN104598624A
Application number: CN201510057100.2A
Authority: CN
Inventors: 李寿山; 戴斌; 段湘煜; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2015-02-04
Filing date: 2015-02-04
Publication date: 2015-05-06

Abstract

本申请提供一种微博用户的用户类别确定方法及装置，通过获取待用户类别确定的微博用户的用户名；利用预先构建的最大熵分类器对该微博用户的用户名进行分类，得到分类结果(分类结果包括微博用户属于第一用户类别的第一后验概率，以及微博用户属于第二用户类别的第二后验概率)；进而使得直接利用分类结果和预先设置的用户类别确定规则即可实现对该微博用户的用户类别的确定。

Description

一种微博用户的用户类别确定方法及装置

技术领域

本申请涉及自然语言处理及社交网络技术领域，特别是涉及一种微博用户的用户类别确定方法及装置。

背景技术

互联网的开放性、虚拟性与共享性使其渐渐成为人们表达观点、态度、感觉、情绪等各种情感的公共平台，并且产生大量的社交网站，同时微博也随之产生，成为一个跨时代产品。

用户通过微博发表的文本中蕴含了大量的信息，且越来越多的研究工作开始关注微博，其中非常重要的一类研究是微博用户特征分析。微博用户特征分析就是通过对微博用户的信息和关系数据进行决策树分析、相关性分析和关联规则来挖掘用户特征，并根据这些特征进行用户分类、用户挖掘及影响力探测等。

其中，微博用户分类是微博用户特征分析的一项基本内容。具体来讲，微博用户分类是将微博用户划分为特定类别，比如：将微博用户划分为个人用户类别和非个人用户类别等。然而，由于社交网络刚刚起步相关研究较少，因此，关于微博用户分类的研究也比较缺乏。

发明内容

有鉴于此，本申请的目的在于提供一种微博用户的用户类别确定方法及装置，以实现对微博用户的用户类别的确定。

为了实现上述目的，本发明实施例提供的技术方案如下：

一种微博用户的用户类别确定方法，包括：

获取待用户类别确定的微博用户的用户名；

利用预先构建的最大熵分类器对所述微博用户的用户名进行分类，得到分类结果，所述分类结果包括所述微博用户属于第一用户类别的第一后验概率，以及所述微博用户属于第二用户类别的第二后验概率；

利用所述分类结果及预先设置的用户类别确定规则确定所述微博用户的用户类别。

优选的，所述利用所述分类结果及预先设置的用户类别确定规则确定所述微博用户的用户类别的过程为：

比较所述分类结果中的第一后验概率和第二后验概率，将所述第一后验概率和第二后验概率中数值较大者确定为目标后验概率；

将所述目标后验概率对应的用户类别确定为所述微博用户的用户类别。

优选的，预先构建最大熵分类器的过程为：

获取预设数量的微博用户中每个所述微博用户的用户信息，所述用户信息至少包括所述微博用户的用户名和微博地址；

响应用户利用所述微博用户的微博地址进行的类别设定操作，生成所述微博用户的用户类别，所述用户类别为第一用户类别或第二用户类别；

分别将每个所述微博用户的用户名和用户类别作为训练样本输入到预先设置的最大熵工具包中，构建最大熵分类器。

优选的，所述获取预设数量的微博用户中每个所述微博用户的用户信息的过程为：

获取预设数量的微博用户；

利用预先设置的API算法，分别获取每个所述微博用户的用户信息，所述用户信息至少包括所述微博用户的用户名和微博地址。

优选的，所述获取预设数量的微博用户的过程为：

S1、获取一个微博用户，并将其加入预先构建的空的用户队列中；

S2、按照先进先出原则，从所述用户队列中选取一个微博用户；

S3、获取所述微博用户的粉丝和关注者的并集，并将所述并集中的各个微博用户添加至所述用户队列中；

S4、判断所述用户队列中的微博用户的数量是否满足预设数量要求；当否时，返回执行S2；当是时，执行S5；

S5、将当前所述用户队列中的各个微博用户作为最终获取的微博用户。

一种微博用户的用户类别确定装置，包括：

用户名获取单元，用于获取待用户类别确定的微博用户的用户名；

分类单元，用于利用预先构建的最大熵分类器对所述微博用户的用户名进行分类，得到分类结果，所述分类结果包括所述微博用户属于第一用户类别的第一后验概率，以及所述微博用户属于第二用户类别的第二后验概率；

类别确定单元，用于利用所述分类结果及预先设置的用户类别确定规则确定所述微博用户的用户类别。

优选的，所述类别确定单元包括：

比较单元，用于比较所述分类结果中的第一后验概率和第二后验概率，将所述第一后验概率和第二后验概率中数值较大者确定为目标后验概率；

类别确定子单元，用于将所述目标后验概率对应的用户类别确定为所述微博用户的用户类别。

优选的，还包括最大熵分类器构建单元，所述最大熵分类器构建单元包括：

用户信息获取单元，用于获取预设数量的微博用户中每个所述微博用户的用户信息，所述用户信息至少包括所述微博用户的用户名和微博地址；

用户类别生成单元，用于响应用户利用所述微博用户的微博地址进行的类别设定操作，生成所述微博用户的用户类别，所述用户类别为第一用户类别或第二用户类别；

最大熵分类器构建子单元，用于分别将每个所述微博用户的用户名和用户类别作为训练样本输入到预先设置的最大熵工具包中，构建最大熵分类器。

优选的，所述用户信息获取单元包括：

微博用户获取单元，用于获取预设数量的微博用户；

用户信息获取子单元，用于利用预先设置的API算法，分别获取每个所述微博用户的用户信息，所述用户信息至少包括所述微博用户的用户名和微博地址。

优选的，所述微博用户获取单元包括：

第一获取单元，用于执行S1、获取一个微博用户，并将其加入预先构建的空的用户队列中；

选取单元，用于执行S2、按照先进先出原则，从所述用户队列中选取一个微博用户；

第二获取单元，用于执行S3、获取所述微博用户的粉丝和关注者的并集，并将所述并集中的各个微博用户添加至所述用户队列中；

判断单元，用于执行S4、判断所述用户队列中的微博用户的数量是否满足预设数量要求；当否时，返回执行S2；当是时，执行S5；

第三获取单元，用于执行S5、将当前所述用户队列中的各个微博用户作为最终获取的微博用户。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例一提供的一种微博用户的用户类别确定方法流程图；

图2为本申请实施例一提供的一种最大熵分类器构建方法流程图；

图3为本申请实施例一提供的一种获取预设数量的微博用户的方法流程图；

图4为本申请实施例二提供的一种微博用户的用户类别确定装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

图1为本申请实施例一提供的一种微博用户的用户类别确定方法流程图。

如图1所示，该方法包括：

S101、获取待用户类别确定的微博用户的用户名；

在本申请实施例中，优选的，当需对某个微博用户进行用户类别确定时，需首先获取该待用户类别确定的微博用户的用户名。

具体的，可利用预先设置的API算法获取该待用户类别确定的微博用户的用户名，以上仅仅是本申请实施例的优选方式，发明人可根据自己的需求任意设置获取待用户类别确定的微博用户的用户名的方式，在此不做限定。

S102、利用预先构建的最大熵分类器对微博用户的用户名进行分类，得到分类结果；

在本申请实施例中，优选的，预先构建有最大熵分类器，通过该最大熵分类器可对微博用户的用户名进行分类，得到分类结果，其中，分类结果包括该微博用户属于第一用户类别的第一后验概率，以及该微博用户属于第二用户类别的第二后验概率。

S103、利用分类结果及预先设置的用户类别确定规则确定微博用户的用户类别。

在本申请实施例中，优选的，预先设置有用户类别确定规则，利用该确定规则以及分类结果(该分类结果包括微博用户属于第一用户类别的第一后验概率和该微博用户属于第二用户类别的第二后验概率)即可确定该微博用户的用户类别，即该微博用户属于第一用户类别还是第二用户类别。

本申请提供一种微博用户的用户类别确定方法，通过获取待用户类别确定的微博用户的用户名；利用预先构建的最大熵分类器对该微博用户的用户名进行分类，得到分类结果(分类结果包括微博用户属于第一用户类别的第一后验概率，以及微博用户属于第二用户类别的第二后验概率)；进而使得直接利用分类结果和预先设置的用户类别确定规则即可实现对该微博用户的用户类别的确定。

在本申请实施例中，优选的，利用分类结果及预先设置的用户类别确定规则确定微博用户的用户类别的过程为：

1、比较分类结果中的第一后验概率和第二后验概率，将第一后验概率和第二后验概率中数值较大者确定为目标后验概率；

在本申请实施例中，优选的，利用分类结果和预先设置的用户类别确定规则确定微博用户的用户类别的过程中，首先需要比较该分类结果中的第一后验概率和第二后验概率，进而将第一后验概率和第二后验概率中数值较大者确定为目标后验概率。

2、将目标后验概率对应的用户类别确定为微博用户的用户类别。

具体的，当确定目标后验概率后，将该目标后验概率对应的用户类别确定为该微博用户的用户类别，如当目标后验概率为第一后验概率时，则将与该第一后验概率对应的第一用户类别确定为该微博用户的用户类别。

为了便于本领域技术人员对本申请实施例提供的一种微博用户的用户类别确定方法的理解，在此进一步提供一种最大熵分类器构建方法，如图2所示。

如图2所示，该最大熵分类器构建方法为：

S201、获取预设数量的微博用户中每个微博用户的用户信息，用户信息至少包括微博用户的用户名和微博地址；

在本申请实施例中，优选的，在构建最大熵分类器的过程中，首先需获取预设数量的微博用户中每个微博用户的用户信息，该用户信息中至少包括与其对应的微博用户的用户名和微博地址。

具体的，获取预设数量的微博用户中每个微博用户的用户信息的过程为：获取预设数量的微博用户；利用预先设置的API算法，分别获取每个微博用户的用户信息，用户信息至少包括微博用户的用户名和微博地址。

以上仅仅是本申请实施例的优选方式，发明人可根据自己的需求任意设置获取微博用户的用户信息的方式，在此并不限定仅仅为API方式。

S202、响应用户利用微博用户的微博地址进行的类别设定操作，生成微博用户的用户类别；

具体的，响应用户利用微博用户的微博地址进行的类别设定操作，生成微博用户的用户类别，该用户类别为第一用户类别或第二用户类别。

在本申请实施例中，优选的，用户可通过微博用户的微博地址查看该微博用户的具体微博，进而通过对该微博用户的具体微博的查看实现对该微博用户进行类别设定操作，以生成该微博用户的用户类别，该用户类别为第一用户类别或第二用户类别(如当用户通过查看该微博用户的具体微博发现该微博用户属于第一用户类别时，则对该微博用户进行类别设定操作，以生成该微博用户的用户类别，即第一用户类别；当用户通过查看该微博用户的具体微博发现该微博用户属于第二用户类别时，则对该微博用户进行类别设定操作，以生成该微博用户的用户类别，即第二用户类别)。

S203、分别将每个微博用户的用户名和用户类别作为训练样本输入到预先设置的最大熵工具包中，构建最大熵分类器。

在本申请实施例中，优选的，预先设置有最大熵工具包，分别将每个微博用户的用户名和用户类别作为训练样本输入到该最大熵工具中，即可构建最大熵分类器。

具体的，最大熵工具包为现有技术，有关最大熵工具包的具体内容请参见现有技术，在此不做详细介绍。

在本申请实施例中，优选的，该最大熵分类器为在执行如图1所示的微博用户的用户类别确定方法之前预先构建的，以上仅仅是本申请实施例的优选方式，发明人可根据自己的需求任意设置该最大熵分类器的构建时间，如也可为在执行如图1所示的微博用户的用户类别确定方法过程中，当需用到最大熵分类器时，直接构建该最大熵分类器。

为了本领域技术人员更加清楚的对本申请实施例提供的一种最大熵分类器构建方法的理解，在此提供一种获取预设数量的微博用户的方法，如图3所示。

如图3所示，该获取预设数量的微博用户的方法为：

具体的，预先构建一个空的用户队列，并获取一个微博用户(该微博用户的获取方式不限，其可以为任意获取的，也可以为用户指定的，在此不做限定)，将该微博用户加入该预先构建的用户队列中。

S2、按照先进先出原则，从用户队列中选取一个微博用户；

S3、获取微博用户的粉丝和关注者的并集，并将并集中的各个微博用户添加至用户队列中；

S4、判断用户队列中的微博用户的数量是否满足预设数量要求；当否时，返回执行S2；当是时，执行S5；

S5、将当前用户队列中的各个微博用户作为最终获取的微博用户。

在本申请实施例中，优选的，在执行S3的过程中，逐个将并集中的各个微博用户添加至用户队列中，且进一步的，在每次将并集中的一个微博用户添加至用户队列中后，判断该用户队列中的微博用户的数量是否满足预设数量要求，当用户队列中的微博用户的数量满足预设数量要求时，则停止执行S3和S4，且将此时的用户队列中的各个微博用户作为最终获取到的微博用户；当用户队列中的微博用户的数量不满足预设数量要求时，则继续将并集中的微博用户添加至用户队列中；若当并集中的所有微博用户均添加至用户队列后，该用户队列中的微博用户的数量还是不满足预设数量要求时，则执行S4。

在本申请实施例中，优选的，第一用户类别为个人用户类别，第二用户类别为非个人用户类别，以上仅仅是本申请实施例的优选方式，发明人可根据自己的需求任意设置第一用户类别和第二用户类别所对应的具体用户类别，在此不做限定。

具体的，为了使得本申请实施例提供的一种微博用户的用户类别确定方法更加清晰完整，以下对该方法中“利用预先构建的最大熵分类器对微博用户的用户名进行分类，得到分类结果；利用分类结果及预先设置的用户类别确定规则确定微博用户的用户类别”的过程进行详细描述：

假设x是特征向量(也即待用户类别确定的微博用户的用户名)，y是待用户类别确定的微博用户的用户类别的输出值。p(y|x)是待用户类别确定的微博用户被预测为某一类别的概率。最大熵分类器要求p(y|x)在满足一定约束的条件下,必须使下面定义的熵取得最大值，即在约束集下输出最均匀分布的模型：

H (p) = - \underset{x, y}{Σ} \tilde{p} (x) p (y | x) \log p (y | x)

这里用H(p)代替H(Y|X)，条件熵H(Y|X)是条件概率p(y|x)均匀性的一种数学度量方法，强调对概率分布p的依赖。对于任意给定的约束集C，需要求得满足C的所有模型中H(p)取最大值的p^*：

p^*＝argmaxH(p)

其中p为满足约束集C条件下的统计模型。

特征f_i的权重用相应的参数λ_i来表示，则最大熵的最终概率输出为：

p_{λ} (y | x) = \frac{1}{Z_{λ} (x)} \exp (\underset{i}{Σ} λ_{i} f_{i} (x, y))

其中：称为归一化因子。

通过上述对本申请实施例提供的微博用户的用户类别确定方法的进一步介绍，使得本申请实施例提供的微博用户的用户类别确定方法更加清晰、完整，便于本领域技术人员理解。

实施例二：

如图所示，该装置包括：

用户名获取单元1，用于获取待用户类别确定的微博用户的用户名；

分类单元2，用于利用预先构建的最大熵分类器对微博用户的用户名进行分类，得到分类结果，分类结果包括微博用户属于第一用户类别的第一后验概率，以及微博用户属于第二用户类别的第二后验概率；

类别确定单元3，用于利用分类结果及预先设置的用户类别确定规则确定微博用户的用户类别。

具体的，类别确定单元包括：比较单元，用于比较分类结果中的第一后验概率和第二后验概率，将第一后验概率和第二后验概率中数值较大者确定为目标后验概率；类别确定子单元，用于将目标后验概率对应的用户类别确定为微博用户的用户类别。

进一步的，在本申请实施例提供的一种微博用户的用户类别确定装置中，还包括：最大熵分类器构建单元，该最大熵分类器构建单元包括：用户信息获取单元，用于获取预设数量的微博用户中每个微博用户的用户信息，用户信息至少包括微博用户的用户名和微博地址；用户类别生成单元，用于响应用户利用微博用户的微博地址进行的类别设定操作，生成微博用户的用户类别，用户类别为第一用户类别或第二用户类别；最大熵分类器构建子单元，用于分别将每个微博用户的用户名和用户类别作为训练样本输入到预先设置的最大熵工具包中，构建最大熵分类器。

具体的，用户信息获取单元包括：微博用户获取单元，用于获取预设数量的微博用户；用户信息获取子单元，用于利用预先设置的API算法，分别获取每个微博用户的用户信息，用户信息至少包括微博用户的用户名和微博地址。

具体的，微博用户获取单元包括：第一获取单元，用于执行S1、获取一个微博用户，并将其加入预先构建的空的用户队列中；选取单元，用于执行S2、按照先进先出原则，从用户队列中选取一个微博用户；第二获取单元，用于执行S3、获取微博用户的粉丝和关注者的并集，并将并集中的各个微博用户添加至用户队列中；判断单元，用于执行S4、判断用户队列中的微博用户的数量是否满足预设数量要求；当否时，返回执行S2；当是时，执行S5；第三获取单元，用于执行S5、将当前用户队列中的各个微博用户作为最终获取的微博用户。

本申请提供一种微博用户的用户类别确定装置，通过获取待用户类别确定的微博用户的用户名；利用预先构建的最大熵分类器对该微博用户的用户名进行分类，得到分类结果(分类结果包括微博用户属于第一用户类别的第一后验概率，以及微博用户属于第二用户类别的第二后验概率)；进而使得直接利用分类结果和预先设置的用户类别确定规则即可实现对该微博用户的用户类别的确定。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

以上仅是本申请的优选实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种微博用户的用户类别确定方法，其特征在于，包括：

获取待用户类别确定的微博用户的用户名；

2.根据权利要求1所述的方法，其特征在于，所述利用所述分类结果及预先设置的用户类别确定规则确定所述微博用户的用户类别的过程为：

3.根据权利要求1所述的方法，其特征在于，预先构建最大熵分类器的过程为：

4.根据权利要求3所述的方法，其特征在于，所述获取预设数量的微博用户中每个所述微博用户的用户信息的过程为：

获取预设数量的微博用户；

5.根据权利要求4所述的方法，其特征在于，所述获取预设数量的微博用户的过程为：

6.一种微博用户的用户类别确定装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述类别确定单元包括：

8.根据权利要求6所述的装置，其特征在于，还包括最大熵分类器构建单元，所述最大熵分类器构建单元包括：

9.根据权利要求8所述的装置，其特征在于，所述用户信息获取单元包括：

微博用户获取单元，用于获取预设数量的微博用户；

10.根据权利要求9所述的装置，其特征在于，所述微博用户获取单元包括：