CN107798332B

CN107798332B - 一种用户行为预测方法及装置

Info

Publication number: CN107798332B
Application number: CN201610802500.6A
Authority: CN
Inventors: 李长路
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-09-05
Filing date: 2016-09-05
Publication date: 2021-04-20
Anticipated expiration: 2036-09-05
Also published as: CN107798332A

Abstract

本发明实施例提供一种用户行为预测方法及装置，涉及大数据机器学习技术领域，能够降低高阶特征稀疏性在用户行为预测过程中引起的偏差。具体方案为：预测装置获取第一样本集中每个特征分别对应的权重；第一样本集中的每个样本包括行为标签和第一特征向量，第一特征向量包括多个一阶特征和多个高阶特征，高阶特征由多个一阶特征组合而成；预测装置记录每个特征分别出现的频次；确定第一频次边界；修正第一样本集中每个特征分别对应的权重；其中，修正具体包括：减小频次小于第一频次边界的特征分别对应的权重；根据修正后的每个特征分别对应的权重，预测目标第一特征向量与行为标签的取值的概率对应关系。本发明实施例用于预测用户行为。

Description

一种用户行为预测方法及装置

技术领域

本发明实施例涉及大数据机器学习技术领域，尤其涉及一种用户行为预测方法及装置。

背景技术

目前，用户行为预测作为现有个性化推荐、广告精准投放等领域的重要技术，被广泛关注和使用。以用户行为预测中的点击率预测为例，在实际应用场景中，用户是否会点击一个内容，不仅与用户固有的偏好特征和内容的属性特征有关，还与当时可能会影响用户决策的上下文特征有关。现有技术通过在训练样本的特征向量中纳入上下文特征，并通过特征组合生成高阶特征，以反映不同特征对用户行为预测的共同作用。

然而，现有技术中通过简单的特征组合的方法生成的阶数较高的特征，某些高阶特征容易在训练样本集中出现频次过低，即高阶特征具有稀疏性，从而容易在训练过程中发生局部过拟合，使得训练得到的某些高阶特征对应的权重不具备泛化能力，导致根据这些高阶特征对应的权重进行用户行为预测时出现偏差。

发明内容

本发明实施例提供一种用户行为预测方法及装置，能够降低高阶特征稀疏性在用户行为预测过程中引起的偏差。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明实施例提供了一种用户行为预测方法，该方法包括：预测装置首先获取第一样本集中每个特征分别对应的权重。其中，第一样本集包括多个样本，第一样本集中的每个样本包括行为标签和第一特征向量，第一特征向量包括多个一阶特征和多个高阶特征，高阶特征由第一特征向量中的多个一阶特征组合而成。其次，预测装置记录第一样本集中每个特征分别出现的频次。而后，预测装置确定第一频次边界。之后，预测装置修正第一样本集中每个特征分别对应的权重。其中，修正具体包括：预测装置减小频次小于第一频次边界的特征分别对应的权重。然后，预测装置根据修正后的第一样本集中每个特征分别对应的权重，预测目标第一特征向量与行为标签的取值的概率对应关系。

从而，通过减小频次小于第一频次边界的特征对应的权重，预测装置可以抑制频次过低的高阶特征对应的权重，降低高阶特征稀疏性在用户行为预测过程中引起的偏差。

在一种可能的实现方式中，预测装置确定第一频次边界包括：预测装置根据第一样本集中最高阶特征出现的频次的平均值，确定第一频次边界。

其中，由于第一频次边界用于区分正常频次的特征和频次过低的特征，因而第一频次边界的取值可以参考第一样本集中最高阶特征出现的频次的平均值。

在一种可能的实现方式中，第一频次边界小于第一样本集中最高阶特征出现的频次的平均值，以尽量确保频次小于第一频次边界的特征为频次过低的问题特征。

在一种可能的实现方式中，该方法还包括：预测装置确定第二频次边界，第二频次边界大于第一频次边界。该修正还包括：预测装置减小频次大于第二频次边界的特征分别对应的权重。

从而，通过减小频次大于第二频次边界的特征分别对应的权重，预测装置还可以抑制频次过高的特征对应的权重，降低高频曝光问题在用户行为预测过程中引起的偏差。

在一种可能的实现方式中，预测装置确定第二频次边界包括：预测装置根据第一样本集中一阶特征出现的频次的平均值，确定第二频次边界。

由于第二频次边界用于区分正常频次的特征和频次过高的特征，因而第二频次边界的取值可以参考第一样本集中一阶特征出现的频次的平均值。

在一种可能的实现方式中，第二频次边界大于第一样本集中一阶特征出现的频次的平均值，以尽量确保频次大于第二频次边界的特征为频次过高的问题特征。

在一种可能的实现方式中，修正具体包括：将第一样本集中每个特征分别对应的权重乘以抑制因子k，抑制因子k表示为：

其中，a表示第一频次边界，b表示第二频次边界，P_i表示特征出现的频次。该种可能的实现方式可以快速抑制频次过高和过低的特征对应的权重。

在一种可能的实现方式中，在[a，b]区间内，抑制因子k的取值为常数a。其中，a表示第一频次边界，b表示第二频次边界。

在一种可能的实现方式中，修正具体包括：预测装置将第一样本集中每个特征分别对应的权重乘以抑制因子k，抑制因子k表示为：

其中，a表示第一频次边界，b表示第二频次边界，P_i表示特征出现的频次，δ表示大于或者等于1的常数，λ表示大于0的常数。该种可能的实现方式在第一频次边界和第二频次边界附近有一个权重抑制的缓冲区，频次过高和过低的特征不会快速趋近于0。

在一种可能的实现方式中，在该方法之前还包括：预测装置首先获取样本数据，样本数据包括用户行为、用户特征、内容特征以及上下文特征。而后，预测装置将样本数据进行关联生成第二样本集，第二样本集中的每个样本包括行为标签和第二特征向量，第二特征向量包括多个一阶特征。之后，预测装置根据第二样本集生成第一样本集，第一样本集中的样本与第二样本集中的样本一一对应。其中，对于第二样本集中的任意样本，将第二特征向量中的多个一阶特征进行组合生成高阶特征，将高阶特征添加至第二特征向量中形成第一特征向量，第一特征向量与行为标签形成第一样本集中的一个样本。然后，预测装置根据预设训练算法，计算第一样本集中每个特征分别对应的权重。

在一种可能的实现方式中，训练算法为回归分析算法或与其有亲缘关系的算法。

在一种可能的实现方式中，在预测装置预测目标第一特征向量与行为标签的取值的概率对应关系之前，该方法还包括：预测装置首先获取目标用户特征、目标内容特征以及目标上下文特征。然后，预测装置根据目标用户特征、目标内容特征以及目标上下文特征，生成目标第二特征向量，目标第二特征向量包括多个一阶特征。而后，预测装置将目标第二特征向量中的多个一阶特征进行组合生成高阶特征，并将高阶特征添加至目标第二特征向量中，以生成目标第一特征向量。从而，在生成目标第一特征向量后，可以根据修正后的第一样本集中每个特征分别对应的权重，预测目标第一特征向量与行为标签的取值的概率对应关系。

第二方面，本发明实施例提供了一种预测装置，该预测装置包括：获取单元，用于获取第一样本集中每个特征分别对应的权重；第一样本集包括多个样本，第一样本集中的每个样本包括行为标签和第一特征向量，第一特征向量包括多个一阶特征和多个高阶特征，高阶特征由第一特征向量中的多个一阶特征组合而成。记录单元，用于记录第一样本集中每个特征分别出现的频次。确定单元，用于确定第一频次边界。修正单元，用于修正第一样本集中每个特征分别对应的权重。其中，修正单元具体用于：减小频次小于第一频次边界的特征分别对应的权重。预测单元，用于根据修正后的第一样本集中每个特征分别对应的权重，预测目标第一特征向量与行为标签的取值的概率对应关系。

这样，通过减小频次小于第一频次边界的特征对应的权重，预测装置可以抑制频次过低的高阶特征对应的权重，降低高阶特征稀疏性在用户行为预测过程中引起的偏差。

在一种可能的设计中，确定单元具体用于：根据第一样本集中最高阶特征出现的频次的平均值，确定第一频次边界。其中，由于第一频次边界用于区分正常频次的特征和频次过低的特征，因而第一频次边界的取值可以参考第一样本集中最高阶特征出现的频次的平均值。

在一种可能的设计中，确定单元还用于：确定第二频次边界，第二频次边界大于第一频次边界。修正单元还用于：减小频次大于第二频次边界的特征分别对应的权重。

这样，通过减小频次大于第二频次边界的特征分别对应的权重，预测装置还可以抑制频次过高的特征对应的权重，降低高频曝光问题在用户行为预测过程中引起的偏差。

在一种可能的设计中，确定单元用于确定第二频次边界具体包括：根据第一样本集中一阶特征出现的频次的平均值，确定第二频次边界。其中，由于第二频次边界用于区分正常频次的特征和频次过高的特征，因而第二频次边界的取值可以参考第一样本集中一阶特征出现的频次的平均值。

在一种可能的设计中，修正单元具体用于：将第一样本集中每个特征分别对应的权重乘以抑制因子k，抑制因子k表示为：

其中，a表示第一频次边界，b表示第二频次边界，P_i表示特征出现的频次。

其中，a表示第一频次边界，b表示第二频次边界，P_i表示特征出现的频次，δ表示大于或者等于1的常数，λ表示大于0的常数。

在一种可能的设计中，获取单元还用于，获取样本数据，样本数据包括用户行为、用户特征、内容特征以及上下文特征。该装置还包括第一生成单元，用于将样本数据进行关联生成第二样本集，第二样本集中的每个样本包括行为标签和第二特征向量，第二特征向量包括多个一阶特征。第一生成单元还用于，根据第二样本集生成第一样本集，第一样本集中的样本与第二样本集中的样本一一对应。其中，对于第二样本集中的任意样本，将第二特征向量中的多个一阶特征进行组合生成高阶特征，将高阶特征添加至第二特征向量中形成第一特征向量，第一特征向量与行为标签形成第一样本集中的一个样本。该装置还包括计算单元，用于根据预设训练算法，计算第一样本集中每个特征分别对应的权重。

在一种可能的设计中，获取单元还用于，在预测单元预测目标第一特征向量与行为标签的取值的概率对应关系之前，获取目标用户特征、目标内容特征以及目标上下文特征。该装置还包括第二生成单元，用于根据目标用户特征、目标内容特征以及目标上下文特征，生成目标第二特征向量，目标第二特征向量包括多个一阶特征。第二生成单元还用于，将目标第二特征向量中的多个一阶特征进行组合生成高阶特征，并将高阶特征添加至目标第二特征向量中，以生成目标第一特征向量。

又一方面，本发明实施例提供了一种预测装置，包括处理器和收发器，该处理器被配置为支持该预测装置执行上述方法中相应的功能。该收发器用于支持该预测装置与其它网元之间进行通信。该预测装置还可以包括存储器，该存储器用于与处理器耦合，保存该预测装置必要的程序指令和数据。

又一方面，本发明实施例提供了一种计算机存储介质，用于储存为上述预测装置所用的计算机软件指令，其包含用于执行上述方面所设计的程序。

再一方面，本发明实施例提供了一种通信系统，该系统包括可以实现上述方法中的功能的预测装置，以及数据源设备和终端。

为了便于理解，示例的给出了部分与本发明相关概念的说明以供参考。如下所示：

用户特征：用于描述用户相关信息的特征，例如用户标识、用户性别、用户年龄等。

内容特征：用于描述内容对象相关信息的特征，例如军事、体育、综艺等。

上下文特征：用于描述用户或环境当前状态的相关信息，例如时间、地点等。

阶数：即维度数量。在本发明实施例中，特征的“阶数”和“维数”可以混用。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种系统架构示意图；

图2为本发明实施例提供的一种预测装置的结构示意图；

图3为本发明实施例提供的一种用户行为预测方法流程图；

图4为本发明实施例提供的一种特征在频次空间的分布曲线图；

图5为本发明实施例提供的另一种用户行为预测方法流程图；

图6a为本发明实施例提供的一种“U”型函数的曲线图；

图6b为本发明实施例提供的另一种“U”型函数的曲线图；

图7为本发明实施例提供的另一种用户行为预测方法流程图；

图8为本发明实施例提供的一种预测装置的结构示意图；

图9为本发明实施例提供的另一种预测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了一种用户行为预测系统架构示意图，该系统可以包括预测装置、多个数据源设备和多个终端。其中，数据源设备用于存储从终端采集的用户行为、用户特征、内容特征、上下文特征等样本数据。预测装置可以离线获取各数据源设备中的样本数据，并对获取到的样本数据进行处理得到训练样本集。其中，训练样本集中的每个样本包括一个特征向量和一个行为标签，行为标签的不同取值用于标识不同的用户行为，每个特征向量中包括多个特征。预测装置根据预设的训练算法对训练样本集进行训练，从而获取训练样本集中每个特征分别对应的权重。预测装置还可以通过终端在线获取当前的用户特征、内容特征、上下文特征等数据，从而生成目标特征向量，并根据训练样本集中每个特征分别对应的权重，预测目标特征向量与行为标签的取值的概率对应关系。

在图1所示系统中，预测装置的具体结构可以参见图2。预设装置可以包括数据采集模块、样本生成模块、特征处理模块、模型训练模块以及在线预测模块等。其中，数据采集模块可以用于，从各数据源设备获取用户行为、用户特征、内容特征、上下文特征等样本数据；样本生成模块可以用于，将样本数据进行关联生成原始样本集；特征处理模块可以用于，对原始样本集中的特征进行处理，从而生成训练样本集，训练样本集中的每个样本包括用户行为标签和特征向量；模型训练模块可以用于，对训练样本集进行训练，从而获取训练样本集中各特征对应的权重；在线预测模块可以用于，在线获取用户的特征，根据在线获取的用户的特征生成目标特征向量，从而根据训练得到的各特征对应的权重，预测目标特征向量与用户行为标签的取值的概率对应关系。

在本发明实施例中，上述各模块具体可以集成在一个物理设备上，也可以分散在多个物理设备上，本发明实施例不做具体限定。

由于在实际应用中，用户行为是由多个特征共同决定的，因而现有技术通过特征组合的方式生成高阶特征来反映不同特征的共同作用，而高阶特征稀疏性容易引起对用户行为预测的偏差。对此，本发明实施例提供一种用户行为预测方法及装置，通过减小频次过低的特征分别对应的权重，来降低高阶特征稀疏性在用户行为预测过程中引起的偏差。

本发明实施例提供一种用户行为预测方法，参见图3，该方法可以包括：

101、预测装置获取第一样本集中每个特征分别对应的权重；第一样本集包括多个样本，第一样本集中的每个样本包括行为标签和第一特征向量，第一特征向量包括多个一阶特征和多个高阶特征，高阶特征由第一特征向量中的多个一阶特征组合而成。

这里的第一样本集可以包括多个样本，每个样本对应一组数据，用于描述用户行为、用户特征、内容特征以及上下文特征等的对应关系。每个样本具体可以包括行为标签和第一特征向量。

其中，行为标签的不同取值可以标识不同的用户行为。例如，在进行用户点击率预测时，行为标签的取值可以为“0”或“1”，“0”可以表示用户的“未点击”行为；“1”可以表示用户的“点击”行为。

第一特征向量可以包括多个一阶特征，以及该多个一阶特征组合而成的高阶特征。其中，高阶特征是指二阶及二阶以上的特征。示例性的，第一样本集中的样本1可以表示为：[女，博士，军事，日本，女|博士，女|军事，女|日本，女|博士|军事，女|博士|日本，女|军事|日本，女|博士|军事|日本]＝1。

在样本1中，“＝”后面的“1”表示行为标签的取值，“＝”前面表示第一特征向量。在第一特征向量中，“女”，“博士”，“军事”和“日本”表示4个一阶特征；“女|博士”，“女|军事”和“女|日本”表示由上述4个一阶特征组合成的二阶特征；“女|博士|军事”，“女|博士|日本”和“女|军事|日本”表示由上述4个一阶特征组合成的三阶特征；“女|博士|军事|日本”表示由上述4个一阶特征组合成的四阶特征。

由于第一样本集中的每个样本都像上述样本1一样，包括多个一阶特征和多个高阶特征，因而整个第一样本集中也包括多个一阶特征和多个高阶特征，预测装置可以获取第一样本集中每个一阶特征和每个高阶特征分别对应的权重。其中，一个特征对应的权重，用于表示出现该特征时，行为标签为某个特定取值的概率。

具体的，预测装置可以从根据训练算法对第一样本集进行训练得到的训练模型中，获取的第一样本集中每个特征分别对应的权重。其中，该训练算法可以是回归分析算法或与其有亲缘关系的算法等，这里不做具体限定。示例性的，该训练模型的具体形式可以参见如下表1：

表1

特征	特征1	特征2	特征3	…
					权重	权重1	权重2	权重3	…

在表1所示的训练模型中，第1行表示一个全局词典，可以包括第一样本集中的每个一阶特征和每个高阶特征，第2行表示每个特征分别对应的权重。

102、预测装置记录第一样本集中每个特征分别出现的频次。

第一样本集的不同样本中可以包括不同的特征，因而每个特征在整个第一样本集中出现的频次也不相同，预测装置可以分别记录第一样本集中每个特征出现的频次。

103、预测装置确定第一频次边界。

其中，第一频次边界是一个边界值，具体可以是一个数值。预测装置可以根据记录的第一样本集中每个特征分别出现的频次，确定第一频次边界，以便于根据第一频次边界修正第一样本集中每个特征分别对应的权重。

104、预测装置修正第一样本集中每个特征分别对应的权重；其中，修正具体包括：预测装置减小频次小于第一频次边界的特征分别对应的权重。

预测装置在获取第一样本集中每个特征分别对应的权重后，可以对第一样本集中每个特征分别对应的权重进行修正，以根据修正后的第一样本集中每个特征分别对应的权重，预测目标第一特征向量与行为标签的取值的概率对应关系。

具体的，预测装置对第一样本集中每个特征分别对应的权重进行修正可以包括：预测装置减小频次小于第一频次边界的特征分别对应的权重。

由于现有用户行为预测过程中，通过一阶特征组合生成高阶特征以反映不同特征的共同作用时，容易出现某些高阶特征在第一样本集中出现频次过低，即高阶特征具有稀疏性。例如，“女|军事”这一高阶特征出现的频次会明显小于“女”或“军事”单独出现的频次，对于阶数更高的特征来说，频次的迅速降低也会更加明显。因而，容易导致在训练过程中发生局部过拟合，使得训练得到的这些高阶特征对应的权重不具备普遍代表意义，从而容易导致根据这些高阶特征对应的权重，进行用户行为预测时出现偏差。尤其是在高维特征趋势下，特征有上千万阶，这种偏差也将更为明显。

对此，在本发明实施例中，预测装置可以记录第一样本集中每个特征分别出现的频次，并将第一样本集中的特征集合映射到频次空间。参见图4所示的特征在频次空间的分布曲线图可知，频次过低或过高的特征较少，大多数特征分布在频次正常的中间部分。对于一部分高阶特征出现的频次较高或正常，并没有因为训练样本不足而导致训练得到的权值偏向于少数没有普遍代表意义的样本，因而不是需要抑制的“问题”特征；真正的“问题”特征在于那些因为高阶稀疏性导致出现频次过低，从而使得训练得到的权值偏向于少数已有样本的特征，它们在频次空间相对集中于“频次过低区域”。

因而，预测装置可以通过确定一个第一频次边界，将在第一样本集中出现的频次小于第一频次边界的特征，划分为由于高阶稀疏性导致出现频次过低，从而使得训练得到的权值偏向于少数已有样本的特征，并减小频次小于第一频次边界的特征分别对应的权重。其中，该第一频次边界的具体数值较小，具体可以根据实际需要进行设定。预测装置通过减小频次小于第一频次边界的特征分别对应的权重，可以抑制频次过低的高阶特征对应的权重，从而降低高阶特征稀疏性在用户行为预测过程中引起的偏差。

105、预测装置根据修正后的第一样本集中每个特征分别对应的权重，预测目标第一特征向量与行为标签的取值的概率对应关系。

其中，目标第一特征向量的格式与第一样本集中第一特征向量的格式相同，也包括多个一阶特征和多个高阶特征，这些特征可以包括当前用户特征、当前内容特征和当前上下文特征等，用于描述当前的实时状态。预测装置可以根据修正后的第一样本集中每个特征分别对应的权重，预测目标第一特征向量与行为标签的取值的概率对应关系。

以用户点击率预测为例，预测装置可以根据修正后的第一样本集中每个特征分别对应的权重，预测目标第一特征向量与行为标签取值为“1”时的概率对应关系，即预测用户行为为“点击”时的概率。

在一种可能的实现方式中，预测装置在上述步骤103中确定第一频次边界可以包括：预测装置根据第一样本集中最高阶特征出现的频次的平均值，确定第一频次边界。

由于第一频次边界用于区分正常频次的特征和频次过低的特征，因而第一频次边界的取值可以参考第一样本集中，阶数最高的所有特征出现的频次的平均值，即第一频次边界可以在最高阶特征出现的频次的平均值的附近。可选地，第一频次边界可以小于最高阶特征出现的频次的平均值，从而尽量确保频次小于第一频次边界的特征为频次过低的特征。

可见，在本发明上述实施例提供的方法中，预测装置通过减小频次小于第一频次边界的特征对应的权重，可以抑制频次过低的高阶特征对应的权重，从而降低高阶特征稀疏性在用户行为预测过程中引起的偏差。

进一步地，参见图5，在上述步骤104之前，本发明实施例提供的方法还可以包括：

106、预测装置确定第二频次边界，第二频次边界大于第一频次边界。

在步骤106的基础上，步骤104还可以包括：预测装置减小频次大于第二频次边界的特征分别对应的权重。即，在步骤106的基础上，步骤104可以包括：预测装置减小频次小于第一频次边界和频次大于第二频次边界的特征分别对应的权重。

在实际应用中，可能会存在一些热门内容，或者根据业务需要利用强规则向大量用户推送的内容，其曝光量异常高于正常内容。这些内容携带的特征值在训练样本集中出现的频次也会异常高于正常特征；这些内容对应的特征所在的样本，在所有样本中占比过高，因而会过渡地影响这些特征及相关特征在训练模型中的权值，从而造成这些特征及相关特征对应的权值与期望不符，导致训练出的权重向特定内容倾斜，从而导致在用户行为预测过程中出现偏差。其中，关于过热、强推内容对应的高频曝光特征，可以集中出现在图4所示的“频次过高区域”。

对此，在本发明实施例中，预测装置可以通过确定一个第二频次边界，将频次大于第二频次边界的特征，划分为由于曝光频次过高从而导致训练出的权重向特定内容倾斜的特征，并减小频次大于第二频次边界的特征分别对应的权重。其中，该第二频次边界的具体数值较大，具体可以根据实际需要进行设定。预测装置通过减小频次大于第二频次边界的特征分别对应的权重，可以抑制频次过高的特征对应的权重，降低高频曝光问题在用户行为预测过程中引起的偏差。

在一种可能的实现方式中，预测装置确定第二频次边界可以包括：预测装置根据第一样本集中一阶特征出现的频次的平均值，确定第二频次边界。

由于第二频次边界用于区分正常频次的特征和频次过高的特征，因而第二频次边界的取值可以参考第一样本集中，阶数为一的所有特征出现的频次的平均值，即第一频次边界可以在一阶特征出现的频次的平均值的附近。可选地，第一频次边界可以大于一阶特征出现的频次的平均值，从而尽量确保频次大于第二频次边界的特征为频次过高的特征。

具体的，预测装置在步骤104中，减小频次小于第一频次边界和频次大于第二频次边界的特征分别对应的权重的具体实现方式可以有多种。例如，预测装置可以将减小频次小于第一频次边界的特征对应的权重，和减小频次大于第二频次边界的特征对应的权重分别进行处理；或者，预测装置也可以将减小频次小于第一频次边界的特征对应的权重，和减小频次大于第二频次边界的特征对应的权重同时进行处理。

当预测装置将减小频次小于第一频次边界的特征对应的权重，和减小频次大于第一频次边界的特征对应的权重同时进行处理时，一种可能的实现方式为：引入一个以特征出现频次为自变量的“U”形函数，使其中间部分尽量平滑，两端急剧减小下降；不同特征根据其频次可以得到“U”形函数的一个取值，即为“抑制因子”；并将步骤101获取的每个特征分别对应的权重乘以该抑制因子。其中，当特征出现的频次在正常范围内，即大于或者等于第一频次边界，且小于或者等于第二频次边界时，特征对应的权重基本保持不变；当特征出现的频次过高或过低，即小于第一频次边界和大于第二频次边界时，特征对应的权重迅速趋近于“0”。

示例性的，在第一种可能的实现方式中，上述抑制因子k可以表示为：

在式一中，a表示第一频次边界，b表示第二频次边界，P_i表示频次。式一表示一种特殊的“U”型函数，该“U”型函数的曲线图可以参见图6a。

在该种可能的实现方式中，当特征出现的频次大于或者等于第一频次边界，且小于或者等于第二频次边界时，与特征对应的权重相乘的抑制因子k为1，即特征对应的权重保持不变；当特征出现的频次小于第一频次边界的特征时，与特征对应的权重相乘的抑制因子k为0，即特征对应的权重减小为0；当特征出现的频次大于第二频次边界的特征时，与特征对应的权重相乘的抑制因子k为0，即特征对应的权重减小为0。从而，可以实现减小频次小于第一频次边界和频次大于第二频次边界的特征对应的权重。

此外，当特征出现的频次大于或者等于第一频次边界，且小于或者等于第二频次边界时，与特征对应的权重相乘的抑制因子k也可以为不等于1的常数r，这里不做具体限定。

在第二种可能的实现方式中，上述抑制因子k可以表示为：

在式二中，a表示第一频次边界，b表示第二频次边界，P_i表示频次，δ表示大于或者等于1的常数，λ表示大于0的常数。式二表示另一种“U”型函数，该“U”型函数的曲线图可以参见图6b。可选地，为便于计算，λ也可以为大于或者等于1的常数。

由图6b可知，在[a，b]区间内，抑制因子k保持平滑，小于a和大于b的区间内，抑制因子k迅速趋于0。因而，在大于或者等于第一频次边界，且小于或者等于第二频次边界的频次范围内，特征对应的权重基本保持不变；在小于第一频次边界和大于第二频次边界的频次范围内，特征对应的权重迅速趋于0。从而，可以实现减小频次小于第一频次边界和频次大于第二频次边界的特征对应的权重。

需要说明的是，在式二中，δ用于使图6b所示曲线的底部更为平滑地趋近于1。δ越大，曲线顶部就越平滑，曲线在第一频次边界和第二频次边界附近就越平缓，第一频次边界和第二频次边界附近的特征就越难被抑制。

对比上述图6a和图6b分别对应的“U”型函数曲线图可知，由于在图6a所示曲线上，小于第一频次边界和大于第二频次边界的频次区间内的抑制因子k为0，从而可以直接使得该区间内的特征对应的权重为0；而在图6b所示的曲线上，在第一频次边界和大于第二频次边界附近，分别存在一个抑制因子k逐渐减小的缓冲区，因而第一频次边界和大于第二频次边界附近的特征对应的权重也会逐渐减小。因而，图6b中的[a，b]区间可以适当小于图6a中的[a，b]区间。图6b中的第一频次边界可以大于图6a中的第一频次边界，图6b中的第二频次边界可以小于图6a中的第二频次边界。

可见，在本发明上述实施例提供的方法中，预测装置通过减小频次小于第一频次边界和频次大于第二频次边界的特征对应的权重，可以抑制频次过低和频次过高的特征对应的权重，从而降低高阶特征稀疏性和高频曝光问题在用户行为预测过程中引起的偏差。

进一步地，参见图7，在上述步骤101之前，本发明实施例提供的用户行为预测方法还可以包括生成第一样本集，并根据训练算法计算第一样本集中每个特征分别对应的权重。具体过程可以如下：

107、预测装置获取样本数据，样本数据包括用户行为、用户特征、内容特征以及上下文特征。

参见图1所示的系统架构，在本步骤中，预测装置可以离线获取各数据源设备中的样本数据，这些样本数据可以包括用户行为、用户特征、内容特征以及上下文特征等。

示例性的，预测装置从数据源设备1获取到的样本数据可以参见如下表2，从数据源设备2获取到的样本数据可以参见如下表3。

表2

行为标签	地址标识	用户标识	位置标识	时间	其它特征1
						1	地址1	ID 1	位置1	10:21	…
1	地址2	ID 2	位置2	10:21	…
						0	地址1	ID 1	位置1	10:22	…
0	地址3	ID 3	位置2	10:23	…
						0	地址4	ID 4	位置1	10:24	…

表3

用户标识	性别	年龄	其它特征2
				ID 1	男	25	…
ID 2	女	21	…
				ID 3	男	18	…
ID 4	男	20	…
				ID 5	女	19	…

108、预测装置将样本数据进行关联生成第二样本集，第二样本集中的每个样本包括行为标签和第二特征向量，第二特征向量包括多个一阶特征。

预测装置将从不同数据源设备获取到的样本数据进行关联，从而生成第二样本集。示例性的，预测装置可以将上述表2中的样本数据和上述表3中的样本数据，通过关键字“用户标识”进行关联，从而生成如表4所示的第二样本集。

表4

在表4中，每一行样本数据可以对应一个第二样本集中的样本，每个样本可以包括一个行为标签和多个一阶特征。具体的，每个样本包括的多个一阶特征可以表示成第二特征向量的形式。例如，第一行对应的样本可以表示为：[地址1，用户1，位置1，10:21，…，男，25，…]＝1。其中，“[]”中的内容表示第二特征向量，包括“地址1，用户1，位置1，10:21，…，男，25，…”这些一阶特征，“＝”后面的“1”表示行为标签的取值为“1”。

需要说明的是，在关联过程中，用户特征、内容特征、上下文特征等可由相应标识表示，但最终需将其替换成全量特征。例如，在关联过程中可以用“ID1”标识“用户1”，但最终需要将“ID1”替换成“用户1”的实际身份信息，例如“547980”这一表示“用户1”身份的序列号。

109、预测装置根据第二样本集生成第一样本集，第一样本集中的样本与第二样本集中的样本一一对应；其中，对于第二样本集中的任意样本，将第二特征向量中的多个一阶特征进行组合生成高阶特征，将高阶特征添加至第二特征向量中形成第一特征向量，第一特征向量与行为标签形成第一样本集中的一个样本。

在得到第二样本集后，预测装置可以将第二样本集的每个样本中的第二特征向量中的多个一阶特征组合生成高阶特征，从而生成第一特征向量，第一特征向量包括第二特征向量中的多个一阶特征和生成的高阶特征。

例如，当第二样本集中的样本2为[女，博士，军事，日本]＝1时，该样本中的第二特征向量为[女，博士，军事，日本]，其中包括的特征均为一阶特征。预测装置根据该第二特征向量生成的第一特征向量可以为[女，博士，军事，日本，女|博士，女|军事，女|日本，女|博士|军事，女|博士|日本，女|军事|日本，女|博士|军事|日本]，其中包括一阶特征和高阶特征，与该样本2对应的第一样本集中的样本1可以表示为[女，博士，军事，日本，女|博士，女|军事，女|日本，女|博士|军事，女|博士|日本，女|军事|日本，女|博士|军事|日本]＝1。其中，“＝”后面的“1”表示行为标签的取值为“1”。

110、预测装置根据预设训练算法，计算第一样本集中每个特征分别对应的权重。

这里的训练算法可以是回归分析算法或与其有亲缘关系的算法。具体的，在生成第一样本集后，预测装置可以对第一样本集中的特征进行离散化、二值化等规范化处理，使得第一样本集可以适用于预设的训练算法，并根据预设的训练算法对规范化处理后的第一样本集进行训练，从而获得第一样本集中每个特征分别对应的权重。

其中，离散化处理用于处理缺值、错误、不规范的特征值。二值化处理是使用回归分析或与其有亲缘关系的训练算法进行训练的前提。对于离散且物理意义上无序的特征维度，将其所有值作为一个单独的维度，新的维度取值为0或1(1代表样本中存在该特征值，0代表样本中不存在该特征值)，从而完成特征二值化；相应的，对于连续值特征，若其物理意义上无序，则分段为离散值后再二值化；若其物理意义上有序，则将其归一化到[0，1]区间内。

举例来说，若性别词典为[男,女]，学历词典为[小学，初中，高中，本科，硕士，博士]，则全局词典可以为[男,女,小学，初中，高中，本科，硕士，博士]。预测系统对于(男,本科)这个样本进行二值化处理后的结果可以为[1,0,0,0,0,1,0,0]，预测系统对(女,硕士)这一样本进行二值化处理后的结果可以为[0,1,0,0,0,0,1,0]。

需要说明的是，预测装置根据预设训练算法训练第一样本集，从而获得第一样本集中每个特征分别对应的权重的过程与现有技术一致，这里不再赘述。

进一步地，预测装置在步骤105中预测目标第一特征向量与行为标签的取值的概率对应关系之前，还可以生成用于描述当前实时状态的目标第一特征向量。具体过程可以如下：

111、预测装置获取目标用户特征、目标内容特征以及目标上下文特征。

112、预测装置根据目标用户特征、目标内容特征以及目标上下文特征，生成目标第二特征向量，目标第二特征向量包括多个一阶特征。

113、预测装置将目标第二特征向量中的多个一阶特征进行组合生成高阶特征，并将高阶特征添加至目标第二特征向量中，以生成目标第一特征向量。

在步骤111-113中，预测装置可以在线获取用于描述当前实时状态的目标用户特征、目标内容特征以及目标上下文特征等，从而生成目标第二特征向量。目标第二特征向量包括多个一阶特征，这些一阶特征即包括获取的目标用户特征、目标内容特征以及目标上下文特征等。预测装置将目标第二特征向量中的一阶特征组合成高阶特征，从而生成包括这些一阶特征和高阶特征的目标第一特征向量。从而，在生成目标第一特征向量后，预测装置可以通过上述步骤105，预测目标第一特征向量与用户行为标签的取值的概率对应关系。

此外，需要说明的是，与现有技术相比，本发明实施例提供的方法增加的额外存储、计算开销极小，基本可以忽略；除权重修正外，几乎没有增加额外步骤；步骤简单，容易维护。而且，通过一阶特征组合生成高阶特征的方式可以形成稳定的特征集合，能够支持模型的增量更新，训练和更新方案效率高。同时，还可以支持灵活引入上下文、用户、内容三部分特征及其高阶特征；满足主流场景的约束，适用场景广。

本发明另一实施例还提供了一种预测装置800，参见图8，该预测装置800可以包括：获取单元801、记录单元802、确定单元803、修正单元804、预测单元805、第一生成单元806、计算单元807和第二生成单元808。其中，获取单元801，可以用于获取第一样本集中每个特征分别对应的权重；第一样本集包括多个样本，第一样本集中的每个样本包括行为标签和第一特征向量，第一特征向量包括多个一阶特征和多个高阶特征，高阶特征由第一特征向量中的多个一阶特征组合而成。记录单元802，可以用于记录第一样本集中每个特征分别出现的频次。确定单元803，可以用于确定第一频次边界。修正单元804，可以用于修正第一样本集中每个特征分别对应的权重；其中，修正单元804具体可以用于：减小频次小于第一频次边界的特征分别对应的权重。预测单元805，可以用于根据修正后的第一样本集中每个特征分别对应的权重，预测目标第一特征向量与行为标签的取值的概率对应关系。

进一步的，确定单元803还可以用于执行图5和图7中的步骤106，修正单元804还可以用于执行图5和图7中的步骤104，获取单元801还可以用于执行图7中的步骤107和111，第一生成单元806可以用于执行图7中的步骤108和109，计算单元807可以用于执行图7中的步骤110，第二生成单元808可以用于执行图7中的步骤112和113。此外，图8中的预测装置800可以用于执行上述方法流程中的任一流程，本发明实施例在此不再详述。

进一步的，图8中的预测装置800是以功能单元的形式来呈现。这里的“单元”可以指特定应用集成电路(Application Specific Integrated Circuit，ASIC)，电路，执行一个或多个软件或固件程序的处理器和存储器，集成逻辑电路，和/或其他可以提供上述功能的器件。在一个简单的实施例中，本领域的技术人员可以想到图8中的预测装置800可以采用图9所示的形式。各单元可以通过图9的处理器和存储器来实现。

如图9所示，预测装置900可以包括一个或多个端口904，与收发器903相耦合。收发器903可以是发射器，接收器或其组合，从其它网络节点通过端口904发送或接收数据包。处理器901耦合到收发器903，用于处理数据包。处理器901可包含一个或多个多核处理器和/或存储器902。处理器901可以是一个通用处理器，专用集成电路，或数字信号处理器(Digital Signal Processing，DSP)。

存储器902可为非瞬时性的存储介质，与处理器901相耦合，用于保存不同类型的数据。存储器902可包含只读存储器(Read Only Memory，ROM),随机存取存储器(RandomAccess Memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是磁盘存储器。存储器902可用于保存实现用户行为预测相关方法的指令。当处理器执行指令时，指令使预测装置900执行图3、图5和图7中的相关步骤。可以理解，通过编程或装载可执行指令到预测装置900的处理器901，缓存和长期存储中的至少一个。

预测装置900可实现根据本发明的实施例执行一个或多个指令以触发进行用户行为预测。这些指令可存储在存储器902中，也可集成在操作系统的内核或内核的插件中。

本发明实施例还提供了一种计算机存储介质，用于储存为上述图8所示的或图9所示预测装置所用的计算机软件指令，其包含用于执行上述方法实施例所设计的程序。通过执行存储的程序，可以实现对用户行为进行预测。

本发明实施例还提供一种通信系统，其基本架构可以参见图1，该系统包括可以实现上述方法中的功能的预测装置，以及数据源设备和终端。

本领域普通技术人员应该了解本申请的所有或部分标的物可在结合硬件和/或固件的软件中实施。例如，本文描述的标的物可在一个或多个处理器执行的软件中实施。在一项示例性实施方式中，本文描述的标的物可使用存储有计算机可执行指令的非瞬时计算机可读介质实施，当计算机处理器执行该计算机可执行指令时，该指令控制计算机执行步骤。适于实施本文描述的标的物的示例计算机可读介质包括非瞬时计算机可读介质，例如磁盘存储器设备、芯片存储器设备、可编程逻辑设备和专用集成电路。另外，实施本文描述的标的物的计算机可读介质可位于单个设备或计算平台上，或可在多个设备或计算平台上分发。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种用户行为预测方法，其特征在于，包括：

获取第一样本集中每个特征分别对应的权重；所述第一样本集包括多个样本，所述第一样本集中的每个样本包括行为标签和第一特征向量，所述第一特征向量包括多个一阶特征和多个高阶特征，所述高阶特征由所述第一特征向量中的多个一阶特征组合而成；

记录所述第一样本集中每个特征分别出现的频次；

确定第一频次边界；

修正所述第一样本集中每个特征分别对应的权重；其中，所述修正具体包括：

减小频次小于第一频次边界的特征分别对应的权重；

根据修正后的所述第一样本集中每个特征分别对应的权重，预测目标第一特征向量与行为标签的取值的概率对应关系；

所述确定第一频次边界包括：

根据所述第一样本集中最高阶特征出现的频次的平均值，确定所述第一频次边界。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定第二频次边界，所述第二频次边界大于所述第一频次边界；

所述修正还包括：

减小频次大于第二频次边界的特征分别对应的权重。

3.根据权利要求2所述的方法，其特征在于，所述确定第二频次边界包括：

根据所述第一样本集中一阶特征出现的频次的平均值，确定所述第二频次边界。

4.根据权利要求2或3所述的方法，其特征在于，所述修正具体包括：

将所述第一样本集中每个特征分别对应的权重乘以抑制因子k，所述抑制因子k表示为：

其中，a表示所述第一频次边界，b表示所述第二频次边界，P_i表示特征出现的频次。

5.根据权利要求2或3所述的方法，其特征在于，所述修正具体包括：

其中，a表示所述第一频次边界，b表示所述第二频次边界，P_i表示特征出现的频次，δ表示大于或者等于1的常数，λ表示大于0的常数。

6.根据权利要求1-3任一项所述的方法，其特征在于，在所述方法之前还包括：

获取样本数据，所述样本数据包括用户行为、用户特征、内容特征以及上下文特征；

将所述样本数据进行关联生成第二样本集，所述第二样本集中的每个样本包括行为标签和第二特征向量，所述第二特征向量包括多个一阶特征；

根据所述第二样本集生成第一样本集，所述第一样本集中的样本与所述第二样本集中的样本一一对应；其中，对于所述第二样本集中的任意样本，将所述第二特征向量中的多个一阶特征进行组合生成高阶特征，将所述高阶特征添加至所述第二特征向量中形成所述第一特征向量，所述第一特征向量与所述行为标签形成所述第一样本集中的一个样本；

根据预设训练算法，计算所述第一样本集中每个特征分别对应的权重。

7.根据权利要求1-3任一项所述的方法，其特征在于，在所述预测目标第一特征向量与行为标签的取值的概率对应关系之前，所述方法还包括：

获取目标用户特征、目标内容特征以及目标上下文特征；

根据目标用户特征、目标内容特征以及目标上下文特征，生成目标第二特征向量，所述目标第二特征向量包括多个一阶特征；

将所述目标第二特征向量中的多个一阶特征进行组合生成高阶特征，并将所述高阶特征添加至所述目标第二特征向量中，以生成所述目标第一特征向量。

8.一种预测装置，其特征在于，包括：

获取单元，用于获取第一样本集中每个特征分别对应的权重；所述第一样本集包括多个样本，所述第一样本集中的每个样本包括行为标签和第一特征向量，所述第一特征向量包括多个一阶特征和多个高阶特征，所述高阶特征由所述第一特征向量中的多个一阶特征组合而成；

记录单元，用于记录所述第一样本集中每个特征分别出现的频次；

确定单元，用于确定第一频次边界；

修正单元，用于修正所述第一样本集中每个特征分别对应的权重；其中，所述修正单元具体用于：

减小频次小于第一频次边界的特征分别对应的权重；

预测单元，用于根据修正后的所述第一样本集中每个特征分别对应的权重，预测目标第一特征向量与行为标签的取值的概率对应关系；

所述确定单元具体用于：

9.根据权利要求8所述的装置，其特征在于，所述确定单元还用于：

所述修正单元还用于：

减小频次大于第二频次边界的特征分别对应的权重。

10.根据权利要求9所述的装置，其特征在于，所述确定单元用于确定第二频次边界具体包括：

11.根据权利要求9或10所述的装置，其特征在于，所述修正单元具体用于：

12.根据权利要求9或10所述的装置，其特征在于，所述修正单元具体用于：

13.根据权利要求8-10任一项所述的装置，其特征在于，所述获取单元还用于，获取样本数据，所述样本数据包括用户行为、用户特征、内容特征以及上下文特征；

所述装置还包括：

第一生成单元，用于将所述样本数据进行关联生成第二样本集，所述第二样本集中的每个样本包括行为标签和第二特征向量，所述第二特征向量包括多个一阶特征；

所述第一生成单元还用于，根据所述第二样本集生成第一样本集，所述第一样本集中的样本与所述第二样本集中的样本一一对应；其中，对于所述第二样本集中的任意样本，将所述第二特征向量中的多个一阶特征进行组合生成高阶特征，将所述高阶特征添加至所述第二特征向量中形成所述第一特征向量，所述第一特征向量与所述行为标签形成所述第一样本集中的一个样本；

计算单元，用于根据预设训练算法，计算所述第一样本集中每个特征分别对应的权重。

14.根据权利要求8-10任一项所述的装置，其特征在于，所述获取单元还用于，在所述预测单元预测目标第一特征向量与行为标签的取值的概率对应关系之前，获取目标用户特征、目标内容特征以及目标上下文特征；

所述装置还包括：

第二生成单元，用于根据目标用户特征、目标内容特征以及目标上下文特征，生成目标第二特征向量，所述目标第二特征向量包括多个一阶特征；

所述第二生成单元还用于，将所述目标第二特征向量中的多个一阶特征进行组合生成高阶特征，并将所述高阶特征添加至所述目标第二特征向量中，以生成所述目标第一特征向量。

15.一种预测装置，其特征在于，包括存储器、收发器以及处理器，所述处理器与所述存储器和所述收发器耦合，其中，所述存储器用于存储计算机可执行程序代码；所述处理器通过运行上述存储器中的程序代码，以用于完成上述权利要求1至7任一项所述的方法。