CN111861605A

CN111861605A - 业务对象推荐方法

Info

Publication number: CN111861605A
Application number: CN201910350833.3A
Authority: CN
Inventors: 彭艺; 李楠; 刘家豪; 王超; 谢淼; 王寅
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2020-10-30
Anticipated expiration: 2039-04-28
Also published as: WO2020221022A1; CN111861605B

Abstract

本申请公开了业务对象推荐方法,包括：通过业务对象价值评估模型包括的第一参数和第二参数，根据候选业务对象的第一特征数据确定所述候选业务对象的得分；根据所述得分确定向用户推荐的业务对象集；向所述客户端回送所述业务对象集。采用这种处理方式，使得将业务对象价值评估模型划分为参数化项和非参数化项，综合参数模型与非参模型评估特征分布未知的业务对象的价值，由于非参数化项使得模型能够拟合未知的业务对象特征分布，可以不断缩小参数模型与真实环境的差距；因此，可以有效提升特征分布未知的业务对象的价值准确度，从而使得单推荐时间步损失能够收敛，进而可以逐步提升业务对象推荐的准确度。

Description

业务对象推荐方法

技术领域

本申请涉及数据处理技术领域，具体涉及业务对象推荐方法。

背景技术

推荐系统是利用电子商务网站向客户提供商品信息和建议，帮助用户决定应该购买什么产品，模拟销售人员帮助客户完成购买过程。商品冷启动是指针对用户行为匮乏商品的推荐，由于在商品冷启动情况下缺少进行推荐的数据基础，因此冷启动成为推荐系统中的一个经典问题。

目前，一种典型的推荐系统冷启动方法是基于多臂赌博机置信上限的方法，其处理过程包括如下步骤：1)进行数据收集，以构建商品数据集，并对该商品数据集中的商品数据进行预处理，获得格式规范的商品显性特征；根据商品显性特征，基于潜在狄利克雷算法构造商品隐形特征，设置输出的商品隐形特征维度，重新标记商品；2)基于商品数据集构建候选商品集：根据商品隐形特征对商品数据集进行聚类，将商品聚类，在同一类簇中的商品具有相似的性质，在不同类簇中的商品差异性较大，从每个类簇中分别随机抽取一个商品，构建候选商品集；3)将从候选商品集中挑选最优商品视为多臂赌博机问题，基于置信区间上界算法计算出估分最高的商品，作为推荐商品；4)将候选商品集中评分最高的商品推荐给用户后，根据反馈更新用户特征以及权重参数。

然而，在实现本发明过程中，发明人发现该技术方案至少存在如下问题：由于上述方案要求商品具有较为充足的用户行为特征数据，也就是说，用户行为特征数据要足够大到能够正确评估商品价值，因而只适合基于对商品价值进行参数化建模的针对新用户进行个性化商品推荐的应用场景。但是，在实际应用中更多的商品特征分布是未知的，也就是说，有些商品并不具有较为充足的用户行为特征数据，无法仅根据用户行为数据等构建的参数化模型正确评估商品价值。例如，在二手商品推荐场景中，由于二手成交商品中新品的占比较大且多为单品(孤品)，对应的成交周期较短，因而导致曝光时间短，又由于曝光流量在商品上的分布又较为均匀，因而对于二手商品可采集的用户行为特征数据会相对不足，也就是说，二手商品的价值无法根据有限维度的用户行为特征确定，对于这种商品特征分布未知的商品冷启动推荐应用场景，上述方案无法正确评估出商品价值，因而导致推荐结果不能逐步收敛，从而无法筛选出用户感兴趣的商品。

发明内容

本申请提供业务对象推荐方法，以解决现有技术存在的在商品冷启动场景下无法筛选出用户感兴趣商品的问题。

本申请提供一种业务对象推荐方法，包括：

通过业务对象价值评估模型包括的第一参数和第二参数，根据候选业务对象的第一特征数据确定所述候选业务对象的得分；所述第一特征数据包括用户行为特征数据；所述第一参数包括与所述第一特征数据相关的权重参数，所述第二参数包括未知的第二特征数据分布的参数；

根据所述得分确定向用户推荐的业务对象集；

向客户端推送所述业务对象集。

可选的，所述业务对象包括：

业务对象价值由所述第一特征数据和第二特征数据共同确定的业务对象，和/或业务对象价值由所述第一特征数据确定的业务对象。

可选的，还包括：

获取针对所述业务对象集的第一用户反馈信息；

根据所述第一用户反馈信息更新所述第一参数和所述第二参数。

可选的，所述第一用户反馈信息包括用户对业务对象的操作行为信息和浏览行为信息。

可选的，所述根据所述第一用户反馈信息更新所述第一参数和所述第二参数，包括：

根据所述操作行为信息更新所述用户行为特征数据；

根据更新后的用户行为特征数据和所述浏览行为信息，生成训练样本；

根据生成的训练样本和历史样本，更新所述第一参数和所述第二参数。

可选的，还包括：

根据更新前的第一参数和第二参数、和更新后的第一参数和第二参数，判断所述模型是否收敛；

若上述判断结果为是，则停止更新所述模型。

可选的，还包括：

若上述判断结果为否，则继续更新所述模型。

可选的，还包括：

初始化所述第一参数和第二参数。

可选的，所述初始化所述第一参数和第二参数，包括：

向用户展示至少一次候选业务对象；

获取针对所述至少一次候选业务对象的第二用户反馈信息；

根据所述第二用户反馈信息生成所述模型的训练样本；

根据所述训练样本，确定初始化的第一参数和第二参数。

可选的，所述第一参数包括：线性机器学习模型的参数或非线性机器学习模型的参数；

所述第二参数包括：与高斯过程相关的统计项，与狄利克雷过程相关的统计项，与无限维分布相关的统计项。

可选的，所述业务对象包括：商品对象，视频对象，新闻对象。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的业务对象推荐方法，通过业务对象价值评估模型包括的第一参数和第二参数，根据候选业务对象的第一特征数据确定所述候选业务对象的得分；根据所述得分确定向用户推荐的业务对象集；向所述客户端回送所述业务对象集；这种处理方式，使得将业务对象价值评估模型划分为参数化项和非参数化项，综合参数模型与非参模型评估特征分布未知的业务对象的价值，由于非参数化项使得模型能够拟合未知的业务对象特征分布，可以不断缩小参数模型与真实环境的差距；因此，可以有效提升特征分布未知的业务对象的价值准确度，从而使得单推荐时间步损失能够收敛，进而可以逐步提升业务对象推荐的准确度。

附图说明

图1是本申请提供的业务对象推荐方法的实施例的流程图；

图2是本申请提供的业务对象推荐方法的实施例的具体流程图；

图3是本申请提供的业务对象推荐方法的实施例的具体流程图；

图4是本申请提供的业务对象推荐方法的实施例的具体流程图；

图5是本申请提供的业务对象推荐方法的实施例的具体流程图；

图6是本申请提供的业务对象推荐方法的实施例的具体流程图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

本申请实施例提供的业务对象推荐技术方案，其技术思想为：将业务对象价值评估模型划分为参数化项和非参数化项，综合参数模型与非参模型评估特征分布未知的业务对象的价值，进而根据该价值确定向用户推荐的业务对象。由于非参数化项使得模型能够拟合未知的商品特征分布，可以不断缩小参数模型与真实环境的差距，因此可以有效提升特征分布未知的业务对象的价值准确度，从而使得单推荐时间步损失能够收敛，进而可以逐步提升业务对象推荐的准确度。

第一实施例

请参考图1，其为本申请提供的一种业务对象推荐方法实施例的流程图，该方法的执行主体包括业务对象推荐装置。本申请提供的一种业务对象推荐方法包括：

步骤S101：通过业务对象价值评估模型包括的第一参数和第二参数，根据候选业务对象的特征数据确定所述候选业务对象的得分。

所述推荐装置，通常部署于服务器，但并不局限于服务器，也可以是能够实现所述业务对象推荐方法的任何设备。部署有所述推荐装置的设备，可主动启动所述推荐装置执行业务对象推荐处理，也可根据用户客户端提交业务对象推荐请求，向用户提供业务对象推荐服务，并且根据用户对每次推荐结果的反馈信息，不断优化业务对象价值评估模型，以便于逐步提升业务对象得分的评估准确度。

在本实施例中，所述推荐装置首先接收客户端发送的业务对象推荐请求。所述的客户端包括但不限于移动通讯设备，即：通常所说的手机或者智能手机，还包括个人电脑、PAD、iPad等终端设备。

从业务对象类别角度而言，所述业务对象包括但不限于：商品对象，也可以是视频对象，新闻对象等等。为了便于描述，下面将以商品对象为例对本申请实施例提供的方法进行说明。

从应用场景角度而言，本申请实施例提供的方法，其应用场景可以是业务对象价值由所述第一特征数据和第二特征数据共同确定的业务对象的推荐场景。所述第一特征数据是指数据分布已知的特征数据，可以是人为设定的特征，包括但不限于与用户行为有关的特征数据(简称用户行为特征数据)，如商品在一天内被买家用户点击的次数，七天内收藏商品的买家用户数量，与售卖商品的卖家用户沟通过的买家用户数量等等；所述第一特征数据还可以包括其它与用户行为无关的特征数据，如商品价格、商品分类、卖家所在地等等。所述第二特征数据，是指数据分布未知的特征数据，也就是说，无法明确用特征数据形式表达的特征。本申请将该场景简称为数据分布未知场景，又称为商品冷启动场景，例如，在二手商品交易平台上售卖的二手商品，由于成交商品中新品的占比较大、且多为孤品(单品)，对应的成交周期较短，因而导致商品曝光时间短，同时由于曝光流量在多个商品上的分布又较为均匀，因而商品可采集的行为数据会相对不足，也就是说，根据这些数值相对不足的用户行为数据无法准确评估商品价值，二手商品推荐场景属于数据分布未知场景。

本申请实施例提供的方法，其应用场景也不仅仅局限于数据分布未知场景，在其它需要向用户推荐业务对象的场景下也可以采用本申请所提供的方法，例如，业务对象价值可由所述第一特征数据直接确定的业务对象的推荐场景，本申请将该场景称为线性场景。例如，在普通商品交易平台上售卖的非二手商品，由于成交商品为具有一定库存量的普通商品，对应的成交周期较长，因而商品曝光时间较长，因此商品可采集的行为数据会相当充足，也就是说，根据这些数据量较为充足的用户行为数据可以较为准确评估商品价值，因此普通商品推荐场景属于线性场景。

此外，本申请实施例提供的方法，还可以应用在是线性场景与数据分布未知场景相结合的应用场景，换句话说，在有类似业务对象推荐的场景下都可以应用本申请提供的方法进行业务对象的推荐。

在本实施例中，目标用户在智能手机中打开移动App(如二手商品交易App等等)，App向服务器发送业务对象推荐请求。所述业务对象推荐请求，可包括用户标识等等信息，在这种情况下，服务器可根据用户标识获取用户信息，通过本申请实施例提供的方法向用户推荐符合其兴趣特点的业务对象。所述业务对象推荐请求，也可不包括用户标识，在这种情况下，通过本申请实施例提供的方法可向用户推荐与其兴趣特点无关的业务对象，也就是说，非个性化推荐业务对象。

所述业务对象价值评估模型，是指根据业务对象特征(包括已知的第一特征数据和未知的第二特征数据)确定业务对象的价值的模型。所述模型的输入数据包括业务对象的分布已知的第一特征数据，模型输出数据包括业务对象的得分，该得分可作为业务对象推荐依据。

所述业务对象价值评估模型包括第一参数和第二参数,所述第一参数包括与业务对象的分布已知的第一特征数据相关的权重参数，所述第二参数包括与业务对象的分布未知的第二特征数据相关的、能够体现真实环境与参数模型间差异的统计参数。采用这种处理方式，使得引入了非参项的估计，可以不断缩小参数模型与真实环境的差距，因此可以有效提升价值评估准确度，使得单时间步损失能够收敛，从而有效提升推荐准确度。

所述第一参数包括与第一特征数据相关的权重参数，本实施例将第一参数称为参数项，将与第一参数对应的模型称为参数模型。参数模型可以是线性机器学习模型，如线性UCB或线性Thompson Sampling等等；参数模型也可以是非线性机器学习模型，如MirrorDescent、梯度下降(Gradient Descent)算法等等。

所述第二参数包括体现参数模型与真实环境间差距的统计参数，本实施例将第二参数称为非参数项，将与第二参数的模型对应的模型称为非参数模型。非参数模型可以是高斯过程、狄利克雷过程以及无限维分布对应的非参方法，如核回归模型(KernelRegression)、决策树(Decision Trees)等等。

在本实施例中，将基于线性UCB方法的参数作为第一参数，将基于高斯过程的参数作为第二参数。例如，对一个商品e，计算非参项的置信区间半径α，结合参数项半径β得到半参置信区间上界U，即商品的得分。下面给出确定所述得分的过程的数学表达公式，以直观地说明所述得分的确定方式。

在本实施例中，业务对象为商品对象，且要向用户推荐L(如24)个商品对象，对一个商品对象e，通过下述公式计算该商品对象的非参项的置信区间半径α：

其中，t表示第t次业务对象推荐；T_t-1(e)表示业务对象e在第t-1次推荐时刻的总推荐次数，α_t-1(e)表示商品对象e在第t-1次推荐时刻的非参项的置信区间半径。

同时，结合参数项半径β，通过下述公式得到置信区间上界U：

其中，U_t(e)表示业务对象e在第t次推荐时刻的置信区间上界，也就是业务对象e的得分(业务对象价值)；

表示业务对象e在第t-1次推荐时刻的非参项统计；

表示业务对象e在第t-1次推荐时刻的参数项统计；γ_t-1(e)表示业务对象e在第t-1次推荐时刻的半径之和；ΔX_t,e表示业务对象e在第t次推荐时刻的第一特征数据、与业务对象e在第t次推荐时刻的第一特征数据估计(如平均值)之间的差异。

步骤S103：根据所述得分确定向用户推荐的业务对象集。

所述业务对象的得分作为业务对象推荐的依据，根据所述得分即可确定向用户推荐的业务对象集。在本实施例中，商品的价值得分为商品的置信区间上界，由于不同商品的置信区间上界之间并不独立，因此本实施例基于商品的置信区间上界，根据离线组合优化算法计算出最优的商品组合。确定所述业务对象集的过程的数学表达如下所述：

其中，A_t表示第t次推荐时刻的业务对象集，k表示业务对象集的元素数量，这k个业务对象根据所有业务对象e在第t次推荐时刻的得分U_t确定。

在有限个可行解的集合中找出最优解的一类优化问题称为组合最优化问题，它是运筹学中的一个重要分支。组合优化算法(optimal combination algorithm)是一类在离散状态下求极值的问题。由于组合优化算法属于较为成熟的现有技术，因此此处不再赘述。

在另一个示例中，不同商品的价值得分相互独立，因此也可以根据商品得分从高到低的顺序，选取出预设数量的排在高位的商品，作为向用户推荐的商品组合。

步骤S105：向客户端推送所述业务对象集。

服务器将确定的业务对象回送至所述客户端，以便于客户端将业务对象展示给目标用户查看，以帮助用户发现感兴趣的业务对象，从而促进业务对象的成交率。

本申请实施例提供的方法，可以是一种通过在线方式或离线方式更新业务对象价值评估模型，并通过更新的模型确定业务对象得分，进而根据得分确定推荐的业务对象的方法。

请参考图2，其为本申请提供的一种业务对象推荐方法实施例的具体流程图。在本实施例中，以在线方式更新所述模型，所述方法还包括如下步骤：

步骤S201：获取针对所述业务对象集的第一用户反馈信息。

所述第一用户反馈信息，可包括用户对推荐系统推送的业务对象的操作行为信息，还可包括浏览行为信息。所述操作行为信息，包括但不限于以下信息：用户点击(如查看商品的详情信息)了哪些业务对象，用户收藏了哪些业务对象，用户停留时间等等。所述浏览行为信息，是指用户浏览了哪些业务对象，例如，向用户展示了20个业务对象，并分为2页显示，每页显示10个业务对象，这种情况下，用户可能只查看了第1页中显示的业务对象，因此，所述浏览行为信息可只包括这10个业务对象的标识。

具体实施时，用户可通过所述客户端对系统推荐的业务对象进行点击、收藏等等操作，通过网络这些操作信息都会被服务器端采集到，形成所述第一用户反馈信息。

所述第一用户反馈信息的数学表达包括：O_t和W_t,其中O_t表示用户在第t次推荐时刻浏览过的业务对象信息，W_t表示用户在第t次推荐时刻操作(如点击、收藏等等操作)过的业务对象信息。

步骤S203：根据所述第一用户反馈信息更新所述第一参数和所述第二参数。

在获取到所述第一用户反馈信息后，由于这些信息反映出了业务对象的与用户行为有关的特征数据的变化情况，因此可以根据所述第一用户反馈信息更新所述模型。

如图3所示，在本实施例中，步骤S203可包括如下具体子步骤：

步骤S2031：根据所述操作行为信息更新所述用户行为特征数据。

例如，向用户展示了20个商品对象，用户点击了其中3个商品对象，收藏了其中1个商品对象，这种情况下，可以对这3个商品对象的用户在1天内点击的次数累积加1，对其中1个商品对象的收藏用户数量累积加1等等。

步骤S2033：根据更新后的用户行为特征数据和所述浏览行为信息，生成训练样本。

例如，每次向用户展示20个推荐的商品对象，对于某一次推荐结果，用户只浏览了前10个商品对象，并点击了其中3个商品对象，以查看商品详情；这种情况下，可生成10个新增的训练样本，包括：与每个浏览过的商品对象对应的训练样本，所述训练样本包括业务对象的用户行为特征数据、与样本标注信息间的对应关系。在本实施例中，其中3个商品对象对应的训练样本包括更新后的用户行为特征数据，其样本标注信息为1，表示该商品对象已被用户点击；另外7个商品对象对应的训练样本可以是上一推荐时刻的用户行为特征数据，其样本标注信息为0，表示该商品对象在本次推荐时刻未被用户点击。

步骤S2035：根据生成的训练样本和历史样本，更新所述第一参数和所述第二参数。

在生成所述模型的新增训练样本后，就可以结合该新增样本及模型的历史样本，更新所述第一参数和所述第二参数。更新所述第一参数和所述第二参数，也就是更新所述模型，在更新所述模型后，就可以使用更新后的模型对通过客户端提交的下一个业务对象推荐请求进行处理，从而逐步提高业务对象的价值准确度，进而提升业务对象的推荐准确度。

下面给出更新所述第一参数和所述第二参数的过程的数学表达公式，以直观地说明模型更新处理方式。

在本实施例中，更新参数项(第一参数)的过程可采用如下数学表达：

其中，X_t表示第t次推荐时刻的第一特征数据集合(简称为新增的第一特征数据)，X_t-1表示第t-1次推荐时刻的第一特征数据集合(简称为历史的第一特征数据)，

表示用户在第t次推荐时刻浏览过的第一个业务对象的更新后的第一特征数据、与业务对象

在第t次推荐时刻的第一特征数据估计(如平均值)之间的差异，

表示表示用户在第t次推荐时刻浏览过的第O_t个业务对象的更新后的第一特征数据、与业务对象

在第t次推荐时刻的第一特征数据估计(如平均值)之间的差异。采用这种处理方式，使得仅根据用户浏览过的业务对象信息更新所述模型；因此，可以有效提升模型准确度，同时节约存储资源和计算资源。

其中，Y_t表示第t次推荐时刻的训练样本集合，Y_t-1表示第t-1次推荐时刻的训练样本集合，W_t(e)表示用户在第t次推荐时刻点击(或收藏等等)过业务对象e，ΔW_t(e)表示业务对象e在第t次推荐时刻的第二特征数据、与业务对象e在第t次推荐时刻的第二特征数据估计(如平均值)之间的差异。

其中，V_t表示第t次推荐时刻的累积矩阵，该矩阵中的元素表示两个业务对象之间的相关度，如V_i,j表示业务对象i和业务对象j之间的相关度，V_t-1表示第t-1次推荐时刻的累积矩阵，

表示在用户浏览过的业务对象中包括的两两业务对象之间的相关度之和。

其中，

表示第t次推荐时刻的参数项估计，该参数项估计由X_t和Y_t确定。在本实施例中，第一参数包括100个参数项，

为这100个参数项的估计值构成的列向量。

其中，β_t表示第t次推荐时刻的参数项半径。

综上所述，本实施例在每一个推荐时刻，根据采集到的用户反馈O_t和w_t，更新第一特征数据集合X_t、训练样本集合Y_t和累积矩阵V_t，通过岭回归估计参数

并计算更新后的参数项半径β_t。其中，O_t为所述浏览行为信息，w_t为所述操作行为信息。

在本实施例中，更新非参数项的过程可采用如下数学表达：

1)假设共向用户推荐L个业务对象，对于每个业务对象e，执行如下计算：

T_t(e)←T_t-1(e)，该公式含义是将业务对象e在第t-1次推荐时刻的第一特征数据作为业务对象e在第t次推荐时刻的第一特征数据的初始值。

2)对于k＝1,…,min{O_t,|A_t|}，其中|A_t|表示向用户推荐的业务对象数量，O_t表示用户浏览过的业务对象数量，执行如下计算：

该公式含义是将用户在第t次推荐时刻浏览过的第k个业务对象作为待处理的业务对象e。

T_t(e)←T_t(e)+1，该公式含义是将用户在第t次推荐时刻浏览过的业务对象e的第一特征数据(如商品在一天内被用户点击的次数等等)累加1。

该公式含义是业务对象e在第t次推荐时刻的非参项。

该公式含义是业务对象e在第t次推荐时刻的参数项特征均值。

综上所述，本实施例在每一个推荐时刻，根据用户反馈更新业务对象的统计价值

和特征均值

如图4所示，在本实施例中，在通过步骤S203更新所述模型后，还可以包括如下步骤：

步骤S401：根据更新前的第一参数和第二参数、及更新后的第一参数和第二参数，判断所述模型是否收敛。

在本实施例中，如果更新前的第一参数和更新后的第一参数之间的差异小于第一预设差异阈值，更新前的第二参数和更新后的第二参数之间的差异小于第二预设差异阈值，则判定所述模型收敛。

步骤S403：若上述判断结果为是，则停止更新所述模型。

如果判定所述模型收敛，则表示所述模型的各种参数已经相对稳定，可以正确评估业务对象的价值得分，从而使得推荐结果的准确度可以逐渐提升。在这种情况下，就可以停止搜集用户反馈信息，停止更新所述模型，以节省服务器的计算资源。

步骤S405：若上述判断结果为否，则继续更新所述模型。

如果判定所述模型未收敛，则表示所述模型的各种参数还未稳定，无法正确评估业务对象的价值得分，因而需要继续搜集用户反馈信息，继续更新所述模型的第一参数和第二参数，以使得逐步提升模型准确度，从而提升业务对象的价值评估准确度，进而提升推荐结果的准确度，使得推荐结果逐渐收敛。

本申请实施例提供的方法，采用如图2所示的在线方式更新所述模型，通过在每次向用户推荐业务对象后，实时采集用户反馈信息，根据用户反馈信息实时更新业务对象的用户行为特征数据，从而更新所述模型，以提升业务对象推荐的准确度；这种处理方式，使得实时搜集用户行为数据，快速累积业务对象的用户行为特征数据，使得用户行为特征数据的数值更加充足；因此，更适用于数据分布未知场景，如二手商品售卖场景。

具体实施时，也可以采用离线方式更新模型的处理方式，使得可利用商品已有的较为充足的用户行为特征数据，避免实时更新用户行为数据导致的占用较多计算资源，因此更适用于线性场景。

从应用时间角度而言，本申请实施例提供的方法不仅仅局限于业务对象冷启动的阶段，该阶段以在线方式更新所述模型，在该阶段后可以停止在线更新所述模型；该方法也同样适用于非业务对象冷启动的阶段，也就是说，可以适用于商品已投放一段时间且具有较为充足的用户交互行为数据的阶段，即始终搜集用户行为数据，根据实时用户行为数据更新模型。

如图5所示，在本实施例中，所述方法还可包括如下步骤：

步骤S501：初始化业务对象价值评估模型包括的第一参数和第二参数。

通过初始化所述模型，使得所述模型具备初始的业务对象价值评估能力，此时模型的价值评估准确度通常较低。随着在向用户进行多次业务对象推荐过程中，不断采集用户反馈信息，从而不断改进模型参数，进而逐渐提升推荐准确率，直至用户不再给出反馈信息，或者是直至模型收敛，即前后两次模型间差异趋于稳定。

请参考图6，其为本申请提供的一种业务对象推荐方法实施例的步骤S401的具体流程图。在本实施例中，初始化所述第一参数和第二参数的步骤，可包括如下子步骤：

步骤S5011：向用户展示至少一次候选业务对象。

所述至少一次候选业务对象，包括推荐系统可向用户推荐的所有业务对象。在本实施例中，推荐系统首先将系统内所有业务对象向用户客户端投放一次，以采集初始的用户反馈信息，即第二用户反馈信息。

步骤S5013：获取针对所述至少一次候选业务对象的第二用户反馈信息。

所述第二用户反馈信息，可包括用户对推荐系统向用户首次推荐的业务对象的操作行为信息，还可包括浏览行为信息。

步骤S5015：根据所述第二用户反馈信息生成所述模型的训练样本。

在本实施例中，首先根据所述操作行为信息更新所述用户行为特征数据，然后根据更新后的用户行为特征数据和所述浏览行为信息生成模型的初始训练样本。

步骤S5017：根据所述训练样本，确定初始化的第一参数和第二参数。

在生成所述模型的初始训练样本后，就可以根据初始训练样本确定所述第一参数和所述第二参数。

在本实施例中，初始化所述模型可包括如下具体步骤：1)将第一特征数据集合X₀和训练样本集合Y₀置为空集，将累积矩阵V₀置为单位阵，以及将参数项估计

置为0；2)投放所有商品各1次，并收集用户反馈，根据用户反馈初始化商品特征

与非参项统计

其中，

表示所有商品对象在初始时刻t₀的第一特征数据的平均值，

表示在初始时刻t₀的非参项统计。

从上述实施例可见，本申请实施例提供的业务对象推荐方法，通过业务对象价值评估模型包括的第一参数和第二参数，根据候选业务对象的第一特征数据确定所述候选业务对象的得分；根据所述得分确定向用户推荐的业务对象集；向所述客户端回送所述业务对象集；这种处理方式，使得将业务对象价值评估模型划分为参数化项和非参数化项，综合参数模型与非参模型评估特征分布未知的业务对象的价值，由于非参数化项使得模型能够拟合未知的业务对象特征分布，可以不断缩小参数模型与真实环境的差距；因此，可以有效提升特征分布未知的业务对象的价值准确度，从而使得单推荐时间步损失能够收敛，进而提升业务对象推荐的准确度。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种业务对象推荐方法，其特征在于，包括：

根据所述得分确定向用户推荐的业务对象集；

向客户端推送所述业务对象集。

2.根据权利要求1所述的方法，其特征在于，所述业务对象包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

获取针对所述业务对象集的第一用户反馈信息；

4.根据权利要求3所述的方法，其特征在于，

所述第一用户反馈信息包括用户对业务对象的操作行为信息和浏览行为信息。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一用户反馈信息更新所述第一参数和所述第二参数，包括：

根据所述操作行为信息更新所述用户行为特征数据；

6.根据权利要求3所述的方法，其特征在于，还包括：

若上述判断结果为是，则停止更新所述模型。

7.根据权利要求6所述的方法，其特征在于，还包括：

若上述判断结果为否，则继续更新所述模型。

8.根据权利要求1所述的方法，其特征在于，还包括：

初始化所述第一参数和第二参数。

9.根据权利要求8所述的方法，其特征在于，所述初始化所述第一参数和第二参数，包括：

向用户展示至少一次候选业务对象；

获取针对所述至少一次候选业务对象的第二用户反馈信息；

根据所述第二用户反馈信息生成所述模型的训练样本；

根据所述训练样本，确定初始化的第一参数和第二参数。

10.根据权利要求1所述的方法，其特征在于，

所述第一参数包括：线性机器学习模型的参数或非线性机器学习模型的参数；