CN110991464A

CN110991464A - 一种基于深度多模态数据融合的商品点击率预测方法

Info

Publication number: CN110991464A
Application number: CN201911087722.4A
Authority: CN
Inventors: 许勇; 陈佳辉; 全宇晖
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-04-10
Anticipated expiration: 2039-11-08
Also published as: CN110991464B

Abstract

本发明公开的一种基于深度多模态数据融合的商品点击率预测方法，包括以下步骤：获取商品点击率数据并进行预处理，得到预处理后的商品点击率数据；将预处理后的商品点击率数据进行特征提取，得到商品图片特征、商品文本特征、商品品牌特征；将提取的特征通过内部注意力机制得到加权的商品图片特征和加权的商文本特征，再通过图片和文本间注意力机制进行特征融合，得到商品特征；利用商品特征通过前馈神经网络进行商品点击率预测，得到商品预测结果；构建端到端模型，利用训练数据进行参数学习与更新；本发明很好地融合图片，文本以及品牌等多模态信息，形成有效的商品特征描述，可应用于商品点击率预测。

Description

一种基于深度多模态数据融合的商品点击率预测方法

技术领域

本发明涉及大数据处理的研究领域，特别涉及一种基于深度多模态数据融合的商品点击率预测方法。

背景技术

随着计算机技术的进步和互联网技术的发展，商品交易方式发生了一些根本性的变化，电子商务得到迅猛发展，致使人们的购物方式从实体商店购买转移到网络购物的方式，这种方式的改变成为不可阻挡的趋势。对于电商平台，其预上线商品种类日渐繁多，各种不同类型的商品数量日益激增，为了适应人们多变的时尚需求以及保证平台较好的盈利率，需要及时地从网络商店后台的品种繁多的海量商品数据中准确地检索出适合上线的商品。众多的品牌每天都在产生新的商品，平台需要决定是否将这个商品上线到本平台，以及如果要上线这个商品，需要备货多少等问题。在决策过程中，一个重要的影响决定的因素是这件商品的历史点击率。然而对于新商品来说，历史点击率是不存在的，只能依赖于专家经验进行决策，这无疑导致了新品的上线需要更多的成本。设计一个优秀的算法，使得这个算法能够及时地从网络商店后台的品种繁多的海量商品数据中准确地检索出适合上线的商品，将为电商平台创造更多的利益，也为消费者提供更好的购物体验。

新商品的选择面临着两个问题，第一个问题是产品本身的特征描述，在唯品会等电商平台上，用户首先看到的是产品的图片和标题，也就是图片特征和文本特征，如何有效的融合这两种不同的模态特征以形成对商品的有效描述是首要任务。除了商品的图片特征以及文本特征，商品所属的品牌也是一个重要的特征，品牌是制造商和经销商加在商品上的标志，对消费者的影响非常深远。第二个问题是如何获取用户群体对商品特征的偏爱，也就是刻画不同商品的流行度，以此来预估商品的点击率。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于深度多模态数据融合的商品点击率预测方法，通过对商品的多模态数据的融合，并使得融合后得到的特征能更好地反映其点击率，提升商品点击率预测的效果。

本发明的目的通过以下的技术方案实现：

一种基于深度多模态数据融合的商品点击率预测方法，包括以下步骤：

获取商品点击率数据并进行预处理，得到预处理后的商品点击率数据；

将预处理后的商品点击率数据进行特征提取，得到商品图片特征、商品文本特征、商品品牌特征；

将提取的特征通过内部注意力机制得到加权的商品图片特征和加权的商文本特征，再通过图片和文本间注意力机制进行特征融合，得到商品特征；

利用商品特征通过前馈神经网络进行商品点击率预测，得到商品预测结果；

构建端到端模型，利用训练数据进行参数学习与更新。

进一步地，所述商品点击率数据包括商品图片、商品文本、商品品牌，商品点击率；所述进行预处理商品图片预处理，商品文本预处理，商品点击率预处理。

进一步地，所述商品图片预处理具体为：将商品图片进行统一缩放大小；所述商品文本预处理具体为：使用中文分词工具进行分词处理，去除停用词与低频词；所述商品点击率预处理具体为：对商品点击率进行变换，即原始商品点击率加1后再取对数，得到变换后的商品点击率。

进一步地，所述特征提取包括商品图片特征提取、商品文本特征提取、商品品牌特征提取；其中，对于商品图片特征提取具体如下：通过大数据集ImageNet预训练VGGNet16模型，通过预训练好的VGGNet16模型进行商品图片特征提取，取其最后一层池化层的输出作为特征，最后一层池化层的输出为7×7×512的张量，对该张量进行变化，得到49×512的特征矩阵，记为：

V＝[v₁,…,v_m]，

其中，

指的是图片区域的特征表示，d为特征维度，m为图片区域个数；

对于商品文本特征提取具体如下：将商品文本数据表示为：

其中，w_t为第t位置上的独热编码，1≤t≤l，l为商品描述总长度；

将所有词的独热编码进行拼接，得到独热编码商品文本特征：

W＝[w₁,…,w_l]，

其中，

为t位置上的独热编码，1≤t≤l，L为所有词个数；

对于独热编码，通过词嵌入进行降维，同时使用长短时记忆力模型对商品文本进行编码，将长短时记忆力模型的隐藏层状态作为商品文本特征：

H＝[h₁,…,h_l]，

其中，

指的是长短时记忆力模型在l位置上的隐藏层状态；

对于商品品牌特征提取具体如下：通过独热编码得到独热编码商品品牌特征，通过词嵌入进行降维，得到商品品牌特征b，

进一步地，所述将提取的特征通过内部注意力机制与图片和文本间注意力机制进行特征融合，得到商品特征，内部注意力机制具体如下：

内部注意力机制用于获取商品图片特征和商品文本特征，其中，商品图片特征的注意力计算如下：

利用商品文本特征和商品品牌特征对不同区域的商品图片特征进行加权平均：

其中，r_V,m为区域m的重要程度，即注意力大小；tanh为激活函数，v_m为商品图片特征，b为商品品牌特征，

为平均商品文本特征；

是对商品图片特征v_m进行线性变换的权重矩阵，

是对品牌特征b进行线性变换的权重矩阵，

是对文本特征

进行线性变换的权重矩阵，

是将经过激活函数的特征和变换为注意力大小的权重矩阵。e是自然底数，用于计算激活函数的值，即

分别为将商品图片特征、商品品牌特征、商品文本特征进行线性换，使其映射到同一个向量空间中再进行求和，经过激活函数后，再利用

将其变换为注意力大小；

利用softmax函数对注意力值进行归一化，得到商品图片特征的注意力概率分布：

a_V＝softmax(r_V)，

其中，r_V为各个区域的注意力大小r_V,m构成的向量，a_V为各个区域最后的注意力的向量，其值与r_V大小相等，a_V其各个元素的和为1；

根据商品图片特征的注意力概率分布，得到加权的商品图片特征

其中，v_m为图片对应区域m的特征，即商品图片特征，a_V,m为对应区域的注意力；

商品文本特征的注意力计算如下：

对商品文本特征进行加权平均：

其中，r_T,t为t位置上的单词重要程度，即注意力大小；h_t为位置上的文本特征，b为商品品牌特征，

为平均商品图片特征，

是对图片特征

进行线性变换的权重矩阵，

是对品牌特征b进行线性变换的权重矩阵，

是对文本特征h_t进行线性变换的权重矩阵，

是将经过激活函数的特征和变换为注意力大小的权重矩阵，即

分别将商品图片特征、商品品牌特征、商品文本特征进行线性变换，使它们映射到同一个向量空间中再进行求和，经过激活函数，在利用

将其变换为注意力大小；

利用softmax函数对注意力值进行归一化，得到商品文本特征的注意力概率分布，则有:

a_T＝softmax(r_T),

其中，r_T为各个位置的注意力大小r_T,t构成的向量，a_T为各个区域最后的注意力的向量，其值与大小相等，其各个元素的和为1；

根据商品文本特征的注意力概率分布，得到加权的商品文本特征

其中，h_t为对应位置的文本特征，a_T,t为对应位置的注意力。

进一步地，所述将提取的特征通过内部注意力机制与图片和文本间注意力机制进行特征融合，得到商品特征，图片和文本间注意力机制具体如下：

用a₁和a₂分别表示商品图片特征注意力大小和商品文本特征注意力大小，则有：

其中，bv为商品品牌与商品图片特征的相关度，bt为商品品牌与商品文本特征的相关度，b为商品品牌特征，

是对商品文本特征

进行线性变换的权重矩阵，

是对商品图片特征

进行线性变换的权重矩阵，

是对商品品牌特征进行线性变换的权重矩阵，

是将经过激活函数的特征和变换为注意力大小的权重矩阵。

进一步地，所述特征融合具体为：加权的商品图片特征与加权的商品文本特征根据注意力融合得到商品图文特征s：

其中，a₁表示商品图片特征注意力大小，a₂商品文本特征注意力大小，

为加权的商品图片特征，

加权的商品文本特征；

对商品品牌特征进行线性变换，线性变换后的商品品牌特征与图文特征进行融合得到商品特征：

r:＝s+W_b′b，

其中，

是模型的参数，对品牌特征进行线性变换，b为商品品牌特征。

进一步地，所述利用商品特征通过前馈神经网络进行商品点击率预测，得到商品预测结果，具体为：

利用商品特征，通过前馈神经网络进行点击率预测，计算如下：

其中，

为点击率预测值，ReLU为激活函数，

为前馈神经网络输入层到隐藏层的第一参数，

为前馈神经网络输入层到隐藏层的第二参数，

为前馈神经网络隐藏层到输出层的第一参数，

为前馈神经网络隐藏层到输出层的第二参数，

将点击率预测作为一个回归问题，采用均方误差作为损失函数，则有：

其中，L为损失值，N为样本个数，y_i为真实的变换后点击率，

为模型的点击率预测值。

进一步地，所述构建端到端模型，利用训练数据进行参数学习与更新，具体为：

将商品文本特征提取的LSTM部分，商品品牌嵌入层部分，商品品牌引导层次注意力网络部分以及点击率预测部分联合，构成端到端的基于深度多模态数据融合的商品点击率预测模型，在训练数据集上利用随机梯度下降法进行模型参数学习，直到模型收敛。

本发明与现有技术相比，具有如下优点和有益效果：

本发明综合考虑了商品的多种信息，达到了预测新商品点击率的目的，又通过品牌引导的层次注意力网络模型来对多模态特征进行融合，有效地提取了能够反映商品点击率的特征；利用在大数据集上预训练好的卷积神经网络模型进行图片特征提取，既保证了特征的有效性，又降低了训练的时间复杂度。

附图说明

图1为本发明所述一种基于深度多模态数据融合的商品点击率预测方法流程图；

图2为本发明所述实施例中商品图片特征提取示意图；

图3为本发明所述实施例中商品文本特征提取示意图；

图4为本发明所述实施例中商品品牌引导的层次注意力网络模型结构图；

图5为本发明所述实施例中前馈神经网络结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

一种基于深度多模态数据融合的商品点击率预测方法，如图1所示，包括以下步骤：输入商品图片，商品文本，商品品牌，首先进行商品图片特征提取，商品文本特征提取，商品品牌特征提取，再进行特征融合，最后进行点击率预测。其中商品图片特征提取由预训练好的VGGNet16完成，商品文本特征由LSTM进行提取，商品品牌特征简单地通过词嵌入进行向量化。提取了三种特征后，用所提出的商品品牌引导的层次网络注意力模型进行特征融合。将融合后的特征输入到一个前馈神经网络中便可以得到最后的点击率。

具体如下：

1、数据准备；

需要准备的数据主要是构建商品的原始数据与标签。在电商平台上收集足够的数据作为训练集，每个样本包括商品图片，商品标题，商品品牌，商品曝光数，商品点击数。由于卷积神经网络要求输入图片具有相同的大小，所以需要先对商品图片缩放处理，统一缩放到224×224×3的大小。对于商品标题，需要用结巴分词等中文分词工具先进行分词处理，然后去掉诸如“的”之类的停用词，对于一些出现频次较低的词，由于训练不充分，会造成模型表达能力的下降，也需要一并去除。标签指的是商品点击率，是商品点击数与商品曝光数的比值。由于原始点击率通常都很小，并且为长尾分布，这对于模型学习来说非常不利，所以需要对点击率进行变换以便于学习，常用的方法是原始点击率加1后再取对数。最后训练集中的每一个样本包含这样的一个四元组：商品图片，商品标题，商品品牌，变换后的商品点击率。

2、特征提取；

输入的商品数据并不适合直接进行融合，需要先进行特征提取，将各种数据映射到连续的向量空间。对于图片，用在大数据集ImageNet上预训练好的VGGNet16模型进行特征提取，取最后一层池化层的输出作为特征，如图2所示。最后一层的输出是一个7×7×512的张量，为了后续操作，需要先将其进行变换，得到一个49×512的特征矩阵，记为：

V＝[v₁,…,v_m]，

其中，

指的是图片区域的特征表示，d为特征维度，m为图片区域个数，这里取值为49；

对于商品文本特征提取具体如下：将商品文本数据表示为：

其中，w_t为第t位置上的独热编码，l为商品描述总长度；

W＝[w₁,…,w_l]，

其中，

为t位置上的独热编码，1≤t≤l，L为所有词个数；

对于独热编码，其维度太高不适合学习，通过词嵌入进行降维，同时使用长短时记忆力模型对商品文本进行编码，将长短时记忆力模型的隐藏层状态作为商品文本特征，如图3所示：

H＝[h₁,…,h_l]，

其中，

指的是长短时记忆力模型在l位置上的隐藏层状态；

对于商品品牌特征提取具体如下：通过独热编码得到独热编码商品品牌特征，商品品牌是一个离散变量，利用独热编码可以很好的获得品牌特征，但存在维度太大的问题，同样可以通过词嵌入的方式进行降维处理，通过词嵌入进行降维，得到商品品牌特征b，

3、品牌引导的层次注意力网络；

如图4所示，运用一个品牌引导的层次注意力网络来满足多模态数据融合的任务要求。主要由两种注意力机制组成，分别为内部注意力机制以及图片和文本间的注意力机制。

内部注意力机制:这种注意力机制用以获得文本特征和图片特征，包含两次注意力计算，一次用于图片特征再提取，一次用于文本特征再提取。但是，应该强调的是，每种模态的注意力计算都是基于多模态嵌入关联方案，该方案同时涉及商品品牌，商品图片和商品文本特征。

1)商品图片特征的注意力计算：注意到在前面VGGNet16处理后得到的图片特征对应着图片的多个区域的特征，为了最后与用户特征的结合，需要先将这多个区域的特征进行融合，这是同一个模态的数据进行融合，在没有其他数据的情况下一般采取池化操作，比如最大值池化以及平均池化等。但在这里，为了充分发挥多模态数据的作用，利用商品文本特征和商品品牌特征，来对不同区域的商品图片特征进行加权平均，这里的权重就是注意力，为了利用文本特征来指导生成商品图片特征，可以首先用一个较简单的方法，直接平均来提取进一步的商品文本特征。商品图片特征的注意力计算如下面方程所示：

为平均商品文本特征；

是对商品图片特征v_m进行线性变换的权重矩阵，

是对品牌特征b进行线性变换的权重矩阵，

是对文本特征

进行线性变换的权重矩阵，

将其变换为注意力大小；

对上述等式的直观解释是可以将其视为计算每个视觉区域与用户和文本嵌入的相关性。因此，用户和文本可以引导视觉模态的注意力学习，并指示哪个图像区域对于揭示商品点击率是重要的。

a_V＝softmax(r_V)，

其中，v_m为图片对应区域m的特征，a_V,m为对应区域的注意力；

商品文本特征的注意力计算，同样，前面LSTM编码得到的文本特征包含着多个隐藏层状态。为了充分利用文本特征，需要将多个隐藏层状态进行充分考虑，也就是说对文本特征进行加权平均。文本的注意力计算与图片的注意力计算类似，在计算时也同样考虑其他两种数据，图片与品牌的影响，商品文本特征的注意力计算如下：

为平均商品图片特征，

是对图片特征

进行线性变换的权重矩阵，

是对品牌特征b进行线性变换的权重矩阵，

是对文本特征h_t进行线性变换的权重矩阵，

将其变换为注意力大小；

对上述等式的直观解释是可以将其视为计算每个单词与用户和图片特征的相关性。因此，品牌和图片可以引导文本模态的注意力学习，并指示哪个词对于揭示商品点击率是重要的。

a_T＝softmax(r_T),

图片和文本间注意力机制，经过内部注意力后，获得了最后的图片特征

文本特征

以及之前的品牌特征

而图片文本间的注意力机制要做的就是将图片特征和文本特征融合起来，并利用品牌特征来指导特征融合。之所以利用品牌来指导图片特征和文本特征的融合，主要原因在于不同的品牌对其发布商品的文本和图片具有不同的集中度。注意力的不平衡可能使这两种特征对商品点击率的影响不同。用a₁和a₂来分别表示图片特征和文本特征的注意力大小，并满足a₁+a₂＝1，具体如下：

是对商品文本特征

进行线性变换的权重矩阵，

是对商品图片特征

进行线性变换的权重矩阵，

是对商品品牌特征进行线性变换的权重矩阵，

是将经过激活函数的特征和变换为注意力大小的权重矩阵。

品牌特征与图文特征融合：由于品牌特征对商品点击率的重大影响，最后的商品特征由图文特征s以及品牌特征u相加得到，首先对品牌特征做一个线性变换，以保证图文特征与品牌特征映射到相同的向量空间，再将变换后的品牌特征与图文特征相加。

加权的商品图片特征与加权的商品文本特征根据注意力融合得到商品图文特征s：

为加权的商品图片特征，

加权的商品文本特征；

r:＝s+W_b′b，

其中，

4、点击率预测

利用商品特征通过前馈神经网络进行商品点击率预测，得到商品预测结果，具体为：

利用商品特征，通过一个简单的2层前馈神经网络来实现最后的点击率预测，如图5所示。这样既可以保证模型不至于太复杂，又保证了足够的非线性建模能力，计算如下：

其中，

为点击率预测值，ReLU为激活函数，

为前馈神经网络输入层到隐藏层的第一参数，

为前馈神经网络输入层到隐藏层的第二参数，

为前馈神经网络隐藏层到输出层的第一参数，

为前馈神经网络隐藏层到输出层的第二参数，

为模型的点击率预测值。

5、模型训练：

构建端到端模型，利用训练数据进行参数学习与更新，具体为：

将图片特征提取的VGGNet16部分参数固定，不进行学习，将商品文本特征提取的LSTM部分，商品品牌嵌入层部分，商品品牌引导层次注意力网络部分以及点击率预测部分联合，构成端到端的基于深度多模态数据融合的商品点击率预测模型，在训练数据集上利用随机梯度下降法进行模型参数学习，直到模型收敛。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度多模态数据融合的商品点击率预测方法，其特征在于，包括以下步骤：

构建端到端模型，利用训练数据进行参数学习与更新。

2.根据权利要求1所述的一种深度多模态数据融合的商品点击率预测方法，其特征在于，所述商品点击率数据包括商品图片、商品文本、商品品牌，商品点击率；所述进行预处理商品图片预处理，商品文本预处理，商品点击率预处理。

3.根据权利要求2所述的一种深度多模态数据融合的商品点击率预测方法，其特征在于，所述商品图片预处理具体为：将商品图片进行统一缩放大小；所述商品文本预处理具体为：使用中文分词工具进行分词处理，去除停用词与低频词；所述商品点击率预处理具体为：对商品点击率进行变换，即原始商品点击率加1后再取对数，得到变换后的商品点击率。

4.根据权利要求1所述的一种深度多模态数据融合的商品点击率预测方法，其特征在于，所述特征提取包括商品图片特征提取、商品文本特征提取、商品品牌特征提取；其中，对于商品图片特征提取具体如下：通过大数据集ImageNet预训练VGGNet16模型，通过预训练好的VGGNet16模型进行商品图片特征提取，取其最后一层池化层的输出作为特征，最后一层池化层的输出为7×7×512的张量，对该张量进行变化，得到49×512的特征矩阵，记为：

V＝[v₁,…,v_m]，

其中，