Nothing Special   »   [go: up one dir, main page]

CN110991464A - 一种基于深度多模态数据融合的商品点击率预测方法 - Google Patents

一种基于深度多模态数据融合的商品点击率预测方法 Download PDF

Info

Publication number
CN110991464A
CN110991464A CN201911087722.4A CN201911087722A CN110991464A CN 110991464 A CN110991464 A CN 110991464A CN 201911087722 A CN201911087722 A CN 201911087722A CN 110991464 A CN110991464 A CN 110991464A
Authority
CN
China
Prior art keywords
commodity
text
picture
attention
click rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911087722.4A
Other languages
English (en)
Other versions
CN110991464B (zh
Inventor
许勇
陈佳辉
全宇晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201911087722.4A priority Critical patent/CN110991464B/zh
Publication of CN110991464A publication Critical patent/CN110991464A/zh
Application granted granted Critical
Publication of CN110991464B publication Critical patent/CN110991464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开的一种基于深度多模态数据融合的商品点击率预测方法,包括以下步骤:获取商品点击率数据并进行预处理,得到预处理后的商品点击率数据;将预处理后的商品点击率数据进行特征提取,得到商品图片特征、商品文本特征、商品品牌特征;将提取的特征通过内部注意力机制得到加权的商品图片特征和加权的商文本特征,再通过图片和文本间注意力机制进行特征融合,得到商品特征;利用商品特征通过前馈神经网络进行商品点击率预测,得到商品预测结果;构建端到端模型,利用训练数据进行参数学习与更新;本发明很好地融合图片,文本以及品牌等多模态信息,形成有效的商品特征描述,可应用于商品点击率预测。

Description

一种基于深度多模态数据融合的商品点击率预测方法
技术领域
本发明涉及大数据处理的研究领域,特别涉及一种基于深度多模态数据融合的商品点击率预测方法。
背景技术
随着计算机技术的进步和互联网技术的发展,商品交易方式发生了一些根本性的变化,电子商务得到迅猛发展,致使人们的购物方式从实体商店购买转移到网络购物的方式,这种方式的改变成为不可阻挡的趋势。对于电商平台,其预上线商品种类日渐繁多,各种不同类型的商品数量日益激增,为了适应人们多变的时尚需求以及保证平台较好的盈利率,需要及时地从网络商店后台的品种繁多的海量商品数据中准确地检索出适合上线的商品。众多的品牌每天都在产生新的商品,平台需要决定是否将这个商品上线到本平台,以及如果要上线这个商品,需要备货多少等问题。在决策过程中,一个重要的影响决定的因素是这件商品的历史点击率。然而对于新商品来说,历史点击率是不存在的,只能依赖于专家经验进行决策,这无疑导致了新品的上线需要更多的成本。设计一个优秀的算法,使得这个算法能够及时地从网络商店后台的品种繁多的海量商品数据中准确地检索出适合上线的商品,将为电商平台创造更多的利益,也为消费者提供更好的购物体验。
新商品的选择面临着两个问题,第一个问题是产品本身的特征描述,在唯品会等电商平台上,用户首先看到的是产品的图片和标题,也就是图片特征和文本特征,如何有效的融合这两种不同的模态特征以形成对商品的有效描述是首要任务。除了商品的图片特征以及文本特征,商品所属的品牌也是一个重要的特征,品牌是制造商和经销商加在商品上的标志,对消费者的影响非常深远。第二个问题是如何获取用户群体对商品特征的偏爱,也就是刻画不同商品的流行度,以此来预估商品的点击率。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于深度多模态数据融合的商品点击率预测方法,通过对商品的多模态数据的融合,并使得融合后得到的特征能更好地反映其点击率,提升商品点击率预测的效果。
本发明的目的通过以下的技术方案实现:
一种基于深度多模态数据融合的商品点击率预测方法,包括以下步骤:
获取商品点击率数据并进行预处理,得到预处理后的商品点击率数据;
将预处理后的商品点击率数据进行特征提取,得到商品图片特征、商品文本特征、商品品牌特征;
将提取的特征通过内部注意力机制得到加权的商品图片特征和加权的商文本特征,再通过图片和文本间注意力机制进行特征融合,得到商品特征;
利用商品特征通过前馈神经网络进行商品点击率预测,得到商品预测结果;
构建端到端模型,利用训练数据进行参数学习与更新。
进一步地,所述商品点击率数据包括商品图片、商品文本、商品品牌,商品点击率;所述进行预处理商品图片预处理,商品文本预处理,商品点击率预处理。
进一步地,所述商品图片预处理具体为:将商品图片进行统一缩放大小;所述商品文本预处理具体为:使用中文分词工具进行分词处理,去除停用词与低频词;所述商品点击率预处理具体为:对商品点击率进行变换,即原始商品点击率加1后再取对数,得到变换后的商品点击率。
进一步地,所述特征提取包括商品图片特征提取、商品文本特征提取、商品品牌特征提取;其中,对于商品图片特征提取具体如下:通过大数据集ImageNet预训练VGGNet16模型,通过预训练好的VGGNet16模型进行商品图片特征提取,取其最后一层池化层的输出作为特征,最后一层池化层的输出为7×7×512的张量,对该张量进行变化,得到49×512的特征矩阵,记为:
V=[v1,…,vm],
其中,
Figure BDA0002265937120000021
指的是图片区域的特征表示,d为特征维度,m为图片区域个数;
对于商品文本特征提取具体如下:将商品文本数据表示为:
Figure BDA0002265937120000022
其中,wt为第t位置上的独热编码,1≤t≤l,l为商品描述总长度;
将所有词的独热编码进行拼接,得到独热编码商品文本特征:
W=[w1,…,wl],
其中,
Figure BDA0002265937120000023
为t位置上的独热编码,1≤t≤l,L为所有词个数;
对于独热编码,通过词嵌入进行降维,同时使用长短时记忆力模型对商品文本进行编码,将长短时记忆力模型的隐藏层状态作为商品文本特征:
H=[h1,…,hl],
其中,
Figure BDA0002265937120000031
指的是长短时记忆力模型在l位置上的隐藏层状态;
对于商品品牌特征提取具体如下:通过独热编码得到独热编码商品品牌特征,通过词嵌入进行降维,得到商品品牌特征b,
Figure BDA0002265937120000032
进一步地,所述将提取的特征通过内部注意力机制与图片和文本间注意力机制进行特征融合,得到商品特征,内部注意力机制具体如下:
内部注意力机制用于获取商品图片特征和商品文本特征,其中,商品图片特征的注意力计算如下:
利用商品文本特征和商品品牌特征对不同区域的商品图片特征进行加权平均:
Figure BDA0002265937120000033
其中,rV,m为区域m的重要程度,即注意力大小;tanh为激活函数,vm为商品图片特征,b为商品品牌特征,
Figure BDA0002265937120000035
为平均商品文本特征;
Figure BDA0002265937120000036
是对商品图片特征vm进行线性变换的权重矩阵,
Figure BDA0002265937120000037
是对品牌特征b进行线性变换的权重矩阵,
Figure BDA0002265937120000038
是对文本特征
Figure BDA0002265937120000039
进行线性变换的权重矩阵,
Figure BDA00022659371200000310
是将经过激活函数的特征和变换为注意力大小的权重矩阵。e是自然底数,用于计算激活函数的值,即
Figure BDA00022659371200000311
分别为将商品图片特征、商品品牌特征、商品文本特征进行线性换,使其映射到同一个向量空间中再进行求和,经过激活函数后,再利用
Figure BDA00022659371200000312
将其变换为注意力大小;
利用softmax函数对注意力值进行归一化,得到商品图片特征的注意力概率分布:
aV=softmax(rV),
其中,rV为各个区域的注意力大小rV,m构成的向量,aV为各个区域最后的注意力的向量,其值与rV大小相等,aV其各个元素的和为1;
根据商品图片特征的注意力概率分布,得到加权的商品图片特征
Figure BDA00022659371200000314
Figure BDA00022659371200000313
其中,vm为图片对应区域m的特征,即商品图片特征,aV,m为对应区域的注意力;
商品文本特征的注意力计算如下:
对商品文本特征进行加权平均:
Figure BDA0002265937120000041
其中,rT,t为t位置上的单词重要程度,即注意力大小;ht为位置上的文本特征,b为商品品牌特征,
Figure BDA0002265937120000042
为平均商品图片特征,
Figure BDA0002265937120000043
是对图片特征
Figure BDA0002265937120000044
进行线性变换的权重矩阵,
Figure BDA0002265937120000045
是对品牌特征b进行线性变换的权重矩阵,
Figure BDA0002265937120000046
是对文本特征ht进行线性变换的权重矩阵,
Figure BDA0002265937120000047
是将经过激活函数的特征和变换为注意力大小的权重矩阵,即
Figure BDA0002265937120000048
Figure BDA0002265937120000049
分别将商品图片特征、商品品牌特征、商品文本特征进行线性变换,使它们映射到同一个向量空间中再进行求和,经过激活函数,在利用
Figure BDA00022659371200000410
将其变换为注意力大小;
利用softmax函数对注意力值进行归一化,得到商品文本特征的注意力概率分布,则有:
aT=softmax(rT),
其中,rT为各个位置的注意力大小rT,t构成的向量,aT为各个区域最后的注意力的向量,其值与大小相等,其各个元素的和为1;
根据商品文本特征的注意力概率分布,得到加权的商品文本特征
Figure BDA00022659371200000418
Figure BDA00022659371200000411
其中,ht为对应位置的文本特征,aT,t为对应位置的注意力。
进一步地,所述将提取的特征通过内部注意力机制与图片和文本间注意力机制进行特征融合,得到商品特征,图片和文本间注意力机制具体如下:
用a1和a2分别表示商品图片特征注意力大小和商品文本特征注意力大小,则有:
Figure BDA00022659371200000412
Figure BDA00022659371200000413
Figure BDA00022659371200000414
Figure BDA00022659371200000415
其中,bv为商品品牌与商品图片特征的相关度,bt为商品品牌与商品文本特征的相关度,b为商品品牌特征,
Figure BDA00022659371200000416
是对商品文本特征
Figure BDA00022659371200000417
进行线性变换的权重矩阵,
Figure BDA0002265937120000051
是对商品图片特征
Figure BDA00022659371200000520
进行线性变换的权重矩阵,
Figure BDA0002265937120000052
是对商品品牌特征进行线性变换的权重矩阵,
Figure BDA0002265937120000053
是将经过激活函数的特征和变换为注意力大小的权重矩阵。
进一步地,所述特征融合具体为:加权的商品图片特征与加权的商品文本特征根据注意力融合得到商品图文特征s:
Figure BDA0002265937120000054
其中,a1表示商品图片特征注意力大小,a2商品文本特征注意力大小,
Figure BDA0002265937120000055
为加权的商品图片特征,
Figure BDA0002265937120000056
加权的商品文本特征;
对商品品牌特征进行线性变换,线性变换后的商品品牌特征与图文特征进行融合得到商品特征:
r:=s+Wb′b,
其中,
Figure BDA0002265937120000057
是模型的参数,对品牌特征进行线性变换,b为商品品牌特征。
进一步地,所述利用商品特征通过前馈神经网络进行商品点击率预测,得到商品预测结果,具体为:
利用商品特征,通过前馈神经网络进行点击率预测,计算如下:
Figure BDA0002265937120000058
其中,
Figure BDA0002265937120000059
为点击率预测值,ReLU为激活函数,
Figure BDA00022659371200000510
为前馈神经网络输入层到隐藏层的第一参数,
Figure BDA00022659371200000511
Figure BDA00022659371200000512
为前馈神经网络输入层到隐藏层的第二参数,
Figure BDA00022659371200000513
Figure BDA00022659371200000514
为前馈神经网络隐藏层到输出层的第一参数,
Figure BDA00022659371200000515
Figure BDA00022659371200000516
为前馈神经网络隐藏层到输出层的第二参数,
Figure BDA00022659371200000517
将点击率预测作为一个回归问题,采用均方误差作为损失函数,则有:
Figure BDA00022659371200000518
其中,L为损失值,N为样本个数,yi为真实的变换后点击率,
Figure BDA00022659371200000519
为模型的点击率预测值。
进一步地,所述构建端到端模型,利用训练数据进行参数学习与更新,具体为:
将商品文本特征提取的LSTM部分,商品品牌嵌入层部分,商品品牌引导层次注意力网络部分以及点击率预测部分联合,构成端到端的基于深度多模态数据融合的商品点击率预测模型,在训练数据集上利用随机梯度下降法进行模型参数学习,直到模型收敛。
本发明与现有技术相比,具有如下优点和有益效果:
本发明综合考虑了商品的多种信息,达到了预测新商品点击率的目的,又通过品牌引导的层次注意力网络模型来对多模态特征进行融合,有效地提取了能够反映商品点击率的特征;利用在大数据集上预训练好的卷积神经网络模型进行图片特征提取,既保证了特征的有效性,又降低了训练的时间复杂度。
附图说明
图1为本发明所述一种基于深度多模态数据融合的商品点击率预测方法流程图;
图2为本发明所述实施例中商品图片特征提取示意图;
图3为本发明所述实施例中商品文本特征提取示意图;
图4为本发明所述实施例中商品品牌引导的层次注意力网络模型结构图;
图5为本发明所述实施例中前馈神经网络结构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
一种基于深度多模态数据融合的商品点击率预测方法,如图1所示,包括以下步骤:输入商品图片,商品文本,商品品牌,首先进行商品图片特征提取,商品文本特征提取,商品品牌特征提取,再进行特征融合,最后进行点击率预测。其中商品图片特征提取由预训练好的VGGNet16完成,商品文本特征由LSTM进行提取,商品品牌特征简单地通过词嵌入进行向量化。提取了三种特征后,用所提出的商品品牌引导的层次网络注意力模型进行特征融合。将融合后的特征输入到一个前馈神经网络中便可以得到最后的点击率。
具体如下:
1、数据准备;
需要准备的数据主要是构建商品的原始数据与标签。在电商平台上收集足够的数据作为训练集,每个样本包括商品图片,商品标题,商品品牌,商品曝光数,商品点击数。由于卷积神经网络要求输入图片具有相同的大小,所以需要先对商品图片缩放处理,统一缩放到224×224×3的大小。对于商品标题,需要用结巴分词等中文分词工具先进行分词处理,然后去掉诸如“的”之类的停用词,对于一些出现频次较低的词,由于训练不充分,会造成模型表达能力的下降,也需要一并去除。标签指的是商品点击率,是商品点击数与商品曝光数的比值。由于原始点击率通常都很小,并且为长尾分布,这对于模型学习来说非常不利,所以需要对点击率进行变换以便于学习,常用的方法是原始点击率加1后再取对数。最后训练集中的每一个样本包含这样的一个四元组:商品图片,商品标题,商品品牌,变换后的商品点击率。
2、特征提取;
输入的商品数据并不适合直接进行融合,需要先进行特征提取,将各种数据映射到连续的向量空间。对于图片,用在大数据集ImageNet上预训练好的VGGNet16模型进行特征提取,取最后一层池化层的输出作为特征,如图2所示。最后一层的输出是一个7×7×512的张量,为了后续操作,需要先将其进行变换,得到一个49×512的特征矩阵,记为:
V=[v1,…,vm],
其中,
Figure BDA0002265937120000071
指的是图片区域的特征表示,d为特征维度,m为图片区域个数,这里取值为49;
对于商品文本特征提取具体如下:将商品文本数据表示为:
Figure BDA0002265937120000072
其中,wt为第t位置上的独热编码,l为商品描述总长度;
将所有词的独热编码进行拼接,得到独热编码商品文本特征:
W=[w1,…,wl],
其中,
Figure BDA0002265937120000073
为t位置上的独热编码,1≤t≤l,L为所有词个数;
对于独热编码,其维度太高不适合学习,通过词嵌入进行降维,同时使用长短时记忆力模型对商品文本进行编码,将长短时记忆力模型的隐藏层状态作为商品文本特征,如图3所示:
H=[h1,…,hl],
其中,
Figure BDA0002265937120000074
指的是长短时记忆力模型在l位置上的隐藏层状态;
对于商品品牌特征提取具体如下:通过独热编码得到独热编码商品品牌特征,商品品牌是一个离散变量,利用独热编码可以很好的获得品牌特征,但存在维度太大的问题,同样可以通过词嵌入的方式进行降维处理,通过词嵌入进行降维,得到商品品牌特征b,
Figure BDA0002265937120000075
3、品牌引导的层次注意力网络;
如图4所示,运用一个品牌引导的层次注意力网络来满足多模态数据融合的任务要求。主要由两种注意力机制组成,分别为内部注意力机制以及图片和文本间的注意力机制。
内部注意力机制:这种注意力机制用以获得文本特征和图片特征,包含两次注意力计算,一次用于图片特征再提取,一次用于文本特征再提取。但是,应该强调的是,每种模态的注意力计算都是基于多模态嵌入关联方案,该方案同时涉及商品品牌,商品图片和商品文本特征。
1)商品图片特征的注意力计算:注意到在前面VGGNet16处理后得到的图片特征对应着图片的多个区域的特征,为了最后与用户特征的结合,需要先将这多个区域的特征进行融合,这是同一个模态的数据进行融合,在没有其他数据的情况下一般采取池化操作,比如最大值池化以及平均池化等。但在这里,为了充分发挥多模态数据的作用,利用商品文本特征和商品品牌特征,来对不同区域的商品图片特征进行加权平均,这里的权重就是注意力,为了利用文本特征来指导生成商品图片特征,可以首先用一个较简单的方法,直接平均来提取进一步的商品文本特征。商品图片特征的注意力计算如下面方程所示:
Figure BDA0002265937120000081
Figure BDA0002265937120000082
其中,rV,m为区域m的重要程度,即注意力大小;tanh为激活函数,vm为商品图片特征,b为商品品牌特征,
Figure BDA0002265937120000083
为平均商品文本特征;
Figure BDA0002265937120000084
是对商品图片特征vm进行线性变换的权重矩阵,
Figure BDA0002265937120000085
是对品牌特征b进行线性变换的权重矩阵,
Figure BDA0002265937120000086
是对文本特征
Figure BDA0002265937120000087
进行线性变换的权重矩阵,
Figure BDA0002265937120000088
是将经过激活函数的特征和变换为注意力大小的权重矩阵。e是自然底数,用于计算激活函数的值,即
Figure BDA0002265937120000089
分别为将商品图片特征、商品品牌特征、商品文本特征进行线性换,使其映射到同一个向量空间中再进行求和,经过激活函数后,再利用
Figure BDA00022659371200000810
将其变换为注意力大小;
对上述等式的直观解释是可以将其视为计算每个视觉区域与用户和文本嵌入的相关性。因此,用户和文本可以引导视觉模态的注意力学习,并指示哪个图像区域对于揭示商品点击率是重要的。
利用softmax函数对注意力值进行归一化,得到商品图片特征的注意力概率分布:
aV=softmax(rV),
其中,rV为各个区域的注意力大小rV,m构成的向量,aV为各个区域最后的注意力的向量,其值与rV大小相等,aV其各个元素的和为1;
根据商品图片特征的注意力概率分布,得到加权的商品图片特征
Figure BDA00022659371200000913
Figure BDA0002265937120000091
其中,vm为图片对应区域m的特征,aV,m为对应区域的注意力;
商品文本特征的注意力计算,同样,前面LSTM编码得到的文本特征包含着多个隐藏层状态。为了充分利用文本特征,需要将多个隐藏层状态进行充分考虑,也就是说对文本特征进行加权平均。文本的注意力计算与图片的注意力计算类似,在计算时也同样考虑其他两种数据,图片与品牌的影响,商品文本特征的注意力计算如下:
Figure BDA0002265937120000092
其中,rT,t为t位置上的单词重要程度,即注意力大小;ht为位置上的文本特征,b为商品品牌特征,
Figure BDA0002265937120000093
为平均商品图片特征,
Figure BDA0002265937120000094
是对图片特征
Figure BDA0002265937120000095
进行线性变换的权重矩阵,
Figure BDA0002265937120000096
是对品牌特征b进行线性变换的权重矩阵,
Figure BDA0002265937120000097
是对文本特征ht进行线性变换的权重矩阵,
Figure BDA0002265937120000098
是将经过激活函数的特征和变换为注意力大小的权重矩阵,即
Figure BDA0002265937120000099
Figure BDA00022659371200000910
分别将商品图片特征、商品品牌特征、商品文本特征进行线性变换,使它们映射到同一个向量空间中再进行求和,经过激活函数,在利用
Figure BDA00022659371200000911
将其变换为注意力大小;
对上述等式的直观解释是可以将其视为计算每个单词与用户和图片特征的相关性。因此,品牌和图片可以引导文本模态的注意力学习,并指示哪个词对于揭示商品点击率是重要的。
利用softmax函数对注意力值进行归一化,得到商品文本特征的注意力概率分布,则有:
aT=softmax(rT),
其中,rT为各个位置的注意力大小rT,t构成的向量,aT为各个区域最后的注意力的向量,其值与大小相等,其各个元素的和为1;
根据商品文本特征的注意力概率分布,得到加权的商品文本特征
Figure BDA00022659371200000914
Figure BDA00022659371200000912
其中,ht为对应位置的文本特征,aT,t为对应位置的注意力。
图片和文本间注意力机制,经过内部注意力后,获得了最后的图片特征
Figure BDA0002265937120000101
文本特征
Figure BDA0002265937120000102
以及之前的品牌特征
Figure BDA0002265937120000103
而图片文本间的注意力机制要做的就是将图片特征和文本特征融合起来,并利用品牌特征来指导特征融合。之所以利用品牌来指导图片特征和文本特征的融合,主要原因在于不同的品牌对其发布商品的文本和图片具有不同的集中度。注意力的不平衡可能使这两种特征对商品点击率的影响不同。用a1和a2来分别表示图片特征和文本特征的注意力大小,并满足a1+a2=1,具体如下:
用a1和a2分别表示商品图片特征注意力大小和商品文本特征注意力大小,则有:
Figure BDA0002265937120000104
Figure BDA0002265937120000105
Figure BDA0002265937120000106
Figure BDA0002265937120000107
其中,bv为商品品牌与商品图片特征的相关度,bt为商品品牌与商品文本特征的相关度,b为商品品牌特征,
Figure BDA0002265937120000108
是对商品文本特征
Figure BDA0002265937120000109
进行线性变换的权重矩阵,
Figure BDA00022659371200001010
是对商品图片特征
Figure BDA00022659371200001016
进行线性变换的权重矩阵,
Figure BDA00022659371200001011
是对商品品牌特征进行线性变换的权重矩阵,
Figure BDA00022659371200001012
是将经过激活函数的特征和变换为注意力大小的权重矩阵。
品牌特征与图文特征融合:由于品牌特征对商品点击率的重大影响,最后的商品特征由图文特征s以及品牌特征u相加得到,首先对品牌特征做一个线性变换,以保证图文特征与品牌特征映射到相同的向量空间,再将变换后的品牌特征与图文特征相加。
加权的商品图片特征与加权的商品文本特征根据注意力融合得到商品图文特征s:
Figure BDA00022659371200001013
其中,a1表示商品图片特征注意力大小,a2商品文本特征注意力大小,
Figure BDA00022659371200001014
为加权的商品图片特征,
Figure BDA00022659371200001015
加权的商品文本特征;
对商品品牌特征进行线性变换,线性变换后的商品品牌特征与图文特征进行融合得到商品特征:
r:=s+Wb′b,
其中,
Figure BDA0002265937120000111
是模型的参数,对品牌特征进行线性变换,b为商品品牌特征。
4、点击率预测
利用商品特征通过前馈神经网络进行商品点击率预测,得到商品预测结果,具体为:
利用商品特征,通过一个简单的2层前馈神经网络来实现最后的点击率预测,如图5所示。这样既可以保证模型不至于太复杂,又保证了足够的非线性建模能力,计算如下:
Figure BDA0002265937120000112
其中,
Figure BDA0002265937120000113
为点击率预测值,ReLU为激活函数,
Figure BDA0002265937120000114
为前馈神经网络输入层到隐藏层的第一参数,
Figure BDA0002265937120000115
Figure BDA0002265937120000116
为前馈神经网络输入层到隐藏层的第二参数,
Figure BDA0002265937120000117
Figure BDA0002265937120000118
为前馈神经网络隐藏层到输出层的第一参数,
Figure BDA0002265937120000119
Figure BDA00022659371200001110
为前馈神经网络隐藏层到输出层的第二参数,
Figure BDA00022659371200001111
将点击率预测作为一个回归问题,采用均方误差作为损失函数,则有:
Figure BDA00022659371200001112
其中,L为损失值,N为样本个数,yi为真实的变换后点击率,
Figure BDA00022659371200001113
为模型的点击率预测值。
5、模型训练:
构建端到端模型,利用训练数据进行参数学习与更新,具体为:
将图片特征提取的VGGNet16部分参数固定,不进行学习,将商品文本特征提取的LSTM部分,商品品牌嵌入层部分,商品品牌引导层次注意力网络部分以及点击率预测部分联合,构成端到端的基于深度多模态数据融合的商品点击率预测模型,在训练数据集上利用随机梯度下降法进行模型参数学习,直到模型收敛。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于深度多模态数据融合的商品点击率预测方法,其特征在于,包括以下步骤:
获取商品点击率数据并进行预处理,得到预处理后的商品点击率数据;
将预处理后的商品点击率数据进行特征提取,得到商品图片特征、商品文本特征、商品品牌特征;
将提取的特征通过内部注意力机制得到加权的商品图片特征和加权的商文本特征,再通过图片和文本间注意力机制进行特征融合,得到商品特征;
利用商品特征通过前馈神经网络进行商品点击率预测,得到商品预测结果;
构建端到端模型,利用训练数据进行参数学习与更新。
2.根据权利要求1所述的一种深度多模态数据融合的商品点击率预测方法,其特征在于,所述商品点击率数据包括商品图片、商品文本、商品品牌,商品点击率;所述进行预处理商品图片预处理,商品文本预处理,商品点击率预处理。
3.根据权利要求2所述的一种深度多模态数据融合的商品点击率预测方法,其特征在于,所述商品图片预处理具体为:将商品图片进行统一缩放大小;所述商品文本预处理具体为:使用中文分词工具进行分词处理,去除停用词与低频词;所述商品点击率预处理具体为:对商品点击率进行变换,即原始商品点击率加1后再取对数,得到变换后的商品点击率。
4.根据权利要求1所述的一种深度多模态数据融合的商品点击率预测方法,其特征在于,所述特征提取包括商品图片特征提取、商品文本特征提取、商品品牌特征提取;其中,对于商品图片特征提取具体如下:通过大数据集ImageNet预训练VGGNet16模型,通过预训练好的VGGNet16模型进行商品图片特征提取,取其最后一层池化层的输出作为特征,最后一层池化层的输出为7×7×512的张量,对该张量进行变化,得到49×512的特征矩阵,记为:
V=[v1,…,vm],
其中,
Figure FDA0002265937110000011
为图片区域的特征表示,d为特征维度,m为图片区域个数;
对于商品文本特征提取具体如下:将商品文本数据表示为:
Figure FDA0002265937110000012
其中,wt为t位置上的独热编码,1≤t≤l,l为商品描述总长度;
将所有词的独热编码进行拼接,得到独热编码商品文本特征:
W=[w1,…,wl],
其中,
Figure FDA0002265937110000021
为t位置上的独热编码,1≤t≤l,L为所有词个数;
对于独热编码,通过词嵌入进行降维,同时使用长短时记忆力模型对商品文本进行编码,将长短时记忆力模型的隐藏层状态作为商品文本特征:
H=[h1,…,hl],
其中,
Figure FDA0002265937110000022
为长短时记忆力模型在l位置上的隐藏层状态;
对于商品品牌特征提取具体如下:通过独热编码得到独热编码商品品牌特征,通过词嵌入进行降维,得到商品品牌特征b,
Figure FDA0002265937110000023
5.根据权利要求1所述的一种深度多模态数据融合的商品点击率预测方法,其特征在于,所述将提取的特征通过内部注意力机制与图片和文本间注意力机制进行特征融合,得到商品特征,内部注意力机制具体如下:
内部注意力机制用于获取商品图片特征和商品文本特征,其中,商品图片特征的注意力计算如下:
利用商品文本特征和商品品牌特征对不同区域的商品图片特征进行加权平均:
Figure FDA0002265937110000024
Figure FDA0002265937110000025
其中,rV,m为区域m的重要程度,即注意力大小;tanh为激活函数,vm为商品图片特征,b为商品品牌特征,
Figure FDA0002265937110000026
为平均商品文本特征;
Figure FDA0002265937110000027
是对商品图片特征vm进行线性变换的权重矩阵,
Figure FDA0002265937110000028
是对商品品牌特征b进行线性变换的权重矩阵,
Figure FDA0002265937110000029
是对商品文本特征
Figure FDA00022659371100000210
进行线性变换的权重矩阵,
Figure FDA00022659371100000211
是将经过激活函数的特征和变换为注意力大小的权重矩阵,e是自然底数,用于计算激活函数;
利用softmax函数对注意力值进行归一化,得到商品图片特征的注意力概率分布:
aV=softmax(rV),
其中,rV为各个区域的注意力大小rV,m构成的向量,aV为各个区域最后的注意力的向量,其值与rV大小相等,aV其各个元素的和为1;
根据商品图片特征的注意力概率分布,得到加权的商品图片特征
Figure FDA00022659371100000213
Figure FDA00022659371100000212
其中,vm为图片对应区域m的特征,aV,m为对应区域的注意力;
商品文本特征的注意力计算如下:
对商品文本特征进行加权平均:
Figure FDA0002265937110000031
其中,rT,t为t位置上的单词重要程度,即注意力大小;ht为位置上的文本特征,b为商品品牌特征,
Figure FDA0002265937110000032
为平均商品图片特征,
Figure FDA0002265937110000033
是将经过激活函数的特征和变换为注意力大小的权重矩阵;
利用softmax函数对注意力值进行归一化,得到商品文本特征的注意力概率分布,则有:
aT=softmax(rT),
其中,rT为各个位置的注意力大小rT,t构成的向量,aT为各个区域最后的注意力的向量,其值与大小相等,其各个元素的和为1;
根据商品文本特征的注意力概率分布,得到加权的商品文本特征
Figure FDA00022659371100000318
Figure FDA0002265937110000034
其中,ht为对应位置的文本特征,aT,t为对应位置的注意力。
6.根据权利要求5所述的一种深度多模数据融合的商品点击率预测方法,其特征在于,所述将提取的特征通过内部注意力机制与图片和文本间注意力机制进行特征融合,得到商品特征,图片和文本间注意力机制具体如下:
用a1和a2分别表示商品图片特征注意力大小和商品文本特征注意力大小,则有:
Figure FDA0002265937110000035
Figure FDA0002265937110000036
Figure FDA0002265937110000037
Figure FDA0002265937110000038
其中,bv为商品品牌与商品图片特征的相关度,bt为商品品牌与商品文本特征的相关度,b为商品品牌特征,
Figure FDA0002265937110000039
是对商品文本特征
Figure FDA00022659371100000310
进行线性变换的权重矩阵,
Figure FDA00022659371100000311
是对商品图片特征
Figure FDA00022659371100000312
进行线性变换的权重矩阵,
Figure FDA00022659371100000313
是对商品品牌特征进行线性变换的权重矩阵,
Figure FDA00022659371100000314
是将经过激活函数的特征和变换为注意力大小的权重矩阵。
7.根据权利要求6所述的一种深度多模数据融合的商品点击率预测方法,其特征在于,所述特征融合具体为:加权的商品图片特征与加权的商品文本特征根据注意力融合得到商品图文特征s:
Figure FDA00022659371100000315
其中,a1表示商品图片特征注意力大小,a2商品文本特征注意力大小,
Figure FDA00022659371100000316
为加权的商品图片特征,
Figure FDA00022659371100000317
加权的商品文本特征;
对商品品牌特征进行线性变换,线性变换后的商品品牌特征与图文特征进行融合得到商品特征r:
r:=s+Wb′b,
其中,
Figure FDA0002265937110000041
是模型的参数,对商品品牌特征进行线性变换;b为商品品牌特征。
8.根据权利要求1所述的一种深度多模数据融合的商品点击率预测方法,其特征在于,所述利用商品特征通过前馈神经网络进行商品点击率预测,得到商品预测结果,具体为:
利用商品特征,通过前馈神经网络进行点击率预测,计算如下:
Figure FDA0002265937110000042
其中,
Figure FDA0002265937110000043
为点击率预测值,ReLU为激活函数,
Figure FDA0002265937110000044
为前馈神经网络输入层到隐藏层的第一参数,
Figure FDA0002265937110000045
Figure FDA0002265937110000046
为前馈神经网络输入层到隐藏层的第二参数,
Figure FDA0002265937110000047
Figure FDA0002265937110000048
为前馈神经网络隐藏层到输出层的第一参数,
Figure FDA0002265937110000049
Figure FDA00022659371100000410
为前馈神经网络隐藏层到输出层的第二参数,
Figure FDA00022659371100000411
将点击率预测作为一个回归问题,采用均方误差作为损失函数,则有:
Figure FDA00022659371100000412
其中,L为损失值,N为样本个数,yi为真实的变换后点击率,
Figure FDA00022659371100000413
为模型的点击率预测值。
9.根据权利要求1所述的一种深度多模数据融合的商品点击率预测方法,其特征在于,所述构建端到端模型,利用训练数据进行参数学习与更新,具体为:
将商品文本特征提取的LSTM部分,商品品牌嵌入层部分,商品品牌引导层次注意力网络部分以及点击率预测部分联合,构成端到端的基于深度多模态数据融合的商品点击率预测模型,在训练数据集上利用随机梯度下降法进行模型参数学习,直到模型收敛。
CN201911087722.4A 2019-11-08 2019-11-08 一种基于深度多模态数据融合的商品点击率预测方法 Active CN110991464B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911087722.4A CN110991464B (zh) 2019-11-08 2019-11-08 一种基于深度多模态数据融合的商品点击率预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911087722.4A CN110991464B (zh) 2019-11-08 2019-11-08 一种基于深度多模态数据融合的商品点击率预测方法

Publications (2)

Publication Number Publication Date
CN110991464A true CN110991464A (zh) 2020-04-10
CN110991464B CN110991464B (zh) 2023-05-23

Family

ID=70083741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911087722.4A Active CN110991464B (zh) 2019-11-08 2019-11-08 一种基于深度多模态数据融合的商品点击率预测方法

Country Status (1)

Country Link
CN (1) CN110991464B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538761A (zh) * 2020-04-21 2020-08-14 中南大学 基于注意力机制的点击率预测方法
CN111563551A (zh) * 2020-04-30 2020-08-21 支付宝(杭州)信息技术有限公司 一种多模态信息融合方法、装置及电子设备
CN111339433B (zh) * 2020-05-21 2020-08-21 腾讯科技(深圳)有限公司 基于人工智能的信息推荐方法、装置、电子设备
CN111581510A (zh) * 2020-05-07 2020-08-25 腾讯科技(深圳)有限公司 分享内容处理方法、装置、计算机设备和存储介质
CN111984872A (zh) * 2020-09-09 2020-11-24 北京中科研究院 基于迭代优化策略的多模态信息社交媒体流行度预测方法
CN112101380A (zh) * 2020-08-28 2020-12-18 合肥工业大学 基于图文匹配的产品点击率预测方法和系统、存储介质
CN112256916A (zh) * 2020-11-12 2021-01-22 中国计量大学 一种基于图胶囊网络的短视频点击率预测方法
CN112307257A (zh) * 2020-11-25 2021-02-02 中国计量大学 一种基于多信息节点图网络的短视频点击率预测方法
CN114547273A (zh) * 2022-03-18 2022-05-27 科大讯飞(苏州)科技有限公司 问题回答方法及相关装置、电子设备、存储介质
CN118469096A (zh) * 2024-07-10 2024-08-09 电子科技大学 一种基于三模态融合专家模型的社交媒体流行度预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783945A (zh) * 2017-11-13 2018-03-09 山东师范大学 一种基于眼动追踪的搜索结果网页注意力测评方法及装置
CN109087130A (zh) * 2018-07-17 2018-12-25 深圳先进技术研究院 一种基于注意力机制的推荐系统及推荐方法
CN109145112A (zh) * 2018-08-06 2019-01-04 北京航空航天大学 一种基于全局信息注意力机制的商品评论分类方法
CN110263265A (zh) * 2019-04-10 2019-09-20 腾讯科技(深圳)有限公司 用户标签生成方法、装置、存储介质和计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783945A (zh) * 2017-11-13 2018-03-09 山东师范大学 一种基于眼动追踪的搜索结果网页注意力测评方法及装置
CN109087130A (zh) * 2018-07-17 2018-12-25 深圳先进技术研究院 一种基于注意力机制的推荐系统及推荐方法
CN109145112A (zh) * 2018-08-06 2019-01-04 北京航空航天大学 一种基于全局信息注意力机制的商品评论分类方法
CN110263265A (zh) * 2019-04-10 2019-09-20 腾讯科技(深圳)有限公司 用户标签生成方法、装置、存储介质和计算机设备

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538761A (zh) * 2020-04-21 2020-08-14 中南大学 基于注意力机制的点击率预测方法
CN111563551A (zh) * 2020-04-30 2020-08-21 支付宝(杭州)信息技术有限公司 一种多模态信息融合方法、装置及电子设备
WO2021223567A1 (zh) * 2020-05-07 2021-11-11 腾讯科技(深圳)有限公司 内容处理方法、装置、计算机设备和存储介质
CN111581510A (zh) * 2020-05-07 2020-08-25 腾讯科技(深圳)有限公司 分享内容处理方法、装置、计算机设备和存储介质
CN111581510B (zh) * 2020-05-07 2024-02-09 腾讯科技(深圳)有限公司 分享内容处理方法、装置、计算机设备和存储介质
CN111339433B (zh) * 2020-05-21 2020-08-21 腾讯科技(深圳)有限公司 基于人工智能的信息推荐方法、装置、电子设备
CN112101380A (zh) * 2020-08-28 2020-12-18 合肥工业大学 基于图文匹配的产品点击率预测方法和系统、存储介质
CN112101380B (zh) * 2020-08-28 2022-09-02 合肥工业大学 基于图文匹配的产品点击率预测方法和系统、存储介质
CN111984872A (zh) * 2020-09-09 2020-11-24 北京中科研究院 基于迭代优化策略的多模态信息社交媒体流行度预测方法
CN111984872B (zh) * 2020-09-09 2021-03-16 北京中科研究院 基于迭代优化策略的多模态信息社交媒体流行度预测方法
CN112256916A (zh) * 2020-11-12 2021-01-22 中国计量大学 一种基于图胶囊网络的短视频点击率预测方法
CN112307257A (zh) * 2020-11-25 2021-02-02 中国计量大学 一种基于多信息节点图网络的短视频点击率预测方法
CN114547273A (zh) * 2022-03-18 2022-05-27 科大讯飞(苏州)科技有限公司 问题回答方法及相关装置、电子设备、存储介质
CN114547273B (zh) * 2022-03-18 2022-08-16 科大讯飞(苏州)科技有限公司 问题回答方法及相关装置、电子设备、存储介质
CN118469096A (zh) * 2024-07-10 2024-08-09 电子科技大学 一种基于三模态融合专家模型的社交媒体流行度预测方法
CN118469096B (zh) * 2024-07-10 2024-09-03 电子科技大学 一种基于三模态融合专家模型的社交媒体流行度预测方法

Also Published As

Publication number Publication date
CN110991464B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN110991464A (zh) 一种基于深度多模态数据融合的商品点击率预测方法
US11188831B2 (en) Artificial intelligence system for real-time visual feedback-based refinement of query results
CN110659411A (zh) 一种基于神经注意力自编码器的个性化推荐方法
CN111325571A (zh) 一种多任务学习的商品评论标签自动生成方法、装置及系统
CN111581926A (zh) 文案生成方法、装置、设备和计算机可读存储介质
LU506520B1 (en) A sentiment analysis method based on multimodal review data
CN112101380B (zh) 基于图文匹配的产品点击率预测方法和系统、存储介质
CN115605896A (zh) 产品推荐和集成语言建模的系统和方法
Alves Gomes et al. Will this online shopping session succeed? predicting customer's purchase intention using embeddings
CN116703523A (zh) 基于大数据的电子商务系统及其方法
CN117112775A (zh) 自动填写输入表单以生成列表的技术
CN116228368A (zh) 一种基于深度多行为网络的广告点击率预测方法
CN116362833A (zh) 一种基于层次化对比学习的商品推荐方法及系统
CN113792148B (zh) 一种基于序列到序列的评论方面类别检测方法及系统
CN111522979A (zh) 图片排序推荐方法、装置、电子设备、存储介质
CN114898192A (zh) 模型训练方法、预测方法、设备、存储介质及程序产品
CN110555719B (zh) 一种基于深度学习的商品点击率预测方法
CN110992079A (zh) 一种基于时间序列填补的商品点击率预测方法
CN110570226B (zh) 一种联合主题模型和异质信息网络的评分预测方法
CN112989182A (zh) 信息处理方法、装置、信息处理设备及存储介质
CN118093993A (zh) 相关文章推荐方法及其装置、设备、介质
CN116340635A (zh) 物品推荐方法、模型训练方法、装置及设备
CN117251622A (zh) 对象推荐的方法、装置、计算机设备和存储介质
CN115239404A (zh) 召回模型生成、召回方法、装置、电子设备及存储介质
CN117786234B (zh) 一种基于两阶段对比学习的多模态资源推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant