CN110083770B - 一种基于特征层面更深的自注意力网络的序列推荐方法 - Google Patents
一种基于特征层面更深的自注意力网络的序列推荐方法 Download PDFInfo
- Publication number
- CN110083770B CN110083770B CN201910354632.0A CN201910354632A CN110083770B CN 110083770 B CN110083770 B CN 110083770B CN 201910354632 A CN201910354632 A CN 201910354632A CN 110083770 B CN110083770 B CN 110083770B
- Authority
- CN
- China
- Prior art keywords
- attention
- sequence
- self
- item
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000007246 mechanism Effects 0.000 claims abstract description 49
- 230000007704 transition Effects 0.000 claims abstract description 10
- YUXIIBHHAPNFCQ-UHFFFAOYSA-N 1,1,2,2,3,3,4,4,5,5,6,6,7,7,8,8,9,9,10,10,10-henicosafluorodecane-1-sulfonamide Chemical compound FC(C(C(C(C(C(C(C(C(C(F)(F)F)(F)F)(F)F)(F)F)(F)F)(F)F)(F)F)(F)F)(F)F)(S(=O)(=O)N)F YUXIIBHHAPNFCQ-UHFFFAOYSA-N 0.000 claims abstract 8
- 239000013598 vector Substances 0.000 claims description 37
- 239000011159 matrix material Substances 0.000 claims description 30
- 230000006399 behavior Effects 0.000 claims description 23
- 235000009499 Vanilla fragrans Nutrition 0.000 claims description 17
- 235000012036 Vanilla tahitensis Nutrition 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 16
- 244000290333 Vanilla fragrans Species 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 8
- 230000007774 longterm Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 244000263375 Vanilla tahitensis Species 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于特征层面更深的自注意力网络的序列推荐方法,本发明提出一个基于特征层面更深的自注意力网络的序列推荐方法(FDSA)。具体来说,FDSA首先通过一个一般的注意力机制将物品的多种异构特征以不同的权重结合到特征序列。随后,FDSA在物品序列和特征序列运用独立的自注意力块分别去建模物品转换模式和特征转换模式。然后,我们结合这两个块的输出结果到一个全连接层来预测下一个物品。最后,大量的实验结果表明考虑物品的特征之间的转换关系能够明显地提高序列推荐的性能。
Description
技术领域
本发明涉及推荐技术领域,特别是一种基于特征层面更深的自注意力网络的序列推荐方法。
背景技术
随着互联网的快速发展,序列推荐已成为各种应用中不可或缺的一部分,例如,广告点击预测,产品推荐和网页推荐。在这些应用中,每个用户行为可以建模成一个按时间顺序的序列,他/她之后的行为受之前行为序列的影响。序列推荐的目的是通过从用户历史行为中捕获有用的序列模式,从而给用户推荐他/她可能喜欢的下一个物品。
现存的序列方法大多集中在基于马尔科夫链的方法和基于神经网络的方法。为了建模序列模式,Rendle等人提出了FPMC(Factorizing Personalized Markov Chain),融合矩阵分解和马尔科夫链分别去捕获用户的长期偏好和短期的物品与物品之间的转换。Cheng等人扩展了FPMC,将个性化的马尔科夫链和用户行为约束嵌入到下一个推荐中。然而,所有这些基于马尔科夫链的方法都有一个相同的缺点,即这些模型仅能建模每两个相邻物品之间的局部序列模式。随着神经网络的成功,循环神经网络(RNN)被广泛应用于序列建模。Hidasi等人提出GRU4Rec方法,使用门控循环单元(GRU)去建模物品之间的转换模式。虽然RNN是一个建模序列模式的有效方法,但是它仍然面临几个挑战,例如,很难并行,耗时,即使使用LSTM和GRU也很难保存长期偏好。最近,Tang等人提出一个基于CNN的模式,它将用户最近访问的L个物品看作一张图片,然后使用水平方向和垂直方向的卷积核去提取序列模式。另外,CNN通常被用于捕获局部信息,因此很难捕获用户的长期偏好。随着Vaswani等人提出的自注意力机制(self-attention mechanism)在机器翻译方面获得突出的实验结果,许多研究者开始着力于将自注意力机制应用于其他领域,例如自然语言推荐,智能问答,推荐等等。自注意力机制一个最大的优点是能够通过计算一个序列中不同物品对之间的权重来更好地获得用户的长期偏好。Kang等人提出SASRec(Self-AttentiveSequential Recommendation)模式,利用一个自注意力机制代替传统的RNN来做序列推荐,获得杰出的性能。然而,上述推荐方法都仅考虑了物品之间的序列模式,但是忽略了有利于捕获用户细粒度偏好的特征之间的序列转换关系。
事实上,我们的日常生活通常表现出物品的特征层面的转换模式,即,显式特征(如,类型)或者其他的隐式特征。例如,一个用户买完衣服之后可能会要买匹配衣服的鞋子,这个暗示了下一个产品的类别与当前产品的类别是高度相关的。在这里,我们将用户对结构属性(例如,类型)不断变化的喜好称作显式特征转换。此外,每个物品可以又包含其他非结构的属性,像描述文本或者图片,它们体现出物品更多的细节特征。因此,我们想要从这些非结构化的属性中提取出用户潜在的特征模式,我们称这种为隐式特征转换。然而,现存的方法经常忽略了物品特征之间显示和隐式的特征转换,我们认为仅物品层面的序列不能揭示出完整的序列模式。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种基于特征层面更深的自注意力网络的序列推荐方法,本发明提出了一种特征层面自注意力网络,能够有效地捕获物品的特征之间的转换关系,来提高序列推荐性能。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种基于特征层面更深的自注意力网络的序列推荐方法,构建基于特征层面更深的自注意力网络FDSA模型,通过FDSA模型捕获物品的特征之间的转换关系,来提高序列推荐性能;FDSA模型包括嵌入层、Vanilla注意力层、基于物品的自注意力块、基于特征的自注意力块和全连接层;其中,
嵌入层,用于投射物品的稀疏表示和物品的离散化的特征到低维的稠密向量,输出物品序列和物品的多种异构特征;物品序列输出至基于物品的自注意力块,物品的多种异构特征输出至Vanilla注意力层;
Vanilla注意力层,用于通过注意力机制将物品的多种异构特征以不同的权重结合到特征序列;
基于物品的自注意力块,用于根据物品序列去学习物品层面的序列模式;
基于特征的自注意力块,用于根据特征序列去捕获特征层面的序列模式;
全连接层,用于结合基于物品的自注意力块和基于特征的自注意力块的输出结果来预测给用户推荐的下一个物品。
作为本发明所述的一种基于特征层面更深的自注意力网络的序列推荐方法进一步优化方案,嵌入层用于去转换行为序列s和其对应的类别序列c的one-hot向量到稠密向量表示;其中,
从用户历史行为序列中取一个固定长度的序列s=(s1,s2,…,sn)来计算用户历史偏好,其中n代表模式处理的最大长度;如果一个用户的行为序列小于n,在序列的左边使用0来填充序列直到序列的长度达到n;如果一个用户的行为序列大于n,取最近的n个行为;每一个物品对应着一个类别,得到一个固定长度的类别序列c=(c1,c2,…,cn);其中,sv为用户第v时刻访问的物品,cv为用户第v时刻访问的物品对应的类别特征,v=1,2,3...n。
作为本发明所述的一种基于特征层面更深的自注意力网络的序列推荐方法进一步优化方案,Vanilla注意力层,用于采用一个Vanilla注意力机制去辅助基于特征的自注意力块捕获用户对属性不断变化的喜好;
注意力网络αj被定义为:
αj=softmax(WfAj+bf) (1)
其中,Wf是d×d的矩阵,bf是d-维的向量,d是向量的维度,softmax(*)是归一化指数函数;
通过注意力评分来计算物品j的属性向量表示的加权和;
fj=αjAj (2)
fj为物品j的特征表示。
作为本发明所述的一种基于特征层面更深的自注意力网络的序列推荐方法进一步优化方案,基于特征的自注意力块:
从vanilla注意力层,能得到物品j的特征表示fj;因此,给定一个用户,能得到一个特征序列f={f1,f2,...,fn},fv为用户在第v时刻访问的物品对应的特征的特征向量表示;在特征的输入表示上加入位置矩阵 为二维矩阵空间,维度为n×d;即这个基于特征的自注意力块的输入矩阵F被定义为
其中,Pv为用户第v时刻访问的物品的位置向量表示;
自注意力机制SDPA(Q,K,V)被定义为
其中Q,K,V分别表示query,key和value,query是查询,key是键,value是键对应的值,上标T是转置,d表示向量的维度;在基于特征自注意力机制块query,key和value都等于F,将它们通过三个不同的投射矩阵线性转换之后,喂到缩放点积注意力SDPA中,
Hf=SDPA(FWQ,FWK,FWv)(5)
其中Wo,是要学习的参数,lf是基于特征自注意力机制设置的头数,Mf是经过多头注意力机制MH之后得到的结果,MH(F)是多头注意力机制,Concat()是向量连接函数,hi是第i头对应缩放点积注意力SDPA的结果,SDPA()是缩放点积注意力,i=1,2...lf;除此之外,这个自注意力机制运用了残差连接,层正则化和激活函数为ReLU的两层全连接去增强自注意力机制的性能;最后,这个基于特征自注意力块的输出被定义为
其中,LayerNorm()是层正则化,Of是经过残差连接和层正则化之后的结果,ReLU()是非线性激活函数,W1、W2、b1、b2均是FDSA模型参数;定义整个自注意力块SAB()为
Of=SAB(F), (8)
Of是聚合了所有之前访问过的物品的特征表示,SAB()是整个自注意力块;
当自注意机制堆叠q块之后,
作为本发明所述的一种基于特征层面更深的自注意力网络的序列推荐方法进一步优化方案,基于物品的自注意力块:
给定一个用户,能够得到一个物品序列s以及它对应的矩阵S;这个堆叠的基于物品自注意力块被构造为
作为本发明所述的一种基于特征层面更深的自注意力网络的序列推荐方法进一步优化方案,为了同时捕获物品和特征的转换模式,连接基于物品的自注意力块的输出结果和基于特征的自注意力块的输出结果然后投射到全连接层;
其中Osf是将两个自注意力块结合之后经过全连接层得到的结果,Wsf是全连接层的权重矩阵,bsf是全连接层的偏置向量,是二维空间,维度为2d×d,是一维空间,维度是d;通过点积操作计算用户对物品的偏好;
在测试过程中,取矩阵Osf的最后一行来预测下一个物品。
作为本发明所述的一种基于特征层面更深的自注意力网络的序列推荐方法进一步优化方案,采用交叉熵损失函数作为FDSA模型的优化目标函数。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)本发明提出了一种新颖的基于特征层面更深的自注意力网络(FDSA),能够有效地捕获物品的特征之间的转换关系,来提高序列推荐性能;
(2)本发明表明考虑物品的特征之间的转换关系能够明显地提高序列推荐的性能。
附图说明
图1是FDSA的框架图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
本发明提出一个新颖的特征层面的自注意力机制来做序列推荐。为了捕获显式转换模式,与那些将物品表示与其特征表示结合的方法不同,我们在物品序列和特征序列上运用独立的自注意力机制,分别去提取物品之间和特征之间的关系。之后,我们结合物品层面的上下文和特征层面的上下文来预测下一个物品。此外,我们进一步研究如何从物品的异构属性中学习有意义的隐式的特征转换模式。我们额外地添加一个Vanilla注意力机制辅助基于特征的自注意力机制从物品的多样的属性中自适应地挑选重要的特征,并进一步学习潜在的隐式特征转换模式。然后,我们结合这两个块的输出结果到一个全连接层来预测下一个物品。
1、问题定义
我们让表示N个用户的集合,表示M个物品的集合。我们使用表示用户之前访问的按时间排序的一个行为序列,其中sj是第j时刻用户访问的物品,是物品的集合。每一个物品j有一些属性,例如,文本描述,类别和品牌。这里我们以物品的类别为例,物品j的类型被表示为cj,其中 是类别的集合。序列推荐的目的是给定用户的历史行为序列,预测用户可能访问的下一个物品。
基于以上背景描述,本发明提出了一种新颖的基于特征层面更深的自注意力网络(FDSA),能够有效地捕获物品的特征之间的转换关系,来提高序列推荐性能。本发明的主要贡献有以下几点:1)我们提出一个新颖的框架,特征层面更深的自注意力网络(FDSA)来做序列推荐。FDSA利用自注意力网络结合物品转换模式和特征转换模式去建模用户序列意图。2)通过在物品序列和特征序列运用不同的自注意力块去建模显式和隐式特征转换。此外,为了获得隐式特征转换,一个Vanilla注意力机制被增加去辅助基于特征的自注意力块从物品的多样的特征中去自适应地选择重要的特征。3)我们在两个真实的数据集上进行大量的实验,证明了我们提出方法的有效性。
1、我们提出的模型
正如我们之前提到的,人类日常活动经常表现出特征层面的转换模式。因此,本发明提出了一种新颖的基于特征层面更深的自注意力网络(FDSA),不仅能够学习物品层面的转换模式,而且能够建模特征层面的转换模式。如图1所示,FDSA由五部分组成,即,嵌入层,Vanilla注意力层,基于物品的自注意力块,基于特征的自注意力块和全连接层。具体地,我们首先投射物品的稀疏表示和物品的离散化的特征(即,one-hot编码)到低维的稠密向量。对于物品的文本特征,我们利用一个主题模型去提取这些文本的主题关键词,然后利用Word2Vector模型去获得这些关键词的词向量表示。由于物品的特征通常是异构的,并且来自不同的领域。因此,我们利用一个一般的注意力机制辅助基于特征的自注意力机制从物品的异构属性中自适应的选择重要的特征。随后,通过两个自注意力块,用户的序列模式能够被学习,其中,基于物品的自注意力块被利用去学习物品层面的序列模式,基于特征的自注意力块被使用去捕获特征层面的序列模式。最后,我们结合着两个块的输出到一个全连接层去得到最后的预测。下面,我们详细介绍FDSA每一个部分的细节。
1)嵌入层
由于用户的行为属性是不固定的,我们从用户历史行为序列中取一个固定长度的序列s=(s1,s2,...,sn)来计算用户历史偏好,其中n代表我们模式处理的最大长度。如果一个用户的行为序列小于n,我们在序列的左边使用0来填充序列直到序列的长度达到n;如何一个用户的行为序列大于n,我们取最近的n个行为。此外,由于每一个物品对应着一个类别,我们能得到一个固定长度的类别序列c=(c1,c2,...,cn)。之后,我们利用一个嵌入层去转换行为序列s和其对应的类别序列c的one-hot向量到稠密向量表示。对于其他的类别型的特征(例如,品牌,商家),我们采用相同的方式处理。而对于文本型特征(例如,描述文本,物品的描述标题),我们首先利用广泛使用的主题模型提取文本的主题关键词,不久利用Word2Vector模型去学习关键词的文本语义表示。在这个实验中,我们从每一个物品的描述文本和描述标题中提取五个主题词,然后再利用平均池化方法融合五个关键词向量到一个向量表示。
2)Vanilla注意力层
因为物品的特征经常是异构的,很难知道是哪些特征决定一个用户的选择。因此,我们使用一个Vanilla注意力机制去辅助基于特征的自注意力块捕获用户对属性(例如,类别,商标,描述文本等)不断变化的喜好。给定一个物品j,它的属性能被编码为其中,vec(cj)和vec(bj)分别表示物品j的类别和品牌的稠密向量表示,表示物品j的文本特征表示。形式上,这个注意力网络被定义为:
αj=softmax(WfAj+bf),(1)
其中,Wf是d×d的矩阵,bf是d-维的向量。最后,我们通过注意力评分来计算物品j的属性向量表示的加权和。
fj=αjAj。 (2)
值得注意的是,如果物品j只考虑一个特征(例如,类别),这个物品j的特征表示为vec(cj)。
2)基于特征的自注意力块
因为基于物品的自注意力与基于特征的自注意力只有它们的输入部分不同,因此,我们集中在详细地描述基于特征自注意力块。从上面的vanilla注意力层,我们能得到物品j的特征表示fj。因此,给定一个用户,我们能得到一个特征序列f={f1,f2,...,fn)。为了建模特征层面的转换模式,我们利用Vaswani等人提出的自注意力网络能够有效地捕获特征之间的关系,而不考虑它们之间的距离。虽然自注意网络可以确保计算效率并获得长期依赖性,但它忽略了序列输入的位置信息。因此,我们在特征的输入表示上加入位置矩阵即,这个基于特征的自注意力块的输入矩阵被定义为
Vaswani等人提出的缩放点积注意力(SDPA),即自注意力机制被定义为
其中Q,K,V分别表示query,key和value,d表示每个特征的特征维度。在基于特征自注意力机制块query,key和value都等于F,我们将它们通过三个不同的投射矩阵线性转换之后,喂到SDPA中,
Hf=SDPA(FWQ,FWK,FWv), (5)
其中Wo,是要学习的参数,lf是基于特征自注意力机制设置的头数。除此之外,这个自注意力机制运用了残差连接,层正则化和激活函数为ReLU的两层全连接去增强自注意力机制的性能。最后,这个基于特征自注意力块的输出被定义为
其中W*,b*是模型参数。为了简化,我们定义整个自注意力块为
Of=SAB(F), (8)
因为物品的自注意力块和特征的自注意力块只是输入层面上有所不同,其余结构是一致的,因此这里为了简单采用统一的表述方式,将这两种都定义为SAB();
第一个自注意力块之后,Of本质上聚合了所有之前访问过的物品的特征表示。然而,下一个物品推荐可能更相关于最近访问的物品的特征,因此,我们在Of基础之上,再运用自注意力机制,它能够捕获更加复杂的特征转换。当自注意机制堆叠q块之后,
3)基于物品的自注意力块
基于物品的自注意力块的目的是为了学习有意义的物品层面的转换模式。给定一个用户,我们能够得到一个物品序列s以及它对应的矩阵S。因此,这个堆叠的基于物品自注意力块被构造为
4)全连接层
其中,表示Osf的第t行,N是物品的嵌入矩阵,yt,j是给定之前的t个物品,物品j是下一个要访问的物品的概率。值得注意的是,在训练期间,这个模型输入的是一个序列(e.g.,s1,s2,...,sn-1),它期望得到的是一个“shifted”版本的序列:(i.e.,s2,s3,...,sn)。而在测试过程中,我们取矩阵Osf的最后一行来预测下一个物品。
2、损失函数
在这个子部分,为了有效地从训练过程中学习,我们采用交叉熵损失函数作为FDSA模型的优化目标函数,它被定义为
在这里,对于序列中的每一个物品j,我们随机采样一个负样例j′。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。
Claims (6)
1.一种基于特征层面更深的自注意力网络的序列推荐方法,其特征在于,构建基于特征层面更深的自注意力网络FDSA模型,通过FDSA模型捕获物品的特征之间的转换关系,来提高序列推荐性能;FDSA模型包括嵌入层、Vanilla注意力层、基于物品的自注意力块、基于特征的自注意力块和全连接层;其中,
嵌入层,用于投射物品的稀疏表示和物品的离散化的特征到低维的稠密向量,输出物品序列和物品的多种异构特征;物品序列输出至基于物品的自注意力块,物品的多种异构特征输出至Vanilla注意力层;
Vanilla注意力层,用于通过注意力机制将物品的多种异构特征以不同的权重结合到特征序列;
基于物品的自注意力块,用于根据物品序列去学习物品层面的序列模式;
基于特征的自注意力块,用于根据特征序列去捕获特征层面的序列模式;
全连接层,用于结合基于物品的自注意力块和基于特征的自注意力块的输出结果来预测给用户推荐的下一个物品;
Vanilla注意力层,用于采用一个Vanilla注意力机制去辅助基于特征的自注意力块捕获用户对属性不断变化的喜好;
注意力网络αj被定义为:
αj=softmax(WfAj+bf) (1)
其中,Wf是d×d的矩阵,bf是d-维的向量,d是向量的维度,softmax(*)是归一化指数函数;
通过注意力评分来计算物品j的属性向量表示的加权和;
fj=αjAj (2)
fj为物品j的特征表示。
2.根据权利要求1所述的一种基于特征层面更深的自注意力网络的序列推荐方法,其特征在于,嵌入层用于去转换行为序列s和其对应的类别序列c的one-hot向量到稠密向量表示;其中,
从用户历史行为序列中取一个固定长度的序列s=(s1,s2,...,sn)来计算用户历史偏好,其中n代表模式处理的最大长度;如果一个用户的行为序列小于n,在序列的左边使用0来填充序列直到序列的长度达到n;如果一个用户的行为序列大于n,取最近的n个行为;每一个物品对应着一个类别,得到一个固定长度的类别序列c=(c1,c2,...,cn);其中,sv为用户第v时刻访问的物品,cv为用户第v时刻访问的物品对应的类别特征,v=1,2,3...n。
3.根据权利要求1所述的一种基于特征层面更深的自注意力网络的序列推荐方法,其特征在于,基于特征的自注意力块:
从V anilla注意力层,能得到物品j的特征表示fj;因此,给定一个用户,能得到一个特征序列f={f1,f2,...,fn},fv为用户在第v时刻访问的物品对应的特征的特征向量表示;在特征的输入表示上加入位置矩阵为二维矩阵空间,维度为n×d;即这个基于特征的自注意力块的输入矩阵F被定义为
其中,Pv为用户第v时刻访问的物品的位置向量表示;
自注意力机制SDPA(Q,K,V)被定义为
其中Q,K,V分别表示query,key和value,query是查询,key是键,value是键对应的值,上标T是转置,d表示向量的维度;在基于特征自注意力机制块query,key和value都等于F,将它们通过三个不同的投射矩阵线性转换之后,喂到缩放点积注意力SDPA中,
Hf=SDPA(FWQ,FWK,FWV) (5)
其中Wo,是要学习的参数,lf是基于特征自注意力机制设置的头数,Mf是经过多头注意力机制MH之后得到的结果,MH(F)是多头注意力机制,Concat()是向量连接函数,hi是第i头对应缩放点积注意力SDPA的结果,SDPA()是缩放点积注意力,i=1,2...lf;除此之外,这个自注意力机制运用了残差连接,层正则化和激活函数为ReLU的两层全连接去增强自注意力机制的性能;最后,这个基于特征自注意力块的输出被定义为
其中,LayerNorm()是层正则化,Of是经过残差连接和层正则化之后的结果,ReLU()是非线性激活函数,W1、W2、b1、b2均是FDSA模型参数;定义整个自注意力块SAB()为
Of=SAB(F), (8)
Of是聚合了所有之前访问过的物品的特征表示,SAB()是整个自注意力块;
当自注意机制堆叠q块之后,
5.根据权利要求1所述的一种基于特征层面更深的自注意力网络的序列推荐方法,其特征在于,为了同时捕获物品和特征的转换模式,连接基于物品的自注意力块的输出结果和基于特征的自注意力块的输出结果然后投射到全连接层;
其中Osf是将两个自注意力块结合之后经过全连接层得到的结果,Wsf是全连接层的权重矩阵,bsf是全连接层的偏置向量,是二维空间,维度为2d×d,是一维空间,维度是d;通过点积操作计算用户对物品的偏好;
在测试过程中,取矩阵Osf的最后一行来预测下一个物品。
6.根据权利要求1所述的一种基于特征层面更深的自注意力网络的序列推荐方法,其特征在于,采用交叉熵损失函数作为FDSA模型的优化目标函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910354632.0A CN110083770B (zh) | 2019-04-29 | 2019-04-29 | 一种基于特征层面更深的自注意力网络的序列推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910354632.0A CN110083770B (zh) | 2019-04-29 | 2019-04-29 | 一种基于特征层面更深的自注意力网络的序列推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110083770A CN110083770A (zh) | 2019-08-02 |
CN110083770B true CN110083770B (zh) | 2023-01-13 |
Family
ID=67417670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910354632.0A Active CN110083770B (zh) | 2019-04-29 | 2019-04-29 | 一种基于特征层面更深的自注意力网络的序列推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110083770B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347263B (zh) * | 2019-08-06 | 2023-04-14 | 上海智臻智能网络科技股份有限公司 | 一种知识图谱构建方法 |
CN110633789A (zh) * | 2019-08-27 | 2019-12-31 | 苏州市职业大学 | 用于流媒体推荐的自我注意网络信息处理方法 |
CN110688565B (zh) * | 2019-09-04 | 2021-10-15 | 杭州电子科技大学 | 基于多维霍克斯过程和注意力机制的下一个物品推荐方法 |
CN110659742B (zh) * | 2019-09-10 | 2023-09-05 | 创新先进技术有限公司 | 获取用户行为序列的序列表示向量的方法和装置 |
CN110781396A (zh) * | 2019-10-25 | 2020-02-11 | 上海喜马拉雅科技有限公司 | 一种信息推荐方法、装置、设备及存储介质 |
CN111506835B (zh) * | 2020-04-17 | 2022-12-23 | 北京理工大学 | 一种融合用户时间特征和个性特征的数据特征提取方法 |
CN111860249A (zh) * | 2020-07-08 | 2020-10-30 | 上海蠡图信息科技有限公司 | 一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法 |
CN112559877A (zh) * | 2020-12-24 | 2021-03-26 | 齐鲁工业大学 | 基于跨平台异构数据及行为上下文的ctr预估方法及系统 |
CN112948716B (zh) * | 2021-03-05 | 2023-02-28 | 桂林电子科技大学 | 一种基于多头注意力机制的连续兴趣点包推荐方法 |
CN113688315B (zh) * | 2021-08-19 | 2023-04-18 | 电子科技大学 | 一种基于无信息损失图编码的序列推荐方法 |
WO2024113149A1 (en) * | 2022-11-29 | 2024-06-06 | Boe Technology Group Co., Ltd. | Computer-implemented method, method of item recommendation, apparatus, and computer-program product |
CN115761510A (zh) * | 2022-12-08 | 2023-03-07 | 中化现代农业有限公司 | 一种果实计数方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4156032A1 (en) * | 2017-05-23 | 2023-03-29 | Google LLC | Attention-based sequence transduction neural networks |
CN108763493B (zh) * | 2018-05-30 | 2022-06-21 | 深圳市思迪信息技术股份有限公司 | 一种基于深度学习的推荐方法 |
CN109087130A (zh) * | 2018-07-17 | 2018-12-25 | 深圳先进技术研究院 | 一种基于注意力机制的推荐系统及推荐方法 |
-
2019
- 2019-04-29 CN CN201910354632.0A patent/CN110083770B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110083770A (zh) | 2019-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083770B (zh) | 一种基于特征层面更深的自注意力网络的序列推荐方法 | |
CN110119467B (zh) | 一种基于会话的项目推荐方法、装置、设备及存储介质 | |
Wu et al. | Session-based recommendation with graph neural networks | |
CN109299396B (zh) | 融合注意力模型的卷积神经网络协同过滤推荐方法及系统 | |
Bottou | From machine learning to machine reasoning: An essay | |
CN110781409B (zh) | 一种基于协同过滤的物品推荐方法 | |
CN111581520A (zh) | 基于会话中物品重要性的物品推荐方法和系统 | |
CN112328893B (zh) | 一种基于记忆网络和协同注意力的推荐方法 | |
CN114693397B (zh) | 一种基于注意力神经网络的多视角多模态商品推荐方法 | |
CN111461175B (zh) | 自注意与协同注意机制的标签推荐模型构建方法及装置 | |
CN110659411A (zh) | 一种基于神经注意力自编码器的个性化推荐方法 | |
Dai et al. | Hybrid deep model for human behavior understanding on industrial internet of video things | |
CN112632296B (zh) | 基于知识图谱具有可解释性的论文推荐方法及系统、终端 | |
CN113254782A (zh) | 问答社区专家推荐方法及系统 | |
Xiang et al. | Text Understanding and Generation Using Transformer Models for Intelligent E-commerce Recommendations | |
CN116976505A (zh) | 基于信息共享的解耦注意网络的点击率预测方法 | |
CN114238765B (zh) | 一种基于区块链的位置注意力推荐方法 | |
Kaushik et al. | A movie recommendation. System using Neural Networks | |
CN117635769A (zh) | 基于关联感知跨模态注意网络的社交网中服饰推荐方法 | |
CN114996566A (zh) | 一种面向工业互联网平台的智能推荐系统及方法 | |
CN114692012A (zh) | 一种基于Bert的神经协同过滤的电子政务推荐方法 | |
CN114841765A (zh) | 一种基于元路径邻域目标泛化的序列推荐方法 | |
CN112765474A (zh) | 一种基于深度协同过滤的推荐方法及系统 | |
Wang et al. | CHSR: Cross-view Learning from Heterogeneous Graph for Session-Based Recommendation | |
CN118552261B (zh) | 基于多梯度兴趣上下文网络的点击率预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |