CN112883170B - 一种用户反馈引导的自适应对话推荐方法和系统 - Google Patents
一种用户反馈引导的自适应对话推荐方法和系统 Download PDFInfo
- Publication number
- CN112883170B CN112883170B CN202110073633.5A CN202110073633A CN112883170B CN 112883170 B CN112883170 B CN 112883170B CN 202110073633 A CN202110073633 A CN 202110073633A CN 112883170 B CN112883170 B CN 112883170B
- Authority
- CN
- China
- Prior art keywords
- user
- feedback
- attribute
- preference
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000003044 adaptive effect Effects 0.000 claims abstract description 36
- 230000006978 adaptation Effects 0.000 claims abstract description 20
- 230000000694 effects Effects 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 25
- 230000003993 interaction Effects 0.000 claims description 16
- 238000004220 aggregation Methods 0.000 claims description 15
- 230000004931 aggregating effect Effects 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 claims description 10
- 230000002776 aggregation Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 abstract description 3
- 230000007246 mechanism Effects 0.000 description 4
- 230000007774 longterm Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种用户反馈引导的自适应对话推荐方法和系统,其特征在于包括以下步骤:1)获取日志数据,包括日志数据中收集的历史用户活动以及物品和属性之间的关系;2)基于获取的日志数据以及用户的在线反馈,构建反馈引导的偏好适应网络模型;其中,用户的在线反馈包括属性级反馈和物品级反馈;3)基于当前对话状态以及反馈引导的偏好适应网络模型与用户进行交互,交互内容包括选择询问某个属性或作出推荐,并基于用户的在线反馈确定对话结束或进入下一轮对话。本发明可以广泛应用对话推荐系统。
Description
技术领域
本发明涉及一种用户反馈引导的自适应对话推荐方法和系统,属于对话推荐系统领域。
背景技术
在如今信息化的时代,推荐系统发挥着越来越重要的作用。传统的推荐系统大多通过离线历史数据来构建模型,而用户的偏好是多样的,易随时间变化,仅根据历史数据难以得知用户此时的确切意图。
对话推荐系统可以通过自然语言的方式与用户进行交互,快速捕获用户意图,并推荐合适的物品。具体来讲,对话推荐系统是通过与用户的多轮对话来获取用户的当前偏好。它不仅基于过去的用户物品交互历史,还通过收集用户的在线反馈,实现可靠地估计用户当前意图。
虽然对话推荐系统已有了一些研究成果,但在其模型设计方面仍存在一些不足。例如,对话推荐系统中现有的用户偏好模型通常将用户的在线反馈信息作为独立的特征或训练实例,这忽略了在多轮对话推荐系统场景下,细粒度的属性级反馈和粗粒度的物品级反馈之间的层次关系。用户拒绝推荐的某个物品的原因并非不喜欢该物品的所有属性,可能只是不喜欢其中的某些属性,但直接将用户反馈作为训练实例将降低与该物品关联的所有属性的得分。
发明内容
针对上述问题,本发明的目的是提供一种用户反馈引导的自适应对话推荐方法和系统,针对多轮对话推荐系统提出一种新的用户偏好预测模型,称为反馈引导的偏好自适应网络(FPAN)。在FPAN中,根据在线属性级别的反馈,设计了两个门控模块,分别用于修改用户的嵌入和物品级别的反馈。门控模块利用细粒度的属性级别反馈来修改粗粒度的物品级别反馈和用户嵌入,通过考虑层次关系来更精确地识别触发用户拒绝物品的原因,从而实现更准确的用户偏好预测,以提升推荐的成功率。
为实现上述目的,本发明采取以下技术方案:
本发明的第一个方面,是提供一种用户反馈引导的自适应对话推荐方法,其包括以下步骤:
1)获取日志数据,包括日志数据中收集的历史用户活动以及物品和属性之间的关系;
2)基于获取的日志数据以及用户的在线反馈,构建反馈引导的偏好适应网络模型;其中,用户的在线反馈包括属性级反馈和物品级反馈;
3)基于当前对话状态以及反馈引导的偏好适应网络模型与用户进行交互,交互内容包括选择询问某个属性或作出推荐,并基于用户的在线反馈确定对话结束或进入下一轮对话。
进一步,所述步骤2)中,构建反馈引导的偏好适应网络模型的方法,包括以下步骤:
2.1)基于日志数据中收集的历史用户活动以及物品和属性之间的关系,得到用户、物品和属性的嵌入表示;
2.2)基于步骤2.1)中用户、物品和属性的初始节点表示以及当前对话中的用户在线反馈信息进行自适应学习,得到不同的反馈信号;
2.3)对步骤2.2)中得到的不同的反馈信号进行聚合,得到用户偏好表示,将其分别与物品嵌入和属性嵌入进行点积,得到反馈引导的偏好适应网络模型;
2.4)确定损失函数,并对步骤2.3)中聚合得到的反馈引导的偏好适应网络模型进行训练,得到模型参数。
进一步,所述步骤2.1)中,用户、物品和属性的嵌入表示的获得方法,包括以下步骤:
2.1.1)基于利用用户活动以及物品和属性之间的关系,构造一个无向的异质三部图;其中,该异质三部图包括用户、物品和属性三类节点集合以及用户和物品的交互、物品和属性的关系两种类型的边;
2.1.2)将步骤2.1.1)构造的异质三部图,输入GraphSAGE图神经网络,通过学习节点表示,得到用户、物品和属性的嵌入表示。
进一步,所述步骤2.1.2)中,得到用户、物品和属性的初始节点表示的方法,包括以下步骤:
2.1.2.1)进行当前节点表示,为每个用户、物品或属性节点分配一个唯一的节点索引,并将该节点索引通过节点嵌入矩阵转换为一个d维的向量表示;
2.1.2.2)进行邻居节点表示,为每个邻居节点,生成一个邻居嵌入矩阵;
2.1.2.3)用一个聚合函数将当前节点表示和邻居节点表示结合起来,得到节点的初始表示,如下式所示:
其中,为节点v的第k+1、k层表示;σ为LeakyReLU激活函数;W1 k、/>为训练参数,且/>N(v)为节点v的邻居节点集合;v'是节点v的邻居节点,/>是邻居节点v'的第k层表示;
2.1.2.4)通过聚合不同层生成的节点表示,得到最终的节点的嵌入表示:
其中,ev是节点v的嵌入表示;为节点v的第j层表示;L表示总层数。
进一步,所述步骤2.2)中,得到不同的反馈信号的方法,包括以下步骤:
2.2.1)从当前对话中获取用户反馈信息,该用户反馈信息包括一组正面属性反馈一组负面属性反馈/>和一组拒绝物品/>
2.2.2)对用户u及其在当前对话中提供的正面属性反馈进行聚合,得到表示属性级别上的正反馈信号/>
2.2.3)对于每个拒绝物品,将该拒绝物品的初始嵌入、属性级别上的正反馈信号以及该拒绝物品与属性级别上的正反馈信号/>的相似度输入第一门控模块,并最终聚合得到表示物品级别上的负反馈信号/>
2.2.4)对用户u及其在当前对话中提供的负面属性反馈进行聚合,得到表示属性级别上的负反馈信号/>
2.2.5)基于得到的表示属性级别上的负反馈信号表示用户一般兴趣的用户嵌入eu以及第二门控模块,使得用户初始嵌入适应于属性级别上的负反馈信号,得到自适应的用户嵌入信号eu′。
进一步,所述步骤2.3)中,对不同的反馈信号进行聚合的方法为:
首先,对不同的反馈信号进行聚合,得到联合用户偏好表示,如下式所示:
其中,“-”表示负反馈信息;
其次,基于联合用户偏好表示,得到任一用户和物品之前以及任一用户和属性之间的关联分数:
式中,表示任一用户和物品之间的关联分数;/>表示任一用户和属性之间的关联分数;ei为物品的嵌入表示;ea为属性的嵌入表示。
进一步,所述步骤2.4)中,对步骤2.3)中得到的反馈引导的偏好适应网络模型中的参数进行训练时,训练目标为:
其中,‖Θ‖2是避免过拟合的正则化项,λ是正则化参数;为物品偏好预测损失;为属性偏好预测损失。
进一步,所述物品偏好预测损失为:
式中,分别为在训练集/>和/>上进行训练的损失函数,且:
式中,为用于训练的物品对;σ为sigmoid函数;为用于训练的物品对;
所述属性偏好预测损失为:
式中,为用于训练的属性对集合。
本发明的第二个方面,是提供一种用户反馈引导的自适应对话推荐系统,其包括:
历史数据获取模块、FPAN模块和对话模块;
所述历史数据获取模块用于获取日志数据中的历史用户活动以及物品和属性之间的关系;
所述FPAN模块用于基于获取的历史数据以及在线用户的反馈,构建反馈引导的偏好适应网络模型;
所述对话模块用于基于构建的反馈引导的偏好适应网络模型以及当前对话状态,与用户进行交互,交互内容包括选择询问某个属性或作出推荐,同时将用户的在线反馈返回FPAN模块,并基于用户的在线反馈确定对话结束或进入下一轮对话。
进一步,所述FPAN模块包括离线表示学习模块、在线用户偏好自适应模块以及模型构建模块;
所述离线表示学习模块用于根据日志数据中收集的历史用户活动以及物品和属性之间的关系来学习用户、物品和属性的嵌入表示;
所述在线用户偏好自适应模块用于根据用户、物品和属性的嵌入表示以及与用户的在线交互,对用户偏好进行自适应学习,得到不同的反馈信号;
所述模型构建模块用于对不同的反馈信号进行聚合,并对得到的聚合结果进行模型训练,得到反馈引导的偏好适应网络模型。
本发明由于采取以上技术方案,其具有以下优点:本发明针对对话推荐系统中将用户的在线反馈直接作为训练实例,忽略属性级反馈和物品级反馈之间的层次关系的问题,提出了一种在多轮对话推荐场景下,用户偏好与在线反馈相适应的新模型FPAN。模型利用GNN学习离线表示,利用两个门控模块结合反馈信号之间的层次关系对在线反馈信息进行聚合,从而或者自适应的用户偏好表示。实验表明我们的方法具有更高的属性预测和物品预测准确率,同时对话轮数更短,推荐成功率更高。
附图说明
图1是本发明一实施例公开的用户反馈引导的自适应对话推荐方法的流程图;
图2是本发明一实施例公开的FPAN的工作流程图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
如图1、图2所示,本发明提供的一种用户反馈引导的自适应对话推荐系统,包括历史数据获取模块、FPAN模块(反馈引导的偏好适应网络模块)和对话模块。历史数据获取模块用于获取日志数据中的历史用户活动以及物品和属性之间的关系;FPAN模块用于基于获取的历史数据以及在线用户的反馈(包括属性级反馈和物品级反馈),构建反馈引导的偏好适应网络模型;对话模块用于基于构建的反馈引导的偏好适应网络模型以及当前对话状态,包括对话历史,来自FPAN模块的用户偏好预测结果等,与用户进行交互,交互内容包括选择询问某个属性或作出推荐等,同时将用户的在线反馈返回FPAN模块,并基于用户的在线反馈确定对话结束或进入下一轮对话。
多轮对话推荐系统一般从用户指定一个偏好的属性开始对话。在每一轮,多轮对话推荐系统会选择一个动作:询问属性或进行推荐。若多轮对话推荐系统选择询问属性,即用户是否喜欢某一个属性,用户将会用“是”或“否”来做出反馈,进而得到属性级反馈。如果多轮对话推荐系统选择进行推荐,即推荐给用户一个候选物品列表,用户会检查该候选物品列表中是否包含他想要的物品,进而得到物品级反馈。如果用户接受了多轮对话推荐系统的推荐或者时间太长而离开对话,则整个对话过程到此结束。
进一步,FPAN模块包括离线表示学习模块、在线用户偏好自适应模块以及模型构建模块。其中,离线表示学习模块用于根据日志数据中收集的历史用户活动以及物品和属性之间的关系来学习用户、物品和属性的嵌入表示;在线用户偏好自适应模块用于根据用户、物品和属性的嵌入表示以及与用户的在线交互,对用户偏好进行自适应学习,得到不同的反馈信号;模型构建模块用于对不同的反馈信号进行聚合,并对得到的聚合结果进行模型训练,得到反馈引导的偏好适应网络模型。
针对现有的对话推荐系统忽略属性级反馈和物品级反馈之间的层次关系的问题,本发明提供了一种新的用户偏好预测模型——反馈引导的偏好适应网络(FPAN)。FPAN首先将用户,物品和属性表示为异构图中的节点,然后应用图神经网络(GNN)来学习节点嵌入。为了捕获物品级反馈和属性级反馈之间的层次关系,FPAN设计了一个门控模块,根据用户已告知的偏好属性修改拒绝物品的嵌入,从而获得具有用户当前不喜欢的属性的物品级表示。类似地,在FPAN中设计了另一个门控模块,根据用户告知的不喜欢属性来修改用户嵌入,从而获得具有其当前偏好的用户表示。再通过新的用户和物品表示来预测用户对属性和物品的偏好。
具体的,本发明提供的一种用户反馈引导的自适应对话推荐方法,包括以下步骤:
1)获取日志数据,包括日志数据中收集的历史用户活动以及物品和属性之间的关系。
2)在线用户偏好自适应:基于获取的历史日志数据以及用户的在线反馈(包括属性级反馈和物品级反馈),得到反馈引导的偏好适应网络模型。
具体的,包括以下步骤:
2.1)离线表示学习:基于日志数据中收集的历史用户活动以及物品和属性之间的关系来学习用户、物品和属性的节点表示,得到用户、物品和属性的初始节点表示。
具体的,包括以下步骤:
2.1.1)基于历史用户活动以及物品和属性之间的关系,构造一个无向的异质三部图。其中,该异质三部图包括用户、物品和属性三类节点集合以及用户和物品的交互、物品和属性的关系两种类型的边。
如图2所示,令表示构造的异质三部图,其中,/> 为节点集,其内节点采用v表示,/>为用户集、/>为物品集,/>为属性集;ε为边,包含两种类型的边:用户-物品边(u、i)和物品-属性边(i,a)。
2.1.2)将步骤2.1.1)构造的异质三部图,输入GraphSAGE图神经网络,通过学习节点表示,得到用户、物品和属性的嵌入表示。
具体的,包括以下步骤:
2.1.2.1)进行当前节点表示,即为每个用户、物品或属性节点分配一个唯一的节点索引,并将该节点索引通过节点嵌入矩阵转换为一个d维的向量表示。
2.1.2.2)进行邻居节点表示,即为每个邻居节点,生成一个邻居嵌入矩阵;
2.1.2.3)用一个聚合函数将当前节点表示和邻居节点表示结合起来,得到节点的初始表示,如下式所示:
其中,为节点v的第k+1、k层表示;σ为LeakyReLU激活函数;W1 k、/>为训练参数,且/>N(v)为节点v的邻居节点集合;v'是节点v的邻居节点,/>是邻居节点v'的第k层表示。
2.1.2.4)为了在不同层捕获不同的语义信息,且避免在最后一层嵌入过平滑,通过聚合不同层生成的节点表示得到最终的节点表示,如下式所示:
式中,ev是节点v的嵌入表示;为节点v的第j层表示;L表示总层数。
2.2)在线用户偏好自适应:基于步骤2.1)中用户、物品和属性的初始节点表示以及当前对话中的用户在线反馈信息进行自适应学习,得到不同的反馈信号。
具体的,包括以下步骤:
2.2.1)从当前对话中获取用户反馈信息,该用户反馈信息包括一组正面属性反馈一组负面属性反馈/>和一组拒绝物品/>
对于在线交互,假设用户开始了对话,则当前对话中的用户反馈信息包括一组正面属性一组负面属性/>和一组拒绝物品/>它们对应的用户嵌入记为eu,和/>其中,/>为正面属性a+的嵌入表示,/>为负面属性a-的嵌入表示,/>为被拒绝物品i-的嵌入表示。
2.2.2)对用户u及其在当前对话中提供的正面属性反馈进行聚合,得到表示属性级别上的正反馈信号/>
由于用户拒绝某个物品往往只是由于它的部分属性,直接利用拒绝物品作为训练实例会影响所有关联的属性。这不可避免地会损害推荐的效果,因为被拒绝的物品还与目标物品共享某些属性。幸运的是,本发明已经观察到在物品级反馈/>和属性级反馈/>之间存在层次关系,可以用来缓解上述问题。例如,用户拒绝了推荐的“红色iPhone”,且用户在先前的回合中明确表达了对“红色”的偏好,则触发拒绝的真正原因可能是“苹果品牌”属性。
因此本发明使用门控机制对物品级反馈和属性级反馈之间的层次关系进行建模,以得到自适应的拒绝物品表示。具体来说,给定用户u和他在当前对话中提供的正面属性反馈这些属性的嵌入被聚合成一个向量:
其中,为属性级别上的正反馈信号,AGGREGATE代表MEAN函数。
2.2.3)对于每个拒绝物品,将该拒绝物品的初始嵌入、属性级别上的正反馈信号以及该拒绝物品与属性级别上的正反馈信号/>的相似度输入第一门控模块,并最终聚合得到表示物品级别上的负反馈信号/>
具体的,首先,应用第一门控模块使得每个拒绝物品的初始嵌入适应于属性级别上的正反馈信号,得到自适应的物品嵌入/>
其中,表示自适应的物品嵌入;⊙表示按元素乘,/>表示拒绝物品的初始嵌入;表示门向量(门向量是门控函数的输出),且其定义如下:
其中,Concat表示连接所有的输入向量;σ是sigmoid函数;W3为权重矩阵,且b3为偏差向量,且/> 为在属性级别上的正反馈信号;/>为拒绝物品的初始嵌入;/>为物品与属性级别上的正反馈信号的相似度。第一门控模块将拒绝物品的初始嵌入/>属性级别的正反馈信号以及拒绝物品在属性级别上的相似度作为输入,以控制来自拒绝物品的信息传递。本发明中,第一门控模块采用一层全连接层作为门控函数。
其次,将得到的自适应的物品嵌入聚合成向量/>用于表示物品级别上的负反馈信号。如下式所示:
其中,为物品级别上的负反馈信号;i-为被拒绝物品;/>为拒绝物品集合;/>为被拒绝物品的自适应嵌入。
2.2.4)对用户u及其在当前对话中提供的负面属性反馈进行聚合,得到表示属性级别上的负反馈信号/>
在多轮对话推荐系统中,用户在当前对话中的反馈反映了用户的当前意图(即短期偏好),而用户的长期偏好通常来自于历史数据。因此平衡用户的短期偏好和长期偏好对于对话推荐系统有重要意义。
在多轮对话推荐系统中,用户在属性级别的负反馈可以被用于平衡用户的长期偏好和短期偏好。例如,从用户的历史交互中,系统得出“红色iphone”是用户的一般兴趣。但是,如果用户在当前对话中表示不喜欢“苹果品牌”属性,则应将一般兴趣调整为“红色手机”。因此,本发明基于门控机制使用户的一般兴趣eu适应于负面属性反馈
同理,给定用户u和当前对话中提供的负面属性反馈这些属性的嵌入被平均聚合为一个向量/>即
其中,为属性级别上的负反馈信号。
2.2.5)基于得到的表示属性级别上的负反馈信号表示用户一般兴趣的用户嵌入eu以及第二门控模块,使得用户初始嵌入适应于属性级别上的负反馈信号,得到自适应的用户嵌入eu′。
基于门控机制得到自适应的用户嵌入eu′为:
e′u=eu⊙gu (8)
其中,门控向量gu被定义为
其中,W4为权重矩阵,且b4为偏差向量,且/>
2.3)用户偏好预测:对步骤2.2)中得到的不同的反馈信号进行聚合,得到用户偏好表示,将其分别与物品嵌入和属性嵌入进行点积,即可得到用户与物品之间、用户与属性之间的关联分数表达式,也即反馈引导的偏好适应网络模型。
本发明通过聚合不同的反馈信号得到用户的偏好表示,其中包括基于门控机制生成的表示以及用户明确表达的偏好属性,如下式所示:
其中,“-”表示负反馈信息。
给定任一物品i,用户u和物品i之间的关联分数可以被估计为物品的嵌入ei和联合用户偏好表示eall的点积:
类似地,给定任一属性a,用户u和属性a之间的关联分数可以被估计为属性的嵌入ea和联合用户偏好表示eall的点积:
2.4)模型训练:确定损失函数,并对步骤2.3)中得到的反馈引导的偏好适应网络模型中的参数进行训练,得到训练参数。
本发明采用成对的贝叶斯个性化排序方法训练模型。为了学习用户在物品和属性上的偏好,训练目标包括两个损失函数:物品偏好预测损失和属性偏好预测损失/>
给定一个对话目标物品i+被认为是正例,并从未交互物品中采样出负例,损失函数定义如下:
其中,表示在训练集/>上进行训练的损失函数;/>表示用于训练的物品对,σ是sigmoid函数;u为用户;/>分别为用户u的正面属性、负面属性和拒绝物品;i+为用户u偏好的物品,即目标物品;i-为用户u非偏好物品,其从用户的未交互物品集合中采样得到,记作/>其中,/>是用户u的历史交互物品集合;/>为物品集合。
除了直接将非交互物品作为用户不喜欢的物品采样之外,我们同时考虑用户对属性的反馈,可以得到更多非偏好物品用于训练:
其中,为用于训练的物品对,考虑将候选集中用户的未交互物品作为负例;/>为物品候选集。
物品偏好预测的最终损失函数为:
对于属性偏好预测,模型需要将目标物品的属性排序高于其他属性。因此对于给定对话/>属性偏好预测的损失函数定义为
其中,表示用于训练的属性对集合。偏好属性a+是目标物品除去已知的偏好属性的其他属性,非偏好属性a-则从与目标物品无关的属性中采样得到。
为了同时优化物品偏好和属性偏好的损失函数,本发明通过多任务训练来优化参数Θ,训练目标是:
其中,‖Θ‖2是避免过拟合的正则化项,λ是正则化参数。具体地说,用和/>对模型进行迭代优化。为了加快训练过程,应用动态负采样(DNS)自适应地挑选排序最高的负样本。这是因为DNS被认为是BPR损失最有效的采样器之一。
模型的训练流程如下:
3)用户偏好预测:基于当前对话状态以及反馈引导的偏好适应网络模型,与用户进行交互,交互内容包括选择询问某个属性或作出推荐等,并基于用户的在线反馈确定对话结束或进入下一轮对话。
上述各实施例仅用于说明本发明,其中各部件的结构、连接方式和制作工艺等都是可以有所变化的,凡是在本发明技术方案的基础上进行的等同变换和改进,均不应排除在本发明的保护范围之外。
Claims (8)
1.一种用户反馈引导的自适应对话推荐方法,其特征在于包括以下步骤:
1)获取日志数据,包括日志数据中收集的历史用户活动以及物品和属性之间的关系;
2)基于获取的日志数据以及用户的在线反馈,构建反馈引导的偏好适应网络模型;其中,用户的在线反馈包括属性级反馈和物品级反馈;
3)基于当前对话状态以及反馈引导的偏好适应网络模型与用户进行交互,交互内容包括选择询问某个属性或作出推荐,并基于用户的在线反馈确定对话结束或进入下一轮对话;
所述步骤2)中,构建反馈引导的偏好适应网络模型的方法,包括以下步骤:
2.1)基于日志数据中收集的历史用户活动以及物品和属性之间的关系,得到用户、物品和属性的嵌入表示;
2.2)基于步骤2.1)中用户、物品和属性的初始节点表示以及当前对话中的用户在线反馈信息进行自适应学习,得到不同的反馈信号;
2.3)对步骤2.2)中得到的不同的反馈信号进行聚合,得到用户偏好表示,将其分别与物品嵌入和属性嵌入进行点积,得到反馈引导的偏好适应网络模型;
2.4)确定损失函数,并对步骤2.3)中聚合得到的反馈引导的偏好适应网络模型进行训练,得到模型参数。
2.如权利要求1所述的一种用户反馈引导的自适应对话推荐方法,其特征在于:所述步骤2.1)中,用户、物品和属性的嵌入表示的获得方法,包括以下步骤:
2.1.1)基于利用用户活动以及物品和属性之间的关系,构造一个无向的异质三部图;其中,该异质三部图包括用户、物品和属性三类节点集合以及用户和物品的交互、物品和属性的关系两种类型的边;
2.1.2)将步骤2.1.1)构造的异质三部图,输入GraphSAGE图神经网络,通过学习节点表示,得到用户、物品和属性的嵌入表示。
3.如权利要求2所述的一种用户反馈引导的自适应对话推荐方法,其特征在于:所述步骤2.1.2)中,得到用户、物品和属性的初始节点表示的方法,包括以下步骤:
2.1.2.1)进行当前节点表示,为每个用户、物品或属性节点分配一个唯一的节点索引,并将该节点索引通过节点嵌入矩阵转换为一个d维的向量表示;
2.1.2.2)进行邻居节点表示,为每个邻居节点,生成一个邻居嵌入矩阵;
2.1.2.3)用一个聚合函数将当前节点表示和邻居节点表示结合起来,得到节点的初始表示,如下式所示:
其中,为节点v的第k+1、k层表示;σ为LeakyReLU激活函数;/> 为训练参数,且/>N(v)为节点v的邻居节点集合;v'是节点v的邻居节点,/>是邻居节点v'的第k层表示;
2.1.2.4)通过聚合不同层生成的节点表示,得到最终的节点的嵌入表示:
其中,ev是节点v的嵌入表示;为节点v的第j层表示;L表示总层数。
4.如权利要求2所述的一种用户反馈引导的自适应对话推荐方法,其特征在于:所述步骤2.2)中,得到不同的反馈信号的方法,包括以下步骤:
2.2.1)从当前对话中获取用户反馈信息,该用户反馈信息包括一组正面属性反馈一组负面属性反馈/>和一组拒绝物品/>
2.2.2)对用户u及其在当前对话中提供的正面属性反馈进行聚合,得到表示属性级别上的正反馈信号/>
2.2.3)对于每个拒绝物品,将该拒绝物品的初始嵌入、属性级别上的正反馈信号以及该拒绝物品与属性级别上的正反馈信号/>的相似度输入第一门控模块,并最终聚合得到表示物品级别上的负反馈信号/>
2.2.4)对用户u及其在当前对话中提供的负面属性反馈进行聚合,得到表示属性级别上的负反馈信号/>
2.2.5)基于得到的表示属性级别上的负反馈信号表示用户一般兴趣的用户嵌入eu以及第二门控模块,使得用户初始嵌入适应于属性级别上的负反馈信号,得到自适应的用户嵌入信号e′u。
5.如权利要求2所述的一种用户反馈引导的自适应对话推荐方法,其特征在于:所述步骤2.3)中,对不同的反馈信号进行聚合的方法为:
首先,对不同的反馈信号进行聚合,得到联合用户偏好表示,如下式所示:
其中,“-”表示负反馈信息,e′u为自适应的用户嵌入,为物品级别上的负反馈信号,/>表示属性级别上的正反馈信号,/>为属性级别上的负反馈信号;
其次,基于联合用户偏好表示,得到任一用户和物品之前以及任一用户和属性之间的关联分数:
式中,表示任一用户和物品之间的关联分数;/>表示任一用户和属性之间的关联分数;ei为物品的嵌入表示;ea为属性的嵌入表示,i为物品边,为正面属性;/>为负面属性;/>为拒绝物品;a为属性。
6.如权利要求1所述的一种用户反馈引导的自适应对话推荐方法,其特征在于:所述步骤2.4)中,对步骤2.3)中得到的反馈引导的偏好适应网络模型中的参数进行训练时,训练目标为:
其中,‖Θ‖2是避免过拟合的正则化项,λ是正则化参数;为物品偏好预测损失;/>为属性偏好预测损失。
7.如权利要求6所述的一种用户反馈引导的自适应对话推荐方法,其特征在于:所述物品偏好预测损失为:
式中,分别为在训练集/>和/>上进行训练的损失函数,且:
式中,为用于训练的物品对;σ为sigmoid函数;为用于训练的物品对;u为用户;i+为用户u偏好的物品;i-为用户u非偏好物品;/>为物品候选集;a+为偏好属性;a-为非偏好属性;
所述属性偏好预测损失为:
式中,为用于训练的属性对集合。
8.一种用户反馈引导的自适应对话推荐系统,其特征在于,包括:
历史数据获取模块、FPAN模块和对话模块;
所述历史数据获取模块用于获取日志数据中的历史用户活动以及物品和属性之间的关系;
所述FPAN模块用于基于获取的历史数据以及在线用户的反馈,构建反馈引导的偏好适应网络模型;
所述对话模块用于基于构建的反馈引导的偏好适应网络模型以及当前对话状态,与用户进行交互,交互内容包括选择询问某个属性或作出推荐,同时将用户的在线反馈返回FPAN模块,并基于用户的在线反馈确定对话结束或进入下一轮对话;
所述FPAN模块包括离线表示学习模块、在线用户偏好自适应模块以及模型构建模块;
所述离线表示学习模块用于根据日志数据中收集的历史用户活动以及物品和属性之间的关系来学习用户、物品和属性的嵌入表示;
所述在线用户偏好自适应模块用于根据用户、物品和属性的嵌入表示以及与用户的在线交互,对用户偏好进行自适应学习,得到不同的反馈信号;
所述模型构建模块用于对不同的反馈信号进行聚合,得到用户偏好表示,将其分别与物品嵌入和属性嵌入进行点积,得到反馈引导的偏好适应网络模型,并基于确定的损失函数对得到的聚合结果进行模型训练,得到模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110073633.5A CN112883170B (zh) | 2021-01-20 | 2021-01-20 | 一种用户反馈引导的自适应对话推荐方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110073633.5A CN112883170B (zh) | 2021-01-20 | 2021-01-20 | 一种用户反馈引导的自适应对话推荐方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112883170A CN112883170A (zh) | 2021-06-01 |
CN112883170B true CN112883170B (zh) | 2023-08-18 |
Family
ID=76050333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110073633.5A Active CN112883170B (zh) | 2021-01-20 | 2021-01-20 | 一种用户反馈引导的自适应对话推荐方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112883170B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113487379B (zh) * | 2021-06-24 | 2023-01-13 | 上海淇馥信息技术有限公司 | 一种基于对话式的产品推荐方法、装置和电子设备 |
CN113869992B (zh) * | 2021-12-03 | 2022-03-18 | 平安科技(深圳)有限公司 | 基于人工智能的产品推荐方法、装置、电子设备及介质 |
CN114445043B (zh) * | 2022-01-26 | 2022-12-16 | 安徽大学 | 基于开放生态化云erp异质图用户需求精准发现方法及系统 |
CN114925189A (zh) * | 2022-05-27 | 2022-08-19 | 中国第一汽车股份有限公司 | 一种基于车载对话的内容推荐方法、装置和存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105409197A (zh) * | 2013-03-15 | 2016-03-16 | 趣普科技公司 | 用于提供持久伙伴装置的设备和方法 |
CN110175227A (zh) * | 2019-05-10 | 2019-08-27 | 神思电子技术股份有限公司 | 一种基于组队学习和层级推理的对话辅助系统 |
CN110298770A (zh) * | 2019-06-25 | 2019-10-01 | 四川长虹电器股份有限公司 | 一种食谱推荐系统 |
CN110543586A (zh) * | 2019-09-04 | 2019-12-06 | 北京百度网讯科技有限公司 | 多重用户身份融合方法、装置、设备及存储介质 |
CN110910218A (zh) * | 2019-11-21 | 2020-03-24 | 南京邮电大学 | 一种基于深度学习的多行为迁移推荐方法 |
CN111026932A (zh) * | 2019-12-20 | 2020-04-17 | 北京百度网讯科技有限公司 | 人机对话交互方法、装置、电子设备和存储介质 |
CN111222054A (zh) * | 2020-01-03 | 2020-06-02 | 中国计量大学 | 一种基于上下文邻居关系建模的会话社交推荐方法 |
CN111625688A (zh) * | 2019-11-28 | 2020-09-04 | 京东数字科技控股有限公司 | 一种基于异构网络的特征聚合方法、装置、设备和存储介质 |
CN112037539A (zh) * | 2020-07-31 | 2020-12-04 | 银江股份有限公司 | 一种用于饱和城市交通网络的信控方案推荐方法及系统 |
CN112069398A (zh) * | 2020-08-24 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 一种基于图网络的信息推送方法及装置 |
CN112236766A (zh) * | 2018-04-20 | 2021-01-15 | 脸谱公司 | 用个性化和上下文的通信内容帮助用户 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018000278A1 (zh) * | 2016-06-29 | 2018-01-04 | 深圳狗尾草智能科技有限公司 | 一种基于状态机上下文敏感多轮对话管理系统及方法 |
US11341422B2 (en) * | 2017-12-15 | 2022-05-24 | SHANGHAI XIAOl ROBOT TECHNOLOGY CO., LTD. | Multi-round questioning and answering methods, methods for generating a multi-round questioning and answering system, and methods for modifying the system |
US11509770B2 (en) * | 2018-09-25 | 2022-11-22 | International Business Machines Corporation | Live agent recommendation for a human-robot symbiosis conversation system |
-
2021
- 2021-01-20 CN CN202110073633.5A patent/CN112883170B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105409197A (zh) * | 2013-03-15 | 2016-03-16 | 趣普科技公司 | 用于提供持久伙伴装置的设备和方法 |
CN112236766A (zh) * | 2018-04-20 | 2021-01-15 | 脸谱公司 | 用个性化和上下文的通信内容帮助用户 |
CN110175227A (zh) * | 2019-05-10 | 2019-08-27 | 神思电子技术股份有限公司 | 一种基于组队学习和层级推理的对话辅助系统 |
CN110298770A (zh) * | 2019-06-25 | 2019-10-01 | 四川长虹电器股份有限公司 | 一种食谱推荐系统 |
CN110543586A (zh) * | 2019-09-04 | 2019-12-06 | 北京百度网讯科技有限公司 | 多重用户身份融合方法、装置、设备及存储介质 |
CN110910218A (zh) * | 2019-11-21 | 2020-03-24 | 南京邮电大学 | 一种基于深度学习的多行为迁移推荐方法 |
CN111625688A (zh) * | 2019-11-28 | 2020-09-04 | 京东数字科技控股有限公司 | 一种基于异构网络的特征聚合方法、装置、设备和存储介质 |
CN111026932A (zh) * | 2019-12-20 | 2020-04-17 | 北京百度网讯科技有限公司 | 人机对话交互方法、装置、电子设备和存储介质 |
CN111222054A (zh) * | 2020-01-03 | 2020-06-02 | 中国计量大学 | 一种基于上下文邻居关系建模的会话社交推荐方法 |
CN112037539A (zh) * | 2020-07-31 | 2020-12-04 | 银江股份有限公司 | 一种用于饱和城市交通网络的信控方案推荐方法及系统 |
CN112069398A (zh) * | 2020-08-24 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 一种基于图网络的信息推送方法及装置 |
Non-Patent Citations (1)
Title |
---|
Kerui Xu 等.Adapting User Preference to Online Feedback in Multi-round Conversational Recommendation.《WSDM '21: Proceedings of the 14th ACM International Conference on Web Search and Data Mining》.2021,364-372. * |
Also Published As
Publication number | Publication date |
---|---|
CN112883170A (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112883170B (zh) | 一种用户反馈引导的自适应对话推荐方法和系统 | |
WO2023108324A1 (zh) | 对比学习增强的双流模型推荐系统及算法 | |
CN108648049A (zh) | 一种基于用户行为区别建模的序列推荐方法 | |
CN111199458B (zh) | 一种基于元学习与强化学习的推荐系统 | |
CN110209954B (zh) | 基于lda主题模型和深度学习的群组推荐方法 | |
CN113420221B (zh) | 融合用户隐式物品偏好与显式特征偏好的可解释推荐方法 | |
Zarzour et al. | RecDNNing: a recommender system using deep neural network with user and item embeddings | |
Zhao et al. | Rabbit holes and taste distortion: Distribution-aware recommendation with evolving interests | |
Gui et al. | Mention recommendation in twitter with cooperative multi-agent reinforcement learning | |
CN116842258A (zh) | 一种基于元路径的上下文进行特征增强的群组推荐方法 | |
CN115470406A (zh) | 一种基于双通道信息融合的图神经网络会话推荐方法 | |
Geishauser et al. | Dynamic dialogue policy for continual reinforcement learning | |
CN116738053A (zh) | 一种基于文本蕴含的跨域新闻推荐系统及推荐方法 | |
CN114547466B (zh) | 一种基于深度强化学习的信息多样性推荐方法 | |
He et al. | Conversation and recommendation: knowledge-enhanced personalized dialog system | |
Hao et al. | Self‐supervised graph learning for occasional group recommendation | |
CN112486467B (zh) | 一种双重交互关系和注意力机制的交互式服务推荐方法 | |
Li et al. | Tell me where to go next: Improving poi recommendation via conversation | |
CN117556142A (zh) | 一种基于注意力网络的会话感知推荐方法、装置和介质 | |
CN117056609A (zh) | 一种基于多层聚合增强对比学习的会话推荐方法 | |
Babeetha et al. | An enhanced kernel weighted collaborative recommended system to alleviate sparsity | |
Zhang et al. | Neural collaborative filtering recommendation algorithm based on popularity feature | |
Korotaev et al. | Method for the Development of Recommendation Systems, Customizable to Domains, with Deep GRU Network. | |
Wang et al. | DMFP: A dynamic multi-faceted fine-grained preference model for recommendation | |
CN116091167A (zh) | 一种基于多任务学习框架的团购推荐模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |