CN116862000A - 一种生成式人工智能的因果思维链生成方法、装置及设备 - Google Patents
一种生成式人工智能的因果思维链生成方法、装置及设备 Download PDFInfo
- Publication number
- CN116862000A CN116862000A CN202311118754.2A CN202311118754A CN116862000A CN 116862000 A CN116862000 A CN 116862000A CN 202311118754 A CN202311118754 A CN 202311118754A CN 116862000 A CN116862000 A CN 116862000A
- Authority
- CN
- China
- Prior art keywords
- causal
- feature
- coding
- chain
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001364 causal effect Effects 0.000 title claims abstract description 538
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 82
- 239000013598 vector Substances 0.000 claims abstract description 198
- 238000012216 screening Methods 0.000 claims abstract description 155
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000010606 normalization Methods 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 230000003340 mental effect Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 abstract description 4
- 230000004927 fusion Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 208000002193 Pain Diseases 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010019233 Headaches Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种生成式人工智能的因果思维链生成方法、装置及设备,涉及生成式人工智能技术领域,以解决多模态输入的因果思维链难以生成的问题,该方法包括:根据获取的待预测图像和问题文本,利用预训练语言模型编码器,得到图文编码特征;对图文编码特征和初始化因果链向量进行因果链编码,得到因果链筛选特征;根据图文编码特征和因果链筛选特征,利用预训练语言模型解码器,获取因果链节点预测文本;本发明通过初始化因果链向量的设置,实现因果思维链的结构化构建,利用初始化因果链向量中因果思维链的因果节点和边对应的向量与多模态特征进行融合计算和特征筛选,从而以文本模态描述生成式人工智能的因果思维链。
Description
技术领域
本发明涉及生成式人工智能技术领域,特别涉及一种生成式人工智能的因果思维链生成方法、装置、设备及计算机可读存储介质。
背景技术
随着ChatGPT(Chat Generative Pre-trained Transformer,一种聊天机器人程序)的诞生,生成式人工智能(Generative AI,GAI)技术再度成为人工智能领域的研究热点,许多研究人员已经开始探索蕴含在预训练语言模型中的推理能力;预训练语言模型是一种可以帮助计算机更好地理解自然语言的机器学习技术,它在自然语言处理领域中具有广泛的应用价值。研究发现,在与预训练语言模型对话的过程中,在提示语中加入鼓励的内容会推动生成文本的推理过程,虽然一些研究人员已经开始分析预训练语言模型中体现的因果或反事实推理能力,但这些现有的研究工作并没有探索多模态下的因果思维的逐步推理的过程,无法实现多模态下的因果思维链(即因果链)生成。
因此,如何能够实现生成式人工智能的多模态的因果思维链生成,展示生成式人工智能的推理过程,是现今急需解决的问题。
发明内容
本发明的目的是提供一种生成式人工智能的因果思维链生成方法、装置、设备及计算机可读存储介质,能够实现生成式人工智能的多模态的因果思维链生成,以文本模态描述生成式人工智能的推理变化,展示生成式人工智能的推理过程。
为解决上述技术问题,本发明提供一种生成式人工智能的因果思维链生成方法,包括:
根据获取的待预测图像和问题文本,利用预训练语言模型编码器,得到图文编码特征;
对所述图文编码特征和初始化因果链向量进行因果链编码,得到因果链筛选特征;其中,所述初始化因果链向量包括可见节点嵌入向量、不可见节点嵌入向量、因果边嵌入向量和条件边嵌入向量,所述因果链筛选特征包括节点筛选特征和边筛选特征,所述因果链筛选特征的大小为所述初始化因果链向量的一半;
根据所述图文编码特征和所述因果链筛选特征,利用预训练语言模型解码器,获取因果链节点预测文本。
在一些实施例中,所述对所述图文编码特征和初始化因果链向量进行因果链编码,得到因果链筛选特征之前,还包括:
利用嵌入层,初始化生成所述初始化因果链向量。
在一些实施例中,所述对所述图文编码特征和初始化因果链向量进行因果链编码,得到因果链筛选特征,包括:
对所述图文编码特征和初始化因果链向量进行编码,得到因果链编码特征;
对所述因果链编码特征进行特征筛选,得到所述因果链筛选特征。
在一些实施例中,所述对所述图文编码特征和初始化因果链向量进行编码,得到因果链编码特征,包括:
利用跨注意力层、自注意力层、归一化层和丢弃层,对所述图文编码特征和初始化因果链向量进行编码,得到所述因果链编码特征。
在一些实施例中,所述对所述图文编码特征和初始化因果链向量进行编码,得到因果链编码特征,包括:
利用编码跨注意力层、自注意力层、归一化层和丢弃层,对所述图文编码特征和初始化因果链向量进行编码,得到因果链第一编码特征;
利用拆分跨注意力层,对所述因果链第一编码特征进行拆分编码,得到所述因果链编码特征。
在一些实施例中,所述利用编码跨注意力层、自注意力层、归一化层和丢弃层,对所述图文编码特征和初始化因果链向量进行编码,得到因果链第一编码特征,包括:
利用所述编码跨注意力层,以所述初始化因果链向量为查询目标,对所述图文编码特征和初始化因果链向量进行编码,得到第一编码特征;
利用第一归一化层和第一丢弃层,对所述第一编码特征进行处理,得到第二编码特征;
利用所述自注意力层,对所述第二编码特征进行编码,得到第三编码特征;
利用第二归一化层和第二丢弃层,对所述第三编码特征进行处理,得到第四编码特征;其中,所述归一化层包括所述第一归一化层和所述第二归一化层,所述丢弃层包括所述第一丢弃层和所述第二丢弃层;
对所述第四编码特征和所述初始化因果链向量进行组合,得到所述因果链第一编码特征。
在一些实施例中,所述对所述第四编码特征和所述初始化因果链向量进行组合,得到所述因果链第一编码特征之后,还包括:
判断因果向量编码次数是否达到次数阈值;
若是,则执行所述利用拆分跨注意力层,对所述因果链第一编码特征进行拆分编码,得到所述因果链编码特征的步骤;
若否,则将所述因果链第一编码特征确定为所述初始化因果链向量,并执行所述利用所述编码跨注意力层,以所述初始化因果链向量为查询目标,对所述图文编码特征和初始化因果链向量进行编码,得到第一编码特征的步骤,以更新所述因果链第一编码特征。
在一些实施例中,所述利用拆分跨注意力层,对所述因果链第一编码特征进行拆分编码,得到所述因果链第一编码特征,包括:
将所述因果链第一编码特征拆分为节点部分特征和边部分特征;
利用第一跨注意力层,以所述节点部分特征为查询目标,对所述节点部分特征和边部分特征进行编码,得到节点编码特征;
对所述节点编码特征和所述节点部分特征进行组合,得到节点部分编码特征;
利用第二跨注意力层,以所述边部分特征为查询目标,对所述节点部分特征和边部分特征进行编码,得到边编码特征;
对所述边编码特征和所述边部分特征进行组合,得到边部分编码特征;
根据所述节点部分编码特征和所述边部分编码特征,获取所述因果链编码特征。
在一些实施例中,所述对所述节点编码特征和所述节点部分特征进行组合,得到节点部分编码特征,包括:
对所述节点编码特征和所述节点部分特征进行拼接,得到所述节点部分编码特征。
在一些实施例中,所述对所述因果链编码特征进行特征筛选,得到所述因果链筛选特征,包括:
对所述因果链编码特征进行拆分,得到可见节点编码特征、不可见节点编码特征、因果边编码特征和条件边编码特征;
利用筛选自注意力层和筛选全连接层,分别对所述可见节点编码特征、所述不可见节点编码特征、所述因果边编码特征和所述条件边编码特征进行编码,得到可见节点稀疏特征、不可见节点稀疏特征、因果边稀疏特征和条件边稀疏特征;
根据所述可见节点稀疏特征和所述不可见节点稀疏特征,确定所述节点筛选特征;其中,所述节点筛选特征为所述可见节点编码特征或所述不可见节点编码特征;
根据所述因果边稀疏特征和所述条件边稀疏特征,确定所述边筛选特征;其中,所述边筛选特征为所述因果边编码特征或所述条件边编码特征;
对所述节点筛选特征和所述边筛选特征进行组合,得到所述因果链筛选特征。
在一些实施例中,所述根据所述可见节点稀疏特征和所述不可见节点稀疏特征,确定所述节点筛选特征,包括:
检测所述可见节点稀疏特征和所述不可见节点稀疏特征中的最大节点稀疏特征;
若所述最大节点稀疏特征为所述可见节点稀疏特征中的节点稀疏特征,则将所述可见节点编码特征确定为所述节点筛选特征;
若所述最大节点稀疏特征为所述不可见节点稀疏特征中的节点稀疏特征,则将所述不可见节点编码特征确定为所述节点筛选特征。
在一些实施例中,所述对所述因果链编码特征进行拆分,得到可见节点编码特征、不可见节点编码特征、因果边编码特征和条件边编码特征,包括:
对所述因果链编码特征进行拆分,得到节点拆分特征和边拆分特征;
分别对所述节点拆分特征和所述边拆分特征进行拆分,得到所述可见节点编码特征、所述不可见节点编码特征、所述因果边编码特征和所述条件边编码特征。
在一些实施例中,所述根据获取的待预测图像和问题文本,利用预训练语言模型编码器,得到图文编码特征,包括:
获取所述待预测图像和所述待预测图像对应的问题文本;
根据所述待预测图像和所述问题文本,获取图文组合特征;其中,所述图文组合特征包括所述待预测图像对应的图像特征编码特征和所述问题文本对应的文本嵌入向量;
利用所述预训练语言模型编码器对所述图文组合特征进行编码,得到所述图文编码特征。
在一些实施例中,所述根据所述待预测图像和所述问题文本,获取图文组合特征,包括:
利用图像编码器对所述待预测图像进行特征提取,得到所述图像特征编码特征;
利用嵌入层对所述问题文本进行文本编码,得到所述文本嵌入向量;
对所述图像特征编码特征和所述文本嵌入向量进行组合,得到所述图文组合特征。
在一些实施例中,所述根据所述图文编码特征和所述因果链筛选特征,利用预训练语言模型解码器,获取因果链节点预测文本,包括:
对所述图文编码特征和所述因果链筛选特征进行组合,得到因果组合特征;
利用所述预训练语言模型解码器对所述因果组合特征进行解码,获取所述因果链节点预测文本。
在一些实施例中,所述图文编码特征、所述初始化因果链向量和所述因果链筛选特征的维度均为预设维度。
在一些实施例中,所述根据所述图文编码特征和所述因果链筛选特征,利用预训练语言模型解码器,获取因果链节点预测文本,包括:
根据所述图文编码特征和所述因果链筛选特征,利用所述预训练语言模型解码器,得到当前输出文本;
判断是否达到预测终止条件;
若达到所述预测终止条件,则根据全部输出文本,获取所述因果链节点预测文本;
若未达到所述预测终止条件,则利用当前输出文本更新所述问题文本,并利用更新后的所述问题文本,执行所述根据获取的待预测图像和问题文本,利用预训练语言模型编码器,得到图文编码特征的步骤,以更新当前输出文本。
在一些实施例中,所述判断是否达到预测终止条件,包括:
判断当前输出文本与预设终止文本的对比结果是否满足要求;
若是,则确定达到预测终止条件;
若否,则确定未达到预测终止条件。
在一些实施例中,所述判断当前输出文本与预设终止文本的对比结果是否满足要求之前,还包括:
获取所述待预测图像对应的终止输入文本,并将所述终止输入文本确定为所述预设终止文本。
在一些实施例中,所述利用当前输出文本更新所述问题文本,包括:
在所述问题文本内加入当前输出文本,得到更新后的所述问题文本。
本发明还提供了一种生成式人工智能的因果思维链生成装置,包括:
图文编码模块,用于根据获取的待预测图像和问题文本,利用预训练语言模型编码器,得到图文编码特征;
因果链编码模块,用于对所述图文编码特征和初始化因果链向量进行因果链编码,得到因果链筛选特征;其中,所述初始化因果链向量包括可见节点嵌入向量、不可见节点嵌入向量、因果边嵌入向量和条件边嵌入向量,所述因果链筛选特征包括节点筛选特征和边筛选特征,所述因果链筛选特征的大小为所述初始化因果链向量的一半;
编码预测模块,用于根据所述图文编码特征和所述因果链筛选特征,利用预训练语言模型解码器,获取因果链节点预测文本。
本发明还提供了一种生成式人工智能的因果思维链生成设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述所述的生成式人工智能的因果思维链生成方法的步骤。
此外,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的生成式人工智能的因果思维链生成方法的步骤。
本发明所提供的一种生成式人工智能的因果思维链生成方法,包括:根据获取的待预测图像和问题文本,利用预训练语言模型编码器,得到图文编码特征;对图文编码特征和初始化因果链向量进行因果链编码,得到因果链筛选特征;其中,初始化因果链向量包括可见节点嵌入向量、不可见节点嵌入向量、因果边嵌入向量和条件边嵌入向量,因果链筛选特征包括节点筛选特征和边筛选特征,因果链筛选特征的大小为初始化因果链向量的一半;根据图文编码特征和因果链筛选特征,利用预训练语言模型解码器,获取因果链节点预测文本;
可见,本发明通过初始化因果链向量的设置,实现因果思维链的结构化构建;通过对图文编码特征和初始化因果链向量进行因果链编码,得到因果链筛选特征,利用初始化因果链向量中因果思维链的因果节点和边对应的向量与多模态特征进行融合计算和特征筛选,预测合理的推理路径;通过根据图文编码特征和因果链筛选特征,利用预训练语言模型解码器,获取因果链节点预测文本,以文本模态描述生成式人工智能的推理变化,实现了生成式人工智能的多模态的因果思维链生成,从而能够展示生成式人工智能的推理过程。此外,本发明还提供了一种生成式人工智能的因果思维链生成装置、设备及计算机可读存储介质,同样具有上述有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例所提供的一种生成式人工智能的因果思维链生成方法的流程图;
图2为本发明实施例所提供的一种多模态的因果链的数据形式展示图;
图3为本发明实施例所提供的一种初始化因果链向量的结构示意图;
图4为本发明实施例所提供的另一种生成式人工智能的因果思维链生成方法的流程图;
图5为本发明实施例所提供的另一种生成式人工智能的因果思维链生成方法的流程示意图;
图6为本发明实施例所提供的另一种生成式人工智能的因果思维链生成方法的因果向量编码过程的示意图;
图7为本发明实施例所提供的另一种生成式人工智能的因果思维链生成方法的链单元编码过程的示意图;
图8为本发明实施例所提供的另一种生成式人工智能的因果思维链生成方法的因果特征筛选过程的示意图;
图9为本发明实施例所提供的一种生成式人工智能的因果思维链生成装置的结构框图;
图10为本发明实施例所提供的一种生成式人工智能的因果思维链生成设备的简易结构示意图;
图11为本发明实施例所提供的一种生成式人工智能的因果思维链生成设备的具体结构示意图;
图12为本发明实施例所提供的一种计算机可读存储介质的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明实施例所提供的一种生成式人工智能的因果思维链生成方法的流程图。该方法可以包括:
步骤101:根据获取的待预测图像和问题文本,利用预训练语言模型编码器,得到图文编码特征。
可以理解的是,本实施例中的待预测图像可以为需要进行预测推理的图像,即图像模态的输入;本实施例中的问题文本可以为需要进行预测推理回答的文本,即文本模态的输入。也就是说,本实施例中处理器可以对输入的文本模态的问题文本和该问题文本对应的图像模态的待预测图像进行预测推理,生成文本模态的因果链节点预测文本,实现生成式人工智能(GAI)的多模态的因果思维链生成。
对应的,本实施例中的预训练语言模型编码器和预训练语言模型解码器可以分别为预训练语言模型的编码器和解码器,即采用预训练语言模型的编码器和解码器。预训练语言模型是一种机器学习技术,其通过对大量的文本数据进行预训练,从而学习到语言的规律和语义信息,并将这些知识编码成一个可以通用于多种自然语言处理任务的模型。对于本实施例中的预训练语言模型编码器和预训练语言模型解码器的具体类型,即所采用的预训练语言模型的具体模型类型,可以由设计人员自行设置,如本实施例中预训练语言模型可以为采用基于注意力机制的模型(即Transformer模型),例如ChatGPT模型;即预训练语言模型编码器和预训练语言模型解码器可以分别为Transformer模型编码器和Transformer模型解码器。本实施例对此不做任何限制。
需要说明的是,本实施例中处理器可以利用预训练语言模型编码器,对待预测图像和问题文本进行编码处理,得到待预测图像和问题文本对应的多模态特征(即图文编码特征)。对于本步骤中处理器根据获取的待预测图像和问题文本,利用预训练语言模型编码器,得到图文编码特征的具体方式,可以由设计人员根据实用场景和用户需求自行设置,如处理器可以利用根据待预测图像和问题文本,获取图文组合特征;利用预训练语言模型编码器对图文组合特征进行编码,得到图文编码特征;其中,图文组合特征包括待预测图像对应的图像特征编码特征和问题文本对应的文本嵌入向量。处理器也可以直接利用预训练语言模型编码器对预测图像和问题文本进行编码,得到图文编码特征。本实施例对此不做任何限制。
步骤102:对图文编码特征和初始化因果链向量进行因果链编码,得到因果链筛选特征;其中,初始化因果链向量包括可见节点嵌入向量、不可见节点嵌入向量、因果边嵌入向量和条件边嵌入向量,因果链筛选特征包括节点筛选特征和边筛选特征,因果链筛选特征的大小为初始化因果链向量的一半。
可以理解的是,图2展示了多模态的因果链(即多模态链因果链)的数据形式,上半部分为参考图像和问题文本,如图所示要回答“如果杰瑞(老鼠)很讨厌狗的脚,它会做什么?”;下半部分展示了这个问题下的因果推理步骤(即因果链)。因果链可以包括节点(即因果节点)和有向边;其中,有向边可以分为两类:因果边(表示顺序推理,如“杰瑞踢狗的脚”导致“狗感觉疼”,图中实线箭头)和条件边(表示逆向推理,如“杰瑞踢狗的脚”需要“杰瑞跳起来”,图中虚线箭头);节点也分为两种:可见节点(该节点可以在图像上表现出来,如“狗的脸上露出痛苦的表情”,图中黑色圆圈)和不可见节点(该节点可以为图像上不能表现的内容,如“狗感到疼头”这一心理活动,图中黑色虚线圆圈)。多模态的因果链可以包括输入的初始图像和问题文本可能会导致的所有演化,并包括这些演化的过程和顺序,如图2例子中,可根据因果链总结得到“根据图片,我们能看到老鼠会踢狗的脚,这需要老鼠跳起来。同时狗会感到疼,因此狗会在脸上露出疼痛的表情,同时狗会疼得伸出胳膊”的因果链节点预测文本,用文本描述每一步的变化。
对应的,由于现有技术中并无对因果思维链的探索,本实施例中利用初始化因果链向量实现因果链的结构化构建,能够对因果链进行建模。本实施例中的初始化因果链向量可以包括因果链中的节点(如可见节点和不可见节点)和有向边(如因果边和条件边)各自对应的向量,如图3中的可见节点嵌入向量、不可见节点嵌入向量、因果边嵌入向量和条件边嵌入向量。
相应的,本步骤之前还可以初始化因果链向量的获取过程,例如,处理器可以直接获取预先存储的初始化因果链向量;处理器也可以初始化生成初始化因果链向量,如处理器可以利用嵌入(embedding)层,初始化生成初始化因果链向量。
需要说明的是,本步骤中可以对图文编码特征和初始化因果链向量进行交互编码和特征筛选,得到因果链中的部分节点(如可见节点或不可见节点)和部分边(如因果边或条件边)各自对应的编码特征(即因果链筛选特征),以预测合理的推理路径,直到后续因果链文本(即因果链节点预测文本)的生成。
对应的,对于本步骤中处理器对图文编码特征和初始化因果链向量进行因果链编码,得到因果链筛选特征的具体方式,可以由设计人员自行设置,如处理器可以对图文编码特征和初始化因果链向量进行编码,得到因果链编码特征;对因果链编码特征进行特征筛选,得到因果链筛选特征。
步骤103:根据图文编码特征和因果链筛选特征,利用预训练语言模型解码器,获取因果链节点预测文本。
可以理解的是,本实施例中的因果链节点预测文本可以为因果思维链(即因果链)上节点(如结果节点和推理节点)的预测文本,即待预测图像和问题文本对应的最终答案(即结果节点)和问题与答案之间推理步骤(即推理节点)的预测文本;因果思维链可以为包括推理节点和结果节点的链状结构,即因果思维链可以表示待预测图像和问题文本对应的最终答案和一步步的中间推理步骤。
对应的,本步骤中处理器可以通过预训练语言模型解码器,利用因果链筛选特征,对图文编码特征进行解码处理,得到因果链节点预测文本,以文本模态描述生成式人工智能的推理变化,实现了生成式人工智能的多模态的因果思维链生成。
对应的,对于本步骤中处理器根据图文编码特征和因果链筛选特征,利用预训练语言模型解码器,获取因果链节点预测文本的具体方式,可以由设计人员自行设置,如处理器可以对图文编码特征和因果链筛选特征进行组合,得到因果组合特征;利用预训练语言模型解码器对因果组合特征进行解码,获取因果链节点预测文本。
需要说明的是,由于因果思维链的生成大多是一个不断演化的过程,需要经过若干次的迭代。本步骤中处理器可以根据图文编码特征和因果链筛选特征,利用预训练语言模型解码器,得到当前输出文本;判断是否达到预测终止条件;若达到预测终止条件,则根据全部输出文本,获取因果链节点预测文本;若未达到预测终止条件,则利用当前输出文本更新问题文本,并利用更新后的问题文本,进入步骤101,以更新当前输出文本,直至达到预测终止条件;也就是说,本实施例中可以通过预测终止条件的设置,使达到预测终止条件之前处理器能够循环迭代预测因果思维链中各演化过程的文本描述(即输出文本),直至达到预测终止条件,能够对输出文本进行汇总,得到整个因果思维链的文本描述(即因果链节点预测文本)。
本实施例中,本发明实施例通过初始化因果链向量的设置,实现因果思维链的结构化构建;通过对图文编码特征和初始化因果链向量进行因果链编码,得到因果链筛选特征,利用初始化因果链向量中因果思维链的因果节点和边对应的向量与多模态特征进行融合计算和特征筛选,预测合理的推理路径;通过根据图文编码特征和因果链筛选特征,利用预训练语言模型解码器,获取因果链节点预测文本,以文本模态描述生成式人工智能的推理变化,实现了生成式人工智能的多模态的因果思维链生成,从而能够展示生成式人工智能的推理过程。
基于上述实施例,本发明还提供了另一种生成式人工智能的因果思维链生成方法。具体的,请参考图4,图4为本发明实施例所提供的另一种生成式人工智能的因果思维链生成方法的流程图。该方法可以包括:
步骤201:获取待预测图像和待预测图像对应的问题文本。
其中,本步骤中的待预测图像和问题文本可以为需要进行因果思维链生成的图像和图像相关内容的文本模态的问题。
对应的,对于本步骤中待预测图像和问题文本的具体内容,可以由设计人员根据实用场景和用户需求自行设置,如待预测图像和问题文本可以为用户分别输入的图像和文本,如图5中的输入图片和输入文本;例如,处理器利用聊天机器人程序接收到的用户发送的图像和文本。问题文本也可以为待检测图像上批注的文本;例如,处理器可以接收待预测图像,对待预测图像上的文字进行提取或识别,得到问题文本。本实施例对此不做任何限制。
步骤202:根据待预测图像和问题文本,获取图文组合特征;其中,图文组合特征包括待预测图像对应的图像特征编码特征和问题文本对应的文本嵌入向量。
可以理解的是,本步骤中处理器可以根据待预测图像和问题文本,对待预测图像对应的图像特征编码特征和问题文本对应的文本嵌入向量进行组合,得到图文组合特征。
对应的,对于本实施例中处理器根据待预测图像和问题文本,获取图文组合特征的具体方式,可以由设计人员自行设置,如处理器可以利用图像编码器对待预测图像进行特征提取,得到图像特征编码特征;利用嵌入层对问题文本进行文本编码,得到文本嵌入向量;对图像特征编码特征和文本嵌入向量进行组合,得到图文组合特征。例如,处理器可以将待预测图像输入到图像编码器中提取特征,得到图像编码器输出图像特征编码特征,大小为[m, d];同时,将问题文本输入到嵌入层中进行文本编码,得到嵌入层输出的文本嵌入向量,大小为[n, d];之后,对图像特征编码特征和文本嵌入向量进行组合,得到图文组合特征,大小为[m+n, d]。其中,d可以为预设维度。
需要说明的是,本实施例并不限定上述图像编码器的具体类型,如可以采用与现有技术中提取图像特征的图像编码器相同或相似的方式进行设置,如图像编码器可以为采用CNN(convolutional neural network,卷积神经网络)结构,也可以采用如VIT(VisionTransformer,一种图像分类模型)结构的其他网络结构。
同样的,本实施例中并不限定上述图像特征编码特征和文本嵌入向量的组合方式,如处理器可以直接对图像特征编码特征和文本嵌入向量进行拼接,得到图文组合特征。
步骤203:利用预训练语言模型编码器对图文组合特征进行编码,得到图文编码特征。
其中,本步骤中处理器可以将图文组合特征输入到预训练语言模型编码器中进行编码,得到预训练语言模型编码器输出的图文编码特征。
步骤204:对图文编码特征和初始化因果链向量进行编码,得到因果链编码特征。
其中,本步骤中初始化因果链向量可以包括可见节点嵌入向量、不可见节点嵌入向量、因果边嵌入向量和条件边嵌入向量。本步骤之前还可以包括初始化因果链向量的获取过程,如处理器可以利用嵌入(embedding)层,初始化生成初始化因果链向量;例如,处理器可以利用嵌入层,初始化一个[4×k, d]的向量(即初始化因果链向量);[4×k, d]的向量可以分别表示可见节点嵌入向量、不可见节点嵌入向量、因果边嵌入向量和条件边嵌入向量,k可以为可见节点嵌入向量、不可见节点嵌入向量、因果边嵌入向量和条件边嵌入向量各自的数量,如图3中k可以为4。
可以理解的是,本步骤中处理器可以对图文编码特征和初始化因果链向量进行交互编码,得到因果链编码特征。对于本步骤中处理器对图文编码特征和初始化因果链向量进行编码,得到因果链编码特征的具体方式,可以由设计人员自行设置,如处理器可以利用跨注意力层、自注意力层、归一化层和丢弃层,对图文编码特征和初始化因果链向量进行编码,得到因果链编码特征。处理器也可以先利用编码跨注意力层、自注意力层、归一化层和丢弃层,对图文编码特征和初始化因果链向量进行编码,得到因果链第一编码特征;利用拆分跨注意力层,对因果链第一编码特征进行拆分编码,得到因果链编码特征;也就是说,由于每一次因果推理都包含节点和边两部分,而这两部分之间由存在相互联系,处理器可以在得到因果链第一编码特征之后,可以将因果链的边特征和节点特征进行交互编码,对节点和边之间的联系进行建模。
对应的,对于上述处理器利用编码跨注意力层、自注意力层、归一化层和丢弃层,对图文编码特征和初始化因果链向量进行编码,得到因果链第一编码特征的具体方式,可以由设计人员自行设置,如图5和图6所示,处理器可以利用编码跨注意力层(跨注意力层),以初始化因果链向量为查询目标(Q),对图文编码特征和作为因果链嵌入向量的初始化因果链向量进行编码,得到第一编码特征;利用第一归一化层(LN,LayerNorm)和第一丢弃层(Dropout),如图6中先经过第一个的归一化层+丢弃层,对第一编码特征进行处理,得到第二编码特征;利用自注意力层,对第二编码特征进行编码,得到第三编码特征;利用第二归一化层和第二丢弃层,如图6中后经过第二个的归一化层+丢弃层,对第三编码特征进行处理,得到第四编码特征;对第四编码特征和初始化因果链向量进行组合(如拼接),得到因果链第一编码特征(因果链第1编码特征)。其中,上述过程中使用的归一化层包括第一归一化层和第二归一化层这两个归一化层,上述过程中使用的丢弃层包括第一丢弃层和第二丢弃层这两个丢弃层。
相应的,跨注意力层(如上述编码跨注意力层)的公式可以为;其中,/>可以为跨注意力层的输出,Q(query,查询)可以为跨注意力层的查询目标,如上述图文编码特征;K(key,键)和V(Value,值)均可以为上述初始化因果链向量;/>可以为K的规格,如上述初始化因果链向量的维度。自注意力层的公式可以为;其中,/>可以为自注意力层的输出,如上述第三编码特征;/>可以为上述第二编码特征。
进一步的,上述对第四编码特征和初始化因果链向量进行组合,得到因果链第一编码特征之后,处理器可以直接利用拆分跨注意力层,对因果链第一编码特征进行拆分编码,得到因果链编码特征。处理器也可以将因果链第一编码特征作为因果链嵌入向量,与图文编码特征的交互一次或多次,得到表征能力更强的因果链第一编码特征;也就是说,处理器可以在对第四编码特征和初始化因果链向量进行组合(如拼接),得到因果链第一编码特征之后,判断因果向量编码次数是否达到次数阈值;若是,则执行利用拆分跨注意力层,对因果链第一编码特征进行拆分编码,得到因果链编码特征的步骤;若否,则将因果链第一编码特征确定为初始化因果链向量,并执行利用编码跨注意力层,以初始化因果链向量为查询目标,对图文编码特征和初始化因果链向量进行编码,得到第一编码特征的步骤,以更新因果链第一编码特征,直至得到次数阈值对应的因果链第一编码特征。
同样的,对于上述处理器利用拆分跨注意力层,对因果链第一编码特征进行拆分编码,得到因果链编码特征的具体方式,可以由设计人员自行设置,如图5和图7所示,处理器可以将因果链第一编码特征(因果链第1编码特征)拆分为节点部分特征和边部分特征;利用第一跨注意力层(跨注意力层a),以节点部分特征为查询目标,对节点部分特征和边部分特征进行编码,得到节点编码特征;对节点编码特征和节点部分特征进行组合(如拼接),得到节点部分编码特征;利用第二跨注意力层(跨注意力层b),以边部分特征为查询目标,对节点部分特征和边部分特征进行编码,得到边编码特征;对边编码特征和边部分特征进行组合(如拼接),得到边部分编码特征;根据节点部分编码特征和边部分编码特征,获取因果链编码特征(因果链第2编码特征),如对节点部分编码特征和边部分编码特征进行合并拼接,得到因果链编码特征。
步骤205:对因果链编码特征进行特征筛选,得到因果链筛选特征。
可以理解的是,由于每一次因果推理无论是边还是节点都只可能一种情况,本步骤中处理器筛选出符合条件的特征来进行下一步的推理。对于本步骤中处理器对因果链编码特征进行特征筛选,得到因果链筛选特征的具体方式,可以由设计人员自行设置,如本步骤中处理器可以对因果链编码特征进行拆分,得到可见节点编码特征、不可见节点编码特征、因果边编码特征和条件边编码特征;利用筛选自注意力层(如图8中自注意力层a-d)和筛选全连接层(如图8中全连接层a-d),分别对可见节点编码特征、不可见节点编码特征、因果边编码特征和条件边编码特征进行编码,得到可见节点稀疏特征、不可见节点稀疏特征、因果边稀疏特征和条件边稀疏特征;根据可见节点稀疏特征和不可见节点稀疏特征,确定节点筛选特征;其中,节点筛选特征为可见节点编码特征或不可见节点编码特征;根据因果边稀疏特征和条件边稀疏特征,确定边筛选特征;其中,边筛选特征为因果边编码特征或条件边编码特征;对节点筛选特征和边筛选特征进行组合(如拼接),得到因果链筛选特征。
对应的,对于上述处理器对因果链编码特征进行拆分,得到可见节点编码特征、不可见节点编码特征、因果边编码特征和条件边编码特征的具体拆分过程,可以由设计人员自行设置,如图8所示,处理器可以对因果链编码特征(因果链第2编码特征)进行拆分,得到节点拆分特征(节点编码特征)和边拆分特征(边编码特征);分别对节点拆分特征和边拆分特征进行拆分,得到可见节点编码特征、不可见节点编码特征、因果边编码特征和条件边编码特征。也就是说,因果链编码特征可以按照初始化因果链向量的位置进行两次拆分,得到4组大小为[k, d]的特征。
同样的,本实施例并不限定上述根据可见节点稀疏特征和不可见节点稀疏特征,确定节点筛选特征,以及根据因果边稀疏特征和条件边稀疏特征,确定边筛选特征的具体筛选方式,以节点部分的筛选为例,处理器可以检测可见节点稀疏特征和不可见节点稀疏特征中的最大节点稀疏特征;若最大节点稀疏特征为可见节点稀疏特征中的节点稀疏特征,则将可见节点编码特征确定为节点筛选特征;若最大节点稀疏特征为不可见节点稀疏特征中的节点稀疏特征,则将不可见节点编码特征确定为节点筛选特征。例如,因果链编码特征拆分得到的4组大小为[k, d]的特征可以分别经过自注意力层和全连接层之后得到4种特征的稀疏特征(全连接层将自注意力层输出的[k, d]的特征转化为[k, 1]的特征);之后,通过从可见节点稀疏特征中的最大值与不可见节点稀疏特征中的最大值中找出值更大的最大节点稀疏特征,并最大节点稀疏特征对应的一半节点编码特征(如可见节点编码特征或不可见节点编码特征);同理,筛选出边编码特征中的一半;筛选出的节点编码特征和边编码特征合并后可以得到[2k, d]的因果链筛选特征。
步骤206:对图文编码特征和因果链筛选特征进行组合,得到因果组合特征。
如图5所示,本步骤中处理器可以对图文编码特征和因果链筛选特征进行拼接组合,得到因果拼接特征(即因果组合特征);如将[2×k, d]的因果链筛选特征与[m+n, d]的图文编码特征拼接成[2×k+m+n, d]的因果组合特征。
步骤207:利用预训练语言模型解码器对因果组合特征进行解码,获取当前输出文本。
其中,本步骤中处理器可以对将因果组合特征输入到预训练语言模型解码器,得到预训练语言模型解码器当前生成的输出文本(即当前输出文本)。
步骤208:判断是否达到预测终止条件;若是,则进入步骤209;若否,则进入步骤210。
可以理解的是,由于因果思维链的生成大多是一个不断演化的过程,需要经过若干次的迭代,本实施例中通过预测终止条件的设置,因果思维链的循环演化的终止机制。
对应的,对于本步骤中处理器判断是否达到预测终止条件的具体方式,即预测终止条件的具体内容,可以由设计人员自行设置,如预测终止条件可以为当前输出文本与预设终止文本的对比结果满足要求,即本步骤中处理器可以判断当前输出文本与预设终止文本的对比结果是否满足要求;若是,则确定达到预测终止条件,可以进入步骤209;若否,则确定未确定达到预测终止条件,可以进入步骤210;也就是说,本实施例中可以设置预设终止文本(如最终答案的文本)作为终止节点[END],当处理器检测到因果思维链演化生成到该终止节点时,可以结束因果思维链的演化迭代。预测终止条件也可以为当前输出文本对应的迭代演化次数达到迭代阈值;即本步骤中处理器可以当前输出文本对应的迭代演化次数达到迭代阈值是否达到迭代阈值;若是,则确定达到预测终止条件,可以进入步骤209;若否,则确定未确定达到预测终止条件,可以进入步骤210。预测终止条件还可以为当前输出文本与预设终止文本的对比结果满足要求或当前输出文本对应的迭代演化次数达到迭代阈值。本实施例对此不做任何限制。
对应的,本实施例所提供的方法还可以包括预设终止文本的获取过程,例如,处理器可以获取待预测图像对应的终止输入文本,并将终止输入文本确定为预设终止文本;也就是说,处理器可以将用户输入的待预测图像对应的文本模态的终止节点(即终止输入文本)确定为待预测图像对应的预设终止文本,以使用户能够根据自身需求设置实现因果思维链的演化终止节点。
步骤209:根据全部输出文本,获取因果链节点预测文本。
可以理解的是,本步骤中处理器可以利用达到预测终止条件之前生成的全部输出文本,生成因果链节点预测文本,即因果思维链。
例如,处理器可以按照全部输出文本的生成顺序,对全部输出文本进行合并,得到因果链节点预测文本。
步骤210:利用当前输出文本更新图文组合特征中的文本嵌入向量,并进入步骤203。
可以理解的是,本步骤中处理器可以在未达到预测终止条件时,利用预训练语言模型解码器当前生成的输出文本(即当前输出文本,如图5中的输出文本K),对图文组合特征中的文本嵌入向量进行更新,从而更新图文组合特征,以利用新的图文组合特征进入步骤203,继续进行因果思维链的演化,以得到更新后的当前输出文本,直至达到预测终止条件。
对应的,对于本步骤中处理器利用当前输出文本更新图文组合特征中的文本嵌入向量的具体方式,可以由设计人员自行设置,如处理器可以直接在问题文本内加入当前输出文本,得到更新后的问题文本,以使图文组合特征中问题文本对应的文本嵌入向量能够迭代更新。处理器也可以利用嵌入层对当前输出文本进行文本编码,得到当前输出文本对应的新增文本嵌入向量;将新增文本嵌入向量加入到原文本嵌入向量内,得到更新后的文本嵌入向量;例如,初次生成的当前输出文本可以经过嵌入层,可以得到[n1, d]的文本嵌入向量(即新增文本嵌入向量),补充到原文本嵌入向量后边,使文本嵌入向量更新为大小[n+n1, d]的向量。
本实施例中,本发明实施例通过判断是否达到预测终止条件,实现了因果思维链的循环生成的终止机制。
相应于上面的方法实施例,本发明实施例还提供了一种生成式人工智能的因果思维链生成装置,下文描述的一种生成式人工智能的因果思维链生成装置与上文描述的一种生成式人工智能的因果思维链生成方法可相互对应参照。
请参考图9,图9为本发明实施例所提供的一种生成式人工智能的因果思维链生成装置的结构框图。该装置可以包括:
图文编码模块10,用于根据获取的待预测图像和问题文本,利用预训练语言模型编码器,得到图文编码特征;
因果链编码模块20,用于对所述图文编码特征和初始化因果链向量进行因果链编码,得到因果链筛选特征;其中,所述初始化因果链向量包括可见节点嵌入向量、不可见节点嵌入向量、因果边嵌入向量和条件边嵌入向量,所述因果链筛选特征包括节点筛选特征和边筛选特征,所述因果链筛选特征的大小为所述初始化因果链向量的一半;
编码预测模块30,用于根据所述图文编码特征和所述因果链筛选特征,利用预训练语言模型解码器,获取因果链节点预测文本。
在一些实施例中,该装置还包括:
初始化模块,用于利用嵌入层,初始化生成初始化因果链向量。
在一些实施例中,因果链编码模块20可以包括:
编码子模块,用于对图文编码特征和初始化因果链向量进行编码,得到因果链编码特征;
筛选子模块,用于对因果链编码特征进行特征筛选,得到因果链筛选特征。
在一些实施例中,编码子模块可以具体用于利用跨注意力层、自注意力层、归一化层和丢弃层,对图文编码特征和初始化因果链向量进行编码,得到因果链编码特征。
在一些实施例中,编码子模块可以包括:
因果向量编码单元,用于用于利用编码跨注意力层、自注意力层、归一化层和丢弃层,对图文编码特征和初始化因果链向量进行编码,得到因果链第一编码特征;
链单元编码单元,用于利用拆分跨注意力层,对因果链第一编码特征进行拆分编码,得到因果链编码特征。
在一些实施例中,因果向量编码单元可以包括:
第一编码子单元,用于利用编码跨注意力层,以初始化因果链向量为查询目标,对图文编码特征和初始化因果链向量进行编码,得到第一编码特征;
第二编码子单元,用于利用第一归一化层和第一丢弃层,对第一编码特征进行处理,得到第二编码特征;
第三编码子单元,用于利用自注意力层,对第二编码特征进行编码,得到第三编码特征;
第四编码子单元,用于利用第二归一化层和第二丢弃层,对第三编码特征进行处理,得到第四编码特征;其中,归一化层包括第一归一化层和第二归一化层,丢弃层包括第一丢弃层和第二丢弃层;
组合子单元,用于对第四编码特征和初始化因果链向量进行组合,得到因果链第一编码特征。
在一些实施例中,因果向量编码单元还可以包括:
次数判断子单元,用于判断因果向量编码次数是否达到次数阈值;若达到次数阈值,则向链单元编码单元发送启动信号;
编码迭代子单元,用于若未达到次数阈值,则将因果链第一编码特征确定为初始化因果链向量,并第一编码子单元发送启动信号。
在一些实施例中,链单元编码单元可以包括:
拆分子单元,用于将因果链第一编码特征拆分为节点部分特征和边部分特征;
节点编码子单元,用于利用第一跨注意力层,以节点部分特征为查询目标,对节点部分特征和边部分特征进行编码,得到节点编码特征;
节点组合子单元,用于对节点编码特征和节点部分特征进行组合,得到节点部分编码特征;
边编码子单元,用于利用第二跨注意力层,以边部分特征为查询目标,对节点部分特征和边部分特征进行编码,得到边编码特征;
边组合子单元,用于对边编码特征和边部分特征进行组合,得到边部分编码特征;
因果链组合子单元,用于根据节点部分编码特征和边部分编码特征,获取因果链编码特征。
在一些实施例中,节点组合子单元可以具体用于对节点编码特征和节点部分特征进行拼接,得到节点部分编码特征。
在一些实施例中,筛选子模块可以包括:
因果链拆分单元,用于对因果链编码特征进行拆分,得到可见节点编码特征、不可见节点编码特征、因果边编码特征和条件边编码特征;
稀疏编码单元,用于利用筛选自注意力层和筛选全连接层,分别对可见节点编码特征、不可见节点编码特征、因果边编码特征和条件边编码特征进行编码,得到可见节点稀疏特征、不可见节点稀疏特征、因果边稀疏特征和条件边稀疏特征;
节点筛选单元,用于根据可见节点稀疏特征和不可见节点稀疏特征,确定节点筛选特征;其中,节点筛选特征为可见节点编码特征或不可见节点编码特征;
边筛选单元,用于根据因果边稀疏特征和条件边稀疏特征,确定边筛选特征;其中,边筛选特征为因果边编码特征或条件边编码特征;
筛选组合单元,用于对节点筛选特征和边筛选特征进行组合,得到因果链筛选特征。
在一些实施例中,节点筛选单元可以具体用于检测可见节点稀疏特征和不可见节点稀疏特征中的最大节点稀疏特征;若最大节点稀疏特征为可见节点稀疏特征中的节点稀疏特征,则将可见节点编码特征确定为节点筛选特征;若最大节点稀疏特征为不可见节点稀疏特征中的节点稀疏特征,则将不可见节点编码特征确定为节点筛选特征。
在一些实施例中,因果链拆分单元可以包括:
一次拆分子单元,用于对因果链编码特征进行拆分,得到节点拆分特征和边拆分特征;
二次拆分子单元,用于分别对节点拆分特征和边拆分特征进行拆分,得到可见节点编码特征、不可见节点编码特征、因果边编码特征和条件边编码特征。
在一些实施例中,图文编码模块10可以包括:
输入子模块,用于获取待预测图像和待预测图像对应的问题文本;
特征组合子模块,用于根据待预测图像和问题文本,获取图文组合特征;其中,图文组合特征包括待预测图像对应的图像特征编码特征和问题文本对应的文本嵌入向量;
特征编码子模块,用于利用预训练语言模型编码器对图文组合特征进行编码,得到图文编码特征。
在一些实施例中,特征组合子模块可以包括:
图像提取单元,用于利用图像编码器对待预测图像进行特征提取,得到图像特征编码特征;
文本提取单元,用于利用嵌入层对问题文本进行文本编码,得到文本嵌入向量;
特征组合单元,用于对图像特征编码特征和文本嵌入向量进行组合,得到图文组合特征。
在一些实施例中,编码预测模块30可以包括:
因果组合子模块,用于对图文编码特征和因果链筛选特征进行组合,得到因果组合特征;
解码子模块,用于利用预训练语言模型解码器对因果组合特征进行解码,获取因果链节点预测文本。
在一些实施例中,图文编码特征、初始化因果链向量和因果链筛选特征的维度均为预设维度。
在一些实施例中,编码预测模块30可以包括:
编码预测子模块,用于根据图文编码特征和因果链筛选特征,利用预训练语言模型解码器,得到当前输出文本;
演化判断子模块,用于判断是否达到预测终止条件;
因果链生成子模块,用于若达到预测终止条件,则根据全部输出文本,获取因果链节点预测文本;
更新子模块,用于若未达到预测终止条件,则利用当前输出文本更新问题文本,并利用更新后的问题文本,向图文编码模块10发送启动信号,以更新当前输出文本。
在一些实施例中,演化判断子模块可以包括:
终止对比单元,用于判断当前输出文本与预设终止文本的对比结果是否满足要求;若是,则确定达到预测终止条件;若否,则确定未达到预测终止条件。
在一些实施例中,该装置还可以包括:
终止输入模块,用于获取待预测图像对应的终止输入文本,并将终止输入文本确定为预设终止文本。
在一些实施例中,更新子模块可以具体用于在问题文本内加入当前输出文本,得到更新后的问题文本。
本实施例中,本发明实施例通过初始化因果链向量的设置,实现因果思维链的结构化构建;通过因果链编码模块20对图文编码特征和初始化因果链向量进行因果链编码,得到因果链筛选特征,利用初始化因果链向量中因果思维链的因果节点和边对应的向量与多模态特征进行融合计算和特征筛选,预测合理的推理路径;通过编码预测模块30根据图文编码特征和因果链筛选特征,利用预训练语言模型解码器,获取因果链节点预测文本,以文本模态描述生成式人工智能的推理变化,实现了生成式人工智能的多模态的因果思维链生成,从而能够展示生成式人工智能的推理过程。
相应于上面的方法实施例,本发明实施例还提供了一种生成式人工智能的因果思维链生成设备,下文描述的一种生成式人工智能的因果思维链生成设备与上文描述的一种生成式人工智能的因果思维链生成方法可相互对应参照。
请参考图10,图10为本发明实施例所提供的一种生成式人工智能的因果思维链生成设备的简易结构示意图。该因果思维链生成设备可以包括:
存储器D1,用于存储计算机程序;
处理器D2,用于执行计算机程序时实现上述方法实施例所提供的生成式人工智能的因果思维链生成方法的步骤。
相应的,请参考图11,图11为本发明实施例所提供的一种生成式人工智能的因果思维链生成设备的具体结构示意图,该因果思维链生成设备310可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上单元(图示没标出),每个单元可以包括对主机中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在因果思维链生成设备310上执行存储介质330中的一系列指令操作。
因果思维链生成设备310还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。例如,Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
其中,本实施例所提供的生成式人工智能的因果思维链生成设备可以具体为服务器或计算机。
上文所描述的生成式人工智能的因果思维链生成方法中的步骤可以由生成式人工智能的因果思维链生成设备的结构实现。
相应于上面的方法实施例,本发明实施例还提供了一种计算机可读存储介质,下文描述的一种计算机可读存储介质与上文描述的一种生成式人工智能的因果思维链生成方法可相互对应参照。
请参考图12,图12为本发明实施例所提供的一种计算机可读存储介质的结构示意图。该计算机可读存储介质40上存储有计算机程序41,计算机程序41被处理器执行时实现如上述方法实施例所提供的生成式人工智能的因果思维链生成方法的步骤。
该计算机可读存储介质40具体可以为U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的存储介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
以上对本发明所提供的一种生成式人工智能的因果思维链生成方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (23)
1.一种生成式人工智能的因果思维链生成方法,其特征在于,包括:
根据获取的待预测图像和问题文本,利用预训练语言模型编码器,得到图文编码特征;
对所述图文编码特征和初始化因果链向量进行因果链编码,得到因果链筛选特征;其中,所述初始化因果链向量包括可见节点嵌入向量、不可见节点嵌入向量、因果边嵌入向量和条件边嵌入向量,所述因果链筛选特征包括节点筛选特征和边筛选特征,所述因果链筛选特征的大小为所述初始化因果链向量的一半;
根据所述图文编码特征和所述因果链筛选特征,利用预训练语言模型解码器,获取因果链节点预测文本。
2.根据权利要求1所述的生成式人工智能的因果思维链生成方法,其特征在于,所述对所述图文编码特征和初始化因果链向量进行因果链编码,得到因果链筛选特征之前,还包括:
利用嵌入层,初始化生成所述初始化因果链向量。
3.根据权利要求1所述的生成式人工智能的因果思维链生成方法,其特征在于,所述对所述图文编码特征和初始化因果链向量进行因果链编码,得到因果链筛选特征,包括:
对所述图文编码特征和初始化因果链向量进行编码,得到因果链编码特征;
对所述因果链编码特征进行特征筛选,得到所述因果链筛选特征。
4.根据权利要求3所述的生成式人工智能的因果思维链生成方法,其特征在于,所述对所述图文编码特征和初始化因果链向量进行编码,得到因果链编码特征,包括:
利用跨注意力层、自注意力层、归一化层和丢弃层,对所述图文编码特征和初始化因果链向量进行编码,得到所述因果链编码特征。
5.根据权利要求3所述的生成式人工智能的因果思维链生成方法,其特征在于,所述对所述图文编码特征和初始化因果链向量进行编码,得到因果链编码特征,包括:
利用编码跨注意力层、自注意力层、归一化层和丢弃层,对所述图文编码特征和初始化因果链向量进行编码,得到因果链第一编码特征;
利用拆分跨注意力层,对所述因果链第一编码特征进行拆分编码,得到所述因果链编码特征。
6.根据权利要求5所述的生成式人工智能的因果思维链生成方法,其特征在于,所述利用编码跨注意力层、自注意力层、归一化层和丢弃层,对所述图文编码特征和初始化因果链向量进行编码,得到因果链第一编码特征,包括:
利用所述编码跨注意力层,以所述初始化因果链向量为查询目标,对所述图文编码特征和初始化因果链向量进行编码,得到第一编码特征;
利用第一归一化层和第一丢弃层,对所述第一编码特征进行处理,得到第二编码特征;
利用所述自注意力层,对所述第二编码特征进行编码,得到第三编码特征;
利用第二归一化层和第二丢弃层,对所述第三编码特征进行处理,得到第四编码特征;其中,所述归一化层包括所述第一归一化层和所述第二归一化层,所述丢弃层包括所述第一丢弃层和所述第二丢弃层;
对所述第四编码特征和所述初始化因果链向量进行组合,得到所述因果链第一编码特征。
7.根据权利要求6所述的生成式人工智能的因果思维链生成方法,其特征在于,所述对所述第四编码特征和所述初始化因果链向量进行组合,得到所述因果链第一编码特征之后,还包括:
判断因果向量编码次数是否达到次数阈值;
若是,则执行所述利用拆分跨注意力层,对所述因果链第一编码特征进行拆分编码,得到所述因果链编码特征的步骤;
若否,则将所述因果链第一编码特征确定为所述初始化因果链向量,并执行所述利用所述编码跨注意力层,以所述初始化因果链向量为查询目标,对所述图文编码特征和初始化因果链向量进行编码,得到第一编码特征的步骤,以更新所述因果链第一编码特征。
8.根据权利要求5所述的生成式人工智能的因果思维链生成方法,其特征在于,所述利用拆分跨注意力层,对所述因果链第一编码特征进行拆分编码,得到所述因果链编码特征,包括:
将所述因果链第一编码特征拆分为节点部分特征和边部分特征;
利用第一跨注意力层,以所述节点部分特征为查询目标,对所述节点部分特征和边部分特征进行编码,得到节点编码特征;
对所述节点编码特征和所述节点部分特征进行组合,得到节点部分编码特征;
利用第二跨注意力层,以所述边部分特征为查询目标,对所述节点部分特征和边部分特征进行编码,得到边编码特征;
对所述边编码特征和所述边部分特征进行组合,得到边部分编码特征;
根据所述节点部分编码特征和所述边部分编码特征,获取所述因果链编码特征。
9.根据权利要求8所述的生成式人工智能的因果思维链生成方法,其特征在于,所述对所述节点编码特征和所述节点部分特征进行组合,得到节点部分编码特征,包括:
对所述节点编码特征和所述节点部分特征进行拼接,得到所述节点部分编码特征。
10.根据权利要求3所述的生成式人工智能的因果思维链生成方法,其特征在于,所述对所述因果链编码特征进行特征筛选,得到所述因果链筛选特征,包括:
对所述因果链编码特征进行拆分,得到可见节点编码特征、不可见节点编码特征、因果边编码特征和条件边编码特征;
利用筛选自注意力层和筛选全连接层,分别对所述可见节点编码特征、所述不可见节点编码特征、所述因果边编码特征和所述条件边编码特征进行编码,得到可见节点稀疏特征、不可见节点稀疏特征、因果边稀疏特征和条件边稀疏特征;
根据所述可见节点稀疏特征和所述不可见节点稀疏特征,确定所述节点筛选特征;其中,所述节点筛选特征为所述可见节点编码特征或所述不可见节点编码特征;
根据所述因果边稀疏特征和所述条件边稀疏特征,确定所述边筛选特征;其中,所述边筛选特征为所述因果边编码特征或所述条件边编码特征;
对所述节点筛选特征和所述边筛选特征进行组合,得到所述因果链筛选特征。
11.根据权利要求10所述的生成式人工智能的因果思维链生成方法,其特征在于,所述根据所述可见节点稀疏特征和所述不可见节点稀疏特征,确定所述节点筛选特征,包括:
检测所述可见节点稀疏特征和所述不可见节点稀疏特征中的最大节点稀疏特征;
若所述最大节点稀疏特征为所述可见节点稀疏特征中的节点稀疏特征,则将所述可见节点编码特征确定为所述节点筛选特征;
若所述最大节点稀疏特征为所述不可见节点稀疏特征中的节点稀疏特征,则将所述不可见节点编码特征确定为所述节点筛选特征。
12.根据权利要求10所述的生成式人工智能的因果思维链生成方法,其特征在于,所述对所述因果链编码特征进行拆分,得到可见节点编码特征、不可见节点编码特征、因果边编码特征和条件边编码特征,包括:
对所述因果链编码特征进行拆分,得到节点拆分特征和边拆分特征;
分别对所述节点拆分特征和所述边拆分特征进行拆分,得到所述可见节点编码特征、所述不可见节点编码特征、所述因果边编码特征和所述条件边编码特征。
13.根据权利要求1所述的生成式人工智能的因果思维链生成方法,其特征在于,所述根据获取的待预测图像和问题文本,利用预训练语言模型编码器,得到图文编码特征,包括:
获取所述待预测图像和所述待预测图像对应的问题文本;
根据所述待预测图像和所述问题文本,获取图文组合特征;其中,所述图文组合特征包括所述待预测图像对应的图像特征编码特征和所述问题文本对应的文本嵌入向量;
利用所述预训练语言模型编码器对所述图文组合特征进行编码,得到所述图文编码特征。
14.根据权利要求13所述的生成式人工智能的因果思维链生成方法,其特征在于,所述根据所述待预测图像和所述问题文本,获取图文组合特征,包括:
利用图像编码器对所述待预测图像进行特征提取,得到所述图像特征编码特征;
利用嵌入层对所述问题文本进行文本编码,得到所述文本嵌入向量;
对所述图像特征编码特征和所述文本嵌入向量进行组合,得到所述图文组合特征。
15.根据权利要求1所述的生成式人工智能的因果思维链生成方法,其特征在于,所述根据所述图文编码特征和所述因果链筛选特征,利用预训练语言模型解码器,获取因果链节点预测文本,包括:
对所述图文编码特征和所述因果链筛选特征进行组合,得到因果组合特征;
利用所述预训练语言模型解码器对所述因果组合特征进行解码,获取所述因果链节点预测文本。
16.根据权利要求1所述的生成式人工智能的因果思维链生成方法,其特征在于,所述图文编码特征、所述初始化因果链向量和所述因果链筛选特征的维度均为预设维度。
17.根据权利要求1至15任一项所述的生成式人工智能的因果思维链生成方法,其特征在于,所述根据所述图文编码特征和所述因果链筛选特征,利用预训练语言模型解码器,获取因果链节点预测文本,包括:
根据所述图文编码特征和所述因果链筛选特征,利用所述预训练语言模型解码器,得到当前输出文本;
判断是否达到预测终止条件;
若达到所述预测终止条件,则根据全部输出文本,获取所述因果链节点预测文本;
若未达到所述预测终止条件,则利用当前输出文本更新所述问题文本,并利用更新后的所述问题文本,执行所述根据获取的待预测图像和问题文本,利用预训练语言模型编码器,得到图文编码特征的步骤,以更新当前输出文本。
18.根据权利要求17所述的生成式人工智能的因果思维链生成方法,其特征在于,所述判断是否达到预测终止条件,包括:
判断当前输出文本与预设终止文本的对比结果是否满足要求;
若是,则确定达到预测终止条件;
若否,则确定未达到预测终止条件。
19.根据权利要求18所述的生成式人工智能的因果思维链生成方法,其特征在于,所述判断当前输出文本与预设终止文本的对比结果是否满足要求之前,还包括:
获取所述待预测图像对应的终止输入文本,并将所述终止输入文本确定为所述预设终止文本。
20.根据权利要求17所述的生成式人工智能的因果思维链生成方法,其特征在于,所述利用当前输出文本更新所述问题文本,包括:
在所述问题文本内加入当前输出文本,得到更新后的所述问题文本。
21.一种生成式人工智能的因果思维链生成装置,其特征在于,包括:
图文编码模块,用于根据获取的待预测图像和问题文本,利用预训练语言模型编码器,得到图文编码特征;
因果链编码模块,用于对所述图文编码特征和初始化因果链向量进行因果链编码,得到因果链筛选特征;其中,所述初始化因果链向量包括可见节点嵌入向量、不可见节点嵌入向量、因果边嵌入向量和条件边嵌入向量,所述因果链筛选特征包括节点筛选特征和边筛选特征,所述因果链筛选特征的大小为所述初始化因果链向量的一半;
编码预测模块,用于根据所述图文编码特征和所述因果链筛选特征,利用预训练语言模型解码器,获取因果链节点预测文本。
22.一种生成式人工智能的因果思维链生成设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至20任一项所述的生成式人工智能的因果思维链生成方法的步骤。
23.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至20中任一项所述的生成式人工智能的因果思维链生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311118754.2A CN116862000B (zh) | 2023-09-01 | 2023-09-01 | 一种生成式人工智能的因果思维链生成方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311118754.2A CN116862000B (zh) | 2023-09-01 | 2023-09-01 | 一种生成式人工智能的因果思维链生成方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116862000A true CN116862000A (zh) | 2023-10-10 |
CN116862000B CN116862000B (zh) | 2024-01-23 |
Family
ID=88230778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311118754.2A Active CN116862000B (zh) | 2023-09-01 | 2023-09-01 | 一种生成式人工智能的因果思维链生成方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116862000B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117744797A (zh) * | 2023-12-15 | 2024-03-22 | 中国科学院空天信息创新研究院 | 基于基础模型的思维图推理方法、装置、设备及介质 |
CN117787421A (zh) * | 2024-02-23 | 2024-03-29 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于思维链确定问题答案的方法和装置、电子设备 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017194727A (ja) * | 2016-04-18 | 2017-10-26 | 株式会社日立製作所 | 因果関係抽出装置、因果関係抽出方法及び因果関係抽出プログラム |
CN111680484A (zh) * | 2020-05-29 | 2020-09-18 | 北京理工大学 | 一种视觉常识推理问答题的答题模型生成方法和系统 |
CN112732888A (zh) * | 2021-04-01 | 2021-04-30 | 中国人民解放军国防科技大学 | 一种基于图推理模型的答案预测方法及装置 |
US20210264190A1 (en) * | 2020-06-29 | 2021-08-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Image questioning and answering method, apparatus, device and storage medium |
CN113392253A (zh) * | 2021-06-28 | 2021-09-14 | 北京百度网讯科技有限公司 | 视觉问答模型训练及视觉问答方法、装置、设备及介质 |
CN113792113A (zh) * | 2020-07-31 | 2021-12-14 | 北京京东尚科信息技术有限公司 | 视觉语言模型获得及任务处理方法、装置、设备及介质 |
US20210406592A1 (en) * | 2020-06-30 | 2021-12-30 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus for visual question answering, computer device and medium |
CN114092707A (zh) * | 2021-11-18 | 2022-02-25 | 华中师范大学 | 一种图像文本视觉问答方法、系统及存储介质 |
CN114218932A (zh) * | 2021-11-26 | 2022-03-22 | 中国航空综合技术研究所 | 基于故障因果图谱的航空故障文本摘要生成方法及其装置 |
CN114511860A (zh) * | 2022-04-19 | 2022-05-17 | 苏州浪潮智能科技有限公司 | 一种差异描述语句生成方法、装置、设备及介质 |
CN114998670A (zh) * | 2022-04-14 | 2022-09-02 | 哈尔滨工业大学重庆研究院 | 多模态信息预训练方法及系统 |
CN115129839A (zh) * | 2022-06-16 | 2022-09-30 | 人民网股份有限公司 | 基于图感知的视觉对话答案生成方法及装置 |
US20220318502A1 (en) * | 2021-04-02 | 2022-10-06 | Liveperson, Inc. | Domain adaptation of ai nlp encoders with knowledge distillation |
CN115239944A (zh) * | 2022-06-13 | 2022-10-25 | 中国矿业大学 | 基于因果推理的图像标题自动生成方法 |
US20220391755A1 (en) * | 2021-05-26 | 2022-12-08 | Salesforce.Com, Inc. | Systems and methods for vision-and-language representation learning |
WO2023024412A1 (zh) * | 2021-08-25 | 2023-03-02 | 平安科技(深圳)有限公司 | 基于深度学习模型的视觉问答方法及装置、介质、设备 |
CN116501877A (zh) * | 2023-05-06 | 2023-07-28 | 厦门大学 | 一种基于因果图谱的多模态注意力谣言检测方法 |
-
2023
- 2023-09-01 CN CN202311118754.2A patent/CN116862000B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017194727A (ja) * | 2016-04-18 | 2017-10-26 | 株式会社日立製作所 | 因果関係抽出装置、因果関係抽出方法及び因果関係抽出プログラム |
CN111680484A (zh) * | 2020-05-29 | 2020-09-18 | 北京理工大学 | 一种视觉常识推理问答题的答题模型生成方法和系统 |
US20210264190A1 (en) * | 2020-06-29 | 2021-08-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Image questioning and answering method, apparatus, device and storage medium |
US20210406592A1 (en) * | 2020-06-30 | 2021-12-30 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus for visual question answering, computer device and medium |
CN113792113A (zh) * | 2020-07-31 | 2021-12-14 | 北京京东尚科信息技术有限公司 | 视觉语言模型获得及任务处理方法、装置、设备及介质 |
CN112732888A (zh) * | 2021-04-01 | 2021-04-30 | 中国人民解放军国防科技大学 | 一种基于图推理模型的答案预测方法及装置 |
US20220318502A1 (en) * | 2021-04-02 | 2022-10-06 | Liveperson, Inc. | Domain adaptation of ai nlp encoders with knowledge distillation |
US20220391755A1 (en) * | 2021-05-26 | 2022-12-08 | Salesforce.Com, Inc. | Systems and methods for vision-and-language representation learning |
CN113392253A (zh) * | 2021-06-28 | 2021-09-14 | 北京百度网讯科技有限公司 | 视觉问答模型训练及视觉问答方法、装置、设备及介质 |
WO2023024412A1 (zh) * | 2021-08-25 | 2023-03-02 | 平安科技(深圳)有限公司 | 基于深度学习模型的视觉问答方法及装置、介质、设备 |
CN114092707A (zh) * | 2021-11-18 | 2022-02-25 | 华中师范大学 | 一种图像文本视觉问答方法、系统及存储介质 |
CN114218932A (zh) * | 2021-11-26 | 2022-03-22 | 中国航空综合技术研究所 | 基于故障因果图谱的航空故障文本摘要生成方法及其装置 |
CN114998670A (zh) * | 2022-04-14 | 2022-09-02 | 哈尔滨工业大学重庆研究院 | 多模态信息预训练方法及系统 |
CN114511860A (zh) * | 2022-04-19 | 2022-05-17 | 苏州浪潮智能科技有限公司 | 一种差异描述语句生成方法、装置、设备及介质 |
CN115239944A (zh) * | 2022-06-13 | 2022-10-25 | 中国矿业大学 | 基于因果推理的图像标题自动生成方法 |
CN115129839A (zh) * | 2022-06-16 | 2022-09-30 | 人民网股份有限公司 | 基于图感知的视觉对话答案生成方法及装置 |
CN116501877A (zh) * | 2023-05-06 | 2023-07-28 | 厦门大学 | 一种基于因果图谱的多模态注意力谣言检测方法 |
Non-Patent Citations (4)
Title |
---|
RENGANG LI ET.AL: "AI-VQA: VisualQuestion Answering based on Agent Interaction with Interpretability", 《PROCEEDINGS OF THE 30TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA (MM \' 22》, pages 5274 - 5282 * |
SHENG ZHANG ET.AL: "Multimodal feature-wise co-attention method for visual question answering", 《INFORMATION FUSION》, vol. 73, pages 1 - 10 * |
张飞飞 等: "跨模态视觉问答与推理研究进展", 《数据采集与处理》, pages 1 - 20 * |
罗会兰;岳亮亮;: "跨层多模型特征融合与因果卷积解码的图像描述", 中国图象图形学报, no. 08, pages 96 - 109 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117744797A (zh) * | 2023-12-15 | 2024-03-22 | 中国科学院空天信息创新研究院 | 基于基础模型的思维图推理方法、装置、设备及介质 |
CN117787421A (zh) * | 2024-02-23 | 2024-03-29 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于思维链确定问题答案的方法和装置、电子设备 |
CN117787421B (zh) * | 2024-02-23 | 2024-05-31 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于思维链确定问题答案的方法和装置、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116862000B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112668671B (zh) | 预训练模型的获取方法和装置 | |
Awais et al. | Foundational models defining a new era in vision: A survey and outlook | |
CN116862000B (zh) | 一种生成式人工智能的因果思维链生成方法、装置及设备 | |
CN112487182A (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN115223020B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN112257471B (zh) | 一种模型训练方法、装置、计算机设备及存储介质 | |
CN117540221B (zh) | 图像处理方法和装置、存储介质及电子设备 | |
CN114359775A (zh) | 关键帧检测方法、装置、设备及存储介质、程序产品 | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN117437317A (zh) | 图像生成方法、装置、电子设备、存储介质和程序产品 | |
CN115311598A (zh) | 基于关系感知的视频描述生成系统 | |
CN117315070A (zh) | 图像生成方法、装置、电子设备、存储介质和程序产品 | |
CN110942774A (zh) | 一种人机交互系统、其对话方法、介质和设备 | |
CN115563335A (zh) | 模型训练方法、图文数据处理方法及装置、设备、介质 | |
CN114492661B (zh) | 文本数据分类方法和装置、计算机设备、存储介质 | |
CN117453880A (zh) | 多模态数据的处理方法、装置、电子设备及存储介质 | |
CN113569068B (zh) | 描述内容生成方法、视觉内容的编码、解码方法、装置 | |
CN116824308B (zh) | 图像分割模型训练方法与相关方法、装置、介质及设备 | |
CN114328943A (zh) | 基于知识图谱的问题回答方法、装置、设备及存储介质 | |
CN115525263A (zh) | 代码补全模型的训练方法、代码补全方法和装置 | |
CN113408721A (zh) | 神经网络结构搜索方法、装置、计算机设备和存储介质 | |
CN117034133A (zh) | 一种数据处理方法、装置、设备和介质 | |
CN113591493B (zh) | 翻译模型的训练方法及翻译模型的装置 | |
CN115438210A (zh) | 文本图像生成方法、装置、终端及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |