CN116994069B

CN116994069B - 一种基于多模态信息的图像解析方法及系统

Info

Publication number: CN116994069B
Application number: CN202311240813.3A
Authority: CN
Inventors: 姜明华; 陈余焜; 余锋; 刘莉; 周昌龙; 宋坤芳
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2023-12-22
Anticipated expiration: 2043-09-22
Also published as: CN116994069A

Abstract

本申请提供一种基于多模态信息的图像解析方法及系统，所述方法包括以下步骤：S1：设计基于多模态信息的图像解析模型，所述基于多模态信息的图像解析模型包括视觉特征提取模块、文本信息处理模块、多模态特征融合模块和图像解析结果生成模块；S2：训练所述基于多模态信息的图像解析模型，得到训练好的基于多模态信息的图像解析模型；S3：采用训练好的基于多模态信息的图像解析模型解析图片，对多场景下的安全作业风险进行判别。本申请通过利用多模态特征融合的方法，采用多种损失函数，将图像和文本等多种模态中的信息结合起来进行图像解析，通过综合利用不同模态的信息，提高了图像解析的准确性和全面性。

Description

一种基于多模态信息的图像解析方法及系统

技术领域

本申请涉及图像理解领域，尤其涉及一种基于多模态信息的图像解析方法及系统。

背景技术

互联网时代正在快速发展，视觉分析成为了图像的研究热点。视觉分析在图像理解领域显得尤为重要。现有技术中，图像解析是一项重要的任务，可以从图像中提取有用的信息和特征，用于图像分类、目标检测、场景理解等应用。然而，传统的图像解析方法主要依赖于单一模态的信息，例如图像像素值或基于图像的特征提取。这种单模态方法在某些情况下可能存在局限性，无法充分利用多模态信息的丰富性。

随着多模态数据的广泛应用，基于多模态信息的图像解析方法成为研究的热点。多模态信息包括图像、文本、语音、视频等不同模态的数据，这些信息相互关联并可以提供更全面和准确的图像理解和分析。通过综合利用多模态信息，可以实现更高级别的图像解析任务，如图像描述生成、多模态检索。

公开号为CN109977956A的中国专利公开了“一种图像处理方法、装置、电子设备以及存储介质”，该发明可以获取包含文本对象的目标图像，在所述目标图像中确定与所述文本对象相关联的文本图像区域，但是采用该发明，仅能提高识别图像中文本位置的效率，无法做到对多模态信息下的图像做到精准解析，往往会因为多行业场景下的一些不可控原因而影响后续的分析和评估结果的准确性。

因此，寻找一种能够在多模态信息下，提高图像解析的准确性和全面性的方法是本领域技术人员亟待解决的技术问题。

发明内容

针对现有技术的以上缺陷或者改进需求，本发明提供了一种基于多模态信息的图像解析方法，旨在充分利用多模态信息的丰富性，提高图像解析的准确性和全面性。

为实现上述目的，按照本发明的一个方面，提供了一种基于多模态信息的图像解析方法，所述方法包括以下步骤：

S1：设计基于多模态信息的图像解析模型，所述基于多模态信息的图像解析模型包括视觉特征提取模块、文本信息处理模块、多模态特征融合模块和图像解析结果生成模块；

所述视觉特征提取模块用于将原始图像中的特征提取出来，经过处理得到图像特征向量；

所述文本信息处理模块用于将原始文本中的特征提取出来，经过处理得到文本特征向量；

所述多模态特征融合模块用于将所述视觉特征提取模块得到的图像特征向量和所述文本信息处理模块得到的文本特征向量进行特征融合，得到多模态特征；

所述图像解析结果生成模块用于将所述多模态特征融合模块得到的多模态特征输入到Transformer解码器进行解码处理，将解码器输出的特征转换为检测结果并输出；

S2：训练所述基于多模态信息的图像解析模型，得到训练好的基于多模态信息的图像解析模型；

S3：采用训练好的基于多模态信息的图像解析模型解析图像，对多场景下的安全作业风险进行判别。

作为本申请一实施例，所述步骤S1中视觉特征提取模块的步骤具体包括：

S111：输入原始图像，通过卷积神经网络从原始图像中提取出不同层次和尺度的特征，卷积神经网络堆叠了多个卷积层、激活函数和池化层，通过卷积神经网络处理后得到每幅图像的特定特征空间；

S112：将所述每幅图像的特定特征空间进行自适应平均池化，将不同尺寸的特征图转换为固定尺寸的特征向量；

S113：引入自注意力机制，对特征向量进行加权组合；

S114：将所述特征向量通过两个分支，第一个分支不做任何处理，保留原始特征向量，第二个分支先通过1×1卷积、3×3卷积和1×1卷积进行特征维度变换和非线性变换，再通过1×1、3×3和5×5卷积核并行卷积以进一步捕捉多尺度特征；

S115：将经过处理的第二个分支的多尺度特征向量与第一个分支的原始特征向量进行相加，融合在一起；

S116：引入ReLU激活函数，对融合后的特征进行非线性映射，得到图像特征向量，所述图像特征向量即为视觉特征提取模块的编码结果。

作为本申请一实施例，所述步骤S1中文本信息处理模块的步骤具体包括：

S121：输入原始文本，通过词嵌入将原始文本中的每个单词映射为固定维度的向量表示，再将经过词嵌入处理的文本序列输入到序列编码器中；

S122：通过循环神经网络逐步处理输入的文本序列，捕捉上下文信息和语义关联，并对经过序列编码器处理得到的序列编码后的特征进行加权融合；

S123：引入注意力机制，关注经过循环神经网络处理的文本序列中重要的单词及语义片段；

S124：将融合后的特征输入到上下文编码器中，通过双向循环神经网络同时考虑正向和反向的隐藏状态；

S125：应用特征金字塔网络对上下文编码后的特征进行多尺度的处理和融合；

S126：引入全连接层对通过特征金字塔网络处理得到的特征进行维度变换和非线性映射，得到文本特征向量，所述文本特征向量即为文本信息处理模块的编码结果。

作为本申请一实施例，所述步骤S1中多模态特征融合模块的步骤具体包括：

S131：将所述图像特征向量和文本特征向量进行关联度分析，通过特征对齐将来自不同模态的特征进行有效的比较和融合；

S132：将图像特征向量和文本特征向量按通道拼接的方式进行特征融合；

S133：通过深层处理，进行多层卷积、池化与全连接层协同操作，提取高级语义信息，减少特征的维度，捕捉融合后特征的抽象表示，输出多模态特征。

作为本申请一实施例，所述步骤S1中图像解析结果生成模块的步骤具体包括：

S141：将经过特征融合后的多模态特征输入到Transformer解码器进行解码处理，Transformer利用自注意力机制和前馈神经网络，在解码过程中动态地捕捉多模态特征之间的相关性，并逐步生成解析结果；

S142：引入交叉注意力机制，建立图像与文本之间的跨模态关联，计算图像特征与文本特征之间的注意力权重，模型能够动态地捕捉到图像特征与文本特征之间的重要关系，并相应地调整解码的输出；

S143：采用特征金字塔网络对解码器的输出特征进行处理，捕捉不同层次的语义信息和上下文关系；

S144：引入自注意力机制，学习到图像内部不同区域之间的关联性，并将注意力集中到重要的图像区域上；

S145：采用全连接层对解码器输出的特征进行维度变换和非线性映射，将解码器的输出映射到最终的检测结果空间，产生最终的检测结果并输出。

作为本申请一实施例，所述步骤S2训练所述基于多模态信息的图像解析模型具体包括：

S21：设计损失函数，所述损失函数包括图像重建损失函数、文本重建损失函数和特征对齐损失函数；

S22：调节训练参数；

S23：训练模型，训练时计算损失函数并进行迭代，查看损失函数图像，若图像未收敛，再次对模型进行训练，若模型收敛，得出最优的基于多模态信息的图像解析模型

作为本申请一实施例，所述步骤S21具体包括；

所述图像重建损失函数通过像素级别的损失、结构相似性指数损失和感知损失来衡量重建图像与原始图像之间的差异；

所述像素级别的损失用于衡量重建图像与原始图像之间在像素级别上的差异，其公式如下：

其中，为原始图像，为解码器生成的重建图像，表示对所有特征图像素求和，是图像中的像素总数，是一个较小的常数，用于避免分母为零的情况；

所述结构相似性指数损失通过比较两幅图像的亮度分量、对比度分量和结构分量之间的差异来衡量图像的相似性，其公式如下：

其中，图像的亮度、对比度和结构这些分量的组合构成了完整的函数，其公式如下：

其中，表示原始图像，表示重建图像，和分别表示和的亮度分量的均值，这个均值衡量了图像的整体亮度水平，和分别表示和对比度分量的标准差，这个标准差用于衡量对比度的变化程度，表示和结构之间的协方差，这个协方差用于衡量图像在结构上的相似性，和分别表和对比度分量的方差，和是为了稳定计算而引入的常数，是一个较小的常数，用于避免分母为零的情况；

所述感知损失利用预训练的卷积神经网络来提取图像的高层次特征，对卷积神经网络的多个特征层进行特征提取，其公式如下：

其中，表示特征图的通道数，和分别表示特征图的高度和宽度，、、三者均不为0，表示对所有位置的特征差的平方进行加权求和，表示原始图像在第层特征提取后的特征图，表示重建图像在第层特征提取后的特征图，表示第层特征的权重，用于调整不同层特征的重要性；

综合以上三个损失项，得到最终的图像重建损失函数：

其中，、、都是超参数，用于平衡三个损失函数各自的权重；

所述文本重建损失函数利用余弦相似度来衡量生成文本与原始文本之间的差异，其计算公式如下：

其中，表示为原始文本，表示为生成的重建文本，将原始文本和重建文本转换为词嵌入表示，分别记为和，表示的转置，表示的转置，表示向量的点积运算，表示两个向量对应位置的元素相乘，并将结果相加得到一个标量值；表示向量的逐元素乘法运算，表示两个向量对应位置的元素相乘，得到一个新的向量，是一个较小的常数，用于避免分母为零的情况；

所述特征对齐损失函数用于促使模型学习到更一致的特征表示，通过特征提取得到图像特征表示和文本特征表示，其计算公式如下：

其中，表示图像特征向量中的第个元素，表示文本特征向量中的第个元素，和分别表示图像特征和文本特征的标准差，是一个较小的常数，用于避免分母为零的情况。

作为本申请一实施例，所述步骤S21中调节训练参数的步骤具体包括：

S211：使用自适应学习率算法Adam优化器，根据每个参数的历史梯度信息来自动调节与更新学习率，同时，训练时在验证集上监控模型性能，并设定性能阈值，如果连续几个迭代中验证集上的性能没有显著提高，训练停止，避免模型过拟合，并保留验证集上性能最佳的模型；

S222：在网络中引入L2正则化技术，通过对模型参数进行惩罚，限制其大小，同时使用Dropout技术，在训练过程中随机丢弃一部分神经元，减少模型的依赖性，提高模型的稳定性和泛化能力，获得最佳的训练结果。

作为本申请一实施例，所述步骤S3具体包括：

S31：对待解析的图像进行预处理，确保输入图像符合模型的要求；

S32：将经过预处理的图像输入到训练好的基于多模态信息的图像解析模型中，对图像进行解析和特征提取；

S33：将提取到的图像特征输入到风险因素识别模块中，对多场景下的安全作业风险进行识别和预测，模型根据图像特征判断是否存在风险因素，并给出相应的预测结果；

S34：根据风险因素的识别结果生成相应的输出，并将输出结果进行可视化展示。

本申请还提供一种基于多模态信息的图像解析系统，包括：

视觉特征提取模块，将原始图像中的特征提取出来经过处理得到图像特征向量；

文本信息处理模块，将原始文本中的特征提取出来经过处理得到文本特征向量；

多模态特征融合模块，将所述视觉特征提取模块得到的图像特征向量和所述文本信息处理模块得到的文本特征向量进行特征融合，得到多模态特征；

图像解析结果生成模块，将所述多模态特征融合模块得到的多模态特征输入到Transformer解码器进行解码处理，将解码器输出的特征转换为检测结果并输出；

风险判断模块，风险判断模块对多场景下的安全作业风险进行判别，根据图像特征判断是否存在风险因素，并识别出风险类别、风险概率以及风险等级。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

（1）本发明通过多模态特征融合模块，将图像和文本等多种模态的信息结合起来进行图像解析。通过综合利用不同模态的信息，可以提高图像解析的准确性和全面性，从而更好地理解和识别图像中的内容。

（2）本发明综合运用了图像重建损失函数、文本重建损失函数以及特征对齐损失函数，充分考虑了不同模态信息之间的关系与一致性。通过图像重建损失函数，能够确保生成的图像与原始图像在像素级别上保持一致，有效地捕捉图像的细节和特征；文本重建损失函数使得生成的文本能够与原始文本在语义空间中保持一致，提高了文本信息的生成质量；而特征对齐损失函数进一步强化了不同模态信息之间的一致性，促使模型在多模态特征融合过程中保持稳定的对齐。通过综合考虑这些损失函数，能够在多模态信息的融合和解析过程中充分挖掘模态之间的互补性和相关性，从而提升了模型在风险因素识别等任务中的性能。这种综合性的损失函数设计使得模型能够更好地处理复杂的多模态数据，从而实现了更准确和全面的解析与识别。

（3）本发明提出了一种训练过程中调节参数的策略，通过动态调整学习率和正则化项等参数，能够有效地提高训练的稳定性和收敛性。这样的策略能够更好地优化图像解析模型的性能，提高图像解析的效果。

（4）本发明在图像解析过程中，结合训练好的图像解析模型，对图像中的风险因素进行识别。通过对图像特征的分析和模型的预测，可以有效地发现和判断图像中存在的潜在风险，为风险评估和决策提供有力支持。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于多模态信息的图像解析方法的技术方案图；

图2为本发明实施例提供的一种基于多模态信息的图像解析方法的流程示意图；

图3为本发明实施例提供的一种多模态信息的图像解析方法的网络模型概要图；

图4为本发明实施例提供的一种多模态信息的图像解析方法的网络结构图；

图5为本发明实施例提供的一种多模态信息的图像解析系统框图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地描述。

本申请的说明书、权利要求书及附图中的术语“第一”和“第二”等仅用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备等，没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元等，或可选地还包括对于这些过程、方法、产品或设备等固有的其它步骤或单元。

在本申请中提及的“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员可以显式地和隐式地理解的是，本申请描述的实施例可以与其它实施例相结合。

在本申请中，“至少一个（项）”是指一个或者多个，“多个”是指两个或两个以上，“至少两个（项）”是指两个或三个及三个以上，“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合。例如，a，b或c中的至少一项（个），可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”。

如图1-4所示，本申请提供了一种基于多模态信息的图像解析方法，所述方法包括以下步骤：

S3：采用训练好的基于多模态信息的图像解析模型解析图像，对多场景下的安全作业进行判别。

S111：输入原始图像，通过卷积神经网络（CNN）从原始图像中提取出不同层次和尺度的特征，卷积神经网络（CNN）堆叠了多个卷积层、激活函数和池化层，通过卷积神经网络（CNN）处理后得到每幅图像的特定特征空间；

S113：引入自注意力机制，对特征向量进行加权组合；

其中，卷积层会应用一系列的卷积核来捕获图像中的局部结构和纹理信息，在卷积神经网络（CNN）中的高层特征图中，图像的语义信息和抽象特征被更好地表示。

对所述每幅图像的特定特征空间进行自适应平均池化，提取图像中重要的特征并将其变换为低维空间，改善图像处理的各种操作，将不同尺寸的特征图转换为固定尺寸的特征向量，这样做可以在保留全局上下文信息的同时，减少特征维度，引入自注意力机制，对特征向量进行加权组合，以捕捉特征之间的依赖关系和重要性，这有助于提高特征的区分度和表达能力。

将特征向量分成两个分支，将第二分支通过不同的卷积进行特征维度变换和非线性变换，以进一步捕捉不同尺度的特征，这样的设计可以帮助模型捕捉不同尺度的特征，从细节到整体逐渐提高感受野。

S121：输入原始文本，通过词嵌入将原始文本的每个单词映射为固定维度的向量表示，再将经过词嵌入处理的文本序列输入到序列编码器；

S122：通过循环神经网络（RNN）逐步处理输入的文本序列，捕捉上下文信息和语义关联，并对经过序列编码处理得到的序列编码后的特征进行加权融合；

S123：引入注意力机制，关注经过循环神经网络（RNN）处理的文本序列更重要的单词及语义片段；

S124：将融合后的特征输入到上下文编码器中，通过双向循环神经网络（RNN）同时考虑正向和反向的隐藏状态；

S125：应用特征金字塔网络（FPN）对上下文编码后的特征进行多尺度的处理和融合；

S126：引入全连接层对通过特征金字塔网络（FPN）处理得到的特征进行维度变换和非线性映射，得到文本特征向量，所述文本特征向量即为文本信息处理模块的编码结果。

其中，词嵌入可以捕捉单词之间的语义关系，并将文本转换为连续向量空间中的表示，因此通过词嵌入技术将原始文本的每个单词映射为固定维度的向量表示。通过双向循环神经网络（RNN）同时考虑正向和反向的隐藏状态，以此更全面地捕捉文本的上下文信息和长期依赖关系，之后再应用特征金字塔网络（FPN）对上下文编码后的特征进行多尺度的处理和融合，提升模型对图像解析任务的适应能力。

因为全连接层可以将高维度的特征向量转换为更紧凑和可解释的表示，同时引入非线性激活函数以增强特征的表达能力，最终得到的文本特征向量即为文本特征的编码结果。所述文本特征向量包含了从原始文本中提取的关键语义和上下文信息，可用于后续多模态融合和图像解析任务，此文本特征向量将与图像特征向量进行融合，用于生成图像解析结果。

S133：通过深层处理，进行多层卷积、池化与全连接层协同操作，提取高级语义信息，减少特征的维度，捕捉融合后特征的抽象表示。

其中，将所述图像特征向量和文本特征向量进行关联度分析，通过特征对齐将来自不同模态的特征进行有效的比较和融合，从而实现多模态信息的互补和共享，使它们在特征空间上具有一致的表示，将图像特征向量和文本特征向量按通道拼接的方式进行特征融合，这种融合方式能够保留两个特征源的信息，使得融合后的特征具备更丰富的表示能力。

S141：将经过特征融合后的多模态特征输入到Transformer解码器进行解码处理，Transformer利用自注意力机制和前馈神经网络，在解码过程中动态地捕捉多模态特征之间的相关性，并逐步生成更丰富、准确的解析结果；

S142：引入交叉注意力机制，建立图像与文本之间的跨模态关联，计算图像特征与文本特征之间的重要关系，并相应地调整解码的输出；

其中，引入交叉注意力机制，通过计算图像特征与文本特征之间的注意力权重，模型能够动态地捕捉到它们之间的重要关系，并相应地调整解码的输出，这种跨模态的关联性有助于提高解析结果的准确性和一致性。

特征金字塔网络能够捕捉不同层次的语义信息和上下文关系，从而丰富解析结果的特征表示能力，引入自注意力机制，进一步增强了图像特征并提高了解析结果对图像细节和语义信息的捕捉能力。

检测结果主要是风险检测后会出现风险类别和概率以及风险等级，比如检测到人员未佩戴安全帽，或者检测到安全帽的概率是10%，那么就可以评判为存在风险。

S22：调节训练参数；

S23：训练模型，训练时计算损失函数并进行迭代，查看损失函数图像，若图像未收敛，再次对模型进行训练，若模型收敛，得出最优的基于多模态信息的图像解析模型。

所述步骤S21具体包括：

所述像素级别的损失用于衡量重建图像与原始图像之间在像素级别上的差异，包括但不局限于衡量图像的细节保留情况，强调重建准确性，其公式如下：

所述结构相似性指数损失通过比较两幅图像的亮度分量、对比度分量和结构分量之间的差异来衡量图像的相似性，其公式设计如下：

其中，图像的亮度、对比度和结构这些分量的组合构成了完整的函数，由于亮度是图像中最容易理解和感知的特性，在此对其进行优化，其公式如下：

，其中，表示原始图像，表示重建图像，和分别表示和的亮度分量的均值，这个均值衡量了图像的整体亮度水平，和分别表示和对比度分量的标准差，这个标准差用于衡量对比度的变化程度，表示和结构之间的协方差，这个协方差用于衡量图像在结构上的相似性，和分别表和对比度分量的方差，和是为了稳定计算而引入的常数，是一个较小的常数，用于避免分母为零的情况。损失的取值范围在[0,1]之间，数值越接近1表示重建图像与原始图像越相似，通过最小化损失，可以促使解码器生成尽可能与原始图像在亮度、对比度和结构上都相似的重建图像，提高重建图像的感知质量。

所述感知损失利用预训练的卷积神经网络来提取图像的高层次特征，从而更好地了解图像的结构、内容和语义信息，帮助衡量生成图像与原始图像之间的感知质量，即图像在视觉上的相似度，对卷积神经网络的多个特征层进行特征提取，其公式如下：

其中，表示特征图的通道数，和分别表示特征图的高度和宽度，、、三者均不为0，表示对所有位置的特征差的平方进行加权求和，表示原始图像在第层特征提取后的特征图，表示重建图像在第层特征提取后的特征图，表示第层特征的权重，用于调整不同层特征的重要性。在此优化后的公式中，首先计算每个特征层上的特征差异，并对差异进行平方，然后，将不同特征层上的差异加权求和，以考虑不同层特征的重要性，最终的感知损失是所有特征层上差异的平均值。

综合以上三个损失项，可以得到最终的图像重建损失函数：

其中，、、都是超参数，用于平衡三个损失函数各自的权重。

图像重建损失函数的设计体现了多个方面的图像特征差异，从而在图像解析过程中能够获得更好的效果。首先，像素级别损失强调了图像的精确重建，通过最小化像素间的均方差，使生成的图像在像素级别上尽可能与原始图像一致，捕获了图像的细节和整体结构；其次，结构相似性指数损失考虑了图像的结构信息，通过比较与衡量两幅图像的亮度分量、对比度分量和结构分量之间的差异来促进生成的图像与原始图像相似，从而在视觉上更加接近原图，增强了图像的自然感；最后，感知损失利用预训练的特征提取网络，捕捉图像的高层语义信息，使生成的图像在特征层面与原始图像一致，有助于保持图像的语义内容与视觉上的相似度。综合这三个损失函数，能够同时考虑图像的低层像素信息、结构信息以及高层语义信息，从而实现了更全面、多角度的图像重建效果。通过这种综合性的损失函数，能够在不同层次上优化图像的生成过程，获得更高质量的图像解析结果，更好地满足实际应用的需求。

所述文本重建损失函数利用余弦相似度来衡量生成文本与原始文本之间的差异，使用余弦相似度公式计算它们之间的相似度作为文本重建损失函数，其计算公式如下：

通过最小化文本重建损失函数，训练时在一个嵌入空间中对生成的文本与原始文本之间的相似度进行优化。这个相似度是基于词嵌入的余弦相似度，它能够捕捉单词之间的语义关系，使得生成的文本在语义上更加接近原始文本。

具体地说，训练解码器时，文本重建损失函数要求生成的文本与原始文本在词嵌入空间中的相似度尽可能高，因此解码器被鼓励生成与原始文本类似的词嵌入表示。这导致解码器在生成过程中会更多地关注单词的语义含义，而不仅仅是简单地匹配字符。通过优化这个损失函数，解码器会逐渐学习到如何在生成的文本中保留原始文本的语义信息，从而使生成的文本与原始文本在语义上更加接近。

这种度量方法的体现在于，随着训练的进行，解码器能够逐步改进其生成策略，使生成的文本更具语义准确性，与原始文本在词嵌入空间中的相似度逐渐增加。通过在训练过程中引入这样的文本重建损失函数，可以让模型在生成文本时更加注重语义信息，从而获得更具有语义一致性的生成结果。

所述特征对齐损失函数用于促使模型学习到更一致的特征表示，以便在多模态信息融合中达到更好的效果，通过特征提取得到图像特征表示和文本特征表示，特征对齐损失函数的计算公式如下：

其中，表示为图像特征向量中的第个元素，表示为文本特征向量中的第个元素，和分别表示图像特征和文本特征的标准差，是一个较小的常数，用于避免分母为零的情况。

通过除以标准差的乘积，可以将特征差异归一化，以更好地比较它们之间的相似性，进而衡量特征向量的差异。另外，考虑到特征的变化范围，通过乘以超参数，调整损失函数的权重，平衡其在损失函数中的贡献，使得特征对齐损失函数更加鲁棒和平衡，有助于提高模型在多模态信息融合过程中的性能和稳定性。

同时，特征对齐损失函数通过计算不同模态下的特征之间的差异，强制模型在融合过程中将不同模态的特征映射到相似的表示空间中。通过最小化特征对齐损失，模型被迫学习到将图像和文本的特征在特征空间中进行对齐，使它们能够更好地互相匹配和融合。这样，当输入图像和文本时，模型能够在特征层面上自动捕捉到它们之间的关联性，从而在解析过程中能够更准确地利用多模态信息。

特征对齐损失函数的体现在于，模型在训练过程中逐渐调整特征表示，使得不同模态的特征在特征空间中更加接近。通过优化这个损失函数，模型能够更好地理解和利用多模态信息，提高解析的效果，另外，这种方式在训练过程中迫使模型学习到一种能够捕捉多模态信息关联性的表示，使得融合后的特征更加一致，从而在后续的解析过程中表现更好。

S21：根据每个参数的历史梯度信息来自动调节与更新学习率；同时，训练时在验证集上监控模型性能，并设定性能阈值，如果连续几个迭代中验证集上的性能没有显著提高，训练会停止，这有助于避免模型过拟合，并保留验证集上性能最佳的模型；

S22：在网络中引入L2正则化技术，该技术通过对模型参数进行惩罚，限制其大小，从而避免模型过于复杂，提高其泛化能力，通过对模型参数施加约束，可以更好地控制模型的复杂度，也能避免过拟合问题；同时，使用Dropout技术，它在训练过程中随机丢弃一部分神经元，从而减少模型的依赖性，增加模型的稳定性和泛化能力，使其能够更好地适应未见过的数据。

通过综合考虑以上策略，可以优化训练过程中参数的调节方式，提高模型的训练效果和性能，以获得最佳的训练结果。通过合理地选择停止条件、引入正则化技术和使用Dropout技术，能够获得更加稳定、泛化能力更强的模型，为获得最佳的训练结果奠定了基础。

作为本申请一实施例，所述步骤S3具体包括：

S33：将提取到的图像特征输入到风险因素识别模块中，对多场景下的安全作业风险进行识别和预测，根据图像特征判断是否存在风险因素，并给出相应的识别结果；

S34：根据风险因素的识别结果生成相应的输出，并将输出结果进行可视化展示，以便对其具有更好地理解和解释。

其中，对待解析的图像进行预处理操作，包括图像尺寸调整、归一化以及通道调整等。将经过预处理的待解析图像作为输入提供给训练好的基于多模态信息的图像解析模型中，执行前向传播操作，该模型会根据其学习到的特征和权重对图像进行解析和特征提取。

具体的，输出包括了风险因素的存在与否，预测的概率，以及对风险程度进行的评判，比如检测到人员未佩戴安全帽，或者检测到安全帽的概率是10%，那么就可以评判为存在风险。根据具体需求，还可以输出存在的风险因素的类别标签，同时给出提示，说明应该如何应对此风险，以及与风险因素相关的其他信息。通过合理运用基于多模态信息的图像解析模型，该方法能够从图像中提取有用的特征并对图像中的风险因素进行准确的识别和评估，为决策提供重要的参考依据。

如图5所示，本申请还提供了一种基于多模态信息的图像解析系统，包括：

图像解析结果生成模块，将所述多模态特征融合模块得到的多模态特征输入到Transformer解码器进行解码处理，将解码器输出的特征转换为检测结果并输出。

本发明提供一种基于多模态信息的图像解析方法及系统，旨在利用多模态信息的图像解析模型对多产业图像进行解析。该方法结合了不同模态的信息，包括图像和文本，通过综合利用这些信息来理解和分析多产业图像中的内容，提高了图像解析的准确性和全面性，并给出了对风险程度的评判与提示，为多产业领域的决策和应用提供更有效的支持。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

1.一种基于多模态信息的图像解析方法，其特征在于，所述方法包括以下步骤：

S3：采用训练好的基于多模态信息的图像解析模型解析图像，对多场景下的安全作业风险进行判别;

所述步骤S1中视觉特征提取模块的步骤具体包括：

S113：引入自注意力机制，对特征向量进行加权组合；

S116：引入ReLU激活函数，对融合后的特征进行非线性映射，得到图像特征向量，所述图像特征向量即为视觉特征提取模块的编码结果;

所述步骤S1中文本信息处理模块的步骤具体包括：

2.如权利要求1所述的一种基于多模态信息的图像解析方法，其特征在于，所述步骤S1中多模态特征融合模块的步骤具体包括：

3.如权利要求1所述的一种基于多模态信息的图像解析方法，其特征在于，所述步骤S1中图像解析结果生成模块的步骤具体包括：

4.如权利要求1所述的一种基于多模态信息的图像解析方法，其特征在于，所述步骤S2训练所述基于多模态信息的图像解析模型具体包括：

S22：调节训练参数；

S23：训练模型，训练时计算损失函数并进行迭代，查看损失函数图像，若图像未收敛，再次对模型进行训练，若模型收敛，得出最优的基于多模态信息的图像解析模型;

所述步骤S21具体包括：

其中，X为原始图像，为解码器生成的重建图像，表示对所有特征图像素求和，N 是图像中的像素总数，是一个较小的常数，用于避免分母为零的情况；

其中，图像的亮度、对比度和结构这些分量的组合构成了完整的SSIX函数，其公式如下：

其中，X表示原始图像，表示重建图像，和分别表示X和的亮度分量的均值，这个均值衡量了图像的整体亮度水平，和分别表示X和对比度分量的标准差，这个标准差用于衡量对比度的变化程度，表示X和结构之间的协方差，这个协方差用于衡量图像在结构上的相似性，和分别表示X和对比度分量的方差，和是为了稳定计算而引入的常数，是一个较小的常数，用于避免分母为零的情况；

其中，C表示特征图的通道数，H和W分别表示特征图的高度和宽度，C、H、W三者均不为0，∑表示对所有位置的特征差的平方进行加权求和，表示原始图像X在第层特征提取后的特征图，表示重建图像在第层特征提取后的特征图，表示第层特征的权重，用于调整不同层特征的重要性；

综合以上三个损失项，得到最终的图像重建损失函数：

其中，Y表示为原始文本，Ŷ表示为生成的重建文本，将原始文本 Y 和重建文本 Ŷ 转换为词嵌入表示，分别记为和，表示的转置，表示的转置，·表示向量的点积运算，表示两个向量对应位置的元素相乘，并将结果相加得到一个标量值；*表示向量的逐元素乘法运算，表示两个向量对应位置的元素相乘，得到一个新的向量，是一个较小的常数，用于避免分母为零的情况；

其中，表示为图像特征向量中的第i个元素，表示为文本特征向量中的第i个元素，和分别表示图像特征和文本特征的标准差，是一个较小的常数，用于避免分母为零的情况。

5.如权利要求4所述的一种基于多模态信息的图像解析方法，其特征在于，所述步骤S21中调节训练参数的步骤具体包括：

6.如权利要求1所述的一种基于多模态信息的图像解析方法，其特征在于，所述步骤S3具体包括：

S33：将提取到的图像特征输入到风险因素识别模块中，对多场景下的安全作业风险进行识别和预测，模型根据图像特征判断是否存在风险因素，并给出相应的识别结果；

7.一种基于多模态信息的图像解析系统，其特征在于，包括：

风险判断模块，风险判断模块对多场景下的安全作业风险进行判别，根据图像特征判断是否存在风险因素，并识别出风险类别、风险概率以及风险等级;

所述视觉特征提取模块的步骤具体包括：

S113：引入自注意力机制，对特征向量进行加权组合；

所述文本信息处理模块的步骤具体包括：