CN117456136A

CN117456136A - 一种基于多模态视觉识别的数字孪生场景智能生成方法

Info

Publication number: CN117456136A
Application number: CN202311466377.1A
Authority: CN
Inventors: 周旺; 黎涛; 雷奇奇; 孔凡伟; 郑月玲; 莫洪源
Original assignee: Beijing Dataojo Technology Co ltd
Current assignee: Beijing Dataojo Technology Co ltd
Priority date: 2023-11-06
Filing date: 2023-11-06
Publication date: 2024-01-26

Abstract

本申请公开了一种基于多模态视觉识别的数字孪生场景智能生成方法，通过基于EM‑ICP的动态物体跟踪算法实现对动态物体的实时建模与姿态跟踪，实时的将动态物体和静态场景信息进行融合，得到完整目标场景的三维空间信息。通过单目及多目视觉信息的融合，建立隐式动态神经辐射场模型，通过视觉和几何数据的语义分析实现数字孪生场景中物理实体的快速三维建模和动态更新，具体的，基于EM‑ICP的动态物体跟踪算法实现对动态物体的实时建模与姿态跟踪，实时的将动态物体和静态场景信息进行融合，得到完整目标场景的三维空间信息，能够精确计算场景中物体的运动和变化，合成高准确度和高真实度的可实时跟踪和历史回放的动态三维场景。

Description

一种基于多模态视觉识别的数字孪生场景智能生成方法

技术领域

本申请涉及基于多模态视觉识别的数字孪生场景智能生成技术领域，特别是涉及一种基于多模态视觉识别的数字孪生场景智能生成方法。

背景技术

传统数字孪生底座的建模多采用倾斜摄影、通过GIS数据实现半自动建模和专业建模软件人工建模，需要较多的人力成本和时间周期，难以实现对真实场景低成本快速更新，更无法满足场景中动态目标的实施跟踪，已经无法适应数字孪生应用精准映射、同步生长和全生命周期管理需求，影响了数字孪生在智慧城市、公共安全、智能制造、国防军工和建筑设计等领域的深度应用。

发明内容

本申请提供一种基于多模态视觉识别的数字孪生场景智能生成方法，旨在解决现有技术难以实现对真实场景低成本快速更新，更无法满足场景中动态目标的实施跟踪，已经无法适应数字孪生应用精准映射、同步生长和全生命周期管理需求的问题。

一种基于多模态视觉识别的数字孪生场景智能生成方法，所述方法包括：

采集目标场景数据，集合所述目标场景GPS信息，对所述目标的数字孪生三维场景的快速拼接，利用第三方地理地图，引入联合视觉地理信息的局部地图，进行局部正射图像的生成，对所述局部正射图像进行实时融合，得到目标全局正射图像；

通过分层次的注意力机制网络，提取所述目标全局正射图像中不同层次的信息，同时对所述目标全局正射图像进行局部特征提取和全局上下文信息提取；

通过多视角图像提取所述目标场景三维点云，并使用RANSAC算法估计点云平面参数，提取所述目标场景建筑物点云的边缘特征，在提取3D特征线的过程中，引入确定的条件，得到有效的特征线，获得具有明确语义的建筑物表面模型；

通过目标场景的多视角信息的融合和姿态参数回归，对目标场景静态物体和动态目标的重建；

通过运动掩码获取所述目标场景下静态场景数据，通过神经辐射场模型实现静态空间三维重建，通过基于EM-ICP的动态物体跟踪算法实现对动态物体的实时建模与姿态跟踪，实时的将动态物体和静态场景信息进行融合，得到完整目标场景的三维空间信息。

上述方案中，可选的，所述采集目标场景数据，集合所述目标场景GPS信息，对所述目标的数字孪生三维场景的快速拼接，利用第三方地理地图，引入联合视觉地理信息的局部地图，进行局部正射图像的生成，对所述局部正射图像进行实时融合，得到目标全局正射图像，包括：

通过倾斜摄影、三维激光扫描仪等设备采集目标城市三维场景数据，得到单张图像或视频数据；

利用基于地理信息的位姿估计模块，以GPS信息为基础，实现数字孪生三维场景的快速拼接，在所述位姿估计模块中，包括初始化系统、帧间位姿估计和关键帧筛选三个步骤，其中，关键帧筛选通过回环检测实现；

利用建立好的地理地图，引入联合视觉地理信息的局部地图，在基于正射保持的图像拼接模块中，进行局部正射图像的生成，并通过图像质量判断筛选掉不必要的质量下降关键帧；对进入拼接模块的局部正射图像进行实时、增量地融合，得到一个完整的目标全局正射图像。

上述方案中，可选的，所述通过分层次的注意力机制网络，提取所述目标全局正射图像中不同层次的信息，同时对所述目标全局正射图像进行局部特征提取和全局上下文信息提取，具体包括：

基于层次注意力机制的三维场景语义识别与分割，对城市场景图像进行划分，将其划分为多个小块进行处理，分别对每个小块进行特征提取和联合处理；

使用注意力机制模块提取每个小块内部的整体信息，采用全局池化操作从通道和空间两个方面对特征图进行注意力加权，利用全连接操作完成空间注意力加权，采用完全对称的操作模式，平等对待特征图的行、列和通道；

将每个条带加权结果扩展到其原始特征图的尺寸大小，扩展后的特征图与原始特征图相加，并与原始特征图相乘，完成对原始特征图的加权操作；

采用ResNet中的瓶颈结构作为卷积块来提取目标局部特征，在每个卷积块中进行卷积、Batchnorm归一化和RELU激活操作，利用Transformer的自注意机制对图像进行加权处理，将原始特征图划分为小的图块，展开成一维的标记，并为分类任务添加类别嵌入，得到语义的识别与分割。

上述方案中，可选的，所述通过多视角图像提取所述目标场景三维点云，并使用RANSAC算法估计点云平面参数，提取所述目标场景建筑物点云的边缘特征，在提取3D特征线的过程中，引入确定的条件，得到有效的特征线，获得具有明确语义的建筑物表面模型，包括：

通过基于卷积神经网络的语义分割算法，对数字孪生场景进行分割及识别，

从多视角图像中提取三维空间点云信息，并使用RANSAC算法对点云平面进行参数估计；利用点云平面参数和两个相交平面之间形成的交线段提取3D特征线，在提取3D特征线的过程中，引入确定的条件，以得到有效的特征线；

引入几何驱动的边界优化算法，根据提取的3D特征线生成闭合的建筑物表面模型，降低细粒度语义的存储代价，提高语义表示的自由度。

上述方案中，可选的，所述引入几何驱动的边界优化算法，根据提取的3D特征线生成闭合的建筑物表面模型，降低细粒度语义的存储代价，提高语义表示的自由度，具体包括：

将生成的3D特征线组合成多边形边界，定义散点云数据的边界；

对边界进行简化，对简化后的边界进行拟合，得到封闭的建筑物表面模型。

上述方案中，可选的，所述通过目标场景的多视角信息的融合和姿态参数回归，对目标场景静态物体和动态目标的重建，包括：

对目标场景静态物体进行多视角静态物体重建，对动态目标进行多视角动态目标重建，使用自主构建的多视角车辆和人员动态目标数据以及多种开源数据集混合训练，设计和构建多视角端到端车辆和人员姿态三维重建网络，结合构建的多视角车辆和人员数据集，通过纯视觉深度模型的训练方式，实现高精度动态三维参数化车辆和人员模型重建，在生成时，以多视角视频帧为输入，利用图像多层网格特征预测车辆、人员粗参数，并通过迭代校正车辆、人员模型顶点与特征对齐，优化车辆或人员参数输出。

上述方案中，可选的，所述对目标场景静态物体进行多视角静态物体重建，包括：采用图像语义解析结果作为先验来引导不同类别实体目标之间的几何关系构建，通过提取图像中的鲁棒高效的局部描述子，实现不同角度下图像对应点的匹配，引入特征级域适应损失，惩罚不同图像的高层特征分布不一致性，并通过像素级跨域一致性损失弥补像素级关键点对应的描述符不一致性；同时，采用三元损失和跨域一致性损失进行描述子监督，确保描述子具有良好的区分能力。

上述方案中，可选的，所述对动态目标进行多视角动态目标重建，包括：采用两阶段的车辆和人员动态模型参数回归，利用粗粒度特征快速初始化动态目标参数的约束范围，通过细粒度特征迭代细化车辆和人员动态目标参数模型；通过主从视角耦合训练，非线性耦合主从视角车辆和人员动态目标参数，提升主视角图像的监督数据鲁棒性，通过多视角动态目标快速粗参数预测，并用多个从视角约束主视角动态目标参数细化，实现对复杂姿态和遮挡车辆、人员的预测。

上述方案中，可选的，所述通过运动掩码获取所述目标场景下静态场景数据，通过神经辐射场模型实现静态空间三维重建，通过基于EM-ICP的动态物体跟踪算法实现对动态物体的实时建模与姿态跟踪，实时的将动态物体和静态场景信息进行融合，得到完整目标场景的三维空间信息，具体为：

利用Mask R-CNN方法和光流法生成二元运动掩码，并对多个视角的视频数据进行叠加，得到最终的运动掩码，其中，所述运动掩码用于排除视频中的动态物体；

在去除掉动态物体的情况下，利用多个视角的RGBD图像构建静态空间的神经辐射场模型，具体为，将所有图像投影到一个以场景为中心的坐标系中，利用RGBD信息进行深度估计，生成点云集合，使用PointNet等算法提取特征并进行分割，得到静态场景的点云图；

采用基于EM-ICP的动态物体跟踪算法，实现对动态物体的实时建模与姿态跟踪，基于EM-ICP的动态物体跟踪算法通过先前的轨迹和点云数据构建模型，将模型与当前帧中的目标点云匹配，通过EM算法迭代优化匹配函数，使用ICP算法对相邻帧之间的姿态进行跟踪，得到当前物体的准确姿态信息；

将静态空间三维重建的结果与动态物体实时建模与姿态跟踪的结果进行融合，得到完整目标场景的三维空间信息。

相比现有技术，本申请至少具有以下有益效果：

本申请基于对现有技术问题的进一步分析和研究，认识到现有技术难以实现对真实场景低成本快速更新，更无法满足场景中动态目标的实施跟踪，已经无法适应数字孪生应用精准映射、同步生长和全生命周期管理需求的问题。

本发明通过采集目标场景数据，集合所述目标场景GPS信息，对所述目标的数字孪生三维场景的快速拼接，利用第三方地理地图，引入联合视觉地理信息的局部地图，进行局部正射图像的生成，对所述局部正射图像进行实时融合，得到目标全局正射图像；通过分层次的注意力机制网络，提取所述目标全局正射图像中不同层次的信息，同时对所述目标全局正射图像进行局部特征提取和全局上下文信息提取；通过多视角图像提取所述目标场景三维点云，并使用RANSAC算法估计点云平面参数，提取所述目标场景建筑物点云的边缘特征，在提取3D特征线的过程中，引入确定的条件，得到有效的特征线，获得具有明确语义的建筑物表面模型；通过目标场景的多视角信息的融合和姿态参数回归，对目标场景静态物体和动态目标的重建；通过运动掩码获取所述目标场景下静态场景数据，通过神经辐射场模型实现静态空间三维重建，基于上述方案，本发明通过基于EM-ICP的动态物体跟踪算法实现对动态物体的实时建模与姿态跟踪，实时的将动态物体和静态场景信息进行融合，得到完整目标场景的三维空间信息。通过单目及多目视觉信息的融合，建立隐式动态神经辐射场模型，通过视觉和几何数据的语义分析实现数字孪生场景中物理实体的快速三维建模和动态更新，在此基础上利用RGB和深度传感器信息，设计合适的网络结构和深度学习算法，精确计算场景中物体的运动和变化，合成高准确度和高真实度的可实时跟踪和历史回放的动态三维场景。

附图说明

图1为本申请一个实施例提供的基于多模态视觉识别的数字孪生场景智能生成方法的流程示意图；

图2为本申请一个实施例提供的基于地理信息进行场景正射图像航拍示意图；

图3为本申请一个实施例提供的基于层次注意力机制的三维场景语义识别与分割流程图；

图4为本申请一个实施例提供的三维车辆、人员重建神经网络训练过程示意图；

图5为本申请一个实施例提供的优化车辆、人员参数的神经网络训练过程示意图；

图6为本申请一个实施例提供的基于动态场景和静态场景分离的动态神经辐射场表达方法。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于多模态视觉识别的数字孪生场景智能生成方法，包括以下步骤：

采集目标场景数据，集合所述目标场景GPS信息，对所述目标的数字孪生三维场景的快速拼接，利用第三方地理地图，引入联合视觉地理信息的局部地图，进行局部正射图像的生成，对所述局部正射图像进行实时融合，得到目标全局正射图像；本实施例首先使用无人机等设备采集城市场景数据，得到单张图像或视频数据。此步骤的目的是获取需要进行数字孪生三维场景拼接的原材料。

利用基于地理信息的位姿估计模块，以GPS信息为基础，实现数字孪生三维场景的快速拼接。此步骤的目的是利用GPS信息实现数字孪生三维场景的快速拼接，并为后续步骤提供必要的数据支持。

在位姿估计模块中，包括初始化系统、帧间位姿估计和关键帧筛选三个步骤。其中，关键帧筛选通过回环检测实现。此步骤的主要目的是实现对图像的跟踪和关键帧的筛选，从而确定需要加入地图的关键帧。

利用建立好的地理地图，引入联合视觉地理信息的局部地图，以增加探索周围区域的效率。此步骤的目的是结合视觉与地理信息，提高探索效率，并进一步优化地理地图。

在基于正射保持的图像拼接模块中，首先进行局部正射图像的生成，并通过图像质量判断筛选掉不必要的质量下降关键帧。此步骤的目的是保证后续步骤输入的图像数据完整、高质量。

对进入拼接模块的局部正射图像进行实时、增量地融合，最终得到一个完整的全局正射图像。此步骤的目的是将各个局部正射图像进行融合，构建出全局正射图像，以提供给后续使用。

以上实施例承接关系为：首先，通过采集城市场景数据获取原材料；其次，利用基于地理信息的位姿估计模块实现数字孪生三维场景的快速拼接，并为后续步骤提供必要的数据支持；然后，在位姿估计模块中实现对图像的跟踪和关键帧的筛选，确定需要加入地图的关键帧；接着，利用建立好的地理地图引入联合视觉地理信息的局部地图，提高探索效率，并优化地理地图；然后进行局部正射图像的生成，并通过图像质量判断筛选掉不必要的质量下降关键帧；最后，对进入拼接模块的局部正射图像进行实时、增量地融合，构建出全局正射图像。

整体达到的目的是，利用无人机等设备采集城市场景数据，并对其进行数字孪生三维场景快速拼接，最终得到一个完整的全局正射图像。目的的实现依赖于各个步骤的有序执行。

本实施例是基于层次注意力机制的三维场景语义识别与分割。下面是各个步骤的目的以及前后步骤的承接关系：

数据预处理：将城市场景图像划分为多个小块进行处理，为特征提取做准备。

特征提取：使用层次注意力机制模块提取每个小块内部的整体信息，并采用全局池化操作从通道和空间两个方面对特征图进行注意力加权，避免缩放对图像信息的准确性影响。同时，利用全连接操作完成空间注意力加权，避免卷积忽略全局信息的缺点。最后，将每个条带(行、列和通道)加权结果扩展到其原始特征图的尺寸大小，并与原始特征图相加，完成对原始特征图的加权操作。

局部特征提取：采用ResNet中的瓶颈结构作为卷积块(CB)来提取局部特征。

全局上下文信息提取：利用Transformer的自注意机制对图像进行加权处理，将原始特征图划分为小的图块(patch)，展开成一维的标记，并为分类任务添加类别嵌入。然后，使用位置嵌入标记每个标记在原始图像中的位置，对标记进行全连接操作，得到key(k)、query(q)和value(v)。接着，对k和q进行转置相乘，并进行归一化，得到标记之间的相互关系，将相互关系与value相乘，得到最终的输出。

通过多视角图像提取所述目标场景三维点云，并使用RANSAC算法估计点云平面参数，提取所述目标场景建筑物点云的边缘特征，在提取3D特征线的过程中，引入确定的条件，得到有效的特征线，获得具有明确语义的建筑物表面模型；本实施例整体的目的是实现城市场景语义的识别与分割。通过采用分层次的注意力机制网络，可以有效提取城市场景中不同层次的信息，进而实现场景的语义识别。同时，利用局部特征提取和全局上下文信息提取，可以更具针对性地提取重要的信息，增强模型的判断能力和准确性。

本实施例各个步骤的目的、承接关系以及整体目标。

数字孪生场景分割及识别的目的在于对数字孪生场景进行语义分割，为后续处理提供基础数据。这一步骤的结果是一个二维的像素标签图。多视角图像提取三维点云需要使用到这个像素标签图，因此这两个步骤之间是有承接关系的。

多视角图像提取三维点云的目的是从多张视角的图像中提取建筑物的三维点云信息，并使用RANSAC算法估计平面参数，以得到建筑物点云的边缘特征。这一步骤的结果是一个包含建筑物点云边缘特征的点云模型，作为提取3D特征线的输入。前面的数字孪生场景分割及识别步骤提供了像素标签图，为多视角图像提取三维点云提供了语义分割结果。

3D特征线提取的目的是利用点云平面参数和形成的交线段提取具有明确起点和终点的3D特征线，以得到建筑物的平滑边界信息。这一步骤的结果是提取到的3D特征线，为后续的边界优化算法提供输入。

边界优化算法的目的在于，根据提取的3D特征线生成闭合的建筑物表面模型，降低细粒度语义的存储代价，并提高语义表示的自由度。这一步骤的结果是一个优化后的建筑物表面模型。

总的来说，本实施例的目标在于实现数字孪生三维场景的轻量化细粒度语义建模，包括数字孪生场景分割及识别、多视角图像提取三维点云、3D特征线提取和边界优化算法等步骤。通过这些步骤的处理，可以获得具有明确语义的建筑物表面模型，提高数据存储效率和对细粒度场景信息的提取能力。

通过目标场景的多视角信息的融合和姿态参数回归，对目标场景静态物体和动态目标的重建；本实施例的各个步骤的目的如下：

多视角静态物体重建：通过图像语义解析结果来引导不同类别实体目标之间的几何关系构建。使用高效的局部描述子来进行不同角度下图像对应点的匹配，以便重建静态物体的几何信息。同时引入特征级域适应损失和像素级跨域一致性损失，增强描述子的鲁棒性和一致性。

多视角动态目标重建：针对动态目标，采用两阶段的参数回归方法实现重建。首先利用粗粒度特征快速初始化动态目标参数的约束范围，然后通过细粒度特征迭代优化车辆和人员动态目标参数模型，以获取更准确的动态目标姿态信息。

神经网络训练过程：使用多视角车辆和人员动态目标数据以及其他开源数据集进行混合训练，提高网络对多视角三维车辆和人员姿态重建的性能。设计和构建多视角端到端车辆和人员姿态三维重建网络，通过纯视觉深度模型的训练方式，实现高精度动态三维参数化车辆和人员模型重建。

这些步骤之间有着承接关系，每个步骤都在前一个步骤的基础上进一步完善重建结果。具体来说：

多视角静态物体重建为多视角动态目标重建提供了静态物体的几何信息作为先验，并为后续步骤提供更准确的图像对应点匹配。

多视角动态目标重建依赖于多视角静态物体重建的结果，并通过姿态参数回归来获取动态目标的准确姿态信息。

神经网络训练过程则是在以上两个步骤的基础上进行的，通过训练网络提高对多视角三维车辆和人员姿态重建的能力，实现更精确的动态三维模型重建结果。

整体而言，本实施例旨在通过多视角信息的融合和姿态参数回归，实现对静态物体和动态目标的精确重建。通过这些步骤的连贯操作，可以提高重建的准确性和完整性，从而实现更准确的三维对象建模。

通过运动掩码获取所述目标场景下静态场景数据，通过神经辐射场模型实现静态空间三维重建，通过基于EM-ICP的动态物体跟踪算法实现对动态物体的实时建模与姿态跟踪，实时的将动态物体和静态场景信息进行融合，得到完整目标场景的三维空间信息。本实施例具体步骤的目的和前后步骤的承接关系如下：

运动掩码获取的目的是排除视频中的动态区域。为了确保静态空间三维重建的准确性，需要先将动态物体排除在外。运动掩码的生成涉及Mask R-CNN和光流法，两个方法的结果结合获得最终的运动掩码。

静态空间三维重建的目的是生成整个场景的三维模型。该步骤主要利用多个视角的RGBD图像构建静态空间的神经辐射场模型，从而得到场景的点云集合。这些点云数据可以进一步用于3D建模和虚拟现实等领域。

动态物体实时建模与姿态跟踪的目的是实现对动态物体的实时建模和姿态跟踪。由于运动掩码已经排除了动态物体，此步骤只针对动态物体进行建模和跟踪。采用基于EM-ICP的动态物体跟踪算法，实时地迭代优化匹配函数，并使用ICP算法对相邻帧之间的姿态进行跟踪。通过以上步骤可以获得当前物体的准确姿态信息。

动态与静态空间融合的目的是将静态空间三维重建的结果与动态物体实时建模和姿态跟踪的结果进行结合。该步骤通过将动态物体点云数据转换为神经辐射场模型中的对象表示，并将其与静态空间的神经辐射场模型进行融合，得到完整的三维空间信息。

本实施例各个步骤之间的承接关系如下：

运动掩码获取：该步骤的结果是一个二元运动掩码，用于排除视频中的动态区域。

静态空间三维重建：该步骤利用运动掩码排除了动态物体，从而仅针对静态空间进行三维重建。

动态物体实时建模与姿态跟踪：该步骤仅针对动态物体进行建模和跟踪，排除静态空间的影响。

动态与静态空间融合：该步骤将动态物体和静态场景信息进行融合，得到完整的三维空间信息。

本实施例上述步骤的整体目的是在保证静态场景三维重建准确的同时，实现对动态物体的实时建模与姿态跟踪，并将动态物体和静态场景信息进行融合，得到完整的三维空间信息。该方法可以应用于3D建模、虚拟现实等领域。

在本实施例中，所述采集目标场景数据，集合所述目标场景GPS信息，对所述目标的数字孪生三维场景的快速拼接，利用第三方地理地图，引入联合视觉地理信息的局部地图，进行局部正射图像的生成，对所述局部正射图像进行实时融合，得到目标全局正射图像，包括：

通过倾斜摄影、三维激光扫描仪等设备采集目标城市三维场景数据，得到多张单幅图像或点云数据，进而得到单张图像或视频数据；利用基于地理信息的位姿估计模块，以GPS信息为基础，实现数字孪生三维场景的快速拼接，在所述位姿估计模块中，包括初始化系统、帧间位姿估计和关键帧筛选三个步骤，其中，关键帧筛选通过回环检测实现；

在本实施例中，所述通过分层次的注意力机制网络，提取所述目标全局正射图像中不同层次的信息，同时对所述目标全局正射图像进行局部特征提取和全局上下文信息提取，具体包括：

在本实施例中，所述通过多视角图像提取所述目标场景三维点云，并使用RANSAC算法估计点云平面参数，提取所述目标场景建筑物点云的边缘特征，在提取3D特征线的过程中，引入确定的条件，得到有效的特征线，获得具有明确语义的建筑物表面模型，包括：

在本实施例中，所述引入几何驱动的边界优化算法，根据提取的3D特征线生成闭合的建筑物表面模型，降低细粒度语义的存储代价，提高语义表示的自由度，具体包括：

在本实施例中，所述通过目标场景的多视角信息的融合和姿态参数回归，对目标场景静态物体和动态目标的重建，包括：

在本实施例中，所述对目标场景静态物体进行多视角静态物体重建，包括：采用图像语义解析结果作为先验来引导不同类别实体目标之间的几何关系构建，通过提取图像中的鲁棒高效的局部描述子，实现不同角度下图像对应点的匹配，引入特征级域适应损失，惩罚不同图像的高层特征分布不一致性，并通过像素级跨域一致性损失弥补像素级关键点对应的描述符不一致性；同时，采用三元损失和跨域一致性损失进行描述子监督，确保描述子具有良好的区分能力。

在本实施例中，所述对动态目标进行多视角动态目标重建，包括：采用两阶段的车辆和人员动态模型参数回归，利用粗粒度特征快速初始化动态目标参数的约束范围，通过细粒度特征迭代细化车辆和人员动态目标参数模型；通过主从视角耦合训练，非线性耦合主从视角车辆和人员动态目标参数，提升主视角图像的监督数据鲁棒性，通过多视角动态目标快速粗参数预测，并用多个从视角约束主视角动态目标参数细化，实现对复杂姿态和遮挡车辆、人员的预测。

在本实施例中，所述通过运动掩码获取所述目标场景下静态场景数据，通过神经辐射场模型实现静态空间三维重建，通过基于EM-ICP的动态物体跟踪算法实现对动态物体的实时建模与姿态跟踪，实时的将动态物体和静态场景信息进行融合，得到完整目标场景的三维空间信息，具体为：

在一个实施例中，提供了一种跨视角场景信息的高效采集与多模态信息的融合方法，包括：

基于多视角信息的数字孪生三维场景快速拼接:为了实现对城市场景数据的有效获取，可利用无人机进行数据采集。然则，由于无人机只能捕捉到单张图像或视频数据，无法形成较大范围的场景图。为解决这一问题，本发明拟结合GPS信息，实现城市场景正射影像的快速拼接构建，其具体技术过程如附图2所示；

本实施例使用两个关键模块来实现这一目标：第一个模块是基于地理信息的位姿估计模块，该模块采用类似于单目SLAM系统前后端的结构，以确保实时性。第二个模块是基于正射保持的图像拼接模块，它负责生成实时的正射影像。在SLAM系统中，回环检测模块是一个重要组成部分，它能够通过检测和优化运动轨迹中的回环，显著减少之前累积的误差。然而，在无人机航测中，通常希望在最短时间内覆盖最大区域，导致实际飞行轨迹近似于Z字型路线，难以检测回环。因此，为了保持系统简洁，省略了回环检测系统。

基于地理信息的位姿估计模块分为基于地理信息的跟踪模块和基于地理信息的地图模块。地理信息的跟踪模块接收增量图像序列及其对应的GPS信息，目标是实时计算每一帧图像的位姿并筛选出关键帧。该模块主要包括三个部分：初始化系统、帧间位姿估计和关键帧筛选。对于每个输入系统的图像，我们以帧为单位进行处理，每个帧包含相应的GPS和图像的局部特征信息。系统中可选的局部特征为ORB特征或者基于GPU的rootsift特征。为了加速特征匹配，本发明使用k-means++对ORB和rootsift特征进行聚类，并使用TF-IDF指标训练词袋。在特征提取过程中，对提取的特征进行均匀化处理，以避免特征点聚集问题。跟踪模块可以分为初始化部分、跟踪部分和重定位部分。初始化的思路是利用连续两张重叠度高且基线长度适中的图像进行初步重建，并确定世界坐标系。通过世界坐标系和地理坐标系之间的相似变换，结合图像附带的GPS信息来求解从世界坐标到地理坐标的相似变换。

基于地理信息的地图模块的输入是来自跟踪模块的关键帧，其目的是实时更新和优化一个整体的地理地图，其中包括当前系统中的相机位姿，路标点的位置以及从世界坐标系到地理坐标系的相似变换。本发明考虑引入联合视觉地理信息的局部地图，以增加探索周围区域的效率。该联合视觉地理信息的局部地图可吸收基于GPS局部地图探索的效率，并兼顾准确性。

在基于正射保持的正射拼接模块方面，需要进行局部正射图像的生成以及基于多带融合的图像拼接。正射图像的生成可基于位姿或基于点云，输入包括来自位姿估计模块的关键帧、对应的位姿和稀疏点云，以及相应的GPS信息。该模块的输出是一个局部正射图像，这些局部正射图像将在拼接模块进行融合，最终得到一个完整的全局正射图像。对于每个关键帧，首先需要将其投影到待投影平面上，通常是一个固定海拔且与地平面平行的平面。具体海拔由位姿估计模块得到，我们称之为地平面。关键帧的相机坐标系到地理坐标系的相似变换为其中，s为尺度，R为旋转矩阵，t为平移向量。相机的内参矩阵为K，相机坐标系的路标点记作pc，地理坐标系中的点基座pq，图像坐标系中的齐次坐标记作pi。地理坐标系中地平面的法向向量为n，平面上的一点为pt。因此，可以通过以下两个式子计算图像上的四个角对应的地理坐标：

p_g＝s₀sRK^-1p_i+t；

在进行射影变换前，需要对关键帧的质量进行简单判断，以防止不必要的质量下降。拼接模块的作用是将进入该模块的局部正射图像实时且增量地融合成一个整体的拼图。对于进入该模块的局部正射图像，每个图像都对应一个BGRA格式的四通道视觉图片和对应的单通道权重图片。为了提高地图的存储和加载效率，将权重图片和四通道视觉图片拆分成瓦片的形式，后续以瓦片为单位进行更新。最终实现平滑拼接，并保持更多细节。

基于层次注意力机制的三维场景语义识别与分割:本实施例拟采用分层次的注意力机制网络，实现城市场景中语义的识别与分割。

城市场景中蕴含着多种不同层次的信息，因此需要采用多层次的方式来有效提取信息。由于整个场景信息庞大，对图像进行缩放会影响图像信息的准确性。为了解决这一问题，我们将图像划分为多个小块(patch)，并对这些小块进行分块及联合处理。

为了提取每个小块内部的整体信息，本发明采用了注意力机制模块。这个模块具有即插即用的特性，且参数数量较少。考虑到注意力加权需要从通道和空间两个方面进行，我们采用全局池化操作，大大减少了参数数量。此外，本发明使用全连接而不是卷积完成空间注意力加权，避免了卷积忽略全局信息的缺点。同时，本发明采用完全对称的操作模式，平等对待特征图的行、列和通道。具体的计算过程如下：

T_F＝σ(T_WF+T_HF+T_CF)；

其中σ代表非线性激活函数(sigmoid函数)，T_WF，T_HF和T_CF分别表示三个不同的条带。例如，在对列进行加权操作时，本发明对特征图的行和通道进行全局池化，以消除行和通道对列信息的影响。然后，使用全连接将列向量进行加权。为了减少参数开销，将隐藏激活大小被设置为其中,r是缩减比率：

T_HF＝BN(MLP(ReLU(BN₁(MLP(s_H)))))＝BN(W₁(ReLU(BN₁(W₀s_H+b₀)))+b₁)；

其中，在对行、列和通道上进行加权注意力的过程中，上述与列相关的操作同样适用于行和通道。每个条带的加权结果被扩展到其原始特征图的尺寸大小。由于一开始采用平均池化，因此扩展后的结果与原始特征图在数量级上是一致的。最后，这些扩展得到的特征图被相加，然后与原始特征图相乘，完成对原始特征图的加权操作。当使用全连接进行注意力加权时，本发明采用与SE相同的压缩和扩张方法，可大大减少参数数量。

为了提取局部特征，本实施例计划采用ResNet中的瓶颈结构作为卷积块(Convolution Block，CB)。首先使用1*1的卷积块将特征图的大小转换为原来的1/2，然后使用两个3*3的卷积块，最后再使用一个1*1的卷积块将其恢复到原始大小。这样一来，在大大减少参数数量的同时更有效地提取局部特征信息。在每个卷积块中，进行卷积后进行Batchnorm归一化，然后进行RELU激活操作。通过卷积块处理后的结果被标准化，可以直接进行下一步操作。

为了提取城市场景中的全局上下文信息，本发明计划利用Transformer的自注意机制来对图像进行加权。首先，将原始特征图划分为小的图块即patch，然后将每个patch展开成一维的标记，并为分类任务添加一个类别嵌入。此外，还需要使用位置嵌入来标记每个标记在原始图像中的位置。在自注意模型中，这些标记首先在维度方向上进行全连接，然后分解为三个尺寸大小相同的标记，分别命名为key(k)、query(q)和value(v)。从注意力机制的角度来看，这其实是对标记做了一次通道上的注意力加权。接着，对k和q进行转置相乘，然后对结果进行归一化。如此便获取到了标记之间的相互关系，之后再将其与v相乘作为最终的输出。自注意力机制的本质就是用经过加权处理的value的值来代替query，整体处理过程如附图3所示。

数字孪生三维场景的轻量化细粒度语义建模：本实施例的目标在于实现数字孪生三维场景的轻量化细粒度语义建模。在对数字孪生三维场景进行分割及识别后，使用多视角图像提取三维点云，并生成矢量建筑模型。通过采用多视角图像和几何边界优化算法，可以生成矢量细粒度语义表达，从而增强建筑模型的语义丰富度。相对于基于点云的表征，矢量模型显著减少存储空间，并更适用于实际应用。

本实施例采用RANSAC算法来估计数字孪生城市场景中点云平面的参数。通过点云的平面参数，有效地提取建筑物点云的边缘特征。建筑物通常由若干个平面组成的几何体构成，因此平面与平面之间的交线对于建筑物边界的描述至关重要。将两个相交的平面间形成的交线段定义为一种3D特征线，该特征线具有明确的起点和终点。由于建筑物通常包含多个平面，任意两个平面间并不一定构成有效的3D特征线。为了得到有效的结果，在求解3D特征线的过程中引入了确定的条件。

对于通过多视角重建得到的三维点云，由于无人机飞行高度和拍摄角度的限制，大部分图像中建筑物屋顶占据了图像的主要部分，而建筑物立面的数据相对较少。这造成了重建得到的点云建筑立面可能会非常稀疏甚至缺失。这种几何结构信息的缺失使得屋顶边缘的3D特征线通常无法计算。

为了解决上述问题，本发明采用多视角图像和点云平面参数的综合信息，进行三维特征线的提取，以得到建筑物平滑的边界信息，并剔除重建过程中的噪音。同时，设计了几何驱动的边界优化算法，生成闭合的建筑物表面模型，降低细粒度语义的存储代价，并提高了语义表示的自由度。

三维场景语义建模与三维对象精细建模：本实施例旨在研究多视角稠密深度估计，利用图像语义解析结果作为先验来引导不同类别实体目标之间的几何关系构建，从而实现高效的三维对象建模。具体而言，该发明专注于静态目标(如设施、设备、管线等)和动态目标(如车辆、人员等)在三维空间中的重建，并研究了参数化建模的方法。

在三维静态物体重建方面，主要关注图像中鲁棒高效的局部描述子，以实现不同角度下图像的对应点，并获得更好的匹配效果。为此，本发明提出了特征级域适应损失，用于提高描述子的鲁棒性，惩罚不同图像的高层特征分布不一致性。同时，通过像素级跨域一致性损失来弥补像素级关键点对应的描述符不一致性。结合三元损失和跨域一致性损失进行描述子监督，以确保描述子具有良好的区分能力。此外，该发明快速构建面向不同对象的训练数据集并适应复杂的应用场景。

在三维动态目标重建方面，传统基于优化的方法耗时且易受初始值影响。而现有的端到端网络仅使用粗粒度或细粒度特征来预测车辆和人员参数，难以平衡预测精度和运算效率。此发明采用两阶段的车辆和人员动态模型参数回归：通过粗粒度特征快速初始化动态目标参数的约束范围，再通过细粒度特征迭代细化车辆和人员动态目标参数模型。此外，通过主从视角耦合训练，非线性耦合主从视角车辆和人员动态目标参数，提升主视角图像的监督数据鲁棒性。最终，通过多视角动态目标快速粗参数预测，并用多个从视角约束主视角动态目标参数细化，实现对复杂姿态和遮挡车辆、人员的预测。

具体实现中，本实施例以多视角视频数据为输入，利用自主构建的多视角车辆和人员动态目标数据以及多种开源数据集混合训练，以提升网络对多视角三维车辆和人员姿态重建的性能。设计和构建多视角端到端车辆和人员姿态三维重建网络，结合构建的多视角车辆和人员数据集，通过纯视觉深度模型的训练方式，实现高精度动态三维参数化车辆和人员模型重建。输入为三视角视频帧的图像序列，并以IUV数据、车辆、人员2D和3D姿态数据为训练约束，同时对特征编码器和车辆、人员参数回归器进行模型参数优化。神经网络训练过程如附图4所示。

在生成时，以多视角视频帧为输入，利用图像多层网格特征预测车辆、人员粗参数，并且通过迭代校正车辆、人员模型顶点与特征对齐，以优化车辆、人员参数输出，如图5所示，优化车辆、人员参数的神经网络训练过程示意图

本实施例采用深度残差网络作为分层图像特征编码器，用于提取图像中的粗粒度深度特征。首先，对粗粒度深度特征图进行网格点均匀采样，并利用多层感知机(MLP)对特征进行降维，将其作为回归器的输入。回归器受到车辆和人员的先验参数约束，并预测车辆和人员的初始参数。在此基础上，根据初始参数生成车辆和人员模型，并在特征图上对模型进行稀疏投影，得到更细粒度的顶点投影特征，作为后续迭代优化的特征输入。在迭代优化过程中，结合多层细粒度特征，对车辆和人员模型参数进行优化，以生成最优的车辆和人员模型参数。

总之，通过以上技术路线，本发明可以实现单目和多目系统下的多模态三维对象融合建模，将不同视角的数据整合到一个一致的三维对象模型中，从而提高重建的准确性和完整性。

隐式动态神经辐射场模型与对象实时跟踪：在本实施例中，输入数据为经由RGBD相机获取的带有多个视角的场景视频。为了有效处理这些视频数据，采用了一系列技术。首先，利用运动掩码排除视频中的动态区域，这一步骤不仅使用了Mask R-CNN方法来屏蔽常见的移动对象，还运用了连续帧的光流来获取二元运动掩码，结合Mask R-CNN和光流法的结果，得到最终的运动掩码。然后，在神经辐射场的训练过程中，将静态空间与动态空间分开进行训练和重建。在动态空间中，实现对动态物体的实时建模并跟踪其姿态。而在静态空间中，则实现对整个场景的三维重建。最后，将动态空间信息与静态空间信息进行融合，从而得到该空间信息的完整表达。

如图6所示，基于动态场景和静态场景分离的动态神经辐射场表达方法通过以上技术的应用，本发明能够高效地处理带有多个视角的场景视频，准确地区分动态和静态部分，并在动态空间和静态空间分别进行建模和重建。融合后的空间信息提供了全面的场景表达，使得该发明在场景理解与重建方面具有显著的优势。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种基于多模态视觉识别的数字孪生场景智能生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述采集目标场景数据，集合所述目标场景GPS信息，对所述目标的数字孪生三维场景的快速拼接，利用第三方地理地图，引入联合视觉地理信息的局部地图，进行局部正射图像的生成，对所述局部正射图像进行实时融合，得到目标全局正射图像，包括：

通过倾斜摄影、三维激光扫描仪采集目标城市三维场景数据，得到单张图像或视频数据；

3.根据权利要求1所述的方法，其特征在于，所述通过分层次的注意力机制网络，提取所述目标全局正射图像中不同层次的信息，同时对所述目标全局正射图像进行局部特征提取和全局上下文信息提取，具体包括：

4.根据权利要求1所述的方法，其特征在于，所述通过多视角图像提取所述目标场景三维点云，并使用RANSAC算法估计点云平面参数，提取所述目标场景建筑物点云的边缘特征，在提取3D特征线的过程中，引入确定的条件，得到有效的特征线，获得具有明确语义的建筑物表面模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述引入几何驱动的边界优化算法，根据提取的3D特征线生成闭合的建筑物表面模型，降低细粒度语义的存储代价，提高语义表示的自由度，具体包括：

6.根据权利要求1所述的方法，其特征在于，所述通过目标场景的多视角信息的融合和姿态参数回归，对目标场景静态物体和动态目标的重建，包括：

7.根据权利要求6所述的方法，其特征在于，所述对目标场景静态物体进行多视角静态物体重建，包括：采用图像语义解析结果作为先验来引导不同类别实体目标之间的几何关系构建，通过提取图像中的鲁棒高效的局部描述子，实现不同角度下图像对应点的匹配，引入特征级域适应损失，惩罚不同图像的高层特征分布不一致性，并通过像素级跨域一致性损失弥补像素级关键点对应的描述符不一致性；同时，采用三元损失和跨域一致性损失进行描述子监督，确保描述子具有良好的区分能力。

8.根据权利要求6所述的方法，其特征在于，所述对动态目标进行多视角动态目标重建，包括：采用两阶段的车辆和人员动态模型参数回归，利用粗粒度特征快速初始化动态目标参数的约束范围，通过细粒度特征迭代细化车辆和人员动态目标参数模型；通过主从视角耦合训练，非线性耦合主从视角车辆和人员动态目标参数，提升主视角图像的监督数据鲁棒性，通过多视角动态目标快速粗参数预测，并用多个从视角约束主视角动态目标参数细化，实现对复杂姿态和遮挡车辆、人员的预测。

9.根据权利要求1所述的方法，其特征在于，所述通过运动掩码获取所述目标场景下静态场景数据，通过神经辐射场模型实现静态空间三维重建，通过基于EM-ICP的动态物体跟踪算法实现对动态物体的实时建模与姿态跟踪，实时的将动态物体和静态场景信息进行融合，得到完整目标场景的三维空间信息，具体为：