CN116091712A - 一种面向计算资源受限设备的多视图立体重建方法与系统 - Google Patents
一种面向计算资源受限设备的多视图立体重建方法与系统 Download PDFInfo
- Publication number
- CN116091712A CN116091712A CN202310382538.2A CN202310382538A CN116091712A CN 116091712 A CN116091712 A CN 116091712A CN 202310382538 A CN202310382538 A CN 202310382538A CN 116091712 A CN116091712 A CN 116091712A
- Authority
- CN
- China
- Prior art keywords
- view
- resolution
- map
- feature
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 239000011159 matrix material Substances 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000010276 construction Methods 0.000 claims abstract description 16
- 238000003062 neural network model Methods 0.000 claims abstract description 11
- 238000010586 diagram Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000004590 computer program Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000011960 computer-aided design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/005—Tree description, e.g. octree, quadtree
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Geometry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Graphics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本申请属于三维重建技术领域,具体涉及面向计算资源受限设备的多视图立体重建方法与系统,方法包括:输入多视角的图像数据;根据输入的所述图像数据,计算相机的外部参数矩阵、内部参数矩阵和深度值范围,获取新的图像数据;构建端到端的多视图立体重建网络模型;将所述新的图像数据输入所述多视图立体构建网络模型进行训练,计算获得推理模型参数;将预训练的神经网络模型作为输入图像样本生成并融合全分辨率深度图,获得三维点云模型。本申请构建多视图立体重建网络模型,解决现有多视图立体方法对高性能计算资源的过度依赖问题,使得在计算资源受限的设备上实现基于深度学习的多视图立体重建过程。
Description
技术领域
本申请属于三维重建技术领域,具体是涉及一种面向计算资源受限设备的多视图立体重建方法与系统。
背景技术
多视图立体重建(Multi-view Stereo,MVS)是计算机视觉领域中一项具有挑战性的基本任务,目的是从一系列图像中恢复场景或物体的稠密点云模型。近年来,多视图立体重建因其在无人驾驶、虚拟现实、增强现实等领域的广泛应用,引起了人们越来越多的兴趣。尽管传统的多视图立体方法取得了较大的研究进展,但是这些方法难以处理物体之间的遮挡、非朗伯表面和弱纹理区域等问题。为了解决上述问题,人们提出了一系列基于深度学习的多视图立体方法,核心思想是:首先,使用卷积神经网络提取图像的密集特征;其次将源图像投影到参考图像的视角下,通过平面扫描算法构建三维代价体;再次,对代价体进行正则化处理得到概率体;然后,进行深度回归处理得到深度图;最后,融合深度图即可生成稠密的三维点云模型。但是,现有“基于深度学习的多视图立体重建方法”对计算设备的性能要求较高,需要高性能的硬件资源作为基础计算设备。
近年来,文献《Attention Is All You Need》中的Transformer技术被广泛应用于计算机视觉任务中,如目标检测,图像分割等。在多视图立体任务上,Transformer技术也已经被应用于图像之间的特征匹配任务,用于提取参考视图和源视图之间的远程上下文信息,且取得了显著的效果。然而,这些利用Transformer的多视图立体重建方法需要计算自注意力和交叉注意力,且由于注意力分数计算的复杂性,需要消耗大量的运行时间和较高的显存容量,严重影响了多视图立体三维重建技术的发展和应用。
发明内容
鉴于以上所述现有技术的缺点,本申请提供了一种面向计算资源受限设备的多视图立体重建方法与系统,解决现有多视图立体方法对高性能计算资源的过度依赖问题,实现在计算资源受限的设备上基于深度学习的多视图立体重建。
为实现上述目的及其他相关目的,本申请提供一种面向计算资源受限设备的多视图立体重建方法,包括如下步骤:输入多视角的图像数据;根据输入的所述图像数据,计算相机的外部参数矩阵、内部参数矩阵和深度值范围,获取新的图像数据;构建端到端的多视图立体重建网络模型;将所述新的图像数据输入所述多视图立体构建网络模型进行训练,计算获得推理模型参数;将预训练的神经网络模型作为输入图像样本生成并融合全分辨率深度图,获得三维点云模型。
在本申请的一可选实施例中,所述构建端到端的多视图立体重建网络模型的步骤中,所述多视图立体重建网络模型包括:通过特征金字塔提取所述图像数据的源图像和参考图像的第一多尺度特征图,所述第一多尺度特征图包括源特征图和参考特征图;通过四叉树注意力对所述第一多尺度特征图中1/8分辨率特征图进行局部特征匹配,获得含有全局上下文信息的第二多尺度特征图;通过双重加权聚合方法构建和计算全局代价体;通过三维卷积神经网络对所述全局代价体进行正则化处理,获得概率体;对所述概率体进行深度回归处理,计算出在所述第二多尺度特征图中1/2分辨率特征图的每个像素的深度值,得到所述第二多尺度特征图中1/2分辨率特征图的深度图;通过引导上采样策略将所述第二多尺度特征图中1/2分辨率特征图的深度图恢复至全分辨率,通过二维卷积神经网络的掩码计算深度图在述第二多尺度特征图中1/2分辨率特征图下的加权组合,获得全分辨率深度图。
在本申请的一可选实施例中,对所述概率体进行深度回归处理,计算出在所述第二多尺度特征图中1/2分辨率特征图的每个像素的深度值,通过下式实现:
在本申请的一可选实施例中,所述通过四叉树注意力对所述第一多尺度特征图中1/8分辨率特征图进行局部特征匹配,获得含有全局上下文信息的多尺度特征图的步骤包括:通过所述四叉树注意力对1/8分辨率的特征图进行局部特征匹配,提取图像内的细节信息和图像间的远程依赖关系;对所述1/8分辨率的特征图进行上采样操作,将上采样后的所述1/8分辨率的特征图添加至到1/4分辨率特征图和1/2分辨率特征图中,获得含有全局上下文信息的所述多尺度特征图。
在本申请的一可选实施例中,所述通过双重加权聚合方法构建和计算全局代价体的步骤包括:通过可微分单应性变换将所述源特征图投影到参考图像视角下,计算获得源特征体,通过所述参考特征图计算出参考特征体;通过分组相关特性将特征体沿通道维度分为组且每组有个通道,计算所述参考特征体与所述源特征体之间的分组相似性,其中表示特征通道数;通过所述分组相似性和所述特征体计算得到特征级视图权重和像素级视图权重;将所述特征级视图权重与所述分组相似性计算加权和,获得特征级代价体;将所述像素级视图权重与所述分组相似性计算加权和,获得像素级代价体;通过所述特征级代价体环和所述像素级代价体,计算得到全局代价体。
在本申请的一可选实施例中,所述通过所述分组相似性和所述特征体计算得到特征级视图权重和像素级视图权重的步骤,通过下式实现:
在本申请的一可选实施例中,通过引导上采样策略将所述第二多尺度特征图中1/2分辨率特征图的深度图恢复至全分辨率,通过二维卷积神经网络的掩码计算深度图在所述第二多尺度特征图中1/2分辨率特征图下的加权组合,获得全分辨率深度图的步骤包括:通过引导上采样策略,将所述第二多尺度特征图中1/2分辨率特征图的深度图恢复至全分辨率;将所述第二多尺度特征图中1/2分辨率特征图的参考特征图作为上采样的指导信息,通过对二维卷积神经网络预测尺寸为的掩码进行归一化;基于归一化的所述掩码计算深度图在所述第二多尺度特征图中1/2分辨率特征图的相邻像素为网格下的加权组和,获得所述全分辨率深度图。
在本申请的一可选实施例中,所述将所述新的图像数据输入所述多视图立体构建网络模型进行训练,计算获得推理模型参数的步骤包括:将所述新的图像数据输入所述多视图立体构建网络模型,通过向前传播方法,计算获得初始深度值;通过损失函数计算获得所述初始深度值与地面真实深度值的差值之和;通过神经网络训练所述多视图立体构建网络模型,得到所述推理模型参数。
在本申请的一可选实施例中,将预训练的神经网络模型作为输入图像样本生成深度图,对所述深度图进融合获得三维点云模型的步骤包括:将预训练的神经网络模型作为输入图像样本生成全分辨率深度图;通过光度一致和几何一致方法过滤所述全分辨率深度图的背景和遮挡区域的异常值;对过滤后的所述全分辨率深度图与所述推理模型参数进行融合,获得所述三维点云模型。
为实现上述目的及其他相关目的,本申请提供一种面向计算资源受限设备的多视图立体重建系统,包括:输入模块,输入多视角的图像数据;获取模块,根据输入的所述图像数据,计算相机的外部参数矩阵、内部参数矩阵和深度值范围,获取新的图像数据;构建模块,构建端到端的多视图立体重建网络模型;训练模块,将所述新的图像数据输入所述多视图立体构建网络模型进行训练,计算获得推理模型参数;融合模块,将所述推理模型参数为输入图像样本生成并融合全分辨率深度图,获得三维点云模型。
为实现上述目的及其他相关目的,本申请还提供一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现上述的多视图立体重建方法。
为实现上述目的及其他相关目的,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被计算机的处理器执行时,使计算机执行上述的面向计算资源受限设备的多视图立体重建方法。
本申请的有益效果在于通过构建端到端的多视图立体重建网络模型,解决现有多视图立体方法对高性能计算资源的过度依赖问题,使得在计算资源受限的设备上实现基于深度学习的面向计算资源受限设备的多视图立体重建方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
图1本申请的实施例所提供的面向计算资源受限设备的多视图立体重建方法的流程图;
图2本申请的实施例所提供的多视图立体重建网络模型的具体流程图;
图3本申请的实施例所提供的获得多尺度特征图的具体流程图;
图4本申请的实施例所提供的构建和计算全局代价体的具体流程图;
图5本申请的实施例所提供的获得全分辨深度图的具体流程图;
图6本申请的实施例所提供的获得推理模型参数的具体流程图;
图7本申请的实施例所提供的获得三维点云模型的具体流程图;
图8本申请的实施例所提供的输入图像样本图;
图9本申请的实施例所提供的全分辨率深度图;
图10本申请的实施例所提供的稠密点云模型图;
图11本申请的实施例所提供的面向计算资源受限设备的多视图立体重建系统的功能模块图;
图12本申请的实施例所提供的电子设备的结构框图。
具体实施方式
以下将参照附图和优选实施例来说明本申请的实施方式,本领域技术人员可由本说明书中所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。应当理解,优选实施例仅为了说明本申请,而不是为了限制本申请的保护范围。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,遂图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
在下文描述中,探讨了大量细节,以提供对本申请实施例的更透彻的解释,然而,对本领域技术人员来说,可以在没有这些具体细节的情况下实施本申请的实施例是显而易见的,在其他实施例中,以方框图的形式而不是以细节的形式来示出公知的结构和设备,以避免使本申请的实施例难以理解。
三维重建技术,广义上,三维重建是指对某些三维物体或者三维的场景的一种恢复和重构,重建出来的模型,方便计算机表示和处理。在实际重建过程中,三维重建是对三维空间中的物体、场景、人体等图像描述的一种逆过程,由二维的图像还原出三维的立体物体、场景和动态人体。因此三维重建技术是在计算机中建立表达客观世界的虚拟现实的关键技术。
基于图像的三维重建是从若干幅图片计算提取出场景和物体的三维深度信息,根据获取的三维深度信息,重构出具备很强真实感的物体或者场景的三维模型的方法。该方法是涉及到多个热门领域,比如涉及到计算机图像处理、计算机图形学、计算机视觉和计算机辅助设计等很多的领域。目前,基于图像的三维重建技术已经成为一个极具潜力的热门领域,在诸多方面有着很重要的应用,比如数字城市、航天飞行、遥感测绘、数字文博等领域。
在其它的应用场景中,针对多视图立体重建可根据实际情况进行设置,本申请的实施例不对此进行限制。
所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备等。
所述电子设备还可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云。
所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
图1本申请的实施例所提供的面向计算资源受限设备的多视图立体重建方法的流程图,本实施例的多视图立体重建方法至少包括:
步骤S20:根据输入的所述图像数据,计算相机的外部参数矩阵、内部参数矩阵和深度值范围,获取新的图像数据。需要说明的是,所述相机的外部参数矩阵和所述内部参数矩阵包含参考视图与源视图之间的视角变换信息。进一步的,所述相机的外部参数矩阵为、所述内部参数矩阵阵和所述深度值的范围为其中,表示输入图像的数量,表示图像的序号,表示最小的深度值,表示最大的深度值。
步骤S30:构建端到端的多视图立体重建网络模型。
如图2所示,本实施例提供的多视图立体重建网络模型的具体流程图,具体包括:
步骤S31:通过特征金字塔提取所述图像数据的源图像和参考图像的第一多尺度特征图,所述第一多尺度特征图包括源特征图和参考特征图。
具体的,通过特征金字塔提取所述图像数据的第一多尺度特征图,并在所述特征金字塔的每个尺度上都加上可形变卷积作为输出层,计算出1/8分辨率特征图、1/4分辨率特征图和1/2分辨率特征图,同时分为1张参考特征图和N-1张源特征图。需要说明的是,所述参考特征图和源特征图中都包括1/8分辨率特征图、1/4分辨率特征图和1/2分辨率特征图。
步骤S32:通过四叉树注意力对所述第一多尺度特征图中1/8分辨率特征图进行局部特征匹配,获得含有全局上下文信息的第二多尺度特征图。
具体的,如图3所示,至少包括:
步骤S321:通过四叉树注意力对所述第一多尺度特征图中1/8分辨率特征图进行局部调整匹配,提取图像内的细节信息和图像间的远程依赖关系。
步骤S321:对所述第一多尺度特征图中1/8分辨率特征图进行上采样操作,将经过上采样操作的中1/8分辨率特征图添加到1/4分辨率特征图和1/2分辨率特征图中,得到含有全局上下文信息的第二多尺度特征图。
步骤S33:通过双重加权聚合方法构建和计算全局代价体。
具体的,如图4所示,至少包括:
步骤S331:通过使用可微分单应性变换将所述源特征图映射到参考图像的视角下,计算出源特征体,所述参考特征图直接计算出参考特征体。需要说明的是,通过使用可微分单应性变换将所述源特征图映射到参考图像的视角下,通过下式实现:
其中,表示参考相机的内部参数矩阵,表示源相机的内部参数矩阵,表示投影前第个源特征图的像素,表示投影到参考视图视角下的第个源特征图的像素,和表示从第个参考视图到第个源视图之间的旋转和平移变换,为第个深度假设。
步骤S332:将所述参考特征体和源特征体沿通道维度分为组,每个特征体有个通道,计算出所述源特征体和参考特征体之间的分组相似性,其中表示特征通道数。需要说明的是,计算出所述源特征体和参考特征体之间的分组相似性,通过下式实现:
步骤S333:使用分组相似性和所述源特征体和参考特征体计算出特征级视图权重和像素级视图权重。需要说明的是,计算出特征级视图权重和像素级视图权重,通过下式实现:
步骤S334:根据特征级视图权重与分组相似性计算加权和,得到特征级代价体,根据像素级视图权重和分组相似性计算加权和,得到像素级级代价体。需要说明的是,得到特征级代价体和像素级代价体,通过下式实现:
具体的,以所述像素级代价体为主要信息,所述像素级代价体能够获取像素的可见性,所述特征级代价体为辅助信息,从而获得参考视图和源视图之间的空间信息。
步骤S335:通过所述特征级代价体和像素级代价体计算全局代价体。需要说明的是,计算全局代价体通过下式实现:
步骤S34:通过三维卷积神经网络对所述全局代价体进行正则化处理,获得概率体。
步骤S35:对所述概率体进行深度回归处理,计算出在的所述第二多尺度特征图中1/2分辨率特征图的每个像素的深度值,得到所述第二多尺度特征图中1/2分辨率特征图的深度图。需要说明的是,计算出在所述第二多尺度特征图中1/2分辨率特征图的每个像素的深度值,通过下式实现:
步骤S36:通过引导上采样策略将所述第二多尺度特征图中1/2分辨率特征图的深度图恢复至全分辨率,通过二维卷积神经网络的掩码计算深度图在述第二多尺度特征图中1/2分辨率特征图下的加权组合,获得所述全分辨率深度图。
具体的,如图5所示,至少包括:
步骤S361:通过引导上采样策略将所述第二多尺度特征图中1/2分辨率特征图的深度图恢复至全分辨率。
步骤S362:通过以所述第二多尺度特征图中1/2分辨率的参考特征图作为上采样的指导信息,使用二维卷积网络预测尺寸为的掩码,并使用Softmax对掩码进行归一化操作。需要说明的是,Softmax的定义为下式:
步骤S40:将所述新的图像数据输入所述多视图立体构建网络模型进行训练,计算获得所述推理模型参数。
具体的,如图6所示,至少包括:
步骤S41:将所述新的图像数据输入所述多视图立体构建网络模型,通过向前传播方法,计算获得初始深度值。需要说明的是,向前传播方法是将上一层的输出作为下一层的输入,并计算下一层的输出,一直运算到输出层为止。
步骤S42:通过损失函数计算获得所述初始深度值与地面真实深度值的差值之和。需要说明的是,损失函数就是用来度量模型的预测值与真实值的差异程度的运算函数,它是一个非负实值函数,损失函数越小,模型的鲁棒性就越好。
步骤S43:通过神经网络训练所述多视图立体构建网络模型,得到所述推理模型参数。需要说明的是,训练集损失继续下降而验证集损失不再下降表明训练已经完成。
步骤S50:将预训练的神经网络模型作为输入图像样本生成并融合所述全分辨率深度图,获得所述三维点云模型。
具体的,如图7所示,至少包括:
步骤S51:将预训练的神经网络模型作为输入图像样本生成所述全分辨率深度图。
步骤S52:通过光度一致和几何一致方法过滤所述全分辨率深度图的背景和遮挡区域的异常值。
步骤S53:对过滤后的所述全分辨率深度图与所述推理模型参数进行融合,获得所述三维点云模型。
图8-10是本申请的实施例所提供的面向计算资源受限设备的多视图立体重建方法的具体实施例图,以下结合一种具体实施例对本申请的技术方案进行说明:
本申请以0.001的学习率进行批块大小为4和为期8个阶段的训练过程为例,如图8所示,为输入图像的样本,经过本申请所提出的多视图立体重建方法后,如图9所示,得到使用神经网络模型训练多视图立体模型得到的推理模型参数作为输入图像样本,从而生成全分辨率深度图,对全分辨率深度图进行光度一致性和几何一致性方法,过滤掉全分辨率深度图中背景和遮挡区域的异常值,过滤和融合全分辨率深度图,如图10所示,获得稠密点云模型。
综上所述,通过本申请提供的面向计算资源受限设备的多视图立体重建方法,通过四叉树注意力进行高效的局部特征匹配,获取图像内的细节信息和图像间的远程依赖关系的同时,降低了显存空间消耗,提高了运行时间效率,同时针对多视图立体任务中代价体缺乏视图间关联信息的问题,并使用双重加权聚合方法构建全局代价体,显著地提高了点云模型的完整性,还使用引导上采样策略恢复全分辨率深度图,提高了模型在目标边界处的重建精度。
图11是本申请的实施例所提供的面向计算资源受限设备的多视图立体重建系统的功能模块图,本申请提供的视图立体重建装置包括输入模块111、获取模块112、构建模块113、训练模块114、融合模块115。输入模块111用于输入多视角的图像数据;获取模块112用于根据输入的所述图像数据,计算相机的外部参数矩阵、内部参数矩阵和深度值范围,获取新的图像数据;构建模块113用于构建端到端的多视图立体重建网络模型;训练模块114用于将所述新的图像数据输入所述多视图立体构建网络模型进行训练,计算获得推理模型参数;融合模块115用于将预训练的神经网络模型作为输入图像样本生成并融合全分辨率深度图,获得三维点云模型。
需要说明的是,上述实施例所提供的如图11所示的面向计算资源受限设备的多视图立体重建系统与上述实施例所提供的面向计算资源受限设备的多视图立体重建方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。上述实施例所提供的面向计算资源受限设备的多视图立体重建系统在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,本处也不对此进行限制。
本申请的实施例还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现上述各个实施例中提供的面向计算资源受限设备的多视图立体重建方法。
图12示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是,图12示出的电子设备的计算机系统1200仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图12所示,计算机系统1200包括中央处理单元(Central Processing Unit,CPU)1201,其可以根据存储在只读存储器(Read-Only Memory,ROM)1202中的程序或者从储存部分1206加载到随机访问存储器(Random Access Memory,RAM1203中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1203中,还存储有系统操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(Input /Output,I/O)接口1205也连接至总线1204。
以下部件连接至I/O接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分12012;包括硬盘等的储存部分12012;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入储存部分12012。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机的处理器执行时,使计算机执行如前面向计算资源受限设备的多视图立体重建方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
本申请的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的面向计算资源受限设备的多视图立体重建方法。
上述实施例仅示例性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,但凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。
Claims (10)
1.一种面向计算资源受限设备的多视图立体重建方法,其特征在于,包括:
输入多视角的图像数据;
根据输入的所述图像数据,计算相机的外部参数矩阵、内部参数矩阵和深度值范围,获取新的图像数据;
构建端到端的多视图立体重建网络模型;
将所述新的图像数据输入所述多视图立体构建网络模型进行训练,计算获得推理模型参数;
将预训练的神经网络模型作为输入图像样本生成并融合全分辨率深度图,获得三维点云模型。
2.根据权利要求1所述的多视图立体重建方法,其特征在于,所述构建端到端的多视图立体重建网络模型的步骤中,所述多视图立体重建网络模型包括:
通过特征金字塔提取所述图像数据的源图像和参考图像的第一多尺度特征图,所述第一多尺度特征图包括源特征图和参考特征图;
通过四叉树注意力对所述第一多尺度特征图中1/8分辨率特征图进行局部特征匹配,获得含有全局上下文信息的第二多尺度特征图;
通过双重加权聚合方法构建和计算全局代价体;
通过三维卷积神经网络对所述全局代价体进行正则化处理,获得概率体;
对所述概率体进行深度回归处理,计算出在所述第二多尺度特征图中1/2分辨率特征图的每个像素的深度值,得到所述第二多尺度特征图中1/2分辨率特征图的深度图;
通过引导上采样策略将所述第二多尺度特征图中1/2分辨率特征图的深度图恢复至全分辨率,通过二维卷积神经网络的掩码计算深度图在述第二多尺度特征图中1/2分辨率特征图下的加权组合,获得全分辨率深度图。
4.根据权利要求2所述的多视图立体重建方法,其特征在于,所述通过四叉树注意力对所述第一多尺度特征图中1/8分辨率特征图进行局部特征匹配,获得含有全局上下文信息的多尺度特征图的步骤包括:
通过所述四叉树注意力对1/8分辨率的特征图进行局部特征匹配,提取图像内的细节信息和图像间的远程依赖关系;
对所述1/8分辨率的特征图进行上采样操作,将上采样后的所述1/8分辨率的特征图添加至到1/4分辨率特征图和1/2分辨率特征图中,获得含有全局上下文信息的所述多尺度特征图。
5.根据权利要求2所述的多视图立体重建方法,其特征在于,所述通过双重加权聚合方法构建和计算全局代价体的步骤包括:
通过可微分单应性变换将所述源特征图投影到参考图像视角下,计算获得源特征体,通过所述参考特征图计算出参考特征体;
通过所述分组相似性和所述特征体计算得到特征级视图权重和像素级视图权重;
将所述特征级视图权重与所述分组相似性计算加权和,获得特征级代价体;
将所述像素级视图权重与所述分组相似性计算加权和,获得像素级代价体;
通过所述特征级代价体环和所述像素级代价体,计算得到全局代价体。
7.根据权利要求2所述的多视图立体重建方法,其特征在于,通过引导上采样策略将所述第二多尺度特征图中1/2分辨率特征图的深度图恢复至全分辨率,通过二维卷积神经网络的掩码计算深度图在所述第二多尺度特征图中1/2分辨率特征图下的加权组合,获得全分辨率深度图的步骤包括:
通过引导上采样策略,将所述第二多尺度特征图中1/2分辨率特征图的深度图恢复至全分辨率;
8.根据权利要求1所述的多视图立体重建方法,其特征在于,所述将所述新的图像数据输入所述多视图立体构建网络模型进行训练,计算获得推理模型参数的步骤包括:
将所述新的图像数据输入所述多视图立体构建网络模型,通过向前传播方法,计算获得初始深度值;
通过损失函数计算获得所述初始深度值与地面真实深度值的差值之和;
通过神经网络训练所述多视图立体构建网络模型,得到所述推理模型参数。
9.根据权利要求1所述的多视图立体重建方法,其特征在于,包括:将预训练的神经网络模型作为输入图像样本生成深度图,对所述深度图进融合获得三维点云模型的步骤包括:
将所述预训练的神经网络模型作为输入图像样本生成全分辨率深度图;
通过光度一致和几何一致方法过滤所述全分辨率深度图的背景和遮挡区域的异常值;
对过滤后的所述全分辨率深度图与所述推理模型参数进行融合,获得所述三维点云模型。
10.一种面向计算资源受限设备的多视图立体重建系统,其特征在于,包括:
输入模块,输入多视角的图像数据;
获取模块,根据输入的所述图像数据,计算相机的外部参数矩阵、内部参数矩阵和深度值范围,获取新的图像数据;
构建模块,构建端到端的多视图立体重建网络模型;
训练模块,将所述新的图像数据输入所述多视图立体构建网络模型进行训练,计算获得推理模型参数;
融合模块,将预训练的神经网络模型作为输入图像样本生成并融合全分辨率深度图,获得三维点云模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310382538.2A CN116091712B (zh) | 2023-04-12 | 2023-04-12 | 一种面向计算资源受限设备的多视图立体重建方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310382538.2A CN116091712B (zh) | 2023-04-12 | 2023-04-12 | 一种面向计算资源受限设备的多视图立体重建方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116091712A true CN116091712A (zh) | 2023-05-09 |
CN116091712B CN116091712B (zh) | 2023-06-27 |
Family
ID=86212406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310382538.2A Active CN116091712B (zh) | 2023-04-12 | 2023-04-12 | 一种面向计算资源受限设备的多视图立体重建方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116091712B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117437363A (zh) * | 2023-12-20 | 2024-01-23 | 安徽大学 | 基于深度感知迭代器的大规模多视图立体方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200090384A1 (en) * | 2018-09-14 | 2020-03-19 | Nview Medical Inc. | Multi-scale image reconstruction of three-dimensional objects |
CN113345082A (zh) * | 2021-06-24 | 2021-09-03 | 云南大学 | 一种特征金字塔多视图三维重建方法和系统 |
WO2022057837A1 (zh) * | 2020-09-16 | 2022-03-24 | 广州虎牙科技有限公司 | 图像处理和人像超分辨率重建及模型训练方法、装置、电子设备及存储介质 |
CN114359509A (zh) * | 2021-12-03 | 2022-04-15 | 三峡大学 | 一种基于深度学习的多视图自然场景重建方法 |
CN114897136A (zh) * | 2022-04-29 | 2022-08-12 | 清华大学 | 多尺度注意力机制方法及模块和图像处理方法及装置 |
CN114937073A (zh) * | 2022-04-08 | 2022-08-23 | 陕西师范大学 | 一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法 |
CN115222977A (zh) * | 2022-08-01 | 2022-10-21 | 天津大学 | 一种智能多视图立体匹配方法及装置 |
CN115239870A (zh) * | 2021-12-31 | 2022-10-25 | 国网浙江省电力有限公司金华供电公司 | 基于注意力代价体金字塔的多视图立体网络三维重建方法 |
CN115330929A (zh) * | 2022-03-30 | 2022-11-11 | 土豆数据科技集团有限公司 | 多视图三维重建方法及装置 |
CN115345917A (zh) * | 2022-08-10 | 2022-11-15 | 土豆数据科技集团有限公司 | 低显存占用的多阶段稠密重建方法及装置 |
CN115564888A (zh) * | 2022-07-18 | 2023-01-03 | 电子科技大学长三角研究院(湖州) | 一种基于深度学习的可见光多视图像三维重建方法 |
CN115588038A (zh) * | 2022-10-19 | 2023-01-10 | 沈阳工业大学 | 一种多视角深度估计方法 |
-
2023
- 2023-04-12 CN CN202310382538.2A patent/CN116091712B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200090384A1 (en) * | 2018-09-14 | 2020-03-19 | Nview Medical Inc. | Multi-scale image reconstruction of three-dimensional objects |
WO2022057837A1 (zh) * | 2020-09-16 | 2022-03-24 | 广州虎牙科技有限公司 | 图像处理和人像超分辨率重建及模型训练方法、装置、电子设备及存储介质 |
CN113345082A (zh) * | 2021-06-24 | 2021-09-03 | 云南大学 | 一种特征金字塔多视图三维重建方法和系统 |
CN114359509A (zh) * | 2021-12-03 | 2022-04-15 | 三峡大学 | 一种基于深度学习的多视图自然场景重建方法 |
CN115239870A (zh) * | 2021-12-31 | 2022-10-25 | 国网浙江省电力有限公司金华供电公司 | 基于注意力代价体金字塔的多视图立体网络三维重建方法 |
CN115330929A (zh) * | 2022-03-30 | 2022-11-11 | 土豆数据科技集团有限公司 | 多视图三维重建方法及装置 |
CN114937073A (zh) * | 2022-04-08 | 2022-08-23 | 陕西师范大学 | 一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法 |
CN114897136A (zh) * | 2022-04-29 | 2022-08-12 | 清华大学 | 多尺度注意力机制方法及模块和图像处理方法及装置 |
CN115564888A (zh) * | 2022-07-18 | 2023-01-03 | 电子科技大学长三角研究院(湖州) | 一种基于深度学习的可见光多视图像三维重建方法 |
CN115222977A (zh) * | 2022-08-01 | 2022-10-21 | 天津大学 | 一种智能多视图立体匹配方法及装置 |
CN115345917A (zh) * | 2022-08-10 | 2022-11-15 | 土豆数据科技集团有限公司 | 低显存占用的多阶段稠密重建方法及装置 |
CN115588038A (zh) * | 2022-10-19 | 2023-01-10 | 沈阳工业大学 | 一种多视角深度估计方法 |
Non-Patent Citations (4)
Title |
---|
YOUCHENG CAI等: "An End-to-End Approach to Reconstructing 3D Model From Image Set", ACCESS 2020, no. 8, pages 193268 - 193284, XP011818598, DOI: 10.1109/ACCESS.2020.3032169 * |
ZHENPEI YANG等: "MVS2D: Efficient Multi-View Stereo via Attention-Driven 2D Convolutions", PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, pages 8574 - 8584 * |
叶春凯;万旺根;: "基于特征金字塔网络的多视图深度估计", 电子测量技术, no. 11, pages 97 - 101 * |
曹明伟: "数据驱动的多视图三维重建", 中国博士学位论文全文数据库 信息科技辑, no. 1, pages 138 - 73 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117437363A (zh) * | 2023-12-20 | 2024-01-23 | 安徽大学 | 基于深度感知迭代器的大规模多视图立体方法 |
CN117437363B (zh) * | 2023-12-20 | 2024-03-22 | 安徽大学 | 基于深度感知迭代器的大规模多视图立体方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116091712B (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Reiser et al. | Kilonerf: Speeding up neural radiance fields with thousands of tiny mlps | |
Qi et al. | Geonet++: Iterative geometric neural network with edge-aware refinement for joint depth and surface normal estimation | |
CN110458939A (zh) | 基于视角生成的室内场景建模方法 | |
CN110443842A (zh) | 基于视角融合的深度图预测方法 | |
DE102021121109A1 (de) | Wiederherstellung dreidimensionaler modelle aus zweidimensionalen bildern | |
Mao et al. | Elevation estimation-driven building 3-D reconstruction from single-view remote sensing imagery | |
CN113129352B (zh) | 一种稀疏光场重建方法及装置 | |
Kniaz et al. | Image-to-voxel model translation for 3d scene reconstruction and segmentation | |
CN110781894A (zh) | 点云语义分割方法、装置及电子设备 | |
CN115797561A (zh) | 三维重建方法、设备及可读存储介质 | |
CN115222917A (zh) | 三维重建模型的训练方法、装置、设备及存储介质 | |
CN116097316A (zh) | 用于非模态中心预测的对象识别神经网络 | |
CN115115805A (zh) | 三维重建模型的训练方法、装置、设备及存储介质 | |
Li et al. | Self-supervised monocular depth estimation based on image texture detail enhancement | |
CN116091712B (zh) | 一种面向计算资源受限设备的多视图立体重建方法与系统 | |
Zeng et al. | Point cloud up-sampling network with multi-level spatial local feature aggregation | |
Zhou et al. | A superior image inpainting scheme using Transformer-based self-supervised attention GAN model | |
Yang et al. | A completely parallel surface reconstruction method for particle-based fluids | |
Xiang et al. | Sketch‐based modeling with a differentiable renderer | |
CN117437363B (zh) | 基于深度感知迭代器的大规模多视图立体方法 | |
CN114283152A (zh) | 图像处理、图像处理模型的训练方法、装置、设备及介质 | |
Kniaz et al. | Deep learning a single photo voxel model prediction from real and synthetic images | |
Knyaz | Machine learning for scene 3d reconstruction using a single image | |
CN117635801A (zh) | 基于实时渲染可泛化神经辐射场的新视图合成方法及系统 | |
Hu et al. | 3D map reconstruction using a monocular camera for smart cities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |