CN112927357B - 一种基于动态图网络的3d物体重建方法 - Google Patents
一种基于动态图网络的3d物体重建方法 Download PDFInfo
- Publication number
- CN112927357B CN112927357B CN202110244678.4A CN202110244678A CN112927357B CN 112927357 B CN112927357 B CN 112927357B CN 202110244678 A CN202110244678 A CN 202110244678A CN 112927357 B CN112927357 B CN 112927357B
- Authority
- CN
- China
- Prior art keywords
- layer
- coordinate
- graph
- feature
- vertex
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 239000011159 matrix material Substances 0.000 claims abstract description 74
- 238000002360 preparation method Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 66
- 230000006870 function Effects 0.000 claims description 29
- 238000013507 mapping Methods 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 238000012417 linear regression Methods 0.000 claims description 7
- 238000005520 cutting process Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 2
- 238000003708 edge detection Methods 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 8
- 230000007547 defect Effects 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
- G06T15/205—Image-based rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/22—Cropping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于动态图网络的3D物体重建方法,物体的二维图像I首先经过图像特征提取;然后进行图网络输入数据准备:预定义一个由N个顶点以及多条边组成椭球体网格模型,并填充初始特征得到特征输入X,并构建对应的关系矩阵A;然后将特征输入X及对应的关系矩阵A送入动态图网络对每个顶点的特征进行融合和推理,融合生成新的关系矩阵最后根据动态图网络输出的特征输出Z经过3D坐标回归层回归出每个顶点的位置。本发明解决了图网络中初始关系矩阵A缺少必要邻居节点信息以及不能适应于对应物体的网格关系的缺点,这样提升重建的准确率以及效果,重建出来的3D网格模型具有完整、光滑等特点,能够适用于游戏,无人机,动画等实际应用中。
Description
技术领域
本发明属于3D物体重建技术领域,更为具体地讲,涉及一种基于动态图网络的3D物体重建方法。
背景技术
3D物体重建目的是利用物体的二维图像推断出其三维结构,现有3D物体重建方法主要是利用多视角几何学的角度关系对三维结构进行推断,比如【Yasutaka Furukawa andJean Ponce.Accurate,dense,and robust multiview stereopsis.IEEE transactionson pattern analysis and machine intelligence,32(8):1362–1376,2010】。虽然该3D物体重建方法可以实现高质量的3D物体重建,但受限于专业的设备以及完整的多视角数据,无法推广到基于单张二维图像的3D物体重建中去。
近期,Nanyang Wang等人通过图卷积神经网络,建立一种端到端的深度学习架构,从单一彩色图像生成一个基于网格表示的三维模型,实现单张二维图像的3D物体重建【Nanyang Wang,Yinda Zhang,Zhuwen Li,Yanwei Fu,Wei Liu,and Yu-GangJiang.Pixel2mesh:Generating 3d mesh models from single rgb images.InProceedings of the European Conference on Computer Vision(ECCV),pages 52–67,2018.】。如图1所示,该3D物体重建方法基于图卷积神经网络,通过逐步变形初始椭球体,最后生成正确的几何形状即三维结构。但是该3D物体重建方法中,图卷积神经网络中的初始关系矩阵缺少必要邻居节点信息即初始图信息不全,导致其不能适应于对应物体的网格关系,限制了其推理效果。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于动态图网络的3D物体重建方法,通过健全初始图信息,以适应于对应物体的网格关系,从而提升重建的准确率和效果。
为实现上述发明目的,本发明基于动态图网络的3D物体重建方法,其特征在于,包括以下步骤:
(1)、图像特征提取
对物体的二维图像I进行图像特征提取,得到一张特征图,该特征图包括N个D维度的特征向量F1,F2,...,FN,以及每个特征向量Fn对应图像区域的中心位置坐标xn,yn(特征向量坐标),其中,特征向量Fn为列向量,n=1,2,..,N;
(2)、动态图网络输入数据准备
预定义一个由N个顶点以及多条边组成椭球体网格模型,并填充初始特征:对于第k个顶点,根据其水平坐标x′k、垂直坐标y′k,在特征图上找到距离最近的特征向量坐标xk′,yk′,k′∈{1,2,...N},然后,将特征向量Fk′与第k个顶点的水平坐标x′k、垂直坐标y′k以及高度坐标z′k连接为一个特征向量Xk,其维度为c1,c1=D+3,得到特征输入X,X={X1,X2,...,XN};
构建特征输入X对应的关系矩阵A,其中,关系矩阵A=(Aij)N×N,对于关系矩阵A中元素Aij:如果第i个顶点、第j个顶点之间有边连接或第i个顶点的特征向量Xi、第j个顶点的特征向量Xj之间存在近邻关系(距离小于设定的阈值ε),则元素Aij=1,否则元素Aij=0;
(3)、动态图网络中进行特征映射和卷积
所述动态图网络(动态图卷积神经网络)包括动态图学习层以及两层图卷积层;
3.1)、在动态图学习层中,首先通过一组可学习的参数θ对特征输入X进行特征映射:对于特征输入X的第i个特征向量Xi,则映射得到特征向量hi:hi=θTXi,其中,参数θ为c1×c2大小的矩阵,c2为距离空间中的特征维度;然后度量顶点与顶点之间的距离,得到关系矩阵S,其中,关系矩阵S=(Sij)N×N,对于关系矩阵S中元素Sij,其值为:
其中,d2()为特征向量之间距离度量函数,exp{}为指数函数;
(4)、3D坐标回归层中进行线性回归映射
将特征输出Z的N个列向量Zi,i=1,2,…,N,分别作为输入送入3D坐标回归层中进行线性回归映射,输出特征维度为3的坐标向量Pi,i=1,2,…,N,对应第i个顶点的预测3D坐标;
(5)、训练动态图网络
5.1)、构建图学习损失函数Lgraph:
其中,Zi、Zj分别为特征输出Z的第i列向量、第j列向量,|Zi-Zj|表示求第i列向量、第j列向量的欧式距离,||||F表示求范数;
5.2)、不断输入不同物体的二维图像I,按照步骤(1)、(2)、(3)进行处理,然后依据图学习损失函数Lgraph,利用梯度下降算法进行反向传播,更新动态图学习层可学习参数θ以及两层图卷积层中的可学习线性映射参数W(1)、W(2),当图学习损失函数Lgraph的值不再减小(损失值收敛)时,停止更新,完成动态图网络训练;
(6)、训练3D坐标回归层
在完成动态图网络后,不断输入不同物体的二维图像I,按照步骤(1)、(2)、(3)、(4)进行处理,使用Chamfer distance损失函数,度量各顶点预测3D坐标与各顶点真实3D坐标的距离,利用梯度下降算法进行反向传播,更新整个3D坐标回归层的网络参数,当Chamfer distance损失函数的值不再减小,停止更新,完成3D坐标回归层训练;
(7)、3D物体重建
在完成动态图网络、3D坐标回归层训练后,对于物体的二维图像I,按照步骤(1)、(2)、(3)、(4)进行处理,得到N个顶点的预测3D坐标,得到物体的3D网格模型,从而完成3D物体重建。
本发明的目的是这样实现的。
本发明基于动态图网络的3D物体重建方法,物体的二维图像I首先经过图像特征提取,得到特征向量;然后进行图网络输入数据准备:预定义一个由N个顶点以及多条边组成椭球体网格模型,并填充初始特征得到特征输入X,并构建对应的关系矩阵A;然后将特征输入X及对应的关系矩阵A送入动态图网络对每个顶点的特征进行融合和推理,融合,生成新的关系矩阵并且根据基于图拉普拉斯正则化对图的边进行更新,发现潜在的边关系,用于后面的图卷积操作,改善初始图信息不全,不能很好地适用与对应物体的网格关系,从而提升重建的准确率以及效果;最后根据动态图网络输出的特征输出Z经过3D坐标回归层回归出每个顶点的位置即预测3D坐标。即给定一张物体的二维图像I,输出对应的N个顶点的预测3D坐标,得到物体的3D网格模型,从而完成3D物体重建。本发明重点解决了图网络中初始关系矩阵A缺少必要邻居节点信息以及不能适应于对应物体的网格关系的缺点,这样重建出来的3D网格模型具有完整、光滑等特点,能够适用于游戏,无人机,动画等实际应用中。
附图说明
图1是现有技术中一种端到端的深度学习架构示意图;
图2是本发明基于动态图网络的3D物体重建方法一种具体实施方式流程图;
图3是图1所示动态图网络输入数据准备的示意图
图4是图1所示3D物体重建的流程图;
图5是图1所示3D物体重建的原理示意图;
图6是采用本发明重建的物体的3D网格模型的效果图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
在本实施例中,如图2所示,本发明基于动态图网络的3D物体重建方法包括以下步骤:
步骤S1:图像特征提取
对物体的二维图像I进行图像特征提取,得到一张特征图,该特征图包括N个D维度的特征向量F1,F2,...,FN,以及每个特征向量Fn对应图像区域的中心位置坐标xn,yn(特征向量坐标),其中,特征向量Fn为列向量,n=1,2,..,N。
在本实施例中,物体的二维图像I在进行图像特征提取之前需要进行图像预处理:用现有成熟算法,对物体的二维图像I进行增强、裁剪与统一。在本实施例中,具体裁剪与统一如下:①、将物体的二维图像I裁剪成大小为256×256的图像,通过边缘检测算法,去除背景区域颜色,用绿色填充;②、对物体的二维图像I进行色彩归一化,统一图像的像素值符合高斯分布。
在本实施例中,将预处理后的二维图像I图像,输入到已经用ImageNet图像数据库训练好的残差网络(Residual Network)ResNet50模型进行特征提取。ResNet50模型由多个3x3卷积层、激活函数层以及批量归一化层组成,同时包含短路连接,将上层特征与下层特征相连接。ResNet模型通常由多个块(Block)组成,在本实施例中,为了获取与图像区域对应的特征,去掉最后一个块(Block)Block,最后得到一张16×16个512维度的特征向量的特征图,该特征图包括N=16×16个D=512维度的特征向量F1,F2,...,F256,以及每个特征向量Fn对应图像区域的中心位置坐标xn,yn(特征向量坐标)。
步骤S2:动态图网络输入数据准备
如图3所示,预定义一个由N个顶点以及多条边组成椭球体网格模型,并填充初始特征:对于第k个顶点,根据其水平坐标x′k、垂直坐标y′k,在特征图上找到距离最近的特征向量坐标xk′,yk′,k′∈{1,2,...N},然后,将特征向量Fk′与第k个顶点的水平坐标x′k、垂直坐标y′k以及高度坐标z′k连接为一个特征向量Xk,其维度为c1,c1=D+3,得到特征输入X,X={X1,X2,...,XN}。在本实施例中,维度c1=512+3=256。
构建特征输入X对应的关系矩阵A,其中,关系矩阵A=(Aij)N×N,对于关系矩阵A中元素Aij:如果第i个顶点、第j个顶点之间有边连接或第i个顶点的特征向量Xi、第j个顶点的特征向量Xj之间存在近邻关系(距离小于设定的阈值ε),则元素Aij=1,否则元素Aij=0。
在本实施例中,椭球体网格模型包括256个顶点以及6×256条边。
步骤S3:动态图网络中进行特征映射和卷积
所述动态图网络包括动态图学习层以及两层图卷积层;
步骤S3.1:在动态图学习层中,首先通过一组可学习的参数θ对特征输入X进行特征映射:对于特征输入X的第i个特征向量Xi,则映射得到特征向量hi:hi=θTXi,其中,参数θ为c1×c2大小的矩阵,c2为距离空间中的特征维度;然后度量顶点与顶点之间的距离,得到关系矩阵S,其中,关系矩阵S=(Sij)N×N,对于关系矩阵S中元素Sij,其值为:
其中,d2()为特征向量之间距离度量函数,exp{}为指数函数。
对于每个顶点,过多的邻居顶点,会在特征聚合的过程中造成图过度平滑问题,使得所有顶点的特征都趋于一样,导致动态图网络训练失败。因此,本发明从而对关系矩阵进行稀疏化:根据距离,归一化每个邻居顶点的权重,对每个顶点,保留和此顶点最近的K个顶点,去掉其余链接。
步骤S4:3D坐标回归层中进行线性回归映射
将特征输出Z的N个列向量Zi,i=1,2,…,N,分别作为输入送入3D坐标回归层中进行线性回归映射,输出特征维度为3的坐标向量Pi,i=1,2,…,N,对应第i个顶点的预测3D坐标。
步骤S5:训练动态图网络
步骤S5.1:构建图学习损失函数Lgraph:
其中,Zi、Zj分别为特征输出Z的第i列向量、第j列向量,|Zi-Zj|表示求第i列向量、第j列向量的欧式距离,||||F表示求范数。
步骤S5.2:不断输入不同物体的二维图像I,按照步骤(1)、(2)、(3)进行处理,然后依据图学习损失函数Lgraph,利用梯度下降算法进行反向传播,更新动态图学习层可学习参数θ以及两层图卷积层中的可学习线性映射参数W(1)、W(2),当图学习损失函数Lgraph的值不再减小(损失值收敛)时,停止更新,完成动态图网络训练。
传统的图网络(图卷积神经网络)需要输入特征输入X以及对应的关系矩阵A,关系矩阵A作为特征聚合的操作输入,而在整个过程中关系矩阵A是不变的、固定的。也就意味着初始的关系矩阵A对特征传递和聚合过程有很大的影响,而初始的关系矩阵A存在信息不全(比如缺少边)以及不能很好地对应于物体的网格关系的缺点,于是本发明设计和提出了一种基于动态图网络的3D物体重建方法。和传统的基于图卷积神经网络的3D物体重建方法不同,动态图网络会对每个顶点的特征进行一次映射,并且根据基于图拉普拉斯正则化对图的边进行更新,发现潜在的边关系,经过距离计算以及对生成的潜在图进行稀疏化,最后与初始的关系矩阵A进行融合得到新的关系矩阵用于后面的图卷积操作。新的关系矩阵相比与初始的关系矩阵A,改善了初始的关系矩阵A的信息不全,能够更好地适用于对应物体的网格关系,从而提升重建的准确率以及效果。
步骤S6:训练3D坐标回归层
在完成动态图网络后,不断输入不同物体的二维图像I,按照步骤(1)、(2)、(3)、(4)进行处理,使用Chamfer distance损失函数,度量各顶点预测3D坐标与各顶点真实3D坐标的距离,利用梯度下降算法进行反向传播,更新整个3D坐标回归层的网络参数,当Chamfer distance损失函数的值不再减小(损失值收敛)时,停止更新,完成3D坐标回归层训练。
Chamfer distance损失函数用于度量预测值与真实值的距离,其表达式为:
其中,M代表预测顶点集合,G代表真实顶点集合。对于一个顶点集合中每一个顶点,Chamfer distance损失函数找到另一个顶点集合中最近的点,然后把距离的平方相加。第一项代表预测顶点集合中每个顶点p到真实顶点集合中最近点距离之和,第二项则表示真实顶点集合中每个顶点q到预测顶点集合最近点距离之和的。如果距离L较大,则说明预测顶点集合与真实顶点集合区别较大;如果距离L较小,则说明预测顶点集合与真实顶点集合区别较小,则说明重建效果较好。Chamfer distance倒角距离主要用于点云重建或者3D重建工作。
在本实施例中,Chamfer distance损失函数为Lregress:
其中,Qi*为到第i坐标向量Pi最近的真实3D坐标构成的坐标向量,Pi*为到第i个顶点真实3D坐标对应的坐标向量Qi最近的坐标向量,Qi为第i个顶点真实3D坐标构成的坐标向量;
步骤S7:3D物体重建
如图4、5所示,在完成动态图网络、3D坐标回归层训练后,对于物体的二维图像I,按照步骤S0、S1、S2、S3、S4进行处理:图像预处理、图像特征提取、动态图网络输入数据准备、动态图网络中进行特征映射和卷积以及3D坐标回归层中进行线性回归映射,得到N个顶点的预测3D坐标即(x,y,z)的值,得到物体的3D网格模型,从而完成3D物体重建。
其中,图4所示,动态图网络包括动态学习层以及两层图卷积层。在动态学习层中进行特征映射、距离度量、稀疏化以及关系矩阵融合,学习得到新的关系矩阵发现潜在的边关系;在图卷积层中,进行特征映射和邻居节点特征融合,得到特征输出Z。具体的3D物体重建的原理示意图如图5所示。
采用本发明,对部分物体的二维图像I进行处理,得到物体的3D网格模型,然后转换为重建效果图,如图6所示。从图6可以看出,本发明重建出来的3D网格模型具有完整、光滑等特点,能够适用于游戏,无人机,动画等实际应用中。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (2)
1.一种基于动态图网络的3D物体重建方法,其特征在于,包括以下步骤:
(1)、图像特征提取
对物体的二维图像I进行图像特征提取,得到一张特征图,该特征图包括N个D维度的特征向量F1,F2,...,FN,以及每个特征向量Fn对应图像区域的中心位置坐标即特征向量坐标xn,yn,其中,特征向量Fn为列向量,n=1,2,..,N;
(2)、动态图网络输入数据准备
预定义一个由N个顶点以及多条边组成椭球体网格模型,并填充初始特征:对于第k个顶点,根据其水平坐标x′k、垂直坐标y′k,在特征图上找到距离最近的特征向量坐标xk′,yk′,k′∈{1,2,...N},然后,将特征向量Fk′与第k个顶点的水平坐标x′k、垂直坐标y′k以及高度坐标z′k连接为一个特征向量Xk,其维度为c1,c1=D+3,得到特征输入X,X={X1,X2,...,XN};
构建特征输入X对应的关系矩阵A,其中,关系矩阵A=(Aij)N×N,对于关系矩阵A中元素Aij:如果第i个顶点、第j个顶点之间有边连接或第i个顶点的特征向量Xi、第j个顶点的特征向量Xj之间存在近邻关系即距离小于设定的阈值ε,则元素Aij=1,否则元素Aij=0;
(3)、动态图网络中进行特征映射和卷积
所述动态图网络包括动态图学习层以及两层图卷积层;
3.1)、在动态图学习层中,首先通过一组可学习的参数θ对特征输入X进行特征映射:对于特征输入X的第i个特征向量Xi,则映射得到特征向量hi:hi=θTXi,其中,参数θ为c1×c2大小的矩阵,c2为距离空间中的特征维度;然后度量顶点与顶点之间的距离,得到关系矩阵S,其中,关系矩阵S=(Sij)N×N,对于关系矩阵S中元素Sij,其值为:
其中,d2()为特征向量之间距离度量函数,exp{}为指数函数;
其中,特征输出Z为N列向量构成的矩阵,为第一层图卷积层的输出,并作为第二层图卷积层的输入,W(1)为第一层图卷积层的可学习线性映射参数,W(2)为第二层图卷积层的可学习线性映射参数,σ( )激活函数;
(4)、3D坐标回归层中进行线性回归映射
将特征输出Z的N个列向量Zi,i=1,2,…,N,分别作为输入送入3D坐标回归层中进行线性回归映射,输出特征维度为3的坐标向量Pi,i=1,2,…,N,对应第i个顶点的预测3D坐标;
(5)、训练动态图网络
5.1)、构建图学习损失函数Lgraph:
其中,Zi、Zj分别为特征输出Z的第i列向量、第j列向量,|Zi-Zj|表示求第i列向量、第j列向量的欧式距离,|| ||F表示求范数;
5.2)、不断输入不同物体的二维图像I,按照步骤(1)、(2)、(3)进行处理,然后依据图学习损失函数Lgraph,利用梯度下降算法进行反向传播,更新动态图学习层可学习参数θ以及两层图卷积层中的可学习线性映射参数W(1)、W(2),当图学习损失函数Lgraph的值不再减小即损失值收敛时,停止更新,完成动态图网络训练;
(6)、训练3D坐标回归层
在完成动态图网络后,不断输入不同物体的二维图像I,按照步骤(1)、(2)、(3)、(4)进行处理,使用Chamfer distance损失函数,度量各顶点预测3D坐标与各顶点真实3D坐标的距离,利用梯度下降算法进行反向传播,更新整个3D坐标回归层的网络参数,当Chamferdistance损失函数的值不再减小,停止更新,完成3D坐标回归层训练;
(7)、3D物体重建
在完成动态图网络、3D坐标回归层训练后,对于物体的二维图像I,按照步骤(1)、(2)、(3)、(4)进行处理,得到N个顶点的预测3D坐标,得到物体的3D网格模型,从而完成3D物体重建。
2.根据权利要求1所述的基于动态图网络的3D物体重建方法,其特征在于,物体的二维图像I在进行图像特征提取之前需要进行图像预处理:
用现有成熟算法,对物体的二维图像I进行增强、裁剪与统一,所述裁剪与统一为:①、将物体的二维图像I裁剪成大小为256×256的图像,通过边缘检测算法,去除背景区域颜色;②、对物体的二维图像I进行色彩归一化,统一图像的像素值符合高斯分布。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110244678.4A CN112927357B (zh) | 2021-03-05 | 2021-03-05 | 一种基于动态图网络的3d物体重建方法 |
US17/243,594 US11715258B2 (en) | 2021-03-05 | 2021-04-29 | Method for reconstructing a 3D object based on dynamic graph network |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110244678.4A CN112927357B (zh) | 2021-03-05 | 2021-03-05 | 一种基于动态图网络的3d物体重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112927357A CN112927357A (zh) | 2021-06-08 |
CN112927357B true CN112927357B (zh) | 2022-04-19 |
Family
ID=76173452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110244678.4A Active CN112927357B (zh) | 2021-03-05 | 2021-03-05 | 一种基于动态图网络的3d物体重建方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11715258B2 (zh) |
CN (1) | CN112927357B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11450009B2 (en) * | 2018-02-26 | 2022-09-20 | Intel Corporation | Object detection with modified image background |
CN110866526B (zh) * | 2018-08-28 | 2024-10-01 | 北京三星通信技术研究有限公司 | 图像分割方法、电子设备及计算机可读存储介质 |
EP3923183B1 (en) * | 2020-06-11 | 2024-07-24 | Tata Consultancy Services Limited | Method and system for video analysis |
EP4009277A1 (en) * | 2020-12-03 | 2022-06-08 | Tata Consultancy Services Limited | Methods and systems for generating end-to-end model to estimate 3-dimensional(3-d) pose of object |
CN113610711B (zh) * | 2021-08-02 | 2023-05-23 | 南京信息工程大学 | 一种单图像引导的三维表面重建方法及装置 |
CN113792980B (zh) * | 2021-08-18 | 2023-07-18 | 国网四川省电力公司 | 一种工程设计文件工作量评估方法及系统 |
CN113808275B (zh) * | 2021-09-24 | 2023-10-13 | 南京信息工程大学 | 一种基于gcn与拓扑修改的单图像三维重建方法 |
CN114170065B (zh) * | 2021-10-21 | 2024-08-02 | 河南科技大学 | 一种基于卡通损失的生成对抗网络的卡通化方法 |
CN113963132A (zh) * | 2021-11-15 | 2022-01-21 | 广东电网有限责任公司 | 一种等离子体的三维分布重建方法及相关装置 |
CN114373056B (zh) * | 2021-12-17 | 2024-08-02 | 云南联合视觉科技有限公司 | 一种三维重建方法、装置、终端设备及存储介质 |
CN114330672B (zh) * | 2022-01-05 | 2024-06-14 | 安徽理工大学 | 多信息聚合的图残差生成模型、分类方法、电子设备及存储介质 |
CN114842326B (zh) * | 2022-03-21 | 2024-04-02 | 华南农业大学 | 一种免定标檀香树植株缺苗定位方法 |
CN114972366B (zh) * | 2022-07-27 | 2022-11-18 | 山东大学 | 基于图网络的大脑皮层表面全自动分割方法及系统 |
CO2022011603A1 (es) * | 2022-08-17 | 2024-02-26 | Univ Simon Bolivar | Proceso de inteligencia artificial para pronosticar el tamaño de objetos |
CN115761116B (zh) * | 2022-11-03 | 2023-08-18 | 云南大学 | 一种基于单目相机的透视投影下三维人脸重建方法 |
CN117764856A (zh) * | 2022-12-05 | 2024-03-26 | 行吟信息科技(武汉)有限公司 | 图像处理方法及装置、电子设备及计算机可读存储介质 |
CN116502548B (zh) * | 2023-06-29 | 2023-09-15 | 湖北工业大学 | 一种基于深度学习的三维玩具设计方法 |
CN118470054B (zh) * | 2024-04-28 | 2024-10-25 | 南京机电职业技术学院 | 基于路径优化算法的改进时差法测量仪流量监测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101948A (zh) * | 2018-08-28 | 2018-12-28 | 电子科技大学 | 一种基于时空及通道的多注意力机制视频描述方法 |
CN109544598A (zh) * | 2018-11-21 | 2019-03-29 | 电子科技大学 | 目标跟踪方法、装置及可读存储介质 |
CN110352430A (zh) * | 2017-04-07 | 2019-10-18 | 英特尔公司 | 使用合成数据和创新生成网络进行深度神经网络的高级和增强训练的方法和系统 |
CN111506689A (zh) * | 2020-04-13 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 基于人工智能的电子地图渲染方法、装置及电子设备 |
WO2020200082A1 (zh) * | 2019-03-29 | 2020-10-08 | 广州虎牙信息科技有限公司 | 直播互动方法、装置、直播系统及电子设备 |
CN112053391A (zh) * | 2020-09-11 | 2020-12-08 | 中德(珠海)人工智能研究院有限公司 | 一种基于动态三维模型的监控预警方法、系统及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516681A (zh) * | 2018-05-21 | 2019-11-29 | 孙民 | 影像特征提取方法及其显著物体预测方法 |
WO2022096105A1 (en) * | 2020-11-05 | 2022-05-12 | Huawei Technologies Co., Ltd. | 3d tongue reconstruction from single images |
KR102352942B1 (ko) * | 2021-01-13 | 2022-01-19 | 셀렉트스타 주식회사 | 객체 경계정보의 주석을 입력하는 방법 및 장치 |
-
2021
- 2021-03-05 CN CN202110244678.4A patent/CN112927357B/zh active Active
- 2021-04-29 US US17/243,594 patent/US11715258B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110352430A (zh) * | 2017-04-07 | 2019-10-18 | 英特尔公司 | 使用合成数据和创新生成网络进行深度神经网络的高级和增强训练的方法和系统 |
CN109101948A (zh) * | 2018-08-28 | 2018-12-28 | 电子科技大学 | 一种基于时空及通道的多注意力机制视频描述方法 |
CN109544598A (zh) * | 2018-11-21 | 2019-03-29 | 电子科技大学 | 目标跟踪方法、装置及可读存储介质 |
WO2020200082A1 (zh) * | 2019-03-29 | 2020-10-08 | 广州虎牙信息科技有限公司 | 直播互动方法、装置、直播系统及电子设备 |
CN111506689A (zh) * | 2020-04-13 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 基于人工智能的电子地图渲染方法、装置及电子设备 |
CN112053391A (zh) * | 2020-09-11 | 2020-12-08 | 中德(珠海)人工智能研究院有限公司 | 一种基于动态三维模型的监控预警方法、系统及存储介质 |
Non-Patent Citations (3)
Title |
---|
3D RECONSTRUCTION BASED ON GAT FROM A SINGLE IMAGE;YANG,DS 等;《17th international computer conference on wavelet active media technology and information processing》;20210115;第122-125页 * |
图像超分辨重建算法综述;史振威 等;《数据采集与处理》;20200131;第35卷(第1期);第1-20页 * |
基于单目视觉的汽车自动导航技术研究;匡平等;《中国博士学位论文全文数据库 工程科技Ⅱ辑》;20070615(第6期);C035-3 * |
Also Published As
Publication number | Publication date |
---|---|
US11715258B2 (en) | 2023-08-01 |
US20210248812A1 (en) | 2021-08-12 |
CN112927357A (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112927357B (zh) | 一种基于动态图网络的3d物体重建方法 | |
CN112529015B (zh) | 一种基于几何解缠的三维点云处理方法、装置及设备 | |
CN110458957B (zh) | 一种基于神经网络的图像三维模型构建方法及装置 | |
US11182644B2 (en) | Method and apparatus for pose planar constraining on the basis of planar feature extraction | |
WO2024060395A1 (zh) | 一种基于深度学习的高精度点云补全方法及装置 | |
CN110223370B (zh) | 一种从单视点图片生成完整人体纹理贴图的方法 | |
CN108537837A (zh) | 一种深度信息确定的方法及相关装置 | |
CN109005398B (zh) | 一种基于卷积神经网络的立体图像视差匹配方法 | |
CN111046767B (zh) | 一种基于单目图像的3d目标检测方法 | |
CN114332415B (zh) | 基于多视角技术的输电线路廊道的三维重建方法及装置 | |
CN114078151B (zh) | 一种点云融合方法、装置、电子设备及存储介质 | |
CN113065546A (zh) | 一种基于注意力机制和霍夫投票的目标位姿估计方法及系统 | |
CN113705631A (zh) | 一种基于图卷积的3d点云目标检测方法 | |
CN111028335B (zh) | 一种基于深度学习的点云数据的分块面片重建方法 | |
CN112862949B (zh) | 基于多视图的物体3d形状重建方法 | |
JP2020052543A (ja) | 形状補完装置、形状補完学習装置、方法、及びプログラム | |
CN114494644A (zh) | 一种基于双目立体匹配的空间非合作目标位姿估计与三维重建方法及系统 | |
CN116797726B (zh) | 器官三维重建方法、装置、电子设备和存储介质 | |
CN116476070B (zh) | 大型筒件局部特征机器人扫描测量路径调整方法 | |
CN116385658A (zh) | 一种基于层次先验挖掘的非局部多视图稠密三维重建方法 | |
WO2022017129A1 (zh) | 目标对象检测方法、装置、电子设备及存储介质 | |
CN115775214A (zh) | 一种基于多阶段分形组合的点云补全方法及系统 | |
CN114820899A (zh) | 一种基于多视角渲染的姿态估计方法和装置 | |
CN108198215B (zh) | 一种多视角三维物体骨架图像提取方法 | |
CN113592021A (zh) | 一种基于可变形和深度可分离卷积的立体匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |