CN115222917A - 三维重建模型的训练方法、装置、设备及存储介质 - Google Patents
三维重建模型的训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115222917A CN115222917A CN202210855243.8A CN202210855243A CN115222917A CN 115222917 A CN115222917 A CN 115222917A CN 202210855243 A CN202210855243 A CN 202210855243A CN 115222917 A CN115222917 A CN 115222917A
- Authority
- CN
- China
- Prior art keywords
- dimensional reconstruction
- target object
- dimensional
- depth image
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000012549 training Methods 0.000 title claims abstract description 86
- 241000282414 Homo sapiens Species 0.000 claims description 77
- 238000005070 sampling Methods 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 18
- 239000013598 vector Substances 0.000 description 27
- 230000006870 function Effects 0.000 description 24
- 238000005516 engineering process Methods 0.000 description 20
- 238000004422 calculation algorithm Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 238000009877 rendering Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013501 data transformation Methods 0.000 description 2
- 238000011550 data transformation method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/536—Depth or shape recovery from perspective effects, e.g. by using vanishing points
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种三维重建模型的训练方法、装置、设备及存储介质,涉及人工智能技术领域。该方法包括:获取目标对象的第一深度图像,第一深度图像是对目标对象进行拍摄时获得的真实深度图像,或者基于对目标对象进行拍摄得到的真实彩色图像得到的深度图像;通过三维重建模型根据第一深度图像,得到目标对象的三维重建信息;根据三维重建信息,生成目标对象的第二深度图像;基于第一深度图像和第二深度图像,对三维重建模型进行训练。该方法是通过对目标对象进行拍摄时获得的真实深度图像或者基于对目标对象进行拍摄得到的真实彩色图像得到的深度图像,来对三维重建模型进行训练,泛化性更强,具有高保真性。
Description
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种三维重建模型的训练方法、装置、设备及存储介质。
背景技术
随着科技的进步,根据图像重建三维几何构型愈发重要。
在相关技术中,一般是利用带真实标签的合成数据对三维重建模型进行训练,也即将模型的输出结果与合成数据的真实标签进行全监督的训练学习。
然后,采用带真实标签的合成数据来对模型进行训练,合成数据相对于真实数据来说,合成数据对于对象的细节表征并不充分,同时合成数据可以表征的对象也是相对有限的,因此保真性较差,泛化性不足。
发明内容
本申请实施例提供了一种三维重建模型的训练方法、装置、设备及存储介质。所述技术方案如下:
根据本申请实施例的一个方面,提供了一种三维重建模型的训练方法,所述方法包括:
获取目标对象的第一深度图像,所述第一深度图像是对所述目标对象进行拍摄时获得的真实深度图像,或者基于对所述目标对象进行拍摄得到的真实彩色图像得到的深度图像;
通过所述三维重建模型根据所述第一深度图像,得到所述目标对象的三维重建信息,所述三维重建信息用于确定所述目标对象在三维空间中的三维几何构型;
根据所述三维重建信息,生成所述目标对象的第二深度图像;
基于所述第一深度图像和所述第二深度图像,对所述三维重建模型进行训练。
根据本申请实施例的一个方面,提供了一种三维重建模型的训练装置,所述装置包括:
图像获取模块,用于获取目标对象的第一深度图像,所述第一深度图像是对所述目标对象进行拍摄时获得的真实深度图像,或者基于对所述目标对象进行拍摄得到的真实彩色图像得到的深度图像;
信息生成模块,用于通过所述三维重建模型根据所述第一深度图像,得到所述目标对象的三维重建信息,所述三维重建信息用于确定所述目标对象在三维空间中的三维几何构型;
图像生成模块,用于根据所述三维重建信息,生成所述目标对象的第二深度图像;
模型训练模块,用于基于所述第一深度图像和所述第二深度图像,对所述三维重建模型进行训练。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法。
本申请实施例提供的技术方案可以包括如下有益效果:
首先,通过获得对目标对象进行拍摄得到的真实深度图像,或者根据目标对象的真实彩色图像得到的深度图像,与经过三维重建模型而获得的深度图像,来训练模型的参数,也就实现了通过自监督的方式训练模型,使得对于模型的训练无需借助其他的数据,而仅利用目标对象的数据即可完成训练,因此降低了模型的训练成本。其次,通过使用目标对象的真实数据(真实深度图像或基于真实彩色图像得到的深度图像),对于三维重建模型进行训练,使得对于目标对象的纹理细节的勾画更加清晰,同时真实数据所涵盖的范围较广,使用真实数据来对模型进行训练,可以使得训练好的模型泛化性更强,同时因为真实数据对于目标对象的细节表征得更足,所以训练好的模型的保真性更好。
附图说明
图1是本申请一个实施例提供的方案实施环境的示意图;
图2是本申请一个实施例提供的三维重建模型的应用场景的示意图;
图3是本申请一个实施例提供的三维重建模型的训练方法的流程图;
图4是本申请一个实施例提供的训练结果的示意图;
图5是本申请另一个实施例提供的训练结果的示意图;
图6是本申请另一个实施例提供的三维重建模型的训练方法的流程图;
图7是本申请另一个实施例提供的三维重建模型的训练方法的流程图;
图8是本申请另一个实施例提供的三维重建模型的训练方法的流程图;
图9是本申请一个实施例提供的三维重建模型的训练装置的框图;
图10是本申请另一个实施例提供的三维重建模型的训练装置的框图;
图11是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(optical character recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(three Dimensions,三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
自然语言处理(Nature Language processing,简称NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,简称ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的计算机视觉等技术,具体通过如下实施例进行说明。
在介绍本申请实施例之前,为了便于理解本方案,对本方案中出现的名词作以下解释。
合成数据:本申请实施例中所述的合成数据可以认为不是基于真实存在的物体而获得的数据,是模拟真实世界的假数据。在可能的场景中,例如采集真实数据会比较危险的情况下,可以采用合成数据来训练模型,这样危险会相对降低很多。
真实数据:本申请实施例中所述的真实数据可以理解为基于真实存在的物体而获得的数据,例如给眼前的人拍张照片,则拍出来的这张照片可以认为是真实数据。
真实标签(Ground Truth Labeling):标注数据的标签,根据合成数据渲染出来的标签。
伪标签(Pseudo Labeling):指不是真正由人标记出来的标签,比如,可以是另一个训练好的模型预测的结果,但是作为训练时的监督信号使用。
正交投影变换:用一个长方体来取景,并把场景投影到这个长方体的前面。这个投影不会有透视收缩效果(远些的物体在图像平面上要小一些),因为它保证平行线在变换后仍然保持平行,也就使得物体之间的相对距离在变换后保持不变。简单的说,正交投影变换忽略物体远近时的大小缩放变化,将物体以原比例投影到截面(如显示屏幕)上,实现这样效果的照相机叫做正交投影照相机,也称正交照相机。
透视投影变换:跟正交投影一样,也是把一个空间体(指的是以投影中心为顶点的透视四棱锥)投影到一个二维图像平面上。然而,它却有透视收缩效果:远些的物体在图像平面上的投影比近处相同大小的物体的投影要小一些。跟正交投影不同的是,透视投影并不保持距离和角度的相对大小不变,所以平行线的投影并不一定是平行的了。换言之,透视投影变换能够实现一个物体在玩家近距离比较大,远距离比较小,那么实现这样的效果的照相机就叫做远景照相机。远景照相机常用来开发三维游戏,它的工作原理是根据照相机和物体之间的距离缩放投影的比例(也就是截面的大小)。透视投影跟人的眼睛或相机镜头产生三维世界的图像的原理还是很接近的。两种投影法的本质区别在于透视投影的投影中心到投影面之间的距离是有限的,而平行投影的投影中心到投影面之间的距离是无限的。
深度图像(Depth Image):也被称为距离影像(Range Image),是指从图像采集器到场景中各点的距离(深度)作为像素的值,其直接反映了景物可见表面的几何形状。深度图像经过坐标转换可计算为点云数据,有规则及必要信息的点云数据也可以反算为深度图像数据。深度图像中每一个像素点代表的是在深度感应器的视野中,该特定的对象在坐标处到离摄像头平面最近的部分对象到该平面的距离。
体素(Volume):是体积元素(Volume Pixel)的简称,包含体素的立体可以通过立体渲染或者提取给定阈值轮廓的多边形等值面表现出来。一如其名,是数字数据于三维空间分割上的最小单位,体素用于三维成像、科学数据与医学影像等领域。概念上类似二维空间的最小单位——像素,像素用在二维计算机图像的影像数据上。有些真正的三维显示器运用体素来描述它们的分辨率,举例来说:可以显示512×512×512体素的显示器。
特征体素(Feature Volume):与特征向量(Feature Vector)类似,三维空间中的每一个格子(即体素),都有自己对应的特征向量。在本申请实施例中,特征向量是通过深度神经网络获得的。
多层感知机(Multilayer Perceptron,简称MLP):是一种前向结构的人工神经网络,把一组输入向量映射到一组输出向量。
有向距离场:用于度量空间中集合Ω的有符号距离函数(或有向距离函数)确定给定点x与Ω边界的距离,其符号取决于x是否在Ω中。该函数在Ω内的点x处具有正值,随着x接近Ω的边界(符号距离函数为零)它的值减小,并且它在Ω之外取负值。
有向截断距离场(Truncated Signed Distance Function,简称TSDF):截断的有向距离场,与有向距离场相比,该函数存在最大和最小值,当函数值超过或者小于某一特定值,该函数值将被替换。
三维几何构型:也可称为三维人体几何、三维人体网格。不带有纹理的三维人体模型,仅包含人体表面的几何信息,由点和三角网格表示人体曲面的几何拓扑信息。
请参考图1,其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以包括:终端设备10和服务器20。
终端设备10包括但不限于手机、平板电脑、智能语音交互设备、游戏主机、可穿戴设备、多媒体播放设备、PC(Personal Computer,个人计算机)、车载终端、智能家电等电子设备。终端设备10中可以安装目标应用程序的客户端。
在本申请实施例中,上述目标应用程序可以是任何能够提供视频信息流内容服务的应用程序。典型地,该应用程序为视频类应用程序。当然,除了视频类应用程序之外,其它类型的应用程序中也可以提供信息流内容服务。例如,新闻类应用程序、社交类应用程序、互动娱乐类应用程序、浏览器应用程序、购物类应用程序、内容分享类应用程序、虚拟现实(Virtual Reality,VR)类应用程序、增强现实(Augmented Reality,AR)类应用程序等,本申请实施例对此不作限定。另外,对于不同的应用程序来说,其推送的视频也会有所不同,且相应的功能也会有所不同,这都可以根据实际需求预先进行配置,本申请实施例对此不作限定。可选地,终端设备10中运行有上述应用程序的客户端。在一些实施例中,上述信息流内容服务涵盖综艺、影视、新闻、财经、体育、娱乐、游戏等诸多垂直内容,并且用户可通过上述信息流内容服务享受到文章、图片、小视频、短视频、直播、专题、栏目等众多形式的内容服务。
服务器20用于为终端设备10中的目标应用程序的客户端提供后台服务。例如,服务器20可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。
终端设备10和服务器20之间可通过网络进行互相通信。该网络可以是有线网络,也可以是无线网络。
本申请实施例提供的方法,各步骤的执行主体可以是计算机设备。计算机设备可以是任何具备数据的存储和处理能力的电子设备。例如,计算机设备可以是图1中的服务器20,可以是图1中的终端设备10,也可以是除终端设备10和服务器20以外的另一设备。
请参考图2,其示出了本申请一个实施例提供的三维重建模型的应用场景的示意图。
如图2所示,使用摄像头或相机拍摄真实的人体图像,利用本方法训练出来的模型快速高效地重建出高保真且带有衣物的三维人体几何。重建出来的三维人体几何有以下潜在的应用场景:元宇宙数字人的一键生成、虚拟衣服重建、一键换装和影视与动漫制作等等。
在3D影视与动漫制作过程中,需要建模师从无到有的构建3D人体模型,其中制作3D人体模型周期较长,成本也相应较高。根据本申请实施例提供的技术方案,仅需要简单的拍摄一张人体图像,就可以快速的得到3D人体几何,后续建模师仅需要对人体几何稍作调整,就可以得到高质量的3D人体模型,大大缩短了制作周期。随着相关技术的发展,许多大型3D游戏里面画质已逐渐接近于真实世界,该方法能够重建出高保真的三维人体几何,增加了将现实生活中的用户投影到虚拟的游戏世界中的可行性。
本申请实施例中,通过真实数据,来生成三维人体网格,相比于合成数据来说,合成数据对于人体的细节方面表征不足,例如,在一些实施例中,是目标对象是穿着裙子的女人,倘若使用合成数据来模拟该女人的图像,则在裙摆的褶皱等多个细节方面是表征不足的,因为模拟人体和真实人体在细节上依然存在着出入,因此本申请实施例中,采用相机拍摄的真实数据,来获取三维人体网格,考虑到真实数据可以囊括无法被用合成数据来表征的物体,同时真实数据可以更精准的表征目标对象,所说经过真实数据训练的网络模型(指本申请实施例中三维重建模型),其泛化性、准确性都相对更好,经过网络模型得到的三维人体网格,其在细节方面相比于用合成数据训练的其他网络模型定然是更胜一筹的。
请参考图3,其示出了本申请一个实施例提供的三维重建模型的训练方法的流程图。该方法各步骤的执行主体可以是图1所示方案实施环境中的终端设备10,如各步骤的执行主体可以是目标应用程序的客户端,也可以是图1所示方案实施环境中的服务器20。在下文方法实施例中,为了便于描述,仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤(320~380)中的至少一个步骤:
步骤320,获取目标对象的第一深度图像,第一深度图像是对目标对象进行拍摄时获得的真实深度图像,或者基于对目标对象进行拍摄得到的真实彩色图像得到的深度图像。
目标对象是真实世界中的任何物体,包括但不限于人体、人脸、动物、景物等等。
在一些实施例中,第一深度图像是对目标对象进行拍摄时获得的真实深度图像。也即,使用一个深度采集设备,直接对目标对象进行拍摄,即可得到目标对象的深度图像,也就是目标对象的各个部分到设置的距离图像。深度采集设备是可以获取目标对象的深度的设备,可选地,深度采集设备是深度采集器,可以直接采集目标对象的深度信息,可选地,深度采集设备是一个摄像机加一个深度传感器,也即通过摄像机在拍摄时同时根据深度传感器采集的深度信息,而直接生成深度图像。
在一些实施例中,基于对目标对象进行拍摄得到的真实彩色图像得到的深度图像。也即,先使用摄像设备获取目标对象的真实彩色图像,再根据真实彩色图像得到深度图像。
在一些实施例中,步骤320包括如下几个步骤(322~324)中的至少一个步骤:
步骤322,获取目标对象的真实彩色图像。
可选地,真实彩色图像是RGB图像,图像中包含每个像素点的位置信息以及颜色信息。
步骤324,通过深度图预测模型根据真实彩色图像,生成目标对象的第一深度图像。
深度图预测模型是用来根据彩色图像预测深度图像的模型,可选地,深度图预测模型是神经网络模型。在一些实施例中,深度图预测模型是pixel2pixel算法模型。基于深度图预测模型获得深度图像,使得该深度图像的参考价值较大,可以用于本申请的自监督的训练方式。
步骤340,通过三维重建模型根据第一深度图像,得到目标对象的三维重建信息,三维重建信息用于确定目标对象在三维空间中的三维几何构型。
通过本申请实施例中的三维重建模型获得第一深度图像对应的目标对象的三维重建信息,这边的三维重建信息是指在三维空间中的信息,该信息用于确定目标对象在三维空间中的三维几何构型。
可选地,三维重建信息包括三维空间中的点的坐标信息以及点到对象表面的距离信息,根据该距离信息,可以进一步确定目标对象在三维空间中的三维几何构型。
在一些实施例中,目标对象具有多张第一深度图像,多张第一深度图像与多个拍摄角度一一对应。可选地,从目标对象的正面、侧面、侧面等多个拍摄角度对目标对象进行拍摄,得到多个深度图像。在一些实施例中,将目标对象的正面的深度图像作为三维重建模型的输入,可选地,目标对象是人体,将人体正面的图像作为输入,得到人体的三维重建信息。本申请对于输入的深度图像的数量不作限定,对于输入的深度图像对应的目标对象的拍摄角度不作限定,对于每次模型训练迭代的次数不作限定。
在一些实施例中,将多张第一深度图像输入同一个三维重建模型,通过三维重建模型根据第一深度图像,输出目标对象的三维重建信息。可选地,将不同拍摄角度下的深度图像作为输入,可选地,目标对象是人体,将人体的正面、侧面、背面分别对应的深度图像作为三维重建模型的输入,可选地,一次输入多张不同角度的深度图像,通过三维重建模型根据多张深度图像,输出目标对象的三维重建信息。可选地,将多张不同角度的深度图像依次输入到三维重建模型,输出目标对象的三维重建信息。
在一些实施例中,将多张第一深度图像分别输入至多个三维重建模型,每个三维重建模型用于处理一个拍摄角度对应的第一深度图像,通过多个三维重建模型输出多张第一深度图像分别对应的三维重建信息,根据多张第一深度图像分别对应的三维重建信息,融合得到目标对象的三维重建信息。可选地,不同角度的深度图像对应输入到不同的三维重建模型中,根据输出的三个三维重建信息,自动或者手动调整为最终的融合的三维重建模型。
在一些实施例中,通过等值面提取算法,根据三维重建信息,提取出目标对象的表面,进而确定出三维几何构型。
本申请实施例提供的技术方案,通过获取目标对象在不同角度下的深度图像,通过三维重建模型,获得融合后的三维重建信息,也即,可以采集不同角度的目标对象的信息,来生成融合后的三维重建信息,在一定程度上,这使得三维重建信息更加贴近目标对象本身,也即模型的输出更加贴近原型,模型的精度更高。
步骤360,根据三维重建信息,生成目标对象的第二深度图像。
在一些实施例中,根据三维重建信息,获取目标对象在二维坐标系中的深度信息;基于目标对象在二维坐标系中的深度信息,生成目标对象的第二深度图像。
在一些实施例中,根据三维空间的三维重建信息,反向生成目标对象的深度图像,在一些实施例中,通过图像渲染模型根据三维重建信息,生成目标对象的第二深度图像。在一些实施例中,图像渲染模型是渲染器,渲染器可以用于根据三维空间的三维重建信息,反向生成目标对象的深度图像。也即,基于三维重建信息,获取目标对象在二维坐标系中的深度信息,其中深度信息包括像素点的位置坐标数据以及该点对应的深度数据。基于该深度信息,通过渲染器来生成三维重建信息对应的目标对象的深度图像,其结果更加准确、成本也相对较低。本申请实施例提供的技术方案,基于三维重建信息生成深度图像,能够提高生成的深度图像的准确性。
在一些实施例中,使用可微分渲染(Differentiable Rendering,简称DR)算法来根据三维重建信息,生成目标对象的深度图像。本申请中对于具体的算法不多作赘述。
步骤380,基于第一深度图像和第二深度图像,对三维重建模型进行训练。
在获得了目标对象的第一深度图像和第二深度图像之后,对三维重建模型进行训练。在一些实施例中,目标对象的第一深度图像可以看作是一个伪标签,判断三维重建模型的输出和伪标签的差异,来训练三维重建模型。
在一些实施例中,步骤380包括如下几个步骤(382~384)中的至少一个步骤:
步骤382,基于第一深度图像和第二深度图像之间的差异,确定三维重建模型的训练损失。
在一些实施例中,基于第一深度图像和第二深度图像的差异,确定训练损失。在一些实施例中,利用正则化来约束第一深度图像以及第二深度图像。使用正则化来约束第一深度图像以及第二深度图像,可以有效提高泛化能力,同时防止过拟合。在一些实施例中,基于第一深度图像和第二深度图像的均方误差或差的绝对值,来确定模型的训练损失。
在一些实施例中,使用L1范数的正则化方法或者L2范数的正则化方法。L1正则化和L2正则化可以看作是损失函数的惩罚项。所谓惩罚是指对损失函数中的某些参数做一些限制。具体的L1范数的正则化方法或者L2范数的正则化方法,本申请在此不作赘述。基于本申请实施例提供的技术方案,L2范数的正则化方法对模型训练的结果略胜于L1范数的正则化方法对模型训练的结果。
本申请对于确定训练损失的函数不作限定,对于根据损失调整模型参数的方法不作限定。
在一些实施例中,基于损失函数,确定模型的训练损失。
步骤384,根据训练损失对三维重建模型的参数进行调整。
在一些实施例中,基于模型的训练损失,采用梯度下降的方式,反向调整模型的参数,在一些实施例中,采用反向传播算法来对三维重建模型的参数进行调整。
在一些实施例中,完成训练的所述三维重建模型用于以下至少之一:根据人体的真实彩色图像,在三维虚拟场景中生成人体的三维几何构型;根据数字人的真实彩色图像,在三维虚拟场景中生成数字人的三维几何构型;根据衣服的真实彩色图像,在三维虚拟场景中生成衣服的三维几何构型;根据人脸的真实彩色图像,在三维虚拟场景中生成人脸的三维几何构型。
在一些实施例中,例如是人体仿真游戏中,需要将真实的人体投影在虚拟环境中,因此可以先对真实世界中的人体进行拍照,在对真实世界的人体拍照并且获取人体的深度图像之后,可以根据深度图像通过三维重建模型,生成人体的三维几何构型,也即在虚拟环境中生成和真实人体对应的人体的三维几何构型,使得用户的游戏体验感也能更好。
在一些实施例中,例如是元宇宙数字人场景,需要生成多个数字人,同样的可以根据数字人的真实图像,来对应的在虚拟场景中通过三维重建模型生成数字人的几何构型。
在一些实施例中,例如是更换服装等场景下,可以根据衣服的真实彩色图像,通过三维重建模型,生成衣服的三维几何构型,不同的衣服对应不同的三维几何构型,因此可以实现衣服的更换。
在一些实施例中,例如人工智能换脸技术中,也可以用真实人脸通过三维重建模型,获取人脸的三维几何构型,再应用到需要换脸的地方。
本申请实施例训练的三维重建模型,可以适用较多场景,将真实的目标对象,通过三维重建模型,可以生成目标对象对应的三维几何构型,可以广泛应用于游戏、动漫制作等多种场景,不仅可以提高生成的几何构型的精细程度,还可以提高用户的体验感。
图4是本申请一个实施例提供的训练结果的示意图,图中400示出了本方法得到的结果以及已有方法得到的结果的比对,第一列为真实世界拍摄的人体图像,第二和三列表示本方法重建出来的三维人体几何,其中第二列为正面视角,第三列为侧面视角;第四和五列表示现有方法重建出来的三维人体几何,其中第四列为正面视角,第五列为侧面视角。从结果可以看出,本方法重建出来的人体三维几何拥有更好的完整性和泛化性,更加接近于真实的世界。
图5是本申请另一个实施例提供的训练结果的示意图,图中500示出了本方法得到的结果,使用本方法的结果。第一列为真实世界拍摄的人体图像,第二、三和四列表示重建出来的三维人体几何,其中第二列为正面视角,后两列为不同的侧面视角。从结果可以看出,本方法在不同视角下,重建的效果也足够理想。
本申请实施例提供的技术方案,首先通过获得对目标对象进行拍摄得到的真实深度图像,或者根据目标对象的真实彩色图像得到的深度图像,与经过三维重建模型而获得深度图像,来训练模型的参数,也就实现了通过自监督的方式训练模型,使得对于模型的训练无需借助其他的数据,而仅利用目标对象的数据即可完成训练,因此降低了模型的训练成本。
其次通过使用目标对象的真实数据,对于三维重建模型进行训练,使得对于目标对象的纹理细节的勾画更加清晰,同时真实数据所涵盖的范围较广,使用真实数据来对模型进行训练,可以使得训练好的模型泛化性更强,同时因为真实数据对于目标对象的细节表征得更足,所以训练好的模型具有高保真性。
请参考图6,其示出了本申请另一个实施例提供的三维重建模型的训练方法的流程图。该方法各步骤的执行主体可以是图1所示方案实施环境中的终端设备10,如各步骤的执行主体可以是目标应用程序的客户端,也可以是图1所示方案实施环境中的服务器20。在下文方法实施例中,为了便于描述,仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤(320~380)中的至少一个步骤:
步骤320,获取目标对象的第一深度图像,第一深度图像是对目标对象进行拍摄时获得的真实深度图像,或者基于对目标对象进行拍摄得到的真实彩色图像得到的深度图像。
在一些实施例中,步骤320之前,还包括采用预训练样本对三维重建模型进行预训练,得到预训练后的三维重建模型,预训练样本包括样本图像以及样本图像对应的目标三维重建信息;其中,预训练后的三维重建模型用于根据第一深度图像,得到目标对象的三维重建信息,且基于第一深度图像和第二深度图像,对预训练后的三维重建模型进行训练。
在一些实施例中,样本图像是深度图像或者基于彩色图像生成的深度图像,其中样本图像是合成数据。
在一些实施例中,输入三维重建模型的深度图像是目标对象的正面的深度图像,因此有可能确实背面的部分数据,基于此,考虑预训练三维重建模型,使得三维重建模型在生成深度图像对应的三维重建信息时,可以补足由单张深度图像而带来的数据缺失。在一些实施例中,样本图像是合成数据,目标三维重建信息是合成数据的真实标签,根据合成数据通过三维重建模型而得到的三维重建信息,在根据合成数据的真实标签,确定三维重建模型的训练损失,从而调整三维重建模型的参数。
在一些实施例中,一次输入多张拍摄角度的深度图像,也可避免了背面信息的缺失,基于此种情况,可以不必对三维重建模型进行预训练。在一些实施例中,仅输入一个拍摄角度的深度图像,则需要对模型进行预训练,使得预训练后的模型可以预测基于单张图片而缺失的部分数据。
步骤342,通过三维重建模型根据第一深度图像,得到目标对象的特征体素,特征体素包括目标对象对应的体素的特征信息。
在一些实施例中,特征体素是一个三维数组,其中包括目标对象对应的体素的特征信息。在一些实施例中,特征体素的数组的尺寸由深度图像的尺寸信息确定,例如,深度图像的尺寸是128*128,则相应的特征体素的三维数组可以是128*128*a的数组,其中a是正数,表示体素在除去长宽之外的另一维度的数据,可选地,另一维度是体素的高的数据,可选地,另一维度对应于深度信息。在一些实施例中,特征体素的尺寸大小可以认为调整,并不是唯一固定的。特征体素包括目标对象对应的体素的特征信息,其中,特征信息可以是特征向量。特征体素是用于表征体素的数组,而体素是基于深度图像勾划而成的三维几何体,特征体素可以用于表征体素之间的距离关系,也即表征该体素。
本申请实施例提供的技术方案,通过基于深度图像得到目标对象对应的特征体素,该特征体素可以较好的表征目标对象的体素,也即进一步表征该目标对象,便于根据特征体素确定空间中的点的特征向量,进而模拟出三维几何构型。
步骤344,通过三维重建模型根据特征体素,得到目标对象的三维重建信息。
在一些实施例中,三维重建信息包括有向距离场,有向距离场用于确定目标对象在所述三维空间中的表面。在一些实施例中,空间中的点到表面的距离以及在表面内还是表面外的数据构成了有向距离场,因此,利用该有向距离场,可以确定目标对象在三维空间中的表面。在一些实施例中,处于成本以及必要性考虑,将有向距离场中函数的最大值和最小值进行限定,也即确定有向截断距离场,也即当空间中的点到表面的距离大于阈值或小于阈值时,该点在有向距离场中的值固定。在一些实施例中,将有向截断距离场的值设置为-0.8到0.8。本申请对于有向截断距离场的值不作限定。
在一些实施例中,步骤344还可以包括如下几个步骤(344-2~344-6)中的至少一个步骤:
步骤344-2,对所述三维空间中的点进行采样,得到多个采样点。
在一些实施例中,采样点是随机的,是空间中的任何一点。
在一些实施例中,根据特征体素的大小,对三维空间中的x轴和y轴进行归一化处理,也即将空间归一化到特征体素的长宽范围之内,在此空间内的点进行采样。
步骤344-4,通过插值的方式,从所述特征体素中确定多个采样点分别对应的特征信息。
在一些实施例中,根据特征体素,确定采样点在空间中的特征信息,在一些实施例中,特征信息是特征向量。
在一些实施例中,在不同方向上对体素的特征信息进行线性插值,确定多个采样点分别对应的特征信息。在一些实施例中,对于x轴以及y轴的特征体素,进行双线性采样,得到采样点的特征向量。可选地,特征体素是128*128*256的三维数据,也即特征体素可以认为是128*128个256维的特征向量。其中128*128可以对应到采样点在空间中的x轴及y轴的位置。在x轴确定采样点最接近的两个特征体素(两个256维的特征向量),同时在y轴确定采样点最接近的两个特征体素(两个256维的特征向量),根据插值的方式,确定出采样点的特征向量(256维的)。可选地,根据采样点在z轴方向的位置信息,将采样点的特征向量增加为257维。也即,在空间中x轴与y轴进行所围成的空间进行采样,得到的采样点的特征向量是包括z轴信息的257的特征信息。本申请对于特征向量的维度不作限定,具体的可以手动设置,也可以由模型根据实际情况自动调节,本申请对此不作限定。
本申请实施例所说的插值的方式可以是空间双线性插值方法,本申请对于插值的具体方式不作限定,凡是根据特征体素而确定出采样点在空间中的特征信息的方式均纳入本申请的保护范围之内。
在一些实施例中,体征体素的第三维的长度设定为256,可选地,采样点的特征向量的维度是257维,除去采样点本身的x与y的坐标之外,在基于双线性插值方法,得到的256维的特征向量的基础上加上z轴的坐标,也即采样点的特征向量是257维。
步骤344-6,通过三维重建模型根据多个采样点分别对应的特征信息,得到目标对象在三维空间中的有向距离场。
在一些实施例中,得到多个采样点的特征向量,进而可以得到空间中的有向距离场,该有向距离场可以表征到空间中的点到目标对象的表面的距离。
在一些实施例中,三维重建模型包括:特征体素提取子模型和三维重建子模型;特征体素提取子模型用于根据第一深度图像,得到目标对象在三维空间中的特征体素;三维重建子模型用于根据特征体素,得到目标对象的三维重建信息。
在一些实施例中,特征体素提取子模型是卷积神经网络中的编码(encode)模型,可以用于提取深度图像对应的特征体素。在一些实施例中,三维重建子模型是多层感知机,可选地,多层感知机中包括全连接层,可以将基于特征体素得到的空间中的采样点的特征向量对应到空间中的有向距离场,也即三维重建信息。
本申请实施例提供的技术方案,通过特征体素提取子模型来提取特征体素,通过三维重建子模型来获取三维重建信息,也即通过这两个模型,可以实现从二维的深度图像到三维的有向距离场的转换,有利于提高模型的训练精度。
在本申请实施例中,隐式场函数可以认为是包括体征体素提取子模型以及三维重建子模型,在一些实施例中,隐式场函数可以认为是包括体征体素提取子模型以及多层感知机。
步骤360,根据三维重建信息,生成目标对象的第二深度图像。
步骤380,基于第一深度图像和第二深度图像,对三维重建模型进行训练。
图7示出了本申请一个实施例提供的三维重建模型的训练方法的流程图。图中700示出了输入单张人体图像,预测出对应的人体深度图像,图像中像素点越黑表示该像素点离拍摄相机越近,像素点越白表示该像素点离拍摄相机越远;使用隐式场函数,得到整个空间的有向截断距离场(包含有三维人体几何);通过基于正交投影的可微分渲染,渲染出三维人体几何对应的深度图像;对预测出来的人体深度图像与渲染出来的深度图像进行自监督正则化约束,优化隐式场函数,更新模型参数。
除此之外,本申请实施例提供的技术方案中,是基于正交投影下的数据转化,相比于透视投影下的数据转换,本申请实施例提供的技术方案对于模型的训练效果更好,但是同样的,本申请对于数据转换的方式不作限定,本申请实施例提供的技术方案可以使用的数据转换方法包括但不限于正交投影方法、透视投影方法。
本申请实施例提供的技术方案,通过对空间中的点进行采样,基于特征体素得到采样点对应的特征向量,也即通过特征体素将二维的平面图像,转换为三维的点的数据信息,通过三维的点的数据信息可以勾划目标对象的三维几何构型。
此外,还将三维重建模型分为特征体素提取子模型和三维重建子模型,对于模型进行分层设计,可以有效的在模型遇到差错时,及时准确的找到对应的出错位置。同时,对于模型的训练也是同时训练特征体素提取子模型和三维重建子模型,两个子模型的同时训练,可以使得最终的训练精度进一步得到提高。
请参考图8,其示出了本申请一个实施例提供的三维重建模型的训练方法的流程图。所述方法包括如下几个步骤(S1~S5)(图中未示出)中的至少一个步骤:
步骤S1,先由人体图像输入到深度学习算法模型中,得到人体深度图像和特征体素,过程为:
M(I)→D,M1(D)→FV;
其中,M()表示通用的pixel2pixel算法模型,即输入一张图像生成另外一张图像的深度学习算法模型。M1()表示特征体素提取模型,输入深度图像得到特征体素,I表示输入的人体图像,D表示由M()估计人体深度图像,FV表示由M1()预测的特征体素。一般图像由RGB三通道构成,可以表示为三维数组,其中第一维和第二维分别表示图像的长和宽,第三维表示RGB。
步骤S2,使用空间抽样插值方法从步骤1中得到的特征体素中得到整个空间的特征向量,每一个空间采样点都会有对应的特征向量,并用多层感知机预测空间中每一个采样点对应的有向截断距离场,得到整个空间的有向截断距离场,过程为:
Interpolation(FV,Pi)→Fi,M2(Fs)→F;
其中,Pi表示空间中的待采样点,Fi表示空间中每一个待采样点对应的特征向量,FS整个空间的特征向量,M2()表示多层感知机,F表示整个空间的有向截断距离场,Interpolation表示空间双线性插值方法。
步骤S3,根据步骤S2中获得的有向截断距离场,使用基于正交投影的可微分渲染算法得到出人体深度图像DR:
DR(F)→DR;
这里,DR()表征正交投影下的可微分渲染深度图像算法,DR表示渲染得到的人体深度图像,F表示整个空间的有向截断距离场。
步骤S4,利用正则化约束步骤1中预测的人体深度图像D和步骤3中渲染的人体深度图像DR,进而优化步骤1中的特征体素提取子模型M1和步骤2中的多层感知机M2的待优化参数PM1和PM2:
PM1(L1(D,DR)),PM2(L1(D,DR));
其中,L1表示L1范数的正则化约束,也可以使用L2范数或者其他范数进行约束,PM1和PM2分别表示特征体素提取子模型M1和多层感知机M2中的待优化参数。通过这一步,本法方能够利用真实图像训练网络模型。
步骤S5,使用优化后的特征体素提取子模型和多层感知机,获取有向截断距离场,并用Marching Cube算法(等值面提取算法)得到出人体三维几何:
MC(F)→S;
其中,S表示根据输入的人体图像重建出人体三维几何,MC表示Marching Cube(等值面提取)算法。整个空间的有向截断距离场中包含有三维人体几何,需要MC算法,将三维人体几何单独提取出来。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图9,其示出了本申请一个实施例提供的三维重建模型的训练装置的框图。该装置具有实现上述方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是上文介绍的计算机设备,也可以设置在计算机设备中。如图9所示,该装置900可以包括:图像获取模块910、信息生成模块920、图像生成模块930和模型训练模块940。
所述图像获取模块910,用于获取目标对象的第一深度图像,所述第一深度图像是对所述目标对象进行拍摄时获得的真实深度图像,或者基于对所述目标对象进行拍摄得到的真实彩色图像得到的深度图像。
所述信息生成模块920,用于通过所述三维重建模型根据所述第一深度图像,得到所述目标对象的三维重建信息,所述三维重建信息用于确定所述目标对象在三维空间中的三维几何构型。
所述图像生成模块930,用于根据所述三维重建信息,生成所述目标对象的第二深度图像。
所述模型训练模块940,用于基于所述第一深度图像和所述第二深度图像,对所述三维重建模型进行训练。
在一些实施例中,如图10所示,所述信息生成模块920还包括特征体素获取单元922和信息生成单元924。
所述特征体素获取单元922,用于通过所述三维重建模型根据所述第一深度图像,得到所述目标对象的特征体素,所述特征体素包括所述目标对象对应的体素的特征信息。
所述信息生成单元924,用于通过所述三维重建模型根据所述特征体素,得到所述目标对象的三维重建信息。
在一些实施例中,所述三维重建信息包括有向距离场,所述有向距离场用于确定所述目标对象在所述三维空间中的表面。
在一些实施例中,所述信息生成单元924,用于对所述三维空间中的点进行采样,得到多个采样点。
所述信息生成单元924,用于通过插值的方式,从所述特征体素中确定所述多个采样点分别对应的特征信息。
所述信息生成单元924,用于通过所述三维重建模型根据所述多个采样点分别对应的特征信息,得到所述目标对象在所述三维空间中的所述有向距离场。
在一些实施例中,所述三维重建模型包括:特征体素提取子模型和三维重建子模型。
所述特征体素提取子模型用于根据所述第一深度图像,得到所述目标对象在所述三维空间中的特征体素。
所述三维重建子模型用于根据所述特征体素,得到所述目标对象的三维重建信息。
在一些实施例中,所述图像生成模块930,用于获取所述目标对象的真实彩色图像。
所述图像生成模块930,用于通过深度图预测模型根据所述真实彩色图像,生成所述目标对象的第一深度图像。
在一些实施例中,如图10所示,所述装置还包括预训练模块950。
所述预训练模块950,用于采用预训练样本对所述三维重建模型进行预训练,得到预训练后的三维重建模型,所述预训练样本包括样本图像以及所述样本图像对应的目标三维重建信息;其中,所述预训练后的三维重建模型用于根据所述第一深度图像,得到所述目标对象的三维重建信息,且基于所述第一深度图像和所述第二深度图像,对所述预训练后的三维重建模型进行训练。
在一些实施例中,所述目标对象具有多张第一深度图像,所述多张第一深度图像与多个拍摄角度一一对应。
所述信息生成模块920,用于将所述多张第一深度图像输入同一个三维重建模型,通过所述三维重建模型根据所述多张第一深度图像,输出所述目标对象的三维重建信息;或者,将所述多张第一深度图像分别输入至多个三维重建模型,每个三维重建模型用于处理一个拍摄角度对应的第一深度图像,通过所述多个三维重建模型输出所述多张第一深度图像分别对应的三维重建信息,根据所述多张第一深度图像分别对应的三维重建信息,融合得到所述目标对象的三维重建信息。
在一些实施例中,所述图像生成模块930,用于根据所述三维重建信息,获取所述目标对象在二维坐标系中的深度信息。
所述图像生成模块930,还用于基于所述目标对象在二维坐标系中的深度信息,生成所述目标对象的第二深度图像。
在一些实施例中,所述模型训练模块940,用于基于所述第一深度图像和所述第二深度图像之间的差异,确定所述三维重建模型的训练损失。
所述模型训练模块940,用于根据所述训练损失对所述三维重建模型的参数进行调整。
在一些实施例中,完成训练的所述三维重建模型用于以下至少之一:根据人体的真实彩色图像,在三维虚拟场景中生成所述人体的三维几何构型;根据数字人的真实彩色图像,在三维虚拟场景中生成所述数字人的三维几何构型;根据衣服的真实彩色图像,在三维虚拟场景中生成所述衣服的三维几何构型;根据人脸的真实彩色图像,在三维虚拟场景中生成所述人脸的三维几何构型。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图11,其示出了本申请一个实施例提供的计算机设备2100的结构框图。
通常,计算机设备2100包括有:处理器2101和存储器2102。
处理器2101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器2101可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(FieldProgrammable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器2101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器2101可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器2101还可以包括AI处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器2102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器2102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器2102中的非暂态的计算机可读存储介质用于存储计算机程序,所述计算机程序经配置以由一个或者一个以上处理器执行,以实现上述三维重建模型的训练方法。
本领域技术人员可以理解,图11中示出的结构并不构成对计算机设备2100的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序在被处理器执行时以实现上三维重建模型的训练方法。
可选地,该计算机可读存储介质可以包括:ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取存储器可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取存储器)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行上述三维重建模型的训练方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (14)
1.一种三维重建模型的训练方法,其特征在于,所述方法包括:
获取目标对象的第一深度图像,所述第一深度图像是对所述目标对象进行拍摄时获得的真实深度图像,或者基于对所述目标对象进行拍摄得到的真实彩色图像得到的深度图像;
通过所述三维重建模型根据所述第一深度图像,得到所述目标对象的三维重建信息,所述三维重建信息用于确定所述目标对象在三维空间中的三维几何构型;
根据所述三维重建信息,生成所述目标对象的第二深度图像;
基于所述第一深度图像和所述第二深度图像,对所述三维重建模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述通过所述三维重建模型根据所述第一深度图像,得到所述目标对象的三维重建信息,包括:
通过所述三维重建模型根据所述第一深度图像,得到所述目标对象的特征体素,所述特征体素包括所述目标对象对应的体素的特征信息;
通过所述三维重建模型根据所述特征体素,得到所述目标对象的三维重建信息。
3.根据权利要求2所述的方法,其特征在于,所述三维重建信息包括有向距离场,所述有向距离场用于确定所述目标对象在所述三维空间中的表面;
所述通过所述三维重建模型根据所述特征体素,得到所述目标对象的三维重建信息,包括:
对所述三维空间中的点进行采样,得到多个采样点;
通过插值的方式,从所述特征体素中确定所述多个采样点分别对应的特征信息;
通过所述三维重建模型根据所述多个采样点分别对应的特征信息,得到所述目标对象在所述三维空间中的所述有向距离场。
4.根据权利要求2所述的方法,其特征在于,所述三维重建模型包括:特征体素提取子模型和三维重建子模型;
所述特征体素提取子模型用于根据所述第一深度图像,得到所述目标对象在所述三维空间中的特征体素;
所述三维重建子模型用于根据所述特征体素,得到所述目标对象的三维重建信息。
5.根据权利要求1所述的方法,其特征在于,所述获取目标对象的第一深度图像,包括:
获取所述目标对象的真实彩色图像;
通过深度图预测模型根据所述真实彩色图像,生成所述目标对象的第一深度图像。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
采用预训练样本对所述三维重建模型进行预训练,得到预训练后的三维重建模型,所述预训练样本包括样本图像以及所述样本图像对应的目标三维重建信息;
其中,所述预训练后的三维重建模型用于根据所述第一深度图像,得到所述目标对象的三维重建信息,且基于所述第一深度图像和所述第二深度图像,对所述预训练后的三维重建模型进行训练。
7.根据权利要求1所述的方法,其特征在于,所述目标对象具有多张第一深度图像,所述多张第一深度图像与多个拍摄角度一一对应;
所述通过所述三维重建模型根据所述第一深度图像,得到所述目标对象的三维重建信息,包括:
将所述多张第一深度图像输入同一个三维重建模型,通过所述三维重建模型根据所述多张第一深度图像,输出所述目标对象的三维重建信息;
或者,
将所述多张第一深度图像分别输入至多个三维重建模型,每个三维重建模型用于处理一个拍摄角度对应的第一深度图像,通过所述多个三维重建模型输出所述多张第一深度图像分别对应的三维重建信息,根据所述多张第一深度图像分别对应的三维重建信息,融合得到所述目标对象的三维重建信息。
8.根据权利要求1所述的方法,其特征在于,所述根据所述三维重建信息,生成所述目标对象的第二深度图像,包括:
根据所述三维重建信息,获取所述目标对象在二维坐标系中的深度信息;
基于所述目标对象在二维坐标系中的深度信息,生成所述目标对象的第二深度图像。
9.根据权利要求1所述的方法,其特征在于,所述基于所述第一深度图像和所述第二深度图像,对所述三维重建模型进行训练,包括:
基于所述第一深度图像和所述第二深度图像之间的差异,确定所述三维重建模型的训练损失;
根据所述训练损失对所述三维重建模型的参数进行调整。
10.根据权利要求1至9任一项所述的方法,其特征在于,完成训练的所述三维重建模型用于以下至少之一:
根据人体的真实彩色图像,在三维虚拟场景中生成所述人体的三维几何构型;
根据数字人的真实彩色图像,在三维虚拟场景中生成所述数字人的三维几何构型;
根据衣服的真实彩色图像,在三维虚拟场景中生成所述衣服的三维几何构型;
根据人脸的真实彩色图像,在三维虚拟场景中生成所述人脸的三维几何构型。
11.一种三维重建模型的训练装置,其特征在于,所述装置包括:
图像获取模块,用于获取目标对象的第一深度图像,所述第一深度图像是对所述目标对象进行拍摄时获得的真实深度图像,或者基于对所述目标对象进行拍摄得到的真实彩色图像得到的深度图像;
信息生成模块,用于通过所述三维重建模型根据所述第一深度图像,得到所述目标对象的三维重建信息,所述三维重建信息用于确定所述目标对象在三维空间中的三维几何构型;
图像生成模块,用于根据所述三维重建信息,生成所述目标对象的第二深度图像;
模型训练模块,用于基于所述第一深度图像和所述第二深度图像,对所述三维重建模型进行训练。
12.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至10任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上述权利要求1至10任一项所述的方法。
14.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机指令,以实现如权利要求1至10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210855243.8A CN115222917A (zh) | 2022-07-19 | 2022-07-19 | 三维重建模型的训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210855243.8A CN115222917A (zh) | 2022-07-19 | 2022-07-19 | 三维重建模型的训练方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115222917A true CN115222917A (zh) | 2022-10-21 |
Family
ID=83613510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210855243.8A Pending CN115222917A (zh) | 2022-07-19 | 2022-07-19 | 三维重建模型的训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115222917A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115601506A (zh) * | 2022-11-07 | 2023-01-13 | 上海人工智能创新中心(Cn) | 一种三维场景的重建方法、电子设备及介质 |
CN115861572A (zh) * | 2023-02-24 | 2023-03-28 | 腾讯科技(深圳)有限公司 | 一种三维建模方法、装置、设备及存储介质 |
CN117456076A (zh) * | 2023-10-30 | 2024-01-26 | 神力视界(深圳)文化科技有限公司 | 一种材质贴图生成方法及相关设备 |
-
2022
- 2022-07-19 CN CN202210855243.8A patent/CN115222917A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115601506A (zh) * | 2022-11-07 | 2023-01-13 | 上海人工智能创新中心(Cn) | 一种三维场景的重建方法、电子设备及介质 |
CN115601506B (zh) * | 2022-11-07 | 2024-05-28 | 上海人工智能创新中心 | 一种三维场景的重建方法、电子设备及介质 |
CN115861572A (zh) * | 2023-02-24 | 2023-03-28 | 腾讯科技(深圳)有限公司 | 一种三维建模方法、装置、设备及存储介质 |
CN117456076A (zh) * | 2023-10-30 | 2024-01-26 | 神力视界(深圳)文化科技有限公司 | 一种材质贴图生成方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Monocular real-time volumetric performance capture | |
Georgoulis et al. | Reflectance and natural illumination from single-material specular objects using deep learning | |
CN111243093B (zh) | 三维人脸网格的生成方法、装置、设备及存储介质 | |
Zhang et al. | Image engineering | |
CN108921926A (zh) | 一种基于单张图像的端到端三维人脸重建方法 | |
CN115222917A (zh) | 三维重建模型的训练方法、装置、设备及存储介质 | |
JP2024522287A (ja) | 三次元人体再構成方法、装置、デバイスおよび記憶媒体 | |
CN112085835B (zh) | 三维卡通人脸生成方法、装置、电子设备及存储介质 | |
CN115330947A (zh) | 三维人脸重建方法及其装置、设备、介质、产品 | |
CN115115805A (zh) | 三维重建模型的训练方法、装置、设备及存储介质 | |
Liu et al. | A general differentiable mesh renderer for image-based 3D reasoning | |
CN110942512B (zh) | 基于元学习的室内场景重建方法 | |
CN114450719A (zh) | 人体模型重建方法、重建系统及存储介质 | |
CN114581571B (zh) | 基于imu和前向变形场的单目人体重建方法及装置 | |
CN116977522A (zh) | 三维模型的渲染方法、装置、计算机设备和存储介质 | |
CN116385667B (zh) | 三维模型的重建方法、纹理重构模型的训练方法以及装置 | |
CN111862278A (zh) | 一种动画获得方法、装置、电子设备及存储介质 | |
CN117218300A (zh) | 三维模型的构建方法、三维构建模型的训练方法及装置 | |
CN115272608A (zh) | 一种人手重建方法及设备 | |
CN113673567B (zh) | 基于多角度子区域自适应的全景图情感识别方法及系统 | |
CN114494395A (zh) | 基于平面先验的深度图生成方法、装置、设备及存储介质 | |
Lin et al. | Visual saliency and quality evaluation for 3D point clouds and meshes: An overview | |
WO2021151380A1 (en) | Method for rendering virtual object based on illumination estimation, method for training neural network, and related products | |
CN117635801A (zh) | 基于实时渲染可泛化神经辐射场的新视图合成方法及系统 | |
CN117115398A (zh) | 一种虚实融合的数字孪生流体现象模拟方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |