CN107960121A

CN107960121A - 将帧拼接成全景帧

Info

Publication number: CN107960121A
Application number: CN201680023730.0A
Authority: CN
Inventors: 安东·巴尔; 伊扎克·图尔伯威奇; 什穆埃尔·芬
Original assignee: HUMANEYES TECHNOLOGIES Ltd
Current assignee: HUMANEYES TECHNOLOGIES Ltd
Priority date: 2016-01-03
Filing date: 2016-12-12
Publication date: 2018-04-24
Also published as: EP3398016A1; EP3398163A1; WO2017115348A1; US20190019299A1; US10460459B2; JP2019511024A; WO2017115349A1; JP2019511016A; EP3398163A4; EP3398016A4; KR20180101165A; CN108700798A; US20180063513A1; KR20180111798A

Abstract

一种拼接以多个视角捕获的帧的方法，包括：接收由成像器捕获的帧的集合，在相邻帧对中的每个中进行识别，每个相邻帧在与来自与另一个具有重叠视场的成像器的另一个帧在大致相同的时间被捕获。针对每个重叠区域，识别在相应的相邻帧对的中心之间连接的中心连接轴线，计算相邻帧对的每个帧的运动梯度，基于来自沿中心连接轴线的运动梯度的对应值，调整至少一个重叠区域中的相邻帧对的像素，将调整的相邻帧对拼接成全景帧，其至少部分地对共同中心周围的环境成像。

Description

将帧拼接成全景帧

背景技术

本发明在其一些实施例中涉及图像处理，更具体地，但不是唯一地，涉及帧的拼接。

虚拟现实(VR)是特殊类型的图像或视频内容。VR，如其名称所指示的，被设计用于代替现实以为观看者提供所记录的内容(包括视频和音频)的沉浸式感觉。观看者使用特殊类型的显示眼镜，通常称为VR耳机，VR护目镜或VR眼镜。VR耳机有效地阻止观看者的自然视觉，并且通过记录或直播的内容代替它。

VR内容不同于被设计为呈现在平坦屏幕上的标准数字内容，因为VR被设计用于代替自然视觉。VR被设计为在提供立体视觉的同时呈现宽的视场(FOV)。

发明内容

根据本发明的一些实施例，提供了一种将由围绕共同中心安装的多个成像器以多个视角捕获的多个帧拼接成至少部分地对共同中心周围的环境成像的全景帧的方法。该方法包括：接收由围绕共同中心区域安装的多个成像器以多个视角捕获的多个帧的集合以对共同中心区域周围的环境成像，在来自多个帧的多个相邻帧对中的每个中识别至少一个重叠区域，每个相邻帧对包括由来自多个成像器的两个成像器大约相同时间捕获的帧，这两个成像器具有重叠视场，针对至少一个重叠区域的每个：识别在相应的相邻帧对的中心之间连接的中心连接轴线，计算相邻帧对的每个帧的运动梯度，该运动梯度的值朝向相应帧的横向边缘增加，基于沿中心连接轴线的运动梯度的对应值，调整至少一个重叠区域中的相邻帧对的像素，以及将调整的相邻帧对拼接成全景帧，该全景帧至少部分地对共同中心周围的环境成像。

任选地，全景帧是左眼全景帧并且多个成像器与多个另外的成像器交通(intertwined，缠绕)，所述多个另外的成像器捕获被组合成右眼全景帧的多个另外的帧。该方法还包括将右眼全景帧与左眼全景帧组合，以创建立体帧。

更任选地，多个成像器和多个另外的帧的成员沿环绕共同中心的虚拟圆交替布置。

任选地，全景帧是右眼全景帧并且多个成像器与多个另外的成像器缠绕，所述多个另外的成像器捕获被组合为左眼全景帧的多个另外的帧。该方法还包括将左眼全景帧与左眼全景帧组合，以创建立体帧。

任选地，多个成像器沿环绕共同中心的虚拟圆布置，其中，安装多个成像器中的每个，使得其光轴相对于穿过共同中心和相应成像器的视场的原点的切点的轴线倾斜。

任选地，全景帧是对共同中心周围的环境成像的360度球形全景帧。

更任选地，全景帧被用作包括立体帧的两个帧中的一个。

任选地，重复该方法以调整多个按顺序捕获的集合中的每个的每个帧中的相应的至少一个重叠区域。

任选地，还包括估计多个帧的视觉表示到球形骨架上的投影。

任选地，使用来自针对多个成像器中的至少一个成像器限定的至少一个校准模型的参数来识别至少一个重叠区域。

更任选地，根据由主点参数、焦距参数和鱼眼失真参数组成的组中的至少一个成员，针对多个成像器中的每个限定至少一个校准模型。

更任选地，至少一个校准模型包括鱼眼校正矩阵和外部相机校准矩阵，该鱼眼校正矩阵和外部相机校准矩阵将像素的坐标映射到根据相应成像器的图像平面的对称轴线限定的校正坐标。

更任选地，其中，在多个帧的每个中，基于根据鱼眼校正矩阵生成的组合矩阵来计算至少一个重叠区域，并且将外部相机校准矩阵组合至组合矩阵，用于通过将每两个连续帧投影到球体上使得每个像素变成3D矢量并根据组合的全校准矩阵校正3D矢量来计算在每两个连续帧之间重叠的至少一个重叠区域，使得每个像素变为3D矢量并且根据组合的全校准矩阵校正3D矢量。

任选地，多个成像器中的每个均是包括鱼眼镜头的相机。

任选地，多个成像器中的每个均使用相机装备校准来校准。

任选地，调整包括沿相应的轴线将位于重叠区域中的像素朝向横向边缘移动。

更任选地，该方法还包括通过内插校正形成为移动的结果的多个空白像素。

根据本发明的一些实施例，提供了一种将由在共同中心周围安装的多个成像器以多个视角捕获的多个帧拼接成至少部分地对该共同中心周围的环境成像的全景帧的系统。该系统包括接口，其适于接收由在共同中心区域周围安装的多个成像器以多个视角捕获的多个帧的集合，以对共同中心区域周围的环境成像；适于存储代码的代码存储器；适于执行该代码的处理器，用于：在来自多个帧的多个相邻帧对中的每个中识别至少一个重叠区域，每个相邻帧对包括由来自多个成像器的两个成像器大约相同时间捕获的帧，该两个成像器具有重叠视场，针对至少一个重叠区域的每个：识别在相应的相邻帧对的中心之间连接的中心连接轴线，计算相邻帧对的每个帧的运动梯度，该运动梯度的值朝向相应的帧的横向边缘增加，基于沿中心连接轴线的运动梯度的对应值，调整至少一个重叠区域中的相邻帧对的像素，以及将调整的相邻帧对拼接成全景帧，该全景帧至少部分地对共同中心周围的环境成像。

除非另有定义，本文使用的所有技术和/或科学术语具有与本发明所属领域的普通技术人员通常理解的相同的含义。虽然与本文所述类似或等同的方法和材料可以用于本发明的实施例的实践或测试中，但是下面描述示例性方法和/或材料。在发生冲突的情况下，专利说明书(包括定义)将予以控制。此外，材料、方法和实施例仅是说明性的，并不意图是限制性的。

附图说明

本文仅通过示例的方式参考附图来描述本发明的一些实施例。现在具体参考附图，应该强调的是，所示的细节是作为示例示出并且为了说明性地讨论本发明的实施例的目的。在这方面，使用附图的描述使得如何实施本发明的实施例对于本领域技术人员来说是显而易见的。

在附图中：

图1是根据本发明的一些实施例的将在共同中心区域周围以多个视角捕获的帧拼接成全景帧的方法的流程图；

图2是根据本发明的一些实施例的将以多个视角捕获的帧拼接成全景帧的系统的部件的方框图；

图3A是根据本发明的一些实施例的以多个视角的成像器捕获帧的示例性布置的示意图，所述成像器捕获帧利用本文所述的系统和/或方法被拼接成全景帧；

图3B是根据本发明的一些实施例的虚拟现实(VR)成像设备的横向示意图，所述虚拟现实成像设备具有用于以多个视角捕获帧并且使用本文所述的方法将所捕获的帧拼接成全景帧的成像器的布置。

图3C和图3D是根据本发明的一些实施例的成像器的视场之间的重叠的示意图，所述成像器分别具有相对于穿过成像器的安装点的虚拟圆的半径的倾斜光轴和非倾斜光轴；

图4是根据本发明的一些实施例的对估计的重叠区域和在相邻成像器的两个中心之间延伸的轴成像的示意图，所述相邻成像器获取适于拼接的帧；以及

图5A至图5C是根据本发明的一些实施例的对获取以多个视角捕获的帧的处理成像、调整帧，以及所创建的全景帧的示例性图像。

具体实施方式

本发明在其一些实施例中涉及图像处理，更具体地但不是唯一地，涉及帧的拼接。

本发明的一些实施例的一个方面涉及系统和/或方法(例如，由计算设备的处理器执行的代码)，用于将由布置的多个成像器(例如相机，图像传感器)任选地在共同中心区域周围以多个视角捕获的帧或图像(为了简洁起见，本文可互换地引用)拼接成描绘共同中心区域周围(为简洁起见，本文也称为共同中心)的环境的全景帧或全景帧图像。执行拼接以减少拼接缝的可视性，并且为用户创建改善的全景帧观看体验，其更接近捕获的周围环境。

可预处理(即，在拼接之前)本发明的实施例待拼接的帧以进行对准和配准(registration)。识别由具有对环境的共同部分成像的视场(本文也称为相邻成像器)捕获的两个连续帧之间的重叠区域。重叠区域没必要一定从视场中的重叠区域的分析来识别，而可以使用外部方法来估计。

可选地，通过将帧的视觉表示投影到虚拟球形骨架模型上来估计重叠区域。另选地或另外地，基于针对捕获重叠帧的成像器中的一个或二者限定的校准模型(例如，数学模型)来估计重叠区域。可基于主点参数、焦距参数和/或鱼眼失真参数来限定校准模型。

在重叠区域内执行对准和配准的精细校正。识别连接由相邻成像器捕获的相邻帧对的中心的轴线。每个连接轴穿过相应的识别的重叠区域。针对每个重叠区域计算运动梯度，使得运动值朝向重叠区域的每个相应帧的横向边缘(并且远离视场(其任选地是鱼眼视场)的中心)增加。任选地通过至少在重叠区域或其部分处的像素的光流分析来计算运动梯度。

根据沿每个相应轴线的运动梯度调整相应重叠区域中的每个帧的(一个或多个)区域，以创建调整的帧的集合。这些区域可通过沿相应的轴线朝向每个相应帧的横向边缘移动像素来调整，其中，根据运动梯度确定移动强度(像素越接近边缘，移动越强)。例如，可选地，移动期间形成的空白像素可以基于相邻像素通过它们值的内插来填充。将调整的帧拼接到全景帧中。

本文描述的系统和/或方法提供了技术问题的技术解决方案，所述技术问题为当通过将以多个视角捕获的帧组合来创建描绘共同中心周围环境的全景帧时，如何减少全景帧中的接缝的可视性。拼接的帧可为VR文件的帧。这样的VR文件可在虚拟现实系统中使用，例如，呈现给VR耳机内的用户以观看VR视频。为拼接在一起而被获取的帧由不同的相机捕获，这些相机具有不同的视角和/或不同的特征，诸如焦点、曝光、白平衡。成像器(例如，宽镜头和/或鱼眼镜头)使用的镜头可应用视觉失真，诸如筒形，枕形失真和晕映(vignette)，这些在拼接帧时产生额外的挑战。子技术问题可为以减少或消除接缝的可见性的方式来拼接由具有不同特性和改变的取向(例如，对固定或可调节相机的微小移动)的不同相机捕获的帧。可见的接缝降低VR视频能够提供的自然外观或真实感觉。通过去除或减少不一致的非水平视差(否则视差会导致观看者的不适和/或恶心)，减少或消除拼接失真(例如，在左全景帧和右全景帧中，每个被设计为由相应的左眼和右眼观看)和/或不同的伪影改善了VR视频。

本文描述的系统和/或方法将数学运算(例如，帧的重叠区域的估计、运动梯度的计算和帧拼接)与处理器处理数字图像的能力相结合，例如通过将在共同中心周围的以多个视角获取的帧拼接成全景帧。

本文描述的系统和/或方法涉及处理通过在共同中心周围安装的成像器以多个视角获取的帧。通过将所获取的帧拼接在一起，以全景帧的形式创建新数据。全景帧可存储在存储设备中，并且任选地播放给用户，例如，显示在VT头帽中。全景帧可并入包括多个连续全景帧的视频中。

本文描述的系统和/或方法例如通过在产生改善的数字图像中使用较少的存储器和/或改善计算时间来改善计算机的性能。

因此，本文描述的系统和/或方法必须植根于计算机技术以克服数字图像处理中出现的实际技术问题。

在详细解释本发明的至少一个实施例之前，应当理解的是，本发明在其应用中不必受到以下描述和/或在附图和/或实例中阐述的部件和/或方法的构造和布置的细节的限制。本发明能够以其他实施方式或以各种方式实践或执行。

本发明可以是系统，方法和/或计算机程序产品。计算机程序产品可包括计算机可读存储介质(或多个介质)，其上具有用于使处理器执行本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可为例如但不限于电子存储设备、磁存储设备、光学存储设备、电磁存储设备、半导体存储设备或任何上述的合适的组合。计算机可读存储介质的更具体示例的非详尽列表包括以下：便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字通用盘(DVD)、存储棒、软盘和任何上述的合适的组合。如本文所使用的，计算机可读存储介质不应被解释为暂时的信号本身，诸如无线电波或其他自由传播的电磁波，通过波导或其他传输介质传播的电磁波(例如，通过光纤电缆的光脉冲)或通过电线传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或经由网络，例如，因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令，并将计算机可读程序指令转发以存储在相应的计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可为汇编程序指令、指令集架构(ISA)指令、机器指令、机器依赖指令、微代码、固件指令、状态设置数据，或用一种或多种编程语言(包括诸如Smalltalk、C++等的面向对象的编程语言，以及诸如“C”编程语言或类似的编程语言之类的常规程序性编程语言)的任何组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行、作为独立的软件包部分地在用户的计算机上执行、部分地在用户的计算机且部分地在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或可连接到外部计算机(例如，通过使用互联网服务提供商的互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令，以个性化电子电路，以便执行本发明的方面。

本文参考根据本发明的实施例的方法、装置(系统)和计算机程序产品的流程图和/或方框图来描述本发明的方面。应当理解的是，流程图和/或方框图的每个方框，以及流程图和/或方框图中的方框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以生产机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或方框图的一个或多个方框中指定的功能/动作的方法。这些计算机可读程序指令还可存储在计算机可读存储介质中，计算机可读存储介质可引导计算机、可编程数据处理装置和/或其他设备以特定方式运行，使得具有存储在其中的指令的计算机可读存储介质包括制造商品，其包括实现在流程图和/或方框图的一个或多个方框中指定的功能/动作的方面的指令。

计算机可读程序指令还可被加载到计算机、其他可编程数据处理设备或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现在流程图和/或方框图的一个或多个方框中指定的功能/动作。

附图中的流程图和方框图示出根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在该方面，流程图或方框图中的每个方框可表示包括用于实现指定的(一个或多个)逻辑功能的一个或多个可执行指令的指令的模块、段或部分。在一些替代的实施方案中，方框中所示的功能可不以在附图中所示的顺序发生。例如，根据所涉及的功能，连续示出的两个方框实际上可基本同时执行，或有时可以以相反的顺序执行。还将注意的是，方框图和/或流程图的每个方框以及方框图和/或流程图中的方框的组合可以由执行指定的功能或动作或执行专用硬件和计算机指令的组合的特殊目的的基于硬件的系统来实现。

现在参考图1，图1是根据本发明的一些实施例的将以多个视角捕获的帧拼接成全景帧的方法的流程图。该方法根据运动梯度的值调整帧中的重叠区域，以便降低所得到的全景帧中的拼接缝的可视性。还参考图2，其是系统200的部件的方框图，允许用户使用共同中心区域周围均指向不同角度的多个观看成像器捕获共同中心区域周围(至少部分)的环境的各个全景帧或全景帧序列的视频。用户可诸如使用VR耳机记录在虚拟现实设置中回放的视频。权利要求1所述的方法可由图2的系统200实现。

系统200包括容纳有成像器212的计算单元202，例如定制设计的单元，本文称为VR成像设备(参见例如图3B，其是VR成像设备的示例性壳体)，或与包括成像器212的壳体分开，例如个人计算机、服务器、移动设备、可穿戴式计算机或其他实施方式。计算单元202包括一个或多个处理器204以及存储用于由处理器204执行的代码指令的程序存储器206。该指令任选地实现图1中描述的方法。

处理器204可为例如处理单元(CPU)、一个或多个图形处理单元(GPU)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)和专用集成电路(ASIC)。处理器可为处理单元的部分，该处理单元包括布置用于并行处理的多个处理器(同构或异构)，作为簇和/或作为一个或多个多核处理单元。

程序存储器206存储可由处理器204实现的代码指令，例如随机存取存储器(RAM)、只读存储器(ROM)和/或存储设备，例如非易失性存储器、磁性介质、半导体存储设备、硬盘驱动器、可移动存储器和光学介质(例如，DVD，CD-ROM)。

计算单元202包括数据存储库208(例如，存储器、存储单元、硬盘驱动器、光盘、远程存储服务器和/或云服务器(例如，经由网络连接访问))或与其通信。数据存储库208可存储原始获取的帧(例如，在原始帧存储库208A中)，存储如本文所述的系统和/或方法所描述的调整的帧(例如，在调整的帧存储库208B中)和/或创建的全景帧(例如，在全景帧存储库208C中)。

计算单元202包括用于接收从多个成像器212(例如数字相机)中的每个获取的帧的数据接口210(例如，物理、虚拟和/或软件接口)。成像器212(例如红色，绿色，蓝色(RGB)成像器)被设置为任选地以至少180度，任选地360(水平和/或垂直)获取描绘中心区域周围的环境的帧的集合，例如参见下面更详细描述的图3A。

任选地，成像器212被配对以捕获用于左眼或右眼的帧，其可例如使用VR耳机被呈现给不同的眼睛。在这样的实施例中，成像器可分成两组，左眼组和右眼组。左眼组的成员处于偶数位置，右眼组的成员处于奇数位置(假设位置在围绕共同中心区域的圆中顺序分布)，反之亦然。在这样的实施例中，由左眼组的成像器捕获的帧被拼接以形成左眼全景图像，并且由右眼组的成像器捕获的帧被拼接以形成右眼全景图像。左眼全景图像和右眼全景图像中的每个的拼接分开进行，例如如下所述(重叠区域在由组成员捕获的帧之间)。左眼全景图像和右眼全景图像被组合以创建立体全景图像。例如，在图3A的布置304，306中，阴影线矩形可为左眼组的成员，而无阴影线矩形是右眼组的成员。

另选地或另外地，成像器212捕获在双眼中同时显示(例如投影在180度剧院内)的帧。

成像器212中的每个可具有设计成捕获宽视场的广角透镜，例如鱼眼透镜。示例性成像器212是具有水平约120度进行捕获且垂直约175度进行捕获(或其他值)的超宽和/或垂直角度透镜的相机。

选择成像器212的数量以覆盖设计的环境(是在其中创建立体全景帧的实施例的两倍)，并且可基于可由相机的透镜捕获的视场，例如4个成像器，或8个成像器、10个成像器、16个成像器和/或任何中间或更大数量的成像器。

现在参考图3A，其描绘根据本发明的一些实施例的用于成像器312的布置(例如，对应于参考图2所描述的成像器212)的示例性实施方式。成像器312围绕共同中心302安装。成像器312被布置为以多个视角获取帧。帧被拼接成描绘共同中心302周围的环境的全景帧(使用本文描述的系统和/或方法)。

布置304和布置306中的每个包括布置成覆盖共同中心302周围360度的八个成像器312。实施方式304描绘以正方形308(或矩形)格式布置的成像器312，正方形308的每侧包括两个成像器312，其可配对以捕获用于左眼和右眼的帧。还参见图3B，其为具有截角的定制设计单元的示例性二次壳体的侧视图，该定制设计单元包括4对侧向成像器1312，其中，每对位于示例性二次壳体的另一个截角处。布置306包括沿圆310的圆周间隔开的以圆310(或椭圆)形式布置的成像器312。成像器312可捕获用于左眼和右眼的帧。应当注意，可以使用其他实现形状。

根据本发明的一些实施例，成像器被分成对，其中，每对被设计成捕获立体帧。在这样的实施例中，识别立体帧对中的重叠区域并且用于创建下文所述的全景图像。为了简洁起见，本文将立体帧称为帧，并且被设计为捕获立体帧的成像器对在本文中被称为成像器。例如，使用具有用于捕获立体帧的成像器对的布置的VR成像设备，其中，视场如图3C所示。任选地，成像器对中的每个成像器的光轴朝向该成像器对的另一个成像器倾斜，例如朝向其光轴。任选地，光轴相对于穿过共同中心和穿过虚拟圆上的相应成像器的视场的原点的相应切点的轴线倾斜，所述虚拟圆穿过所有成像器的视场的原点，例如参见图3C和图3D中描绘的圆。任选地，倾斜在20度和30度之间，例如如图3C所示的22度。成像器的倾斜减少视场之间的重叠区域。这在比较图3C和图3D中的成像器时可以看出，图3C描绘成像器的布置，其中，每个成像器朝向其配对的成像器倾斜，图3D描绘成像器的另一个布置，其中，每个成像器的光轴对准以继续穿过经由所有成像器的安装点(例如成像器的光轴的原点)的虚拟圆的半径。当比较图3C和图3D时，当成像器的光轴如上所述倾斜时，可以看到作为成像器的视场的交点的较暗区域较大。

实施方式304和306可具有大致盘形，其中，成像器312沿平面布置。应当注意的是，可使用其他实施方式轮廓，例如球体或半球形。

另外的成像器312可被定位成面向上或面向下(未示出)。

基于实施方式304和/或306，计算单元202和成像器312可容纳在外壳内，例如作为独立便携式单元，其可由家庭中的消费者使用。

现在返回参考图2，计算单元202包括与一个或多个外部设备通信以存储和/或呈现所创建的全景帧(例如，视频)的通信接口214(例如，物理，软件和/或虚拟)，例如Wi-Fi^TM模块或蓝牙^TM模块。示例性外部设备包括个人显示设备216(例如，VR耳机)、存储用于将来回放的视频的存储设备218，以及可通过网络222通信的服务器220(例如，web服务器、存储服务器、视频服务器)。应当注意的是，记录的视频可以公开放映，例如，可通过例如投影仪(未示出)投影到剧院、房间或家中的全景屏幕上。

计算单元202包括用户接口224(其可集成在包含计算单元202的壳体中，在客户终端上被实现为软件，和/或被实现为显示全景帧的显示设备的部分)或与用户接口224通信，用户接口例如为触摸屏、键盘、鼠标和使用扬声器和麦克风的声音激活软件。用户接口224可以访问代码(例如，存储在客户终端和/或计算单元202上)以基于用户输入定制全景帧的创建。

根据本发明的一些实施例，校准成像器以计算用于图像对准的相机校准模型以及减少视差失真。任选地，基于每个成像器的固有参数(例如(一个或多个)主点参数、(一个或多个)焦距参数和/或(一个或多个)鱼眼失真参数)以及任选地基于(一个或多个)外部参数来计算相机校准模型。例如，固有参数可包括鱼眼失真参数。

在使用中，可通过将VR成像设备的成像器放置在棋盘图案的前面，同时旋转VR成像设备并且捕获(一个或多个)帧序列来计算参数。

在可选地使用(一个或多个)处理器204执行的相机校准模型的计算期间，例如通过找到该图案的线性最小二乘单应矩阵(linear least squares homography)来检测n×m棋盘块图案的角部。可应用高斯-牛顿法来找到成像器的上述成像器参数以及成像器的旋转和平移，它们产生针对棋盘的几个视图的检测到的单应矩阵。基于均方误差法计算雅可比矩阵(Jacobian matrix)，并且计算质量标准。这允许校准用于相机校准模型的计算的相应装备的外部参数，通过在远距离物体被拍摄的帧上的束调节的方式相互旋转。例如，外部参数是每个成像器在3D空间(例如倾斜、摇摄和滚动)中的旋转角度(例如，光轴角度)。通过计算水平移位(立体对)而在相同方向上看去的两个成像器之间的光流来检测远距离内容。包含远距离内容的帧对的视差应具有明显较低的视差。可通过匹配特征点，例如使用尺度不变特征变换(SIFT)处理或加速鲁棒特征(SURF)处理来检测单应矩阵。旋转可通过Levenerg-Macart方法找到。雅可比矩阵是数值近似的。固有参数在该阶段可不改变。每个成像器可使用棋盘图案的二十帧来最初执行校准。任选地，去除校准角部的具有高像素重新投影误差的不清楚的帧，以确保只有具有高于阈值的质量的帧被用于校准，以便确保低像素重新投影误差。如上所述，对棋盘图案项的角部执行校准。任选地假设棋盘不移动，因此保持在世界坐标系(X-Y平面)中的固定坐标中，其中方格从(0，0，0)开始。可应用束调整算法。

任选地，以下伪代码迭代地收集用于计算固有参数的帧：

对于每个帧：当帧中检测到棋盘时：

[RMS，K，DistortionCoeffs，rotation_vectors_of_cameras，translation_vectors_of_cameras]

＝校准(到目前为止收集的所有图像中的棋盘方格世界坐标，棋盘方格图像坐标，将偏斜度固定为0)

如果(校准成功)并且(RMS<3pix或这是对棋盘成像的第一帧)则使用当前图像更新图像集合

最后，返回从迄今为止捕获的所有帧中得到的解。

可选地，使用以下伪代码来计算外部参数：

开始

对于每个原始的失真图像：

1.找到失真特征。

2.对于每个特征(例如棋盘的角部)，使用失真系数(来自固有参数)计算未失真位置。

3.匹配所有特征(具有未失真的特征点位置)。

4.使用束调整在从步骤3接收的匹配上求解外部取向。

5.计算接收到的对步骤4的解的均方根(RMS)(可选地，仅当RMS高于阈值时才添加帧)。

6.旋转成像器，使得所需的“前向相机”旋转矩阵为I_3x3。

结束

可选地，使用在校准过程期间计算的相应成像器的固有参数，使用标准计算机视觉例程执行2-5。

可选地，当成像器成对布置时，每个成像器被分开校准。例如，当使用8个成像器时，对4个偶数(左)成像器，然后对4个奇数(右)成像器执行校准处理。可将第0个成像器人为地和临时地添加到奇数成像器用于校准。这样，偶数和奇数的成像器都具有共同的视场。

现在再次参考图1。该图描述其中按顺序接收的帧的集合的迭代处理。每个帧的集合任选地包括由安装在共同中心周围的多个成像器同时或基本同时捕获的帧(例如，具有较小的技术时间漂移)，例如使用上述布置，例如使用图2所示的系统和任选地图3A中所示的任何布置。这允许创建具有多个顺序全景帧的VR文件，用于创建和观看摄影捕获的全景图，并且通过以多个视角获得的图像来探索对象。全景帧或图像(可互换地引用)任选地是VR全景帧，其证明围绕中心区域的环境以模拟观看者周围的环境(内部，向外看)，产生位置感和任选地随时间改变位置。

在每个迭代中，如102处所示，以多个视角同时(本文使用的用于描述基本上同时的术语，例如，具有小于1秒的小时间偏差)捕获帧的集合，例如如上所述，诸如使用如图2所示的系统和/或如图3A所示的布置。

如104处所示，可预处理每个帧。

如106处所示，针对由相邻成像器捕获的每个帧对识别估计的重叠区域。例如，当1至8个成像器围绕圆布置时，针对由成像器1和成像器2同时捕获的一对帧，由成像器1和成像器2同时捕获的一对帧，由成像器2和成像器3同时捕获的一对帧，由成像器3和成像器4同时捕获的一对帧，由成像器4和成像器5同时捕获的一对帧，由成像器5和成像器6同时捕获的一对帧，由成像器6和成像器7同时捕获的一对帧，由成像器7和成像器8同时捕获的一对帧以及由成像器8和成像器1同时捕获的一对帧，识别估计的重叠。估计的重叠区域描绘一个中心区域(例如上述中心区域，其在由其他成像器同时捕获的一个或多个其他帧中描述)周围的环境的一部分。

任选地，使用上述相机校准模型计算重叠区域。可选地，使用相邻成像器(例如，VR成像设备的成像器，其与VR成像设备的比其他成像器在顺时针更靠近它的另一个成像器配对，或与VR成像设备的比其他成像设备在逆时针更靠近它的另一个成像器配对)捕获的一对帧之间的重叠区域的边缘的坐标，如下：

1.基于每个成像器的固有参数(例如如上所述计算的)计算鱼眼校正矩阵(例如，查找表，指定每个像素的校正坐标)。

2.计算外部相机校准矩阵，外部相机校准矩阵将帧的像素(一个或多个像素在本文可被称为帧的区域)基于外部参数(例如如上所述计算)映射到根据(一个或多个)成像器的摇摄(偏航)，倾斜(俯仰)和滚动角度的校正的坐标。

3.通过组合鱼眼校正矩阵和外部相机校准矩阵来计算组合矩阵(例如查找表)。组合的校准矩阵用于鱼眼的校正和透视校正，并且任选地限定每个像素的位置移动。

4.将配对的帧投影到球体上，使得每个像素通过光线(例如球体半径)和/或3D矢量连接到中心区域。

5.根据组合的校准矩阵校正光线和/或3D矢量。

6.基于校正的光线和/或3D矢量识别重叠区域，其中，配对帧的校正光线被比较，并且具有相似值的光线(大约“在相同方向上的点”)限定重叠区域。

如108处所示，在计算重叠区域的每个帧对的中心之间识别移动轴，例如穿过每个帧对的中心的直线。任选地每个中心的坐标被计算为在每个帧的X轴的中间和Y轴的中间。

现在，如110处所示，沿相应的移动轴为每个重叠区域计算运动梯度。运动梯度允许基于所计算的全局和/或局部运动来限定给定(一个或多个)像素值移动的权重。运动梯度的值根据重叠区域的横向边缘的距离限定。像素或重叠区域的像素簇越靠近重叠区域的横向边缘，分配表示越少运动的值。以这种方式，当基于运动梯度的值的移动函数被应用于像素(或重叠区域的边缘附近的像素簇)时，像素移动小于位于重叠区域的中心或更靠近重叠区域的中心的另一个像素(或另一个像素簇)。例如，最大移动(例如，距离重叠区域的中心最远位置处的像素)可被限定为1/n，其中基于响应于可选值的用户输入(例如在1和100之间)选择n。例如，n限定在1到100之间以创建100个帧并且(一个或多个)用户为每个帧进行选择以允许选择期望的n值。

现在，如112处所示，处理帧中的重叠区域，每个基于相应的运动梯度。例如，现在参考图4，图4是根据本发明的一些实施例，对估计的重叠区域402和在获取调整用于拼接的相邻帧408A、帧408B的相邻成像器的两个中心406之间延伸的轴线404成像的示意图。在图4中，位于重叠区域内的帧1(左侧的408A)的像素使用运动梯度移动，例如如下：

-位于重叠区域左侧边界上的最左边的像素保持在原位置。

-更远的像素被移动，使得它们离最左边缘越远，则移动越多，例如根据“n”的值。

帧2的像素(右侧的408B)使用相似的距离依赖关系从重叠区域的边缘在相反方向上移动，在这种情况下是最右边缘。

现在，如114处所示，重叠区域被后处理。任选地，通过移动形成的孔被处理，例如，基于相邻像素的规则内插来闭合。

在116处，将调整的帧拼接成对至少部分地围绕共同中心的环境成像的全景帧。拼接基于调整的重叠区域。全景帧可为对共同中心周围的环境成像的球形全景帧。拼接任选地如所述在相同发明人共同提交的题为“在创建全景帧的过程中自适应拼接帧”的申请中执行。

如118处和120处所示，102-116被重复以调整多个按顺序捕获的帧的集合中的每个的帧对的相应的至少一个估计重叠区域，以便创建VR文件。

如122处所示，这允许输出VR文件。

现在参考图5A至图5C，图5A至图5C是根据图1所示的方法并且使用系统200将成像器以多个视角捕获的帧拼接用于创建的全景帧的过程成像的示例性帧。

图5A是由成像器212获取的示例性帧的集合。四个单独的帧由如图3A的实施方式304中所示布置的四个不同的成像器212获取。这四个帧可以用于左眼或右眼(由每个对应的成像器对的一组其他成像器捕获)。图5B描绘通过调整图5A所示的相应帧而创建的调整的帧，如参考图1的方框104-114所描述的。图5C描绘通过拼接图5B的调整的帧创建的全景帧，如参考图1的方框116描述的。

已经为了说明的目的而呈现本发明的各种实施例的描述，但并不旨在穷举或限于所公开的实施例。在不脱离所描述的实施例的范围和精神的情况下，许多修改和变化对于本领域普通技术人员将是显而易见的。选择本文所使用的术语是为了最好地解释实施例的原理，在市场中发现的技术的实际应用或技术改善，或使得其他本领域普通技术人员能够理解本文公开的实施例。

预计在本申请的专利生命期间，许多相关的成像器将被开发，术语帧的范围意在以先验的方式包括所有这样的新技术。

如本文所用，术语“约”是指±10％。

术语“包括(comprises)”、“包括(comprising)”、“包含(includes)”、“包含(including)”、“具有(having)”及其变形是指“包括但不限于”。该术语包括“由……组成”和“基本上由……组成”。

短语“基本上由……组成”是指组合物或方法可包括另外的成分和/或步骤，但是只有当另外的成分和/或步骤不实质上改变所要求保护的组合物或方法的基本和新颖特征时。

如本文所使用的，单数形式“一个(a)”，“一个(an)”和“该(the)”包括复数参考，除非上下文另有明确规定。例如，术语“化合物”或“至少一种化合物”可包括多种化合物，包括其混合物。

词语“示例性”在本文用于表示“用作示例、实例或说明”。描述为“示例性”的任何实施例不必被解释为比其他实施例优选或有利，和/或排除来自其他实施例的特征的并入。

词语“任选地”在本文用于表示“在一些实施例中提供并且不在其他实施例中提供”。本发明的任何具体实施例可以包括多个“任选”特征，除非这样的特征相冲突。

在本申请中，本发明的各种实施例可以以范围形式呈现。应当理解的是，以范围形式的描述仅仅是为了方便和简洁，并且不应被解释为对本发明的范围的僵化限制。因此，对范围的描述应被认为是具体公开所有可能的子范围以及该范围内的各个数值。例如，诸如从1到6的范围的描述应被认为具体公开诸如1至3，1至4，1至5，2至4，2至6，3至6等的子范围，以及该范围内的各个数字，例如1，2，3，4，5和6。不管范围的宽度如何这均适用。

无论何时在本文指示数值范围，都意味着在指示范围内包括任何引用的数字(分数或整数)。短语第一指示数字和第二指示数字“之间的范围(ranging)/范围(ranges)”和“从第一指示数字到第二指示数字的范围(ranging)/范围(ranges)”在本文中可互换使用，并且意在包括第一和第二指示数字以及它们之间的所有分数和整数。

应当理解，为了清楚起见，在单独实施例的上下文中描述的本发明的某些特征也可以在单个实施例中组合提供。相反，为了简洁起见，在单个实施例的上下文中描述的本发明的各种特征也可以单独提供或以任何合适的子组合提供或适用于本发明的任何其他描述的实施例。在各种实施例的上下文中描述的某些特征不被认为是这些实施例的必要特征，除非该实施例在没有那些元件的情况下不起作用。

尽管已经结合本发明的具体实施例描述了本发明，但是显然，许多替代、修改和变化对于本领域技术人员是显而易见的。因此，旨在包括落在所附权利要求的精神和广泛范围内的所有这样的替代、修改和变化。

本说明书中提及的所有出版物、专利和专利申请通过引用整体并入本说明书中，其程度如同每个单独的出版物、专利或专利申请被具体和单独地指示通过引用并入本文。此外，本申请中的任何参考的引用或标识不应被解释为承认此参考可用作本发明的现有技术。在使用章节标题的范围内，不应将其解释为必然的限制。

Claims

1.一种将由围绕共同中心安装的多个成像器以多个视角捕获的多个帧拼接成至少部分地对所述共同中心周围的环境成像的全景帧的方法，包括：

接收由围绕共同中心区域安装的多个成像器以多个视角捕获的多个帧的集合，以对所述共同中心区域周围的环境成像；

在来自所述多个帧的多个相邻帧对中的每个中识别至少一个重叠区域，每个所述相邻帧对包括由来自所述多个成像器的两个成像器在大约相同时间捕获的帧，所述两个成像器具有重叠视场；

针对所述至少一个重叠区域的每个：

识别在相应的所述相邻帧对的中心之间连接的中心连接轴线；

计算所述相邻帧对的每个帧的运动梯度，所述运动梯度的值朝向相应的所述帧的横向边缘增加；

基于沿所述中心连接轴线的所述运动梯度的对应值，调整所述至少一个重叠区域中的所述相邻帧对的像素；以及

将所述调整的相邻帧对拼接成全景帧，所述全景帧至少部分地对所述共同中心周围的环境成像。

2.根据权利要求1所述的方法，其中，所述全景帧是左眼全景帧并且所述多个成像器与多个另外的成像器交替，所述多个另外的成像器捕获被组合为右眼全景帧的多个另外的帧；

还包括将所述右眼全景帧与所述左眼全景帧组合，以创建立体帧。

3.根据权利要求2所述的方法，其中，所述多个成像器和所述多个另外的帧的成员沿环绕所述共同中心的虚拟圆交替布置。

4.根据权利要求1所述的方法，其中，所述全景帧是右眼全景帧并且所述多个成像器与多个另外的成像器交替，所述多个另外的成像器捕获被组合为左眼全景帧的多个另外的帧；

还包括将所述左眼全景帧与所述左眼全景帧组合，以创建立体帧。

5.根据权利要求1所述的方法，其中，所述多个成像器沿环绕所述共同中心的虚拟圆布置；其中，安装所述多个成像器中的每个，使得其光轴相对于穿过所述共同中心和相应的所述成像器的视场的原点的切点的轴线倾斜。

6.根据权利要求1所述的方法，其中，所述全景帧是对所述共同中心周围的所述环境成像的360度球形全景帧。

7.根据权利要求6所述的方法，其中，所述全景帧被用作包括立体帧的两个帧中的一个。

8.根据权利要求1所述的方法，其中，重复所述方法以调整多个按顺序捕获的集合中的每个的每个帧中的相应的所述至少一个重叠区域。

9.根据权利要求1所述的方法，还包括估计所述多个帧的视觉表示到球形骨架上的投影。

10.根据权利要求1所述的方法，其中，使用来自针对所述多个成像器中的至少一个成像器限定的至少一个校准模型的参数来识别所述至少一个重叠区域。

11.根据权利要求10所述的方法，其中，根据由主点参数、焦距参数和鱼眼失真参数组成的组中的至少一个成员，针对所述多个成像器中的每个限定所述至少一个校准模型。

12.根据权利要求10所述的方法，其中，所述至少一个校准模型包括鱼眼校正矩阵和外部相机校准矩阵，所述鱼眼校正矩阵和外部相机校准矩阵将像素的坐标映射到根据相应的所述成像器的图像平面的对称轴线限定的校正坐标。

13.根据权利要求12所述的方法，其中，在所述多个帧的每个中，基于根据所述鱼眼校正矩阵生成的组合矩阵来计算所述至少一个重叠区域，并且将所述外部相机校准矩阵组合至组合矩阵，用于通过将每两个连续帧投影到球体上使得每个像素变成3D矢量并根据组合的全校准矩阵校正所述3D矢量来计算在每两个连续帧之间重叠的所述至少一个重叠区域。

14.根据权利要求1所述的方法，其中，所述多个成像器中的每个均是包括鱼眼透镜的相机。

15.根据权利要求1所述的方法，其中，所述多个成像器中的每个均使用相机装备校准来校准。

16.根据权利要求1所述的方法，其中，所述调整包括沿所述相应的所述轴线将位于所述重叠区域中的像素朝向所述横向边缘移动。

17.根据权利要求16所述的方法，还包括通过内插校正形成为所述移动的结果的多个空白像素。

18.一种将由围绕共同中心安装的多个成像器以多个视角捕获的多个帧拼接成至少部分地对所述共同中心周围的环境成像的全景帧的系统，包括：

接口，所述接口适于接收由围绕共同中心区域安装的多个成像器以多个视角捕获的多个帧的集合，以对所述共同中心区域周围的环境成像；

适于存储代码的代码存储器；

适于执行所述代码的处理器，用于：

在来自所述多个帧的多个相邻帧对中的每个中识别至少一个重叠区域，每个所述相邻帧对包括由来自所述多个成像器的两个成像器大约相同时间捕获的帧，所述两个成像器具有重叠视场；

针对所述至少一个重叠区域的每个：

19.根据权利要求18所述的系统，其中，所述多个成像器安装在虚拟现实成像设备的外壳的所述侧向侧上。

20.一种用于将由围绕共同中心安装的多个成像器以多个视角捕获的多个帧拼接成至少部分地对所述共同中心周围的环境成像的全景帧的软件程序产品，包括：

非暂时性计算机可读存储介质；

第一程序指令，所述第一程序指令用于接收由围绕共同中心区域安装的多个成像器以多个视角捕获的多个帧的集合以对所述共同中心区域周围的环境成像；

第二程序指令，所述第二程序指令用于在来自所述多个帧的多个相邻帧对中的每个中识别至少一个重叠区域，每个所述相邻帧对包括由来自所述多个成像器的两个成像器大约相同时间捕获的帧，所述两个成像器具有重叠视场；

第三程序指令，所述第三程序指令用于针对所述至少一个重叠区域的每个执行以下步骤：

将所述调整的相邻帧对拼接成全景帧，所述全景帧至少部分地对所述共同中心周围的环境成像；

其中，所述第一程序指令、所述第二程序指令和所述第三程序指令由至少一个计算化的处理器从所述非暂时性计算机可读存储介质执行。