CN117981296A

CN117981296A - 使用多个相机的扩展视场

Info

Publication number: CN117981296A
Application number: CN202280062141.9A
Authority: CN
Inventors: K·伯格; D·C·莱列斯库; T·里克
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2021-09-24
Filing date: 2022-09-22
Publication date: 2024-05-03
Also published as: WO2023049304A1

Abstract

用于使用设备的多个相机提供扩展视场(FoV)的方法和装置。一种设备可包括捕获环境的视图的前置相机以及捕获更广角度视图的侧面相机。可处理来自该前置相机和该侧面相机的图像以提供具有扩展FoV的环境的立体视图。处理来自该前置相机的图像以提供立体图像，并根据该立体图像生成深度信息。将该深度信息扩展到第二层中，并为第三层设置中值深度。使该侧面相机图像不失真，然后将来自该侧面相机图像的像素信息重新投影到该第二层和该第三层中，并且对该第二层和该第三层进行模糊处理。

Description

使用多个相机的扩展视场

背景技术

扩展现实(XR)系统诸如混合现实(MR)或增强现实(AR)系统将计算机生成的信息(称为虚拟内容)与真实世界图像或真实世界视图相结合，以增强或增加用户对世界的认识。因此，可利用XR系统为多个应用提供交互式用户体验，诸如将虚拟内容添加到观看者所处环境的实时视图中的应用、与虚拟训练环境交互的应用、游戏应用、远程控制无人机或其他机械系统的应用、观看数字媒体内容的应用、与因特网交互的应用等。

一些设备可包括捕获设备前方的环境的图像或视频的前向相机。这些图像或视频流可被组合并渲染以通过显示器提供环境的立体视图。然而，这些系统的视场(FoV)限于前向相机的FoV。

发明内容

描述了用于使用设备或系统的多个相机提供扩展视场(FoV)的方法和装置的实施方案。一种设备可包括捕获设备前方的环境的图像或视频的前向相机。这些图像或视频流可被组合并渲染以通过显示器提供环境的立体视图。然而，这些系统的视场(FoV)限于前向相机的FoV。实施方案可使用来自设备或系统的一个或多个其他相机的输入来扩展设备或系统的前向相机的FoV。这些其他相机可被称为侧面相机，而前向相机可被称为前置相机。通常，这些侧面相机具有宽FoV，并且可包括或者可以是所谓的“鱼眼”相机或类似的相机。侧面相机的FoV通常与前置相机的FoV在某种程度上重叠。实施方案可利用来自这些侧面相机的输入来提供可显示给设备的用户的扩展FoV。

在实施方案中，为了提供扩展FoV立体图像以供显示，至少初始照常处理来自两个前置相机的图像以提供立体图像。根据两个前置相机图像生成深度信息。在一些实施方案中，该深度信息可以是稀疏或“线框”深度信息，其或多或少仅捕获或表示图像中的边缘。然而，一些实施方案可利用设备的深度技术来生成立体图像的更密集、更少稀疏的深度图。然后，将根据前置相机图像生成的深度信息向上、向下和/或向图像的侧面扩展一定距离。需注意，这可针对左图像和右图像独立地进行，并且在三个方向上扩展的距离可以相同或者可以不同。扩展的距离可以是预设的，或者可基于一个或多个因素动态地确定。假设由前置相机捕获的立体图像作为正在生成的扩展FoV立体图像的第一层或图像平面，则该第一扩展在立体图像的至少一部分周围创建第二层或图像平面。需注意，在一些实施方案中，根据立体图像生成的深度信息可以是稀疏的“线框”深度信息，并且因此深度信息在第二层中可以是稀疏的。然后通过从第二层的外边缘向外扩展第二距离来生成第三层或图像平面。在至少一些实施方案中，为第三层设置“平坦”深度值(其可以例如是根据生成的深度信息确定的中值深度)。

在一些实施方案中，为了提供“更平坦”的图像以进行扩展FoV处理，可使侧面相机图像“不失真”以使图像在某种程度上平坦，使得图像中的对象的深度和几何形状更密切地对应于根据前置相机输入生成的立体图像中的对象的深度和几何形状。

然后可将来自侧面相机图像的像素信息(颜色、纹理等)重新投影到第二层和第三层中的相应像素。然后可合并这三个层。在一些实施方案中，在三个层合并之前或之后至少对第二层进行模糊处理；不对第一层(原始立体图像)进行模糊处理。

该方法可独立地应用于立体图像的左侧和右侧以生成扩展FoV立体图像，然后可将该扩展FoV立体图像提供给设备的显示器以显示给用户。所显示的所得图像是“中央凹的”；立体图像(第一层)向用户提供环境的图像的中心清晰区；第二层在立体图像的扩展且变化的深度处提供模糊区，作为从立体图像到第三层的过渡；并且第三层在平坦的深度处提供周边区。另外，实施方案通过投影由侧面相机捕获的实际图像的内容，而不是如常规上为扩展立体图像所做的那样仅用环境内容或颜色填充立体图像周围的周边区，来将第一层的立体图像中的场景扩展到由第二层和第三层创建的扩展区中。使用一种用接近正确深度和位置的实际场景内容填充扩展区的方法，将来自侧面相机图像的像素重新投影到聚焦立体图像周围的扩展区中，其中扩展区略微模糊或散焦。

通过如本文所述将深度信息扩展到扩展区中，实施方案本质上将图像平面放置在场景内，并且来自侧面相机的图像数据被重新投影到该图像平面。图像平面充当场景的代理，并且所描述的操作在该图像平面上执行。因此，实施方案充当具有浅DoF的虚拟相机。从虚拟视点来看，由侧面相机捕获的场景的仅实际上在该图像平面上的部分才聚焦。这类似于浅DoF光学模糊。

通过使用上述方法将场景扩展到立体图像周围的扩展区中，实施方案可通过提供FoV的场景连接的环境扩展来增加XR体验的沉浸感，这可通过诸如XR系统的头戴式设备(HMD)的设备的显示器提供比常规方法更自然的环境视图。与常规方法相比，所显示的场景可能更密切地接近正常人类视觉，其中由前置相机立体图像提供的聚焦中心区由场景的扩展部分包围，根据由侧面相机提供的图像，该扩展部分被渲染为略微失焦。

附图说明

图1A示出了根据一些实施方案的包括具有有限视场(FoV)的前向相机的设备。

图1B示出了根据一些实施方案的包括前向相机和可被利用以提供扩展FoV的一个或多个其他相机的设备。

图2是根据一些实施方案的用于使用设备的多个相机来提供扩展FoV的系统的高级框图。

图3是根据一些实施方案的用于根据由前向相机和侧向相机捕获的图像生成具有环境的扩展FoV的图像的方法的流程图。

图4图形地示出了根据一些实施方案的用于根据由前向相机和侧向相机捕获的图像生成具有环境的扩展FoV的图像的方法。

图5图形地示出了根据一些实施方案的具有扩展FoV的图像。

图6A和图6B是示出根据一些实施方案的设备的框图。

图7A和图7B是示出根据一些实施方案的另一设备的框图。

本说明书包括参考“一个实施方案”或“实施方案”。出现短语“在一个实施方案中”或“在实施方案中”并不一定是指同一个实施方案。特定特征、结构或特性可以与本公开一致的任何合适的方式被组合。

“包括”，该术语是开放式的。如在权利要求书中所使用的，该术语不排除附加结构或步骤。考虑以下引用的权利要求：“一种包括一个或多个处理器单元...的装置”此类权利要求不排除该装置包括附加部件(例如，网络接口单元、图形电路等)。

“被配置为”，各种单元、电路或其他部件可被描述为或叙述为“被配置为”执行一项或多项任务。在此类上下文中，“被配置为”用于通过指示单元/电路/部件包括在操作期间执行这一项或多项任务的结构(例如，电路)来暗指该结构。如此，单元/电路/部件据称可被配置为即使在指定的单元/电路/部件当前不可操作(例如，未接通)时也执行该任务。与“被配置为”语言一起使用的单元/电路/部件包括硬件——例如电路、存储可执行以实现操作的程序指令的存储器等。引用单元/电路/部件“被配置为”执行一项或多项任务明确地旨在针对该单元/电路/部件不援引35U.S.C.§112的第六段。此外，“被配置为”可包括由软件或固件(例如，FPGA或执行软件的通用处理器)操纵的通用结构(例如，通用电路)以能够执行待解决的一项或多项任务的方式操作。“被配置为”还可包括调整制造过程(例如，半导体制作设施)，以制造适用于实现或执行一项或多项任务的设备(例如，集成电路)。

“第一”“第二”等。如本文所用，这些术语充当它们所在之前的名词的标签，并且不暗指任何类型的排序(例如，空间的、时间的、逻辑的等)。例如，缓冲电路在本文中可被描述为执行“第一”值和“第二”值的写入操作。术语“第一”和“第二”未必暗指第一值必须在第二值之前被写入。

“基于”或“取决于”，如本文所用，这些术语用于描述影响确定的一个或多个因素。这些术语不排除可影响确定的附加因素。即，确定可仅基于这些因素或至少部分地基于这些因素。考虑短语“基于B来确定A”。在这种情况下，B为影响A的确定的因素，此类短语不排除A的确定也可基于C。在其他实例中，可仅基于B来确定A。

“或”，在权利要求书中使用时，术语“或”被用作包含性的或，而不是排他性的或。例如，短语“x、y或z中的至少一个”表示x、y和z中的任何一个以及它们的任何组合。

具体实施方式

描述了用于使用设备或系统的多个相机提供扩展视场(FoV)的方法和装置的各种实施方案。一些设备可包括捕获设备前方的环境的图像或视频的前向相机。这些图像或视频流可被组合并渲染以通过显示器提供环境的立体视图。然而，这些系统的视场(FoV)限于前向相机的FoV。实施方案可使用来自设备或系统的一个或多个其他相机的输入来扩展设备或系统的前向相机的FoV。这些其他相机可被称为侧面相机，而前向相机可被称为前置相机。

作为示例，设备(诸如在扩展现实(XR)系统中使用的头戴式设备(HMD))可具有捕获该设备前方的环境的视频或图像的前置相机。通常，处理来自两个(或更多个)前置相机的这些图像并使用这些图像来生成立体视图，这些立体视图作为立体图像显示给设备的用户。然而，图像的FoV受到前置相机的FoV的限制。

在一些此类设备中，可存在位于设备的一侧或两侧上的一个或多个相机，该一个或多个相机通常用于其他目的，例如用于在用户穿戴该设备的环境中的定位目的。通常，这些侧面相机具有宽FoV，并且可包括或者可以是所谓的“鱼眼”相机或类似的相机。侧面相机的FoV通常与前置相机的FoV在某种程度上重叠。实施方案可利用来自这些侧面相机的输入来提供可显示给设备的用户的扩展FoV。

为了生成扩展FoV立体图像以供显示，实施方案可在处理流水线中同时或几乎同时捕获和处理由前置相机和侧面相机捕获的图像。为了便于讨论，假设有两个前置相机，并且假设有两个侧面相机(每侧各一个侧面相机)。然而，在一些实施方案中，可存在更多或更少的前置相机、更多的侧面相机、或仅在设备的一侧上存在侧面相机。可至少部分地并行处理来自前置相机和侧面相机的图像。此外，可至少部分地并行处理来自左侧相机和来自右侧相机的图像。

在处理方法的至少一些实施方案中，至少初始照常处理来自两个前置相机的图像以提供立体图像。根据两个前置相机图像生成深度信息。在一些实施方案中，该深度信息可以是稀疏或“线框”深度信息，其或多或少仅捕获或表示图像中的边缘。然而，一些实施方案可利用设备的深度技术来生成立体图像的更密集、更少稀疏的深度图。

然后，将根据前置相机图像生成的深度信息向上、向下和/或向图像的侧面扩展一定距离。需注意，这可针对左图像和右图像独立地进行，并且在三个方向上扩展的距离可以相同或者可以不同。扩展的距离可以是预设的，或者可基于一个或多个因素动态地确定。假设由前置相机捕获的立体图像作为正在生成的扩展FoV立体图像的第一层或图像平面，则该第一扩展在立体图像的至少一部分周围创建第二层或图像平面。需注意，在一些实施方案中，根据立体图像生成的深度信息可以是稀疏的“线框”深度信息，并且因此深度信息在第二层中可以是稀疏的。

然后通过从第二层的外边缘向外扩展第二距离来生成第三层或图像平面。在至少一些实施方案中，为第三层设置“平坦”深度值(其可以例如是根据生成的深度信息确定的中值深度)。

如所提及的，由侧面相机捕获的图像可以是具有显著“鱼眼”失真的宽FoV图像。因此，在一些实施方案中，为了提供“更平坦”的图像以进行扩展FoV处理，可使侧面相机图像“不失真”以使图像在某种程度上平坦，使得图像中的对象的深度和几何形状更密切地对应于根据前置相机输入生成的立体图像中的对象的深度和几何形状。

侧面相机相对于前置相机的相对位置可以是已知的，或者可使用将侧面相机图像与前置相机图像进行比较的图像处理技术来确定。使用该位置信息，然后可将来自侧面相机图像的像素信息(颜色、纹理等)重新投影到第二层和第三层中的相应像素。然后可合并这三个层。在一些实施方案中，在三个层合并之前或之后至少对第二层进行模糊处理；不对第一层(立体图像)进行模糊处理。

通过使用上述方法将场景扩展到立体图像周围的扩展区中，实施方案可通过提供FoV的场景连接的环境扩展来增加XR体验的沉浸感，这可通过诸如XR系统的头戴式设备(HMD)的设备的显示器提供更自然的环境视图。与常规方法相比，所显示的场景可能更密切地接近正常人类视觉，其中由前置相机立体图像提供的聚焦中心区由场景的扩展部分包围，根据由侧面相机提供的图像，该扩展部分被渲染为略微失焦。

在一些实施方案中，侧面相机可以是灰度相机，并且因此扩展区可以是灰度的。然而，在一些实施方案中，假设前置相机是彩色(RGB)相机，颜色可至少部分地从原始立体图像扩展到扩展区中。在一些实施方案中，可使用对扩展区进行着色的其他方法。然而，在一些实施方案中，侧面相机中的至少一些侧面相机可以是彩色相机，并且因此扩展区可至少部分地包含来自侧面相机图像的颜色。

虽然通常关于XR系统中的头戴式设备(HMD)来描述实施方案，该XR系统包括两个前置相机以及每一侧上的一个或多个相机，但这些方法的实施方案可应用于其他类型的设备和系统中，包括但不限于台式计算机、膝上型计算机、诸如平板计算机、平板电脑和智能电话的移动设备以及无人机。此外，侧面相机可以是或可包括未集成在设备中的相机。

虽然通常在包括两个前置相机和每一侧上的一个或多个相机以生成具有扩展FoV的立体图像的系统中描述了实施方案，但本文描述的方法的实施方案也可应用于仅包括一个前置相机和一个或多个侧面相机以扩展由前置相机捕获的图像的FoV的系统中。

图1A示出了根据一些实施方案的包括具有有限视场(FoV)的前向相机的设备。设备100可包括前向相机(前置相机(front camera/front-facing camera))104A和104B，该前向相机(前置相机)捕获设备100前方的环境的图像或视频。这些图像或视频流可被渲染以通过显示器106提供环境的立体视图。然而，所显示的立体视图的视场(FoV)限于前置相机104A和104B的FoV。

图1B示出了根据一些实施方案的包括前向相机和可被利用以提供扩展FoV的一个或多个其他相机的设备。除了前置相机104A和104B之外，设备100还可包括侧面相机108A和108B。虽然在设备100的每一侧上示出一个侧面相机108，但在一些设备中，在每一侧上可存在多于一个侧面相机108。此外，相机108可位于设备上的其他地方，例如位于设备100的顶部或底部而不是侧面上。在一些实施方案中，可使用不一定集成在设备中的一个或多个相机108。相机108可被配置用于设备100或系统的某一功能；例如，可在确定设备100相对于环境中的对象和表面的位置的定位技术中使用由相机捕获的图像。在一些实施方案中，相机108可具有比前置相机104更宽的FoV，并且可以是或者接近于“鱼眼”相机，并且因此由相机108捕获的图像可具有径向失真。前置相机104通常是彩色(RGB)相机。取决于设备100，侧面相机108可以是灰度相机或彩色相机。各种类型的数字相机技术中的任一种数字相机技术都可用于前置相机104和侧面相机108，并且用于侧面相机108的相机技术可与用于前置相机104的相机技术相同或不同。

由前置相机104捕获的设备100前方的环境的图像或视频可被组合并渲染以生成该环境的立体视图。然而，立体视图的视场(FoV)限于前置相机104A和104B的组合FoV。

在实施方案中，可利用由侧面相机108A和108B捕获的图像来扩展经由显示器106显示给用户的场景的FoV。在一些实施方案中，为了扩展相机104A的FoV，将不失真技术应用于由侧面相机108A捕获的图像以去除图像的径向失真的至少一部分，从而本质上“平坦化”图像，使得图像更接近于由相机104A捕获的图像的平面。根据前置相机104图像和/或根据由设备100的深度感测技术确定的深度信息生成至少稀疏深度图。通过将所生成的深度信息从由相机104A捕获的图像的一个或多个边缘向外扩展出第一距离来创建第二层。通过根据图像信息确定中值深度并将该中值深度向外扩展第二距离来创建第三层。例如使用相机108A相对于相机104A的已知位置，将由相机108A捕获的图像与由相机104A捕获的图像对准。然后将来自相机108A的未失真图像的像素数据重新投影到第二层和第三层中。在一些实施方案中，可将模糊技术应用于扩展区，使得其被渲染为略微失焦。在一些实施方案中，如果由相机108A捕获的图像是灰度图像，则颜色可从由相机104A捕获的图像至少部分地向外扩展。该方法还可应用于由相机104B和108B捕获的图像，并且所得扩展图像可作为扩展立体图像提供给显示器106。如果在侧面上存在多于一个侧面相机108，则来自多个侧面相机108的图像的相应部分可用于填充第二层和第三层的扩展区的相应部分。

图2是根据一些实施方案的用于使用设备的多个相机来提供扩展FoV的系统的高级框图。如图1B所示的设备可包括或可耦合到一个或多个处理器220。处理器220可以是设备100的控制器的部件，或者可以至少部分地是外部设备的部件。处理器220可包括各种类型的处理器、图像信号处理器(ISP)、图形处理单元(GPU)、编码器/解码器(编解码器)、片上系统(SOC)、CPU和/或其他部件中的一者或多者，并且可耦合到或包括存储器。由前置相机104A、104B捕获的图像以及由侧面相机108A和108B捕获的图像被输入到处理器220。诸如来自设备100的深度感测技术的深度数据的其他信息也可被输入到处理器220。

处理器220可执行一个或多个方法以扩展由前置相机204A和204B捕获的立体图像的FoV。这些方法可在软件和/或硬件中实现，并且可至少部分地并行执行。为了扩展相机204A的FoV，将不失真技术应用于由侧面相机208A捕获的图像以去除图像的径向失真的至少一部分，从而本质上“平坦化”图像，使得图像更接近于由相机204A捕获的图像的平面。根据前置相机204图像和/或根据由设备100的深度感测技术确定的深度信息生成至少稀疏深度图。通过将所生成的深度信息从由相机204A捕获的图像的一个或多个边缘向外扩展出第一距离来创建第二层。第一距离可以是预设的或者可以是基于由相机204A捕获的图像的内容动态确定的。通过根据图像信息确定中值深度并将该中值深度向外扩展第二距离来创建第三层。第二距离可以是预设的或者可以是基于由相机204A捕获的图像的内容动态确定的。例如使用相机208A相对于相机204A的已知位置，或另选地使用由相机208A捕获的图像和由相机204A捕获的图像的内容，将这两个图像对准。然后将来自相机208A的未失真图像的像素数据重新投影到第二层和第三层中。在一些实施方案中，可将模糊技术应用于扩展区，使得其被渲染为略微失焦。在一些实施方案中，如果由相机208A捕获的图像是灰度图像，则颜色可从由相机204A捕获的图像至少部分地向外扩展。该方法还可应用于由相机204B和208B捕获的图像，并且所得扩展图像可作为扩展立体图像提供给显示器106。如果在侧面上存在多于一个侧面相机208，则来自多个侧面相机208的图像的相应部分可用于填充第二层和第三层的扩展区的相应部分。

图3是根据一些实施方案的用于根据由前向相机和侧向相机捕获的图像生成具有环境的扩展FoV的图像的方法的流程图。需注意，该方法的至少一些部分可例如由如图2所示的一个或多个处理器并行地执行。

如300处所指示的，设备的前置相机捕获该设备前方的环境的图像。如302处所指示的，根据立体图像对生成深度信息。在一些实施方案中，该深度信息可以是稀疏的线框深度信息。然而，在一些实施方案中，可生成并使用更密集的深度信息。在一些实施方案中，可至少部分地根据设备的深度感测技术的输入来确定深度信息。如304处所指示的，将深度信息扩展超出前置相机图像的边缘第一距离以创建第二层。第一距离可以是预设的或者可以是基于图像的内容动态确定的。如306处所指示的，可计算中值深度并将中值深度扩展超出第二层区第二距离以创建第三层。第二距离可以是预设的或者可以是基于图像的内容动态确定的。要素304和306可针对左前置相机图像和右前置相机图像独立地执行。

如在310处所指示的，侧面相机捕获设备侧面的环境的图像；这些图像可与相应前置相机图像的FoV重叠。每个侧面相机可以是宽FoV相机，并且可以是灰度相机或彩色相机。设备的每一侧上可存在一个或多个侧面相机。如310处所指示的，使侧面相机图像不失真以至少部分地校正径向失真，使得侧面相机图像中的深度更紧密地对应于前置相机图像中的深度。

侧面相机相对于前置相机的相对位置可以是已知的，或者可使用将侧面相机图像与前置相机图像进行比较的图像处理技术来确定。使用该位置信息，可将来自侧面相机图像的像素信息(颜色、纹理等)重新投影到第二层和第三层中的相应像素。如320处所指示的，将来自未失真的侧面相机图像的像素数据重新投影到扩展区中。如322处所指示的，可对扩展区进行模糊处理。需注意，在一些实施方案中，可不执行模糊处理。如330处所指示的，然后可将扩展图像提供给显示面板以显示为扩展立体图像。如从要素322返回到开始的箭头所指示的，这可以是连续方法。然而，在一些实施方案中，如果检测到设备相对于环境的移动，则可仅执行该方法的至少一部分。

图4图形地示出了根据一些实施方案的用于根据由前向相机和侧向相机捕获的图像生成具有环境的扩展FoV的图像的方法。根据前置相机图像404(第一层)生成410深度信息414。在一些实施方案中，深度信息414可以是稀疏的线框深度信息。然而，在一些实施方案中，可生成并使用更密集的深度信息414。在该示例中，深度信息414被示为稀疏或“线框”深度信息，其本质上映射图像404中的边缘处的深度。较暗的区表示未知深度的区；较浅的线是表示已知深度的“线框”。在420处，通过将深度信息414从图像404的一个或多个边缘向外扩展所确定的第一距离来生成第二层，并且通过将中值深度从第二层的边缘向外扩展第二距离来生成第三层。

潜在地与410和420并行地，在430处使侧面相机图像408不失真。然后将来自未失真图像408的像素信息重新投影到第二层和第三层中以生成具有扩展FoV的图像450。可对扩展区进行模糊处理。图像450中的矩形表示前置相机图像404，并且不受重新投影和模糊的影响。矩形周围的区域表示包括第二层和第三层的扩展区。需注意，来自前置相机图像404的边缘扩展到扩展区中并且与图像404中的边缘或多或少地对准，并且扩展区已进行模糊处理。还需注意，右上部分尚未填充(扩展区可以是不规则形状而不是矩形)。该图像450可表示立体对的左图像；类似的方法可应用于右前图像和侧面图像以生成立体对的右图像。

图5示出了根据一些实施方案的具有扩展FoV的图像550。条580图形地表示深度信息。区552表示原始前置相机图像并且是第一层。区554表示其中深度信息580从区552的边缘扩展的第二层。区556表示其中设置中值深度的第三层。需注意，扩展区554和556可以是不规则形状而不是矩形。该图像550可表示立体对的左图像；类似的方法可应用于右前图像和侧面图像以生成立体对的“镜像”右图像。

在一些实施方案中，将深度信息580从区552的边缘扩展可被视为图像修复步骤，这理论上从稀疏深度图的中心向外执行。深度信息向外扩展到区554中基本上是外推或扩展图像修复步骤，其中来自深度图的边缘的深度信息远离深度图的中心以行和列方式向外传播。这在区554中至少提供稀疏深度提示，因为深度图中边缘处的深度被传播到区554中。可至少部分地基于区552的内容来动态地确定深度信息被传播的距离，并且该距离表示区552周围的行和列中的距离，算法确定该距离对于通过图像修复来传播稀疏深度信息是可接受的。在一些实施方案中，“平坦”深度可从区552的边缘扩展。然而，在一些实施方案中，可估计区552的边缘处或附近的深度的斜率，并且可以所估计的斜率继续扩展深度。

如本文所描述的方法和装置的示例应用是在诸如智能电话、平板电脑或平板设备的手持设备以及诸如笔记本计算机的便携式计算设备中的应用。前置相机和侧面相机可附接到设备或集成在设备中，并且设备可由用户在诸如房间的室内环境中或在室外环境中携带或移动。可如参考图1A至图5所描述的那样处理由相机捕获的图像或视频以在设备上或在另一设备上生成扩展FoV图像。图6A和图6B示出了根据一些实施方案的手持设备。

如本文所描述的方法和装置的另一示例应用是在可穿戴或头戴式设备中，诸如在扩展现实(XR)系统中使用的设备中的应用。XR系统可包括可穿戴设备，诸如头戴式耳机、头盔、护目镜或眼镜(在本文中称为头戴式设备(HMD))。HMD可包括显示器，在该显示器上显示XR内容以供用户观看。前置相机和侧面相机可附接到设备或集成在设备中，并且设备可由用户在诸如房间的室内环境中或在室外环境中穿戴。可如参考图1A至图5所描述的那样处理由相机捕获的图像或视频，以生成扩展FoV图像以供在设备上显示。图7A和图7B示出了根据一些实施方案的示例HMD。

如本文所述的方法和装置的另一示例应用是在无人机中的应用。无人机可包括提供前视图的一个或多个相机，以及用于诸如位置检测和导航的其他目的的一个或多个相机。来自无人机的图像或视频可被传输到包括显示器的控制站或控制设备。可使用由其他相机捕获的图像或视频以及如本文描述的用于扩展FoV的方法来扩展视图，而不是仅示出来自一个或多个前置相机的有限FoV。

时间相关视场扩展

在一些实施方案中，用户头部或设备的运动或“抖动”可用于随时间收集可用于扩展FoV的数据。换句话说，多个相机位置可充当随时间的合成光圈以提供场景的更详细信息。例如，前置相机和/或侧面相机的运动可用于随时间收集图像数据，并且所收集的图像数据可用于增加或增强扩展到扩展区中的深度信息以提供更正常的外观。

示例设备

图6A和图6B是示出根据一些实施方案的可实现如图1A至图5中所示的方法和装置的设备的框图。如本文所描述的用于提供扩展FoV图像的方法和装置的示例应用是在诸如智能电话、平板电脑或平板计算机的手持设备800中，或者在诸如笔记本计算机的便携式设备中的应用。图6A示出了示例设备800的侧视图，并且图6B示出了示例设备800的示例顶视图。设备800可包括但不限于位于设备800的“前面”的显示面板或屏幕810、包括一个或多个处理器的控制器860、存储器870、姿态、运动、深度和取向传感器(未示出)、以及包括位于设备800的“后”侧上的面向环境的一个或多个主要的相对窄FoV相机880和一个或多个次要的较宽FoV相机850的相机。设备800可由用户在诸如房间或室外环境的环境中移动。由主相机880捕获的图像或视频可如参考图1A至图5所描述的那样通过由次相机850捕获的图像或视频来增强，以生成扩展FoV图像以供由设备800显示或以供在另一设备上显示。

需注意，如图6A图6B所示的设备800以举例的方式给出，并且不旨在进行限制。在各种实施方案中，设备800的形状、大小和其他特征可不同，并且设备800的部件的位置、数量、类型和其他特征可变化。

图7A和图7B是示出根据一些实施方案的可包括或可附接到如图1A至图5所示的可操纵接收器的另一设备的框图。图7A示出了示例设备900的侧视图，并且图7B示出了示例设备900的顶视图。需注意，如图7A和图7B所示的设备900以举例的方式给出，并且不旨在进行限制。在各种实施方案中，设备900的形状、大小和其他特征可不同，并且设备900的部件的位置、数量、类型和其他特征可变化。

设备900可包括面向用户的显示器910。面向用户的显示器910可实现各种类型的显示技术中的任一种。例如，设备900可包括在由受试者观看的屏幕上显示左图像和右图像的显示系统910，诸如DLP(数字光处理)、LCD(液晶显示器)和LCoS(硅上液晶)技术显示系统。作为另一个示例，显示系统910可以是直接视网膜投影仪系统，该直接视网膜投影仪系统逐像素地将左图像和右图像扫描到受试者的眼睛。为了扫描图像，投影仪生成光束，这些光束被引导到反射部件，这些反射部件将这些光束重新引导到用户的眼睛。在一些实施方案中，设备900可穿戴在用户的头部上，使得显示器910设置在用户的眼睛前方。因此，设备900可以是具有集成显示器910的头戴式设备(HMD)，或者另选地可以是被配置为接受外部不透明显示器(例如，智能电话)的头戴式系统。

设备900可包括收集关于环境的信息(视频、深度信息、照明信息、位置信息等)的一个或多个面向世界的传感器，并且在一些实施方案中还可包括收集关于用户的信息的一个或多个面向用户的传感器(未示出)(例如，眼睛或凝视跟踪传感器、用户的面部的各个部分的视频)。面向用户的传感器可包括但不限于：捕获用户的眼睛的视图的一个或多个眼睛跟踪相机(例如，红外(IR)相机)、捕获用户的面部的各个部分的视图的一个或多个相机(例如，RGB摄像机)和/或捕获用户的面部的深度信息的传感器。面向世界的传感器可包括但不限于：一个或多个前置相机980(例如，可见光RGB摄像机)，该一个或多个前置相机捕获设备900前方的视场中的真实世界环境的相对窄FoV图像；和一个或多个“侧面”相机950，该一个或多个“侧面”相机从设备900的侧面、底部、顶部或甚至前面捕获环境的相对宽FoV图像。由这些侧面相机捕获的图像数据可用于一个或多个目的，例如可作为定位过程的一部分来分析图像以确定设备900相对于环境中的其他表面或对象的位置和距离。在一些实施方案中，面向世界的传感器还可包括捕获环境中的对象和表面的深度信息的传感器。设备900还可包括位姿传感器、运动传感器和取向传感器(未示出)。

控制器960可在设备900中实现，或者另选地可至少部分地由经由有线或无线接口通信地耦接到设备900的外部设备(例如，计算系统或手持设备诸如智能电话、平板电脑或平板计算机)来实现。控制器960可包括各种类型的处理器、图像信号处理器(ISP)、图形处理单元(GPU)、编码器/解码器(编解码器)、片上系统(SOC)、CPU和/或用于处理和渲染由面向世界的传感器、面向用户的传感器(如果存在的话)以及位姿、运动和取向传感器捕获的信息的其他部件中的一者或多者。控制器960可例如被配置为至少部分地基于由面向世界的传感器和面向用户的传感器获得的信息来渲染包括虚拟内容的立体帧，并且可将所渲染的帧提供给显示器910。

存储器970可在设备900中实现，或者另选地可至少部分地由经由有线或无线接口通信地耦接到设备900的外部设备(例如，计算系统、智能电话等)来实现。存储器970可例如用于记录由传感器捕获的信息，存储能够由控制器960执行的程序指令，以及存储由控制器使用的数据。存储器970可包括任何类型的存储器，诸如动态随机存取存储器(DRAM)、同步DRAM(SDRAM)、双数据速率(DDR、DDR2、DDR3等)SDRAM(包括SDRAM的移动版本，诸如mDDR3等，或SDRAM的低功率版本，诸如LPDDR2等)、RAMBUSDRAM(RDRAM)、静态RAM(SRAM)等。在一些实施方案中，一个或多个存储器设备可耦接到电路板上以形成存储器模块，诸如单列直插存储器模块(SIMM)、双列直插存储器模块(DIMM)等。另选地，这些设备可与实现系统的集成电路在芯片堆叠配置、封装堆叠配置或者多芯片模块配置中安装。

如图7A和图7B所示的设备900的实施方案可例如用于扩展现实(XR)应用以将增强或混合现实视图提供给用户。设备900可包括收集关于环境的信息(视频、深度信息、照明信息、镜面反射表面信息等)的一个或多个传感器；传感器可将所收集的信息提供给设备900的控制器960。传感器可包括一个或多个前置可见光相机(例如，RGB摄像机)，该一个或多个前置可见光相机捕获环境的视频，该视频可用于向用户提供其真实环境的虚拟视图。在一些实施方案中，由前置可见光相机捕获的真实环境的视频流可由设备900的控制器960处理，以至少部分地基于所生成的3D映射信息来渲染包括覆盖在真实环境的视图上的虚拟内容的增强或混合现实帧，并且所渲染的帧可被提供给显示器910。在一些实施方案中，由一个或多个次相机或侧面相机950捕获的视频或图像可用于使用如本文参考图1A至图5所述的方法为根据由前置相机980捕获的图像生成的帧提供扩展FoV。

作为另一示例，如图7A和图7B所示的设备900的实施方案可用于虚拟现实(VR)应用中以将虚拟现实视图提供给用户。VR应用允许用户体验沉浸式人工环境和/或与沉浸式人工环境进行交互，使得用户感觉他们好像身处于该环境中。在一些实施方案中，设备900的控制器960可至少部分地基于所生成的3D映射信息来渲染虚拟现实帧，并且所渲染的帧可被提供给显示器910。

设备900例如可以是头戴式设备(HMD)，诸如在扩展现实(XR)系统中使用的HMD。在一些实施方案中，HMD可包括透明的面向用户的显示器910(例如，玻璃或塑料透镜)，用户通过该显示器观看真实环境，并且经由该显示器经由投影系统将虚拟内容覆盖在用户的环境视图上。另选地，在一些实施方案中，HMD可包括不透明的面向用户的显示器910，在该显示器上显示XR内容以供用户观看。作为另一替代方案，头戴式系统可被配置为接受外部不透明显示器(例如，智能电话)。

扩展现实

真实环境是指人可以在不使用设备的情况下感知(例如，看、听、感觉)的环境。例如，办公环境可以包括家具诸如桌子、椅子和档案柜；结构件，诸如门、窗和墙壁；和对象诸如电子设备、书籍和书写工具。真实环境中的人可以感知环境的各个方面，并且可以能够与环境中的对象交互。

另一方面，扩展现实(XR)环境是使用电子设备部分或完全模拟的。例如，在XR环境中，用户可以看到或听到计算机生成的内容，该内容部分地或全部地代替用户对真实环境的感知。另外，用户可以与XR环境交互。例如，可以跟踪用户的移动，并且XR环境中的虚拟对象可以响应于用户的移动而改变。又如，向用户呈现XR环境的设备可确定用户正在将他们的手移向虚拟对象的虚拟位置，并且可以作为响应而移动虚拟对象。另外，可跟踪用户的头部位置和/或眼睛注视，并且虚拟对象可以移动以留在用户的视线中。

XR的示例包括增强现实(AR)、虚拟现实(VR)和混合现实(MR)。XR可被视为一系列现实，其中VR一方面让用户完全沉浸其中，用虚拟内容取代真实环境，另一方面用户无需设备辅助即可体验真实环境。介于两者之间的是AR和MR，它们将虚拟内容与真实环境混合在一起。

VR一般是指一种让用户完全沉浸其中并取代用户真实环境的XR类型。例如，可使用头戴式设备(HMD)将VR呈现给用户，该头戴式设备可包括用于将虚拟视觉环境呈现给用户的近眼显示器和用于呈现虚拟可听环境的头戴式耳机。在VR环境中，用户的移动可被跟踪并导致用户对环境的观察发生变化。例如，佩戴HMD的用户可以在真实环境中行走，而用户将看起来像是在他们正在经历的虚拟环境中行走。另外，用户可以由虚拟环境中的化身来表示，并且HMD可以使用各种传感器来跟踪用户的动作，从而为用户的化身设置动画。

AR和MR是指包括真实环境和虚拟内容的某种混合的一类XR。例如，用户可能手持平板电脑，该平板电脑包括捕获用户的真实环境的图像的相机。平板电脑可具有显示与虚拟对象的图像混合的真实环境的图像的显示器。AR或MR也可以通过HMD呈现给用户。HMD可具有不透明显示器，或者可使用透传显示器，这允许用户通过显示器看到真实环境，同时显示覆盖在真实环境上的虚拟内容。

存在许多类型的设备允许用户体验各种形式的XR。示例包括HMD、平视显示器(HUD)、基于投影仪的系统、智能窗、平板电脑、台式或膝上型计算机、智能手表、耳塞/耳机、可包括触觉设备的控制器、以及许多其他设备。如上文所提及，HMD或上文所列举的其它设备中的任意者可包括不透明显示器(例如，液晶显示器(LCD)、有机发光二极管(OLED)显示器或微LED显示器)或透视显示器。透视显示器可具有介质，光通过该介质被引导到用户的眼睛。介质可包括波导、全息介质、光学组合器、光学反射器和其它光学部件中的一者或多者。可利用显示源诸如OLED、微LED、硅上液晶(LCOS)、光扫描器、数字光投影(DLP)来生成图像并通过介质传播图像。

用于XR的设备还可包括音频输出设备，诸如向用户呈现音频(包括空间音频)的扬声器、刺激用户的触觉的触觉设备、以及其他刺激用户的任何感觉的设备。另外，设备可包括众多传感器，包括相机、麦克风、深度传感器、眼睛跟踪传感器、环境传感器、输入传感器、以及其它传感器以允许设备理解用户及真实环境。

以下条款描述了与附图和以上描述一致的示例实施方案。

条款1.一种系统，包括：

一个或多个主相机，该一个或多个主相机被配置为捕获环境的一个或多个第一图像；

一个或多个次相机，该一个或多个次相机被配置为从与该一个或多个主相机不同的视点捕获该环境的一个或多个第二图像；和

一个或多个处理器，该一个或多个处理器被配置为：

确定该一个或多个第一图像的深度信息；

将该深度信息从该一个或多个第一图像的一个或多个边缘向外扩展以生成扩展区；以及

将来自该一个或多个第二图像的像素数据重新投影到该扩展区中以生成该环境中的场景的扩展视场(FoV)图像。

条款2.根据条款1所述的系统，其中为了将该深度信息从该一个或多个第一图像的一个或多个边缘向外扩展以生成扩展区，该一个或多个处理器被配置为：

将该深度信息从该一个或多个第一图像的该一个或多个边缘向外扩展第一距离以生成第二层，其中该一个或多个第一图像是第一层；以及将根据该深度信息确定的中值深度从该第二层的一个或多个边缘向外扩展第二距离以生成第二层。

条款3.根据条款2所述的系统，其中根据该一个或多个第一图像的内容动态地确定该第一距离和该第二距离。

条款4.根据条款2所述的系统，其中为了将该深度信息从该一个或多个第一图像的该一个或多个边缘向外扩展第一距离以生成第二层，其中该一个或多个第一图像是第一层，该深度信息在图像修复步骤中扩展，其中来自该深度图的该边缘的深度信息远离该深度图的中心以行和列方式向外传播。

条款5.根据条款1所述的系统，其中该一个或多个处理器被配置为在所述重新投影之前使该一个或多个第二图像不失真。

条款6.根据条款1所述的系统，其中该一个或多个处理器被配置为对该扩展区进行模糊处理。

条款7.根据条款1所述的系统，其中该一个或多个主相机包括设备上的两个前置相机，该两个前置相机提供该场景的立体图像，并且其中该一个或多个次相机包括该设备的至少两个侧上的至少一个相机。

条款8.根据条款7所述的系统，其中该设备是头戴式设备(HMD)，并且其中该一个或多个处理器被配置为将该扩展FoV图像提供给该HMD的显示面板以显示给用户。

条款9.根据条款7所述的系统，其中该设备的该至少两个侧上的该相机包括与该两个前置相机相比的更宽FoV相机。

条款10.根据条款7所述的系统，其中由该设备的第一侧上的至少一个相机捕获的该图像用于扩展该两个前置相机中的第一个前置相机的该FoV，并且其中由该设备的第二侧上的至少一个相机捕获的该图像用于扩展该两个前置相机中的第二个前置相机的该FoV。

条款11.根据条款1所述的系统，其中该深度信息是稀疏深度信息，其提供由该一个或多个主相机捕获的场景中的边缘的深度。

条款12.根据条款1所述的系统，其中该一个或多个次相机包括灰度相机，并且其中该一个或多个处理器还被配置为将颜色从由该一个或多个主相机捕获的图像扩展到该扩展区中。

条款13.一种方法，包括：

由一个或多个主相机捕获环境的一个或多个第一图像；

由一个或多个次相机从与该一个或多个主相机不同的视点捕获该环境的一个或多个第二图像；以及

由一个或多个处理器执行：

确定该一个或多个第一图像的深度信息；

将该深度信息从该一个或多个第一图像的一个或多个边缘向外扩展以生成扩展区；和

条款14.根据条款13所述的方法，其中将该深度信息从该一个或多个第一图像的一个或多个边缘向外扩展以生成扩展区包括：

将该深度信息从该一个或多个第一图像的该一个或多个边缘向外扩展第一距离；以及

将根据该深度信息确定的中值深度从该第二层的一个或多个边缘向外扩展第二距离。

条款15.根据条款14所述的方法，还包括根据该一个或多个第一图像的内容动态地确定该第一距离和该第二距离。

条款16.根据条款13所述的方法，还包括在所述重新投影之前使该一个或多个第二图像不失真。

条款17.根据条款13所述的方法，还包括对该扩展区进行模糊处理。

条款18.根据条款13所述的方法，其中该一个或多个主相机包括设备上的两个前置相机，该两个前置相机提供该场景的立体图像，并且其中该一个或多个次相机包括该设备的至少两个侧上的至少一个相机。

条款19.根据条款18所述的方法，其中该设备是头戴式设备(HMD)，并且其中该一个或多个处理器被配置为将该扩展FoV图像提供给该HMD的显示屏以显示给用户。

条款20.根据条款18所述的方法，其中该设备的该至少两个侧上的该相机包括与该两个前置相机相比的更宽FoV相机。

条款21.根据条款18所述的方法，其中将来自该一个或多个第二图像的像素数据重新投影到该扩展区中以生成该环境中的场景的扩展视场(FoV)图像包括：

将来自由该设备的第一侧上的至少一个相机捕获的图像的像素数据重新投影到由该两个前置相机中的第一个前置相机捕获的图像周围的扩展区中；以及

将来自由该设备的第二侧上的至少一个相机捕获的图像的像素数据重新投影到由该两个前置相机中的第二个前置相机捕获的图像周围的扩展区中。

条款22.根据条款13所述的方法，其中该深度信息是稀疏深度信息，其提供由该一个或多个主相机捕获的场景中的边缘的深度。

条款23.根据条款13所述的方法，其中该一个或多个次相机包括灰度相机，该方法还包括将颜色从由该一个或多个主相机捕获的图像扩展到该扩展区中。

条款24.一种设备，包括：

两个前置相机，该两个前置相机被配置为捕获环境中的场景的立体图像；

该设备的至少两个侧上的至少一个相机，该至少一个相机被配置为捕获该场景的附加图像；和

一个或多个处理器，该一个或多个处理器被配置为渲染该场景的扩展视场(FoV)立体图像，其中为了渲染该扩展FoV立体图像，该

一个或多个处理器被配置为：

确定由该前置相机捕获的该立体图像的深度信息；

将该深度信息从该立体图像中的每个立体图像的该一个或多个边缘向外扩展第一距离以生成第二层，其中该立体图像是第一层；

将根据该深度信息确定的中值深度从该第二层的一个或多个边缘向外扩展第二距离以生成第三层；

将来自由该设备的第一侧上的至少一个相机捕获的该图像的像素数据重新投影到由该两个前置相机中的第一个前置相机捕获的图像周围的该第二层和该第三层中；以及

将来自由该设备的第二侧上的至少一个相机捕获的该图像的像素数据重新投影到由该两个前置相机中的第二个前置相机捕获的图像周围的该第二层和该第三层中。

条款25.根据条款24所述的设备，其中根据由该前置相机捕获的该立体图像的内容动态地确定该第一距离和该第二距离。

条款26.根据条款24所述的设备，其中该一个或多个处理器被配置为在所述重新投影之前使该场景的该附加图像不失真。

条款27.根据条款24所述的设备，其中该一个或多个处理器被配置为对该扩展FoV立体图像中的该第二层和该第三层进行模糊处理。

条款28.根据条款24所述的设备，其中该设备是头戴式设备(HMD)，并且其中该一个或多个处理器被配置为将该扩展FoV立体图像提供给该HMD的显示面板以显示给用户。

条款29.根据条款24所述的设备，其中该深度信息是稀疏深度信息，其提供由该前置相机捕获的场景中的边缘的深度。

条款30.根据条款24所述的设备，其中该附加图像包括灰度图像，并且其中该一个或多个处理器还被配置为将颜色从该立体图像扩展到该立体图像周围的该第二层和该第三层中。

在不同的实施方案中，本文所述的方法可以在软件、硬件或它们的组合中实现。此外，可改变方法的框的次序，并且可对各种要素进行添加、重新排序、组合、省略、修改等。对于受益于本公开的本领域的技术人员，显然可做出各种修改和改变。本文所述的各种实施方案旨在为例示的而非限制性的。许多变型、修改、添加和改进是可能的。因此，可为在本文中被描述为单个示例的部件提供多个示例。各种部件、操作和数据存储库之间的界限在一定程度上是任意性的，并且在具体的例示性配置的上下文中示出了特定操作。预期了功能的其他分配，它们可落在所附权利要求的范围内。最后，被呈现为示例配置中的分立部件的结构和功能可被实现为组合的结构或部件。这些和其他变型、修改、添加和改进可落入如以下权利要求书中所限定的实施方案的范围内。

Claims

1.一种系统，包括：

一个或多个主相机，所述一个或多个主相机被配置为捕获环境的一个或多个第一图像；

一个或多个次相机，所述一个或多个次相机被配置为从与所述一个或多个主相机不同的视点捕获所述环境的一个或多个第二图像；和

一个或多个处理器，所述一个或多个处理器被配置为：

确定所述一个或多个第一图像的深度信息；

将所述深度信息从所述一个或多个第一图像的一个或多个边缘向外扩展以生成扩展区；以及

将来自所述一个或多个第二图像的像素数据重新投影到所述扩展区中以生成所述环境中的场景的扩展视场(FoV)图像。

2.根据权利要求1所述的系统，其中为了将所述深度信息从所述一个或多个第一图像的一个或多个边缘向外扩展以生成扩展区，所述一个或多个处理器被配置为：

将所述深度信息从所述一个或多个第一图像的所述一个或多个边缘向外扩展第一距离以生成第二层，其中所述一个或多个第一图像是第一层；以及

将根据所述深度信息确定的中值深度从所述第二层的一个或多个边缘向外扩展第二距离以生成第二层。

3.根据权利要求2所述的系统，其中根据所述一个或多个第一图像的内容动态地确定所述第一距离和所述第二距离。

4.根据权利要求2所述的系统，其中为了将所述深度信息从所述一个或多个第一图像的所述一个或多个边缘向外扩展第一距离以生成第二层，其中所述一个或多个第一图像是第一层，所述深度信息在图像修复步骤中扩展，其中来自所述深度图的所述边缘的深度信息远离所述深度图的中心以行和列方式向外传播。

5.根据权利要求1所述的系统，其中所述一个或多个处理器被配置为在所述重新投影之前使所述一个或多个第二图像不失真。

6.根据权利要求1所述的系统，其中所述一个或多个处理器被配置为对所述扩展区进行模糊处理。

7.根据权利要求1所述的系统，其中所述一个或多个主相机包括设备上的两个前置相机，所述两个前置相机提供所述场景的立体图像，并且其中所述一个或多个次相机包括所述设备的至少两个侧上的至少一个相机。

8.根据权利要求7所述的系统，其中所述设备是头戴式设备(HMD)，并且其中所述一个或多个处理器被配置为将所述扩展FoV图像提供给所述HMD的显示面板以显示给用户。

9.根据权利要求7所述的系统，其中所述设备的所述至少两个侧上的所述相机包括与所述两个前置相机相比的更宽FoV相机。

10.根据权利要求7所述的系统，其中由所述设备的第一侧上的至少一个相机捕获的所述图像用于扩展所述两个前置相机中的第一个前置相机的所述FoV，并且其中由所述设备的第二侧上的至少一个相机捕获的所述图像用于扩展所述两个前置相机中的第二个前置相机的所述FoV。

11.根据权利要求1所述的系统，其中所述深度信息是稀疏深度信息，其提供由所述一个或多个主相机捕获的场景中的边缘的深度。

12.根据权利要求1所述的系统，其中所述一个或多个次相机包括灰度相机，并且其中所述一个或多个处理器还被配置为将颜色从由所述一个或多个主相机捕获的图像扩展到所述扩展区中。

13.一种方法，包括：

由一个或多个主相机捕获环境的一个或多个第一图像；

由一个或多个次相机从与所述一个或多个主相机不同的视点捕获所述环境的一个或多个第二图像；以及

由一个或多个处理器执行：

确定所述一个或多个第一图像的深度信息；

14.根据权利要求13所述的方法，其中将所述深度信息从所述一个或多个第一图像的一个或多个边缘向外扩展以生成扩展区包括：

将所述深度信息从所述一个或多个第一图像的所述一个或多个边缘向外扩展第一距离；以及

将根据所述深度信息确定的中值深度从所述第二层的一个或多个边缘向外扩展第二距离。

15.根据权利要求14所述的方法，还包括根据所述一个或多个第一图像的内容动态地确定所述第一距离和所述第二距离。

16.根据权利要求13所述的方法，还包括在所述重新投影之前使所述一个或多个第二图像不失真。

17.根据权利要求13所述的方法，还包括对所述扩展区进行模糊处理。

18.根据权利要求13所述的方法，其中所述一个或多个主相机包括设备上的两个前置相机，所述两个前置相机提供所述场景的立体图像，并且其中所述一个或多个次相机包括所述设备的至少两个侧上的至少一个相机。

19.根据权利要求18所述的方法，其中将来自所述一个或多个第二图像的像素数据重新投影到所述扩展区中以生成所述环境中的场景的扩展视场(FoV)图像包括：

将来自由所述设备的第一侧上的至少一个相机捕获的图像的像素数据重新投影到由所述两个前置相机中的第一个前置相机捕获的图像周围的扩展区中；以及

将来自由所述设备的第二侧上的至少一个相机捕获的图像的像素数据重新投影到由所述两个前置相机中的第二个前置相机捕获的图像周围的扩展区中。

20.一种设备，包括：

两个前置相机，所述两个前置相机被配置为捕获环境中的场景的立体图像；

所述设备的至少两个侧上的至少一个相机，所述至少一个相机被配置为捕获所述场景的附加图像；和

一个或多个处理器，所述一个或多个处理器被配置为渲染所述场景的扩展视场(FoV)立体图像，其中为了渲染所述扩展FoV立体图像，所述一个或多个处理器被配置为：

确定由所述前置相机捕获的所述立体图像的深度信息；

将所述深度信息从所述立体图像中的每个立体图像的所述一个或多个边缘向外扩展第一距离以生成第二层，其中所述立体图像是第一层；

将根据所述深度信息确定的中值深度从所述第二层的一个或多个边缘向外扩展第二距离以生成第三层；

将来自由所述设备的第一侧上的至少一个相机捕获的所述图像的像素数据重新投影到由所述两个前置相机中的第一个前置相机捕获的图像周围的所述第二层和所述第三层中；以及

将来自由所述设备的第二侧上的至少一个相机捕获的所述图像的像素数据重新投影到由所述两个前置相机中的第二个前置相机捕获的图像周围的所述第二层和所述第三层中。