CN118196135A

CN118196135A - 图像处理方法、装置、存储介质、设备及程序产品

Info

Publication number: CN118196135A
Application number: CN202410316474.0A
Authority: CN
Inventors: 刘浚源
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2024-03-19
Filing date: 2024-03-19
Publication date: 2024-06-14

Abstract

本申请公开一种图像处理方法、装置、存储介质、设备及程序产品，该方法包括：获取双目图像序列，双目图像序列中的每帧双目图像包括左图像和右图像；对每帧双目图像中的左图像和右图像进行图像合成处理，得到每帧双目图像对应的合成图像，其中，每帧合成图像中包含有左图像和右图像之间的重叠区域；根据重叠区域进行局部运动检测，获取运动检测结果。本申请通过获取双目图像序列、进行图像合成处理，以及基于双目图像对应的合成图像中的重叠区域进行局部运动检测，减少了设备计算负担，提升了检测效率。

Description

图像处理方法、装置、存储介质、设备及程序产品

技术领域

本申请涉及图像处理技术领域，具体涉及一种图像处理方法、装置、存储介质、设备及程序产品。

背景技术

随着科技的不断发展，扩展现实(Extended Reality，XR)技术已成为当今的热门领域，其应用场景日益广泛。XR技术涵盖了虚拟现实(Virtual Reality，VR)、增强现实(Augmented Reality，AR)和混合现实(Mixed Reality，MR)等多种表现形式。在这些技术中，透视功能(See-through)逐渐受到了关注和应用。透视功能通过采集周围环境的实时视图并在屏幕上显示，为用户带来一种仿佛能够直接透过头戴式显示设备看到周围真实世界的感觉。在See-through的应用中，运动可以被分为两类：全局运动(Global motion)和局部运动(Local motion)。

全局运动(Global motion)是指整个头戴式显示设备的运动。全局运动可以通过惯性传感器(Inertial Measurement Unit，IMU)的数据来描述在六自由度(6degree offreedom，6DoF)的平动和转动状态。

局部运动(Local motion)是指在设备静止不动的情况下，See-through场景中的运动目标的运动。

对于XR设备来说，全局运动的检测至关重要，因为它是打造优质虚拟现实体验的核心要素。全局运动不仅影响See-through的网格(Mesh)重建和空间场景重构，还与视场角(FoV，Field of View)的随动、图像噪声效果(如多帧画质时域降噪-MCTF)以及图像防抖效果等紧密相关。VR设备上的IMU传感器和6DoF传感器正是用于捕捉这些全局运动。

然而，与全局运动检测相比，局部运动检测在当前的XR设备中仍是一个空白。这主要是由于受到功耗和算力等方面的限制，目前的照相机(camera)软件架构中没有现成的局部运动检测模块可供使用。另外，由于See-through场景对图像处理速度的要求极高，从像素到像素(Pixel to Pixel Time，PTP)时间(PTP时间指的是从图像传感器捕获像素信息到这些像素信息被显示在屏幕上的时间)如果大于30ms，用户会感觉到失真；若大于50ms，则可能导致用户产生眩晕感。因此，如果按照传统的做法，在图像信号处理器(Image SignalProcessor，ISP)中串行地增加对彩色(RGB)图像的局部运动检测，不仅会大幅增加模块到像素(Module to Pixel Time，MTP)时间(MTP时间指的是从图像处理模块的输入到最终像素显示在屏幕上的时间)，还可能严重影响用户的体验。

综上所述，尽管全局运动检测在XR设备中已得到广泛应用，但由于技术限制和用户体验的需求，局部运动检测在当前的XR设备中仍面临挑战。

发明内容

本申请实施例提供一种图像处理方法、装置、存储介质、设备及程序产品，可以基于双目图像对应的合成图像中的重叠区域进行局部运动检测，减少了设备计算负担，提升了检测效率。

一方面，本申请实施例提供一种图像处理方法，所述方法包括：

获取双目图像序列，所述双目图像序列中的每帧双目图像包括左图像和右图像；对每帧所述双目图像中的所述左图像和所述右图像进行图像合成处理，得到每帧所述双目图像对应的合成图像，其中，每帧所述合成图像中包含有所述左图像和所述右图像之间的重叠区域；根据所述重叠区域进行局部运动检测，获取运动检测结果。

另一方面，本申请实施例提供一种图像处理装置，所述装置包括：

第一获取单元，用于获取双目图像序列，所述双目图像序列中的每帧双目图像包括左图像和右图像；

第一处理单元，用于对每帧所述双目图像中的所述左图像和所述右图像进行图像合成处理，得到每帧所述双目图像对应的合成图像，其中，每帧所述合成图像中包含有所述左图像和所述右图像之间的重叠区域；

检测单元，用于根据所述重叠区域进行局部运动检测，获取运动检测结果。

另一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上任一实施例所述的图像处理方法。

另一方面，本申请实施例提供一种终端设备，所述终端设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行如上任一实施例所述的图像处理方法。

另一方面，本申请实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上任一实施例所述的图像处理方法。

本申请实施例通过获取双目图像序列，双目图像序列中的每帧双目图像包括左图像和右图像，该步骤充分利用了双目视觉的优势，每帧双目图像包含左图像和右图像，这两幅图像分别从不同角度捕捉同一场景，为后续的图像合成处理提供了丰富的信息；对每帧双目图像中的左图像和右图像进行图像合成处理，得到每帧双目图像对应的合成图像，其中，每帧合成图像中包含有左图像和右图像之间的重叠区域，该步骤不仅减少了后续处理的复杂度，而且通过合成处理，使得合成图像中包含了左图像和右图像之间的重叠区域，这一重叠区域包含了关键的视觉信息，为后续的局部运动检测提供了重要的依据；根据重叠区域进行局部运动检测，获取运动检测结果，该步骤相较于传统的全局运动检测方式，本申请实施例的局部运动检测更加高效和精准，通过聚焦于重叠区域，减少了不必要的计算量，降低了设备计算负担，提升了检测效率，同时，由于重叠区域包含了丰富的视觉信息，使得运动检测结果更加准确可靠。本申请实施例通过获取双目图像序列、进行图像合成处理，以及基于双目图像对应的合成图像中的重叠区域进行局部运动检测，减少了设备计算负担，提升了检测效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的图像处理方法的流程示意图。

图2为本申请实施例提供的图像处理方法的第一应用场景示意图。

图3为本申请实施例提供的图像处理方法的第二应用场景示意图。

图4为本申请实施例提供的图像处理方法的第三应用场景示意图。

图5为本申请实施例提供的图像处理方法的第四应用场景示意图。

图6为本申请实施例提供的图像处理方法的第五应用场景示意图。

图7为本申请实施例提供的图像处理装置的结构示意图。

图8为本申请实施例提供的终端设备的第一结构示意图。

图9为本申请实施例提供的终端设备的第二结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例可以应用于扩展现实(Extended Reality，XR)、虚拟现实(VirtualReality，VR)、增强现实(Augmented Reality，AR)、混合现实(Mixed Reality，MR)等各种应用场景。

首先，对实施例进行描述的过程中出现的部分名词或者术语作如下解释：

虚拟场景，是应用程序在终端或服务器上运行时显示(或提供)的虚拟场景。可选地，该虚拟场景是对真实世界的仿真环境，或者是半仿真半虚构的虚拟环境，或者是纯虚构的虚拟环境。虚拟场景是二维虚拟场景和三维虚拟场景中的任意一种，虚拟环境可以为天空、陆地、海洋等，其中，该陆地包括沙漠、城市等环境元素。其中，虚拟场景为用户控制等虚拟对象完整游戏逻辑的场景。

虚拟对象，是指在虚拟场景中可被控制的动态对象。可选地，该动态对象可以是虚拟人物、虚拟动物、动漫人物等。该虚拟对象是玩家通过输入设备进行控制的角色，或者是通过训练设置在虚拟环境对战中的人工智能

(Artificial Intelligence，AI)，或者是设置在虚拟场景对战中的非玩家角色(Non Player Character，NPC)。可选地，该虚拟对象是在虚拟场景中进行竞技的虚拟人物。可选地，该虚拟场景对战中的虚拟对象的数量是预设设置的，或者是根据加入对战的客户端的数量动态确定的，本申请实施例对此不作限定。在一种可能实现方式中，用户能够控制虚拟对象在该虚拟场景中进行移动，例如，控制虚拟对象跑动、跳动、爬行等，也能够控制虚拟对象使用应用程序所提供的技能、虚拟道具等与其他虚拟对象进行战斗。可选的，虚拟对象也可以是指在虚拟场景中可被交互的静态对象，比如虚拟物体、虚拟控件、界面元素、虚拟道具等。

扩展现实(Extended Reality，XR)，是包括虚拟现实(Virtual Reality，VR)、增强现实(Augumented Reality，AR)及混合现实(Mixed Reality，MR)的概念，表示制成虚拟世界与现实世界相连接的环境，用户能够与该环境实时交互的技术。

虚拟现实(Virtual Reality，VR)，创建和体验虚拟世界的技术，计算生成一种虚拟环境，是一种多源信息(本文中提到的虚拟现实至少包括视觉感知，还可包括听觉感知、触觉感知、运动感知，甚至还包括味觉感知、嗅觉感知等)，实现虚拟环境的融合的、交互式的三维动态视景和实体行为的仿真，使用户沉浸到模拟的三维环境中，实现在诸如地图、游戏、视频、教育、医疗、模拟、协同训练、销售、协助制造、维护和修复等多种虚拟环境的应用。

增强现实(Augmented Reality，AR)，一种在相机采集图像的过程中，实时地计算相机在现实世界(或称三维世界、真实世界)中的相机姿态参数，根据该相机姿态参数在相机采集的图像上添加虚拟元素的技术。虚拟元素包括但不限于：图像、视频和三维模型。AR技术的目标是在屏幕上把虚拟世界套接在现实世界上进行互动。

混合现实(Mixed Reality，MR)，将计算机创建的感官输入(例如，虚拟对象)与来自物理布景的感官输入或其表示集成的模拟布景，一些MR布景中，计算机创建的感官输入可以适应于来自物理布景的感官输入的变化。另外，用于呈现MR布景的一些电子系统可以监测相对于物理布景的取向和/或位置，以使虚拟对象能够与真实对象(即来自物理布景的物理元素或其表示)交互。例如系统可监测运动，使得虚拟植物相对于物理建筑物看起来是静止的。

增强虚拟(Augmented Virtuality，AV)：AV布景是指计算机创建布景或虚拟布景并入来自物理布景的至少一个感官输入的模拟布景。来自物理布景的一个或多个感官输入可为物理布景的至少一个特征的表示。例如，虚拟对象可呈现由一个或多个成像传感器捕获的物理元素的颜色。又如，虚拟对象可呈现出与物理布景中的实际天气条件相一致的特征，如经由天气相关的成像传感器和/或在线天气数据所识别的。在另一个示例中，增强现实森林可具有虚拟树木和结构，但动物可具有从对物理动物拍摄的图像精确再现的特征。

虚拟视场，用户在虚拟现实设备中通过透镜所能够感知到的虚拟环境中的区域，使用虚拟视场的视场角(Field Of View，FOV)来表示所感知到区域。

虚拟现实设备，实现虚拟现实效果的终端，通常可以提供为眼镜、头盔式显示器(Head Mount Display，HMD)、隐形眼镜的形态，以用于实现视觉感知和其他形式的感知，当然虚拟现实设备实现的形态不限于此，根据需要可以进一步小型化或大型化。

本申请实施例记载的头戴式显示设备可以为虚拟现实设备，本申请实施例记载的虚拟现实设备可以包括但不限于如下几个类型：

电脑端虚拟现实(PCVR)设备，利用PC端进行虚拟现实功能的相关计算以及数据输出，外接的电脑端虚拟现实设备利用PC端输出的数据实现虚拟现实的效果。

移动虚拟现实设备，支持以各种方式(如设置有专门的卡槽的头戴式显示器)设置移动终端(如智能手机)，通过与移动终端有线或无线方式的连接，由移动终端进行虚拟现实功能的相关计算，并输出数据至移动虚拟现实设备，例如通过移动终端的APP观看虚拟现实视频。

一体机虚拟现实设备，具备用于进行虚拟功能的相关计算的处理器，因而具备独立的虚拟现实输入和输出的功能，不需要与PC端或移动终端连接，使用自由度高。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。

本申请各实施例提供了一种图像处理方法，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行；本申请实施例以图像处理方法由终端设备执行为例来进行说明。

请参阅图1至图6，图1为本申请实施例提供的图像处理方法的流程示意图，图2至图6均为本申请实施例提供的图像处理方法的应用场景示意图。该方法包括以下步骤110至步骤130：

步骤110，获取双目图像序列，所述双目图像序列中的每帧双目图像包括左图像和右图像。

在一些实施例中，所述获取双目图像序列，包括：获取目标双目摄像头采集的双目图像序列，所述双目图像序列包括第t-1帧双目图像和第t帧双目图像。

在一些实施例中，所述目标双目摄像头为单色双目摄像头，所述左图像为单色左图像，所述右图像为单色右图像。

其中，双目图像序列是由一系列双目图像组成的连续帧序列，其中每一帧双目图像都包含左图像和右图像。左图像和右图像分别由双目摄像头的两个镜头从不同视角同时拍摄得到，它们之间存在一定的视差，这种视差为后续的图像处理提供了丰富的空间信息。

其中，在实际应用中，需要选择一个目标双目摄像头，该摄像头具有两个并排的镜头，它们分别对应左图像和右图像的获取。目标双目摄像头可以是专门设计用于机器视觉或计算机视觉任务的专业设备，也可以是具备双目视觉功能的普通摄像头。

其中，启动目标双目摄像头进行图像采集。摄像头会根据设定的帧率(如每秒30帧、60帧等)连续拍摄场景，生成一系列的双目图像。每一帧双目图像都包含左图像和右图像，这两幅图像分别由摄像头的两个镜头拍摄得到，它们之间由于视角不同而存在视差。

其中，通过目标双目摄像头，可以获取到一系列连续的双目图像，即双目图像序列。该序列中的每一帧都包含两个图像：一个是左图像，另一个是右图像。左图像和右图像分别由双目摄像头的左镜头和右镜头捕捉得到，它们分别反映了同一场景从左侧和右侧两个不同视角的视图。

在获取双目图像序列的过程中，还需要注意一些技术细节。例如，要确保目标双目摄像头的稳定性和图像质量，以避免由于抖动或噪声导致的图像失真。此外，还需要对目标双目摄像头的标定和校准进行精确控制，以确保左图像和右图像之间的对应关系准确无误。

此外，根据实际应用场景和需求的不同，目标双目摄像头可以是单色双目摄像头，也可以是彩色双目摄像头。单色双目摄像头通常用于对图像颜色信息要求不高但对计算效率和实时性要求较高的场景，如机器人导航模拟、自动驾驶模拟、六自由度(6DoF)建系等场景。而彩色摄像头则可以提供更丰富的颜色信息，有助于在更复杂的场景中进行准确的图像分析和理解。

在本申请实施例中，目标双目摄像头可以为单色双目摄像头。这意味着该单色双目摄像头捕捉的双目图像是单色的，而不是彩色的。单色双目摄像头相较于彩色双目摄像头，往往具有更高的分辨率和更快的处理速度，更适合于对实时性和精度要求较高的应用场景。因此，在这种情况下，获取的左图像和右图像都是单色的，它们只包含灰度信息，而不包含色彩信息。

此外，为了更精确地分析运动状态，通常会关注连续帧之间的变化。因此，在获取双目图像序列时，获取第t-1帧双目图像和第t帧双目图像。这两帧双目图像分别代表了时间序列上相邻的两个时刻的场景，通过比较它们之间的差异，可以有效地检测到运动的发生和变化。

如图2和图3所示，获取单色双目摄像头采集的双目图像序列，该双目图像序列中的每帧双目图像10包括单色左图像11和单色右图像12。

例如，应用场景以六自由度(6DoF)建系为例，该单色双目摄像头也可以为6DoF摄像头，该双目图像也可以为6DoF双目图像，该6DoF双目图像可以包括六自由度左(6DoF_left)图像与六自由度右(6DoF_right)图像。

例如，如图2所示，头戴显示设备的影像系统可以包括单色双目摄像头和彩色(RGB)摄像头，其中，单色双目摄像头包括左摄像头(可以为6DoF_left摄像头)和右摄像头(可以为6DoF_right摄像头)。例如，影像系统可以以60帧每秒(fps)曝光，每16.6毫秒(ms)输出6DoF双目图像(6DoF_left图像和6DoF_right图像)与1帧彩色(RGB)图像，这种高速的帧率确保了影像的连贯性和实时性，使得用户在进行交互或观看时能够感受到平滑的动画和响应。6DoF图像格式为8比特(bit)的单通道(mono)灰度图像，分辨率可以为640*480，这种格式的图像对于深度感知和定位至关重要，因为它们提供了场景中物体的精确位置和姿态信息；单色左摄像头和单色右摄像头之间约有94°的共视角度。RGB图像格式可以为8bit的三通道彩色图(Yuv)，分辨率为3240*2484，这种高分辨率的彩色图像为用户提供了丰富的视觉细节，使得场景更加逼真和生动；视场角大约为136°。

其中，六自由度通常包括三个平移自由度(沿X、Y、Z轴的移动)和三个旋转自由度(绕X、Y、Z轴的旋转)。这种技术常用于虚拟现实、增强现实、机器人导航和许多其他需要精确空间定位的领域。6DoF双目图像可以追踪其在三维空间中的位置和方向。在特定的应用中，6DoF_left摄像头和6DoF_right摄像头可以被用来创建一个立体的视觉场景，或者用来增加视野范围，提高定位精度，或者两者兼有。当6DoF_left摄像头与6DoF_right摄像头被放置得相对靠近，并且它们的视野有部分重叠时，可以称之为“共视角度”。例如，两个摄像头约有94°的共视角度。这意味着两个摄像头可以共同观察到大约94°的视野范围。这种重叠的视野使得两个摄像头可以协同工作，提高定位和追踪的精确性。

其中，目标双目摄像头和RGB摄像头在虚拟现实系统中会同时捕获图像数据。在本申请实施例中，目标双目摄像头主要负责获取深度信息和摄像头的姿态数据(位置和方向)，这对于实现空间定位、场景重构和交互操作至关重要。RGB摄像头则捕捉彩色(RGB)图像，为用户提供丰富的视觉信息。

例如，如图3至图6所示，单色左图像11和单色右图像12图像合成处理之后生成的合成图像30中，会存在如图5所示的94°的重叠区域301，该重叠区域301也包含在RGB图像20的136°视场角内，即如图6所示的RGB图像20中的视场重叠范围201与如图5所示的重叠区域301内的视图内容相同，因此，在进行局部运动检测时，可以只检测重叠区域中是否有局部运动发生，而不用对整个RGB图像的136°的范围进行局部运动检测，这种策略显著减少了处理的数据量和耗时，提高了系统的效率。

如图2所示，目标双目摄像头捕获的双目图像序列需要经过虚拟现实相关算法的处理，如同时定位与地图构建(Simultaneous Localization and Mapping，SLAM)、网格(Mesh)计算等。这些算法的计算工作主要在中央处理器(Central Processing Unit，CPU)和图形处理器(graphics processing unit，GPU)上完成。CPU负责处理逻辑和计算任务，如路径规划、场景理解等；而GPU则擅长于并行处理图像和视频数据，加速视觉效果的渲染和图像处理任务。

RGB摄像头输出的原始图像数据则需要经过图像形成引擎(Image FormationEngine，IFE)和图像处理引擎(Image Processing Engine，IPE)的处理。这些处理步骤主要在图像信号处理器(ISP)上完成。ISP负责处理图像传感器捕获的原始图像数据，执行去噪、色彩校正、白平衡、曝光补偿等一系列图像处理操作，以生成适合显示的彩色图像。

其中，双目图像的处理和彩色图像的处理是并发完成的。这意味着两者可以独立进行，互不干扰，从而提高了整个系统的处理效率和响应速度。

在Mesh计算过程中，新增的局部运动检测模块被部署在合像模块之后。合像模块用于将左摄像头捕获的左图像与右摄像头捕获的右图像进行融合和对齐，以构建出完整的三维场景。局部运动检测模块用于在合像后的合成图像中进行局部运动检测，以检测出运动目标的运动信息，这对于实现精准的空间交互和动态场景重建至关重要。

在图2中，局部运动检测模块部署在Mesh计算过程中的位置，用于进行局部运动检测。局部运动检测模块接收合像模块输出的合成图像数据，并对合成图像数据中的重叠区域进行局部运动检测处理，为虚拟现实系统提供实时、准确的运动信息。

步骤120，对每帧所述双目图像中的所述左图像和所述右图像进行图像合成处理，得到每帧所述双目图像对应的合成图像，其中，每帧所述合成图像中包含有所述左图像和所述右图像之间的重叠区域。

其中，将每帧双目图像中的左图像和右图像进行合并，生成一个包含两者信息的合成图像。该合成图像不仅综合了左右图像的视觉内容，而且凸显了两者之间的重叠区域，为后续的运动检测提供了关键依据。

例如，图像合成处理可以包括以下预处理、对齐与合成等操作。

首先，对左图像和右图像进行预处理。预处理可能包括去噪、滤波、对比度矫正、亮度矫正、畸变矫正、立体矫正、双目匹配等操作中的至少一种，以消除图像中的干扰信息，确保合成图像的质量和可靠性。

例如，去噪的主要目的是消除双目图像中的噪声成分，这些噪声可能来源于传感器噪声、传输噪声或其他环境因素。常用的去噪方法包括中值滤波、高斯滤波、双边滤波等。这些方法能够有效地平滑图像，减少噪声对图像质量的影响。

例如，滤波操作旨在改善图像的视觉效果或增强图像的某些特征。除了用于去噪外，滤波还可以用于图像锐化、边缘检测等。

例如，对比度矫正关注的是双目图像中不同颜色或亮度级别之间的差异。当对比度较低时，图像中的细节可能不够清晰，整体看起来较为模糊；而对比度过高则可能导致图像看起来过于刺眼，失去细节。因此，对比度矫正的目标是通过调整双目图像中不同颜色或亮度级别之间的差异，使图像更加清晰、鲜明。这通常涉及到拉伸图像的对比度范围，使暗部更暗、亮部更亮，从而增加图像的层次感。

例如，亮度矫正主要关注双目图像的整体明亮程度。亮度过低可能导致图像过暗，细节难以辨认；而亮度过高则可能使图像看起来过于曝光，失去细节。因此，亮度矫正的目标是通过调整图像的整体亮度级别，使图像看起来更加明亮、自然。这通常涉及到增加或减少图像的亮度值，以达到期望的视觉效果。

例如，畸变是由于相机镜头的物理特性导致的图像失真。在双目视觉系统中，畸变矫正尤为重要，因为它直接影响到左右图像的对齐和匹配。畸变矫正通常包括径向畸变和切向畸变的校正。径向畸变主要出现在图像的边缘，表现为图像的拉伸或压缩；切向畸变则是由镜头安装不精确或传感器平面与镜头不平行引起的。通过标定相机并应用相应的畸变系数，可以有效地消除这些畸变。畸变矫正的具体步骤通常包括：使用棋盘格等标定工具对相机进行标定，获取相机的内参和外；根据标定结果计算畸变系数；应用畸变系数对原始图像进行矫正，得到无畸变的图像；经过畸变矫正后，图像中的直线将变得更加平直，物体的形状和位置也将更加准确。

例如，关于立体矫正。在双目视觉系统中，由于两个摄像头之间存在相对位置关系(如水平间距、角度偏差等)，导致左右两个摄像头捕获的图像在几何上存在不一致性。为了消除这种不一致性，需要进行立体矫正。该过程通过变换两个图像(左图像和右图像)的平面，使得它们共面并且与基线平行。基线是连接两个摄像头中心的直线，它决定了立体视觉系统的工作范围。经过立体矫正后，左右图像的极线对齐，即对应像素位于同一行上。这样，在进行立体匹配时，搜索对应像素的过程大大简化，只需在一条水平扫描线上进行，而无需遍历整个图像。这不仅显著减少了计算复杂度，提高了匹配效率，还有助于提高匹配的准确性和稳定性。

例如，关于双目匹配，旨在寻找两个图像(左图像和右图像)中相同物体或场景的对应点。这些对应点反映了物体在左右两个摄像头视图中的位置关系。通过计算对应点之间的视差(即左右图像中对应点之间的水平像素差)，可以进一步恢复出三维场景中的物体信息。视差与物体到摄像头的距离成反比，即物体离摄像头越近，视差越大；反之，物体离摄像头越远，视差越小。因此，通过双目匹配和视差计算，可以获取场景中物体的深度信息，实现三维重建。其中，通过双目匹配处理，可以确定出左图像和右图像之间的重叠区域。

然后，可以通过图像配准或对齐技术，将左图像和右图像进行精确对齐。由于双目摄像头拍摄时存在视差，左右图像之间可能存在微小的位置偏差。因此，需要通过算法计算出两幅图像之间的变换关系，并对其中一幅图像进行变换，使得两幅图像在重叠区域能够完美匹配。

在对齐完成后，开始进行图像的合成操作。这可以通过多种方法实现，如加权平均、最大值合成、最小值合成等。具体选择哪种方法取决于应用场景和需求。例如，在某些情况下，可能需要保留左图像和右图像中的特定信息，这时可以采用加权平均的方法，根据像素的权重来合并两幅图像。

例如，加权平均法是一种简单而有效的图像合成方法。在这种方法中，每个像素的值都是根据左图像和右图像中对应像素的值的加权平均来计算的。权重的选择可以根据像素的可靠性、亮度、对比度等因素来确定。例如，在重叠区域，可以根据两幅图像的视差或深度信息来动态调整权重，以保留更多的细节信息。通过这种方法，可以平滑地合并两幅图像，减少合成过程中的伪影和失真。

例如，最大值合成法取左图像和右图像中对应像素的最大值作为合成图像中该像素的值。这种方法适用于需要保留两幅图像中亮度或对比度较高的区域的情况。例如，在夜间或低光照条件下拍摄的双目图像中，可能有一幅图像的某些区域比另一幅更亮或更清晰。通过最大值合成，可以合成出一个整体亮度较高、细节更丰富的图像。

例如，最小值合成法取左图像和右图像中对应像素的最小值作为合成图像中该像素的值。这种方法通常用于去除噪声或高亮异常值。在某些情况下，一幅图像中可能存在由于传感器噪声或光照条件导致的异常高亮区域，而另一幅图像中这些区域可能相对正常。通过最小值合成，可以去除这些异常高亮区域，使合成图像更加平滑和自然。

例如，多频段融合法是一种更复杂的图像合成方法，它基于多尺度或多频段分解技术。首先，将左图像和右图像分别进行多频段分解，得到不同频段或尺度的子图像。然后，对每个频段或尺度的子图像进行合成操作，可以采用加权平均、最大值合成或最小值合成等方法。然后，将合成后的子图像重新组合成最终的合成图像。这种方法可以充分利用不同频段或尺度的信息，提高合成图像的质量和视觉效果。

在选择具体的合成方法时，需要考虑应用场景、图像质量、计算效率等因素。需要根据实际情况进行权衡和选择。例如，在需要保留较多细节信息的场景中，加权平均法可能更为合适；而在去除噪声或异常值的场景中，最小值合成法可能更为有效。

在合成过程中，特别需要注意处理重叠区域。重叠区域是左图像和右图像中共有的部分，它包含了丰富的空间信息和视差信息，是运动检测的关键所在。因此，在合成时，需要确保重叠区域的像素能够得到正确的处理，避免出现模糊、错位等问题。

经过图像合成处理，可以得到每帧双目图像对应的合成图像。该合成图像不仅包含了左图像和右图像的全部信息，而且凸显了两者之间的重叠区域。该重叠区域为后续的运动检测提供了有力的支持，使得检测算法能够更准确地识别出场景中的运动目标。

例如，在得到每帧双目图像对应的合成图像之后，还可以在每帧合成图像中标识出左图像和右图像之间的重叠区域。比如可以使用色彩映射、透明度叠加、边缘描绘等方法来标识出重叠区域。

色彩映射：为重叠区域分配一种独特的颜色或颜色组合，以便在合成图像中轻松识别。这种方法可以通过对重叠区域的像素进行颜色替换或混合来实现。

透明度叠加：在合成图像中，可以通过调整重叠区域的透明度来标记它。具体来说，可以将重叠区域的像素与一种半透明的颜色叠加，使得这部分区域在视觉上与其他区域有所区分。这种方法既保留了重叠区域的原始信息，又通过透明度变化来凸显其位置。

边缘描绘：使用边缘描绘来标识重叠区域的边界。可以通过边缘检测算法提取重叠区域的边界，并在这些边界上绘制线条或轮廓。线条的颜色、粗细和样式可以根据需要进行调整，以便在合成图像中清晰地显示出重叠区域的边界。

在一些实施例中，所述对每帧所述双目图像中的所述左图像和所述右图像进行图像合成处理，得到每帧所述双目图像对应的合成图像，包括：

对所述第t-1帧双目图像中的第t-1帧左图像和第t-1帧右图像进行图像合成处理，得到所述第t-1帧双目图像对应的第t-1帧合成图像，所述第t-1帧合成图像中包含有所述第t-1帧左图像和所述第t-1帧右图像之间的第一重叠区域，其中，t为正整数；

对所述第t帧双目图像中的第t帧左图像和第t帧右图像进行图像合成处理，得到所述第t帧双目图像对应的第t帧合成图像，所述第t帧合成图像中包含有所述第t帧左图像和所述第t帧右图像之间的第二重叠区域。

其中，对每帧双目图像中的左图像和右图像进行图像合成处理，是一个连续且逐帧进行的过程。这种处理通常应用于视频流或连续的图像序列中，以生成每帧双目图像对应的合成图像。

首先，处理第t-1帧双目图像。这一帧包括第t-1帧左图像和第t-1帧右图像。这两幅图像分别通过不同的相机视角捕获了同一场景的不同部分。在进行图像合成处理之前，这两幅图像可能已经经过了对齐操作，以确保它们在空间上的一致性。对齐完成后，对第t-1帧左图像和第t-1帧右图像进行图像合成处理。这一处理过程可能涉及到多种合成方法，如加权平均、最大值合成或最小值合成等，具体取决于应用场景和需求。合成的目标是生成一个融合了两幅图像信息的第t-1帧合成图像。在合成过程中，由于左图像和右图像之间存在视差，它们会有一部分重叠区域，比如具有94°的重叠区域。该重叠区域在合成图像中会被特殊处理，以保留来自两幅图像的信息。例如，可以使用透明度叠加、色彩映射或边缘描绘等方法来标记出第一重叠区域，使其在合成图像中清晰可见。

然后，处理第t帧双目图像。与第t-1帧类似，第t帧也包含左图像和右图像。这两幅图像同样经过对齐处理，确保它们在空间上的对应关系。然后，对第t帧左图像和第t帧右图像进行图像合成处理，生成第t帧合成图像。

在第t帧合成图像中，同样存在第二重叠区域，这是由第t帧左图像和第t帧右图像的视差造成的。与第一重叠区域类似，第二重叠区域在合成图像中也需要被特殊处理，以便保留来自两幅图像的信息并突出显示其位置。

通过对每帧双目图像进行这样的合成处理，可以生成一系列连续的合成图像，这些图像不仅保留了原始左图像和右图像的信息，还通过突出显示重叠区域来提供了更丰富的场景信息。这种处理方法在立体视觉、三维重建、目标跟踪等领域具有广泛的应用价值。

步骤130，根据所述重叠区域进行局部运动检测，获取运动检测结果。

在一些实施例中，所述根据所述重叠区域进行局部运动检测，获取运动检测结果，包括：根据所述第t-1帧合成图像中的所述第一重叠区域与所述第t帧合成图像中的所述第二重叠区域，计算光流场；根据所述光流场，获取运动检测结果。

其中，在虚拟现实应用场景中，特别是使用单色双目摄像头时，局部运动检测是确保用户体验流畅性和真实性的关键步骤。由于单色双目摄像头具有特定的技术特性，如较低的分辨率、较小的数据量、较短的曝光时间以及像素移动的一致性较高，针对这些特性进行优化显得尤为重要。此外，考虑到头戴式显示设备使用过程中用户的头部运动频繁且快速，局部运动检测算法需要能够迅速且准确地响应这些变化。

在本申请实施例中，采用光流法进行局部运动检测是一个高效且实用的选择。光流法通过分析图像序列中像素在时间域上的变化以及相邻帧图像中每个像素之间的相关性，能够估计出像素的运动模式，即光流场。这一技术不仅适用于单色双目摄像头的数据特点，还能够有效应对用户头部运动的快速变化。光流场能够反映场景中物体的运动信息，从而有助于提取出运动目标。

基于See-through场景对实时性要求较高的特性，本案可以使用计算量较小，计算速度较快的光流法。

在计算光流场时，可以采用基于亮度变化的光流法，如稀疏光流(Lucas-Kanade)算法或稠密光流(Horn-Schunck)算法。这些算法基于亮度守恒假设，通过最小化亮度误差来估计像素的运动。

对于Lucas-Kanade算法，它假设一个小的窗口内的所有像素具有相同的运动，并通过迭代方法求解光流场；即通过在局部窗口内最小化亮度变化的平方和，算法可以估计出每个窗口中心像素的运动矢量；这种算法适用于场景中运动较小的情况，并且计算效率较高。

对于Horn-Schunck算法，是基于全局平滑性假设，认为光流场在整个图像上是平滑变化的。通过引入一个全局平滑性约束项，算法可以求解出整个图像的光流场。这种算法对于处理复杂场景和较大运动的情况更为有效。

另外，基于相关性的光流法也是一种有效的选择，如归一化互相关(NormalizedCross-Correlation，NCC)光流算法和误差平方和(Sum of Squared Differences，SSD)光流算法。这些算法通过计算相邻帧之间像素的相关性来估计运动，对于纹理丰富或具有明显特征的区域通常具有较好的效果。

对于NCC光流算法，是基于图像序列中像素之间的相关性来计算光流的。其核心思想是比较当前帧与前一帧中对应区域之间的归一化互相关程度，从而估计像素点的运动。在NCC光流算法中，首先选择一个像素点作为中心，并定义一个邻域窗口。然后，在前一帧图像中搜索与当前帧中该邻域窗口最相似的区域。该相似性是通过计算两个窗口之间的归一化互相关系数来衡量的。归一化互相关系数的计算涉及到了两个窗口内像素值的乘积和的平方的归一化。当找到最相似的区域时，可以通过比较这两个区域中心像素的位置来估计像素点的运动矢量。

对于SSD)光流算法，是基于像素亮度值的变化来计算光流的。其基本思想是通过比较当前帧与前一帧中对应像素点的亮度值的平方差来估计像素点的运动。在SSD光流算法中，同样需要选择一个像素点作为中心，并定义一个邻域窗口。然后，计算当前帧中该窗口内像素与前一帧中对应位置窗口内像素的亮度值的平方差之和。通过最小化该平方差之和，可以找到前一帧中与当前帧最匹配的像素位置，从而估计出像素点的运动矢量。

在计算得到光流场后，根据光流场信息可以获取运动检测结果。运动检测结果可以包括运动物体的位置、速度、方向等。通过对光流场的分析，可以判断出哪些像素是运动的，哪些像素是静止的，从而实现对重叠区域内运动目标的准确提取。

在一些实施例中，所述根据所述第t-1帧合成图像中的所述第一重叠区域与所述第t帧合成图像中的所述第二重叠区域，计算光流场，包括：对所述第t-1帧合成图像中的所述第一重叠区域与所述第t帧合成图像中的所述第二重叠区域进行特征点检测，得到所述第t-1帧合成图像对应的第一特征点数据，以及所述第t帧合成图像对应的第二特征点数据；对所述第一特征点数据与所述第二特征点数据进行特征点匹配，得到匹配特征点数据；根据所述匹配特征点数据，获得所述光流场。

首先，对第t-1帧合成图像中的第一重叠区域与第t帧合成图像中的第二重叠区域进行特征点检测。这一步的目的是提取出两个相邻帧图像中的关键特征点，为后续的特征点匹配提供基础。特征点检测的方法多种多样，其中哈里斯(Harris)角点检测是一种常用的方法，它通过计算图像中每个像素点的角点响应函数值，并设定阈值来筛选角点，从而得到具有显著特征的关键点。角点通常指的是图像中灰度数值更改大或者图像的边界交点，这些点体现了图像的特征信息，同时虚化无关信息。角点是在某些属性上强度最大或者最小的孤立点、线段的终点，它们可以使图像特征提取流程简化，结果精确。另外，FAST(Features from Accelerated Segment Test)是一种高速的角点检测算法，它通过比较像素点与其周围像素点的灰度差异来快速检测特征点。

在得到第t-1帧合成图像对应的第一特征点数据和第t帧合成图像对应的第二特征点数据后，需要对这些特征点进行匹配。特征点匹配是一个关键的步骤，它建立了相邻帧中特征点之间的对应关系。在这一步骤中，可以采用K近邻算法(K-Nearest Neighbor，KNN)匹配或暴力匹配等方法。KNN匹配是一种基于距离度量的匹配方法，它通过计算特征点描述子之间的距离来找到最相似的匹配点。而暴力匹配则是一种简单直观的匹配方法，它遍历所有可能的匹配点对，并计算它们之间的相似度，从而找到最佳的匹配点。

然后，根据匹配的特征点数据，可以计算出光流场。光流场是一个描述图像中像素点运动模式的二维矢量场，它反映了相邻帧之间像素点的运动方向和速度。通过匹配的特征点数据，可以估计出每个特征点的运动矢量，进而通过插值或拟合等方法得到整个重叠区域的光流场。该光流场为后续的运动检测、目标跟踪等任务提供了重要的信息。

以一个具体的应用场景为例，假设正在处理一组低分辨率的6Dof(六自由度)图像数据。这些图像数据逐帧传入算法SDK进行处理。在每一帧中，都会对当前帧和前一帧图像进行特征点检测，使用诸如Harris角点检测或FAST特征点检测等方法。然后，对这些检测到的特征点进行匹配，可以采用KNN匹配或暴力匹配等策略。然后，根据匹配的特征点数据，可以计算出光流场，从而得到图像中像素点的运动信息。这些信息对于理解图像内容、检测运动目标以及实现更高级别的场景理解等任务至关重要。

总的来说，通过对相邻帧中的重叠区域进行特征点检测、匹配以及光流场的计算，能够更加精确地理解图像中的运动信息，为虚拟现实、增强现实等应用提供有力的技术支持。

在一些实施例中，所述根据所述光流场，获取运动检测结果，包括：分析所述光流场，确定所述第一重叠区域与所述第二重叠区域中的运动目标；根据所述运动目标的运动信息，确定运动区域；获取第一运动检测结果，所述第一运动检测结果包括第一提示信息和所述运动区域的坐标信息，所述第一提示信息用于提示存在局部运动。

其中，对光流场进行深入分析，确定第一重叠区域与第二重叠区域中的运动目标。这一步骤通常涉及到对光流场中矢量方向和大小的判断。光流矢量描述了像素点在连续帧之间的运动方向和速度，因此，通过比较光流矢量的变化，可以检测出运动目标。具体的分析方法可以包括计算光流场的梯度或散度，这些数学工具能够更好地理解光流场的特性，从而准确识别出运动目标。

然后，根据运动目标的运动信息，确定运动区域。运动信息通常包括运动目标的位置、速度以及运动轨迹等。通过提取这些关键信息，可以进一步确定运动目标的边界，从而划分出运动区域。在这一步骤中，可能需要使用到一些图像处理技术，如轮廓检测、阈值分割等，这些技术能够更准确地标记出运动区域。

然后，获取第一运动检测结果。该结果包括第一提示信息和运动区域的坐标信息。第一提示信息用于提示存在局部运动，它可以是一个简单的文本信息，如“检测到局部运动”，或者是一个视觉提示，如高亮显示运动区域。运动区域的坐标信息则详细描述了运动区域在图像中的位置，通常包括运动区域的左上角和右下角坐标。这些信息对于后续的处理和分析至关重要。

在一些实施例中，所述根据所述光流场，获取运动检测结果，还包括：

在确定所述第一重叠区域与所述第二重叠区域中不存在运动目标时，获取第二运动检测结果，所述第二运动检测结果包括第二提示信息，所述第二提示信息用于提示不存在局部运动。

此外，如果确定第一重叠区域与第二重叠区域中不存在运动目标，则会获取第二运动检测结果。该结果包括第二提示信息，用于提示不存在局部运动。这种情况下的提示信息同样可以是文本或视觉提示，以便用户或系统能够快速理解当前的运动状态。

其中，局部运动的运动检测结果有非常多的用途，比如，若检测到当前场景有快速运动的运动目标，则启用抓拍逻辑，降低曝光时间，减少帧间融合强度。比如，若检测到画面中没有运动目标，则适时地动态拉长曝光提升图像质量。比如，运动检测结果还可用于动态开闭多帧合成功能，动态选择融合算法等。

在一些实施例中，所述方法应用于头戴式显示设备，所述头戴式显示设备上配置有彩色摄像头和显示屏；所述方法还包括：获取所述彩色摄像头采集的彩色图像序列；基于所述双目图像序列中每帧所述双目图像对应的合成图像，构建三维网格；将所述彩色图像序列与所述三维网格进行图像融合处理，得到目标图像；在所述显示屏上显示所述目标图像。

其中，该方法可以适用于头戴式显示设备，这类设备通常集成了彩色摄像头和显示屏，以支持扩展现实(XR)、虚拟现实(VR)、增强现实(AR)或混合现实(MR)等应用。能够充分利用双目视觉原理，实现高质量的图像处理和虚实融合效果。

其中，头戴式显示设备通过其彩色摄像头捕获外部环境的彩色图像序列。这些图像序列包含了丰富的色彩和纹理信息，为后续的三维重建和图像融合提供了基础数据。

其中，基于双目图像序列中每帧双目图像对应的合成图像，系统开始构建三维网格。在构建过程中，合成图像起到了关键作用。这些合成图像通过双目视觉算法，将左右两个摄像头的图像进行融合，生成了包含深度信息的图像。深度信息对于构建三维网格至关重要，它能够帮助系统准确地还原出场景中物体的三维形状和位置。

如图2所示，在构建三维网格的过程中，为了进一步提高网格的质量和精度，可以对合成图像进行筛选和三角化处理。筛选操作可以去除噪声和无关信息，保留对构建网格有用的部分。而三角化处理则是将筛选后的图像数据转换为三角网格的形式，通过连接相邻的点形成三角形面片，从而构建出完整的三维网格。该过程中，可以运用计算机图形学中的三角化算法，确保生成的网格具有良好的几何属性和拓扑结构。

完成三维网格的构建后，将彩色图像序列与三维网格进行图像融合处理。这一步骤的目标是将真实世界的色彩和纹理信息映射到三维网格上，生成具有真实感的目标图像。在该过程中，可以进行一系列的操作来优化融合效果。比如，可以进行时域滤波、重投影、挑帧、渲染、畸变矫正等操作，以得到目标图像。

例如，进行时域滤波处理。时域滤波能够在时间域内对图像序列进行平滑处理，消除由于摄像头抖动或环境变化引起的高频噪声和毛刺。通过时域滤波，可以提高图像序列的稳定性和连续性，为后续的图像融合奠定基础。

例如，进行重投影操作。重投影是将三维网格上的点按照特定的视角和投影规则映射到二维图像平面上的过程。通过重投影，可以确保三维网格与彩色图像在几何上保持一致，为后续的色彩映射和纹理贴图提供准确的对应关系。

此外，挑帧、渲染和畸变矫正等操作也是图像融合过程中的重要环节。挑帧是从连续的图像序列中选择关键帧进行融合，以减少计算量和提高处理速度。渲染则是将处理后的图像数据渲染到显示屏上，以呈现给用户。而畸变矫正则是针对头戴式显示设备可能存在的镜头畸变进行校正，确保显示的图像符合人眼的视觉习惯。

经过上述一系列处理后，得到了融合了真实世界信息和虚拟元素的目标图像。这些图像通过头戴式显示设备的显示屏展示给用户，为用户提供了沉浸式的虚实结合体验。

综上所述，所述方法通过综合运用双目视觉、三维网格构建和图像融合处理技术，实现了高质量的虚实融合效果。这些技术的应用不仅提升了头戴式显示设备的交互性和沉浸感，还为未来的AR和MR应用开辟了新的可能性。

如图2所示，还可以先基于三维网格构建出网格(Mesh)三角网络，然后再将Mesh三角网络与彩色图像序列进行图像融合处理得到目标图像。该过程能够提供更精细的几何形状和更平滑的表面细节，有助于生成更高质量的虚实融合图像。

首先，根据三维网格中的点云数据，利用特定的算法进行三角剖分。三角剖分是一种将点云数据划分为一系列三角形的过程，这些三角形相互连接，共同构成了Mesh三角网络。在该过程中，算法会考虑点云数据的空间分布、密度以及表面特征等因素，以确保生成的Mesh三角网络能够准确地表示三维物体的形状和结构。

其次，为了提高Mesh三角网络的质量和性能，还可以进行一些优化处理。比如，可以去除冗余的三角形，合并相邻的相似三角形，以及调整三角形的大小和形状等。这些优化操作能够减少Mesh三角网络的复杂性，提高其处理效率和渲染性能。

然后，将构建好的Mesh三角网络与彩色图像序列进行图像融合处理。在该过程中，需要考虑到Mesh三角网络的几何形状和彩色图像序列的像素信息。可以通过运用纹理映射算法、色彩插值技术、光照模型与着色技术、以及图像融合与优化等算法和技术，可以将彩色图像序列中的颜色、纹理等信息精确地映射到Mesh三角网络的对应位置上。使得Mesh三角网络不仅具有准确的几何形状，还能够呈现出真实的色彩和纹理效果。

关于纹理映射算法：纹理映射是将二维图像(纹理)应用到三维物体表面的过程。在将彩色图像序列映射到Mesh三角网络上时，可以采用UV映射、参数化映射或基于图像的纹理映射等方法。这些算法根据Mesh三角网络的顶点坐标和纹理坐标，将彩色图像中的像素与Mesh三角网络的表面元素相对应，从而实现纹理的精确贴图。

关于色彩插值技术：由于Mesh三角网络是由一系列三角形组成的，每个三角形可能对应多个像素。因此，需要通过色彩插值技术来确保每个三角形内部的颜色和纹理平滑过渡。常用的插值方法包括线性插值、双线性插值或更高阶的插值方法。这些方法根据三角形顶点的颜色值或纹理坐标，计算出三角形内部任意点的颜色或纹理值，从而实现平滑的色彩和纹理过渡。

关于光照模型与着色技术：为了增强Mesh三角网络表面的真实感，可以引入光照模型和着色技术。光照模型描述了光源与物体表面之间的相互作用，影响着物体表面的明暗和色彩变化。通过计算光源对Mesh三角网络表面的照射效果，可以生成逼真的阴影、高光和反射等效果。着色技术则用于根据光照模型计算出的颜色值对Mesh三角网络进行渲染，使其呈现出更加真实的色彩和纹理效果。

关于图像融合与优化：在将彩色图像序列映射到Mesh三角网络上后，可能还需要进行图像融合和优化操作，以进一步提高融合效果。这包括消除图像间的接缝、调整色彩平衡和对比度、优化纹理分辨率等。这些操作可以通过图像处理算法和后期处理技术来实现，确保最终的目标图像在视觉效果上达到最佳状态。

为了实现高质量的图像融合，可以采用一些先进的图像处理技术。比如，可以利用时域滤波来消除图像中的噪声和干扰，提高图像的清晰度和稳定性；可以利用重投影技术来确保Mesh三角网络与彩色图像在几何上的一致性；还可以利用挑帧、渲染和畸变矫正等操作来进一步优化融合效果。经过图像融合处理，得到了融合了Mesh三角网络和彩色图像序列的目标图像。该目标图像既保留了Mesh三角网络的几何形状和结构信息，又融入了彩色图像序列的色彩和纹理信息，呈现出更加真实、逼真的视觉效果。

通过先构建Mesh三角网络再进行图像融合处理的方式，可以充分利用三维网格的几何信息和彩色图像序列的视觉信息，实现高质量的虚实融合效果。这不仅能够提升头戴式显示设备的交互性和沉浸感，还能够为用户带来更加丰富、真实的视觉体验。

例如，如图2所示，在头戴式显示设备或其他视觉处理应用中，除了Mesh三角网络和彩色图像序列，还可以结合其他数据来进行图像融合处理，从而得到更加准确和丰富的目标图像。这些其他数据可以包括飞行时间(Time of Flight，ToF)数据、环境纹理(Environmental Texture、ET)数据以及惯性测量单元(Inertial Measurement Unit，IMU)数据等，它们各自具有独特的含义和用途。

其中，ToF数据是通过测量光线从发射到接收所花费的时间来确定物体与传感器之间的距离。它利用红外光或激光等光源发射脉冲，并测量这些脉冲返回所需的时间，从而得到物体的深度信息。ToF数据能够提供高精度的深度图像，这对于构建Mesh三角网络、进行三维重建以及实现更准确的图像融合至关重要。通过将ToF数据与彩色图像序列结合，可以生成更加真实、立体的目标图像，提升用户的视觉体验。

其中，ET数据通常指的是场景中物体表面的纹理信息，这些信息可以通过相机或其他传感器捕获。环境纹理数据能够反映物体表面的细节和质感，为图像融合处理提供了丰富的纹理信息。ET数据能够增强Mesh三角网络的表面细节，使得生成的目标图像在纹理上更加真实、细腻。通过将ET数据与彩色图像序列和深度信息结合，可以实现更高质量的图像融合，提升图像的视觉效果和真实感。

其中，IMU数据包含了加速度计和陀螺仪等传感器的测量信息，能够实时检测设备的运动状态，如加速度、角速度等。这些数据对于运动追踪、姿态估计和稳定控制等方面具有重要意义。IMU数据能够提供关于头戴式显示设备或相机运动的实时信息，有助于校正由于运动导致的图像畸变和模糊。在图像融合处理中，通过结合IMU数据与彩色图像序列、深度信息和纹理数据，可以实现更精确的对齐和融合，减少运动对图像质量的影响，提升整体视觉效果。

在图像融合处理过程中，可以将ToF数据、ET数据以及IMU数据与Mesh三角网络和彩色图像序列进行融合。通过结合这些不同来源的数据，可以获得更加丰富和准确的三维信息、纹理细节以及运动状态。这种多源数据融合的方法能够提升头戴式显示设备的性能，为用户提供更加逼真、自然的视觉体验。

在一些实施例中，所述方法还包括：

基于所述第一运动检测结果，缩短所述彩色摄像头的曝光时间；或者

基于所述第二运动检测结果，延长所述彩色摄像头的曝光时间。

其中，在头戴式显示设备或其他类似应用中，结合Mesh计算与彩色图像序列处理时，动态调整彩色摄像头的曝光时间是一项重要的优化措施。这种方法能够根据场景中的运动情况来灵活调整曝光参数，从而优化图像质量并减少运动产生的不良影响。

具体来说，当系统通过运动检测模块检测到局部运动时(即第一运动检测结果)，它会缩短彩色摄像头的曝光时间。这样做的原因在于，较短的曝光时间可以减少因物体运动而产生的拖影现象。拖影通常发生在曝光时间过长、物体在曝光期间发生位移时，导致图像中物体的轮廓变得模糊或有多个重叠的影像。缩短曝光时间可以确保每个瞬间都被清晰地捕捉，从而减少或消除拖影，使得运动物体更加清晰。

相反，当运动检测算法判断场景中不存在局部运动时(即第二运动检测结果)，系统会延长彩色摄像头的曝光时间。增加曝光时间有助于提高信噪比，即提高图像信号的强度相对于噪声的强度。这样做可以在相对静态的场景中获取更多光线信息，使得图像更加明亮、细节更丰富，并减少随机噪声的影响。在光线条件不佳或需要更高图像质量的场景中，延长曝光时间尤其有用。

通过结合三维网格与动态曝光调整技术，头戴式显示设备或其他相关应用能够提供更准确、更清晰的虚实融合图像。无论是在运动场景中减少拖影，还是在静态场景中提升图像质量，这种技术都能为用户带来更加流畅、真实的视觉体验。

例如，还可以基于第一运动检测结果，缩短目标双目摄像头(比如单色双目摄像头)的曝光时间；或者基于第二运动检测结果，延长目标双目摄像头的曝光时间。动态调整目标双目摄像头的曝光时间同样是一项重要的优化措施。双目摄像头通过两个并排的摄像头来模拟人眼的视觉系统，从而获取深度信息和三维空间感。根据场景中的运动情况来灵活调整其曝光参数，能够进一步优化图像质量并减少运动带来的不良影响。

在一些实施例中，所述头戴式显示设备上还配置有面部识别模块；所述方法还包括：

基于所述第一运动检测结果，增加所述面部识别模块的灵敏度；或者

基于所述第二运动检测结果，降低所述面部识别模块的灵敏度。

例如，头戴式显示设备还集成了面部识别模块。面部识别模块的主要作用是识别和分析用户的面部特征，从而实现更精确的面部跟踪和对焦，提升用户体验。而运动检测结果不仅可以用于优化图像采集和处理，还可以用于动态调整面部识别模块的灵敏度，从而进一步提高面部识别的准确性和稳定性。

当头戴式显示设备的局部运动检测模块输出第一运动检测结果，即检测到存在局部运动时，系统会相应地增加面部识别模块的灵敏度。这是因为在运动状态下，用户的面部可能会发生位移、旋转或变形，导致面部特征变得模糊或难以识别。通过提高面部识别模块的灵敏度，系统能够更快速地响应这些变化，捕捉更多的面部细节，从而提高在运动状态下的面部识别率。

相反，当局部运动检测模块输出第二运动检测结果，即确定不存在局部运动时，系统会降低面部识别模块的灵敏度。这样做的目的是为了减少误识别和降低系统功耗。在静态或相对稳定的场景中，用户的面部特征通常比较清晰和稳定，此时过高的灵敏度可能会导致误识别或过度处理，浪费计算资源并可能导致系统性能下降。降低灵敏度可以让面部识别模块在保持一定准确性的同时，更加高效和稳定地工作。

这种动态调整面部识别模块灵敏度的策略，结合了运动检测结果和面部识别技术的优势，能够根据实际场景的需求来优化面部识别的性能。它不仅能够提高在运动状态下的面部识别率，减少误识别和漏识别的情况，还能够降低系统在静态场景下的功耗和计算负担，实现更高效的资源利用。

在一些实施例中，所述头戴式显示设备上还配置有手部检测模块；所述方法还包括：

基于所述第一运动检测结果，开启所述手部检测模块；或者

基于所述第二运动检测结果，关闭所述手部检测模块。

例如，头戴式显示设备还配置了手部检测模块。手部检测模块的主要作用是实时追踪和分析用户的手部动作，为用户提供更加自然和直观的交互体验。然而，手部检测算法通常较为复杂，会占用较多的计算资源。如果长时间开启手部检测模块，可能会导致计算资源的浪费，甚至引起设备发热等问题。因此，根据运动检测结果来动态地开启或关闭手部检测模块，成为了一种高效且节能的解决方案。

例如，当头戴式显示设备的局部运动检测模块输出第一运动检测结果，即检测到存在局部运动时，系统会开启手部检测模块。这是因为局部运动往往意味着用户正在进行某种手部动作或交互操作，此时开启手部检测模块能够实时捕捉用户的手部动作，为用户提供精准的交互反馈。例如，在虚拟现实游戏中，用户可以通过手部动作来控制游戏角色或操作游戏道具，而手部检测模块的开启能够确保这些动作被准确识别和响应。

例如，当局部运动检测模块输出第二运动检测结果，即确定不存在局部运动时，系统会关闭手部检测模块。因为在静态或相对稳定的场景中，用户的手部动作较少或没有发生明显变化，此时继续开启手部检测模块不仅无法提供额外的交互价值，还会浪费计算资源并可能导致设备发热。通过关闭手部检测模块，系统能够释放计算资源，降低功耗，并保持设备的稳定运行。

这种基于运动检测结果来动态加载手部检测模块的策略，能够根据实际场景的需求来优化计算资源的分配。它能够在需要时快速开启手部检测模块，提供精准的交互反馈；在不需要时及时关闭该手部检测模块，避免资源的浪费和设备的过热。这种动态管理的方式不仅提升了用户体验，还延长了设备的使用寿命。

本申请实施例在虚拟现实相关算法处理流程中创新性地引入了局部运动检测算法。这一步骤在虚拟现实相关算法中起到了至关重要的作用，它能够精准地识别和跟踪场景中的动态变化，为后续的交互、渲染和定位提供关键信息。通过引入局部运动检测算法，本申请实施例显著提高了虚拟现实系统的响应速度和准确性，为用户提供了更加流畅、自然的体验。

本申请实施例可以利用单色双目图像合像后的重叠区域进行局部运动检测，而不是直接对RGB图像进行处理。这一创新策略充分利用了单色双目图像的特性，有效提高了局部运动检测的效率和准确性。同时，通过与RGB图像处理的并行处理，本申请实施例进一步提高了整个系统的处理速度，实现了高效、实时的局部运动检测。这种并行处理的策略使得系统能够同时处理多种任务，从而提高了整体性能。

其中，过引入局部运动检测算法，本申请实施例成功填补了See-through场景在局部运动检测方面的缺失。这一技术效果的实现，使得虚拟现实系统能够更准确地识别和跟踪场景中的动态变化，为用户提供更加自然、真实的交互体验。

其中，通过使用数据量较小的单色双目图像进行局部运动检测，本申请实施例显著降低了数据传输的带宽需求。与RGB图像相比，单色双目图像的数据量通常为0.3MB，远远小于数据量通常为12MB的RGB图像。这意味着在进行局部运动检测时，本申请实施例能够节省约97％的带宽资源。这一技术效果的实现，不仅提高了系统的处理效率，还有助于降低硬件成本和维护成本。

其中，通过将局部运动检测与ISP处理并行完成，本申请实施例显著提高了系统的处理速度。相较于业内通用的串行处理方案，本申请实施例能够减少约4ms的处理时间。这一技术效果的实现，使得系统能够更快地响应用户的操作和指令，提供更加流畅、自然的虚拟现实体验。

上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

为便于更好的实施本申请实施例的图像处理方法，本申请实施例还提供一种图像处理装置。请参阅图7，图7为本申请实施例提供的图像处理装置的结构示意图。其中，该图像处理装置200可以包括：

第一获取单元210，用于获取双目图像序列，所述双目图像序列中的每帧双目图像包括左图像和右图像；

第一处理单元220，用于对每帧所述双目图像中的所述左图像和所述右图像进行图像合成处理，得到每帧所述双目图像对应的合成图像，其中，每帧所述合成图像中包含有所述左图像和所述右图像之间的重叠区域；

检测单元230，用于根据所述重叠区域进行局部运动检测，获取运动检测结果。

在一些实施例中，所述第一获取单元210，可以用于：获取目标双目摄像头采集的双目图像序列，所述双目图像序列包括第t-1帧双目图像和第t帧双目图像。

在一些实施例中，所述第一处理单元220，可以用于：对所述第t-1帧双目图像中的第t-1帧左图像和第t-1帧右图像进行图像合成处理，得到所述第t-1帧双目图像对应的第t-1帧合成图像，所述第t-1帧合成图像中包含有所述第t-1帧左图像和所述第t-1帧右图像之间的第一重叠区域，其中，t为正整数；对所述第t帧双目图像中的第t帧左图像和第t帧右图像进行图像合成处理，得到所述第t帧双目图像对应的第t帧合成图像，所述第t帧合成图像中包含有所述第t帧左图像和所述第t帧右图像之间的第二重叠区域。

在一些实施例中，所述检测单元230，可以用于根据所述第t-1帧合成图像中的所述第一重叠区域与所述第t帧合成图像中的所述第二重叠区域，计算光流场；根据所述光流场，获取运动检测结果。

在一些实施例中，所述检测单元230在根据所述第t-1帧合成图像中的所述第一重叠区域与所述第t帧合成图像中的所述第二重叠区域，计算光流场时，可以用于：对所述第t-1帧合成图像中的所述第一重叠区域与所述第t帧合成图像中的所述第二重叠区域进行特征点检测，得到所述第t-1帧合成图像对应的第一特征点数据，以及所述第t帧合成图像对应的第二特征点数据；对所述第一特征点数据与所述第二特征点数据进行特征点匹配，得到匹配特征点数据；根据所述匹配特征点数据，获得所述光流场。

在一些实施例中，所述检测单元230在根据所述光流场，获取运动检测结果时，可以用于：分析所述光流场，确定所述第一重叠区域与所述第二重叠区域中的运动目标；根据所述运动目标的运动信息，确定运动区域；获取第一运动检测结果，所述第一运动检测结果包括第一提示信息和所述运动区域的坐标信息，所述第一提示信息用于提示存在局部运动。

在一些实施例中，所述检测单元230在根据所述光流场，获取运动检测结果时，还可以用于：在确定所述第一重叠区域与所述第二重叠区域中不存在运动目标时，获取第二运动检测结果，所述第二运动检测结果包括第二提示信息，所述第二提示信息用于提示不存在局部运动。

在一些实施例中，所述图像处理装置200可以应用于头戴式显示设备，所述头戴式显示设备上配置有彩色摄像头和显示屏；所述图像处理装置200还包括：

第二获取单元，用于获取所述彩色摄像头采集的彩色图像序列；

构建单元，用于基于所述双目图像序列中每帧所述双目图像对应的合成图像，构建三维网格；

融合单元，用于将所述彩色图像序列与所述三维网格进行图像融合处理，得到目标图像；

显示单元，用于在所述显示屏上显示所述目标图像。

在一些实施例中，所述图像处理装置200还包括第二处理单元，用于：

在一些实施例中，所述头戴式显示设备上还配置有面部识别模块；所述图像处理装置200还包括第三处理单元，用于：

在一些实施例中，所述头戴式显示设备上还配置有手部检测模块；所述图像处理装置200还包括第四处理单元，用于：

基于所述第一运动检测结果，开启所述手部检测模块；或者

基于所述第二运动检测结果，关闭所述手部检测模块。

上述图像处理装置200中的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各个单元可以以硬件形式内嵌于或独立于终端设备中的处理器中，也可以以软件形式存储于终端设备中的存储器中，以便于处理器调用执行上述各个单元对应的操作。

图像处理装置200，可以集成在具备储存器并安装有处理器而具有运算能力的终端或服务器中，或者该图像处理装置200为该终端或服务器。

在一些实施例中，本申请还提供了一种终端设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

如图8所示，图8为本申请实施例提供的终端设备的结构示意图，该终端设备300通常可以提供为眼镜、头盔式显示器(Head Mount Display，HMD)、隐形眼镜的形态，以用于实现视觉感知和其他形式的感知，当然终端设备实现的形态不限于此，根据需要可以进一步小型化或大型化。该终端设备300可以包括但不限于以下的构成：

检测模块301：使用各种传感器检测用户的操作命令，并作用于虚拟环境，如跟随用户的视线而不断更新在显示屏上显示的影像，实现用户与虚拟和场景的交互，例如基于检测到的用户头部的转动方向来不断更新现实内容。

反馈模块302：接收来自传感器的数据，为用户提供实时反馈；其中，该反馈模块302可以为用于显示图形用户界面，比如在该图形用户界面上显示虚拟环境。例如，该反馈模块302可以包括显示屏幕等。

传感器303：一方面接受来自用户的操作命令，并将其作用于虚拟环境；另一方面将操作后产生的结果以各种反馈的形式提供给用户。

控制模块304：对传感器和各种输入/输出装置进行控制，包括获得用户的数据(如动作、语音)和输出感知数据，如图像、振动、温度和声音等，对用户、虚拟环境和现实世界产生作用。

建模模块305：构造虚拟环境的三维模型，还可以包括三维模型中的声音、触感等各种反馈机制。

在本申请实施例中，可以通过建模模块305构建构造虚拟环境的三维模型；通过反馈模块302显示头戴式显示设备生成的虚拟环境；通过检测模块301与传感器303获取双目图像序列，双目图像序列中的每帧双目图像包括左图像和右图像；通过控制模块304对每帧双目图像中的左图像和右图像进行图像合成处理，得到每帧双目图像对应的合成图像，其中，每帧合成图像中包含有左图像和右图像之间的重叠区域，并根据重叠区域进行局部运动检测，获取运动检测结果。

在一些实施例中，如图9所示，图9为本申请实施例提供的终端设备的另一结构示意图，终端设备300还包括有一个或者一个以上处理核心的处理器310、有一个或一个以上计算机可读存储介质的存储器320及存储在存储器320上并可在处理器上运行的计算机程序。其中，处理器310与存储器320电性连接。本领域技术人员可以理解，图中示出的终端设备结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器310是终端设备300的控制中心，利用各种接口和线路连接整个终端设备300的各个部分，通过运行或加载存储在存储器320内的软件程序和/或模块，以及调用存储在存储器320内的数据，执行终端设备300的各种功能和处理数据，从而对终端设备300进行整体监控。

在本申请实施例中，终端设备300中的处理器310会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器320中，并由处理器310来运行存储在存储器320中的应用程序，从而实现各种功能：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

在一些实施例中，处理器310可以包括检测模块301、控制模块304和建模模块305。

在一些实施例中，如图9所示，终端设备300还包括：射频电路306、音频电路307以及电源308。其中处理器310分别与存储器320、反馈模块302、传感器303、射频电路306、音频电路307以及电源308电性连接。本领域技术人员可以理解，图8或图9中示出的终端设备结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

射频电路306可用于收发射频信号，以通过无线通信与网络设备或其他终端设备建立无线通讯，与网络设备或其他终端设备之间收发信号。

音频电路307可以用于通过扬声器、传声器提供用户与终端设备之间的音频接口。音频电路307可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路307接收后转换为音频数据，再将音频数据输出处理器310处理后，经射频电路306以发送给比如另一终端设备，或者将音频数据输出至存储器以便进一步处理。音频电路307还可能包括耳塞插孔，以提供外设耳机与终端设备的通信。

电源308用于给终端设备300的各个部件供电。

尽管图8或图9中未示出，终端设备300还可以包括摄像头、无线保真模块、蓝牙模块、输入模块等，在此不再赘述。

在一些实施例中，本申请还提供了一种计算机可读存储介质，用于存储计算机程序。该计算机可读存储介质可应用于终端设备或服务器，并且该计算机程序使得终端设备或服务器执行本申请实施例中的图像处理方法中的相应流程，为了简洁，在此不再赘述。

在一些实施例中，本申请还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。终端设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得终端设备执行本申请实施例中的图像处理方法中的相应流程，为了简洁，在此不再赘述。

本申请还提供了一种计算机程序，该计算机程序包括计算机程序，计算机程序存储在计算机可读存储介质中。终端设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得终端设备执行本申请实施例中的图像处理方法中的相应流程，为了简洁，在此不再赘述。

应理解，本申请实施例的处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的，一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请实施例中的各功能单元可以集成在一个第一处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述功能若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是个人计算机，服务器)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取双目图像序列，所述双目图像序列中的每帧双目图像包括左图像和右图像；

对每帧所述双目图像中的所述左图像和所述右图像进行图像合成处理，得到每帧所述双目图像对应的合成图像，其中，每帧所述合成图像中包含有所述左图像和所述右图像之间的重叠区域；

根据所述重叠区域进行局部运动检测，获取运动检测结果。

2.如权利要求1所述的图像处理方法，其特征在于，所述获取双目图像序列，包括：

获取目标双目摄像头采集的双目图像序列，所述双目图像序列包括第t-1帧双目图像和第t帧双目图像。

3.如权利要求2所述的图像处理方法，其特征在于，所述对每帧所述双目图像中的所述左图像和所述右图像进行图像合成处理，得到每帧所述双目图像对应的合成图像，包括：

4.如权利要求3所述的图像处理方法，其特征在于，所述根据所述重叠区域进行局部运动检测，获取运动检测结果，包括：

根据所述第t-1帧合成图像中的所述第一重叠区域与所述第t帧合成图像中的所述第二重叠区域，计算光流场；

根据所述光流场，获取运动检测结果。

5.如权利要求4所述的图像处理方法，其特征在于，所述根据所述第t-1帧合成图像中的所述第一重叠区域与所述第t帧合成图像中的所述第二重叠区域，计算光流场，包括：

对所述第t-1帧合成图像中的所述第一重叠区域与所述第t帧合成图像中的所述第二重叠区域进行特征点检测，得到所述第t-1帧合成图像对应的第一特征点数据，以及所述第t帧合成图像对应的第二特征点数据；

对所述第一特征点数据与所述第二特征点数据进行特征点匹配，得到匹配特征点数据；

根据所述匹配特征点数据，获得所述光流场。

6.如权利要求4所述的图像处理方法，其特征在于，所述根据所述光流场，获取运动检测结果，包括：

分析所述光流场，确定所述第一重叠区域与所述第二重叠区域中的运动目标；

根据所述运动目标的运动信息，确定运动区域；

获取第一运动检测结果，所述第一运动检测结果包括第一提示信息和所述运动区域的坐标信息，所述第一提示信息用于提示存在局部运动。

7.如权利要求6所述的图像处理方法，其特征在于，所述根据所述光流场，获取运动检测结果，还包括：

8.如权利要求7所述的图像处理方法，其特征在于，所述方法应用于头戴式显示设备，所述头戴式显示设备上配置有彩色摄像头和显示屏；所述方法还包括：

获取所述彩色摄像头采集的彩色图像序列；

基于所述双目图像序列中每帧所述双目图像对应的合成图像，构建三维网格；

将所述彩色图像序列与所述三维网格进行图像融合处理，得到目标图像；

在所述显示屏上显示所述目标图像。

9.如权利要求8所述的图像处理方法，其特征在于，所述方法还包括：

10.如权利要求8所述的图像处理方法，其特征在于，所述头戴式显示设备上还配置有面部识别模块；所述方法还包括：

11.如权利要求8所述的图像处理方法，其特征在于，所述头戴式显示设备上还配置有手部检测模块；所述方法还包括：

基于所述第一运动检测结果，开启所述手部检测模块；或者

基于所述第二运动检测结果，关闭所述手部检测模块。

12.如权利要求2所述的图像处理方法，其特征在于，所述目标双目摄像头为单色双目摄像头，所述左图像为单色左图像，所述右图像为单色右图像。

13.一种图像处理装置，其特征在于，所述装置包括：

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1-12任一项所述的图像处理方法。

15.一种终端设备，其特征在于，所述终端设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行权利要求1-12任一项所述的图像处理方法。

16.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-12任一项所述的图像处理方法。