CN111044045B

CN111044045B - 基于神经网络的导航方法、装置及终端设备

Info

Publication number: CN111044045B
Application number: CN201911250971.0A
Authority: CN
Inventors: 李强; 程俊; 张锲石; 孙士杰
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2022-05-27
Anticipated expiration: 2039-12-09
Also published as: CN111044045A

Abstract

本申请适用于数据处理技术领域，提供了基于神经网络的导航方法、装置及终端设备，该方法包括：获取当前时刻之前预设时间段内目标区域的场景图像，从场景图像中提取每个行人的视觉特征，并根据历史运动轨迹确定每个行人的联合特征；根据每个行人的视觉特征确定与当前行人的最佳运动轨迹相关的第一上下文信息，根据每个行人的联合特征确定当前行人的第二上下文信息，通过生成对抗网络对第一上下文信息和第二上下文信息进行处理确定各个行人的预测运动轨迹，根据该预测运动轨迹对机器人进行导航。本申请实施例得到的导航路径更为合理和准确，能够适用于动态环境的导航。

Description

基于神经网络的导航方法、装置及终端设备

技术领域

本申请属于图像处理技术领域，尤其涉及基于神经网络的导航方法、装置及终端设备。

背景技术

在动态复杂场景(比如人群)中导航是当前自动驾驶的一大难题，目前的导航技术主要使用传统的建图导航模式，而该导航技术只适用于静态场景，在复杂动态场景中的导航效果较差。

发明内容

为克服相关技术中存在的问题，本申请实施例提供了基于神经网络的导航方法、装置及终端设备。

本申请是通过如下技术方案实现的：

第一方面，本申请实施例提供了一种基于神经网络的导航方法，包括：

获取当前时刻之前预设时间段内目标区域的场景图像，所述场景图像中包含多个行人的图像和所述多个行人的历史运动轨迹；

从所述场景图像中提取每个行人的视觉特征，并根据所述历史运动轨迹确定每个行人的联合特征；其中，所述联合特征包含其他行人的运动轨迹对当前行人的运动轨迹的影响信息；

根据所述每个行人的视觉特征确定与当前行人的最佳运动轨迹相关的第一上下文信息，根据所述每个行人的联合特征确定当前行人的第二上下文信息；

基于所述第一上下文信息和所述第二上下文信息，通过生成对抗网络确定各个行人的预测运动轨迹；

根据所述各个行人的预测运动轨迹对机器人进行导航。

在第一方面的一种可能的实现方式中，所述从所述场景图像中提取每个行人的视觉特征，包括：

通过卷积神经网络从所述场景图像中提取每个行人的视觉特征；

所述根据所述历史运动轨迹确定每个行人的联合特征，包括：

通过第一长短期记忆网络从所述场景图像中捕获当前行人的所有状态之间的时间依赖关系；

基于当前行人与其他行人之间的距离信息，并结合当前行人的所述时间依赖关系，确定当前行人对应的联合特征。

在第一方面的一种可能的实现方式中，所述根据所述每个行人的视觉特征确定与当前行人的最佳运动轨迹相关的第一上下文信息，包括：

将每个行人的视觉特征输入第一软注意力模型，得到所述第一上下文信息；

所述根据所述每个行人的联合特征确定当前行人的第二上下文信息，包括：

将每个行人的联合特征输入第二软注意力模型，得到所述第二上下文信息。

在第一方面的一种可能的实现方式中，所述基于所述第一上下文信息和所述第二上下文信息，通过生成对抗网络确定各个行人的预测运动轨迹，包括：

将所述第一上下文信息和所述第二上下文信息输入第二长短期记忆网络的解码器，得到每个行人在下一时刻的初始预测运动轨迹；

通过所述第二长短期记忆网络的编码器对所述初始预测运动轨迹进行鉴别，并根据鉴别结果确定所述预测运动轨迹。

在第一方面的一种可能的实现方式中，所述方法还包括通过损失函数训练所述第二长短期记忆网络的步骤；

所述通过损失函数训练所述第二长短期记忆网络，包括：

通过

确定所述第二长短期记忆网络的网络权重；其中，W是所述第二长短期记忆网络中的所有权重的集合，λ是抗损失

和L2损失

之间的正则化项，且

在第一方面的一种可能的实现方式中，所述根据所述各个行人的预测运动轨迹对机器人进行导航，包括：

根据至少连续两次确定出的各个行人的预测运动轨迹，生成用于为机器人进行导航的动作序列。

在第一方面的一种可能的实现方式中，所述根据至少连续两次确定出的各个行人的预测运动轨迹，生成用于为机器人进行导航的动作序列，包括：

在所述各个行人的预测运动轨迹对应的空间尺度上进行价值迭代，生成处于所述对应空间尺度的一个或多个价值地图；

对所述一个或多个价值地图进行中心裁剪和上采样处理，并对经过所述中心裁剪的和上采样处理后的结果进行价值迭代，得到目标价值图；

通过具有修正的线性单元激活函数的一组全连接层处理所述目标价值图，生成用于为机器人进行导航的动作序列。

第二方面，本申请实施例提供了一种基于神经网络的导航装置，包括：

图像获取模块，用于获取当前时刻之前预设时间段内目标区域的场景图像，所述场景图像中包含多个行人的图像和所述多个行人的历史运动轨迹；

特征获取模块，用于从所述场景图像中提取每个行人的视觉特征，并根据所述历史运动轨迹确定每个行人的联合特征；其中，所述联合特征包含其他行人的运动轨迹对当前行人的运动轨迹的影响信息；

确定模块，用于根据所述每个行人的视觉特征确定与当前行人的最佳运动轨迹相关的第一上下文信息，根据所述每个行人的联合特征确定当前行人的第二上下文信息；

预测运动轨迹生成模块，用于基于所述第一上下文信息和所述第二上下文信息，通过生成对抗网络确定各个行人的预测运动轨迹；

导航模块，用于根据所述各个行人的预测运动轨迹对机器人进行导航。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一项所述的基于神经网络的导航方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的基于神经网络的导航方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的基于神经网络的导航方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请实施例与现有技术相比存在的有益效果是：

本申请实施例，根据每个行人的视觉特征确定与当前行人的最佳运动轨迹相关的第一上下文信息，根据每个行人的联合特征确定当前行人的第二上下文信息，通过生成对抗网络对第一上下文信息和第二上下文信息进行处理确定各个行人的预测运动轨迹，根据该预测运动轨迹对机器人进行导航，由于联合特征包含了其他行人的运动轨迹对当前行人的运动轨迹的影响信息，因此预测出的行人的运动轨迹能够反映出各个行人之间的相互影响，使得根据该预测运动轨迹规划处的导航路径更为合理和准确，而且生成对抗网络能够使得预测运动轨迹更加符合行人实际轨迹，进一步提高导航路径的合理性和准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的基于神经网络的导航方法的应用环境示意图；

图2是本申请一实施例提供的基于神经网络的导航方法的框架示意图；

图3是本申请一实施例提供的基于神经网络的导航方法的流程示意图；

图4是本申请一实施例提供的轨迹预测的框架示意图；

图5是本申请一实施例提供的基于神经网络的导航方法的流程示意图；

图6是本申请一实施例提供的基于神经网络的导航方法的流程示意图；

图7是本申请一实施例提供的路径规划的框架示意图；

图8是本申请一实施例提供的基于神经网络的导航装置的结构示意图；

图9是本申请一实施例提供的终端设备的结构示意图；

图10是本申请一实施例提供的基于神经网络的导航方法所适用于的车载设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

现有大多数方法使用长短期记忆网络(LSTM)来表示行人历史运动轨迹，虽然可以较好反映单个行人的运动变化趋势，但不能够有效表示出多个行人之间的相互影响，因此不能够学到对机器人导航最有用的信息，从而导致规划不出合理的路径，而且不能实时的进行路径规划，最终导致导航效果不理想。

而要想通过轨迹预测进行导航，首先要保证预测模型的健壮性，考虑到行人轨迹预测是一个多模态问题，因为行人的轨迹不仅与终点的方向有关而且还与行人当前的运动趋势等因素有关，现有大多数LSTM社会池模型无法在复杂场景中学到这些影响行人轨迹预测的相关因素。

基于上述问题，本申请实施例中的基于神经网络的导航方法，从场景图像中获取行人的视觉特征和历史运动轨迹，并根据行人的历史运动轨迹确定包含行人之间的运动轨迹的影响信息的联合特征，然后根据每个行人的视觉特征确定与当前行人的最佳运动轨迹相关的上下文信息，以及根据每个行人的联合特征确定当前行人的上下文信息，通过生成对抗网络对上述上下文信息进行处理确定各个行人之后的运动轨迹，根据该预测运动轨迹对机器人进行导航，由于联合特征包含了行人之间的运动轨迹的影响信息，因此预测出的行人的运动轨迹能够反映出各个行人之间的相互影响，根据该预测运动轨迹规划处的导航路径更为合理和准确，而且生成对抗网络能够使得预测运动轨迹更加符合行人实际轨迹，进一步提高导航路径的合理性和准确性。

举例说明，本申请实施例可以应用到如图1所示的示例性场景中，在该场景中，场景图像采集设备10采集目标区域的场景图像，并将该场景图像发送给导航设备20；导航设备20从场景图像中获取行人的视觉特征和历史运动轨迹，并根据行人的历史运动轨迹确定包含行人之间的运动轨迹的影响信息的联合特征，然后根据每个行人的视觉特征确定与当前行人的最佳运动轨迹相关的上下文信息，以及根据每个行人的联合特征确定当前行人的上下文信息，通过生成对抗网络对上述上下文信息进行处理确定各个行人之后的运动轨迹，根据该预测运动轨迹对机器人进行导航。

图2为本申请实施例基于神经网络的导航方法的框架示意图，参见图2，输入为上一时刻行人的视频序列，输出为机器人导航的动作序列，每连续进行至少两次轨迹预测输出一次导航序列用于机器人导航，这样比仅使用一次轨迹预测后接着生成导航序列考虑的更长远，并且可以让机器人避免因周围环境突然发生变化而导致与行人发生碰撞。其中，在预测某个行人轨迹时可以把场景中的机器人看成一个行人(机器人对行人是可见的)，在生成机器人动作序列时使用的是预测出来的除机器人外的其他行人轨迹。

生成对抗网络(GAN)具有很好的模拟生成真实样本的能力，在计算机视觉领域取得了很好的效果。因此采用GAN来预测环境中除机器人之外其他行人的运动轨迹，经过GAN生成的轨迹可以达到和真实轨迹真假难分的效果，通过对行人运动轨迹分布进行建模来捕捉未来路径的不确定性，然后使用预测出来的运动轨迹作为下一步路径规划的输入。

此外，在轨迹预测中将社交关注机制与物理关注机制相结合，从而可以很好的学到复杂场景中每个行人的位置信息，并提取图像中与路径相关的最显着部分。社交关注模块从不同行人的交互中聚合信息，并从周围的行人中提取最重要的轨迹信息，因此使用注意力机制能够高效的预测出用于机器人导航的行人轨迹。

为了使本技术领域的人员更好地理解本发明方案，下面将结合图1和图2，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图3是本申请一实施例提供的基于神经网络的导航方法的示意性流程图，参照图3，对该基于神经网络的导航方法的详述如下：

在步骤101中，获取当前时刻之前预设时间段内目标区域的场景图像，所述场景图像中包含多个行人的图像和所述多个行人的历史运动轨迹。

本步骤中，上述场景图像可以通过机器人自带的图像采集设备进行采集，也可以通过其他图像采集设备采集后发给机器人，本申请实施例对此不予限定。另外，上述场景图像可以为视频图像，例如在机器人即将要进入目标区域时，可以持续采集目标区域的图像得到视频图像。

示例性的，上述场景图像中可以包含目标区域内的所有行人的图像，以及各个行人的历史运动轨迹信息。其中，上述历史运动轨迹信息可以为截至当前时刻每个行人的历史运动轨迹。

在步骤102中，从所述场景图像中提取每个行人的视觉特征，并根据所述历史运动轨迹确定每个行人的联合特征。

其中，所述联合特征包含其他行人的运动轨迹对当前行人的运动轨迹的影响信息。

一些实施例中，如图4所示，可以通过卷积神经网络从所述场景图像中提取每个行人的视觉特征。

例如，通过卷积神经网络(CNN)从场景图像I^t中提取视觉特征

其中，W_cnn为卷积神经网络的参数。

一些实施例中，步骤102中的根据所述历史运动轨迹确定每个行人的联合特征，可以包括：

步骤A，通过第一长短期记忆网络从所述场景图像中捕获当前行人的所有状态之间的时间依赖关系；

步骤B，基于当前行人与其他行人之间的距离信息，并结合当前行人的时间依赖关系，确定当前行人对应的联合特征。

例如，首先可以使用LSTM捕获行人i的所有状态之间的时间依赖关系，并将上述时间依赖关系编码为时间t的高维特征:

其中，

表示行人i在时间t处LSTM编码器的隐含状态，

表示第i个行人在时间t时的状态，W_en表示LSTM的参数。

为了捕获其他行人对要被预测的行人的轨迹的影响，需要从所有行人编码的特征中提取联合特征，而使用简单对行人排序效果较差，为了使联合特征置换相对索引不变，可以使用排序的方法，用其他行人与行人i的距离的排序来构造行人i的联合特征：

其中，π_j是根据其他行人到行人i的距离对其他行人进行排序后的索引。

需要说明的是，如图4所示，每个行人可以对应一个第一LSTM，而各个行人之间的第一LSTM可以为同一网络，也可以为不同的网络，本申请实施例对此不予限定。

在步骤103中，根据所述每个行人的视觉特征确定与当前行人的最佳运动轨迹相关的第一上下文信息，根据所述每个行人的联合特征确定当前行人的第二上下文信息。

本步骤中，为了预测每个行人的未来运动轨迹，应该更加注意场景图像中突出的部分和更相关的其他行人。因此，分别对行人的物理特征和社交特征使用两个软注意力模型来实现这种功能。

一些实施例中，可以将每个行人的视觉特征输入第一软注意力模型，得到所述第一上下文信息。

其中，如图4所示，每个行人可以对应一个注意力模型，即包括一个第一软注意力模型和一个第二软注意力模型。而各个行人之间的第一软注意力模型可以为同一模型，也可以为不同的模型；各个行人之间的第二软注意力模型可以为同一模型，也可以为不同的模型，本申请实施例对此不予限定。

例如，可以将第一长短期记忆网络LSTM编码器的隐含状态

步骤102中的视觉特征

和LSTM编码器的参数W_en输入第一软注意力模型，得到上述第一上下文信息。由于第一长短期记忆网络LSTM编码器的隐含状态中含有用来预测行人轨迹的信息，而第一软注意力模型学习训练数据场景中的空间(物理)约束，因此，上述第一上下文信息是和每个行人最佳轨迹有关的物理上下文向量

一些实施例中，可以将每个行人的联合特征输入第二软注意力模型，得到所述第二上下文信息。

其中，将联合特征

第i个行人的第一长短期记忆网络LSTM解码器的隐含状态

和第二软注意力模型的参数W_So一起输入到第二软注意力模型，获得第i个行人的社交上下文向量

其中，该向量将注意力指向对预测第i个行人轨迹最有用的信息。

本申请实施例中，对ATT_Ph和ATT_So都使用可微并且可以使用反向传播进行端到端训练的软注意力机制。社交注意力和物理注意力机制聚集了所有相关行人和物理地形上的信息，以处理在拥挤区域中对所有行人交互进行建模的复杂性。而且，这也以有用的方式抑制了输入数据的冗余，从而使得对行人运动轨迹的预测可以将重点放在重要特征上。

在步骤104中，基于所述第一上下文信息和所述第二上下文信息，通过生成对抗网络确定各个行人的预测运动轨迹。

本实施例中，使用GAN去学习和预测所有可行路径上的分布。示例性的，可以基于LSTM的生成对抗网络(GAN)模块将每个行人i，分别把社交上下文向量

和物理上下文向量

作为输入和输出候选的未来状态。

其中，GAN可以包含两个相互竞争的网络，一个生成器网络和一个鉴别器网络。训练生成器以学习路径的分布，并为行人生成可能的未来路径的样本，而鉴别器则学习区分生成路径的可行性或不可行性。在两个玩家的最小-最大游戏框架中同时训练这些网络。

本实施例中，使用两个LSTM，如图4所示，一个LSTM解码器作为生成器，一个LSTM分类器作为鉴别器，来估计时间相关的未来状态。

参见图5，一些实施例中，基于图3所示的实施例，步骤104可以包括以下步骤：

在步骤1041中，将所述第一上下文信息和所述第二上下文信息输入第二长短期记忆网络的解码器，得到每个行人在下一时刻的初始预测运动轨迹。

示例性的，本步骤中所用的生成器可以是LSTM解码器。类似于条件生成对抗网络，生成器的输入是从多元正态分布采样的白噪声矢量z，而物理上下文向量

和社交上下文向量

是其条件。我们简单地将噪声向量z和这些上下文向量连接为输入，即

因此，可以通过

获得每个行人i的第τ个未来状态的路径轨迹样本；其中，

为行人i的LSTM解码器在t时刻的隐含状态，W_dec为第二长短期记忆网络的解码器的参数。

在步骤1042中，通过所述第三长短期记忆网络的编码器对所述初始预测运动轨迹进行鉴别，并根据鉴别结果确定所述预测运动轨迹。

示例性的，本步骤中可以通过鉴别器对所述初始预测运动轨迹进行鉴别。本步骤中的鉴别器可以是另一个LSTM长短期记忆网络LSTM_dis(·)，它的输入是从真实路径轨迹或每个行人τ帧之前的预测轨迹(即

)中随机选择的轨迹样本：

其中，

是来自鉴别器的预测标签，所选轨迹样本将来自真实

或预测的(假的)

(对应的标签分别为

和

)。鉴别器促使生成器生成更现实的(合理的)状态。

为行人i的LSTM编码器在t时刻的隐含状态。

可选的，所述方法还可以包括通过损失函数训练所述第二长短期记忆网络的步骤。

示例性的，所述通过损失函数训练所述第二长短期记忆网络，可以包括：

通过

和L2损失

之间的正则化项，且

在步骤105中，根据所述各个行人的预测运动轨迹对机器人进行导航。

其中，步骤105中可以价值迭代网络(Value Iteration Network,VIN)实现。值迭代中每个状态的值在每次迭代时都通过对其邻域的值取最大值以及过渡到那些邻域的收益来迭代地重新计算，可以很好地解决2D网格世界导航问题。在这些问题中，可以使用3×3小内核来实现这些操作，然后在通道上进行最大池化。通过提供对每个状态的最优动作的监督，这种价值迭代的重构也可以用于学习路径规划导航模块卷积层中的参数。因此，可以通过非常深的卷积网络(使用通道级最大池)以可训练和可区分的方式完成路径规划和导航。

价值迭代网络是一种能够进行规划计算的可导的神经网络，其每一次迭代都可以看作是将上一次迭代的值函数Vn和奖励函数R经过卷积层以及最大池化(max-pooling)迭代更新。因此，在每一个特征图当中实际上可以看作是一个具体的动作action对应的值函数的结果，即Q函数；有多少个action就会对应多少张特征图，而连续的action可通过一个特征向量来表示。卷积层中的卷积和的参数正好对应于状态的转移概率。价值迭代网络输入是回报

转移概率

和上次迭代的价值函数，输出是价值函数

价值迭代网络的表达式为：

其中，

表示卷积层，l，i，j表示卷积网络的维度，

表示某个特定的动作，

表示价值迭代网络的参数，

表示回报，

表示下一次迭代的值函数，max表示最大池化。

并且在得到的结果当中，对不同通道的Q值进行最大池化(max-pooling)操作。W是价值迭代网络的参数，表示的是可以到周围的几个Q值的概率；引入了一个空间辅助策略的求解，使得policy更具有泛化能力；经过最后的跨通道的Max-pooling得到就是一次迭代后的值函数的值。于是价值迭代网络具备了值迭代的功能，同时也能够像卷积神经网络一样可以通过反向传播算法更新网络。

在一些实施例中，步骤105具体可以为：

参见图6，上述根据至少连续两次确定出的各个行人的预测运动轨迹，生成用于为机器人进行导航的动作序列，可以包括以下步骤：

在步骤201中，在所述各个行人的预测运动轨迹对应的空间尺度上进行价值迭代，生成处于所述对应空间尺度的一个或多个价值地图。

在步骤201中，对所述一个或多个价值地图进行中心裁剪和上采样处理，并对经过所述中心裁剪的和上采样处理后的结果进行价值迭代，得到目标价值图。

在步骤201中，通过具有修正的线性单元激活函数的一组全连接层处理所述目标价值图，生成用于为机器人进行导航的动作序列。

参见图7，本实施例中可以通过路径规划器在多个空间尺度上对机器人的路径进行规划。具体地，路径规划器包括针对多个空间尺度中的每一个空间尺度的相应价值子系统。图7中仅示出了两个价值子系统，分比为空间尺度1对应的价值子系统和空间尺度0对应的价值子系统，但是路径规划器通常会包括多于两个价值子系统。

其中，路径规划器的价值子系统中的第一价值子系统对应于k次空间下采样的地图，而最后价值子系统对应于原始分辨率

每个价值子系统在对应的空间尺度上进行l次价值迭代，以生成处于对应空间尺度的一个或多个价值地图。对于与该空间尺度相对应的空间扩缩的环境地图中的多个区域中的每个区域，价值地图包括对在该区域中的代理要实现目标的价值的估计，即，对在对应区域中的代理对于实现目标的价值的估计。

然后，路径规划器对一个或多个价值地图进行中心裁剪和上采样处理，并使用经过上述中心裁剪的和上采样处理后的输出，以更精细的尺度进行价值迭代，即，通过提供经过上述中心裁剪的和上采样处理后的输出作为下一个价值子系统的输入来以更精细的尺度进行价值迭代。路径规划器多次重复该处理——即对于每个价值子系统重复一次以达到原始问题的分辨率。

一旦最后价值子系统已经生成了与接收的场景图像相同尺度的一个或多个价值地图，则路径规划器使用这些价值地图来选择要由机器人执行的行动。路径规划器使用具有修正的线性单元激活函数ReLU的一组全连接层来处理这些价值地图，以生成关于要由机器人执行的可能行动的分值分布，然后从分值分布中选择动作序列。

上述基于神经网络的导航方法，根据每个行人的视觉特征确定与当前行人的最佳运动轨迹相关的第一上下文信息，根据每个行人的联合特征确定当前行人的第二上下文信息，通过生成对抗网络对第一上下文信息和第二上下文信息进行处理确定各个行人的预测运动轨迹，根据该预测运动轨迹对机器人进行导航，由于联合特征包含了其他行人的运动轨迹对当前行人的运动轨迹的影响信息，因此预测出的行人的运动轨迹能够反映出各个行人之间的相互影响，使得根据该预测运动轨迹规划处的导航路径更为合理和准确，而且生成对抗网络能够使得预测运动轨迹更加符合行人实际轨迹，进一步提高导航路径的合理性和准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的基于神经网络的导航方法，图8示出了本申请实施例提供的基于神经网络的导航装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参见图8，本申请实施例中的基于神经网络的导航装置可以包括图像获取模块301、特征获取模块302、确定模块303、预测运动轨迹生成模块304和导航模块305。

其中，图像获取模块301，用于获取当前时刻之前预设时间段内目标区域的场景图像，所述场景图像中包含多个行人的图像和所述多个行人的历史运动轨迹；

特征获取模块302，用于从所述场景图像中提取每个行人的视觉特征，并根据所述历史运动轨迹确定每个行人的联合特征；其中，所述联合特征包含其他行人的运动轨迹对当前行人的运动轨迹的影响信息；

确定模块303，用于根据所述每个行人的视觉特征确定与当前行人的最佳运动轨迹相关的第一上下文信息，根据所述每个行人的联合特征确定当前行人的第二上下文信息；

预测运动轨迹生成模块304，用于基于所述第一上下文信息和所述第二上下文信息，通过生成对抗网络确定各个行人的预测运动轨迹；

导航模块305，用于根据所述各个行人的预测运动轨迹对机器人进行导航。

可选的，特征获取模块302从所述场景图像中提取每个行人的视觉特征，可以包括：

通过卷积神经网络从所述场景图像中提取每个行人的视觉特征

特征获取模块302根据所述历史运动轨迹确定每个行人的联合特征，可以包括：

可选的，确定模块303根据所述每个行人的视觉特征确定与当前行人的最佳运动轨迹相关的第一上下文信息，可以包括：

确定模块303根据所述每个行人的联合特征确定当前行人的第二上下文信息，可以包括：

可选的，预测运动轨迹生成模块304可以包括：

生成单元，用于将所述第一上下文信息和所述第二上下文信息输入第二长短期记忆网络的解码器，得到每个行人在下一时刻的初始预测运动轨迹；

鉴别单元，用于通过所述第二长短期记忆网络的编码器对所述初始预测运动轨迹进行鉴别，并根据鉴别结果确定所述预测运动轨迹。

可选的，上述装置还可以包括用于通过损失函数训练所述第二长短期记忆网络的训练模块；

所述训练模块具体可以用于：

通过

和L2损失

之间的正则化项，且

可选的，导航模块305具体可以用于：

示例性的，导航模块305具体可以用于：

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种终端设备，参见图9，该终端设备400可以包括：至少一个处理器410、存储器420以及存储在所述存储器420中并可在所述至少一个处理器410上运行的计算机程序，所述处理器410执行所述计算机程序时实现上述任意各个方法实施例中的步骤，例如图2所示实施例中的步骤101至步骤105。或者，处理器410执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如图8所示模块301至305的功能。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器420中，并由处理器410执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序段，该程序段用于描述计算机程序在终端设备400中的执行过程。

本领域技术人员可以理解，图10仅仅是终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如输入输出设备、网络接入设备、总线等。

处理器410可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器420可以是终端设备的内部存储单元，也可以是终端设备的外部存储设备，例如插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。所述存储器420用于存储所述计算机程序以及终端设备所需的其他程序和数据。所述存储器420还可以用于暂时地存储已经输出或者将要输出的数据。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请实施例提供的图像分割方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

以所述终端设备为车载设备为例。图10示出的是与本申请实施例提供的计算机的部分结构的框图。参考图10，车载设备包括：通信电路510、存储器520、输入单元530、显示单元540、音频电路550、无线保真(wireless fidelity，WiFi)模块560、处理器570以及电源580等部件。本领域技术人员可以理解，图10中示出的计算机结构并不构成对计算机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图10对车载设备的各个构成部件进行具体的介绍：

通信电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将图像采集设备发送的图像样本接收后，给处理器570处理；另外，将图像采集指令发送给图像采集设备。通常，通信电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。此外，通信电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，GSM)、通用分组无线服务(GeneralPacket Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long TermEvolution,LTE))、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器520可用于存储软件程序以及模块，处理器570通过运行存储在存储器520的软件程序以及模块，从而执行车载设备的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据车载设备的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与车载设备的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器570，并能接收处理器570发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及车载设备的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器(LiquidCrystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器570以确定触摸事件的类型，随后处理器570根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图10中，触控面板531与显示面板541是作为两个独立的部件来实现车载设备的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现车载设备的输入和输出功能。

音频电路550可提供用户与车载设备之间的音频接口。音频电路550可将接收到的音频数据转换后的电信号，传输到扬声器由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路550接收后转换为音频数据，再将音频数据输出处理器570处理后，经通信电路510以发送给比如另一车载设备，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，车载设备通过WiFi模块560可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块560，但是可以理解的是，其并不属于车载设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器570是车载设备的控制中心，利用各种接口和线路连接整个车载设备的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行车载设备的各种功能和处理数据，从而对车载设备进行整体监控。可选的，处理器570可包括一个或多个处理单元；优选的，处理器570可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器570中。

车载设备还可以包括给各个部件供电的电源580(比如电池)，优选的，电源580可以通过电源管理系统与处理器570逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述基于神经网络的导航方法各个实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述基于神经网络的导航方法各个实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。