CN111523731A

CN111523731A - 一种基于Actor-Critic算法的人群疏散运动路径规划方法及系统

Info

Publication number: CN111523731A
Application number: CN202010332464.8A
Authority: CN
Inventors: 吕蕾; 周青林; 常新禹; 张金玲
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-08-11

Abstract

本公开公开了一种基于Actor‑Critic算法的人群疏散运动路径规划方法及系统，包括获取疏散场景参数，构建疏散场景模型，疏散场景参数包括安全疏散标志；根据获取的个体当前运动状态，采用Actor神经网络得到个体的预测动作；根据个体当前运动状态及预测动作，采用Critic神经网络对个体当前运动状态进行评价，得到当前运动状态的奖励值；根据安全疏散标志构建奖励函数，获取奖励值最大的运动状态，以此得到最优运动路径。利用安全疏散标志和Actor‑Critic算法的结合，使个体通过与环境的交互进行学习，利用安全疏散标志的指示作用，逐步学习找到最优路径，更加直观的观察疏散过程的具体情况，在缩短人群疏散时间的同时，根据疏散过程对现实场景做出改善，降低人群疏散的难度。

Description

一种基于Actor-Critic算法的人群疏散运动路径规划方法及系统

技术领域

本公开涉及群体路径规划技术领域，特别是涉及一种基于Actor-Critic算法的人群疏散运动路径规划方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着当今社会的快速发展，我国一线城市逐渐发展成人口超千万的大型都市，公交站、地铁站以及大型公共场所承担着巨大的人口压力，尤其是上下班以及节假日等人口出行高峰期，人员密度巨大，人员极其拥挤，一旦发生意外，尤其是火灾、地震等大型事件，非常容易造成人员恐慌，从而对人员紧急疏散带来困难，如果不能及时找到出口，更会发生踩踏等二次事件，造成更大的损伤，故大型场所的人员疏散问题愈发严峻，能否在发生紧急状况时快速找出人群疏散路径愈发重要。

在大型场所中，安全疏散标志不仅可以提供正常的指示功能，更是在发生紧急事件时，可以获取的重要提示信息，在人群疏散中发挥着重要作用。

在现有的人群疏散路径规划问题中，传统的方法有模拟退火算法、人工势场法、模糊逻辑算法、禁忌搜索算法等，但是发明人认为，上述算法不能对现实中日益复杂的场景相适应，且没有与真实场景中实际建筑数据结合，对真实场景学习起来较难，路径规划效率较低且准确性难以保证。

发明内容

为了解决上述问题，本公开提出了一种基于Actor-Critic算法的人群疏散运动路径规划方法及系统，利用安全疏散标志和深度强化学习的Actor-Critic算法的结合，模拟出发生紧急情况时的人群疏散路径，利用奖励反馈机制，使个体通过与环境的交互进行学习，利用安全疏散标志的指示作用，逐步学习找到最优路径，更加直观的观察疏散过程的具体情况，在缩短人群疏散时间的同时，根据疏散过程对现实场景做出改善，降低人群疏散的难度，减少人员损伤。

为了实现上述目的，本公开采用如下技术方案：

第一方面，本公开提供一种基于Actor-Critic算法的人群疏散运动路径规划方法，包括：

获取疏散场景参数，构建疏散场景模型，所述疏散场景参数包括安全疏散标志；

根据获取的个体当前运动状态，采用Actor神经网络得到个体的预测动作；

根据个体当前运动状态及预测动作，采用Critic神经网络对个体当前运动状态进行评价，得到个体当前运动状态的奖励值；

根据安全疏散标志中的指示动作构建奖励函数，根据奖励函数获取奖励值最大的运动状态，以此得到人群疏散的最优运动路径。

第二方面，本公开提供一种基于Actor-Critic算法的人群疏散运动路径规划系统，包括：

疏散场景构建模块，用于获取疏散场景参数，构建疏散场景模型，所述疏散场景参数包括安全疏散标志；

行动策略模块，用于根据获取的个体当前运动状态，采用Actor神经网络得到个体的预测动作；

评价策略模块，用于根据个体当前运动状态及预测动作，采用Critic神经网络对个体当前运动状态进行评价，得到个体当前运动状态的奖励值；

路径规划模块，用于根据安全疏散标志中的指示动作构建奖励函数，根据奖励函数获取奖励值最大的运动状态，以此得到人群疏散的最优运动路径。

第三方面，本公开提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成一种基于Actor-Critic算法的人群疏散运动路径规划方法所述的步骤。

第四方面，本公开提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成一种基于Actor-Critic算法的人群疏散运动路径规划方法所述的步骤。

与现有技术相比，本公开的有益效果为：

本公开将安全疏散标志和深度强化学习相结合，根据安全疏散标志的提示信息，利用强化学习的奖励反馈机制，通过与环境的交互进行学习，获得学习信息更新模型参数，优化模型进而找到最佳路径。

本公开根据真实疏散场景按比例还原至疏散场景模型中，根据安全疏散标志的指示动作，对个体的运动状态进行迭代学习，不断优化模型参数，使个体的运动动作逐渐变为最优动作，提高路径规划的效率与准确性。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例1提供的基于Actor-Critic算法的人群疏散运动路径规划方法流程图；

图2为本公开实施例1提供的Actor神经网络以及Critic神经网络结构图；

图3为本公开实施例1提供的神经网络训练流程图。

具体实施方式：

下面结合附图与实施例对本公开做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

如图1所示，本实施例提供一种基于Actor-Critic算法的人群疏散运动路径规划方法，包括：

S1：获取疏散场景参数，构建疏散场景模型，所述疏散场景参数包括安全疏散标志；

S2：根据获取的个体当前运动状态，采用Actor神经网络得到个体的预测动作；

S3：根据个体当前运动状态及预测动作，采用Critic神经网络对个体当前运动状态进行评价，得到个体当前运动状态的奖励值；

S4：根据安全疏散标志中的指示动作构建奖励函数，根据奖励函数获取奖励值最大的运动状态，以此得到人群疏散的最优运动路径。

在所述步骤S1中，疏散场景参数包括障碍物、个体流量、安全疏散标志以及出口；

根据真实疏散场景，按照一定比例设置对应的直角坐标系，个体当前位置对应的坐标位置即为初始位置，用坐标(x，y)表示，设置障碍物位置以及出口。

在本实施例中，初始化疏散场景模型包括：

(1)初始化障碍物，根据真实疏散场景对应情况，设置相应坐标位置为障碍物位置，在真实疏散场景中，障碍物为不规则物体时，将其近似成规则物体，以顶点坐标作为障碍物的表示，将四个顶点连线围成的坐标区域代表障碍物；在本实施例中，障碍物默认为长方形或者正方形，以黑色为代表。

(2)定义个体为独立质点，以个体所处坐标为原点，设置以坐标系基本单位为半径的圆形区域作为碰撞探测区域，根据真实疏散场景人流量按照一定比例设置个体位置；

其中，碰撞探测区域可用于，对个体当前运动状态以及个体所处的碰撞探测区域预测其是否会发生碰撞，或是否会与障碍物发送碰撞；在奖励值函数中，根据个体是否会发生碰撞对个体当前运动状态进行评价。

(3)设置安全疏散标志的个数、位置、所占区域大小以及指示动作，具体为：

在本实施例中，安全疏散标志的指示动作包括：直行、左行、右行、禁止通行或可左行可右行，并为上述指示动作设立坐标，将安全疏散标志与指示动作对应存储入数据库中；

在本实施例中，安全疏散标志位置的设置规则：根据真实疏散场景的人流量和建筑结构数据，如出口位置、出口数量、禁止通行位置等，放置相应的安全疏散标志；在人流量较大的地方放置数量相对较多的安全疏散标志，尤其是出口位置，安全疏散标志位置要醒目；在禁止通行的区域，放置禁止通行的安全疏散标志，防止人员被困，其余位置根据真实场景按照安全疏散标志命令要求进行放置。

(4)疏散场景模型为真实疏散场景等比缩放所建立的，根据真实疏散场景对应出口坐标设置出口位置。

所述步骤S2和S3中：结合安全疏散标志和深度强化学习进行最优路径规划。

强化学习(Reinforcement Learning,RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助，它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

深度学习具有较强的感知能力，但是缺乏一定的决策能力；而强化学习具有决策能力，因此，在本实施例中，将两者结合起来，优势互补，为复杂系统的感知决策问题提供了解决思路。

在本实施例中，建立Actor神经网络和Critic神经网络，如图2所示；Actor神经网络为行动策略网络，使用Actor神经网络拟合个体状态与预测动作选择的分布；Critic神经网络作为动作评价网络，用于评价个体当前运动状态的好坏，使用Critic神经网络拟合个体状态与奖励值的关系，该关系即为奖励函数；

本实施例使用强化学习的Actor-Critic算法，使用深度神经网络近似Actor以及Critic函数，解决了Actor-Critic收敛慢的问题，通过对两个神经网络的训练进而调整参数，使动作得到尽量高的奖励，进而找到最佳策略。

所述步骤S4中，构建奖励函数包括：为安全疏散标志匹配相应的指示动作，对符合安全疏散标志的动作、不符合安全疏散标志的动作以及发生碰撞的动作进行等级的排序；

具体为：符合安全疏散标志指示的动作记为最佳动作，与安全疏散标志相斥的动作记为不良动作，在处于安全疏散路径上时，相应动作记为优良动作，若发生碰撞，相应动作记为最差动作；根据动作等级从高到低为：最佳、优良、不良、最差，在本实施例中，分别予以+2、+1、-1、-2的奖励值。

Actor神经网络和Critic神经网络是为了将Actor神经网络在观测状态下输出的预测动作获得更高的奖励值，进而获得奖励值最高的路径规划，即最优路径。

另外，在本实施例中，还包括对Actor神经网络和Critic神经网络的优化，具体为：根据个体当前运动状态的奖励值对Actor神经网络进行迭代优化，根据当前状态和奖励值更新Critic神经网络的参数，如图3所示；

根据Critic神经网络输出的评估结果，更新Actor神经网络参数，即行动策略，同时也更新Critic神经网络参数；最初始，策略神经网络初始化为随机网络，在不断输入状态、输出动作的训练过程中，行动策略神经网络得到优化，输出的动作逐渐变为最优动作，从而找到最优路径。

实施例2

本实施例提供一种基于Actor-Critic算法的人群疏散运动路径规划系统，包括：

此处需要说明的是，上述疏散场景构建模块、行动策略模块、评价策略模块和路径规划模块对应于实施例1中的步骤S1至S4，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

作为一种可选的实施例，还包括参数更新模块，用于根据个体当前运动状态的奖励值对Actor神经网络进行迭代优化，根据当前状态和奖励值更新Critic神经网络的参数；

在Actor神经网络中，通过不断输入状态、输出动作的训练过程，对Actor神经网络进行优化，输出的动作逐渐变为最优动作，根据Actor神经网络输出的动作对个体路径进行规划。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中人群疏散运动路径规划方法所述的步骤。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中人群疏散运动路径规划方法所述的步骤。

实施例一中的人群疏散运动路径规划方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于Actor-Critic算法的人群疏散运动路径规划方法，其特征在于，包括：

根据获取的疏散场景参数构建疏散场景模型，所述疏散场景参数包括安全疏散标志；

2.如权利要求1所述的一种基于Actor-Critic算法的人群疏散运动路径规划方法，其特征在于，所述疏散场景参数还包括障碍物，对障碍物位置设置坐标，在真实疏散场景中障碍物为不规则物体时，在疏散场景模型中将障碍物转换为规则物体，将顶点连线围成的坐标区域代表障碍物。

3.如权利要求1所述的一种基于Actor-Critic算法的人群疏散运动路径规划方法，其特征在于，根据真实疏散场景人流量按照设定比例在疏散场景模型中添加个体，并以个体所处坐标为原点，以坐标系基本单位为半径的圆形区域为碰撞探测区域。

4.如权利要求1所述的一种基于Actor-Critic算法的人群疏散运动路径规划方法，其特征在于，根据安全疏散标志中的指示动作构建奖励函数包括：为安全疏散标志匹配相应的指示动作，对符合安全疏散标志的动作、不符合安全疏散标志的动作以及发生碰撞的动作进行等级的排序。

5.如权利要求4所述的一种基于Actor-Critic算法的人群疏散运动路径规划方法，其特征在于，所述指示动作包括直行、左行、右行、禁止通行和可左行可右行。

6.如权利要求1所述的一种基于Actor-Critic算法的人群疏散运动路径规划方法，其特征在于，根据获取的真实疏散场景的人流量、出口位置和出口数量，在出口位置和禁止通行区域对安全疏散标志进行设置。

7.如权利要求1所述的一种基于Actor-Critic算法的人群疏散运动路径规划方法，其特征在于，所述奖励函数还包括对Actor神经网络和Critic神经网络的优化，具体为：根据个体当前运动状态的奖励值对Actor神经网络进行迭代优化，根据个体当前运动状态和奖励值更新Critic神经网络的参数。

8.一种基于Actor-Critic算法的人群疏散运动路径规划系统，其特征在于，包括：

疏散场景构建模块，用于根据获取的疏散场景参数构建疏散场景模型，所述疏散场景参数包括安全疏散标志；

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项方法所述的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项方法所述的步骤。