CN109063823B

CN109063823B - 一种智能体探索3d迷宫的批a3c强化学习方法

Info

Publication number: CN109063823B
Application number: CN201810820233.4A
Authority: CN
Inventors: 李玉鑑; 聂小广; 刘兆英; 张婷
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2022-06-07
Anticipated expiration: 2038-07-24
Also published as: CN109063823A

Abstract

本发明公开了一种智能体探索3D迷宫的批A3C强化学习方法，为了达到相对较短的训练时间和较小的内存损耗的目标，本发明使用基于批的强化学习方法训练神经网络。神经网络划分为两个部分，第一部分主要包含若干个卷积层和MLP，得到原始屏幕像素的低维度表示；第二部分是一个LSTM即长短时记忆模型。LSTM的输入是第一部分的MLP的输出，LSTM的最后一个时间步的细胞输出外接两个MLP，分别用来预测当前状态下动作a的概率分布以及当前状态下的状态值v的预测。结合高效强化学习算法与深度学习方法实现智能体自主探索3D迷宫，并且以相对较短的训练时间和较小的内存损耗使得智能体能够成功的探索3D迷宫环境。

Description

一种智能体探索3D迷宫的批A3C强化学习方法

技术领域

本发明属于强化学习与深度学习领域，主要涉及到基于深度强化学习的智能体探索3D迷宫的方法，基于该场景我们可以评估各种深度强化学习模型的训练时间，内存损耗以及智能体在探索迷宫过程中的稳定性。

背景技术

强化学习(RL，Reinforcement Learning)被认为是设计人工智能系统的核心技术之一。强化学习起源于行为心理学的研究，很大程度上模仿了智能生物的学习模式，使得具备强化学习能力的智能体(Agent)逐渐的从自身的经验中学习到与环境之间最有效的交互方式，而不是事先告诉智能体如何与环境交互。智能体每次与环境交互的目标是使得当前状态下未来奖励最大化。但是强化学习方法在连续复杂环境中，每时每刻环境的状态可能都不相同，强化学习理论的瓶颈就会展现出来。面对高维度，巨大状态集合的动态规划问题时，单纯的RL会显得力不从心。但是神经网络非常适合处理高维度的信息，擅长从巨量的样本中抽取高维度多通道数据的核心(本质)特征，所以将神经网络与强化学习结合起来是非常有必要的。

以Google公司的DeepMind为主要代表的深度强化学习团队，一直致力于如何提升智能体探索交互环境的学习能力，从简单的2D游戏环境，复杂的2D游戏环境以及3D迷宫游戏环境都有着里程碑意义的研究成果。

DeepMind团队在2013年提出的基于Q-Learning的深度强化学习方法玩Atari游戏，智能体表现出来的效果甚至达到了人类玩家的水平，该方法引入了经验池(replaymenory)，经验池的引入可以在一定程度上缓解智能体在探索环境过程中前后状态关联性过强，导致训练神经网络时的不稳定，难收敛等情况；引入了贪婪机制(greedypolicy)，使得智能体能够探索环境的未知领域，学习更多交互技巧，同时也利用自身经验选择最佳动作。

DeepMind在2015年提出了增强版的Q-Learning算法，提出了非常经典的DQN模型(Deep Q-network)，智能体在Atari 2600系列游戏中表现出众，在40多种游戏中的表现达到甚至超出人类玩家水平。与2013年提出的基于Q-Learning的深度强化学习模型不同的是DQN模型采用了两套神经网络参数，正是由于有了这Target Q-network，使得智能体在探索环境时更稳定，学习的更快，表现的更好。

DeepMind团队在2016年提出了无监督辅助任务强化学习方法，应用于DeepMind的强化学习核心引擎-DeepMind Lab的3D游戏场景的研究，并且达到了非常好的效果，这种方法的提出主要是为了缓解DeepMind团队之前提出的模型训练非常耗时等问题。

DeepMind团队也将深度强化学习的研究应用到人机对战当中。DeepMind开发的AlphaGo-Fan打败来了欧洲围棋冠军樊麾，AlphaGo-Lee打败了拥有18项世界围棋冠军头衔的李世乭，AlphaGo-master打败了世界顶级围棋冠军柯洁，AlphaGo-Zero以100∶0完胜AlphaGo-Lee，以89∶11战胜了升级版的AlphaGo-master。其中DeepMind最新公布的AlphaGo-Zero是完全基于深度强化习的强大智能体。

发明内容

本发明的目的是结合高效强化学习算法与深度学习方法实现智能体自主探索3D迷宫，并且以相对较短的训练时间和较小的内存损耗使得智能体能够成功的探索3D迷宫环境

为了达到相对较短的训练时间和较小的内存损耗的目标，本发明使用基于批的强化学习方法训练神经网络。

神经网络划分为两个部分，第一部分主要包含若干个卷积层和MLP，得到原始屏幕像素的低维度表示；第二部分是一个LSTM即长短时记忆模型。LSTM的输入是第一部分的MLP的输出，LSTM的最后一个时间步的细胞输出外接两个MLP，分别用来预测当前状态下动作a的概率分布以及当前状态下的状态值v的预测。

为实现上述目的，本发明采用的技术方案为一种批的A3C深度强化学习方法，该方法的实现过程如下：

步骤1、选择迷宫地图，迷宫地图为自己设计，或使用第三方提供的强化学习开源游戏引擎，比如DeepMind Lab、VizDoom等；

步骤2、强化学习系统主要包含两大块：环境及智能体；环境就是步骤1中的迷宫地图，下面定义的智能体将与迷宫环境交互，即走迷宫，智能体通过不断的走迷宫，学习迷宫环境，最终顺利的走出迷宫。定义智能体的n种基本动作，n为基本动作的种类数；n＝5时的基本动作分别为：前进，后退，向左转，向右转，原地不动，以及各基本动作的组合

如组合动作数目为32种，则组合动作集合Action＝{a₁，a₂，......，a₃₂}，其中每个组合动作用1个5元二进制向量表示，a＝(1，0，1，0，0)的含义是前进和向左转的组合；

步骤3、智能体与环境交互，获取环境状态s，s取为游戏屏幕像素矩阵，以及当前状态下环境的回报r，把环境状态s经过若干层卷积和全连接层后，得到的低维度向量表示为vec＝(f₁，f₂，......，f_dim)，dim是最后一个全连接层的节点个数；

步骤4、把向量vec输入到一个LSTM网络中，把LSTM网络中最后一个时间步的输出记为T；

步骤5、把LSTM网络的输出T分别经过两个MLP网络，一个产生动作a的概率分布，另一个产生状态值v，其中

distribution_a中每一项都是对每个动作的预测，且

状态值v的计算公式为v＝w_v ^T·cell_output_T+b_v，其中w_v和b_v分别是MLP层的权重和偏置；

步骤6、用共享队列queue收集训练网络所需要的样本，共享队列的大小设置为200，其中每个样本都可以表示为一个四元组sample＝(s，a，r，v)：s表示当前状态，a表示当前状态下采取的动作，r表示环境对动作a的回报，v表示s的状态值；

步骤7、从共享队列中批量清除编号比较靠后的样本，共享队列的长度为200，固定清除10个样本，那么当队列长度达到200时，就清除编号为191～200的样本，并且将新获取的样本从队头插入到队列中，如果队列的长度不够200，那么直接将新样本添加进队列，并且循环上述过程，共享队列就总是能够保存一些相对较新的环境状态；

步骤8、定义损失函数，更新网络参数，优化网络模型，直至网络收敛，最后状态值v＝w_v ^T·cell_output_T+b_v近似重建动作值Q，动作分布distribution_a收敛于状态s的最优策略。

与现有的技术相比，本发明具有以下有益效果。

采用基于批的A3C深度强化学习方法能够比较好的加快网络的训练时间，并且内存相对占用小。相较于典型的A3C方法，本方法只需要一个神经网络，一套参数，在多个进程的前提下，借助经验池的方法就可以比较快的完成网络的训练，并且能达到比较好的效果。实验表明在开3个进程、游戏窗口120*480的前提下，只需16小时的时间就可以完成2500万次的训练任务。而采用传统的A3C深度强化学习方法，由于涉及到多个子网络与主网络之间的参数传递，所以训练会消耗更长的时间。

附图说明

图1是本发明具体实现的神经网络部分，训练样本从经验池中获取，每次获取批量样本用于神经网络的训练，首先对高维像素矩阵进行降维，得到其低维度向量表示，然后经过一个LSTM循环神经网络，最后由若干个全连接层计算状态值以及动作分布。

图2是智能体与环境交互的示意图。也是神经网络工作的可视化。

具体实施方式

为了更进一步的说明本发明的目的，技术方案及其特点，下面结合具体实施本方法的例子并参照附图，对本发明进行进一步的说明。本发明采用基于批的A3C深度强化学习方法实现智能体探索3D迷宫。使用CNN-MLP来提取智能体的状态的低维度特征vec，然后使用LSTM+MLP分别预测智能体基于当前状态的动作分布的预测，以及当前状态的状态值，这个状态值近似的重建动作值函数。本发明的改进之处可以归纳为以下两个方面：1)只需要一套神经网络参数，借助经验池以及进程技术就可以完成基于A3C算法的深度强化学习完成智能体顺利探索3D迷宫的任务；2)采用较大规模的经验池，而不是LSTM细胞循环的步数，这样可以更有效的消解智能体前后若干状态之间的关联性；3)采用相对较多的进程，使得系统能够在很短的时间内就能够收集到足够多的样本，从而很快的训练网络参数，这比多个子网络分别探索环境收集样本的速度更快，并且训练网络的方式更直接。每次从共享队列中随机的选取一个批的大小的智能体历史状态更新网络参数，并且即时清除掉已经使用过的训练样本，这样就能够保证经验池里面的样本尽量最新。

图1为本发明的网络结构图，网络结构分为两个部分：CNN+MLP实现智能体状态的低维度表示，LSTM+MLP实现动作智能体动作概率分布的预测以及状态值的预测，图2是本发明中智能体与环境交互的示意图。其具体过程如下：

步骤1：本发明采用的强化学习平台：VizDoom，并且使用VizDoom提供的最新3D效果的迷宫地图。

步骤2、定义智能体的5种基本动作：前进，后退，向左转，向右转，原地不动，基本动作的组合数目为32种，则组合动作集合Action＝{a₁，a₂，......，a₃₂}，其中每个组合动作用1个5元二进制向量表示，如a＝(1，0，1，0，0)的含义是前进和向左转的组合；

步骤3：本方法实现的智能体能够探索3D迷宫游戏任务不需要预先提供训练集，使用VizDoom提供的相关接口就可以在固定的时间间隔内获取智能体与环境交互的信息：屏幕像素矩阵s、智能体所采取的动作的环境回报r。智能体的状态s作为神经网络第一部分的输入，提取像素矩阵低维度的特征vec＝(f₁，f₂，......，f₅₁₂)，其中512是神经网络第一部分最后一个MLP层的节点数目；

步骤4：vec作为LSTM(长短时记忆网络)的输入，细胞的最后一个时间步的输出为：T＝(f₁，f₂，......，f₅₁₂)，其中512是LSTM细胞单元隐含层的节点数目。

步骤5：T分别作为两个独立的MLP网络的输入，最终得到网络对状态_s的动作概率分布：a＝(f₁，f₂，......，f₃₂)，以及对状态值v的估计，v是个标量值；

步骤6：对共享队列queue的管理。共享队列收集智能体(Agent)与3D迷宫游戏环境交互的结果，队列保存的每一项都是一个四元组(s，a，r，v)。其中，s表示当前状态，a表示策略网络对当前状态的动作的预测值，r表示环境对动作a的奖励或惩罚值，v表示状态s的状态值；

步骤7、设置共享队列的大小为200，在队列管理的过程中，删除过于陈旧的样本，并且保存同等数目的新样本；

步骤8、定义损失函数，更新网络参数，优化模型。采用经典的A3C算法计算网络各部分的损失，并且采用小批量随机梯度下降方法训练网络，从共享队列中随机选取批量样本训练网络。

实验设备和所需环境

linux，64位操作系统，intel处理器，CPU主频3.3GHz，内存8G。实验编程环境python及其各种依赖包，深度学习框架为Google目前开源的tensorflow，强化学习3D迷宫游戏引擎为VizDoom提供的3D效果的迷宫地图。

实验结果与说明。

实验中采用160*120的游戏窗口，每秒30帧，截取的游戏屏幕窗口都被压缩成80*80的矩阵。智能体的动作集合中包含32个基本动作以及基本动作的组合动作，网络架构中主要包含两种结构：1)CNN+MLP，2)LSTM+MLP。卷积核尺寸分别为8*8、4*4，过滤器的个数分别为16个和32个。卷积核采用均匀分布来进行初始化。两个卷积层后面接一个全连接层，输出512维的向量；LSTM的输入是前面CNN+MLP层输出的512维的向量，LSTM的循环时间步为25步，最后一步的细胞输出为512维的向量，LSTM后面分别接两个MLP-MLP1、MLP2。MLP1主要是对状态的动作的概率分布的预测。MLP2主要是对该状态的状态值的预测。

训练网络过程中共享队列的大小为：200，批的大小为64。规定，如果智能体在探索迷宫过程中在2100步之内还没有找到指定地点的“机器人”(探索迷宫结束的标志)，智能体将结束该次探索。系统重新随机设置智能体的起始位置，智能体在新的位置开始探索3D迷宫。在以上设置的实验参数条件下，训练2500万步之后网络基本收敛，结束网络的训练。测试过程中，智能体每次在新的位置探索3D迷宫，智能体基本都能够在1分钟左右的时间内找到指定位置的“机器人”，顺利的结束迷宫的探索。因为系统设置了智能体在2100步之内没有找到出口，就算失败，所以测试过程中偶尔会出现智能体找不到出口(“机器人”)的情况，一方面是因为我采用的3D迷宫地图太大，迷宫中墙壁的颜色比较单调，导致智能体不太容易有效的探索，而DeepMind使用的3D迷宫地图比较小，实际效果也比较好。从测试结果来看，智能体能够在规定的时间内找到迷宫的出口，达到了实验目的，实验结果证明了本发明方法的有效性。

Claims

1.一种智能体探索3D迷宫的批A3C强化学习方法，其特征在于：该方法的实现过程如下：

步骤1、选择迷宫地图；

步骤2、强化学习系统主要包含两大块：环境及智能体；环境就是步骤1中的迷宫地图，下面定义的智能体将与迷宫环境交互，即走迷宫，智能体通过不断的走迷宫，学习迷宫环境，最终顺利的走出迷宫；定义智能体的n种基本动作，n为基本动作的种类数；n＝5时的基本动作分别为：前进，后退，向左转，向右转，原地不动，以及各基本动作的组合，

组合动作数目为32种，则组合动作集合Action＝{a₁，a₂，......，a₃₂}，其中每个组合动作用1个5元二进制向量表示，a＝(1，0，1，0，0)的含义是前进和向左转的组合；

distribution_a中每一项都是对每个动作的预测，且

步骤7、从共享队列中批量清除编号比较靠后的样本，共享队列的长度为200，固定清除10个样本，那么当队列长度达到200时，就清除编号为191～200的样本，并且将新获取的样本从队头插入到队列中，如果队列的长度不够200，那么直接将新样本添加进队列，并且循环，共享队列就总是能够保存一些相对较新的环境状态；

2.根据权利要求1所述的一种智能体探索3D迷宫的批A3C强化学习方法，其特征在于，迷宫地图为自己设计，或使用第三方提供的强化学习开源游戏引擎DeepMind Lab、VizDoom设计。