CN105637540B

CN105637540B - 用于强化学习的方法和设备

Info

Publication number: CN105637540B
Application number: CN201480055621.8A
Authority: CN
Inventors: 沃洛季米尔·姆尼赫; 科拉伊·卡武克曲奥卢
Original assignee: DeepMind Technologies Ltd
Current assignee: DeepMind Technologies Ltd
Priority date: 2013-10-08
Filing date: 2014-10-07
Publication date: 2021-08-03
Anticipated expiration: 2034-10-07
Also published as: EP3761234A1; US9679258B2; EP3055813A1; WO2015054264A1; US20150100530A1; EP3055813B1; CN113705771A; US11049008B2; CN105637540A; US20170278018A1; US20210374538A1

Abstract

我们描述一种强化学习的方法，其用于具有多个状态和从一个状态移动到下一个状态的动作的主题系统。训练数据通过以一系列动作在系统上操作而生成，且用于训练第二神经网络。用于训练第二神经网络的目标值从第一神经网络得出，该第一神经网络通过每隔一段时间复制第二神经网络的权重而生成。

Description

用于强化学习的方法和设备

相关申请的交叉参考

本申请基于并主张2013年10月8日提交的美国临时申请No.61/888,247的优先权，通过引用将其全部内容合并于此。

技术领域

本发明涉及用于强化学习的改进技术，尤其是Q学习，并涉及数据处理器和处理器控制代码。

背景技术

一般而言，强化学习与监督学习的不同在于，不出现正确的输入输出对，而是机器(软件代理)学习在某些环境中采取动作，将某些形式的奖励最大化或者将成本最小化。采取动作将环境/系统从一个状态移转(move)到另一个状态，并且在Q学习的特定情况下，计算状态动作组合的质量，这描述可用于确定动作的期望效用的动作值函数。在“Q-learning”(Machine learning,vol 8,pages 279-292,1992,Watkins,Christopher JCHand Dayan,Peter，并且例如在Wikipedia^TM上方便地总结)中描述了Q学习算法。

尽管如此，学习直接根据高维度传感输入，诸如视觉和语言，来控制软件代理是强化学习(RL)的一个长期挑战。在这些领域中操作的大多数成功的RL应用依赖与线性政策函数组合的手工制作特征，并且这种系统的性能严重依赖特征表示的质量。另一方面，学习传感数据的表示已经成为深度学习方法的焦点，大多数深度学习方法依赖应用于深度卷积神经网络的大监督训练集合。

可能使用神经网络的强化学习的最广为人知的成功是TD-Gammon(“Temporaldifference learning and TD-Gammon”,Communications of the ACM,vol 38(3),pages58-68,Tesauro,Gerald)。这是一个西洋双陆棋游戏程序，它通过强化学习和自我游戏来学习，并达到超人类的游戏水平。但是这种方法采用人体工程学特征以及无关于动作的状态值函数(总得分)，而不是动作值函数。此外它不接受视觉输入。

追随TD-Gammon的早期尝试不太成功，这种方法对于国际象棋、围棋和跳棋不太有效。这导致一个广泛的信念，即TD-Gammon是一个特例，并且神经网络只能在西洋双陆棋中近似值函数，原因是由于掷骰子的随机性，所以它很平滑。

此外，已经表明，将无模型强化学习算法诸如Q-learning与非线性函数逼近器诸如神经网络组合会导致Q网络发散。因此，后来的工作集中在具有较好收敛保证的线性函数逼近器。除了关于发散的问题之外，通过强化学习提供的训练信号是否足以训练大型神经网络也不清楚。因此，虽然有卷积神经网络的很多成功应用得益于使用大型标记训练示例集合(监督学习)，但是通过RL提供的奖励信号经常延迟、稀少且有噪声。

尽管如此，在“Neural fitted Q iteration--first experiences with a dataefficient neural reinforcement learning method”(Machine Learning:ECML 2005,Springer 2005,pages 317-328,Riedmiller,Martin)中已经尝试使用多层感知器来逼近Q值函数。所述技术基于存储并重新使用转化(transition)经验的原理，但是有一些显著的实际缺点：一般而言，基于存储的经验来训练神经网络，但是当用新的三元数组(初始状态-动作-结果状态)更新经验时，将先前的神经网络丢弃，并且在已更新的经验上训练全新的神经网络。这是因为，无监督训练会容易地导致发散行为。但是结果是，每次更新存在与数据集合的大小成比例的可计算成本，这使得将这种方法推广到大型数据集合不切实际。相同的方法已经应用于通过自动编码器预处理的视觉输入，但是这遭遇基本上相同的问题(“Deep Auto-Encoder Neural Networks in Reinforcement Learning”,Sascha Langeand Martin Riedmiller)。

因此，需要一种用于强化学习的改进技术，特别是在采用神经网络时。

发明内容

根据本发明，因此提供一种强化学习的方法，所述方法包括：输入与主题系统有关的训练数据，所述主题系统具有多个状态，并且对于每个状态，所述主题系统具有从所述状态中的一个移转到下一个所述状态的动作集合；其中所述训练数据通过以一系列所述动作在所述系统上操作而被生成，并且包括起始状态数据、动作数据以及下一个状态数据，其对于多个所述动作分别限定起始状态、动作以及由于所述动作所致的下一个所述状态；以及利用所述训练数据以及从第一神经网络得出的用于第二神经网络的目标值，训练第二神经网络；所述方法进一步包括：根据所述第二神经网络生成或更新所述第一神经网络。

一般而言，在本发明该方案的实施例中，维持两个神经网络来避免否则在估计动作值参数时会出现的发散，特别是，否则将基于它自己的预测而被更新的神经网络的情况下。在实施例中，第一神经网络生成目标动作值参数，诸如目标Q值，而第二神经网络基于第一神经网络生成的目标而被更新。通过这种方式，目标保持基本上静态，但是每隔一段时间就根据第二神经网络重新生成或更新第一神经网络，例如通过将第二神经网络学习的权重集合中的一些或全部权重复制到第一神经网络。实际上，在实施例中，维持相同神经网络的两个实例，第一实例用于生成用于更新第二实例的目标值，不时更新第一实例，以匹配第二实例。潜在地，在本地连接的网络中，可以在不同的时间将网络的不同部分更新，但是这不太可取。在一个实施例中，在规定数目的动作(例如每10⁴个步骤)之后将第一神经网络更新。

采用这种方法帮助推广到很大的数据集合，因为训练第二神经网络时涉及的计算减少——在实施例中每次迭代例如采用随机梯度更新以低(恒定)计算成本，将这种第二神经网络有效地连续更新。这样进而促进使用很大数量的训练数据，并且特别是使用用于状态数据的传感数据，诸如图像数据或声音数据(波形)。本技术的实施例可以直接对视觉图像和/或声音进行训练，并且因此可以从该输入到输出动作“端到端”应用强化学习。这样能够实现可能与区分动作值直接相关的特征的学习，而不是所谓的必须尝试通过手动来识别它们。其他优点在于，因为有大数量的低级别数据可用，所以神经网络的前端可以实施通过无监督的强化学习技术来训练的(深度)卷积神经网络。通过这种方式，系统本身可以学习区分传感输入的与能够执行的可用动作相关的特征。

上述系统的实施例的其他优点在于，它们可以在线操作，没有先前方法的问题——在执行每个连续动作时可以更新第二神经网络，并且每个连续状态上的数据被捕捉。

在实施例中，第二神经网络被供以用于每个连续动作的第一起始状态的表示，并且被用于提供用于从该起始状态可用的动作集合中的每个动作的已学习的动作值参数，在实施例中为Q值。然后该方法选择要执行的动作并输出用于控制主题系统的对应的动作数据。这进而被用于生成经验数据，该经验数据被存储并提供给第一神经网络，以生成用于训练第二神经网络的目标值。这种类型的方法的优点在于本身生成经验，程序(或数据处理器)通过该经验进行学习：实际上每个神经网络提供被其他神经网络使用的输出。但是这并非必要，并且用于通过第一神经网络处理的经验数据在原理上可以从一些其他源得出，例如通过观察其他实体、机器或人类与主题系统的交互。

该方法选择的动作对应于来自第二神经网络的最佳已学习的动作值参数。一般而言，这是用于已经学习将(期望的)奖励最大化的网络的最大动作值参数，或者是用于已经学习将(期望的)成本最小化的网络的最小动作值参数。在一些优选实施例中，不是第二神经网络接收限定起始状态和动作的数据，而是训练神经网络为所限定的起始状态并行提供输出集合，每个输出提供用于对应的可用动作的估计的动作值参数。通过有效地并行处理动作，这样实际上加速了操作，允许耦接到神经网络的输出的后续选择器模块(或者是代码/软件，或者是硬件)选择最大/最小输出值，具有该值的节点限定要采取的对应的动作。

如上所述，在本方法的优选实施例中，经验数据仓库记录用于采取的动作的一些或全部的经验数据。对于每个动作，经验数据包括限定起始状态、采取的动作以及系统的后续状态的数据。在实施例中，存储只与最后N个动作有关的经验数据，以降低存储器要求。但是附加性或替代性地，可以以一些其他方式选择动作的子集用于存储，例如只每隔一段时间存储动作，或者随机存储动作，或者基于或者同时确定或者在一些后来的阶段确定的某些显著性度量，例如基于测量的和/或期望的奖励/成本，来存储动作。

在实施例中，经验数据包括从当前状态移转到后续状态时与动作的奖励(或成本)有关的奖励(或成本)数据。可以例如通过输入限定通过动作收集/引起的奖励或成本的数据来从系统测量奖励/成本。但是附加性或替代性地，可通过系统的参数或者要解决的工程问题来限定奖励/成本。因此应当认识到，存储奖励/成本并非必要，因为特别是在后一种情况下，可通过状态来限定或者与状态相关联：例如，对于所谓的回避控制任务、目标实现任务、或者状态空间位置调节任务(诸如杆平衡任务)，可通过状态空间的目标区域来限定奖励/成本。

在实施例中，结合用于训练第二神经网络的第一神经网络来使用经验数据。更具体而言，根据存储的经验数据对包括第一、起始状态、动作、以及下一个状态的转化采样。这用于根据第一神经网络(在实施例中，它在先制造第二神经网络的副本)生成目标动作值参数(Q值)，用于训练第二神经网络。因此将由于动作所致的下一个状态输入第一神经网络，并识别最大(或最小)动作值参数(Q值)，所述最大(或最小)动作值参数通过0和1之间的折扣因子选择性地被折扣，并添加从起始状态移转到下一个状态时的奖励(或者减去成本)，以生成用于给出动作的起始状态的目标动作值参数。一般而言，通过用于步骤/状态j+1，Q_j+1的最佳Q加上奖励(或减去成本)来确定用于步骤/状态j，Q_j的目标。通过认识到在状态j+1已经接收到奖励，因此其不再被期望，并且在Q_j+1不会出现，因此它被加回去以生成目标Q_j，可以理解这一点。在一些优选实施方式中，在存储用于转化的数据时，将奖励(或成本)记录在经验数据仓库中，但是在其他实施方式中，例如通过问题的定义或者上述的系统来限定它。

对根据第一神经网络生成的目标与从第二神经网络输出的步骤j的动作值参数之间的模量差训练第二神经网络，通过(随机)梯度下降来调节第二神经网络的权重。选择性地，为了更快的收敛，可以基于所计算的调节的历史来改变调节权重的步骤的大小，例如利用RMS-Prop程序(如下所述)。因此在实施例中，通过递增地更新其权重而不是通过以每个新观察将网络复位来训练第二神经网络。本领域技术人员应当理解，可以以每个动作执行一次更新，或者更慢；选择性地，可以采用来自经验数据仓库的微小批量(minibatch)来计算用于更新权重的梯度。

可以根据经验数据仓库随机选择用于训练第二神经网络的转化，和/或基于它期望的显著性，例如基于关联奖励或成本的值，来选择该转化。

在一些优选实施例中，系统的状态包括随着时间对系统的观察的序列，所述时间是系统的历史。当系统的未观察的内部状态取决于动作和观察的序列时(情况经常是这样)，这特别有用。可将对于主题系统的感测条件的进一步观察，例如新捕捉的图像，用于更新包括这种观察的序列的系统状态。

在实施例中，通过图像数据，更具体而言图像的序列，来限定状态。表示状态的图像数据可以是彩色的，也可以是黑白的；选择性地，可以将其预处理，以减少图像中像素的数目，并因此降低处理要求。在状态包括图像帧的序列的情况下，并非一系列帧中的每个帧都需要被采用，并且例如可以选择每第n个帧。

附加性或替代性地，状态可包括声音数据，更具体而言是音频波形，同样可以选择性地预处理。更一般而言，可通过来自一个或多个传感器的传感信息、或者通过从计算机网络或者在计算机网络上捕捉的数据、或者通过一般的真实世界数据、以及潜在地通过表示可以被软件代理的动作影响的任何真实或虚拟系统的数据来限定状态。

优选地，第一神经网络和第二神经网络是深度神经网络且包括前端部分(接收状态数据的输入部分)，该前端部分本地连接或稀少连接，例如以实施卷积神经网络。通过这种方式，网络的前端可以有效提供滤波器的分层集合，每个滤波器处理来自用于状态数据的输入的本地区域的信息，学习识别本地结构。这对于处理图像数据、音频数据、以及真实世界得到的数据特别有利，因为这种数据趋于表现相关本地结构。这种方法允许网络的内部层、隐藏层在前端按照分层的方式表现用于多个特征的特征地图。但是在一些优选实施例中，神经网络至少在输出层完全连接。

上述技术可以在软件中实施，例如作为在数字信号处理器(DSP)上运行或者跨越多个处理器例如GPU(图形处理单元)并行运行或者在通用计算机系统上运行的代码。替代性地，上述技术可以在硬件中实施，例如作为电子电路，所谓在ASIC(专用集成电路)上；或者可以采用硬件与软件的组合。

因此在相关方案中，本发明提供一种被配置为执行强化学习的处理器，所述系统包括：输入，用于接收来自系统的训练数据，所述系统具有多个状态，并且对于每个状态，所述系统具有从所述状态中的一个移转到下一个所述状态的动作集合；其中所述训练数据通过以一系列所述动作在所述系统上操作而被生成，并且包括起始状态数据、动作数据以及下一个状态数据，其对于多个所述动作分别限定起始状态、动作以及由于所述动作所致的下一个所述状态；其中所述动作响应于用于在每个状态下可用的所述动作集合中的每个动作的动作值参数而被选择；利用来自第二神经网络的已学习的动作值参数选择所述动作；以及训练模块，用于利用所述训练数据以及从第一神经网络得出的目标值，训练第二神经网络；以及神经网络生成模块，用于根据所述第二神经网络生成或更新所述第一神经网络。

选择性地，可将上述优选特征的一些或全部合并在这种数据处理器中。

在相关方案中，本发明提供一种Q学习的方法，其中Q值通过神经网络来确定，并且用于选择要在系统上执行的动作，以使所述系统在状态之间移转，其中第一神经网络用于生成用于目标的Q值，以训练用于选择所述动作的第二神经网络。

如上所述，在一些优选实施例中，每隔一段时间利用所述第二神经网络将所述第一神经网络刷新，使得第一神经网络的权重为准静态，在刷新时只每隔一段时间更新。同样如上所述，在优选实施例中，存储与系统交互的经验的记录。经验可包括状态、动作、新状态和奖励/成本。在实施例中，第二神经网络学习离政策(off-policy)，也就是说学习政策涉及搜寻存储的经验，以生成用于训练第二神经网络的目标，并且其按照与在与系统交互时用于选择动作的行为政策不同的方式进行。在实施例中，用于目标的Q值包括动作值函数的值，该动作值函数逼近包括限定或推定的下一个动作的动作的策略的期望成本或者回报。

在相关方案中，本发明还提供一种被配置为执行Q学习的数据处理器，其中Q值通过神经网络来确定，并且用于选择要在系统上执行的动作，以使所述系统在状态之间移转，所述数据处理器包括耦接到存储处理器控制代码的工作存储器以及非易失性程序存储器的处理器，其中所述处理器控制代码被配置为控制所述处理器：利用第一神经网络来生成用于目标的Q值；利用所述目标来训练第二神经网络；以及利用所述第二神经网络来选择动作以控制所述系统。

如上所述的数据处理器例如可以合并在被配置为自动学习控制任务的控制系统中。

本发明还提供处理器控制代码和/或数据(例如学习权重)以实施本发明的实施例，特别是在物理(非暂时性)数据载体上，诸如磁盘、编程存储器，例如在非易失性存储器(诸如闪存)上或者在固件中。实施本发明的实施例的代码和/或数据可包括以传统编程语言(解释或编译)的源代码、对象代码或可执行代码，诸如C，或者用于硬件描述语言的代码。

在其他方案中，本发明提供一种通过强化学习训练的电子控制器，以控制具有多个状态的系统，并且对于每个状态，所述系统具有从所述状态中的一个移转到下一个所述状态的动作集合；所述电子控制器包括：输入，用于接收来自所述系统的状态数据；神经网络，具有耦接到所述输入的输入神经元集合、多个神经元的隐藏层、以及至少一个输出神经元，其中所述神经网络被训练为对于所述动作集合中的每个动作提供动作质量值，所述动作质量值限定从相应动作开始以移转到下一个状态的动作的策略的期望成本或奖励；动作选择器，被配置为响应于用于所述动作的所述动作质量值，从所述动作集合选择动作；以及输出，用于输出限定用于控制所述系统的所述选择的动作的数据。

在一些优选实施例中，神经网络具有多个输出神经元，每个输出神经元被配置为提供用于相应动作的动作质量值。然后可将它们耦接到动作选择器，从而可以基本上并行地提供用于选择例如具有最大质量值或最小质量值的动作的动作质量值。

在其他相关方案中，本发明提供一种在控制系统中学习的方法，对于主题系统的一系列状态，所述方法包括：输入与主题系统的当前状态有关的当前状态数据；将所述当前状态数据的版本提供给神经网络；利用所述神经网络确定用于动作值函数集合的值，潜在动作集合中的一个或每个；响应于所述动作值函数的所述值，选择所述动作；将用于所述选择的动作的动作数据输出到所述主题系统，使得所述主题系统从所述当前状态转化为后续状态；输入与所述主题系统的所述后续状态有关的后续状态数据以及与由于从所述当前状态到所述后续状态的所述转化所致的奖励或成本有关的奖励数据；将经验数据存储在所述经验存储器中，所述经验数据表示所述当前状态、所述后续状态、所述选择的动作、以及所述奖励或成本；根据所述存储的经验数据，确定用于所述神经网络的目标动作值函数输出；以及利用所述目标动作值函数输出更新所述神经网络的权重，其中所述更新包括递增地修改先前确定的所述神经网络的权重集合；所述方法进一步包括：存储所述神经网络的权重集合，以产生所述神经网络的两个版本，一个版本针对另一个版本时移，其中用于选择所述动作的所述动作值函数集合的所述值的所述确定利用所述神经网络版本的后一个版本被执行，以及其中所述目标动作值函数的所述确定利用所述神经网络版本的较早版本被执行。

这里在一般含义上使用对奖励数据的参考，包括限定正奖励或负奖励或成本的数据。

在其他相关方案中，本发明提供一种控制系统，所述系统包括：数据输入，用于接收传感器数据；数据输出，用于提供动作控制数据；以及深度神经网络，具有输入层和输出层，所述输入层耦接到所述数据输入；以及动作选择器，耦接到所述深度神经网络的所述输出层；其中所述深度神经网络的所述输入层在一个或多个维度中限定传感器数据字段，其中所述深度神经网络的所述输出层限定用于与所述控制系统进行控制的多个可能动作中的每个动作相关联的动作值函数的值；以及动作选择器，耦接到所述深度神经网络的所述输出层以及所述数据输出，以响应于所述动作值函数选择所述动作，并将对应的动作控制数据提供给所述数据输出。

附图说明

下面参照附图，仅通过示例进一步描述本发明的这些和其他方案，在附图中：

图1示出来自用于训练根据本发明的实施例的强化学习数据处理器玩游戏的计算机游戏集合的截屏，从左至右所示为乒乓球(Pong)、打砖块(Breakout)、太空入侵者(SpaceInvaders)、海底救人(Seaquest)和波束导弹(Beam Rider)(商标)；

图2示出根据本发明的实施例有经验重演的深度Q学习程序的流程图；

图3a和图3b示出根据本发明的实施例的Q学习深度神经网络的替代性示例配置；

图4图示出在图2的程序的实施例中使用的神经网络的结构；

图5a和图5b分别示出根据本发明的实施例的强化学习处理器的方框图以及根据本发明的实施例被编程为实施基于深度神经网络的Q学习程序的计算机系统的示例；

图6a至图6d示出每个游戏片段的奖励，分别示出对于Breakout^TM和Seaquest^TM，每个片段的平均奖励以及可以从起始状态集合获得的平均预测值；以及

图7a和图7b分别示出来自Seaquest^TM的三个截屏的序列以及用于游戏玩法的对应30帧片段的预测值函数，其中A、B和C分别对应于图7a的左、中和右截屏。

具体实施方式

下面描述将强化学习算法与深度神经网络连接的技术，使得能够利用随机梯度更新，将数据直接从原始RGB像素图像有效地注入算法。为此描述一种通过有经验再现存储器的Q学习算法的在线实施方式，其使得能够用随机梯度更新来训练神经网络。(在此“深度神经网络”用于表示有多于一个隐藏层的神经网络。)

为了说明来自Arcade学习环境“The arcade learning environment:Anevaluation platform for general agents”，arXiv preprint arXiv:1207.4708,2012的方法Atari^TM 2600视频游戏的能力，将Bellemare、Marc G和Naddaf、Yavar和Veness、Joel和Bowling、Michael用作试验台。这些游戏为强化学习提供了有趣的挑战，因为它们被设计为挑战人类并具有高维视觉输入空间。所述软件代理直接从原始像素输入学习玩Atari^TM游戏，并且不使用任何手工设计特征或人类游戏的示例。本文所述基于神经网络的方法实现的能力水平在全部7个被测游戏上与新手人类玩家可比较或者更好，并且在其中3个游戏上超过老手人类玩家。

强化学习框架

我们考虑这样的任务，其中代理与环境E(在这种情况下是Atari仿真器)以动作、观察和奖励的序列交互。在每个时间步骤，代理从合法游戏动作A＝{1，...，K}中选择动作a_t。动作被传递给仿真器并修改其内部状态和游戏得分。通常E可以是随机的。代理不观察仿真器的内部状态；作为替代，它观察来自仿真器的图像x_t∈R^d，该图像是表示当前屏幕的原始像素值的矢量。此外，它接收表示游戏得分的变化的奖励r_t。注意，通常游戏得分可以取决于动作和观察的全部在先序列；仅在经过千万个时间步骤之后才可接收关于动作的反馈。

因为代理只观察当前屏幕的图像，所以部分地观察到任务，并且很多仿真器状态在感知上被混淆，即，不可能仅根据当前屏幕x_t就完全理解当前情况。因此，我们考虑动作和观察的序列s_t＝x₁，a₁，x₂，...，a_t-1，x_t，并学习取决于这些序列的游戏策略。假定仿真器中所有序列在有限数目的时间步骤中终止。这种形式化产生大而有限的马尔可夫决策过程(MDP)，其中每个序列是不同的状态。结果，通过将完整序列s_t用作时间t的状态表示，我们可将强化学习方法应用于MDP。

代理的目的是通过以最大化未来奖励的方式选择动作，与仿真器交互。我们假定通过每个时间步骤一个因子γ(其中0≤γ≤1)将未来奖励折扣，并将时间t时的未来折扣回报限定为

其中T是游戏终止的时间步骤。在看到某些序列s然后采取某些动作a之后，我们将最佳动作值函数Q^*(s，a)限定为可通过以下任何策略实现的最大期望回报，Q^*(s，a)＝max_πE[R_t|s_t＝s，a_t＝a，π]，其中π是将序列映射到动作的政策(或者相对于动作的分布)。

这些最佳动作值函数服从称为Bellman方程的重要恒等式。这是基于以下直觉：如果对于所有可能的动作a′都知道下一个时间步骤处序列s′的最佳值Q^*(s′，a′)，那么最佳策略就是选择将r+γQ^*(s′，a′)的期望值最大化的动作a′，

在本文包含的某些方程中，符号

由于用于产生方程的方程生成器生成的假象(artifact)而出现。该符号应当出现并且被理解为表示

很多强化学习算法后面的基本理念是通过将Bellman方程用作迭代更新，Q_i+1(s，a)＝E[r+γmax_a′Q_i(s′，a′)|s，a]，来估计动作值函数。这种值迭代算法收敛到最佳动作值函数，当i→∞时Q_i→Q^*。实际上，该基本方法完全不实用，因为动作值函数是对于每个序列单独估计的，没有任何一般化。作为替代，可以使用函数逼近器来估计动作值函数，Q(s，a；θ)≈Q^*(s，a)。通常这是线性函数逼近器，但是也可以是非线性函数逼近器，诸如神经网络。我们将具有权重θ的神经网络函数逼近器称为Q网络。通过将在每次迭代i处改变的损失函数L(θ_i)的序列最小化，可以训练Q网络，

其中

是迭代i的目标，并且ρ(s，a)是相对于序列s和动作a的概率分布，我们称为行为分布。在优化损失函数L(θ_i)时，将来自之前迭代θ_i-1的参数保持固定。注意，目标取决于网络权重；这是与用于监督学习的目标大不相同的，用于监督学习的目标在学习开始之前保持固定。将损失函数对权重微分，我们得到以下梯度：

不是计算以上梯度中的全部期望，通过随机梯度下降将损失函数最优化通常在计算上是有效的。如果在每个时间步骤之后将权重更新，并分别通过来自行为分布ρ和仿真器E的单个样本来代替这些期望，则获得Q学习算法。

该算法是无模型的：它直接利用来自仿真器E的样本解决强化学习任务，不需要明确地构造E的估计。此外，它是离政策(off-policy)：它学习“贪婪”(即，最佳值偏好)策略a＝max_a Q(s，a；θ)，同时遵循保证状态空间的充分探测的行为分布。实际上，经常通过遵循概率为1-ε的贪婪策略的ε贪婪策略来选择行为分布，并选择概率为ε的随机动作。

示例任务

在某些环境中，较少数目的输入就完全描述了环境的状态，并且有感兴趣的单个任务，因此可以手工构造为任务定制的特征。与之不同，用于测试我们所述技术的实施例的Atari仿真器是部分可观察的，在60Hz下提供210×160RGB的视频输入，并且因为有很多种任务要考虑，所以难以手工制作通用特征。

Atari^TM游戏被设计为挑战人类玩家，并且Atari^TM2600表示对强化学习的主要挑战。尽管如此，我们描述能够很好地玩多种Atari^TM2600电视游戏的强化学习算法。学习任务被设计为反映人类可能面临的设置，如果出现新型Atari^TM游戏：软件代理没有被提供有关该游戏的任何先前知识，它不知道仿真器的内部状态，并且只能通过观察像素视频输入以及通过在每个帧选择多达18个动作中的一个(3×3操纵杆位置，可以选择是否按下“开火”按钮)，与仿真器交互。

Arcade学习环境(ALE)(同上)是使得强化学习代理能够与Atari^TM2600游戏机的仿真器交互的平台。它包含很多通过奖励函数(在每个帧通常对应于得分的改变)来装备的原始Atari^TM2600电视游戏。图1示出用于测试本发明实施例的5个游戏的示例截屏，示为乒乓球(Pong)10、打砖块(Breakout)12、太空入侵者(Space Invaders)14、海底救人(Seaquest)15和波束导弹(Beam Rider)18(商标)。

深度强化学习

图2图示出根据本发明实施例，用于使用深度神经网络来估计Q值的强化学习的程序。

该程序通过从受控系统输入状态数据开始(S200)。对于Atari^TM游戏仿真器的测试系统，这包括来自游戏的图像帧的序列。如下所述，在该测试环境中采用跳帧，并且对捕捉的图像下采样，以减少要处理的数据数量。我们所述方法的其中一个优点是，该程序能够接受图像像素数据作为输入，而不是依靠受控系统的手工构造表示。

该程序采用第一和第二神经网络(神经网络0和1)，每个网络最后通过程序的实施方式来训练，以为每个动作或者每个可定义输入状态提供动作值参数，尤其是Q值。因此在步骤S202，该程序采用第二神经网络(神经网络1)以为输入状态提供Q值集合，在该状态下一个Q值用于一个可能的动作(Q¹值)。该程序选择最大Q值(最大期望奖励)，但是也采用探测策略，在实施例中是ε贪婪策略(选择时间的随机动作ε)。但是本领域技术人员应当理解，可以替代性地采用很多种探测策略，例如基于所谓的Gibbs或Boltzmann分布的软-最大值策略；或者可以采用ε贪婪探测的变型，其中ε随时间减少。

然后该程序再次输入状态(图像序列)数据并存储经验数据(S204)。所存储的经验数据包括前后状态、采取的动作以及赢取的奖励。在步骤S206，该程序或者随机地或者根据优先策略从存储的经验数据导出转化，并将结尾转化的“后”状态提供给第一神经网络(神经网络0)。采用第一神经网络以通过提供每个动作的Q值(Q⁰值)来确定用于该结尾状态的最大Q值(步骤S208)，从而能够选择最大值。然后在步骤S210，该程序将折扣因子Y应用于来自步骤S208的最大Q值，并将来自该转化的奖励添加到这个结尾状态，以提供目标Q值(在下面的算法中是y_j)。在所述实施例中将奖励与经验数据一起存储(对于测试系统而言，通过来自仿真器的数值输出来限定奖励)，但是也能够以某些其他方式来提供，例如作为控制问题的定义的一部分(所谓通过限定要处于其中或者要避免的状态空间的目标区域)。添加奖励后面的逻辑被示出在步骤S210的右边，从神经网络0输出的Q值考虑已经被该阶段接收的奖励，并且因此到那时候为止不再期望它。

目标Q值(y_j)用于训练第二神经网络(神经网络1)，以更新Q¹值。为了方便起见，可以利用随机梯度下降来实施训练，例如利用反向传播法，选择性地采用可调节或适应性的学习速率来随着时间减少步骤大小(即，用于调节权重的步骤大小)。选择性地，如同本领域技术人员所理解的，在微小批量(minibatch)方法中，可通过从存储的经验数据导出的多个转化来累积梯度。本领域技术人员应当认识到，不是对于其自身输出所训练的神经网络，而是将第一神经网络的输出用于训练第二神经网络。

然后该程序从步骤S212循环回到步骤S202，以选择进一步动作。在实施例中，经验数据存储的大小有限，并且因此，随着存储新的经验数据，可以例如利用FIFO(先入先出)策略丢弃旧的经验数据。在限定数目的训练步骤之后，例如每10²、10³或10⁴步骤，将来自第二受训神经网络的权重复制到第一神经网络(S214)，使得实际上用于Q¹值的神经网络变为用于Q⁰值的神经网络，并且第二神经网络的训练继续进行。训练程序可以无限地继续，或者在其他方法中，例如在预定数目的训练步骤之后和/或基于诸如用于状态的限定集合的平均预测状态值函数的训练度量而终止训练。

如上所述，该程序在线操作或者准在线操作(如果采用微小批量训练就是后者)。但是本领域技术人员应当理解，在替代性实施例中，该程序可以在一个阶段累积存储的经验数据，并且然后在第二阶段利用存储的经验数据训练第二神经网络。

下面示出通过经验重演用于深度Q学习的示例算法。为了提高算法的稳定性，我们将用于生成目标y_j的网络从受训的网络解耦。更准确而言，在每L个参数更新之后制造受训的Q网络的副本，并且该副本用于对下L个训练更新生成目标y_j。该程序提高了训练算法的稳定性，因为用于生成目标的网络只是每L个更新改变，这防止了反馈回路出现，其中预测无法控制地生长。

在某些优选实施例中，将算法修改为对于微小批量的存储的转化累积梯度：

Initialize replay memory D to capacity N

Initialize action-value function Q with random weights

for episode＝1,M do

在上述示例算法中，该程序对于M个游戏片段运行，其中每个片段从游戏开始运行到表明“游戏结束”的点或者运行到(软件代理)玩家失去生命的点。片段中帧的总数目表示为T；神经网络具有参数(权重)θ，θ可通过随机数来初始化。应当理解，在其他实施方式中可以限定其他形式的“片段”，或者可以连续运行程序。在所示示例中，该算法对于系统在玩游戏时捕捉的所有帧运行。

可以记起通过图像帧的序列，或者更一般地，通过可以包括图像数据、和/或声音数据、和/或一般的传感器数据的输入数据、和/或其他输入数据的被捕捉集合的序列，来限定游戏/系统的状态。在上述算法中，用

表示限定输入状态的经过预处理的序列数据，其中i标记状态。在测试环境下，

限定通过选择每第K个帧获得的4个84×84灰度图像的群组。

在上述示例中，算法学习离政策——也就是说，被选择为训练第二神经网络的动作不同于通过用于玩游戏的第一神经网络所指示的动作——也就是说，程序的实施例根据不同的政策学习和玩。

在原理上，程序的实施例可以在不将第二神经网络选择的动作的结果存储在经验数据仓库的情况下操作：所存储的经验可以从某些其他源得出，例如通过观察与系统交互的某些其他实体，诸如观察玩相关游戏的人。所要求的全部就是能够观察多个转化，每个转化包括初始状态、动作和最终状态，以及可选地奖励(或成本)。然后，所存储的经验仍然可用于更新第一神经网络，该第一神经网络进而生成用于训练第二神经网络的目标。实际上，存储第二神经网络选择的动作的经验是方便的，使得第一神经网络能够在后来根据这些导出，从而提供独立系统，但是这并非必要。

在上述算法中，我们在每个时间步骤存储代理的经验，在数据集合D＝e₁，...，e_N中的e_t＝(s_t，a_t，r_t，s_t+1)，将多个片段聚集在重演存储器中。在算法的内部回路中，将Q学习更新或者微小批量更新应用于经验的样本

其从存储样本池中随机导出。在进行经验重演之后，代理根据ε贪婪政策选择并执行动作(其中0≤ε≤1并且可以随时间变化)。因为将任意长度的历史用作神经网络的输入可能是困难的，所以作为替代，Q函数作用于通过函数

产生的固定长度表示的历史。

我们所述算法的方法具有若干优点。没有相互作用，经验的每个步骤可能在多个权重更新中使用，这允许更大的数据效率。其次，由于样本之间的强相关，直接从连续样本学习是无效率的，但是将样本随机化打破了这些相关并且因此减少了更新的方差。第三，在学习在政策(on-policy)时，当前参数确定参数对其训练的下一个数据样本。例如，如果最大化动作是向左移动，则通过来自左手侧的样本来支配训练样本；如果之后最大化动作切换到右边，择训练分布也切换。容易看到，不需要的反馈回路会怎样出现，并且参数会在不良的局部最小值中卡住，甚至灾难性地发散。与之不同，在我们所述的技术中，行为分布针对它的多个先前状态平均，平滑了学习并帮助避免参数中的振荡或发散。在通过经验重演学习时，倾向离政策，因为当前参数不同于用于生成样本的参数，其激发了Q学习的选择。

在某些实施例中，算法仅将最后N个经验元组存储在重演存储器中，并且在进行更新时从D中随机地统一采样。但是，这种方法是受限的，因为存储器缓存不区分重要的转化，并且由于有限的存储器大小N，将最近转化覆写。类似地，统一采样向重演存储器中的所有转化给予相同的重要性。因此在其他实施例中，可以采用更复杂的采样策略，例如强调程序可以从其学习最多的转化。这可以按照与优先扫除(Prioritized Sweeping)相类似的方式来实施，“Prioritized Sweeping:Reinforcement Learning with Less Data and LessReal Time”，Machine Learning,vol 13,pages 103-130,1993,Andrew Moore,ChrisAtkeson。

虽然上述强化学习框架使用完整序列s＝s₁，a₁，...，s_t，a_t作为状态表示，但是在实践中这是有挑战性的，通常要求递归神经网络体系结构，该递归神经网络体系结构可以对千万个时间步骤反向传播错误。因此作为替代，本技术的实施例使用帧的短历史，例如4个帧，作为预处理步骤。

如上所述，在实施例中，算法的训练回路对微小批量的转化进行采样，并且对给定的对象进行微小批量梯度下降更新。变型使用RMSProp算法，“Lecture 6.5-rmsprop:Divide the gradient by a running average of its recent magnitude”，COURSERA:Neural Networks for Machine Learning,2012,Tieleman,T and Hinton,G，其对于每个权重适应性地确定学习速率。这样导致对于某些问题的更快训练。

实施例还使用帧跳跃技术：代理看到并选择每第k个帧而不是每个帧上的动作，并且在跳过的帧上重复其最后动作。跳过的帧的数目与构成状态表示的帧的数目相同是巧合：情况不需要是这样。因为对于一个步骤向前运行仿真器与让代理选择动作相比要求少得多的计算，所以在不显著增加运行时间的情况下，该技术允许代理玩大约k倍次的游戏。

预处理和模型体系结构

直接通过作为具有128调色板的210×160的像素图像的原始Atari^TM帧工作可能在计算上要求较高，因此使用基本预处理步骤来减少输入维度：通过先将它们的RGB表示转换为灰度表示，并且然后将其下采样为110×84图像，来预处理原始帧。通过修剪粗略捕捉游戏区域的图像的84×84区域，获得最终输入表示。最终修剪阶段只是为了方便而进行，因为使用了期望方形输入的2D卷积的GPU(图形处理单元)实施方式。为了实验，来自算法的函数

将此预处理应用于历史的最后4个帧，并堆放它们，以产生Q函数的输入。

有若干可能方式利用神经网络将Q参数化。因为Q将历史动作对映射到它们Q值的标量估计，所以使用已经被用作神经网络的输入的历史和动作两者是一个选择，在图3a中示意性地为神经网络150a示出。但是，这种类型的体系结构的缺点在于，要求单独的前向传递来计算每个动作的Q值，导致随动作数目线性缩放的成本。因此作为替代，优选实施例采用一种体系结构，其中有用于每个可能动作的独立输出单元，并且只有状态表示是神经网络的输入。输出对应于用于输入状态的个别动作的预测Q值，在图3b中示意性地为神经网络150b示出。这种类型的体系结构的一个优点是，仅用通过网络的单个前向传递在给定状态下对于所有可能动作计算Q值的能力。

图4所示的用于训练全部7个Atari^TM游戏的体系结构如下：神经网络的输入包括通过

产生的84×84×4图像。第一隐藏层将具有步幅4的16个8×8滤波器与输入图像卷积，并应用整流器非线性。第二隐藏层将具有步幅2的32个4×4滤波器卷积，也跟随有整流器非线性。最末隐藏层是完全连接的并包括256个整流器单元。输出层是对于每个有效动作有单个输出的完全连接的线性层。对于所考虑的游戏而言，有效动作的数目在4和18之间变化。我们将通过所述方法训练的卷积网络称为深度Q网络(DQN)。

因此参照图4，其示出上述神经网络150的实施例，其中输入帧的集合152提供输入到通过与第一隐藏层156的连接形成的卷积滤波器的第一集合154的输入。第一隐藏层156包含特征地图集合，每个滤波器一个地图。卷积滤波器的第二集合158提供与第二隐藏层160的连接，该第二隐藏层160包括另一个特征地图集合，每个滤波器158一个地图。神经网络150的输出阶段实际上包括多层感知器，该多层感知器有连接到下面的层160中的全部特征地图的输入隐藏单元集合162，并且具有输出单元集合164，每个可用动作一个输出单元(在示例性游戏中，在4和18个动作之间)。在所示示例中，对输入帧的集合(84×84)(×4)操作的4×16个8×8像素滤波器(核心)的第一集合生成用于每个4个帧的集合的16个20×20特征地图的集合，并且对其操作的16×32个4×4像素滤波器的第二集合生成用于每个帧的32个9×9特征地图。图4的神经网络结构对应于图3b所示的布置，其中在神经网络的输入处出现的状态数据152在输出单元164上生成Q值输出的集合，每个动作一个输出。

图5a示出被配置为实施如上所述基于神经网络的强化学习程序的数据处理器100的示意性方框图。处理器与一些系统102交互，提供控制系统的动作并观察来自系统的图像、声音或其他数据。在实施例中，还有从来自系统的成本或奖励数据到处理器的输入，并且对于游戏是“游戏结束”信号。观察数据通过模块104预处理，并且然后通过神经网络150处理，如上所述。这样提供动作值参数(Q值)集合，作为用于所观察的输入状态的输出。动作选择器106选择有最大Q值的动作并将其提供给系统102以及经验数据仓库108。经验数据仓库108存储观察状态数据，例如图像序列数据、选择的动作、以及来自系统102的奖励数据。

在学习阶段期间，模块110从经验数据仓库108对转化采样，并基于来自神经网络0的目标，具有在模块110中存储的权重的神经网络1的较早副本，调节神经网络150(神经网络1)的权重。因此在实施例中，通过神经网络1选择的动作提供神经网络0由其导出的存储经验数据，以提供用于训练神经网络1的目标。

图5b示出被编程为实施与图5b中所示功能相对应的功能的通用计算机系统100。因此系统包括深度Q学习机122，该深度Q学习机122包含处理器、工作存储器、以及非易失性程序存储器124。除了别的以外，程序存储器存储神经网络代码、动作选择代码、经验存储代码、目标Q生成代码以及权重更新代码。参数存储器126存储神经网络的权重以及经验数据。可以在物理承载介质诸如磁盘128上提供代码124。

实验结果

使用相同的网络结构、学习算法以及跨越全部7种游戏的超参数设置对7种流行的Atari^TM游戏——Beam Rider、Breakout、Enduro、Pong、Q*bert、Seaquest、Space Invaders进行实验。但是，因为得分的标度随着游戏的不同变化很大，所以将全部正奖励固定为1，并且将全部负奖励固定为-1，留下0奖励不变。通过这种方式修剪奖励限制了误差导数的标度，并使得跨越多种游戏使用相同的学习速率更加容易。同时，它可以影响代理的性能，因为不能在不同量级的奖励之间区分。

在这些实验中，以大小32的微小批量使用RMSProp算法。在训练期间的行为政策是ε贪婪，ε对于前面100万个帧从1到0.1线性退火(anneal)，并且之后固定在0.1。我们对总共1000万个帧进行训练，并使用100万个最近帧的重演存储器。此外，使用简单的跳帧技术：代理看到并选择每第k个帧而不是每个帧上的动作，并且在跳过的帧上重复其最后动作。因为在一个步骤中向前运行仿真器与让代理选择动作相比要求少得多的计算，所以在不显著增加运行时间的情况下，该技术允许代理再玩大约k次游戏。在测试实施方式中，对于所有游戏使用k＝4，除了Space Invaders^TM之外，在Space Invaders^TM中，因为激光闪动的周期，所以这样使得它们不可见；使用k＝3避免了这个问题，并且这个改变是任何游戏之间在超参数值中的唯一不同。

在监督学习中，通过针对训练和有效集合评估性能，在训练期间我们可以容易地跟踪模型的性能。但是在强化学习中，在训练期间准确评估代理的进展可能是挑战性的。所使用的评估度量是代理在训练期间周期性地计算的对于多个游戏平均的片段或游戏中收集的总奖励。但是，平均总奖励度量趋于有很多噪声，因为对政策权重的小改变会导致政策所访问的状态分布中的大改变。

参照图6，图6a和图6c分别示出在训练期间Breakout^TM和Seaquest^TM上每个片段的平均奖励。通过运行ε贪婪政策来计算统计数据，对于10000个步骤，ε＝0.05。图6b和图6d分别示出Breakout^TM和Seaquest^TM中状态集合的平均最大预测动作值。在图6中曲线图的X轴示出训练时期；一个时期对应于50000个微小批量权重更新，大约是30分钟的训练时间。

图6a和图6b示出在对游戏Seaquest和Breakout训练期间平均总奖励怎样演变。两个平均奖励曲线图都有很多噪声，给人的印象是，学习算法没有取得稳定的进展。另一个更稳定的度量是政策的估计动作值函数Q，该动作值函数Q提供可以通过遵循其政策，代理能够从任何给定状态获得多少折扣奖励的估计。在训练开始之前通过运行随机政策来收集状态的固定集合，并且为这些状态跟踪最大预测Q的平均值(对于可能的动作，取得用于每个状态的最大值)。图6b和图6d示出相比于通过代理获得的平均总奖励，平均预测Q更平滑地增加，并且在其他5个游戏上绘出相同的度量产生类似的平滑曲线。除了在训练期间看到对预测Q的相对平滑改善之外，在任何一个实验中都看不到发散问题。这表明，尽管缺少任何理论上的收敛保证，但是该方法能够按照稳定的方式，利用强化学习信号和随机梯度下降来训练大型神经网络。

图7示出游戏Seaquest^TM上学习值函数的形象化。图7a示出在屏幕702的左方敌人出现之后预测值跳跃(点A)。然后代理向敌人发射鱼雷，并且当鱼雷即将击中敌人时预测值达到峰值(点B；屏幕704)。最后，在敌人消失以后该值下落到接近它的原始值(点C；屏幕706)。图7说明，该方法的实施例能够学习对于事件相当复杂的序列，值函数怎样演化。任何时候新的潜艇出现，该值都增加，反映的事实是，代理有收集更多点的机会。一旦击中敌人的潜艇，该值就下降，因为收集到潜在奖励。

在测试期间，对于全部7种游戏，我们已经描述的程序大幅超过与之相比的所有其他机器学习方法，尽管几乎不包含关于输入形式的在先知识。该程序能够使用原始像素作为输入，并且在不调节体系结构或者程序的超参数的情况下进行测试，并且展示了它在此背景下掌握困难的控制政策的能力。

此外针对老手人类玩家测试了程序的性能，并且如下表1(给出平均总奖励的数字)所示，对于大多数游戏获得相比老手人类玩家更好的表现。在上面性能差于老手人类玩家性能的游戏更加有挑战性，因为它们要求网络找到持续长时间规模的策略。

	B.Rider	Breakout	Enduro	Pong	Q*bert	Seaquest	S.Invaders
								Human	7456	31	368	-3	18900	28010	3690
DQN Best	5184	225	661	21	4500	1740	1075

表1

我们已经描述了将强化学习程序应用于使用图像数据输入的控制任务——例如对于卡片游戏的情况可以使用游戏中手的图像作为输入。但是本领域技术人员应当理解，如上所述，可以附加性或者替代性地采用其他类型的输入数据。此外，仅通过示例的方式描述了控制游戏的任务，并且应当理解，可将本发明的实施例应用于任何形式的控制任务。虽然描述了有离散动作的示例，但是附加性或者替代性地，控制任务可包含准连续性动作，诸如通过用二进制数表示的连续赋值的变量限定的动作。

我们描述的仅通过示例的方式给出的技术的其他应用，包括：机器人控制(诸如两足或四足行走或跑动、航行、抓取、和其他控制技巧)；交通工具控制(自主交通工具控制、转向控制、航空交通工具控制，诸如直升机或飞机控制、自主移动机器人控制)；机器控制；有线或无线通信系统的控制；实验室或工业装备的控制；真实或虚拟资源的控制(诸如存储器管理、目录管理等等)；药物发现(其中受控动作是所谓药物的定义或DNA序列以及通过用药的活体的状态限定状态)；向系统的应用，其中通过文字(文本和/或音频和/或图像)限定系统的状态或来自系统的输出，诸如采用自然语言的系统；向交易系统诸如股市的应用(虽然采取的动作对这种系统几乎没有影响，但是很小的影响就足以获得有用的总奖励)；以及其他。

本领域技术人员肯定能够想到很多其他有效的替代。应当理解，本发明不限于所述实施例并包含落入所附权利要求精神和范围的对于本领域技术人员显而易见的修改。

Claims

1.一种强化学习的方法，所述方法包括：

输入与主题系统有关的训练数据，所述主题系统具有多个状态，每个状态通过图像数据来限定，并且对于每个状态，所述主题系统具有从所述状态中的一个移转到下一个所述状态的动作集合，所述图像数据包括图像序列，

其中所述训练数据通过以一系列所述动作在所述系统上操作而被生成、并且包括包含多个转化的经验数据，每个转化包括相应的起始状态数据、动作数据以及下一个状态数据，所述相应的起始状态数据、动作数据以及下一个状态数据对于多个所述动作分别限定起始状态、动作以及由于所述动作所致的下一个所述状态；以及

训练第二神经网络，所述第二神经网络是与第一神经网络相同的神经网络的实例，其中，训练所述第二神经网络包括：

从所述经验数据中选择转化；

通过所述第一神经网络生成用于所述选择的转化的目标动作值参数；

基于由所述第一神经网络生成的所述目标动作值参数与由所述第二神经网络生成的动作值参数之间的差来更新所述第二神经网络的权重。

2.根据权利要求1所述的方法，进一步包括：利用来自所述第二神经网络的已学习的动作值参数来选择所述动作，其中所述动作响应于为在所述系统的状态下可用的动作集合中的每个动作确定的动作值参数而被选择。

3.根据权利要求2所述的方法，其中，所述经验数据从所述选择的动作得出，所述方法进一步包括：通过与限定所述动作的相应的所述起始状态和下一个状态的数据相关联地存储限定由所述第二神经网络选择的所述动作的数据，生成所述经验数据。

4.根据权利要求3所述的方法，其中，所述目标动作值参数是通过向所述第一神经网络提供限定所述动作和所述下一个状态的所述数据来生成的，并且所述第二神经网络是利用所述目标动作值参数和限定所述起始状态的所述数据来训练的。

5.根据权利要求2所述的方法，进一步包括：

输入限定所述系统的状态的状态数据；

将所述系统的所述状态的表示提供给所述第二神经网络；

为在所述状态下可用的所述动作集合中的每个动作从所述第二神经网络检索已学习的所述动作值参数；以及

从所述第二神经网络选择要执行的动作，所述动作具有最大或最小的所述已学习的动作值参数。

6.根据权利要求5所述的方法，进一步包括：存储来自所述系统的经验数据，其中所述经验数据通过以利用所述第二神经网络选择的所述动作在所述系统上操作而被生成，并且其中所述训练数据包括所述存储的经验数据。

7.根据权利要求6所述的方法，进一步包括：

从所述经验数据选择用于多个所述动作中的一个的起始状态数据、动作数据以及下一个状态数据；

将来自所述下一个状态数据的所述下一个状态的表示提供给所述第一神经网络；

根据所述第一神经网络确定用于所述下一个状态的最大或最小的已学习的动作值参数；

根据用于所述下一个状态的所述最大或最小的已学习的动作值参数，确定用于训练所述第二神经网络的目标动作值参数。

8.根据权利要求7所述的方法，其中，所述训练所述第二神经网络包括：将来自所述起始状态数据的所述起始状态的表示提供给所述第二神经网络，以及调节所述神经网络的权重，以使用于通过所述动作数据限定的动作的已学习的动作值参数更接近于所述目标动作值参数。

9.根据权利要求7所述的方法，其中，所述经验数据还包括限定由于采取的所述动作所致的所述系统的奖励值或成本值的奖励数据，并且其中所述确定所述目标动作值参数包括分别通过所述奖励值或所述成本值调节用于所述下一个状态的所述最大或最小的已学习的动作值参数。

10.根据权利要求1所述的方法，其中，所述系统的状态包括随着时间对所述系统的观察的序列，所述时间表示所述系统的历史。

11.根据权利要求2所述的方法，其中，所述训练所述第二神经网络与所述选择所述动作交替，并且包括递增地更新用于选择所述动作的所述第二神经网络的权重集合。

12.根据权利要求2所述的方法，其中，根据所述第二神经网络的所述第一神经网络的所述生成或更新在重复利用所述第二神经网络所述动作的所述选择以及所述第二神经网络的所述训练之后每隔一段时间被执行。

13.根据权利要求12所述的方法，其中，根据所述第二神经网络的所述第一神经网络的所述生成或更新包括：将所述第二神经网络的权重集合复制到所述第一神经网络。

14.根据权利要求1所述的方法，其中，所述第一神经网络和第二神经网络包括有卷积神经网络输入阶段的深度神经网络。

15.一种非暂时性数据载体，承载实施权利要求1的方法的处理器控制代码。

16.一种Q学习的方法，其中Q值通过神经网络来确定，并且用于选择要在系统上执行的动作，以使所述系统在状态之间移转，其中每个状态通过图像数据来限定，并且所述图像数据包括图像序列，其中第一神经网络用于生成用于目标的Q值，以用来训练用于选择所述动作的第二神经网络。

17.根据权利要求16所述的方法，其中，每隔一段时间所述第一神经网络根据所述第二神经网络被刷新。

18.根据权利要求17所述的方法，其中，所述第一神经网络的权重是准静态的，在所述刷新之间的间隔期间保持基本上不变。

19.根据权利要求16所述的方法，进一步包括：存储所述选择的动作和状态的记录，并利用所述记录来生成用于所述目标的所述Q值。

20.根据权利要求16所述的方法，其中，所述第一神经网络和第二神经网络是包括本地连接或稀少连接的前端神经网络部分的深度神经网络。

21.根据权利要求16所述的方法，其中，所述Q值包括动作值函数的值，所述动作值函数逼近包括限定的下一个动作的动作的策略的期望成本或回报。

22.一种非暂时性数据载体，承载实施权利要求16的方法的处理器控制代码。

23.一种被配置为执行强化学习的数据处理器，所述数据处理器包括：

输入，所述输入用于接收来自系统的训练数据，所述系统具有多个状态，每个状态通过图像数据来限定，并且对于每个状态，所述系统具有从所述状态中的一个移转到下一个所述状态的动作集合，并且所述图像数据包括图像序列，

其中所述训练数据通过以一系列所述动作在所述系统上操作而被生成、并且包括包含多个转化的经验数据，每个转化包括相应的起始状态数据、动作数据以及下一个状态数据，所述相应的起始状态数据、动作数据以及下一个状态数据对于多个所述动作分别限定起始状态、动作以及由于所述动作所致的下一个所述状态；

训练模块，所述训练模块用于训练第二神经网络，所述第二神经网络是与第一神经网络相同的神经网络的实例，其中，训练所述第二神经网络包括：

从所述经验数据中选择转化；

通过所述第一神经网络生成用于所述选择的转化的目标动作值参数；以及

24.根据权利要求23所述的数据处理器，进一步包括动作选择模块，所述动作选择模块用于响应于用于在所述系统的状态下可用的所述动作集合中的每个动作的动作值参数来选择所述动作，其中所述动作值参数由所述第二神经网络提供。

25.根据权利要求23所述的数据处理器，其中，所述神经网络生成模块被配置为将所述第二神经网络的权重集合复制到所述第一神经网络。

26.一种被配置为执行Q学习的数据处理器，其中Q值通过神经网络来确定，并且用于选择要在系统上执行的动作，以使所述系统在状态之间移转，其中，每个状态通过图像数据来限定，并且所述图像数据包括图像序列，所述数据处理器包括耦接到存储处理器控制代码的工作存储器以及非易失性程序存储器的处理器，其中所述处理器控制代码被配置为控制所述处理器：

利用第一神经网络来生成用于目标的Q值；

利用所述目标来训练第二神经网络；以及

利用所述第二神经网络来选择动作以控制所述系统。

27.一种在控制系统中学习的方法，对于主题系统的一系列状态，其中，每个状态由数字化图像数据或波形数据所限定、并且所述数字化图像数据包括数字化图像序列，所述方法包括：

输入与主题系统的当前状态有关的当前状态数据；

将所述当前状态数据的版本提供给神经网络；

利用所述神经网络确定用于动作值函数集合的值，潜在动作集合中的一个或每个；

响应于所述动作值函数的所述值，选择所述动作；

将用于所述选择的动作的动作数据输出到所述主题系统，使得所述主题系统从所述当前状态转化为后续状态；

输入与所述主题系统的所述后续状态有关的后续状态数据以及与由于从所述当前状态到所述后续状态的所述转化所致的奖励或成本有关的奖励数据；

将经验数据存储在经验存储器中，所述经验数据表示所述当前状态、所述后续状态、所述选择的动作、以及所述奖励或成本；

根据所述存储的经验数据，确定用于所述神经网络的目标动作值函数输出；以及

利用所述目标动作值函数输出来更新所述神经网络的权重，其中所述更新包括递增地修改先前确定的所述神经网络的权重集合；

所述方法进一步包括：

存储所述神经网络的权重集合，以产生所述神经网络的两个版本，一个版本针对另一个版本时移，

其中用于选择所述动作的所述动作值函数集合的所述值的所述确定利用所述神经网络版本的后一个版本被执行，以及

其中所述目标动作值函数的所述确定利用所述神经网络版本的较早版本被进行。

28.根据权利要求27所述的方法，其中，所述目标动作值函数输出通过从所述经验存储器读取识别第一状态、动作、后续状态、以及奖励或成本值的数据而被确定；所述方法进一步包括：

利用所述神经网络，确定用于通过所述神经网络为所述后续状态推荐的动作的动作值函数的值；以及

根据用于通过所述神经网络为所述后续状态推荐的所述动作的所述动作值函数的所述值与所述奖励或成本值的组合，确定所述目标动作值函数输出。