CN105637540B - 用于强化学习的方法和设备 - Google Patents
用于强化学习的方法和设备 Download PDFInfo
- Publication number
- CN105637540B CN105637540B CN201480055621.8A CN201480055621A CN105637540B CN 105637540 B CN105637540 B CN 105637540B CN 201480055621 A CN201480055621 A CN 201480055621A CN 105637540 B CN105637540 B CN 105637540B
- Authority
- CN
- China
- Prior art keywords
- neural network
- action
- data
- state
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 230000002787 reinforcement Effects 0.000 title claims abstract description 34
- 230000009471 action Effects 0.000 claims abstract description 260
- 238000013528 artificial neural network Methods 0.000 claims abstract description 227
- 238000012549 training Methods 0.000 claims abstract description 65
- 230000006870 function Effects 0.000 claims description 50
- 230000015654 memory Effects 0.000 claims description 21
- 230000007704 transition Effects 0.000 claims description 16
- 230000009466 transformation Effects 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000000844 transformation Methods 0.000 claims description 5
- 230000003936 working memory Effects 0.000 claims description 3
- 230000003334 potential effect Effects 0.000 claims description 2
- 230000003362 replicative effect Effects 0.000 abstract 1
- 239000003795 chemical substances by application Substances 0.000 description 22
- 238000012360 testing method Methods 0.000 description 11
- 238000009826 distribution Methods 0.000 description 9
- 238000013459 approach Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000001276 controlling effect Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000001953 sensory effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 230000014616 translation Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012886 linear function Methods 0.000 description 3
- 210000004205 output neuron Anatomy 0.000 description 3
- 238000010408 sweeping Methods 0.000 description 3
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 2
- 239000011449 brick Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- YTAHJIFKAKIKAV-XNMGPUDCSA-N [(1R)-3-morpholin-4-yl-1-phenylpropyl] N-[(3S)-2-oxo-5-phenyl-1,3-dihydro-1,4-benzodiazepin-3-yl]carbamate Chemical compound O=C1[C@H](N=C(C2=C(N1)C=CC=C2)C1=CC=CC=C1)NC(O[C@H](CCN1CCOCC1)C1=CC=CC=C1)=O YTAHJIFKAKIKAV-XNMGPUDCSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 210000002364 input neuron Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/60—Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
- A63F13/67—Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor adaptively or by learning from player actions, e.g. skill level adjustment or by storing successful combat sequences for re-use
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
Abstract
我们描述一种强化学习的方法,其用于具有多个状态和从一个状态移动到下一个状态的动作的主题系统。训练数据通过以一系列动作在系统上操作而生成,且用于训练第二神经网络。用于训练第二神经网络的目标值从第一神经网络得出,该第一神经网络通过每隔一段时间复制第二神经网络的权重而生成。
Description
相关申请的交叉参考
本申请基于并主张2013年10月8日提交的美国临时申请No.61/888,247的优先权,通过引用将其全部内容合并于此。
技术领域
本发明涉及用于强化学习的改进技术,尤其是Q学习,并涉及数据处理器和处理器控制代码。
背景技术
一般而言,强化学习与监督学习的不同在于,不出现正确的输入输出对,而是机器(软件代理)学习在某些环境中采取动作,将某些形式的奖励最大化或者将成本最小化。采取动作将环境/系统从一个状态移转(move)到另一个状态,并且在Q学习的特定情况下,计算状态动作组合的质量,这描述可用于确定动作的期望效用的动作值函数。在“Q-learning”(Machine learning,vol 8,pages 279-292,1992,Watkins,Christopher JCHand Dayan,Peter,并且例如在WikipediaTM上方便地总结)中描述了Q学习算法。
尽管如此,学习直接根据高维度传感输入,诸如视觉和语言,来控制软件代理是强化学习(RL)的一个长期挑战。在这些领域中操作的大多数成功的RL应用依赖与线性政策函数组合的手工制作特征,并且这种系统的性能严重依赖特征表示的质量。另一方面,学习传感数据的表示已经成为深度学习方法的焦点,大多数深度学习方法依赖应用于深度卷积神经网络的大监督训练集合。
可能使用神经网络的强化学习的最广为人知的成功是TD-Gammon(“Temporaldifference learning and TD-Gammon”,Communications of the ACM,vol 38(3),pages58-68,Tesauro,Gerald)。这是一个西洋双陆棋游戏程序,它通过强化学习和自我游戏来学习,并达到超人类的游戏水平。但是这种方法采用人体工程学特征以及无关于动作的状态值函数(总得分),而不是动作值函数。此外它不接受视觉输入。
追随TD-Gammon的早期尝试不太成功,这种方法对于国际象棋、围棋和跳棋不太有效。这导致一个广泛的信念,即TD-Gammon是一个特例,并且神经网络只能在西洋双陆棋中近似值函数,原因是由于掷骰子的随机性,所以它很平滑。
此外,已经表明,将无模型强化学习算法诸如Q-learning与非线性函数逼近器诸如神经网络组合会导致Q网络发散。因此,后来的工作集中在具有较好收敛保证的线性函数逼近器。除了关于发散的问题之外,通过强化学习提供的训练信号是否足以训练大型神经网络也不清楚。因此,虽然有卷积神经网络的很多成功应用得益于使用大型标记训练示例集合(监督学习),但是通过RL提供的奖励信号经常延迟、稀少且有噪声。
尽管如此,在“Neural fitted Q iteration--first experiences with a dataefficient neural reinforcement learning method”(Machine Learning:ECML 2005,Springer 2005,pages 317-328,Riedmiller,Martin)中已经尝试使用多层感知器来逼近Q值函数。所述技术基于存储并重新使用转化(transition)经验的原理,但是有一些显著的实际缺点:一般而言,基于存储的经验来训练神经网络,但是当用新的三元数组(初始状态-动作-结果状态)更新经验时,将先前的神经网络丢弃,并且在已更新的经验上训练全新的神经网络。这是因为,无监督训练会容易地导致发散行为。但是结果是,每次更新存在与数据集合的大小成比例的可计算成本,这使得将这种方法推广到大型数据集合不切实际。相同的方法已经应用于通过自动编码器预处理的视觉输入,但是这遭遇基本上相同的问题(“Deep Auto-Encoder Neural Networks in Reinforcement Learning”,Sascha Langeand Martin Riedmiller)。
因此,需要一种用于强化学习的改进技术,特别是在采用神经网络时。
发明内容
根据本发明,因此提供一种强化学习的方法,所述方法包括:输入与主题系统有关的训练数据,所述主题系统具有多个状态,并且对于每个状态,所述主题系统具有从所述状态中的一个移转到下一个所述状态的动作集合;其中所述训练数据通过以一系列所述动作在所述系统上操作而被生成,并且包括起始状态数据、动作数据以及下一个状态数据,其对于多个所述动作分别限定起始状态、动作以及由于所述动作所致的下一个所述状态;以及利用所述训练数据以及从第一神经网络得出的用于第二神经网络的目标值,训练第二神经网络;所述方法进一步包括:根据所述第二神经网络生成或更新所述第一神经网络。
一般而言,在本发明该方案的实施例中,维持两个神经网络来避免否则在估计动作值参数时会出现的发散,特别是,否则将基于它自己的预测而被更新的神经网络的情况下。在实施例中,第一神经网络生成目标动作值参数,诸如目标Q值,而第二神经网络基于第一神经网络生成的目标而被更新。通过这种方式,目标保持基本上静态,但是每隔一段时间就根据第二神经网络重新生成或更新第一神经网络,例如通过将第二神经网络学习的权重集合中的一些或全部权重复制到第一神经网络。实际上,在实施例中,维持相同神经网络的两个实例,第一实例用于生成用于更新第二实例的目标值,不时更新第一实例,以匹配第二实例。潜在地,在本地连接的网络中,可以在不同的时间将网络的不同部分更新,但是这不太可取。在一个实施例中,在规定数目的动作(例如每104个步骤)之后将第一神经网络更新。
采用这种方法帮助推广到很大的数据集合,因为训练第二神经网络时涉及的计算减少——在实施例中每次迭代例如采用随机梯度更新以低(恒定)计算成本,将这种第二神经网络有效地连续更新。这样进而促进使用很大数量的训练数据,并且特别是使用用于状态数据的传感数据,诸如图像数据或声音数据(波形)。本技术的实施例可以直接对视觉图像和/或声音进行训练,并且因此可以从该输入到输出动作“端到端”应用强化学习。这样能够实现可能与区分动作值直接相关的特征的学习,而不是所谓的必须尝试通过手动来识别它们。其他优点在于,因为有大数量的低级别数据可用,所以神经网络的前端可以实施通过无监督的强化学习技术来训练的(深度)卷积神经网络。通过这种方式,系统本身可以学习区分传感输入的与能够执行的可用动作相关的特征。
上述系统的实施例的其他优点在于,它们可以在线操作,没有先前方法的问题——在执行每个连续动作时可以更新第二神经网络,并且每个连续状态上的数据被捕捉。
在实施例中,第二神经网络被供以用于每个连续动作的第一起始状态的表示,并且被用于提供用于从该起始状态可用的动作集合中的每个动作的已学习的动作值参数,在实施例中为Q值。然后该方法选择要执行的动作并输出用于控制主题系统的对应的动作数据。这进而被用于生成经验数据,该经验数据被存储并提供给第一神经网络,以生成用于训练第二神经网络的目标值。这种类型的方法的优点在于本身生成经验,程序(或数据处理器)通过该经验进行学习:实际上每个神经网络提供被其他神经网络使用的输出。但是这并非必要,并且用于通过第一神经网络处理的经验数据在原理上可以从一些其他源得出,例如通过观察其他实体、机器或人类与主题系统的交互。
该方法选择的动作对应于来自第二神经网络的最佳已学习的动作值参数。一般而言,这是用于已经学习将(期望的)奖励最大化的网络的最大动作值参数,或者是用于已经学习将(期望的)成本最小化的网络的最小动作值参数。在一些优选实施例中,不是第二神经网络接收限定起始状态和动作的数据,而是训练神经网络为所限定的起始状态并行提供输出集合,每个输出提供用于对应的可用动作的估计的动作值参数。通过有效地并行处理动作,这样实际上加速了操作,允许耦接到神经网络的输出的后续选择器模块(或者是代码/软件,或者是硬件)选择最大/最小输出值,具有该值的节点限定要采取的对应的动作。
如上所述,在本方法的优选实施例中,经验数据仓库记录用于采取的动作的一些或全部的经验数据。对于每个动作,经验数据包括限定起始状态、采取的动作以及系统的后续状态的数据。在实施例中,存储只与最后N个动作有关的经验数据,以降低存储器要求。但是附加性或替代性地,可以以一些其他方式选择动作的子集用于存储,例如只每隔一段时间存储动作,或者随机存储动作,或者基于或者同时确定或者在一些后来的阶段确定的某些显著性度量,例如基于测量的和/或期望的奖励/成本,来存储动作。
在实施例中,经验数据包括从当前状态移转到后续状态时与动作的奖励(或成本)有关的奖励(或成本)数据。可以例如通过输入限定通过动作收集/引起的奖励或成本的数据来从系统测量奖励/成本。但是附加性或替代性地,可通过系统的参数或者要解决的工程问题来限定奖励/成本。因此应当认识到,存储奖励/成本并非必要,因为特别是在后一种情况下,可通过状态来限定或者与状态相关联:例如,对于所谓的回避控制任务、目标实现任务、或者状态空间位置调节任务(诸如杆平衡任务),可通过状态空间的目标区域来限定奖励/成本。
在实施例中,结合用于训练第二神经网络的第一神经网络来使用经验数据。更具体而言,根据存储的经验数据对包括第一、起始状态、动作、以及下一个状态的转化采样。这用于根据第一神经网络(在实施例中,它在先制造第二神经网络的副本)生成目标动作值参数(Q值),用于训练第二神经网络。因此将由于动作所致的下一个状态输入第一神经网络,并识别最大(或最小)动作值参数(Q值),所述最大(或最小)动作值参数通过0和1之间的折扣因子选择性地被折扣,并添加从起始状态移转到下一个状态时的奖励(或者减去成本),以生成用于给出动作的起始状态的目标动作值参数。一般而言,通过用于步骤/状态j+1,Qj+1的最佳Q加上奖励(或减去成本)来确定用于步骤/状态j,Qj的目标。通过认识到在状态j+1已经接收到奖励,因此其不再被期望,并且在Qj+1不会出现,因此它被加回去以生成目标Qj,可以理解这一点。在一些优选实施方式中,在存储用于转化的数据时,将奖励(或成本)记录在经验数据仓库中,但是在其他实施方式中,例如通过问题的定义或者上述的系统来限定它。
对根据第一神经网络生成的目标与从第二神经网络输出的步骤j的动作值参数之间的模量差训练第二神经网络,通过(随机)梯度下降来调节第二神经网络的权重。选择性地,为了更快的收敛,可以基于所计算的调节的历史来改变调节权重的步骤的大小,例如利用RMS-Prop程序(如下所述)。因此在实施例中,通过递增地更新其权重而不是通过以每个新观察将网络复位来训练第二神经网络。本领域技术人员应当理解,可以以每个动作执行一次更新,或者更慢;选择性地,可以采用来自经验数据仓库的微小批量(minibatch)来计算用于更新权重的梯度。
可以根据经验数据仓库随机选择用于训练第二神经网络的转化,和/或基于它期望的显著性,例如基于关联奖励或成本的值,来选择该转化。
在一些优选实施例中,系统的状态包括随着时间对系统的观察的序列,所述时间是系统的历史。当系统的未观察的内部状态取决于动作和观察的序列时(情况经常是这样),这特别有用。可将对于主题系统的感测条件的进一步观察,例如新捕捉的图像,用于更新包括这种观察的序列的系统状态。
在实施例中,通过图像数据,更具体而言图像的序列,来限定状态。表示状态的图像数据可以是彩色的,也可以是黑白的;选择性地,可以将其预处理,以减少图像中像素的数目,并因此降低处理要求。在状态包括图像帧的序列的情况下,并非一系列帧中的每个帧都需要被采用,并且例如可以选择每第n个帧。
附加性或替代性地,状态可包括声音数据,更具体而言是音频波形,同样可以选择性地预处理。更一般而言,可通过来自一个或多个传感器的传感信息、或者通过从计算机网络或者在计算机网络上捕捉的数据、或者通过一般的真实世界数据、以及潜在地通过表示可以被软件代理的动作影响的任何真实或虚拟系统的数据来限定状态。
优选地,第一神经网络和第二神经网络是深度神经网络且包括前端部分(接收状态数据的输入部分),该前端部分本地连接或稀少连接,例如以实施卷积神经网络。通过这种方式,网络的前端可以有效提供滤波器的分层集合,每个滤波器处理来自用于状态数据的输入的本地区域的信息,学习识别本地结构。这对于处理图像数据、音频数据、以及真实世界得到的数据特别有利,因为这种数据趋于表现相关本地结构。这种方法允许网络的内部层、隐藏层在前端按照分层的方式表现用于多个特征的特征地图。但是在一些优选实施例中,神经网络至少在输出层完全连接。
上述技术可以在软件中实施,例如作为在数字信号处理器(DSP)上运行或者跨越多个处理器例如GPU(图形处理单元)并行运行或者在通用计算机系统上运行的代码。替代性地,上述技术可以在硬件中实施,例如作为电子电路,所谓在ASIC(专用集成电路)上;或者可以采用硬件与软件的组合。
因此在相关方案中,本发明提供一种被配置为执行强化学习的处理器,所述系统包括:输入,用于接收来自系统的训练数据,所述系统具有多个状态,并且对于每个状态,所述系统具有从所述状态中的一个移转到下一个所述状态的动作集合;其中所述训练数据通过以一系列所述动作在所述系统上操作而被生成,并且包括起始状态数据、动作数据以及下一个状态数据,其对于多个所述动作分别限定起始状态、动作以及由于所述动作所致的下一个所述状态;其中所述动作响应于用于在每个状态下可用的所述动作集合中的每个动作的动作值参数而被选择;利用来自第二神经网络的已学习的动作值参数选择所述动作;以及训练模块,用于利用所述训练数据以及从第一神经网络得出的目标值,训练第二神经网络;以及神经网络生成模块,用于根据所述第二神经网络生成或更新所述第一神经网络。
选择性地,可将上述优选特征的一些或全部合并在这种数据处理器中。
在相关方案中,本发明提供一种Q学习的方法,其中Q值通过神经网络来确定,并且用于选择要在系统上执行的动作,以使所述系统在状态之间移转,其中第一神经网络用于生成用于目标的Q值,以训练用于选择所述动作的第二神经网络。
如上所述,在一些优选实施例中,每隔一段时间利用所述第二神经网络将所述第一神经网络刷新,使得第一神经网络的权重为准静态,在刷新时只每隔一段时间更新。同样如上所述,在优选实施例中,存储与系统交互的经验的记录。经验可包括状态、动作、新状态和奖励/成本。在实施例中,第二神经网络学习离政策(off-policy),也就是说学习政策涉及搜寻存储的经验,以生成用于训练第二神经网络的目标,并且其按照与在与系统交互时用于选择动作的行为政策不同的方式进行。在实施例中,用于目标的Q值包括动作值函数的值,该动作值函数逼近包括限定或推定的下一个动作的动作的策略的期望成本或者回报。
在相关方案中,本发明还提供一种被配置为执行Q学习的数据处理器,其中Q值通过神经网络来确定,并且用于选择要在系统上执行的动作,以使所述系统在状态之间移转,所述数据处理器包括耦接到存储处理器控制代码的工作存储器以及非易失性程序存储器的处理器,其中所述处理器控制代码被配置为控制所述处理器:利用第一神经网络来生成用于目标的Q值;利用所述目标来训练第二神经网络;以及利用所述第二神经网络来选择动作以控制所述系统。
如上所述的数据处理器例如可以合并在被配置为自动学习控制任务的控制系统中。
本发明还提供处理器控制代码和/或数据(例如学习权重)以实施本发明的实施例,特别是在物理(非暂时性)数据载体上,诸如磁盘、编程存储器,例如在非易失性存储器(诸如闪存)上或者在固件中。实施本发明的实施例的代码和/或数据可包括以传统编程语言(解释或编译)的源代码、对象代码或可执行代码,诸如C,或者用于硬件描述语言的代码。
在其他方案中,本发明提供一种通过强化学习训练的电子控制器,以控制具有多个状态的系统,并且对于每个状态,所述系统具有从所述状态中的一个移转到下一个所述状态的动作集合;所述电子控制器包括:输入,用于接收来自所述系统的状态数据;神经网络,具有耦接到所述输入的输入神经元集合、多个神经元的隐藏层、以及至少一个输出神经元,其中所述神经网络被训练为对于所述动作集合中的每个动作提供动作质量值,所述动作质量值限定从相应动作开始以移转到下一个状态的动作的策略的期望成本或奖励;动作选择器,被配置为响应于用于所述动作的所述动作质量值,从所述动作集合选择动作;以及输出,用于输出限定用于控制所述系统的所述选择的动作的数据。
在一些优选实施例中,神经网络具有多个输出神经元,每个输出神经元被配置为提供用于相应动作的动作质量值。然后可将它们耦接到动作选择器,从而可以基本上并行地提供用于选择例如具有最大质量值或最小质量值的动作的动作质量值。
在其他相关方案中,本发明提供一种在控制系统中学习的方法,对于主题系统的一系列状态,所述方法包括:输入与主题系统的当前状态有关的当前状态数据;将所述当前状态数据的版本提供给神经网络;利用所述神经网络确定用于动作值函数集合的值,潜在动作集合中的一个或每个;响应于所述动作值函数的所述值,选择所述动作;将用于所述选择的动作的动作数据输出到所述主题系统,使得所述主题系统从所述当前状态转化为后续状态;输入与所述主题系统的所述后续状态有关的后续状态数据以及与由于从所述当前状态到所述后续状态的所述转化所致的奖励或成本有关的奖励数据;将经验数据存储在所述经验存储器中,所述经验数据表示所述当前状态、所述后续状态、所述选择的动作、以及所述奖励或成本;根据所述存储的经验数据,确定用于所述神经网络的目标动作值函数输出;以及利用所述目标动作值函数输出更新所述神经网络的权重,其中所述更新包括递增地修改先前确定的所述神经网络的权重集合;所述方法进一步包括:存储所述神经网络的权重集合,以产生所述神经网络的两个版本,一个版本针对另一个版本时移,其中用于选择所述动作的所述动作值函数集合的所述值的所述确定利用所述神经网络版本的后一个版本被执行,以及其中所述目标动作值函数的所述确定利用所述神经网络版本的较早版本被执行。
这里在一般含义上使用对奖励数据的参考,包括限定正奖励或负奖励或成本的数据。
在其他相关方案中,本发明提供一种控制系统,所述系统包括:数据输入,用于接收传感器数据;数据输出,用于提供动作控制数据;以及深度神经网络,具有输入层和输出层,所述输入层耦接到所述数据输入;以及动作选择器,耦接到所述深度神经网络的所述输出层;其中所述深度神经网络的所述输入层在一个或多个维度中限定传感器数据字段,其中所述深度神经网络的所述输出层限定用于与所述控制系统进行控制的多个可能动作中的每个动作相关联的动作值函数的值;以及动作选择器,耦接到所述深度神经网络的所述输出层以及所述数据输出,以响应于所述动作值函数选择所述动作,并将对应的动作控制数据提供给所述数据输出。
附图说明
下面参照附图,仅通过示例进一步描述本发明的这些和其他方案,在附图中:
图1示出来自用于训练根据本发明的实施例的强化学习数据处理器玩游戏的计算机游戏集合的截屏,从左至右所示为乒乓球(Pong)、打砖块(Breakout)、太空入侵者(SpaceInvaders)、海底救人(Seaquest)和波束导弹(Beam Rider)(商标);
图2示出根据本发明的实施例有经验重演的深度Q学习程序的流程图;
图3a和图3b示出根据本发明的实施例的Q学习深度神经网络的替代性示例配置;
图4图示出在图2的程序的实施例中使用的神经网络的结构;
图5a和图5b分别示出根据本发明的实施例的强化学习处理器的方框图以及根据本发明的实施例被编程为实施基于深度神经网络的Q学习程序的计算机系统的示例;
图6a至图6d示出每个游戏片段的奖励,分别示出对于BreakoutTM和SeaquestTM,每个片段的平均奖励以及可以从起始状态集合获得的平均预测值;以及
图7a和图7b分别示出来自SeaquestTM的三个截屏的序列以及用于游戏玩法的对应30帧片段的预测值函数,其中A、B和C分别对应于图7a的左、中和右截屏。
具体实施方式
下面描述将强化学习算法与深度神经网络连接的技术,使得能够利用随机梯度更新,将数据直接从原始RGB像素图像有效地注入算法。为此描述一种通过有经验再现存储器的Q学习算法的在线实施方式,其使得能够用随机梯度更新来训练神经网络。(在此“深度神经网络”用于表示有多于一个隐藏层的神经网络。)
为了说明来自Arcade学习环境“The arcade learning environment:Anevaluation platform for general agents”,arXiv preprint arXiv:1207.4708,2012的方法AtariTM 2600视频游戏的能力,将Bellemare、Marc G和Naddaf、Yavar和Veness、Joel和Bowling、Michael用作试验台。这些游戏为强化学习提供了有趣的挑战,因为它们被设计为挑战人类并具有高维视觉输入空间。所述软件代理直接从原始像素输入学习玩AtariTM游戏,并且不使用任何手工设计特征或人类游戏的示例。本文所述基于神经网络的方法实现的能力水平在全部7个被测游戏上与新手人类玩家可比较或者更好,并且在其中3个游戏上超过老手人类玩家。
强化学习框架
我们考虑这样的任务,其中代理与环境E(在这种情况下是Atari仿真器)以动作、观察和奖励的序列交互。在每个时间步骤,代理从合法游戏动作A={1,...,K}中选择动作at。动作被传递给仿真器并修改其内部状态和游戏得分。通常E可以是随机的。代理不观察仿真器的内部状态;作为替代,它观察来自仿真器的图像xt∈Rd,该图像是表示当前屏幕的原始像素值的矢量。此外,它接收表示游戏得分的变化的奖励rt。注意,通常游戏得分可以取决于动作和观察的全部在先序列;仅在经过千万个时间步骤之后才可接收关于动作的反馈。
因为代理只观察当前屏幕的图像,所以部分地观察到任务,并且很多仿真器状态在感知上被混淆,即,不可能仅根据当前屏幕xt就完全理解当前情况。因此,我们考虑动作和观察的序列st=x1,a1,x2,...,at-1,xt,并学习取决于这些序列的游戏策略。假定仿真器中所有序列在有限数目的时间步骤中终止。这种形式化产生大而有限的马尔可夫决策过程(MDP),其中每个序列是不同的状态。结果,通过将完整序列st用作时间t的状态表示,我们可将强化学习方法应用于MDP。
代理的目的是通过以最大化未来奖励的方式选择动作,与仿真器交互。我们假定通过每个时间步骤一个因子γ(其中0≤γ≤1)将未来奖励折扣,并将时间t时的未来折扣回报限定为其中T是游戏终止的时间步骤。在看到某些序列s然后采取某些动作a之后,我们将最佳动作值函数Q*(s,a)限定为可通过以下任何策略实现的最大期望回报,Q*(s,a)=maxπE[Rt|st=s,at=a,π],其中π是将序列映射到动作的政策(或者相对于动作的分布)。
这些最佳动作值函数服从称为Bellman方程的重要恒等式。这是基于以下直觉:如果对于所有可能的动作a′都知道下一个时间步骤处序列s′的最佳值Q*(s′,a′),那么最佳策略就是选择将r+γQ*(s′,a′)的期望值最大化的动作a′,
很多强化学习算法后面的基本理念是通过将Bellman方程用作迭代更新,Qi+1(s,a)=E[r+γmaxa′Qi(s′,a′)|s,a],来估计动作值函数。这种值迭代算法收敛到最佳动作值函数,当i→∞时Qi→Q*。实际上,该基本方法完全不实用,因为动作值函数是对于每个序列单独估计的,没有任何一般化。作为替代,可以使用函数逼近器来估计动作值函数,Q(s,a;θ)≈Q*(s,a)。通常这是线性函数逼近器,但是也可以是非线性函数逼近器,诸如神经网络。我们将具有权重θ的神经网络函数逼近器称为Q网络。通过将在每次迭代i处改变的损失函数L(θi)的序列最小化,可以训练Q网络,
其中是迭代i的目标,并且ρ(s,a)是相对于序列s和动作a的概率分布,我们称为行为分布。在优化损失函数L(θi)时,将来自之前迭代θi-1的参数保持固定。注意,目标取决于网络权重;这是与用于监督学习的目标大不相同的,用于监督学习的目标在学习开始之前保持固定。将损失函数对权重微分,我们得到以下梯度:
不是计算以上梯度中的全部期望,通过随机梯度下降将损失函数最优化通常在计算上是有效的。如果在每个时间步骤之后将权重更新,并分别通过来自行为分布ρ和仿真器E的单个样本来代替这些期望,则获得Q学习算法。
该算法是无模型的:它直接利用来自仿真器E的样本解决强化学习任务,不需要明确地构造E的估计。此外,它是离政策(off-policy):它学习“贪婪”(即,最佳值偏好)策略a=maxa Q(s,a;θ),同时遵循保证状态空间的充分探测的行为分布。实际上,经常通过遵循概率为1-ε的贪婪策略的ε贪婪策略来选择行为分布,并选择概率为ε的随机动作。
示例任务
在某些环境中,较少数目的输入就完全描述了环境的状态,并且有感兴趣的单个任务,因此可以手工构造为任务定制的特征。与之不同,用于测试我们所述技术的实施例的Atari仿真器是部分可观察的,在60Hz下提供210×160RGB的视频输入,并且因为有很多种任务要考虑,所以难以手工制作通用特征。
AtariTM游戏被设计为挑战人类玩家,并且AtariTM2600表示对强化学习的主要挑战。尽管如此,我们描述能够很好地玩多种AtariTM2600电视游戏的强化学习算法。学习任务被设计为反映人类可能面临的设置,如果出现新型AtariTM游戏:软件代理没有被提供有关该游戏的任何先前知识,它不知道仿真器的内部状态,并且只能通过观察像素视频输入以及通过在每个帧选择多达18个动作中的一个(3×3操纵杆位置,可以选择是否按下“开火”按钮),与仿真器交互。
Arcade学习环境(ALE)(同上)是使得强化学习代理能够与AtariTM2600游戏机的仿真器交互的平台。它包含很多通过奖励函数(在每个帧通常对应于得分的改变)来装备的原始AtariTM2600电视游戏。图1示出用于测试本发明实施例的5个游戏的示例截屏,示为乒乓球(Pong)10、打砖块(Breakout)12、太空入侵者(Space Invaders)14、海底救人(Seaquest)15和波束导弹(Beam Rider)18(商标)。
深度强化学习
图2图示出根据本发明实施例,用于使用深度神经网络来估计Q值的强化学习的程序。
该程序通过从受控系统输入状态数据开始(S200)。对于AtariTM游戏仿真器的测试系统,这包括来自游戏的图像帧的序列。如下所述,在该测试环境中采用跳帧,并且对捕捉的图像下采样,以减少要处理的数据数量。我们所述方法的其中一个优点是,该程序能够接受图像像素数据作为输入,而不是依靠受控系统的手工构造表示。
该程序采用第一和第二神经网络(神经网络0和1),每个网络最后通过程序的实施方式来训练,以为每个动作或者每个可定义输入状态提供动作值参数,尤其是Q值。因此在步骤S202,该程序采用第二神经网络(神经网络1)以为输入状态提供Q值集合,在该状态下一个Q值用于一个可能的动作(Q1值)。该程序选择最大Q值(最大期望奖励),但是也采用探测策略,在实施例中是ε贪婪策略(选择时间的随机动作ε)。但是本领域技术人员应当理解,可以替代性地采用很多种探测策略,例如基于所谓的Gibbs或Boltzmann分布的软-最大值策略;或者可以采用ε贪婪探测的变型,其中ε随时间减少。
然后该程序再次输入状态(图像序列)数据并存储经验数据(S204)。所存储的经验数据包括前后状态、采取的动作以及赢取的奖励。在步骤S206,该程序或者随机地或者根据优先策略从存储的经验数据导出转化,并将结尾转化的“后”状态提供给第一神经网络(神经网络0)。采用第一神经网络以通过提供每个动作的Q值(Q0值)来确定用于该结尾状态的最大Q值(步骤S208),从而能够选择最大值。然后在步骤S210,该程序将折扣因子Y应用于来自步骤S208的最大Q值,并将来自该转化的奖励添加到这个结尾状态,以提供目标Q值(在下面的算法中是yj)。在所述实施例中将奖励与经验数据一起存储(对于测试系统而言,通过来自仿真器的数值输出来限定奖励),但是也能够以某些其他方式来提供,例如作为控制问题的定义的一部分(所谓通过限定要处于其中或者要避免的状态空间的目标区域)。添加奖励后面的逻辑被示出在步骤S210的右边,从神经网络0输出的Q值考虑已经被该阶段接收的奖励,并且因此到那时候为止不再期望它。
目标Q值(yj)用于训练第二神经网络(神经网络1),以更新Q1值。为了方便起见,可以利用随机梯度下降来实施训练,例如利用反向传播法,选择性地采用可调节或适应性的学习速率来随着时间减少步骤大小(即,用于调节权重的步骤大小)。选择性地,如同本领域技术人员所理解的,在微小批量(minibatch)方法中,可通过从存储的经验数据导出的多个转化来累积梯度。本领域技术人员应当认识到,不是对于其自身输出所训练的神经网络,而是将第一神经网络的输出用于训练第二神经网络。
然后该程序从步骤S212循环回到步骤S202,以选择进一步动作。在实施例中,经验数据存储的大小有限,并且因此,随着存储新的经验数据,可以例如利用FIFO(先入先出)策略丢弃旧的经验数据。在限定数目的训练步骤之后,例如每102、103或104步骤,将来自第二受训神经网络的权重复制到第一神经网络(S214),使得实际上用于Q1值的神经网络变为用于Q0值的神经网络,并且第二神经网络的训练继续进行。训练程序可以无限地继续,或者在其他方法中,例如在预定数目的训练步骤之后和/或基于诸如用于状态的限定集合的平均预测状态值函数的训练度量而终止训练。
如上所述,该程序在线操作或者准在线操作(如果采用微小批量训练就是后者)。但是本领域技术人员应当理解,在替代性实施例中,该程序可以在一个阶段累积存储的经验数据,并且然后在第二阶段利用存储的经验数据训练第二神经网络。
下面示出通过经验重演用于深度Q学习的示例算法。为了提高算法的稳定性,我们将用于生成目标yj的网络从受训的网络解耦。更准确而言,在每L个参数更新之后制造受训的Q网络的副本,并且该副本用于对下L个训练更新生成目标yj。该程序提高了训练算法的稳定性,因为用于生成目标的网络只是每L个更新改变,这防止了反馈回路出现,其中预测无法控制地生长。
在某些优选实施例中,将算法修改为对于微小批量的存储的转化累积梯度:
Initialize replay memory D to capacity N
Initialize action-value function Q with random weights
for episode=1,M do
在上述示例算法中,该程序对于M个游戏片段运行,其中每个片段从游戏开始运行到表明“游戏结束”的点或者运行到(软件代理)玩家失去生命的点。片段中帧的总数目表示为T;神经网络具有参数(权重)θ,θ可通过随机数来初始化。应当理解,在其他实施方式中可以限定其他形式的“片段”,或者可以连续运行程序。在所示示例中,该算法对于系统在玩游戏时捕捉的所有帧运行。
可以记起通过图像帧的序列,或者更一般地,通过可以包括图像数据、和/或声音数据、和/或一般的传感器数据的输入数据、和/或其他输入数据的被捕捉集合的序列,来限定游戏/系统的状态。在上述算法中,用表示限定输入状态的经过预处理的序列数据,其中i标记状态。在测试环境下,限定通过选择每第K个帧获得的4个84×84灰度图像的群组。
在上述示例中,算法学习离政策——也就是说,被选择为训练第二神经网络的动作不同于通过用于玩游戏的第一神经网络所指示的动作——也就是说,程序的实施例根据不同的政策学习和玩。
在原理上,程序的实施例可以在不将第二神经网络选择的动作的结果存储在经验数据仓库的情况下操作:所存储的经验可以从某些其他源得出,例如通过观察与系统交互的某些其他实体,诸如观察玩相关游戏的人。所要求的全部就是能够观察多个转化,每个转化包括初始状态、动作和最终状态,以及可选地奖励(或成本)。然后,所存储的经验仍然可用于更新第一神经网络,该第一神经网络进而生成用于训练第二神经网络的目标。实际上,存储第二神经网络选择的动作的经验是方便的,使得第一神经网络能够在后来根据这些导出,从而提供独立系统,但是这并非必要。
在上述算法中,我们在每个时间步骤存储代理的经验,在数据集合D=e1,...,eN中的et=(st,at,rt,st+1),将多个片段聚集在重演存储器中。在算法的内部回路中,将Q学习更新或者微小批量更新应用于经验的样本其从存储样本池中随机导出。在进行经验重演之后,代理根据ε贪婪政策选择并执行动作(其中0≤ε≤1并且可以随时间变化)。因为将任意长度的历史用作神经网络的输入可能是困难的,所以作为替代,Q函数作用于通过函数产生的固定长度表示的历史。
我们所述算法的方法具有若干优点。没有相互作用,经验的每个步骤可能在多个权重更新中使用,这允许更大的数据效率。其次,由于样本之间的强相关,直接从连续样本学习是无效率的,但是将样本随机化打破了这些相关并且因此减少了更新的方差。第三,在学习在政策(on-policy)时,当前参数确定参数对其训练的下一个数据样本。例如,如果最大化动作是向左移动,则通过来自左手侧的样本来支配训练样本;如果之后最大化动作切换到右边,择训练分布也切换。容易看到,不需要的反馈回路会怎样出现,并且参数会在不良的局部最小值中卡住,甚至灾难性地发散。与之不同,在我们所述的技术中,行为分布针对它的多个先前状态平均,平滑了学习并帮助避免参数中的振荡或发散。在通过经验重演学习时,倾向离政策,因为当前参数不同于用于生成样本的参数,其激发了Q学习的选择。
在某些实施例中,算法仅将最后N个经验元组存储在重演存储器中,并且在进行更新时从D中随机地统一采样。但是,这种方法是受限的,因为存储器缓存不区分重要的转化,并且由于有限的存储器大小N,将最近转化覆写。类似地,统一采样向重演存储器中的所有转化给予相同的重要性。因此在其他实施例中,可以采用更复杂的采样策略,例如强调程序可以从其学习最多的转化。这可以按照与优先扫除(Prioritized Sweeping)相类似的方式来实施,“Prioritized Sweeping:Reinforcement Learning with Less Data and LessReal Time”,Machine Learning,vol 13,pages 103-130,1993,Andrew Moore,ChrisAtkeson。
虽然上述强化学习框架使用完整序列s=s1,a1,...,st,at作为状态表示,但是在实践中这是有挑战性的,通常要求递归神经网络体系结构,该递归神经网络体系结构可以对千万个时间步骤反向传播错误。因此作为替代,本技术的实施例使用帧的短历史,例如4个帧,作为预处理步骤。
如上所述,在实施例中,算法的训练回路对微小批量的转化进行采样,并且对给定的对象进行微小批量梯度下降更新。变型使用RMSProp算法,“Lecture 6.5-rmsprop:Divide the gradient by a running average of its recent magnitude”,COURSERA:Neural Networks for Machine Learning,2012,Tieleman,T and Hinton,G,其对于每个权重适应性地确定学习速率。这样导致对于某些问题的更快训练。
实施例还使用帧跳跃技术:代理看到并选择每第k个帧而不是每个帧上的动作,并且在跳过的帧上重复其最后动作。跳过的帧的数目与构成状态表示的帧的数目相同是巧合:情况不需要是这样。因为对于一个步骤向前运行仿真器与让代理选择动作相比要求少得多的计算,所以在不显著增加运行时间的情况下,该技术允许代理玩大约k倍次的游戏。
预处理和模型体系结构
直接通过作为具有128调色板的210×160的像素图像的原始AtariTM帧工作可能在计算上要求较高,因此使用基本预处理步骤来减少输入维度:通过先将它们的RGB表示转换为灰度表示,并且然后将其下采样为110×84图像,来预处理原始帧。通过修剪粗略捕捉游戏区域的图像的84×84区域,获得最终输入表示。最终修剪阶段只是为了方便而进行,因为使用了期望方形输入的2D卷积的GPU(图形处理单元)实施方式。为了实验,来自算法的函数将此预处理应用于历史的最后4个帧,并堆放它们,以产生Q函数的输入。
有若干可能方式利用神经网络将Q参数化。因为Q将历史动作对映射到它们Q值的标量估计,所以使用已经被用作神经网络的输入的历史和动作两者是一个选择,在图3a中示意性地为神经网络150a示出。但是,这种类型的体系结构的缺点在于,要求单独的前向传递来计算每个动作的Q值,导致随动作数目线性缩放的成本。因此作为替代,优选实施例采用一种体系结构,其中有用于每个可能动作的独立输出单元,并且只有状态表示是神经网络的输入。输出对应于用于输入状态的个别动作的预测Q值,在图3b中示意性地为神经网络150b示出。这种类型的体系结构的一个优点是,仅用通过网络的单个前向传递在给定状态下对于所有可能动作计算Q值的能力。
图4所示的用于训练全部7个AtariTM游戏的体系结构如下:神经网络的输入包括通过产生的84×84×4图像。第一隐藏层将具有步幅4的16个8×8滤波器与输入图像卷积,并应用整流器非线性。第二隐藏层将具有步幅2的32个4×4滤波器卷积,也跟随有整流器非线性。最末隐藏层是完全连接的并包括256个整流器单元。输出层是对于每个有效动作有单个输出的完全连接的线性层。对于所考虑的游戏而言,有效动作的数目在4和18之间变化。我们将通过所述方法训练的卷积网络称为深度Q网络(DQN)。
因此参照图4,其示出上述神经网络150的实施例,其中输入帧的集合152提供输入到通过与第一隐藏层156的连接形成的卷积滤波器的第一集合154的输入。第一隐藏层156包含特征地图集合,每个滤波器一个地图。卷积滤波器的第二集合158提供与第二隐藏层160的连接,该第二隐藏层160包括另一个特征地图集合,每个滤波器158一个地图。神经网络150的输出阶段实际上包括多层感知器,该多层感知器有连接到下面的层160中的全部特征地图的输入隐藏单元集合162,并且具有输出单元集合164,每个可用动作一个输出单元(在示例性游戏中,在4和18个动作之间)。在所示示例中,对输入帧的集合(84×84)(×4)操作的4×16个8×8像素滤波器(核心)的第一集合生成用于每个4个帧的集合的16个20×20特征地图的集合,并且对其操作的16×32个4×4像素滤波器的第二集合生成用于每个帧的32个9×9特征地图。图4的神经网络结构对应于图3b所示的布置,其中在神经网络的输入处出现的状态数据152在输出单元164上生成Q值输出的集合,每个动作一个输出。
图5a示出被配置为实施如上所述基于神经网络的强化学习程序的数据处理器100的示意性方框图。处理器与一些系统102交互,提供控制系统的动作并观察来自系统的图像、声音或其他数据。在实施例中,还有从来自系统的成本或奖励数据到处理器的输入,并且对于游戏是“游戏结束”信号。观察数据通过模块104预处理,并且然后通过神经网络150处理,如上所述。这样提供动作值参数(Q值)集合,作为用于所观察的输入状态的输出。动作选择器106选择有最大Q值的动作并将其提供给系统102以及经验数据仓库108。经验数据仓库108存储观察状态数据,例如图像序列数据、选择的动作、以及来自系统102的奖励数据。
在学习阶段期间,模块110从经验数据仓库108对转化采样,并基于来自神经网络0的目标,具有在模块110中存储的权重的神经网络1的较早副本,调节神经网络150(神经网络1)的权重。因此在实施例中,通过神经网络1选择的动作提供神经网络0由其导出的存储经验数据,以提供用于训练神经网络1的目标。
图5b示出被编程为实施与图5b中所示功能相对应的功能的通用计算机系统100。因此系统包括深度Q学习机122,该深度Q学习机122包含处理器、工作存储器、以及非易失性程序存储器124。除了别的以外,程序存储器存储神经网络代码、动作选择代码、经验存储代码、目标Q生成代码以及权重更新代码。参数存储器126存储神经网络的权重以及经验数据。可以在物理承载介质诸如磁盘128上提供代码124。
实验结果
使用相同的网络结构、学习算法以及跨越全部7种游戏的超参数设置对7种流行的AtariTM游戏——Beam Rider、Breakout、Enduro、Pong、Q*bert、Seaquest、Space Invaders进行实验。但是,因为得分的标度随着游戏的不同变化很大,所以将全部正奖励固定为1,并且将全部负奖励固定为-1,留下0奖励不变。通过这种方式修剪奖励限制了误差导数的标度,并使得跨越多种游戏使用相同的学习速率更加容易。同时,它可以影响代理的性能,因为不能在不同量级的奖励之间区分。
在这些实验中,以大小32的微小批量使用RMSProp算法。在训练期间的行为政策是ε贪婪,ε对于前面100万个帧从1到0.1线性退火(anneal),并且之后固定在0.1。我们对总共1000万个帧进行训练,并使用100万个最近帧的重演存储器。此外,使用简单的跳帧技术:代理看到并选择每第k个帧而不是每个帧上的动作,并且在跳过的帧上重复其最后动作。因为在一个步骤中向前运行仿真器与让代理选择动作相比要求少得多的计算,所以在不显著增加运行时间的情况下,该技术允许代理再玩大约k次游戏。在测试实施方式中,对于所有游戏使用k=4,除了Space InvadersTM之外,在Space InvadersTM中,因为激光闪动的周期,所以这样使得它们不可见;使用k=3避免了这个问题,并且这个改变是任何游戏之间在超参数值中的唯一不同。
在监督学习中,通过针对训练和有效集合评估性能,在训练期间我们可以容易地跟踪模型的性能。但是在强化学习中,在训练期间准确评估代理的进展可能是挑战性的。所使用的评估度量是代理在训练期间周期性地计算的对于多个游戏平均的片段或游戏中收集的总奖励。但是,平均总奖励度量趋于有很多噪声,因为对政策权重的小改变会导致政策所访问的状态分布中的大改变。
参照图6,图6a和图6c分别示出在训练期间BreakoutTM和SeaquestTM上每个片段的平均奖励。通过运行ε贪婪政策来计算统计数据,对于10000个步骤,ε=0.05。图6b和图6d分别示出BreakoutTM和SeaquestTM中状态集合的平均最大预测动作值。在图6中曲线图的X轴示出训练时期;一个时期对应于50000个微小批量权重更新,大约是30分钟的训练时间。
图6a和图6b示出在对游戏Seaquest和Breakout训练期间平均总奖励怎样演变。两个平均奖励曲线图都有很多噪声,给人的印象是,学习算法没有取得稳定的进展。另一个更稳定的度量是政策的估计动作值函数Q,该动作值函数Q提供可以通过遵循其政策,代理能够从任何给定状态获得多少折扣奖励的估计。在训练开始之前通过运行随机政策来收集状态的固定集合,并且为这些状态跟踪最大预测Q的平均值(对于可能的动作,取得用于每个状态的最大值)。图6b和图6d示出相比于通过代理获得的平均总奖励,平均预测Q更平滑地增加,并且在其他5个游戏上绘出相同的度量产生类似的平滑曲线。除了在训练期间看到对预测Q的相对平滑改善之外,在任何一个实验中都看不到发散问题。这表明,尽管缺少任何理论上的收敛保证,但是该方法能够按照稳定的方式,利用强化学习信号和随机梯度下降来训练大型神经网络。
图7示出游戏SeaquestTM上学习值函数的形象化。图7a示出在屏幕702的左方敌人出现之后预测值跳跃(点A)。然后代理向敌人发射鱼雷,并且当鱼雷即将击中敌人时预测值达到峰值(点B;屏幕704)。最后,在敌人消失以后该值下落到接近它的原始值(点C;屏幕706)。图7说明,该方法的实施例能够学习对于事件相当复杂的序列,值函数怎样演化。任何时候新的潜艇出现,该值都增加,反映的事实是,代理有收集更多点的机会。一旦击中敌人的潜艇,该值就下降,因为收集到潜在奖励。
在测试期间,对于全部7种游戏,我们已经描述的程序大幅超过与之相比的所有其他机器学习方法,尽管几乎不包含关于输入形式的在先知识。该程序能够使用原始像素作为输入,并且在不调节体系结构或者程序的超参数的情况下进行测试,并且展示了它在此背景下掌握困难的控制政策的能力。
此外针对老手人类玩家测试了程序的性能,并且如下表1(给出平均总奖励的数字)所示,对于大多数游戏获得相比老手人类玩家更好的表现。在上面性能差于老手人类玩家性能的游戏更加有挑战性,因为它们要求网络找到持续长时间规模的策略。
B.Rider | Breakout | Enduro | Pong | Q*bert | Seaquest | S.Invaders | |
Human | 7456 | 31 | 368 | -3 | 18900 | 28010 | 3690 |
DQN Best | 5184 | 225 | 661 | 21 | 4500 | 1740 | 1075 |
表1
我们已经描述了将强化学习程序应用于使用图像数据输入的控制任务——例如对于卡片游戏的情况可以使用游戏中手的图像作为输入。但是本领域技术人员应当理解,如上所述,可以附加性或者替代性地采用其他类型的输入数据。此外,仅通过示例的方式描述了控制游戏的任务,并且应当理解,可将本发明的实施例应用于任何形式的控制任务。虽然描述了有离散动作的示例,但是附加性或者替代性地,控制任务可包含准连续性动作,诸如通过用二进制数表示的连续赋值的变量限定的动作。
我们描述的仅通过示例的方式给出的技术的其他应用,包括:机器人控制(诸如两足或四足行走或跑动、航行、抓取、和其他控制技巧);交通工具控制(自主交通工具控制、转向控制、航空交通工具控制,诸如直升机或飞机控制、自主移动机器人控制);机器控制;有线或无线通信系统的控制;实验室或工业装备的控制;真实或虚拟资源的控制(诸如存储器管理、目录管理等等);药物发现(其中受控动作是所谓药物的定义或DNA序列以及通过用药的活体的状态限定状态);向系统的应用,其中通过文字(文本和/或音频和/或图像)限定系统的状态或来自系统的输出,诸如采用自然语言的系统;向交易系统诸如股市的应用(虽然采取的动作对这种系统几乎没有影响,但是很小的影响就足以获得有用的总奖励);以及其他。
本领域技术人员肯定能够想到很多其他有效的替代。应当理解,本发明不限于所述实施例并包含落入所附权利要求精神和范围的对于本领域技术人员显而易见的修改。
Claims (28)
1.一种强化学习的方法,所述方法包括:
输入与主题系统有关的训练数据,所述主题系统具有多个状态,每个状态通过图像数据来限定,并且对于每个状态,所述主题系统具有从所述状态中的一个移转到下一个所述状态的动作集合,所述图像数据包括图像序列,
其中所述训练数据通过以一系列所述动作在所述系统上操作而被生成、并且包括包含多个转化的经验数据,每个转化包括相应的起始状态数据、动作数据以及下一个状态数据,所述相应的起始状态数据、动作数据以及下一个状态数据对于多个所述动作分别限定起始状态、动作以及由于所述动作所致的下一个所述状态;以及
训练第二神经网络,所述第二神经网络是与第一神经网络相同的神经网络的实例,其中,训练所述第二神经网络包括:
从所述经验数据中选择转化;
通过所述第一神经网络生成用于所述选择的转化的目标动作值参数;
基于由所述第一神经网络生成的所述目标动作值参数与由所述第二神经网络生成的动作值参数之间的差来更新所述第二神经网络的权重。
2.根据权利要求1所述的方法,进一步包括:利用来自所述第二神经网络的已学习的动作值参数来选择所述动作,其中所述动作响应于为在所述系统的状态下可用的动作集合中的每个动作确定的动作值参数而被选择。
3.根据权利要求2所述的方法,其中,所述经验数据从所述选择的动作得出,所述方法进一步包括:通过与限定所述动作的相应的所述起始状态和下一个状态的数据相关联地存储限定由所述第二神经网络选择的所述动作的数据,生成所述经验数据。
4.根据权利要求3所述的方法,其中,所述目标动作值参数是通过向所述第一神经网络提供限定所述动作和所述下一个状态的所述数据来生成的,并且所述第二神经网络是利用所述目标动作值参数和限定所述起始状态的所述数据来训练的。
5.根据权利要求2所述的方法,进一步包括:
输入限定所述系统的状态的状态数据;
将所述系统的所述状态的表示提供给所述第二神经网络;
为在所述状态下可用的所述动作集合中的每个动作从所述第二神经网络检索已学习的所述动作值参数;以及
从所述第二神经网络选择要执行的动作,所述动作具有最大或最小的所述已学习的动作值参数。
6.根据权利要求5所述的方法,进一步包括:存储来自所述系统的经验数据,其中所述经验数据通过以利用所述第二神经网络选择的所述动作在所述系统上操作而被生成,并且其中所述训练数据包括所述存储的经验数据。
7.根据权利要求6所述的方法,进一步包括:
从所述经验数据选择用于多个所述动作中的一个的起始状态数据、动作数据以及下一个状态数据;
将来自所述下一个状态数据的所述下一个状态的表示提供给所述第一神经网络;
根据所述第一神经网络确定用于所述下一个状态的最大或最小的已学习的动作值参数;
根据用于所述下一个状态的所述最大或最小的已学习的动作值参数,确定用于训练所述第二神经网络的目标动作值参数。
8.根据权利要求7所述的方法,其中,所述训练所述第二神经网络包括:将来自所述起始状态数据的所述起始状态的表示提供给所述第二神经网络,以及调节所述神经网络的权重,以使用于通过所述动作数据限定的动作的已学习的动作值参数更接近于所述目标动作值参数。
9.根据权利要求7所述的方法,其中,所述经验数据还包括限定由于采取的所述动作所致的所述系统的奖励值或成本值的奖励数据,并且其中所述确定所述目标动作值参数包括分别通过所述奖励值或所述成本值调节用于所述下一个状态的所述最大或最小的已学习的动作值参数。
10.根据权利要求1所述的方法,其中,所述系统的状态包括随着时间对所述系统的观察的序列,所述时间表示所述系统的历史。
11.根据权利要求2所述的方法,其中,所述训练所述第二神经网络与所述选择所述动作交替,并且包括递增地更新用于选择所述动作的所述第二神经网络的权重集合。
12.根据权利要求2所述的方法,其中,根据所述第二神经网络的所述第一神经网络的所述生成或更新在重复利用所述第二神经网络所述动作的所述选择以及所述第二神经网络的所述训练之后每隔一段时间被执行。
13.根据权利要求12所述的方法,其中,根据所述第二神经网络的所述第一神经网络的所述生成或更新包括:将所述第二神经网络的权重集合复制到所述第一神经网络。
14.根据权利要求1所述的方法,其中,所述第一神经网络和第二神经网络包括有卷积神经网络输入阶段的深度神经网络。
15.一种非暂时性数据载体,承载实施权利要求1的方法的处理器控制代码。
16.一种Q学习的方法,其中Q值通过神经网络来确定,并且用于选择要在系统上执行的动作,以使所述系统在状态之间移转,其中每个状态通过图像数据来限定,并且所述图像数据包括图像序列,其中第一神经网络用于生成用于目标的Q值,以用来训练用于选择所述动作的第二神经网络。
17.根据权利要求16所述的方法,其中,每隔一段时间所述第一神经网络根据所述第二神经网络被刷新。
18.根据权利要求17所述的方法,其中,所述第一神经网络的权重是准静态的,在所述刷新之间的间隔期间保持基本上不变。
19.根据权利要求16所述的方法,进一步包括:存储所述选择的动作和状态的记录,并利用所述记录来生成用于所述目标的所述Q值。
20.根据权利要求16所述的方法,其中,所述第一神经网络和第二神经网络是包括本地连接或稀少连接的前端神经网络部分的深度神经网络。
21.根据权利要求16所述的方法,其中,所述Q值包括动作值函数的值,所述动作值函数逼近包括限定的下一个动作的动作的策略的期望成本或回报。
22.一种非暂时性数据载体,承载实施权利要求16的方法的处理器控制代码。
23.一种被配置为执行强化学习的数据处理器,所述数据处理器包括:
输入,所述输入用于接收来自系统的训练数据,所述系统具有多个状态,每个状态通过图像数据来限定,并且对于每个状态,所述系统具有从所述状态中的一个移转到下一个所述状态的动作集合,并且所述图像数据包括图像序列,
其中所述训练数据通过以一系列所述动作在所述系统上操作而被生成、并且包括包含多个转化的经验数据,每个转化包括相应的起始状态数据、动作数据以及下一个状态数据,所述相应的起始状态数据、动作数据以及下一个状态数据对于多个所述动作分别限定起始状态、动作以及由于所述动作所致的下一个所述状态;
训练模块,所述训练模块用于训练第二神经网络,所述第二神经网络是与第一神经网络相同的神经网络的实例,其中,训练所述第二神经网络包括:
从所述经验数据中选择转化;
通过所述第一神经网络生成用于所述选择的转化的目标动作值参数;以及
基于由所述第一神经网络生成的所述目标动作值参数与由所述第二神经网络生成的动作值参数之间的差来更新所述第二神经网络的权重。
24.根据权利要求23所述的数据处理器,进一步包括动作选择模块,所述动作选择模块用于响应于用于在所述系统的状态下可用的所述动作集合中的每个动作的动作值参数来选择所述动作,其中所述动作值参数由所述第二神经网络提供。
25.根据权利要求23所述的数据处理器,其中,所述神经网络生成模块被配置为将所述第二神经网络的权重集合复制到所述第一神经网络。
26.一种被配置为执行Q学习的数据处理器,其中Q值通过神经网络来确定,并且用于选择要在系统上执行的动作,以使所述系统在状态之间移转,其中,每个状态通过图像数据来限定,并且所述图像数据包括图像序列,所述数据处理器包括耦接到存储处理器控制代码的工作存储器以及非易失性程序存储器的处理器,其中所述处理器控制代码被配置为控制所述处理器:
利用第一神经网络来生成用于目标的Q值;
利用所述目标来训练第二神经网络;以及
利用所述第二神经网络来选择动作以控制所述系统。
27.一种在控制系统中学习的方法,对于主题系统的一系列状态,其中,每个状态由数字化图像数据或波形数据所限定、并且所述数字化图像数据包括数字化图像序列,所述方法包括:
输入与主题系统的当前状态有关的当前状态数据;
将所述当前状态数据的版本提供给神经网络;
利用所述神经网络确定用于动作值函数集合的值,潜在动作集合中的一个或每个;
响应于所述动作值函数的所述值,选择所述动作;
将用于所述选择的动作的动作数据输出到所述主题系统,使得所述主题系统从所述当前状态转化为后续状态;
输入与所述主题系统的所述后续状态有关的后续状态数据以及与由于从所述当前状态到所述后续状态的所述转化所致的奖励或成本有关的奖励数据;
将经验数据存储在经验存储器中,所述经验数据表示所述当前状态、所述后续状态、所述选择的动作、以及所述奖励或成本;
根据所述存储的经验数据,确定用于所述神经网络的目标动作值函数输出;以及
利用所述目标动作值函数输出来更新所述神经网络的权重,其中所述更新包括递增地修改先前确定的所述神经网络的权重集合;
所述方法进一步包括:
存储所述神经网络的权重集合,以产生所述神经网络的两个版本,一个版本针对另一个版本时移,
其中用于选择所述动作的所述动作值函数集合的所述值的所述确定利用所述神经网络版本的后一个版本被执行,以及
其中所述目标动作值函数的所述确定利用所述神经网络版本的较早版本被进行。
28.根据权利要求27所述的方法,其中,所述目标动作值函数输出通过从所述经验存储器读取识别第一状态、动作、后续状态、以及奖励或成本值的数据而被确定;所述方法进一步包括:
利用所述神经网络,确定用于通过所述神经网络为所述后续状态推荐的动作的动作值函数的值;以及
根据用于通过所述神经网络为所述后续状态推荐的所述动作的所述动作值函数的所述值与所述奖励或成本值的组合,确定所述目标动作值函数输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110797787.9A CN113705771A (zh) | 2013-10-08 | 2014-10-07 | 用于强化学习的方法和设备 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361888247P | 2013-10-08 | 2013-10-08 | |
US61/888,247 | 2013-10-08 | ||
US14/097,862 | 2013-12-05 | ||
US14/097,862 US9679258B2 (en) | 2013-10-08 | 2013-12-05 | Methods and apparatus for reinforcement learning |
PCT/US2014/059511 WO2015054264A1 (en) | 2013-10-08 | 2014-10-07 | Methods and apparatus for reinforcement learning |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110797787.9A Division CN113705771A (zh) | 2013-10-08 | 2014-10-07 | 用于强化学习的方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105637540A CN105637540A (zh) | 2016-06-01 |
CN105637540B true CN105637540B (zh) | 2021-08-03 |
Family
ID=52777801
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480055621.8A Active CN105637540B (zh) | 2013-10-08 | 2014-10-07 | 用于强化学习的方法和设备 |
CN202110797787.9A Pending CN113705771A (zh) | 2013-10-08 | 2014-10-07 | 用于强化学习的方法和设备 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110797787.9A Pending CN113705771A (zh) | 2013-10-08 | 2014-10-07 | 用于强化学习的方法和设备 |
Country Status (4)
Country | Link |
---|---|
US (3) | US9679258B2 (zh) |
EP (2) | EP3761234A1 (zh) |
CN (2) | CN105637540B (zh) |
WO (1) | WO2015054264A1 (zh) |
Families Citing this family (331)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8978798B2 (en) | 2007-10-12 | 2015-03-17 | Odyne Systems, Llc | Hybrid vehicle drive system and method and idle reduction system and method |
US20120207620A1 (en) | 2007-07-12 | 2012-08-16 | Odyne Systems, LLC. | Hybrid vehicle drive system and method and idle reduction system and method |
US8408341B2 (en) | 2007-07-12 | 2013-04-02 | Odyne Systems, Llc | Hybrid vehicle drive system and method and idle reduction system and method |
US11225240B2 (en) * | 2011-12-02 | 2022-01-18 | Power Technology Holdings, Llc | Hybrid vehicle drive system and method for fuel reduction during idle |
US9537706B2 (en) | 2012-08-20 | 2017-01-03 | Plentyoffish Media Ulc | Apparatus, method and article to facilitate matching of clients in a networked environment |
US11568008B2 (en) | 2013-03-13 | 2023-01-31 | Plentyoffish Media Ulc | Apparatus, method and article to identify discrepancies between clients and in response prompt clients in a networked environment |
US9672289B1 (en) | 2013-07-23 | 2017-06-06 | Plentyoffish Media Ulc | Apparatus, method and article to facilitate matching of clients in a networked environment |
US9679258B2 (en) | 2013-10-08 | 2017-06-13 | Google Inc. | Methods and apparatus for reinforcement learning |
US9401148B2 (en) | 2013-11-04 | 2016-07-26 | Google Inc. | Speaker verification using neural networks |
US9620145B2 (en) | 2013-11-01 | 2017-04-11 | Google Inc. | Context-dependent state tying using a neural network |
US10558935B2 (en) | 2013-11-22 | 2020-02-11 | California Institute Of Technology | Weight benefit evaluator for training data |
US9858534B2 (en) | 2013-11-22 | 2018-01-02 | California Institute Of Technology | Weight generation in machine learning |
US9953271B2 (en) * | 2013-11-22 | 2018-04-24 | California Institute Of Technology | Generation of weights in machine learning |
US10152676B1 (en) * | 2013-11-22 | 2018-12-11 | Amazon Technologies, Inc. | Distributed training of models using stochastic gradient descent |
US10535014B2 (en) | 2014-03-10 | 2020-01-14 | California Institute Of Technology | Alternative training distribution data in machine learning |
US9870465B1 (en) | 2013-12-04 | 2018-01-16 | Plentyoffish Media Ulc | Apparatus, method and article to facilitate automatic detection and removal of fraudulent user information in a network environment |
US10540607B1 (en) | 2013-12-10 | 2020-01-21 | Plentyoffish Media Ulc | Apparatus, method and article to effect electronic message reply rate matching in a network environment |
WO2015105731A1 (en) * | 2014-01-07 | 2015-07-16 | Thaler Stephen L | Device and method for the autonomous bootstrapping of unified sentience |
JP6132288B2 (ja) * | 2014-03-14 | 2017-05-24 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 生成装置、選択装置、生成方法、選択方法、及び、プログラム |
JP6103540B2 (ja) | 2014-03-14 | 2017-03-29 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 生成装置、生成方法、情報処理方法、及び、プログラム |
US10387795B1 (en) * | 2014-04-02 | 2019-08-20 | Plentyoffish Media Inc. | Systems and methods for training and employing a machine learning system in providing service level upgrade offers |
JP6370469B2 (ja) * | 2014-04-11 | 2018-08-08 | グーグル エルエルシー | 畳み込みニューラルネットワークのトレーニングの並列化 |
WO2015192246A1 (en) * | 2014-06-19 | 2015-12-23 | Bitlit Media Inc | Method and system for identifying books on a bookshelf |
US10275719B2 (en) | 2015-01-29 | 2019-04-30 | Qualcomm Incorporated | Hyper-parameter selection for deep convolutional networks |
US10445641B2 (en) | 2015-02-06 | 2019-10-15 | Deepmind Technologies Limited | Distributed training of reinforcement learning systems |
US10410118B2 (en) | 2015-03-13 | 2019-09-10 | Deep Genomics Incorporated | System and method for training neural networks |
CN106056213B (zh) * | 2015-04-06 | 2022-03-29 | 渊慧科技有限公司 | 使用目标和观察来选择强化学习动作 |
CN104780113B (zh) * | 2015-04-29 | 2017-11-14 | 北京智芯原动科技有限公司 | 一种适用于大数据分发的Q‑learning拥塞控制方法 |
WO2016197046A1 (en) | 2015-06-05 | 2016-12-08 | Google Inc. | Spatial transformer modules |
US10769531B2 (en) | 2015-06-05 | 2020-09-08 | Cisco Technology, Inc. | Methods and systems for counting people |
US10185803B2 (en) | 2015-06-15 | 2019-01-22 | Deep Genomics Incorporated | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network |
US10452971B2 (en) * | 2015-06-29 | 2019-10-22 | Microsoft Technology Licensing, Llc | Deep neural network partitioning on servers |
US9786270B2 (en) | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
CN106358308A (zh) * | 2015-07-14 | 2017-01-25 | 北京化工大学 | 一种超密集网络中的强化学习的资源分配方法 |
TWI543616B (zh) * | 2015-07-21 | 2016-07-21 | 原相科技股份有限公司 | 在數位域降低影像感測器之固定圖案雜訊的方法與裝置 |
KR102165126B1 (ko) * | 2015-07-24 | 2020-10-13 | 딥마인드 테크놀로지스 리미티드 | 심층 강화 학습을 이용한 지속적인 제어 |
DE102016009030B4 (de) | 2015-07-31 | 2019-05-09 | Fanuc Corporation | Vorrichtung für maschinelles Lernen, Robotersystem und maschinelles Lernsystem zum Lernen eines Werkstückaufnahmevorgangs |
JP6240689B2 (ja) | 2015-07-31 | 2017-11-29 | ファナック株式会社 | 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法 |
US20170061283A1 (en) * | 2015-08-26 | 2017-03-02 | Applied Brain Research Inc. | Methods and systems for performing reinforcement learning in hierarchical and temporally extended environments |
WO2017044842A1 (en) * | 2015-09-11 | 2017-03-16 | Google Inc. | Training reinforcement learning neural networks |
EP3360085B1 (en) | 2015-11-12 | 2021-05-19 | Deepmind Technologies Limited | Asynchronous deep reinforcement learning |
CN117910543A (zh) * | 2015-11-12 | 2024-04-19 | 渊慧科技有限公司 | 使用优先化经验存储器训练神经网络 |
CN108604309B (zh) | 2015-11-12 | 2022-06-07 | 渊慧科技有限公司 | 从动作集中选择代理执行的动作的方法、系统和存储介质 |
US10839302B2 (en) | 2015-11-24 | 2020-11-17 | The Research Foundation For The State University Of New York | Approximate value iteration with complex returns by bounding |
US9536191B1 (en) * | 2015-11-25 | 2017-01-03 | Osaro, Inc. | Reinforcement learning using confidence scores |
FR3044438A1 (fr) * | 2015-11-27 | 2017-06-02 | Thales Sa | Systeme et procede d'aide a la decision |
US10078794B2 (en) | 2015-11-30 | 2018-09-18 | Pilot Ai Labs, Inc. | System and method for improved general object detection using neural networks |
CN108604314B (zh) * | 2015-12-01 | 2022-08-19 | 渊慧科技有限公司 | 使用强化学习选择动作名单 |
US11170293B2 (en) * | 2015-12-30 | 2021-11-09 | Microsoft Technology Licensing, Llc | Multi-model controller |
US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
CN107563497B (zh) * | 2016-01-20 | 2021-03-19 | 中科寒武纪科技股份有限公司 | 用于稀疏人工神经网络的计算装置和运算方法 |
US10013653B2 (en) * | 2016-01-26 | 2018-07-03 | Università della Svizzera italiana | System and a method for learning features on geometric domains |
US10210430B2 (en) * | 2016-01-26 | 2019-02-19 | Fabula Ai Limited | System and a method for learning features on geometric domains |
US10366451B2 (en) | 2016-01-27 | 2019-07-30 | Huawei Technologies Co., Ltd. | System and method for prediction using synthetic features and gradient boosted decision tree |
US9760690B1 (en) * | 2016-03-10 | 2017-09-12 | Siemens Healthcare Gmbh | Content-based medical image rendering based on machine learning |
US10909450B2 (en) * | 2016-03-29 | 2021-02-02 | Microsoft Technology Licensing, Llc | Multiple-action computational model training and operation |
WO2017166155A1 (zh) * | 2016-03-31 | 2017-10-05 | 富士通株式会社 | 一种对神经网络模型进行训练的方法、装置及电子设备 |
WO2017177128A1 (en) * | 2016-04-08 | 2017-10-12 | The Trustees Of Columbia University In The City Of New York | Systems and methods for deep reinforcement learning using a brain-artificial intelligence interface |
CN105955921B (zh) * | 2016-04-18 | 2019-03-26 | 苏州大学 | 基于自动发现抽象动作的机器人分层强化学习初始化方法 |
CN107315569B (zh) * | 2016-04-27 | 2021-06-18 | 中科寒武纪科技股份有限公司 | 一种用于执行RMSprop梯度下降算法的装置及方法 |
EP3445539A4 (en) * | 2016-04-27 | 2020-02-19 | Neurala Inc. | METHODS AND APPARATUS FOR PRUNING EXPERIENCE MEMORIES FOR DEEP NEURONAL NETWORK-BASED Q-LEARNING |
CN107341547B (zh) * | 2016-04-29 | 2021-04-20 | 中科寒武纪科技股份有限公司 | 一种用于执行卷积神经网络训练的装置和方法 |
US10338931B2 (en) | 2016-04-29 | 2019-07-02 | International Business Machines Corporation | Approximate synchronization for parallel deep learning |
US11210585B1 (en) * | 2016-05-20 | 2021-12-28 | Deepmind Technologies Limited | Selecting reinforcement learning actions using a low-level controller |
JP6667674B2 (ja) * | 2016-05-20 | 2020-03-18 | ディープマインド テクノロジーズ リミテッド | 疑似カウントを使用する強化学習 |
CN106094516A (zh) * | 2016-06-08 | 2016-11-09 | 南京大学 | 一种基于深度强化学习的机器人自适应抓取方法 |
WO2017218699A1 (en) * | 2016-06-17 | 2017-12-21 | Graham Leslie Fyffe | System and methods for intrinsic reward reinforcement learning |
CN107622272A (zh) * | 2016-07-13 | 2018-01-23 | 华为技术有限公司 | 一种图像分类方法及装置 |
CN106204597B (zh) * | 2016-07-13 | 2019-01-11 | 西北工业大学 | 一种基于自步式弱监督学习的视频物体分割方法 |
US10839310B2 (en) * | 2016-07-15 | 2020-11-17 | Google Llc | Selecting content items using reinforcement learning |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
CN106295637B (zh) * | 2016-07-29 | 2019-05-03 | 电子科技大学 | 一种基于深度学习与强化学习的车辆识别方法 |
US10049301B2 (en) * | 2016-08-01 | 2018-08-14 | Siemens Healthcare Gmbh | Medical scanner teaches itself to optimize clinical protocols and image acquisition |
JP6517762B2 (ja) * | 2016-08-23 | 2019-05-22 | ファナック株式会社 | 人とロボットが協働して作業を行うロボットの動作を学習するロボットシステム |
US11400587B2 (en) | 2016-09-15 | 2022-08-02 | Google Llc | Deep reinforcement learning for robotic manipulation |
US10255910B2 (en) * | 2016-09-16 | 2019-04-09 | Apptek, Inc. | Centered, left- and right-shifted deep neural networks and their combinations |
US11341539B2 (en) * | 2016-10-17 | 2022-05-24 | Nice Ltd. | Offer selection using sequential selection operations |
CN110235148B (zh) * | 2016-11-03 | 2024-03-19 | 渊慧科技有限公司 | 训练动作选择神经网络 |
WO2018085778A1 (en) | 2016-11-04 | 2018-05-11 | Google Llc | Unsupervised detection of intermediate reinforcement learning goals |
EP3535705B1 (en) | 2016-11-04 | 2022-03-30 | Deepmind Technologies Limited | Reinforcement learning with auxiliary tasks |
CN109923560A (zh) * | 2016-11-04 | 2019-06-21 | 谷歌有限责任公司 | 使用变分信息瓶颈来训练神经网络 |
US10671908B2 (en) | 2016-11-23 | 2020-06-02 | Microsoft Technology Licensing, Llc | Differential recurrent neural network |
US11475310B1 (en) | 2016-11-29 | 2022-10-18 | Perceive Corporation | Training network to minimize worst-case error |
WO2018098797A1 (zh) * | 2016-12-02 | 2018-06-07 | 华为技术有限公司 | Q学习中调整状态空间边界的方法和装置 |
US11429854B2 (en) * | 2016-12-04 | 2022-08-30 | Technion Research & Development Foundation Limited | Method and device for a computerized mechanical device |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
CN106709449B (zh) * | 2016-12-22 | 2020-04-21 | 深圳市深网视界科技有限公司 | 一种基于深度学习和强化学习的行人重识别方法及系统 |
CN108242046B (zh) * | 2016-12-27 | 2022-02-18 | 阿里巴巴集团控股有限公司 | 图片处理方法及相关设备 |
US10891534B2 (en) | 2017-01-11 | 2021-01-12 | International Business Machines Corporation | Neural network reinforcement learning |
WO2018139993A1 (en) * | 2017-01-24 | 2018-08-02 | Ford Global Technologies, Llc | Feedback for an autonomous vehicle |
KR101932835B1 (ko) * | 2017-02-01 | 2019-03-20 | 성균관대학교산학협력단 | 행동 결정 장치 및 방법, 컴퓨터 판독 가능한 저장 매체 |
CN106874874A (zh) * | 2017-02-16 | 2017-06-20 | 南方科技大学 | 一种运动状态的识别方法及装置 |
WO2018156891A1 (en) * | 2017-02-24 | 2018-08-30 | Google Llc | Training policy neural networks using path consistency learning |
WO2018153806A1 (en) * | 2017-02-24 | 2018-08-30 | Deepmind Technologies Limited | Training machine learning models |
WO2018154100A1 (en) * | 2017-02-24 | 2018-08-30 | Deepmind Technologies Limited | Neural episodic control |
CN109154948B (zh) | 2017-03-01 | 2023-04-25 | 微软技术许可有限责任公司 | 用于提供内容的方法和装置 |
KR102399535B1 (ko) * | 2017-03-23 | 2022-05-19 | 삼성전자주식회사 | 음성 인식을 위한 학습 방법 및 장치 |
EP3379463A1 (en) * | 2017-03-24 | 2018-09-26 | Crowdbanker A/S | Training of a learning-capable system |
US10559215B2 (en) | 2017-04-26 | 2020-02-11 | International Business Machines Corporation | Education reward system and method |
EP3596662A1 (en) * | 2017-05-19 | 2020-01-22 | Deepmind Technologies Limited | Imagination-based agent neural networks |
EP3571631B1 (en) | 2017-05-20 | 2024-08-28 | DeepMind Technologies Limited | Noisy neural network layers |
US11417235B2 (en) * | 2017-05-25 | 2022-08-16 | Baidu Usa Llc | Listen, interact, and talk: learning to speak via interaction |
WO2018224695A1 (en) * | 2017-06-09 | 2018-12-13 | Deepmind Technologies Limited | Training action selection neural networks |
JP7146751B2 (ja) * | 2017-06-22 | 2022-10-04 | 株式会社半導体エネルギー研究所 | レイアウト設計システム及びレイアウト設計方法 |
US11868882B2 (en) * | 2017-06-28 | 2024-01-09 | Deepmind Technologies Limited | Training action selection neural networks using apprenticeship |
CN107391637B (zh) * | 2017-07-10 | 2021-01-26 | 江苏省现代企业信息化应用支撑软件工程技术研发中心 | 针对具备地理社交信息的群组推荐方法 |
US10713816B2 (en) * | 2017-07-14 | 2020-07-14 | Microsoft Technology Licensing, Llc | Fully convolutional color constancy with confidence weighted pooling |
WO2019018375A1 (en) * | 2017-07-21 | 2019-01-24 | Google Llc | NEURONAL ARCHITECTURE RESEARCH FOR CONVOLUTION NEURAL NETWORKS |
CN107403049B (zh) * | 2017-07-31 | 2019-03-19 | 山东师范大学 | 一种基于人工神经网络的Q-Learning行人疏散仿真方法及系统 |
CN107423813A (zh) * | 2017-07-31 | 2017-12-01 | 南京晓庄学院 | 一种基于深度学习技术的状态空间分解和子目标创建方法 |
US10781910B2 (en) | 2017-08-03 | 2020-09-22 | Power Technology Holdings Llc | PTO lubrication system for hybrid vehicles |
US11182676B2 (en) | 2017-08-04 | 2021-11-23 | International Business Machines Corporation | Cooperative neural network deep reinforcement learning with partial input assistance |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
CN108229647A (zh) | 2017-08-18 | 2018-06-29 | 北京市商汤科技开发有限公司 | 神经网络结构的生成方法和装置、电子设备、存储介质 |
US10881463B2 (en) * | 2017-08-30 | 2021-01-05 | International Business Machines Corporation | Optimizing patient treatment recommendations using reinforcement learning combined with recurrent neural network patient state simulation |
WO2019050908A1 (en) * | 2017-09-08 | 2019-03-14 | Didi Research America, Llc | SYSTEM AND METHOD FOR DISTRIBUTING TRAVEL ORDER |
US10762424B2 (en) | 2017-09-11 | 2020-09-01 | Sas Institute Inc. | Methods and systems for reinforcement learning |
US10935982B2 (en) * | 2017-10-04 | 2021-03-02 | Huawei Technologies Co., Ltd. | Method of selection of an action for an object using a neural network |
US10223601B1 (en) | 2017-10-12 | 2019-03-05 | Denso International America, Inc. | Synthetic traffic object generator |
US10866588B2 (en) | 2017-10-16 | 2020-12-15 | Toyota Research Institute, Inc. | System and method for leveraging end-to-end driving models for improving driving task modules |
CN108229678B (zh) * | 2017-10-24 | 2021-04-06 | 深圳市商汤科技有限公司 | 网络训练方法、操作控制方法、装置、存储介质和设备 |
CN107911299B (zh) * | 2017-10-24 | 2020-12-29 | 浙江工商大学 | 一种基于深度q学习的路由规划方法 |
CN109710915B (zh) | 2017-10-26 | 2021-02-23 | 华为技术有限公司 | 复述语句生成方法及装置 |
CN109726811A (zh) * | 2017-10-27 | 2019-05-07 | 谷歌有限责任公司 | 使用优先级队列训练神经网络 |
EP3480741B1 (en) * | 2017-10-27 | 2024-07-17 | DeepMind Technologies Limited | Reinforcement and imitation learning for a task |
CN109726808B (zh) * | 2017-10-27 | 2022-12-09 | 腾讯科技(深圳)有限公司 | 神经网络训练方法和装置、存储介质及电子装置 |
EP3701435A1 (en) | 2017-10-27 | 2020-09-02 | Deepmind Technologies Limited | Reinforcement learning using distributed prioritized replay |
US11604941B1 (en) * | 2017-10-27 | 2023-03-14 | Deepmind Technologies Limited | Training action-selection neural networks from demonstrations using multiple losses |
DE102017219441A1 (de) * | 2017-10-30 | 2019-05-02 | Robert Bosch Gmbh | Verfahren zum Trainieren eines zentralen Künstlichen-Intelligenz-Moduls |
US11429890B2 (en) | 2017-10-30 | 2022-08-30 | Bank Of America Corporation | Dynamic pattern recognition and data reconciliation |
FI20175970A1 (en) * | 2017-11-01 | 2019-05-02 | Curious Ai Oy | Setting up a control system for the target system |
CN107948083B (zh) * | 2017-11-07 | 2021-03-30 | 浙江工商大学 | 一种基于增强学习的sdn数据中心拥塞控制方法 |
WO2019096754A1 (en) * | 2017-11-20 | 2019-05-23 | Koninklijke Philips N.V. | Training first and second neural network models |
EP3486675B1 (en) * | 2017-11-21 | 2020-02-19 | Siemens Healthcare GmbH | Automatic failure detection in medical devices |
CN107909153A (zh) * | 2017-11-24 | 2018-04-13 | 天津科技大学 | 基于条件生成对抗网络的模型化策略搜索学习方法 |
KR102429556B1 (ko) * | 2017-12-05 | 2022-08-04 | 삼성전자주식회사 | 디스플레이 장치 및 음향 출력 방법 |
CN108211362B (zh) * | 2017-12-26 | 2020-10-09 | 浙江大学 | 一种基于深度q学习网络的非玩家角色战斗策略学习方法 |
US11328210B2 (en) | 2017-12-29 | 2022-05-10 | Micron Technology, Inc. | Self-learning in distributed architecture for enhancing artificial neural network |
US11409576B2 (en) | 2017-12-29 | 2022-08-09 | Entefy Inc. | Dynamic distribution of a workload processing pipeline on a computing infrastructure |
US11510136B2 (en) * | 2018-01-12 | 2022-11-22 | Telefonaktiebolaget Lm Ericsson (Publ) | Methods and apparatus for roaming between wireless communications networks |
CN108108822B (zh) * | 2018-01-16 | 2020-06-26 | 中国科学技术大学 | 并行训练的异策略深度强化学习方法 |
US11688160B2 (en) | 2018-01-17 | 2023-06-27 | Huawei Technologies Co., Ltd. | Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations |
US11568236B2 (en) | 2018-01-25 | 2023-01-31 | The Research Foundation For The State University Of New York | Framework and methods of diverse exploration for fast and safe policy improvement |
CN108288094B (zh) * | 2018-01-31 | 2021-06-29 | 清华大学 | 基于环境状态预测的深度强化学习方法及装置 |
EP3711000B1 (en) * | 2018-02-02 | 2023-06-21 | Google LLC | Regularized neural network architecture search |
US20190244062A1 (en) * | 2018-02-04 | 2019-08-08 | KaiKuTek Inc. | Gesture recognition method, gesture recognition system, and performing device therefore |
EP3698291A1 (en) * | 2018-02-05 | 2020-08-26 | DeepMind Technologies Limited | Distributed training using off-policy actor-critic reinforcement learning |
CN112204580B (zh) * | 2018-03-27 | 2024-04-12 | 诺基亚通信公司 | 使用深度q网络促进资源配对的方法和装置 |
CN110314379B (zh) * | 2018-03-29 | 2022-07-26 | 腾讯科技(深圳)有限公司 | 动作输出深度训练模型的学习方法及相关设备 |
US11106211B2 (en) | 2018-04-02 | 2021-08-31 | Sony Group Corporation | Vision-based sample-efficient reinforcement learning framework for autonomous driving |
CN108537379B (zh) * | 2018-04-04 | 2021-11-16 | 北京科东电力控制系统有限责任公司 | 自适应变权重组合负荷预测方法及装置 |
US20190311042A1 (en) * | 2018-04-04 | 2019-10-10 | Didi Research America, Llc | Intelligent incentive distribution |
CN115410583A (zh) | 2018-04-11 | 2022-11-29 | 杜比实验室特许公司 | 基于机器学习的用于音频编码和解码的基于感知的损失函数 |
US11074829B2 (en) | 2018-04-12 | 2021-07-27 | Baidu Usa Llc | Systems and methods for interactive language acquisition with one-shot visual concept learning through a conversational game |
WO2019197613A1 (en) * | 2018-04-12 | 2019-10-17 | Deepmind Technologies Limited | Graph neural networks representing physical systems |
CN110390845A (zh) * | 2018-04-18 | 2019-10-29 | 北京京东尚科信息技术有限公司 | 虚拟环境下机器人训练方法及装置、存储介质及计算机系统 |
US10522038B2 (en) | 2018-04-19 | 2019-12-31 | Micron Technology, Inc. | Systems and methods for automatically warning nearby vehicles of potential hazards |
US11614978B2 (en) * | 2018-04-24 | 2023-03-28 | EMC IP Holding Company LLC | Deep reinforcement learning for workflow optimization using provenance-based simulation |
CN108563971A (zh) * | 2018-04-26 | 2018-09-21 | 广西大学 | 基于深度q网络的rfid多阅读器防碰撞算法 |
US11480971B2 (en) * | 2018-05-01 | 2022-10-25 | Honda Motor Co., Ltd. | Systems and methods for generating instructions for navigating intersections with autonomous vehicles |
CN112106073B (zh) * | 2018-05-09 | 2024-08-16 | 渊慧科技有限公司 | 使用网格代码执行导航任务 |
EP3794515A1 (en) * | 2018-05-17 | 2021-03-24 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Concepts for distributed learning of neural networks and/or transmission of parameterization updates therefor |
CN112292693A (zh) * | 2018-05-18 | 2021-01-29 | 渊慧科技有限公司 | 强化学习系统训练返回函数的元梯度更新 |
US20210192358A1 (en) * | 2018-05-18 | 2021-06-24 | Deepmind Technologies Limited | Graph neural network systems for behavior prediction and reinforcement learning in multple agent environments |
CN108671546A (zh) * | 2018-05-23 | 2018-10-19 | 腾讯科技(深圳)有限公司 | 目标操作的确定方法和装置、存储介质及电子装置 |
CN108830370B (zh) * | 2018-05-24 | 2020-11-10 | 东北大学 | 基于增强学习型菌群觅食算法的特征选择方法 |
CN110533353B (zh) | 2018-05-25 | 2023-05-30 | 北京京东乾石科技有限公司 | 用于搬运货架的方法和装置 |
US10872293B2 (en) * | 2018-05-29 | 2020-12-22 | Deepmind Technologies Limited | Deep reinforcement learning with fast updating recurrent neural networks and slow updating recurrent neural networks |
WO2019232693A1 (en) * | 2018-06-05 | 2019-12-12 | Beijing Didi Infinity Technology And Development Co., Ltd. | System and method for ride order dispatching |
US20210125039A1 (en) * | 2018-06-11 | 2021-04-29 | Nec Solution Innovators, Ltd. | Action learning device, action learning method, action learning system, program, and storage medium |
CN110598504B (zh) * | 2018-06-12 | 2023-07-21 | 北京市商汤科技开发有限公司 | 图像识别方法及装置、电子设备和存储介质 |
US10679613B2 (en) | 2018-06-14 | 2020-06-09 | Accenture Global Solutions Limited | Spoken language understanding system and method using recurrent neural networks |
US11397888B2 (en) | 2018-06-14 | 2022-07-26 | Accenture Global Solutions Limited | Virtual agent with a dialogue management system and method of training a dialogue management system |
US10635944B2 (en) * | 2018-06-15 | 2020-04-28 | Google Llc | Self-supervised robotic object interaction |
WO2019241680A1 (en) * | 2018-06-15 | 2019-12-19 | Google Llc | Deep reinforcement learning for robotic manipulation |
CN108985920A (zh) | 2018-06-22 | 2018-12-11 | 阿里巴巴集团控股有限公司 | 套现识别方法和装置 |
US11403521B2 (en) | 2018-06-22 | 2022-08-02 | Insilico Medicine Ip Limited | Mutual information adversarial autoencoder |
US10951875B2 (en) * | 2018-07-03 | 2021-03-16 | Raxium, Inc. | Display processing circuitry |
US20210312725A1 (en) * | 2018-07-14 | 2021-10-07 | Moove.Ai | Vehicle-data analytics |
US11188035B2 (en) | 2018-07-19 | 2021-11-30 | International Business Machines Corporation | Continuous control of attention for a deep learning network |
CN109063823B (zh) * | 2018-07-24 | 2022-06-07 | 北京工业大学 | 一种智能体探索3d迷宫的批a3c强化学习方法 |
CN109242099B (zh) * | 2018-08-07 | 2020-11-10 | 中国科学院深圳先进技术研究院 | 强化学习网络的训练方法、装置、训练设备及存储介质 |
WO2020029095A1 (zh) * | 2018-08-07 | 2020-02-13 | 中国科学院深圳先进技术研究院 | 强化学习网络的训练方法、装置、训练设备及存储介质 |
CN109316748A (zh) * | 2018-08-17 | 2019-02-12 | 深圳市金泽智联信息技术有限公司 | 一种游戏数值的设计方法、装置及终端设备 |
US10733510B2 (en) | 2018-08-24 | 2020-08-04 | Ford Global Technologies, Llc | Vehicle adaptive learning |
US10963313B2 (en) * | 2018-08-27 | 2021-03-30 | Vmware, Inc. | Automated reinforcement-learning-based application manager that learns and improves a reward function |
US10970649B2 (en) * | 2018-08-27 | 2021-04-06 | Vmware, Inc. | Automated reinforcement-learning-based application manager that uses local agents |
US11080623B2 (en) * | 2018-08-27 | 2021-08-03 | Vmware, Inc. | Automated reinforcement-learning-based application manager that uses action tags and metric tags |
GB2590238B (en) * | 2018-08-30 | 2022-06-29 | Landmark Graphics Corp | Automated rate of penetration optimization for drilling |
US11263550B2 (en) * | 2018-09-09 | 2022-03-01 | International Business Machines Corporation | Audit machine learning models against bias |
CN110888401B (zh) * | 2018-09-11 | 2022-09-06 | 京东科技控股股份有限公司 | 火力发电机组燃烧控制优化方法、装置及可读存储介质 |
CN109471963A (zh) * | 2018-09-13 | 2019-03-15 | 广州丰石科技有限公司 | 一种基于深度强化学习的推荐算法 |
JP7193621B2 (ja) * | 2018-09-13 | 2022-12-20 | ノキア ソリューションズ アンド ネットワークス オサケユキチュア | 機械学習を使用してグリッドオブビームを設計するための装置および方法 |
WO2020069048A1 (en) * | 2018-09-25 | 2020-04-02 | Archuleta Michelle | Reinforcement learning approach to modify sentence reading grade level |
US11676008B2 (en) * | 2018-09-27 | 2023-06-13 | Google Llc | Parameter-efficient multi-task and transfer learning |
WO2020064873A1 (en) * | 2018-09-27 | 2020-04-02 | Deepmind Technologies Limited | Imitation learning using a generative predecessor neural network |
CN109636432B (zh) * | 2018-09-28 | 2023-05-30 | 创新先进技术有限公司 | 计算机执行的项目选择方法和装置 |
WO2020062165A1 (zh) * | 2018-09-29 | 2020-04-02 | 区链通网络有限公司 | 一种强化学习模型的训练方法、节点、系统及存储介质 |
US11308414B2 (en) * | 2018-10-11 | 2022-04-19 | International Business Machines Corporation | Multi-step ahead forecasting using complex-valued vector autoregregression |
CN112840359B (zh) * | 2018-10-12 | 2024-05-14 | 渊慧科技有限公司 | 通过使用时间值传递在长时间尺度上控制代理 |
CN109352648B (zh) * | 2018-10-12 | 2021-03-02 | 北京地平线机器人技术研发有限公司 | 机械机构的控制方法、装置和电子设备 |
CN109334713B (zh) * | 2018-10-17 | 2020-08-04 | 重庆交通大学 | 一种铁路自动闭塞信号机布置的方法 |
US20200122039A1 (en) * | 2018-10-22 | 2020-04-23 | Unity IPR ApS | Method and system for a behavior generator using deep learning and an auto planner |
CN109212975B (zh) * | 2018-11-13 | 2021-05-28 | 北方工业大学 | 一种具有发育机制的感知行动认知学习方法 |
KR20200062887A (ko) * | 2018-11-27 | 2020-06-04 | 한국전자통신연구원 | 강화학습에 기반하여 시스템의 제어 동작의 품질을 보장하기 위한 장치 및 방법 |
CN109621431B (zh) * | 2018-11-30 | 2022-06-14 | 网易(杭州)网络有限公司 | 一种游戏动作的处理方法和装置 |
JP2020095586A (ja) * | 2018-12-14 | 2020-06-18 | 富士通株式会社 | 強化学習方法、および強化学習プログラム |
US11120303B2 (en) * | 2018-12-17 | 2021-09-14 | King Fahd University Of Petroleum And Minerals | Enhanced deep reinforcement learning deep q-network models |
CN109407676B (zh) * | 2018-12-20 | 2019-08-02 | 哈尔滨工业大学 | 基于DoubleDQN网络和深度强化学习的机器人避障方法 |
CN109472984A (zh) * | 2018-12-27 | 2019-03-15 | 苏州科技大学 | 基于深度强化学习的信号灯控制方法、系统和存储介质 |
US11928556B2 (en) | 2018-12-29 | 2024-03-12 | International Business Machines Corporation | Removing unnecessary history from reinforcement learning state |
KR102209917B1 (ko) * | 2018-12-31 | 2021-01-29 | 아주대학교산학협력단 | 심층 강화 학습을 위한 데이터 처리 장치 및 방법 |
CN109782600A (zh) * | 2019-01-25 | 2019-05-21 | 东华大学 | 一种通过虚拟环境建立自主移动机器人导航系统的方法 |
CN109858430A (zh) * | 2019-01-28 | 2019-06-07 | 杭州电子科技大学 | 一种基于强化学习优化的多人姿态检测方法 |
CN109847366B (zh) * | 2019-01-29 | 2021-12-17 | 腾讯科技(深圳)有限公司 | 用于游戏的数据处理方法和装置 |
US11281971B2 (en) * | 2019-01-30 | 2022-03-22 | James David Busch | Devices, systems, and methods that observe and classify real-world activity relating to an observed object, and track and disseminate state relating the observed object |
US11410475B2 (en) | 2019-01-31 | 2022-08-09 | Micron Technology, Inc. | Autonomous vehicle data recorders |
US11373466B2 (en) | 2019-01-31 | 2022-06-28 | Micron Technology, Inc. | Data recorders of autonomous vehicles |
CN109977998B (zh) * | 2019-02-14 | 2022-05-03 | 网易(杭州)网络有限公司 | 信息处理方法及装置、存储介质和电子装置 |
CN109902820B (zh) * | 2019-02-20 | 2023-04-07 | 腾讯科技(深圳)有限公司 | Ai模型训练方法、装置、存储介质及设备 |
US11393341B2 (en) * | 2019-02-26 | 2022-07-19 | Beijing Didi Infinity Technology And Development Co., Ltd. | Joint order dispatching and fleet management for online ride-sharing platforms |
CN109731338B (zh) * | 2019-03-01 | 2022-06-21 | 网易(杭州)网络有限公司 | 游戏中的人工智能训练方法及装置、存储介质及电子装置 |
US12061673B1 (en) | 2019-03-05 | 2024-08-13 | Hrl Laboratories, Llc | Multi-agent planning and autonomy |
CN113574475B (zh) | 2019-03-15 | 2024-11-01 | 3M创新有限公司 | 确定用于控制环境的因果模型 |
EP3937911A4 (en) | 2019-03-15 | 2023-01-11 | 3M Innovative Properties Company | PRODUCTION OF A BIOLOGICAL PHARMACEUTICAL USING CAUSAL MODELS |
CN110069064B (zh) * | 2019-03-19 | 2021-01-29 | 驭势科技(北京)有限公司 | 一种自动驾驶系统升级的方法、自动驾驶系统及车载设备 |
WO2020190460A1 (en) | 2019-03-20 | 2020-09-24 | Sony Corporation | Reinforcement learning through a double actor critic algorithm |
CN109778941B (zh) * | 2019-03-25 | 2021-05-07 | 江苏徐工工程机械研究院有限公司 | 一种基于强化学习的半自主挖掘系统和方法 |
KR102096301B1 (ko) * | 2019-04-03 | 2020-04-02 | (주)뤼이드 | 액티브 러닝 기법을 적용한 머신 러닝 프레임워크 운용 방법, 장치 및 컴퓨터 프로그램 |
US11095528B2 (en) | 2019-05-09 | 2021-08-17 | International Business Machines Corporation | Identity network onboarding based on confidence scores |
JP7145813B2 (ja) * | 2019-05-20 | 2022-10-03 | ヤフー株式会社 | 学習装置、学習方法及び学習プログラム |
US11410558B2 (en) | 2019-05-21 | 2022-08-09 | International Business Machines Corporation | Traffic control with reinforcement learning |
US11526729B2 (en) | 2019-05-22 | 2022-12-13 | International Business Machines Corporation | Discovering higher-level actions from expert's action demonstration |
US11106738B2 (en) | 2019-05-22 | 2021-08-31 | International Business Machines Corporation | Real-time tree search with pessimistic survivability trees |
US11150670B2 (en) | 2019-05-28 | 2021-10-19 | The Boeing Company | Autonomous behavior generation for aircraft |
US11488024B1 (en) * | 2019-05-29 | 2022-11-01 | Ball Aerospace & Technologies Corp. | Methods and systems for implementing deep reinforcement module networks for autonomous systems control |
EP3977783B1 (en) | 2019-06-03 | 2023-07-26 | Nokia Solutions and Networks Oy | Uplink power control using deep q-learning |
CN110125939B (zh) * | 2019-06-03 | 2020-10-20 | 湖南工学院 | 一种机器人虚拟可视化控制的方法 |
WO2020256738A1 (en) | 2019-06-21 | 2020-12-24 | Schlumberger Technology Corporation | Field development planning based on deep reinforcement learning |
US12008467B2 (en) | 2019-07-01 | 2024-06-11 | Baidu Usa Llc | Asymmetric quantization for compression and for acceleration of inference for neural networks |
US11983609B2 (en) * | 2019-07-10 | 2024-05-14 | Sony Interactive Entertainment LLC | Dual machine learning pipelines for transforming data and optimizing data transformation |
DE102019210372A1 (de) * | 2019-07-12 | 2021-01-14 | Robert Bosch Gmbh | Verfahren, Vorrichtung und Computerprogramm zum Erstellen einer Strategie für einen Roboter |
KR20210012730A (ko) | 2019-07-26 | 2021-02-03 | 삼성전자주식회사 | 인공지능 모델의 학습 방법 및 전자 장치 |
US11720792B2 (en) * | 2019-07-31 | 2023-08-08 | Royal Bank Of Canada | Devices and methods for reinforcement learning visualization using immersive environments |
US11636334B2 (en) | 2019-08-20 | 2023-04-25 | Micron Technology, Inc. | Machine learning with feature obfuscation |
US11755884B2 (en) | 2019-08-20 | 2023-09-12 | Micron Technology, Inc. | Distributed machine learning with privacy protection |
US11392796B2 (en) | 2019-08-20 | 2022-07-19 | Micron Technology, Inc. | Feature dictionary for bandwidth enhancement |
EP3786736A1 (en) | 2019-08-28 | 2021-03-03 | Bystronic Laser AG | Control for a laser cutting head movement in a cutting process |
CN110516389B (zh) * | 2019-08-29 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 行为控制策略的学习方法、装置、设备及存储介质 |
US11571809B1 (en) * | 2019-09-15 | 2023-02-07 | X Development Llc | Robotic control using value distributions |
EP4014161A1 (en) * | 2019-09-25 | 2022-06-22 | DeepMind Technologies Limited | Training action selection neural networks using q-learning combined with look ahead search |
US20210086089A1 (en) * | 2019-09-25 | 2021-03-25 | Nvidia Corporation | Player analysis using one or more neural networks |
CN112580795B (zh) * | 2019-09-29 | 2024-09-06 | 华为技术有限公司 | 一种神经网络的获取方法以及相关设备 |
US11863399B2 (en) * | 2019-09-30 | 2024-01-02 | Nec Corporation | System, method, and control apparatus |
CN110888798B (zh) * | 2019-10-14 | 2022-11-04 | 西安理工大学 | 一种基于图卷积神经网络对软件缺陷预测方法 |
US11922316B2 (en) * | 2019-10-15 | 2024-03-05 | Lg Electronics Inc. | Training a neural network using periodic sampling over model weights |
CN112699990B (zh) * | 2019-10-22 | 2024-06-07 | 杭州海康威视数字技术股份有限公司 | 神经网络模型训练方法、装置及电子设备 |
CN110837858B (zh) * | 2019-11-01 | 2023-08-04 | 腾讯科技(深圳)有限公司 | 网络模型训练方法、装置、计算机设备及存储介质 |
US20210133376A1 (en) * | 2019-11-04 | 2021-05-06 | Global Energy Interconnection Research Institute Co. Ltd | Systems and methods of parameter calibration for dynamic models of electric power systems |
KR102685013B1 (ko) | 2019-11-11 | 2024-07-15 | 삼성전자주식회사 | 스토리지 장치 및 그 동작방법 |
US20210241094A1 (en) * | 2019-11-26 | 2021-08-05 | Baidu Usa Llc | Rank selection in tensor decomposition based on reinforcement learning for deep neural networks |
KR102173579B1 (ko) * | 2019-12-02 | 2020-11-03 | 한국기술교육대학교 산학협력단 | 연합강화학습을 통한 다중 디바이스 제어 시스템 및 그 방법 |
CN111859099B (zh) * | 2019-12-05 | 2021-08-31 | 马上消费金融股份有限公司 | 基于强化学习的推荐方法、装置、终端以及存储介质 |
CN111026272B (zh) * | 2019-12-09 | 2023-10-31 | 网易(杭州)网络有限公司 | 虚拟对象行为策略的训练方法及装置、电子设备、存储介质 |
TWI700649B (zh) * | 2019-12-12 | 2020-08-01 | 中華電信股份有限公司 | 基於深度強化學習之無線通訊網路波束選擇方法 |
CN111047917B (zh) * | 2019-12-18 | 2021-01-15 | 四川大学 | 一种基于改进dqn算法的航班着陆调度方法 |
CN111111200B (zh) * | 2019-12-23 | 2023-11-14 | 北京像素软件科技股份有限公司 | 战斗策略生成方法及装置 |
CN111142522B (zh) * | 2019-12-25 | 2023-06-09 | 北京航空航天大学杭州创新研究院 | 一种分层强化学习的智能体控制方法 |
CN111240344B (zh) * | 2020-02-11 | 2023-04-07 | 哈尔滨工程大学 | 基于强化学习技术的自主水下机器人无模型控制方法 |
KR102498066B1 (ko) * | 2020-02-20 | 2023-02-10 | 한국과학기술원 | 딥러닝 강화학습 가속기 |
US11128498B2 (en) | 2020-02-25 | 2021-09-21 | Nokia Solutions And Networks Oy | Communication-channel tracking aided by reinforcement learning |
CN111368930B (zh) * | 2020-03-09 | 2022-11-04 | 成都理工大学 | 基于多类谱图融合与分级学习的雷达人体姿态识别方法及系统 |
CN111476020B (zh) * | 2020-03-09 | 2023-07-25 | 天津科技大学 | 一种基于元强化学习的文本生成方法 |
US20210287096A1 (en) * | 2020-03-13 | 2021-09-16 | Nvidia Corporation | Microtraining for iterative few-shot refinement of a neural network |
CN111460650B (zh) * | 2020-03-31 | 2022-11-01 | 北京航空航天大学 | 一种基于深度强化学习的无人机端到端控制方法 |
US10853563B1 (en) * | 2020-04-22 | 2020-12-01 | Moveworks, Inc. | Method and system for configuring form filling application to minimize form filling effort |
CN111600851B (zh) * | 2020-04-27 | 2022-03-08 | 浙江工业大学 | 面向深度强化学习模型的特征过滤防御方法 |
CA3181067A1 (en) | 2020-06-05 | 2021-12-09 | Gautam Narang | Method and system for context-aware decision making of an autonomous agent |
US11157010B1 (en) | 2020-06-05 | 2021-10-26 | Gatik Ai Inc. | Method and system for deterministic trajectory selection based on uncertainty estimation for an autonomous agent |
EP3920103B1 (en) * | 2020-06-05 | 2024-08-07 | Robert Bosch GmbH | Device and method for planning an operation of a technical system |
US11124204B1 (en) | 2020-06-05 | 2021-09-21 | Gatik Ai Inc. | Method and system for data-driven and modular decision making and trajectory generation of an autonomous agent |
US20210397940A1 (en) * | 2020-06-10 | 2021-12-23 | Nvidia Corporation | Behavior modeling using client-hosted neural networks |
CN115104288A (zh) * | 2020-06-10 | 2022-09-23 | 辉达公司 | 使用客户端托管的神经网络的行为建模 |
CN111746728B (zh) * | 2020-06-17 | 2022-06-24 | 重庆大学 | 一种基于强化学习的新型水上清洁机器人及控制方法 |
US20210406689A1 (en) * | 2020-06-29 | 2021-12-30 | International Business Machines Corporation | Random Action Replay for Reinforcement Learning |
CN111783250B (zh) * | 2020-07-03 | 2024-09-10 | 上海航天控制技术研究所 | 柔性机器人末端抵达控制方法、电子设备和存储介质 |
US11461162B2 (en) | 2020-07-06 | 2022-10-04 | Ringcentral, Inc. | Maze-driven self-diagnostics using reinforcement learning |
US12061090B2 (en) * | 2020-07-10 | 2024-08-13 | Beijing Didi Infinity Technology And Development Co., Ltd. | Vehicle repositioning on mobility-on-demand platforms |
US20220035640A1 (en) * | 2020-07-28 | 2022-02-03 | Electronic Arts Inc. | Trainable agent for traversing user interface |
CN111753855B (zh) * | 2020-07-30 | 2021-06-08 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及介质 |
DE102020209685B4 (de) | 2020-07-31 | 2023-07-06 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren zum steuern einer robotervorrichtung und robotervorrichtungssteuerung |
CN112101729B (zh) * | 2020-08-18 | 2023-07-21 | 华南理工大学 | 一种基于深度双q学习的移动边缘计算系统能源分配方法 |
US20220101064A1 (en) * | 2020-09-29 | 2022-03-31 | Sony Corporation | Task prioritized experience replay algorithm for reinforcement learning |
CN112362066B (zh) * | 2020-11-20 | 2023-02-10 | 西北工业大学 | 一种基于改进的深度强化学习的路径规划方法 |
CN112532615B (zh) * | 2020-11-26 | 2022-07-26 | 深圳供电局有限公司 | 一种智能电网蠕虫检测方法 |
US20220208373A1 (en) * | 2020-12-31 | 2022-06-30 | International Business Machines Corporation | Inquiry recommendation for medical diagnosis |
CN112717415B (zh) * | 2021-01-22 | 2022-08-16 | 上海交通大学 | 一种基于信息瓶颈理论的强化学习对战游戏ai训练方法 |
CN112765892B (zh) * | 2021-01-27 | 2023-09-26 | 东北大学 | 一种异构车联网中的智能切换判决方法 |
US11883746B2 (en) * | 2021-02-23 | 2024-01-30 | Electronic Arts Inc. | Adversarial reinforcement learning for procedural content generation and improved generalization |
CN113050565B (zh) * | 2021-03-12 | 2022-05-20 | 北京航空航天大学杭州创新研究院 | 闸门控制方法和装置、电子设备及存储介质 |
KR102523056B1 (ko) * | 2021-03-17 | 2023-04-17 | 고려대학교 산학협력단 | 멀티에이전트 강화학습을 활용한 드론 택시 시스템 및 이를 이용한 드론 택시 운용 방법 |
CN113095481B (zh) * | 2021-04-03 | 2024-02-02 | 西北工业大学 | 一种基于并行自我博弈的空战机动方法 |
US11446466B1 (en) * | 2021-04-20 | 2022-09-20 | Nutrits Ltd. | Computer-based system for soothing a baby and methods of use thereof |
CN113189879B (zh) * | 2021-05-10 | 2022-07-15 | 中国科学技术大学 | 控制策略的确定方法及装置、存储介质及电子设备 |
CN113190542B (zh) * | 2021-05-19 | 2023-02-24 | 西安图迹信息科技有限公司 | 一种电网用大数据清洗去噪方法、系统和计算机存储介质 |
KR102591226B1 (ko) | 2021-05-26 | 2023-10-19 | 엔에이치엔클라우드 주식회사 | 딥러닝 기반 바둑 게임 서비스의 긴 축 방지 방법 및 그 장치 |
CN113420326B (zh) * | 2021-06-08 | 2022-06-21 | 浙江工业大学之江学院 | 面向深度强化学习的模型隐私保护方法和系统 |
CN113395207B (zh) * | 2021-06-15 | 2022-12-23 | 北京工业大学 | 一种sdn架构下基于深度强化学习的路由优化架构及方法 |
CN113420806B (zh) * | 2021-06-21 | 2023-02-03 | 西安电子科技大学 | 一种人脸检测质量评分方法及系统 |
CN113393495B (zh) * | 2021-06-21 | 2022-02-01 | 暨南大学 | 基于强化学习的高空抛物轨迹识别方法 |
US20230061206A1 (en) * | 2021-08-25 | 2023-03-02 | Royal Bank Of Canada | Systems and methods for reinforcement learning with local state and reward data |
CN113938415B (zh) * | 2021-09-09 | 2022-08-02 | 华中科技大学 | 一种基于链路状态估计的网络路由转发方法及系统 |
CN113919217B (zh) * | 2021-10-08 | 2024-05-17 | 南开大学 | 自抗扰控制器自适应参数整定方法及装置 |
CN114009380A (zh) * | 2021-10-25 | 2022-02-08 | 湖北清江鲟鱼谷特种渔业有限公司 | 一种基于神经网络模型的鲟鱼孵化方法及系统 |
CN113962268B (zh) * | 2021-10-27 | 2024-07-26 | 合肥工业大学 | 一种基于网络架构搜索的人体运动意图识别方法 |
CN113992595B (zh) * | 2021-11-15 | 2023-06-09 | 浙江工商大学 | 一种基于优先经验回放dqn的sdn数据中心拥塞控制方法 |
CN113834200A (zh) * | 2021-11-26 | 2021-12-24 | 深圳市愚公科技有限公司 | 基于强化学习模型的空气净化器调节方法及空气净化器 |
US20230182005A1 (en) * | 2021-12-13 | 2023-06-15 | Board Of Regents, The University Of Texas System | Controlling multicomputer interaction with deep learning and artificial intelligence |
US12091052B2 (en) | 2021-12-16 | 2024-09-17 | Gatik Ai Inc. | Method and system for addressing failure in an autonomous agent |
US12037011B2 (en) | 2021-12-16 | 2024-07-16 | Gatik Ai Inc. | Method and system for expanding the operational design domain of an autonomous agent |
US20230214630A1 (en) * | 2021-12-30 | 2023-07-06 | Cron Ai Ltd. (Uk) | Convolutional neural network system, method for dynamically defining weights, and computer-implemented method thereof |
WO2023133449A1 (en) * | 2022-01-05 | 2023-07-13 | Ohio State Innovation Foundation | Automated systems for diagnosis and monitoring of stroke and related methods |
CN114386599B (zh) * | 2022-01-11 | 2023-01-31 | 北京百度网讯科技有限公司 | 训练轨迹预测模型和轨迹规划的方法和装置 |
CN114378791B (zh) * | 2022-01-13 | 2023-09-01 | 中国科学技术大学 | 一种机器人任务执行方法、装置、设备及可读存储介质 |
CN114722998B (zh) * | 2022-03-09 | 2024-02-02 | 三峡大学 | 一种基于cnn-ppo的兵棋推演智能体构建方法 |
WO2023212808A1 (en) * | 2022-05-06 | 2023-11-09 | Ai Redefined Inc. | Systems and methods for managing interaction records between ai agents and human evaluators |
CN115021325B (zh) * | 2022-06-22 | 2024-03-29 | 合肥工业大学 | 基于ddpg算法的光伏逆变器多目标优化方法 |
AT526259A1 (de) | 2022-06-23 | 2024-01-15 | Avl List Gmbh | Verfahren zum Trainieren eines künstlichen neuronalen Netzes eines Fahrermodells |
US20240362571A1 (en) * | 2023-04-28 | 2024-10-31 | Strategic Coach | Method and an apparatus for routine improvement for an entity |
CN117852133A (zh) * | 2023-12-27 | 2024-04-09 | 广州极点三维信息科技有限公司 | 一种基于近端策略优化的家具布局方法、装置及介质 |
CN117982899B (zh) * | 2024-04-07 | 2024-07-23 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机、存储介质及程序产品 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5197114A (en) * | 1990-08-03 | 1993-03-23 | E. I. Du Pont De Nemours & Co., Inc. | Computer neural network regulatory process control system and method |
EP1116172A2 (de) * | 1998-09-23 | 2001-07-18 | Siemens Aktiengesellschaft | Verfahren und anordnung zur ermittlung einer folge von aktionen für ein system, welches zustände aufweist, wobei ein zustandsübergang zwischen zwei zuständen aufgrund einer aktion erfolgt |
US6665651B2 (en) * | 2001-07-18 | 2003-12-16 | Colorado State University Research Foundation | Control system and technique employing reinforcement learning having stability and learning phases |
US7831531B1 (en) * | 2006-06-22 | 2010-11-09 | Google Inc. | Approximate hashing functions for finding similar content |
US7892080B1 (en) * | 2006-10-24 | 2011-02-22 | Fredrik Andreas Dahl | System and method for conducting a game including a computer-controlled player |
DE102007001025B4 (de) * | 2007-01-02 | 2008-11-20 | Siemens Ag | Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems |
DE102007042440B3 (de) * | 2007-09-06 | 2009-01-29 | Siemens Ag | Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems |
DE102010011221B4 (de) * | 2010-03-12 | 2013-11-14 | Siemens Aktiengesellschaft | Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems |
CN102214320A (zh) * | 2010-04-12 | 2011-10-12 | 宋威 | 神经网络训练方法及采用该方法的垃圾邮件过滤方法 |
WO2011129805A1 (en) * | 2010-04-12 | 2011-10-20 | Siemens Aktiengesellschaft | Method for computer-aided closed-loop and/or open-loop control of a technical system |
US20130176146A1 (en) * | 2010-06-15 | 2013-07-11 | The Provost, Fellows And Scholars Of The College Of The Holy & Undivided Trinity Of Queen Elizabeth | Decentralised Autonomic System and Method for Use in an Urban Traffic Control Environment |
US9355441B2 (en) * | 2010-06-28 | 2016-05-31 | Precitec Kg | Method for closed-loop controlling a laser processing operation and laser material processing head using the same |
CN102402712B (zh) * | 2011-08-31 | 2014-03-05 | 山东大学 | 基于神经网络的机器人强化学习初始化方法 |
MX344434B (es) * | 2011-12-16 | 2016-12-15 | Pragmatek Transp Innovations Inc | Aprendizaje por refuerzo de agentes multiples para control de señales de transito adaptable, integrado y conectado en red. |
DE102012206651A1 (de) * | 2012-04-23 | 2013-10-24 | Siemens Aktiengesellschaft | Verfahren zur Regelung einer Turbine |
US9811775B2 (en) * | 2012-12-24 | 2017-11-07 | Google Inc. | Parallelizing neural networks during training |
CN103324085B (zh) * | 2013-06-09 | 2016-03-02 | 中国科学院自动化研究所 | 基于监督式强化学习的最优控制方法 |
US9679258B2 (en) | 2013-10-08 | 2017-06-13 | Google Inc. | Methods and apparatus for reinforcement learning |
-
2013
- 2013-12-05 US US14/097,862 patent/US9679258B2/en active Active
-
2014
- 2014-10-07 CN CN201480055621.8A patent/CN105637540B/zh active Active
- 2014-10-07 EP EP20172810.2A patent/EP3761234A1/en active Pending
- 2014-10-07 EP EP14819108.3A patent/EP3055813B1/en active Active
- 2014-10-07 CN CN202110797787.9A patent/CN113705771A/zh active Pending
- 2014-10-07 WO PCT/US2014/059511 patent/WO2015054264A1/en active Application Filing
-
2017
- 2017-06-09 US US15/619,393 patent/US11049008B2/en active Active
-
2021
- 2021-06-25 US US17/359,427 patent/US20210374538A1/en active Pending
Non-Patent Citations (4)
Title |
---|
Autonomous reinforcement learning on raw visual input data in a real world application;Lange S,et al.;《International Joint Conference on Neural Networks》;20120630;全文 * |
Improved neural fitted Q iteration applied to a novel computer gaming and learning benchmark;Gabel T,et al.;<IEEE Symposium on Adaptive Dynamic Programming & Reinforcement Learning>;20110531;全文 * |
Reinforcement learning for robots using neural networks;Lin L J.;《DISSERTATION》;19930106;全文 * |
Using Guided Autoencoders on Face Recognition;M.F.STOLLENGA;《University of Groningen》;20110510;参见正文第1.2.1节-第4.1.3.3 * |
Also Published As
Publication number | Publication date |
---|---|
EP3761234A1 (en) | 2021-01-06 |
US9679258B2 (en) | 2017-06-13 |
EP3055813A1 (en) | 2016-08-17 |
WO2015054264A1 (en) | 2015-04-16 |
US20150100530A1 (en) | 2015-04-09 |
EP3055813B1 (en) | 2020-05-06 |
CN113705771A (zh) | 2021-11-26 |
US11049008B2 (en) | 2021-06-29 |
CN105637540A (zh) | 2016-06-01 |
US20170278018A1 (en) | 2017-09-28 |
US20210374538A1 (en) | 2021-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105637540B (zh) | 用于强化学习的方法和设备 | |
US12053704B2 (en) | Artificial intelligence (AI) model training to generate an AI model personalized to a user | |
Hafner et al. | Mastering atari with discrete world models | |
Kaplanis et al. | Continual reinforcement learning with complex synapses | |
Arulkumaran et al. | Deep reinforcement learning: A brief survey | |
Arulkumaran et al. | A brief survey of deep reinforcement learning | |
He et al. | Learning to play in a day: Faster deep reinforcement learning by optimality tightening | |
Hausknecht | Cooperation and communication in multiagent deep reinforcement learning | |
US11580378B2 (en) | Reinforcement learning for concurrent actions | |
CN111026272B (zh) | 虚拟对象行为策略的训练方法及装置、电子设备、存储介质 | |
CN112215328B (zh) | 一种智能体的训练、基于智能体的动作控制方法及装置 | |
Ramani | A short survey on memory based reinforcement learning | |
CN116702872A (zh) | 基于离线预训练状态转移Transformer模型的强化学习方法和装置 | |
CN114004149A (zh) | 一种智能体的训练方法、装置、计算机设备及存储介质 | |
CN113509726A (zh) | 交互模型训练方法、装置、计算机设备和存储介质 | |
Sobh et al. | Robust dual view deep agent | |
Gerasyov et al. | Enhancing Autonomous Driving with Spatial Memory and Attention in Reinforcement Learning | |
López Hernández | Modeling social conventions with Sequential Episodic Control | |
Du | Transfer in Deep Reinforcement Learning: How an Agent Can Leverage Knowledge from Another Agent, a Human, or Itself | |
Yousefzadeh Khameneh | Forward Model Learning with an Entity-Based Representation for games | |
Pettersson et al. | Exploring demonstration pre-training with improved Deep Q-learning | |
Sharma | Out of Distribution Detection in a DQN using Uncertainty Quantification Methods | |
Desai et al. | Deep reinforcement learning to play space invaders | |
Karimi et al. | SCORE: skill-conditioned online reinforcement learning | |
Blin | Object Centric World Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200302 Address after: England Atsushi Applicant after: DEEPMIND TECHNOLOGIES Ltd. Address before: California, USA Applicant before: GOOGLE Inc. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |