CN110825530B - 用于人工智能芯片的指令执行方法和装置 - Google Patents
用于人工智能芯片的指令执行方法和装置 Download PDFInfo
- Publication number
- CN110825530B CN110825530B CN201810907325.6A CN201810907325A CN110825530B CN 110825530 B CN110825530 B CN 110825530B CN 201810907325 A CN201810907325 A CN 201810907325A CN 110825530 B CN110825530 B CN 110825530B
- Authority
- CN
- China
- Prior art keywords
- operation instruction
- execution
- special
- execution unit
- determined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 97
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000004044 response Effects 0.000 claims abstract description 49
- 238000003062 neural network model Methods 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 10
- 238000011022 operating instruction Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 16
- 238000013528 artificial neural network Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000001994 activation Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000000053 physical method Methods 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/485—Task life-cycle, e.g. stopping, restarting, resuming execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/52—Program synchronisation; Mutual exclusion, e.g. by means of semaphores
- G06F9/526—Mutual exclusion algorithms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3836—Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
- G06F9/3838—Dependency mechanisms, e.g. register scoreboarding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/52—Program synchronisation; Mutual exclusion, e.g. by means of semaphores
- G06F9/524—Deadlock detection or avoidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/48—Indexing scheme relating to G06F9/48
- G06F2209/486—Scheduler internals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3877—Concurrent instruction execution, e.g. pipeline or look ahead using a slave processor, e.g. coprocessor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Neurology (AREA)
- General Health & Medical Sciences (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Image Analysis (AREA)
- Stored Programmes (AREA)
- Hardware Redundancy (AREA)
Abstract
本申请实施例公开了用于人工智能芯片的指令执行方法和装置。该方法的一具体实施方式包括:接收中央处理单元发送的用于描述神经网络模型的描述信息,描述信息包括至少一条操作指令;对描述信息进行解析,获取至少一条操作指令;对于至少一条操作指令中的操作指令,确定执行该操作指令的专用执行部件,对所确定的专用执行部件进行加锁;将该操作指令发送到所确定的专用执行部件;响应于接收到用于指示该操作指令已执行完的通知,对所确定的专用执行部件进行解锁。该实施方式能够避免人工智能芯片与中央处理单元进行频繁交互,提高了人工智能芯片的性能。
Description
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于人工智能芯片的指令执行方法和装置。
背景技术
近年来,随着以深度学习为代表的模型算法的兴起和发展,神经网络模型已经广泛应用于各个领域,例如,语音识别、图像识别、自然语言处理等领域。
神经网络模型中存在大量的计算密集型算子,例如,矩阵计算、卷积、池化、激活、标准化等等。由于这些运算非常耗时,传统CPU(Central Processing Unit,中央处理单元)的运算能力难以满足需求,从而使得异构运算成为主流。并且因此开发出了各种神经网络专用处理器,诸如,GPU(Graphics Processing Unit,图形处理器)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、ASIC(Application SpecificIntegrated Circuits,专用集成电路)等神经网络专用处理器。
现有技术中,可以通过主机的CPU实现神经网络处理器的任务调度。例如,通过主机的CPU与神经网络处理器不断交互,从而实现对神经网络处理器的任务调度。
发明内容
本申请实施例提出了用于人工智能芯片的指令执行方法和装置。
第一方面,本申请实施例提供了一种用于人工智能芯片的指令执行方法,人工智能芯片包括至少一个通用执行部件和至少一个专用执行部件,该方法包括:接收中央处理单元发送的用于描述神经网络模型的描述信息,描述信息包括至少一条操作指令;对描述信息进行解析,获取至少一条操作指令;对于至少一条操作指令中的操作指令,确定执行该操作指令的专用执行部件,对所确定的专用执行部件进行加锁;将该操作指令发送到所确定的专用执行部件;响应于接收到用于指示该操作指令已执行完的通知,对所确定的专用执行部件进行解锁。
在一些实施例中,对所确定的专用执行部件进行加锁,包括:获取所确定的专用执行部件的锁;响应于获取成功,执行锁定操作。
在一些实施例中,对所确定的专用执行部件进行加锁,还包括:响应于获取失败,以轮询方式查询所确定的专用执行部件的锁定状态;响应于查询到所确定的专用执行部件的锁定状态为未锁定,继续获取所确定的专用执行部件的锁,进行锁定操作。
在一些实施例中,对所确定的专用执行部件进行加锁,还包括:响应于获取失败,进入等待状态;响应于接收到用于指示所确定的专用执行部件已解锁的唤醒通知,退出等待状态,继续获取所确定的专用执行部件的锁,进行锁定操作。
在一些实施例中,该方法还包括:响应于确定出至少一条操作指令已执行完,向中央处理单元发送用于指示至少一条操作指令已执行完的通知。
在一些实施例中,至少一个通用执行部件并联连接,至少一个专用执行部件串联连接。
在一些实施例中,至少一个通用执行部件包括可编程通用计算图形处理器,至少一个专用执行部件包括以下至少一种:卷积引擎、单数据处理器、平面数据处理器、通道数据处理器、专用内存和数据重构引擎。
第二方面,本申请实施例提供了一种用于人工智能芯片的指令执行装置,人工智能芯片包括至少一个通用执行部件和至少一个专用执行部件,该装置包括:信息接收单元,被配置成接收中央处理单元发送的用于描述神经网络模型的描述信息,描述信息包括至少一条操作指令;信息解析单元,被配置成对描述信息进行解析,获取至少一条操作指令;指令发送单元,被配置成对于至少一条操作指令中的操作指令,确定执行该操作指令的专用执行部件,对所确定的专用执行部件进行加锁;将该操作指令发送到所确定的专用执行部件;响应于接收到用于指示该操作指令已执行完的通知,对所确定的专用执行部件进行解锁。
在一些实施例中,指令发送单元包括:锁获取模块,被配置成获取所确定的专用执行部件的锁;锁定模块,被配置成响应于获取成功,执行锁定操作。
在一些实施例中,锁定模块还被配置成:响应于获取失败,以轮询方式查询所确定的专用执行部件的锁定状态;响应于查询到所确定的专用执行部件的锁定状态为未锁定,继续获取所确定的专用执行部件的锁,进行锁定操作。
在一些实施例中,锁定模块还被配置成:响应于获取失败,进入等待状态;响应于接收到用于指示所确定的专用执行部件已解锁的唤醒通知,退出等待状态,继续获取所确定的专用执行部件的锁,进行锁定操作。
在一些实施例中,该装置还包括:通知发送单元,被配置成响应于确定出至少一条操作指令已执行完,向中央处理单元发送用于指示至少一条操作指令已执行完的通知。
在一些实施例中,至少一个通用执行部件并联连接,至少一个专用执行部件串联连接。
在一些实施例中,至少一个通用执行部件包括可编程通用计算图形处理器,至少一个专用执行部件包括以下至少一种:卷积引擎、单数据处理器、平面数据处理器、通道数据处理器、专用内存和数据重构引擎。
第三方面,本申请实施例提供了一种人工智能芯片,人工智能芯片包括至少一个通用执行部件和至少一个专用执行部件;通用执行部件被配置成:接收中央处理单元发送的用于描述神经网络模型的描述信息,描述信息包括至少一条操作指令;对描述信息进行解析,获取至少一条操作指令;对于至少一条操作指令中的操作指令,确定执行该操作指令的专用执行部件,对所确定的专用执行部件进行加锁;将该操作指令发送到所确定的专用执行部件;响应于接收到用于指示该操作指令已执行完的通知,对所确定的专用执行部件进行解锁;专用执行部件被配置成:响应于接收到通用执行部件发送的操作指令,执行所接收的操作指令;以及在所接收的操作指令执行完之后,返回用于指示操作指令已执行完的通知。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,计算机程序被执行部件执行时实现如上述第一方面中任一实现方式描述的方法。
第五方面,本申请实施例提供了一种电子设备,包括:中央处理单元、存储装置和至少一个如第三方面描述的人工智能芯片。
本申请实施例提供的用于人工智能芯片的指令执行方法和装置,接收中央处理单元发送的用于描述神经网络模型的描述信息,之后对描述信息进行解析以获取至少一条操作指令,然后确定执行操作指令的专用执行部件并对专用执行部件进行加锁,之后将操作指令发送专用执行部件进行处理,最后在操作指令执行完成之后对专用执行部件进行解锁,从而能够避免人工智能芯片与CPU进行频繁交互,提高了人工智能芯片的性能。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是根据本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的用于人工智能芯片的指令执行方法的一个实施例的流程图;
图3A至图3C是根据本申请的用于人工智能芯片的指令执行方法的一个应用场景的示意图;
图4是根据本申请的用于人工智能芯片的指令执行方法的另一实施例的流程图;
图5是根据本申请的用于人工智能芯片的指令执行装置的一个实施例的结构示意图;
图6是根据本申请的人工智能芯片的一个实施例的结构示意图;
图7是图6所示实施例的人工智能芯片的工作时序图;
图8是根据本申请的电子设备的一个实施例的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于人工智能芯片的指令执行方法或用于人工智能芯片的指令执行装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括CPU 11、人工智能芯片(ArtificialIntelligence Chip)12和总线13。总线13用以在CPU 11和人工智能芯片12之间提供通信链路的介质,例如,PCIE(Peripheral Component Interconnect Express,一种高速串行计算机扩展总线标准)总线等。
CPU 11可以通过总线13与人工智能芯片12进行交互,以发送和接收消息。CPU 11可以将神经网络模型的描述信息发送到人工智能芯片12,以及接收人工智能芯片12返回的处理结果。
人工智能芯片12也被称为AI加速器或计算卡,专门用于处理人工智能应用中的大量计算密集型的计算任务。人工智能芯片12可以包括至少一个通用执行部件和至少一个专用执行部件。通用执行部件分别与各专用执行部件通信连接。通用执行部件可以接收并解析CPU 11发送的神经网络模型的描述信息,然后将解析到的操作指令发送到特定的专用执行部件(例如,被通用执行部件锁定的专用执行部件)。专用执行部件可以执行通用执行部件发送的操作指令。
需要说明的是,本申请实施例所提供的用于人工智能芯片的指令执行方法一般由通用执行部件执行,相应地,用于人工智能芯片的指令执行装置一般设置于通用执行部件中。
应该理解,图1中的CPU、总线、人工智能芯片、通用执行部件和专用执行部件的数目仅仅是示意性的。根据实现需要,可以具有任意合适数目的CPU、总线、人工智能芯片、通用执行部件和专用执行部件。
继续参考图2,示出了根据本申请的用于人工智能芯片的指令执行方法的一个实施例的流程200。该用于人工智能芯片的指令执行方法,可以包括以下步骤:
步骤201,接收CPU发送的用于描述神经网络模型的描述信息。
在本实施例中,人工智能芯片可以包括至少一个通用执行部件和至少一个专用执行部件。人工智能芯片可以与CPU通信连接。用于人工智能芯片的指令执行方法的执行主体(例如,图1的人工智能芯片12的通用执行部件)可以接收CPU发送的用于描述神经网络模型的描述信息。其中,该描述信息可以包括至少一条操作指令。这里,操作指令可以是人工智能芯片的专用执行部件可执行的指令,例如,矩阵计算指令、向量运算指令等等。描述信息可以是使用人工智能芯片的通用执行部件可解释的语言来描述神经网络模型的各种信息,例如,静态图、数据流图等。
这里,神经网络模型可以是人工神经网络(Artificial Neural Network,ANN)。人工神经网络是人们基于对人脑神经网络的基本认识,以数学和物理方法以及从信息处理的角度对人脑神经网络进行抽象而建立的某种简单模型。例如,神经网络模型可以包括卷积神经网络(Convolutional Neural Network,CNN)模型和深度神经网络(Deep NeuralNetwork,DNN)模型等等。
步骤202,对描述信息进行解析,获取至少一条操作指令。
在本实施例中,上述执行主体可以对步骤201接收的描述信息进行解析,从而获取描述信息中包含的至少一条操作指令。
步骤203,确定执行操作指令的专用执行部件,对所确定的专用执行部件进行加锁。
在本实施例中,对于上述至少一条操作指令中的每条操作指令,上述执行主体可以确定执行该操作指令的专用执行部件,然后对所确定的专用执行部件进行加锁(或锁定)。作为示例,该操作指令为卷积指令,则可以确定执行该操作指令的专用执行部件为卷积引擎(卷积运算固化在其上的集成电路),并对该卷积引擎进行加锁。
在本实施例中,由于每个通用执行部件与各专用执行部件通信连接,即,每个专用执行部件可以被多个通用执行部件调用以执行操作指令,因此,可以采用锁机制来避免各通用执行部件之间在调用专用执行部件时产生冲突。例如,每个专用执行部件可以具有一个可被调用的锁。这里,锁可以通过软件编程的方法来实现。通过调用专用执行部件的锁的加锁方法可以实现锁定专用执行部件(即,被锁定的专用执行部件无法被其他通用执行部件调用)。
在本实施例的一些可选的实现方式中,对所确定的专用执行部件进行加锁的步骤具体可以包括:首先,尝试获取所确定的专用执行部件的锁;之后,响应于获取成功,执行锁定操作。作为示例,在所确定的专用执行部件为卷积引擎的情形下,上述执行主体可以尝试获取该卷积引擎的锁,如果获取到该卷积引擎的锁,则可以调用获取的锁的锁定方法来锁定该卷积引擎。
在本实施例的一些可选的实现方式中,对所确定的专用执行部件进行加锁的步骤具体可以包括:首先,尝试获取所确定的专用执行部件的锁;之后,响应于获取失败,以轮询方式查询所确定的专用执行部件的锁定状态;然后,响应于查询到所确定的专用执行部件的锁定状态为未锁定,继续获取所确定的专用执行部件的锁,进行锁定操作。作为示例,在所确定的专用执行部件为卷积引擎并且该卷积引擎已经被另一通用执行部件锁定的情况下,上述执行主体尝试获取该卷积引擎的锁失败后,可以以轮询方式查询(例如,以预定的时间间隔不断查询)该卷积引擎的锁定状态,如果查询到该卷积引擎的锁定状态为未锁定(即,该卷积引擎被另一通用执行部件释放),则可以再次尝试获取该卷积引擎的锁,若获取成功,则调用获取的锁的锁定方法来锁定该卷积引擎。
步骤204,将操作指令发送到所确定的专用执行部件。
在本实施例中,对于上述至少一条操作指令中的每条操作指令,上述执行主体可以在对执行该操作指令的专用执行部件进行加锁之后,将该操作指令发送到执行该操作指令的专用执行部件,即,通过步骤203确定的专用执行部件。其中,专用执行部件可以被配置成:执行通用执行部件发送的操作指令,以及在操作指令执行完成之后返回操作指令已执行完的通知。
在本实施例的一些可选的实现方式中,用于指示操作指令已执行完的通知可以包括中断(Interrupt,处理单元与硬件设备进行通信的一种方式)。这里,中断可以是硬件中断,也可以是软件中断。
步骤205,响应于接收到用于指示操作指令已执行完的通知,对所确定的专用执行部件进行解锁。
在本实施例中,对于上述至少一条操作指令中的每条操作指令,上述执行主体可以在接收到指示该操作指令已执行完的通知之后,对执行该操作指令的专用执行部件进行解锁(例如,通过调用专用执行部件的锁的解锁方法释放该专用执行部件)。
一般而言,神经网络模型的描述信息中可以包括若干条操作指令,因此,步骤203至步骤205可以被依次执行若干次,直至所有的操作指令被执行完。
在本实施例的一些可选的实现方式中,该用于人工智能芯片的指令执行方法还可以包括:响应于确定出上述至少一条操作指令已执行完,向CPU发送用于指示上述至少一条操作指令已执行完的通知。
可选地,用于指示上述至少一条操作指令已执行完的通知可以包括中断。这里,中断可以是硬件中断,也可以是软件中断。
在本实施例的一些可选实现方式中,上述至少一个通用执行部件可以以并联方式通信连接,上述至少一个专用执行部件可以以串联方式通信连接。
在本实施例的一些可选实现方式中,上述至少一个通用执行部件可以包括可编程的通用计算图形处理器,例如,ARM(Advanced RISC Machine或Acorn RISC Machine,进阶精简指令集机器)核、51核等。上述至少一个专用执行部件可以包括但不限于以下至少一种:卷积引擎、单数据处理器、平面数据处理器、通道数据处理器、专用内存和数据重构引擎。其中,卷积引擎用于神经网络模型的卷积层的数据处理,单数据处理器用于神经网络模型的激活函数层的数据处理,平面数据处理器用于神经网络模型的池化层的数据处理、通道数据处理器用于神经网络模型的标准化层的数据处理,而专用内存和数据重构引擎用于张量重塑和复制操作存储器到存储器的转换加速。
继续参考图3A至图3C,其示出了根据本申请的用于人工智能芯片的指令执行方法的一个应用场景。在图3A中,CPU 31向人工智能芯片32中的通用执行模块G1~G4中的通用执行模块G1发送人脸识别模型的描述信息。通用执行模块G1对该描述信息进行解析获取到指令1~指令6。通用执行模块G1首先从专用执行模块E1~E6中确定出执行指令1的专用执行模块为专用执行模块E1。之后通用执行模块G1在获取到专用执行模块E1的锁并对专用执行模块E1进行加锁后,将指令1发送到专用执行模块E1(由专用执行模块E1执行指令1)以及等待指令1的执行反馈。最后通用执行模块G1接收到专用执行模块E1返回的中断1(即,指令1已执行完)。同样地,在图3B中,通用执行模块G1继续从专用执行模块E1~E6中确定出执行指令2的专用执行模块为专用执行模块E2。之后通用执行模块G1在获取到专用执行模块E2的锁并对专用执行模块E2进行加锁后,将指令2发送到专用执行模块E2(由专用执行模块E2执行指令2)以及等待指令2的执行反馈。最后通用执行模块G1接收到专用执行模块E2返回的中断2(即,指令2已执行完)。以此类摧,直至指令6,如图3C所示,通用执行模块G1继续从专用执行模块E1~E6中确定出执行指令6的专用执行模块为专用执行模块E6。之后通用执行模块G1在获取到专用执行模块E6的锁并对专用执行模块E6进行加锁后,将指令6发送到专用执行模块E6(由专用执行模块E6执行指令6)以及等待指令6的执行反馈。最后通用执行模块G1接收到专用执行模块E6返回的中断6(即,指令6已执行完),从而通用执行模块G1可以确定人脸识别模型的描述信息中的指令均已执行完,并向CPU 31发送中断。
本申请的上述实施例提供的用于人工智能芯片的指令执行方法,通过接收CPU发送的神经网络模型的描述信息并解析获取至少一条操作指令,之后确定并锁定执行操作指令的专用执行部件,然后将操作指令发送到执行操作指令的专用执行部件并等待专用执行部件的执行反馈,最后在接收到操作指令已执行完的通知后解锁执行操作指令的专用执行部件,从而能够避免人工智能芯片与CPU进行频繁交互,提高了人工智能芯片的性能。
进一步参考图4,其示出了根据本申请的用于人工智能芯片的指令执行方法的一个实施例的流程400。该用于人工智能芯片的指令执行方法,可以包括以下步骤:
步骤401,接收CPU发送的用于描述神经网络模型的描述信息。
在本实施例中,人工智能芯片可以包括至少一个通用执行部件和至少一个专用执行部件。人工智能芯片可以与CPU通信连接。用于人工智能芯片的指令执行方法的执行主体(例如,图1的人工智能芯片12的通用执行部件)可以接收CPU发送的用于描述神经网络模型的描述信息。其中,该描述信息可以包括至少一条操作指令。这里,操作指令可以是人工智能芯片的专用执行部件可执行的指令,例如,矩阵计算指令、向量运算指令等等。描述信息可以包括使用人工智能芯片的通用执行部件可解释的语言来描述神经网络模型的各种信息,例如,静态图、数据流图等。
步骤402,对描述信息进行解析,获取至少一条操作指令。
在本实施例中,上述执行主体可以对步骤401接收的描述信息进行解析,从而获取描述信息中包含的至少一条操作指令。
步骤403,确定执行操作指令的专用执行部件,获取所确定的专用执行部件的锁。
在本实施例中,对于上述至少一条操作指令中的每条操作指令,上述执行主体可以确定执行该操作指令的专用执行部件,然后尝试获取所确定的专用执行部件的锁。作为示例,该操作指令为卷积指令,则可以确定执行该操作指令的专用执行部件为卷积引擎,并获取该卷积引擎的锁。
步骤404,响应于获取失败,进入等待状态。
在本实施例中,对于上述至少一条操作指令中的每条操作指令,上述执行主体在获取执行该操作指令的专用执行部件的锁失败之后(即,执行该操作指令的专用执行部件已被其它通用执行部件锁定),可以进入等待状态(例如,当前线程进入休眠状态),直至被唤醒(例如,通过接收唤醒通知被唤醒)。
步骤405,响应于接收到用于指示所确定的专用执行部件已解锁的唤醒通知,退出等待状态,继续获取所确定的专用执行部件的锁,进行锁定操作。
在本实施例中,对于上述至少一条操作指令中的每条操作指令,上述执行主体在接收到唤醒通知后(即,执行该操作指令的专用执行模块已被其它通用执行模块解锁/释放),可以退出等待状态,然后再次尝试获取执行该操作指令的专用执行模块的锁。若获取成功,则对执行该操作指令的专用执行模块进行加锁,例如,调用获取的锁的锁定方法来加锁。
步骤406,将操作指令发送到所确定的专用执行部件。
在本实施例中,对于至少一条操作指令中的每条操作指令,上述执行主体可以在对执行该操作指令的专用执行部件进行加锁之后,将该操作指令发送到执行该操作指令的专用执行部件,即,通过步骤403确定的专用执行部件。其中,专用执行部件可以被配置成:执行通用执行部件发送的操作指令,以及在操作指令执行完成之后返回操作指令已执行完的通知。
步骤407,响应于接收到用于指示操作指令已执行完的通知,对所确定的专用执行部件进行解锁。
在本实施例中,对于至少一条操作指令中的每条操作指令,上述执行主体可以在接收到指示该操作指令已执行完的通知之后,对执行该操作指令的专用执行部件进行解锁(例如,通过调用专用执行部件的锁的解锁方法释放该专用执行部件)。
步骤408,响应于确定出至少一条操作指令已执行完,向CPU发送用于指示至少一条操作指令已执行完的通知。
在本实施例中,上述执行主体在确定出上述至少一条操作指令已被执行完(例如,确定出接收到上述至少一条操作指令的中断)后,可以向CPU发送用于指示上述至少一条操作指令已执行完的通知,以便CPU继续进行后续处理。
从图4中可以看出,与图2对应的实施例相比,本实施例中的用于人工智能芯片的指令执行方法的流程400突出了获取锁失败进入等待状态以及向CPU发送执行完成通知的步骤。由此,本实施例描述的方案可以减小通用执行模块的开支,提高CPU获取神经网络模型执行进度的效率。
进一步参考图5,作为对图2和图4所示方法的实现,本申请提供了一种用于人工智能芯片的指令执行装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于人工智能芯片的通用执行部件中。
如图5所示,本实施例的用于人工智能芯片的指令执行装置500可以包括信息接收单元501、信息解析单元502和指令发送单元503。其中,信息接收单元501被配置成接收CPU发送的用于描述神经网络模型的描述信息,描述信息包括至少一条操作指令;信息解析单元502被配置成对描述信息进行解析,获取至少一条操作指令;而指令发送单元503被配置成:对于至少一条操作指令中的操作指令,确定执行该操作指令的专用执行部件,对所确定的专用执行部件进行加锁;将该操作指令发送到所确定的专用执行部件;响应于接收到用于指示该操作指令已执行完的通知,对所确定的专用执行部件进行解锁。
在本实施例中,人工智能芯片可以包括至少一个通用执行部件和至少一个专用执行部件。人工智能芯片可以与CPU通信连接。用于人工智能芯片的指令执行装置500的上述信息接收单元501可以接收CPU发送的用于描述神经网络模型的描述信息。其中,该描述信息可以包括至少一条操作指令。这里,操作指令可以是人工智能芯片的专用执行部件可执行的指令,例如,矩阵计算指令、向量运算指令等等。描述信息可以是使用人工智能芯片的通用执行部件可解释的语言来描述神经网络模型的各种信息,例如,静态图、数据流图等。
在本实施例中,上述信息解析单元502可以对上述信息接收单元501接收的描述信息进行解析,从而获取描述信息中包含的至少一条操作指令。
在本实施例中,对于上述至少一条操作指令中的每条操作指令,上述指令发送单元503可以确定执行该操作指令的专用执行部件并对所确定的专用执行部件进行加锁(或锁定),之后将该操作指令发送到执行该操作指令的专用执行部件,然后在接收到指示该操作指令已执行完的通知之后,对执行该操作指令的专用执行部件进行解锁。其中,专用执行部件可以被配置成执行通用执行部件发送的操作指令,以及在操作指令执行完成之后返回操作指令已执行完的通知。
在本实施例的一些可选的实现方式中,上述指令发送单元503可以包括锁获取模块和锁定模块。其中,锁获取模块被配置成获取所确定的专用执行部件的锁;而锁定模块被配置成响应于获取成功,执行锁定操作。
可选地,锁定模块还可以被配置成:响应于获取失败,以轮询方式查询所确定的专用执行部件的锁定状态;响应于查询到所确定的专用执行部件的锁定状态为未锁定,继续获取所确定的专用执行部件的锁,进行锁定操作。
可选地,锁定模块还可以被配置成:响应于获取失败,进入等待状态;响应于接收到用于指示所确定的专用执行部件已解锁的唤醒通知,退出等待状态,继续获取所确定的专用执行部件的锁,进行锁定操作。
在本实施例的一些可选实现方式中,操作指令已执行完的通知可以包括中断(Interrupt,处理单元与硬件设备进行通信的一种方式)。这里,中断可以是硬件中断,也可以是软件中断。
在本实施例的一些可选的实现方式中,装置500还可以包括通知发送单元。其中,通知发送单元被配置成响应于确定出上述至少一条操作指令已执行完,向CPU发送用于指示上述至少一条操作指令已执行完的通知。
在本实施例的一些可选实现方式中,上述至少一个通用执行部件可以以并联方式通信连接,上述至少一个专用执行部件可以以串联方式通信连接。
在本实施例的一些可选实现方式中,上述至少一个通用执行部件可以包括可编程的通用计算图形处理器,例如,ARM核、51核等。上述至少一个专用执行部件可以包括但不限于以下至少一种:卷积引擎、单数据处理器、平面数据处理器、通道数据处理器、专用内存和数据重构引擎。
本申请的上述实施例提供的用于人工智能芯片的指令执行装置,通过接收CPU发送的神经网络模型的描述信息并解析获取至少一条操作指令,之后确定并锁定执行操作指令的专用执行部件,然后将操作指令发送到执行操作指令的专用执行部件并等待专用执行部件的执行反馈,最后在接收到操作指令已执行完的通知后解锁执行操作指令的专用执行部件,从而能够避免人工智能芯片与CPU进行频繁交互,提高了人工智能芯片的性能。
本申请实施例还提供了一种人工智能芯片。该人工智能芯片的结构可以参考图6,其示出了本申请的人工智能芯片的一个实施例的结构示意图。如图6所示,本实施例中的人工智能芯片600可以包括至少一个通用执行部件601和至少一个专用执行部件602。
接下来将参考图7描述人工智能芯片的工作原理。图7示出了人工智能芯片600的工作时序700。
首先,在框701处,CPU向人工智能芯片的通用执行部件发送用于描述神经网络模型的描述信息。其中,该描述信息可以包括至少一条操作指令。
之后,在框702处,通用执行部件对接收到的描述信息进行解析,从而获取描述信息中包含的至少一条操作指令。
然后,针对每一条指令,按次序循环执行框703~框707中的步骤,直至上述至少一条指令全部被执行完。
在框703处,对于上述至少一条操作指令中的每条操作指令,通用执行部件可以确定执行该操作指令的专用执行部件,然后对所确定的专用执行部件进行加锁(或锁定)。作为示例,该操作指令为卷积指令,则可以确定执行该操作指令的专用执行部件为卷积引擎,并对该卷积引擎进行加锁。
在框704处,对于至少一条操作指令中的每条操作指令,通用执行部件可以在对执行该操作指令的专用执行部件进行加锁之后,将该操作指令发送到执行该操作指令的专用执行部件。
在框705处,专用执行部件可以执行通用执行部件发送的操作指令。
在框706处,通用执行部件可以接收专用执行部件返回的通知,该通知用于指示操作指令已执行完。
在框707处,对于上述至少一条操作指令中的每条操作指令,通用执行模块在接收到指示该操作指令已执行完的通知后,解锁执行该操作指令的专用执行模块。
最后,在框708处,通用执行模块在确定出上述至少一条操作指令已执行完之后,可以向CPU发送用于指示上述至少一条操作指令已执行完的通知。
本申请的上述实施例提供的人工智能芯片,通过通用执行部件接收CPU发送的神经网络模型的描述信息并解析获取至少一条操作指令,然后通过通用执行部件依次调用专用执行部件执行操作执行,从而能够避免与CPU进行频繁交互,提高了人工智能芯片的性能。
本申请实施例还提供了一种电子设备。该电子设备的结构可以参考图8,其示出了本申请的电子设备的一个实施例的计算机系统800的结构示意图。图8示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括一个或多个中央处理单元(CPU)801以及一个或多个人工智能芯片804。CPU 801可以根据存储在只读存储器(ROM)802中的程序或者从存储部分807加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。人工智能芯片804包括一个或多个通用执行部件以及一个或多个专用执行部件,人工智能芯片804可以根据从CPU 801接收的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802、RAM 803以及人工智能芯片804通过总线805彼此相连。输入/输出(I/O)接口806也连接至总线805。
以下部件连接至I/O接口806:包括硬盘等的存储部分807;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分808。通信部分808经由诸如因特网的网络执行通信处理。驱动器809也根据需要连接至I/O接口806。可拆卸介质810,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器809上,以便于从其上读出的计算机程序根据需要被安装入存储部分807。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分808从网络上被下载和安装,和/或从可拆卸介质810被安装。在该计算机程序被人工智能芯片804的通用执行部件执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种通用执行部件包括信息接收单元、信息解析单元和指令发送单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,信息接收单元还可以被描述为“接收CPU发送的用于描述神经网络模型的描述信息的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的人工智能芯片中的通用执行部件中所包含的;也可以是单独存在,而未装配入该通用执行部件中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该通用执行部件执行时,使得该通用执行部件:接收CPU发送的用于描述神经网络模型的描述信息,描述信息包括至少一条操作指令;对描述信息进行解析,获取至少一条操作指令;对于至少一条操作指令中的操作指令,确定执行该操作指令的专用执行部件,对所确定的专用执行部件进行加锁;将该操作指令发送到所确定的专用执行部件;响应于接收到用于指示该操作指令已执行完的通知,对所确定的专用执行部件进行解锁。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (13)
1.一种用于人工智能芯片的指令执行方法,所述人工智能芯片包括至少一个通用执行部件和至少一个专用执行部件,所述至少一个通用执行部件并联连接,所述至少一个专用执行部件串联连接,所述人工智能芯片与中央处理器通信连接,所述通用执行部件分别与各专用执行部件通信连接,所述至少一个通用执行部件包括可编程通用计算图形处理器,所述至少一个专用执行部件包括以下至少一种:卷积引擎、单数据处理器、平面数据处理器、通道数据处理器、专用内存和数据重构引擎,所述方法应用于所述通用执行部件,包括:
接收中央处理单元发送的用于描述神经网络模型的描述信息,所述描述信息包括至少一条操作指令;其中,所述神经网络模型包括人脸识别模型;
对所述描述信息进行解析,获取所述至少一条操作指令;
对于所述至少一条操作指令中的操作指令,确定执行该操作指令的专用执行部件,对所确定的专用执行部件进行加锁;将该操作指令发送到所确定的专用执行部件;响应于接收到用于指示该操作指令已执行完的通知,对所确定的专用执行部件进行解锁;其中,被锁定的专用执行部件无法被除所述通用执行部件之外的其他通用执行部件调用;其中,每个专用执行部件在执行完该专用执行部件对应的操作指令之后,该专用执行部件会向所述通用执行部件返回中断;在所述至少一条操作指令均执行完之后,所述通用执行部件会向所述中央处理器返回中断。
2.根据权利要求1所述的方法,其中,所述对所确定的专用执行部件进行加锁,包括:
获取所确定的专用执行部件的锁;
响应于获取成功,执行锁定操作。
3.根据权利要求2所述的方法,其中,所述对所确定的专用执行部件进行加锁,还包括:
响应于获取失败,以轮询方式查询所确定的专用执行部件的锁定状态;
响应于查询到所确定的专用执行部件的锁定状态为未锁定,继续获取所确定的专用执行部件的锁,进行锁定操作。
4.根据权利要求2所述的方法,其中,所述对所确定的专用执行部件进行加锁,还包括:
响应于获取失败,进入等待状态;
响应于接收到用于指示所确定的专用执行部件已解锁的唤醒通知,退出等待状态,继续获取所确定的专用执行部件的锁,进行锁定操作。
5.根据权利要求1所述的方法,其中,所述方法还包括:
响应于确定出所述至少一条操作指令已执行完,向所述中央处理单元发送用于指示所述至少一条操作指令已执行完的通知。
6.一种用于人工智能芯片的指令执行装置,所述人工智能芯片包括至少一个通用执行部件和至少一个专用执行部件,所述至少一个通用执行部件并联连接,所述至少一个专用执行部件串联连接,所述人工智能芯片与中央处理器通信连接,所述通用执行部件分别与各专用执行部件通信连接,所述至少一个通用执行部件包括可编程通用计算图形处理器,所述至少一个专用执行部件包括以下至少一种:卷积引擎、单数据处理器、平面数据处理器、通道数据处理器、专用内存和数据重构引擎,所述装置应用于所述通用执行部件,包括:
信息接收单元,被配置成接收中央处理单元发送的用于描述神经网络模型的描述信息,所述描述信息包括至少一条操作指令;其中,所述神经网络模型包括人脸识别模型;
信息解析单元,被配置成对所述描述信息进行解析,获取所述至少一条操作指令;
指令发送单元,被配置成对于所述至少一条操作指令中的操作指令,确定执行该操作指令的专用执行部件,对所确定的专用执行部件进行加锁;将该操作指令发送到所确定的专用执行部件;响应于接收到用于指示该操作指令已执行完的通知,对所确定的专用执行部件进行解锁;其中,被锁定的专用执行部件无法被除所述通用执行部件之外的其他通用执行部件调用;其中,每个专用执行部件在执行完该专用执行部件对应的操作指令之后,该专用执行部件会向所述通用执行部件返回中断;在所述至少一条操作指令均执行完之后,所述通用执行部件会向所述中央处理器返回中断。
7.根据权利要求6所述的装置,其中,所述指令发送单元包括:
锁获取模块,被配置成获取所确定的专用执行部件的锁;
锁定模块,被配置成响应于获取成功,执行锁定操作。
8.根据权利要求7所述的装置,其中,所述锁定模块还被配置成:
响应于获取失败,以轮询方式查询所确定的专用执行部件的锁定状态;
响应于查询到所确定的专用执行部件的锁定状态为未锁定,继续获取所确定的专用执行部件的锁,进行锁定操作。
9.根据权利要求7所述的装置,其中,所述锁定模块还被配置成:
响应于获取失败,进入等待状态;
响应于接收到用于指示所确定的专用执行部件已解锁的唤醒通知,退出等待状态,继续获取所确定的专用执行部件的锁,进行锁定操作。
10.根据权利要求6所述的装置,其中,所述装置还包括:
通知发送单元,被配置成响应于确定出所述至少一条操作指令已执行完,向所述中央处理单元发送用于指示所述至少一条操作指令已执行完的通知。
11.一种人工智能芯片,所述人工智能芯片包括至少一个通用执行部件和至少一个专用执行部件;所述至少一个通用执行部件并联连接,所述至少一个专用执行部件串联连接,所述人工智能芯片与中央处理器通信连接;
通用执行部件被配置成:接收中央处理单元发送的用于描述神经网络模型的描述信息,所述描述信息包括至少一条操作指令;对所述描述信息进行解析,获取所述至少一条操作指令;对于所述至少一条操作指令中的操作指令,确定执行该操作指令的专用执行部件,对所确定的专用执行部件进行加锁;将该操作指令发送到所确定的专用执行部件;响应于接收到用于指示该操作指令已执行完的通知,对所确定的专用执行部件进行解锁;其中,所述神经网络模型包括人脸识别模型;
专用执行部件被配置成:响应于接收到通用执行部件发送的操作指令,执行所接收的操作指令;以及在所接收的操作指令执行完之后,返回用于指示操作指令已执行完的通知;
其中,每个专用执行部件在执行完该专用执行部件对应的操作指令之后,该专用执行部件会向所述通用执行部件返回中断;在所述至少一条操作指令均执行完之后,所述通用执行部件会向所述中央处理器返回中断。
12.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被执行部件执行时实现如权利要求1-5中任一所述的方法。
13.一种电子设备,包括:中央处理单元、存储装置和至少一个如权利要求11所述的人工智能芯片。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810907325.6A CN110825530B (zh) | 2018-08-10 | 2018-08-10 | 用于人工智能芯片的指令执行方法和装置 |
US16/505,913 US10891134B2 (en) | 2018-08-10 | 2019-07-09 | Method and apparatus for executing instruction for artificial intelligence chip |
JP2019128283A JP7001643B2 (ja) | 2018-08-10 | 2019-07-10 | 人工知能チップに用いられる命令実行方法及び装置 |
KR1020190083967A KR102227947B1 (ko) | 2018-08-10 | 2019-07-11 | 인공지능 칩에 사용되는 명령 실행 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810907325.6A CN110825530B (zh) | 2018-08-10 | 2018-08-10 | 用于人工智能芯片的指令执行方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110825530A CN110825530A (zh) | 2020-02-21 |
CN110825530B true CN110825530B (zh) | 2022-12-23 |
Family
ID=69406089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810907325.6A Active CN110825530B (zh) | 2018-08-10 | 2018-08-10 | 用于人工智能芯片的指令执行方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10891134B2 (zh) |
JP (1) | JP7001643B2 (zh) |
KR (1) | KR102227947B1 (zh) |
CN (1) | CN110825530B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898045B (zh) * | 2020-07-20 | 2021-07-16 | 搜索亚洲科技(深圳)有限公司 | 网络资源的智能搜索方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011039781A (ja) * | 2009-08-11 | 2011-02-24 | Fujitsu Semiconductor Ltd | 協調シミュレーション装置及びシミュレーション方法 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5704012A (en) * | 1993-10-08 | 1997-12-30 | International Business Machines Corporation | Adaptive resource allocation using neural networks |
US5583964A (en) * | 1994-05-02 | 1996-12-10 | Motorola, Inc. | Computer utilizing neural network and method of using same |
US7234144B2 (en) | 2002-01-04 | 2007-06-19 | Microsoft Corporation | Methods and system for managing computational resources of a coprocessor in a computing system |
US7293159B2 (en) * | 2004-01-15 | 2007-11-06 | International Business Machines Corporation | Coupling GP processor with reserved instruction interface via coprocessor port with operation data flow to application specific ISA processor with translation pre-decoder |
US8607241B2 (en) | 2004-06-30 | 2013-12-10 | Intel Corporation | Compare and exchange operation using sleep-wakeup mechanism |
KR20060056650A (ko) * | 2004-11-22 | 2006-05-25 | 이별섭 | 소프트웨어를 분산 처리하기 위한 방법 및 시스템 |
CN101305334B (zh) * | 2004-12-29 | 2012-01-11 | 辉达公司 | 降低的本地总线通信量的磁盘驱动器操作的智能存储引擎 |
JP3866749B2 (ja) | 2005-03-07 | 2007-01-10 | 富士通株式会社 | マイクロプロセッサ |
JP2007328461A (ja) | 2006-06-06 | 2007-12-20 | Matsushita Electric Ind Co Ltd | 非対称マルチプロセッサ |
US8156275B2 (en) | 2009-05-13 | 2012-04-10 | Apple Inc. | Power managed lock optimization |
US8803897B2 (en) | 2009-09-03 | 2014-08-12 | Advanced Micro Devices, Inc. | Internal, processing-unit memory for general-purpose use |
KR101234224B1 (ko) * | 2010-11-29 | 2013-02-18 | 한국과학기술원 | 다수의 범용 포트들을 이용한 로봇 키트 컨트롤러 장치 |
CN102073618A (zh) * | 2010-12-07 | 2011-05-25 | 浪潮(北京)电子信息产业有限公司 | 一种异构计算系统及其处理方法 |
CN102036043A (zh) * | 2010-12-15 | 2011-04-27 | 成都市华为赛门铁克科技有限公司 | 视频数据处理方法、装置及视频监控系统 |
US8957903B2 (en) | 2010-12-20 | 2015-02-17 | International Business Machines Corporation | Run-time allocation of functions to a hardware accelerator |
US9135213B2 (en) | 2011-01-13 | 2015-09-15 | Xilinx, Inc. | Extending a processor system within an integrated circuit and offloading processes to process-specific circuits |
CN102708009B (zh) * | 2012-04-19 | 2014-04-02 | 华为技术有限公司 | 一种基于cuda实现多任务共享gpu的方法 |
US10241793B2 (en) * | 2013-03-15 | 2019-03-26 | Analog Devices Global | Paralleizing loops in the presence of possible memory aliases |
US11755484B2 (en) * | 2015-06-26 | 2023-09-12 | Microsoft Technology Licensing, Llc | Instruction block allocation |
CN110874212B (zh) * | 2015-06-30 | 2021-08-20 | 华为技术有限公司 | 一种硬件加速方法、编译器以及设备 |
JP2017211972A (ja) | 2016-05-19 | 2017-11-30 | 国立大学法人北海道大学 | ニューラルネットワーク回路及びニューラルネットワーク集積回路 |
US9959498B1 (en) | 2016-10-27 | 2018-05-01 | Google Llc | Neural network instruction set architecture |
JP6992343B2 (ja) * | 2017-09-13 | 2022-01-13 | 富士通株式会社 | 情報処理装置、情報処理方法、および情報処理プログラム |
CN110825514B (zh) * | 2018-08-10 | 2023-05-23 | 昆仑芯(北京)科技有限公司 | 人工智能芯片以及用于人工智能芯片的指令执行方法 |
-
2018
- 2018-08-10 CN CN201810907325.6A patent/CN110825530B/zh active Active
-
2019
- 2019-07-09 US US16/505,913 patent/US10891134B2/en active Active
- 2019-07-10 JP JP2019128283A patent/JP7001643B2/ja active Active
- 2019-07-11 KR KR1020190083967A patent/KR102227947B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011039781A (ja) * | 2009-08-11 | 2011-02-24 | Fujitsu Semiconductor Ltd | 協調シミュレーション装置及びシミュレーション方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110825530A (zh) | 2020-02-21 |
JP2020038626A (ja) | 2020-03-12 |
KR102227947B1 (ko) | 2021-03-12 |
US10891134B2 (en) | 2021-01-12 |
US20200050457A1 (en) | 2020-02-13 |
KR20200018239A (ko) | 2020-02-19 |
JP7001643B2 (ja) | 2022-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6896759B2 (ja) | リアルタイムデータフロープログラミングにおけるパターン駆動型反応の合成 | |
KR102407220B1 (ko) | 인공지능 칩 및 인공지능 칩에 사용되는 명령 실행 방법 | |
US11422817B2 (en) | Method and apparatus for executing instructions including a blocking instruction generated in response to determining that there is data dependence between instructions | |
US20200293920A1 (en) | Rapid predictive analysis of very large data sets using the distributed computational graph using configurable arrangement of processing components | |
US8565120B2 (en) | Locality mapping in a distributed processing system | |
Stornaiuolo et al. | On how to efficiently implement deep learning algorithms on pynq platform | |
US20230035910A1 (en) | Method, system and device for parallel processing of data, and storage medium | |
CN111190741A (zh) | 基于深度学习节点计算的调度方法、设备及存储介质 | |
US20210297453A1 (en) | Pathfinding in two and three-dimensional spaces using an automated planning service | |
CN115600676A (zh) | 深度学习模型推理方法、装置、设备及存储介质 | |
CN110825530B (zh) | 用于人工智能芯片的指令执行方法和装置 | |
CN109858610A (zh) | 一种卷积神经网络的加速方法、装置、设备及存储介质 | |
EP3971746A1 (en) | Speculative and accelerated classification based on incomplete feature sets | |
CN114564286A (zh) | 一种规则引擎告警方法及规则引擎告警系统 | |
CN111221839B (zh) | 数据处理方法、系统、电子设备和计算机可读存储介质 | |
CN114365151A (zh) | 神经网络模型转化方法、装置、服务器及存储介质 | |
WO2024221442A1 (zh) | 一种数据处理方法以及相关设备 | |
Shafique et al. | Introduction to the Special Issue on Accelerating AI on the Edge–Part 1 | |
CN111966501A (zh) | 一种用于人工智能芯片的指令执行方法 | |
Alman et al. | Discovering Process Framing for AI-Augmented BPM Systems in a Multi-Process Setting | |
CN117251282A (zh) | 神经网络模型资源处理方法、装置和设备 | |
CN115409193A (zh) | 量子程序的生成方法、装置、介质及量子计算机操作系统 | |
Roychoudhury et al. | An executable specification language based on message sequence charts | |
CN114968515A (zh) | 脚本处理方法、装置、电子设备及存储介质 | |
CN115409194A (zh) | 量子程序的生成系统及量子计算机操作系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210928 Address after: Baidu building, No. 10, Shangdi 10th Street, Haidian District, Beijing 100086 Applicant after: Kunlun core (Beijing) Technology Co.,Ltd. Address before: 2 / F, baidu building, 10 Shangdi 10th Street, Haidian District, Beijing 100085 Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |