CN107239315B

CN107239315B - 面向神经网络异构计算平台的编程模型

Info

Publication number: CN107239315B
Application number: CN201710231894.9A
Authority: CN
Inventors: 孙晓明; 隋凌志; 罗洪; 单羿; 姚颂
Original assignee: Xilinx Inc
Current assignee: Xilinx Inc
Priority date: 2017-04-11
Filing date: 2017-04-11
Publication date: 2019-11-15
Anticipated expiration: 2037-04-11
Also published as: CN107239315A; US10732943B2; US20180293057A1; WO2018188463A1

Abstract

本公开提供一种面向神经网络异构计算平台的编程模型。具体地说，本公开提出一种异构计算平台的编译方法和系统及其程序运行支持方法和系统。训练后的神经网络模型输入到神经网络(NN)优化编译器，生成与神经网络对应的NN汇编文件。NN汇编文件输入到NN汇编器，生成与神经网络对应的NN二进制文件。使用主机编译器工具链编译和汇编用户用高级语言开发的神经网络应用程序，依次生成相应的主机汇编文件和主机二进制文件。使用主机链接器链接NN二进制文件和主机二进制文件，以生成单一的混合链接可执行文件。本发明的技术方案具有计算性能好、可扩展性强、兼容性强、灵活度高等特点。

Description

面向神经网络异构计算平台的编程模型

技术领域

本发明涉及异构计算平台与神经网络，更具体涉及面向神经网络异构计算平台的编程模型。

背景技术

人工智能近年得到迅速发展，极大地影响了人们的生活，世界各国都给予了高度的重视，并进行大规模研发投入。人工神经网络是人工智能应用的核心。深度学习神经网络算法是最常见的一种人工神经网络模型。它的工作负载特征是计算密集(乘加操作为G量级)和数据密集(参数为M至数百M字节)。基于传统通用处理器CPU的计算平台并不能很好地满足性能要求。近几年，以NVIDIA GPU为代表的加速神经网络计算的异构平台变得流行起来。CUDA SDK提供的编译工具链和开发包简化了用户在CPU+GPU异构环境下的应用开发。随着FPGA以及各种深度学习专用芯片ASIC(如谷歌TPU)等更具性价比的加速方案不断涌现，解决好CPU+FPGA/ASIC异构计算平台面临的以下问题变得迫切：

1.基于流行C/C++高级语言的可编程性

2.降低神经网络应用的开发门槛、提供编程效率

3.优化神经网络结构、编译生成高效的计算指令

4.提高数据复用、减少CPU与FPGA/ASIC之间的数据移动

因此，需要一种面向神经网络异构计算平台的编程模型，有效解决CPU+神经网络专用处理器的异构环境下神经网络应用的开发、编译、部署和运行阶段面临的各种困难。

发明内容

根据以上的讨论，本发明主要关注面向神经网络异构计算平台上的一系列高效编译和运行时支持技术。更具体地说，本发明的目的在于提供一种面向神经网络异构计算平台的编程模型，从而创新性地有效解决CPU+神经网络专用处理器异构环境下神经网络应用的开发、编译、部署和运行阶段面临的各种困难。

为实现上述目的，根据本发明的第一方面，提供一种异构计算平台的编译方法，包括：将训练后的神经网络模型输入到神经网络(NN)优化编译器，生成与神经网络对应的NN汇编文件；将NN汇编文件输入到NN汇编器，生成与神经网络对应的NN二进制文件；使用主机编译器工具链编译和汇编用户用高级语言开发的神经网络应用程序，依次生成相应的主机汇编文件和主机二进制文件；使用主机链接器链接NN二进制文件和主机二进制文件，以生成单一的混合链接可执行文件。

根据本发明第一方面的异构计算平台的编译方法，优选地，所述的二进制文件是ELF二进制文件，所述的单一的混合链接可执行文件是单一的混合链接ELF可执行文件。

根据本发明第一方面的异构计算平台的编译方法，优选地，所述高级语言是C/C++。

根据本发明第一方面的异构计算平台的编译方法，优选地，所述的单一的混合链接可执行文件包括：ELF标准可执行文件部分和NN扩展部分。ELF标准可执行文件部分进一步包括：ELF文件头，段表，代码段，数据段。NN扩展部分进一步包括：NN头，代码段，数据段。

根据本发明的第二方面，提供一种异构计算平台的程序运行支持方法，包括：用户通过调用神经网络专用处理器开发库的高级语言应用编程接口(API)，实现神经网络专用处理器内核的初始化操作和运行时的控制；启动根据本发明第一方面的异构计算平台的编译方法所得到的混合链接可执行文件；所述可执行文件中的主机的代码段和数据段被操作系统的标准加载器加载到主机的内存空间；所述可执行文件中的神经网络专用处理器的代码段和数据段被神经网络专用处理器加载器加载到神经网络专用处理器的内存空间；主机代码段中的指令和神经网络专用处理器代码段中的指令按照神经网络应用设定的顺序串行执行。

根据本发明的第三方面，提供一种异构计算平台的编译系统，包括：神经网络(NN)优化编译器，用于接收训练后的神经网络模型，生成与神经网络对应的NN汇编文件；NN汇编器，用于接收NN汇编文件，生成与神经网络对应的NN二进制文件；主机编译器，用于编译用户用高级语言开发的神经网络应用程序，生成相应的主机汇编文件；主机汇编器，用于汇编主机汇编文件，生成主机二进制文件；主机链接器，用于链接NN二进制文件和主机二进制文件，以生成单一的混合链接可执行文件。

根据本发明第三方面的异构计算平台的编译系统，优选地，所述的二进制文件是ELF二进制文件，所述的单一的混合链接可执行文件是单一的混合链接ELF可执行文件。

根据本发明第三方面的异构计算平台的编译系统，优选地，所述高级语言是C/C++。

根据本发明第三方面的异构计算平台的编译系统，优选地，所述的单一的混合链接可执行文件包括：ELF标准可执行文件部分和NN扩展部分。ELF标准可执行文件部分进一步包括：ELF文件头，段表，代码段，数据段。NN扩展部分进一步包括：NN头，代码段，数据段。

根据本发明的第四方面，提供一种异构计算平台的程序运行支持系统，包括：主机；神经网络专用处理器；神经网络应用程序；神经网络专用处理器开发库，用于封装神经网络专用处理器的各种高级语言应用编程接口，以便提供给用户开发神经网络应用时调用，实现神经网络专用处理器内核的初始化操作和运行时的控制；根据本发明第三方面的异构计算平台的编译系统，用于生成混合链接可执行文件；操作系统的标准加载器，用于将所述可执行文件中的主机的代码段和数据段加载到主机的内存空间；神经网络专用处理器加载器，用于将所述可执行文件中的神经网络专用处理器的代码段和数据段加载到神经网络专用处理器的内存空间；主机操作系统；神经网络专用处理器驱动程序，用于与主机操作系统相配合，使主机代码段中的指令和神经网络专用处理器代码段中的指令按照神经网络应用设定的顺序串行执行。

本发明的技术方案具有计算性能好、可扩展性强、兼容性强、灵活度高等特点。

附图说明

下面参考附图结合实施例说明本发明。在附图中：

图1是CPU+神经网络专用处理器异构计算平台混合编译模型；

图2是根据本发明的第一实施例的异构计算平台的编译方法的流程图；

图3是CPU+神经网络专用处理器混合链接ELF可执行文件的示意图；

图4是根据本发明的第二实施例的异构计算平台的程序运行支持模型。

具体实施方式

附图仅用于示例说明，不能理解为对本专利的限制；下面结合附图和实施例对本发明的技术方案做进一步的说明。

与单一计算平台(即只有主机或CPU的计算平台)相比，本发明还包括了以下的功能部件：1)神经网络优化编译器；2)NN汇编器；3)CPU+神经网络专用处理器异构混合(hybrid)链接ELF(Executable and Linking Format)可执行文件；4)神经网络专用处理器驱动程序；5)运行时神经网络专用处理器加载器(Loader)；6)神经网络专用处理器开发库(Library)。

本领域技术人员应当理解，本申请中所使用的术语“神经网络专用处理器”，也可简称为“神经网络处理器”或“NN处理器”。由于深度学习是神经网络技术中目前最为流行的一个技术分类，因此神经网络专用处理器可以被实现为深度学习专用处理器或深度学习处理器。但是，本领域技术人员应该明白，神经网络还有其他的技术分支，例如深度神经网络(DNN，Deep Neutral Network)，因此神经网络专用处理器也可以被实现为深度神经网络专用处理器或深度神经网络处理器(DNN处理器)。也就是说，有关“深度学习处理器”或“深度神经网络处理器”在异构计算平台中的编译和运行支持方面的技术也在本发明的范围之内。

如下面参考图1所述的内容中所提到的，上述的功能部件1)、2)、3)提供神经网络在CPU+神经网络专用处理器异构平台上的编译支持，即涉及本发明的第一实施例。如下面参考图4所述的内容中所提到的，功能部件4)、5)、6)为CPU+神经网络专用处理器异构神经网络应用提供相关程序运行支持，即涉及本发明的第二实施例。

第一实施例：

下面，将首先结合图1来描述第一实施例中的组成部件的功能。

图1是CPU+神经网络专用处理器异构计算平台混合编译模型。

在图1中，神经网络(Neural Network，可简称为NN)优化编译器(或称为“NN优化编译器”)以神经网络模型为输入，通过分析网络的拓扑结构获取模型中控制流和数据流信息，以此为基础在模型上施加各种优化变换技术。具体地说，该编译器合并神经网络模型中不同网络层之间的计算操作、降低计算强度。对于结构化和非结构化稀疏网络，该编译器将消除稀疏值带来的不必要计算和数据移动。此外，该编译器将充分复用神经网络专用处理器片上内存中存放的网络参数和特征图(feature map)数值，降低访存带宽需求，从而减少功耗。该编译器输出NN汇编文件到NN汇编器。

NN汇编器接收来自NN优化编译器的NN汇编文件。接收到的NN汇编文件(汇编指令)被NN汇编器转换而生成对应的二进制机器编码。此后，神经网络专用处理器的机器编码和数据被集成在一起生成标准格式的ELF二进制文件。

主机链接器用于生成CPU+神经网络专用处理器异构混合链接ELF可执行文件。在本发明的优选实施例中，可以扩展ELF可执行文件的格式，增加神经网络专用处理器的支持。具体地说，把神经网络专用处理器和主机两种ELF二进制文件链接在一起，生成单一可执行文件(ELF可执行文件)，方便神经网络应用程序的部署和运行。图1中，神经网络专用处理器和主机ELF二进制文件都被示出为ELF object文件。图3给出了CPU+神经网络专用处理器混合链接ELF可执行文件的一个示例，下文将进一步详细描述。

主机链接器所使用的主机ELF二进制文件是通过主机编译器对C/C++神经网络程序进行编译，通过主机汇编器对生成的主机汇编文件进行汇编而得到的。其中，主机编译器、主机汇编器、主机链接器都是单一计算平台的编译模型中已有的功能部件。

下面从方法步骤的角度来进一步描述根据本发明第一实施例的编译模型的工作状态。

图2是根据本发明的第一实施例的异构计算平台的编译方法的流程图。

如图2中所示，根据本发明的第一实施例的异构计算平台的编译方法200开始于步骤S201。在该步骤S201，将训练后的神经网络模型输入到NN优化编译器，生成与神经网络对应的NN汇编文件。

在步骤S203，将NN汇编文件输入到NN汇编器，生成与神经网络对应的NN二进制文件。

在步骤S205，使用主机编译器工具链编译和汇编用户用高级语言开发的神经网络应用程序，依次生成相应的主机汇编文件和主机二进制文件。

在本发明的优选实施例中，以及参考图1的描述，将以上提到的高级语言都具体化为C/C++。本领域技术人员应该理解，C/C++是本领域中典型且常用的高级语言，从而使本发明的可编程性得到提升。但是，本领域技术人员也应该理解，这里所述的高级语言也可以是除了C/C++以外的其他高级语言，例如，包括但不限于：Java、Pascal、Python、Perl等等面向对象的高级语言或可能在本发明之前的编程平台上典型或常用，也可能在本发明的发明人所能预见到的未来的编程平台上典型或常用的其他高级语言。

在步骤S207，使用主机链接器链接NN二进制文件和主机二进制文件，以生成单一的混合链接可执行文件。

在本发明的优选实施例中，以及参考图1的描述，将以上提到的二进制文件都具体化为ELF二进制文件(或称为ELF文件)。本领域技术人员应该理解，ELF(Executable andLinking Format)文件使用典型且常用的标准文件格式，从而使本发明的可编程性得到提升。但是，本领域技术人员也应该理解，这里所述的二进制文件也可以是除了ELF文件以外的其他文件格式，其可能在本发明之前的编程平台上典型或常用，也可能在本发明的发明人所能预见到的未来的编程平台上典型或常用。

此外，在本发明的优选实施方式中，在步骤S207生成的单一的混合链接可执行文件可以是单一的混合链接ELF可执行文件。图3给出了这样的一种示例。

图3是CPU+神经网络专用处理器混合链接ELF可执行文件的示意图。如图3所示，在步骤S207所生成的单一的混合链接可执行文件可以包括两个部分：ELF标准可执行文件部分和NN扩展部分。其中，ELF标准可执行文件部分与普通可执行文件一样，其进一步包括：ELF文件头(图3示为“ELF Header”)，段表(图3示为“Section Header Table”)，代码段(图3示为“.text”)，数据段(图3示为“.data”)。NN扩展部分是对ELF标准可执行文件部分的扩展，其与ELF标准可执行文件部分链接在一起，进一步包括：NN头(图3示为“NN Header”)，代码段(图3示为“.text”)，数据段(图3示为“.data”)。

尽管在图3中，NN扩展部分链接在ELF标准可执行文件之后，但本领域技术人员应该理解，CPU+神经网络专用处理器混合链接可执行文件的链接方式和组成结构也可以是除了图3以外的形式。也就是说，根据本发明的第一实施例所述的单一的混合链接可执行文件不限于图3中所给出的示例的形式，还可以是任意链接形式和内容构成的CPU+神经网络专用处理器混合链接可执行文件。

回到图2，步骤S207执行完之后，编译方法200可视为结束。生成的可执行文件可以被启动，从而在整个面向神经网络异构计算平台的编程模型的支持下，得到运行。

在本发明的第一实施例中，除了上述的异构计算平台的编译方法，还提出了一种异构计算平台的编译系统。

参看图1和图2，根据本发明的第一实施例的异构计算平台的编译系统可以包括NN优化编译器，其用于接收训练后的神经网络模型，生成与神经网络对应的NN汇编文件。

编译系统中的NN汇编器用于从NN优化编译器接收NN汇编文件，从而生成与神经网络对应的NN二进制文件。

另一方面，针对主机方面，编译系统的主机编译器用于编译用户用高级语言开发的神经网络应用程序，生成相应的主机汇编文件。而主机汇编器则用于汇编主机汇编文件，生成主机二进制文件。所述高级语言可以是C/C++，也可以是用于提升系统可编程性的其他高级语言。

编译系统仍然使用主机链接器来链接NN二进制文件和主机二进制文件，但是生成的是单一的混合链接可执行文件。

如上在对图2的描述中所解释的，所述的二进制文件可以是ELF二进制文件，所述的单一的混合链接可执行文件可以是单一的混合链接ELF可执行文件。

如前所述，所述的单一的混合链接可执行文件可以包括：ELF标准可执行文件部分和NN扩展部分。其中，ELF标准可执行文件部分可以进一步包括：ELF文件头，段表，代码段，数据段。NN扩展部分则可以进一步包括：NN头，代码段，数据段。可以再次参看图3所给出的示例。但是，根据本发明的第一实施例所述的单一的混合链接可执行文件不限于图3中所给出的示例的形式，还可以是任意链接形式和内容构成的CPU+神经网络专用处理器混合链接可执行文件。

第二实施例：

下面将结合图4来描述本发明的编程环境，即程序运行支持模型。

在图4中，将神经网络专用处理器简称为DPU，以与主机CPU相区别。本领域技术人员应该理解，这样的命名并不影响神经网络专用处理器的一般性。也就是说，本说明书与附图中，“神经网络专用处理器”与“DPU”是可以互换使用的术语，用于表示异构计算平台上与CPU相异的另一处理器。

如图4中所示，神经网络专用处理器驱动程序(图4中示出为“DPU驱动程序”)工作在操作系统内核态(kernel space)，负责神经网络专用处理器资源运行时的动态管理和调度，并且负责运行在神经网络专用处理器上神经网络代码(以下称为神经网络专用处理器内核)的管理和控制，负责神经网络专用处理器内存空间的管理和分配。

神经网络专用处理器加载器(图4中示为“DPU loader”)，在运行时，工作在操作系统用户态(user space)，负责神经网络专用处理器内核的动态加载和释放，并且负责神经网络专用处理器内核代码的重定位。

神经网络专用处理器开发库(图4中示为“DPU Library”)工作在操作系统用户态(user space)，用于封装神经网络专用处理器的各种C/C++应用编程接口(API)提供给用户开发各种神经网络应用时调用，从而提高神经网络专用处理器上的编程效率。

此外，再加上本领域技术人员应该知道的主机(或CPU)、神经网络专用处理器(图4中示为“DPU”)、主机操作系统和操作系统的标准加载器(OS Loader)，用于配合以上提到的服务于神经网络专用处理器的部件，一起提供执行神经网络应用程序的运行支持环境。换句话说，实现神经网络应用程序的神经网络专用处理器加速。

下面分别从方法步骤的角度和系统构成的角度来进一步描述根据本发明第二实施例的异构计算平台的程序运行支持模型的工作状态。

CPU+神经网络专用处理器异构计算平台开发的神经网络应用程序，主要有两部分组成：C/C++代码、训练后的神经网络模型(网络拓扑结构和神经网络参数)。从开发、编译到部署和运行，典型的工作流程如下所示：

步骤1.用户通过调用神经网络专用处理器开发库的C/C++API编程接口，实现神经网络专用处理器内核的初始化操作和运行时的各种控制，例如dpuInit(),dpuFini(),dpuCreateKernel(),dpuDestroyKernel(),dpuRunKernel()等。其中的“dpu”表示神经网络专用处理器。

步骤2.输入训练后的神经网络模型给NN优化编译器，生成与网络对应的NN汇编文件。

步骤3.输入NN汇编文件给NN汇编器，生成与网络对应的ELF二进制文件。

步骤4.使用主机编译器工具链编译用户开发的C/C++神经网络应用程序，生成相应的主机汇编文件和主机ELF二进制文件。

步骤5.使用主机链接器链接神经网络专用处理器和主机的所有ELF二进制文件，生成单一的混合链接ELF可执行文件。

步骤6.编译完生成的单一混合链接ELF可执行文件包含了主机和神经网络专用处理器运行所需的全部信息，执行方式与普通的主机ELF可执行文件完全一样，可实现一键式部署。

步骤7.启动混合链接ELF可执行文件，ELF中主机的代码段和数据段会被操作系统的标准加载器加载到主机的内存空间；ELF中神经网络专用处理器的代码段和数据段由神经网络专用处理器加载器负责加载到神经网络专用处理器的内存空间(其中神经网络专用处理器的内存空间由神经网络专用处理器驱动程序管理)。

步骤8.主机代码段中的指令和神经网络专用处理器代码段中的指令按照神经网络应用设定的顺序串行执行，计算和数据密集的神经网络算法以神经网络专用处理器内核的形态被主机卸载(offload)至神经网络专用处理器上加速运行，更加高效地运行。

可以将以上的过程总结一下。

在根据本发明的第二实施例的异构计算平台的程序运行支持方法中，用户通过调用神经网络专用处理器开发库的高级语言应用编程接口(API)，实现神经网络专用处理器内核的初始化操作和运行时的控制。

用户根据本发明第一实施例的异构计算平台的编译方法得到了混合链接可执行文件之后，启动该可执行文件。所述可执行文件中的主机的代码段和数据段被操作系统的标准加载器加载到主机的内存空间；而所述可执行文件中的神经网络专用处理器的代码段和数据段被神经网络专用处理器加载器加载到神经网络专用处理器的内存空间。

然后，主机操作系统与神经网络专用处理器驱动程序相配合，将主机代码段中的指令和神经网络专用处理器代码段中的指令按照神经网络应用设定的顺序串行执行。

在本发明的第二实施例中，除了上述的异构计算平台的程序运行支持方法，还提出了一种异构计算平台的程序运行支持系统。

如图4所示，根据本发明第二实施例的异构计算平台的程序运行支持系统不仅包括单一计算平台中常见的主机、主机操作系统、操作系统的标准加载器，还包括神经网络专用处理器、神经网络应用程序、神经网络专用处理器开发库、编译系统、神经网络专用处理器加载器、神经网络专用处理器驱动程序。

在本发明的程序运行支持系统中，神经网络专用处理器开发库用于封装神经网络专用处理器的各种高级语言(例如C/C++)应用编程接口(API)，以便提供给用户开发神经网络应用时调用，实现神经网络专用处理器内核的初始化操作和运行时的控制。

程序运行支持系统中的编译系统，就是根据本发明第一实施例的异构计算平台的编译系统，用于生成混合链接可执行文件。

操作系统的标准加载器用于将所述可执行文件中的主机的代码段和数据段加载到主机的内存空间；而神经网络专用处理器加载器用于将所述可执行文件中的神经网络专用处理器的代码段和数据段加载到神经网络专用处理器的内存空间。

神经网络专用处理器驱动程序用于与主机操作系统相配合，使主机代码段中的指令和神经网络专用处理器代码段中的指令按照神经网络应用设定的顺序串行执行。

以下对本发明所提到的创新点进行进一步讨论。

目前面向神经网络领域专用处理器的设计和研发正处于百花齐放的初期阶段，如何构建面向神经网络异构计算平台的专用编译工具链在学术界和工业界还没有形成标准和规范，也没有相关的完整技术方案公布，因此本发明具有一定的先进性和创新性，总结起来具有以下优点：

1.完备性好：本发明提出的面向神经网络异构计算平台的编译和程序运行支持技术，覆盖了神经网络应用的开发、编译、部署和运行各阶段，是一套完整的、实用性强的技术解决方案。

2.性能好：本发明中的神经网络优化编译器，能够针对神经网络专用处理器中计算单元和片上内存的资源配置，平衡数据读写负载和计算操作负载，充分发挥神经网络专用处理器硬件资源并行度，精确挖掘神经网络专用处理器的计算能力、生成最高效的指令代码。

3.灵活性高：本发明中编译工具链能把各种神经网络模型编译生成神经网络专用处理器上可运行指令码，不受限于某种特定的神经网络算法，适用于神经网络专用处理器平台各种神经网络应用程序的开发，具有较好的灵活性。

4.易用性强：通过神经网络专用处理器开发库向用户提供标准C/C++API编程接口，与CUDA、OpenCL通过扩展C/C++语法提供异构编程的方式相比，免除了用户熟悉新语法的额外负担，因此可降低神经网络专用处理器平台的开发门槛、提高编程效率。

上面已经描述了本发明的各种实施例和实施情形。但是，本发明的精神和范围不限于此。本领域技术人员将能够根据本发明的教导而做出更多的应用，而这些应用都在本发明的范围之内。

也就是说，本发明的上述实施例仅仅是为清楚说明本发明所做的举例，而非对本发明实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、替换或改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种异构计算平台的编译方法，包括：

将训练后的神经网络模型输入到用于神经网络专用处理器的神经网络(NN)优化编译器，生成与神经网络对应的NN汇编文件；

将NN汇编文件输入到NN汇编器，生成与神经网络对应的NN二进制文件；

使用主机编译器工具链编译和汇编用户用高级语言开发的神经网络应用程序，依次生成相应的主机汇编文件和主机二进制文件；

使用主机链接器链接NN二进制文件和主机二进制文件，以生成单一的混合链接可执行文件。

2.根据权利要求1所述的异构计算平台的编译方法，其中，所述的二进制文件是ELF二进制文件，所述的单一的混合链接可执行文件是单一的混合链接ELF可执行文件。

3.根据权利要求1所述的异构计算平台的编译方法，其中，所述高级语言是C/C++。

4.根据权利要求1所述的异构计算平台的编译方法，其中，所述的单一的混合链接可执行文件包括：

ELF标准可执行文件部分，其进一步包括：

ELF文件头，

段表，

代码段，

数据段，

NN扩展部分，其进一步包括：

NN头，

代码段，

数据段。

5.一种异构计算平台的程序运行支持方法，包括：

用户通过调用神经网络专用处理器开发库的高级语言应用编程接口(API)，实现神经网络专用处理器内核的初始化操作和运行时的控制；

启动根据权利要求1所述的异构计算平台的编译方法所得到的混合链接可执行文件；

所述可执行文件中的主机的代码段和数据段被操作系统的标准加载器加载到主机的内存空间；

所述可执行文件中的神经网络专用处理器的代码段和数据段被神经网络专用处理器加载器加载到神经网络专用处理器的内存空间；

主机代码段中的指令和神经网络专用处理器代码段中的指令按照神经网络应用设定的顺序串行执行。

6.一种异构计算平台的编译系统，包括：

用于神经网络专用处理器的神经网络(NN)优化编译器，用于接收训练后的神经网络模型，生成与神经网络对应的NN汇编文件；

NN汇编器，用于接收NN汇编文件，生成与神经网络对应的NN二进制文件；

主机编译器，用于编译用户用高级语言开发的神经网络应用程序，生成相应的主机汇编文件；

主机汇编器，用于汇编主机汇编文件，生成主机二进制文件；

主机链接器，用于链接NN二进制文件和主机二进制文件，以生成单一的混合链接可执行文件。

7.根据权利要求6所述的异构计算平台的编译系统，其中，所述的二进制文件是ELF二进制文件，所述的单一的混合链接可执行文件是单一的混合链接ELF可执行文件。

8.根据权利要求6所述的异构计算平台的编译系统，其中，所述高级语言是C/C++。

9.根据权利要求6所述的异构计算平台的编译系统，其中，所述的单一的混合链接可执行文件包括：

ELF标准可执行文件部分，其进一步包括：

ELF文件头，

段表，

代码段，

数据段，

NN扩展部分，其进一步包括：

NN头，

代码段，

数据段。

10.一种异构计算平台的程序运行支持系统，包括：

主机；

神经网络专用处理器；

神经网络应用程序；

神经网络专用处理器开发库，用于封装神经网络专用处理器的各种高级语言应用编程接口，以便提供给用户开发神经网络应用时调用，实现神经网络专用处理器内核的初始化操作和运行时的控制；

根据权利要求6所述的异构计算平台的编译系统，用于生成混合链接可执行文件；

操作系统的标准加载器，用于将所述可执行文件中的主机的代码段和数据段加载到主机的内存空间；

神经网络专用处理器加载器，用于将所述可执行文件中的神经网络专用处理器的代码段和数据段加载到神经网络专用处理器的内存空间；

主机操作系统；

神经网络专用处理器驱动程序，用于与主机操作系统相配合，使主机代码段中的指令和神经网络专用处理器代码段中的指令按照神经网络应用设定的顺序串行执行。