CN115545145A

CN115545145A - 优化神经网络模型的方法及执行该方法的神经网络模型处理系统

Info

Publication number: CN115545145A
Application number: CN202210650242.XA
Authority: CN
Inventors: 李昶权; 金冏荣; 金炳秀; 金哉坤; 任汉永; 崔祯珉; 河相赫
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2021-06-30
Filing date: 2022-06-09
Publication date: 2022-12-30
Also published as: TW202303456A; US20230004816A1; EP4113388A1; TWI824485B

Abstract

在优化神经网络模型的方法中，接收关于第一神经网络模型的第一模型信息。接收关于用于执行第一神经网络模型的第一目标设备的设备信息。基于第一模型信息、设备信息以及多个适合性确定算法中的至少一个，执行对第一神经网络模型是否适合于在第一目标设备上执行的分析。输出分析的结果，使得第一模型信息和分析的结果显示在屏幕上。

Description

优化神经网络模型的方法及执行该方法的神经网络模型处理系统

相关申请的交叉引用

本申请基于并要求向韩国知识产权局(KIPO)于2021年6月30日递交的韩国专利申请No.10-2021-0085534和于2021年8月30日递交的韩国专利申请No.10-2021-0114779的优先权，其全部内容通过引用合并于此。

技术领域

示例实施例总体上涉及机器学习技术，并且更具体地涉及优化神经网络模型的方法，以及执行优化神经网络模型的方法的神经网络模型处理系统。

背景技术

存在基于机器学习对数据进行分类的各种方法。其中包括使用神经网络或人工神经网络(ANN)对数据进行分类的方法。可以通过设计其中执行高效识别模式的过程的人脑的细胞结构模型来获得ANN。ANN是指基于软件或硬件并且旨在通过应用通过连接线互连的许多人工神经元来模仿生物计算能力的计算模型。人脑由作为神经的基本单元的神经元组成，并且根据这些神经元之间不同类型的密集连接对信息进行加密或解密。ANN中的人工神经元是通过生物神经元功能的简化来获得的。ANN通过互连具有连接强度的人工神经元来执行认知或学习过程。

最近，已经研究了深度学习过程和服务以克服ANN的局限性，并且随着深度学习过程和服务的开发，研究者正在进行分析和优化改进神经网络模型的各种研究项目。传统上，使用通用算法的优化技术已经被使用。

发明内容

本公开的至少一个示例实施例提供了一种高效地优化神经网络模型以最适用或最适合于目标设备的方法。

本公开的至少一个示例实施例提供了一种执行优化神经网络模型的方法的神经网络模型处理系统。

本公开的至少一个示例实施例提供了一种高效地操作神经网络模型的方法。

根据示例实施例，在优化神经网络模型的方法中，接收关于第一神经网络模型的第一模型信息。接收关于用于执行第一神经网络模型的第一目标设备的设备信息。基于第一模型信息、设备信息以及多个适合性确定算法中的至少一个，执行对第一神经网络模型是否适合于在第一目标设备上执行的分析。输出分析的结果，使得第一模型信息和分析的结果显示在屏幕上。

根据示例实施例，神经网络模型处理系统包括输入设备、存储设备、输出设备和处理器。输入设备接收关于第一神经网络模型的第一模型信息和关于用于执行第一神经网络模型的第一目标没备的设备信息。存储设备存储关于程序例程的信息。程序例程被配置为使处理器：基于第一模型信息、设备信息以及多个适合性确定算法中的至少一个来执行对第一神经网络模型是否适合于在第一目标设备上执行的分析；以及生成分析的结果，使得第一模型信息和分析的结果显示在屏幕上。输出设备可视地输出分析的结果。处理器连接到输入设备、存储设备和输出设备，并且控制程序例程的执行。

根据示例实施例，在优化神经网络模型的方法中，提供了用于优化神经网络模型的图形用户界面(GUI)。通过GUI接收关于要优化的第一神经网络模型的第一模型信息。通过GUI接收关于用于执行第一神经网络模型的第一目标设备的设备信息。基于第一模型信息、设备信息以及多个适合性确定算法中的至少一个，执行对第一神经网络模型是否适合于在第一目标设备上执行的分析。在GUI上可视地输出分析的结果，使得第一模型信息和分析的结果显示在一个屏幕上。基于分析的结果通过GUI接收用于从第一神经网络模型的层中选择第一层的第一用户输入。基于第一用户输入将第一层改变为第二层。在GUI上可视地输出将第一层改变为第二层的结果。通过GUI接收用于从第一神经网络模型的层中选择第三层的第二用户输入。基于第二用户输入来改变第三层的量化方案。在GUI上可视地输出改变第三层的量化方案的结果。当执行分析时，通过基于第一算法对第一神经网络模型执行第一分析来获得第一神经网络模型的结构和层的性能分数。第一算法用于确定与第一目标设备相关联的第一神经网络模型的结构和层的性能效率。通过基于第二算法对第一神经网络模型执行第二分析来获得第一神经网络模型的结构和层的复杂度分数。第二算法用于分析第一神经网络模型的结构和层的复杂度和容量。通过基于第三算法对第一神经网络模型执行第三分析来获得第一神经网络模型的结构和层的存储器占用分数。第三算法用于确定与第一目标设备相关联的第一神经网络模型的结构和层的存储器效率。基于性能分数、复杂度分数和存储器占用分数来获得第一神经网络模型的总分数。

根据示例实施例，在方法中，提供了图形用户界面(GUI)。接收关于第一神经网络模型的第一模型信息。接收关于用于执行第一神经网络模型的第一目标设备的设备信息。基于第一模型信息、设备信息以及多个适合性确定算法中的至少一个，执行对第一神经网络模型是否适合于在第一目标设备上执行的分析。在GUI上显示第一图形表示，使得第一模型信息和分析的结果显示在一个屏幕上。第一图形表示包括第一模型信息和分析的结果。在GUI上显示第二图形表示，使得基于分析的结果改变第一神经网络模型的层中的至少一个的结果被显示。第二图形表示包括改变第一神经网络模型的层中的至少一个的过程和结果。

附图说明

根据结合附图的以下详细描述，将更清楚地理解说明性的非限制性示例实施例。

图1是示出了根据示例实施例的优化神经网络模型的方法的流程图。

图2、图3和图4是示出了根据示例实施例的神经网络模型处理系统的框图。

图5A、图5B、图5C和图6是用于描述作为根据示例实施例的优化神经网络模型的方法的目标的神经网络模型的示例的图。

图7是示出了执行图1中的分析的示例的流程图。

图8是示出了执行图7中的第一分析的示例的流程图。

图9是示出了执行图1中的分析的示例的流程图。

图10是示出了执行图9中的第二分析的示例的流程图。

图11是示出了执行图1中的分析的示例的流程图。

图12和图13是示出了执行图11中的第三分析的示例的流程图。

图14是示出了执行图1中的分析的示例的流程图。

图15是示出了图1的优化神经网络模型的方法的示例的流程图。

图16A、图16B、图16C、图16D、图16E和图16F是用于描述图15的操作的图。

图17是示出了根据示例实施例的优化神经网络模型的方法的流程图。

图18是示出了图17中的改变第一神经网络模型的层中的至少一个的示例的流程图。

图19是示出了图17的优化神经网络模型的方法的示例的流程图。

图20A、图20B、图20C和图20D是用于描述图19的操作的图。

图21是示出了根据示例实施例的优化神经网络模型的方法的流程图。

图22是示出了图21中的将不同量化方案应用于第一神经网络模型的层中的至少一些的示例的流程图。

图23是示出了图21的优化神经网络模型的方法的示例的流程图。

图24A、图24B和图24C是用于描述图23的操作的图。

图25是示出了根据示例实施例的执行优化神经网络模型的方法的系统的框图。

具体实施方式

将参考其中示出了示例实施例的附图更全面地描述各种示例实施例。然而，本公开可以按多种不同形式来实现，并且不应当被解释为受到本文阐述的示例实施例的限制。贯穿本申请，类似的附图标记表示类似的元件。

参考图1，根据示例实施例的优化神经网络模型的方法由基于计算机的神经网络模型处理系统执行和/或实施，在基于计算机的神经网络模型处理系统中，组件中的至少一些用硬件和/或软件来实现。将参考图2、图3和图4来描述神经网络模型处理系统的详细配置。

在根据示例实施例的优化神经网络模型的方法中，接收第一神经网络模型的第一模型信息(步骤S100)。例如，第一神经网络模型可以是已经完成训练的神经网络模型(例如，经预训练的神经网络模型)，或者可以是正在执行训练的神经网络模型。换句话说，根据示例实施例的优化神经网络模型的方法可以在完成对第一神经网络模型的训练之后执行和/或实施，或者在执行对第一神经网络模型的训练的同时执行和/或实施。将参考图5A、图5B和图5C来描述神经网络模型的示例。

对神经网络模型的训练(或训练操作)指示当给定要解决的任务和任务的一组函数时以优化的方式解决任务的过程，并且指示用于改进或增强神经网络模型的性能和/或准确性的过程。例如，对神经网络模型的训练可以包括确定神经网络模型的网络结构的操作、确定神经网络模型中使用的诸如权重之类的参数的操作等。此外，在对神经网络模型进行训练期间，在保持架构和数据类型的同时，可以改变除了架构和数据类型之外的参数。

接收用于执行或驱动第一神经网络模型的第一目标设备的设备信息(步骤S200)。例如，第一目标设备可以包括执行或驱动第一神经网络模型的处理元件和/或包括该处理元件的神经网络系统(或电子系统)。将参考图6来描述神经网络系统的示例。

基于第一模型信息、设备信息以及多个适合性确定算法中的至少一个，执行对第一神经网络模型是否适合于在第一目标设备上执行或驱动的分析(步骤S300)。例如，多个适合性确定算法可以包括用于确定第一神经网络模型的性能效率的第一算法、用于分析第一神经网络模型的复杂度和容量的第二算法、用于确定第一神经网络模型的存储器效率的第三算法等。将参考图7至图14来描述步骤S300中的多个适合性确定算法和分析的示例。

可视化并且输出分析的结果，使得第一模型信息和分析的结果显示在屏幕上(步骤S400)。例如，可以使用图形用户界面(GUI)来执行步骤S400。例如，可以基于分数和颜色中的至少一个来显示分析的结果，并且可以在GUI上显示包括第一模型信息和分析的结果的图形表示，使得第一模型信息和分析的结果一起被显示。将参考图16A、图16B、图16C、图16D、图16E、图16F、图20A、图20B、图20C、图20D、图24A、图24B和图24C来描述GUI。

在根据示例实施例的优化神经网络模型的方法中，可以高效地实现被确定为最适用或最适合于目标设备的神经网络模型。例如，在对神经网络模型执行训练之前，可以设计针对目标设备优化的神经网络模型。在对神经网络模型完成训练之后，可以检查和/或确定神经网络模型是否适合于目标设备，并且如果需要，可以修改神经网络模型和/或可以建议更合适的新配置。此外，通过将合适的量化方案应用于神经网络模型的每个组件，可以获得优化的性能。此外，可以提供用于这种操作的GUI。因此，用户可以高效地将神经网络模型设计和修改为针对目标设备是最优化的，并且可以应用合适的量化方案。

参考图2，神经网络模型处理系统1000是基于计算机的神经网络模型处理系统，并且包括处理器1100、存储设备1200和输入/输出(I/O)设备1300。I/O设备1300包括输入设备1310和输出设备1320。

处理器1100可以用于执行根据示例实施例的优化神经网络模型的方法。例如，处理器1100可以包括微处理器、应用处理器(AP)、数字信号处理器(DSP)、图形处理单元(GPU)等。尽管图2中仅示出了一个处理器1100，但是示例实施例不限于此。例如，神经网络模型处理系统1000中可以包括多个处理器。此外，处理器1100可以包括高速缓冲存储器以增加计算容量。

存储设备1200可以存储和/或包括用于根据示例实施例的优化神经网络模型的方法的程序(PR)1210。存储设备1200还可以存储和/或包括用于执行根据示例实施例的优化神经网络模型的方法的适合性确定算法(SDA)1220、更新算法(UA)1230和量化方案(QS)1240。可以从存储设备1200向处理器1100提供程序1210、适合性确定算法1220、更新算法1230和量化方案1240。

在一些示例实施例中，存储设备1200可以包括用于向计算机提供命令和/或数据的各种非暂时性计算机可读存储介质中的至少一种。例如，非暂时性计算机可读存储介质可以包括易失性存储器(例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)等)和/或非易失性存储器(例如闪存、磁阻随机存取存储器(MRAM)、相变随机存取存储器(PRAM)、电阻随机存取存储器(RRAM)等)。非暂时性计算机可读存储介质可以插入计算机中，可以集成在计算机中，或者可以通过诸如网络和/或无线链路之类的通信介质连接到计算机。

输入设备1310可以用于接收用于根据示例实施例的优化神经网络模型的方法的输入。例如，输入设备1310可以接收模型信息MI和设备信息DI，并且还可以接收用户输入。例如，输入设备1310可以包括各种输入装置(例如键盘、键区、触摸板、触摸屏、鼠标、远程控制器等)中的至少一种。

输出设备1320可以用于提供用于根据示例实施例的优化神经网络模型的方法的输出。例如，输出设备1320可以提供可视化输出VOUT。例如，输出设备1320可以包括用于显示可视化输出VOUT的输出装置(例如显示设备)，并且还可以包括各种输出装置(例如扬声器、打印机等)中的至少一种。

神经网络模型处理系统1000可以执行参考图1描述的根据示例实施例的优化神经网络模型的方法。例如，输入设备1310可以接收第一神经网络模型的第一模型信息(例如，模型信息MI)和用于执行或驱动第一神经网络模型的第一目标设备的设备信息(例如，设备信息DI)。存储设备1200可以存储程序例程的信息，并且程序例程可以被配置为：基于第一模型信息、设备信息以及多个适合性确定算法中的至少一个，执行对第一神经网络模型是否适合于在第一目标设备上执行的分析；以及生成分析的结果，使得第一模型信息和分析的结果显示在屏幕上。输出设备1320可以可视化并且输出分析的结果。处理器1100可以连接到输入设备1310、存储设备1200和输出设备1320，并且可以控制程序例程的执行。此外，神经网络模型处理系统1000可以执行将参考图17和图21描述的根据示例实施例的优化神经网络模型的方法。

参考图3，神经网络模型处理系统2000包括处理器2100、I/O设备2200、网络接口2300、随机存取存储器(RAM)2400、只读存储器(ROM)2500和存储设备2600。

在一些示例实施例中，神经网络模型处理系统2000可以是计算系统。例如，计算系统可以是诸如台式计算机、工作站或服务器之类的固定计算系统，或者可以是诸如膝上型计算机之类的便携式计算系统。

处理器2100可以与图2中的处理器1100基本相同或相似。例如，处理器2100可以包括用于执行任意指令集的核或处理器核(例如，因特尔架构-32(IA-32)、64比特扩展IA-32、x86-64、PowerPC、Sparc、MIPS、ARM、IA-64等)。例如，处理器2100可以通过总线访问存储器(例如，RAM 2400或ROM 2500)，并且可以执行RAM 2400或ROM2500中存储的指令。如图3所示，RAM 2400可以存储用于根据示例实施例的优化神经网络模型的方法的程序PR或者程序PR的至少一些元素，并且程序PR可以允许处理器2100执行优化神经网络模型的操作。

换句话说，程序PR可以包括可由处理器2100执行的多个指令和/或过程，并且程序PR中包括的多个指令和/或过程可以允许处理器2100执行根据示例实施例的优化神经网络模型的方法。每个过程可以表示用于执行特定任务的一系列指令。过程可以被称为函数、例程、子例程或子程序。每个过程可以处理从外部提供的数据和/或由其他过程产生的数据。

存储设备2600可以与图2中的存储设备1200基本相同或相似。例如，存储设备2600可以存储程序PR，并且可以存储适合性确定算法SDA、更新算法UA和量化方案QS。在由处理器2100执行之前，可以将程序PR或者程序PR的至少一些元素从存储设备2600加载到RAM2400。存储设备2600可以存储以程序语言编写的文件，并且由编译器产生的程序PR或者程序PR的至少一些元素可以被加载到RAM 2400。

存储设备2600可以存储将由处理器2100处理的数据、或者通过处理器2100的处理获得的数据。处理器2100可以基于程序PR处理存储设备2600中存储的数据以产生新数据，并且可以将所产生的数据存储在存储设备2600中。

I/O设备2200可以与图2中的I/O设备1300基本相同或相似。I/O没备2200可以包括诸如键盘、指示设备等的输入设备，并且可以包括诸如显示设备、打印机等的输出设备。例如，用户可以通过I/O设备2200触发处理器2100对程序PR的执行，可以输入图2中的模型信息MI和设备信息DI和/或图4中的用户输入UI，并且可以检查图2中的可视化输出VOUT和/或图4中的图形表示GR。

网络接口2300可以提供对神经网络模型处理系统2000外部的网络的访问。例如，网络可以包括多个计算系统和通信链路，并且通信链路可以包括有线链路、光链路、无线链路或任意其他类型的链路。可以通过网络接口2300向神经网络模型处理系统2000提供图2中的模型信息MI和设备信息DI和/或图4中的用户输入UI，并且可以通过网络接口2300向另一计算系统提供图2中的可视化输出VOUT和/或图4中的图形表示GR。

参考图4，神经网络模型优化模块100可以由图2的神经网络模型处理系统1000和图3的神经网络模型处理系统2000来执行和/或控制。神经网络模型优化模块100可以包括GUI控制模块200和分析模块300，并且还可以包括更新模块400和量化模块500。神经网络模型优化模块100可以提供用于优化神经网络模型的GUI。

本文中，术语“模块”可以是指但不限于执行特定任务的软件和/或硬件组件，诸如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。模块可以被配置为驻留在有形可寻址存储介质上，并且被配置为在一个或多个处理器上执行。例如，“模块”可以包括诸如软件组件、面向对象的软件组件、类组件和任务组件之类的组件，并且可以包括过程、函数、例程、程序代码段、驱动器、固件、微代码、电路、数据、数据库、数据结构、表、数组和变量。“模块”可以划分为执行详细功能的多个“模块”。

分析模块300可以基于适合性确定算法(例如，图2和图3中的适合性确定算法SDA)来执行对神经网络模型是否适合于在目标设备上执行的分析(或分析操作)。

分析模块300可以包括针对目标设备的预列出表(PT)310、性能估计器(PE)320、针对目标设备的经预训练的深度学习模型(PM)330、复杂度确定单元(CD)340、容量测量单元(CM)350和存储器估计器(ME)360。将参考图7至图14描述与使用每个组件的分析相关联的详细操作。

更新模块400可以基于更新算法(例如，图2和图3中的更新算法UA)来执行对神经网络模型的更新(或更新算法)。例如，对神经网络模型的更新可以包括设置改变、层改变等。将参考图17描述与更新相关联的详细操作。

量化模块500可以基于量化方案(例如，图2和图3中的量化方案QS)来执行对神经网络模型的量化(或量化操作)。将参考图21描述与量化相关联的详细操作。

GUI控制模块200可以控制GUI执行对神经网络模型的优化。例如，GUI控制模块200可以控制GUI接收用户输入UI并且输出图形表示GR。例如，用户输入UI可以包括图2中的模型信息MI和设备信息DI，并且图形表示GR可以与图2中的可视化输出VOUT相对应。

在一些示例实施例中，神经网络模型优化模块100的至少一些元件可以被实现为指令代码或程序例程(例如，软件程序)。例如，指令代码或程序例程可以由基于计算机的电子系统执行，并且可以存储在位于基于计算机的电子系统内部或外部的任何存储设备中。在其他示例实施例中，神经网络模型优化模块100的至少一些元件可以被实现为硬件。例如，神经网络模型优化模块100的至少一些元件可以被包括在基于计算机的电子系统中。

图5A、图5B和图5C示出了神经网络模型的网络结构的示例，并且图6示出了用于执行和/或驱动神经网络模型的神经网络系统的示例。例如，神经网络模型可以包括以下中的至少一种：人工神经网络(ANN)模型、卷积神经网络(CNN)模型、递归神经网络(RNN)模型、深度神经网络(DNN)模型等。然而，示例实施例不限于此。又例如，神经网络模型可以包括各种学习模型，例如反卷积神经网络、堆叠神经网络(SNN)、状态空间动态神经网络(SSDNN)、深度置信网络(DBN)、生成对抗网络(GAN)和/或受限玻尔兹曼机(RBM)。备选地或附加地，神经网络模型可以包括其他形式的机器学习模型，例如线性和/或逻辑回归、统计聚类、贝叶斯分类、决策树、诸如主成分分析之类的降维和专家系统、和/或其组合，包括诸如随机森林之类的集成。

参考图5A，通用神经网络可以包括输入层IL、多个隐藏层HL1、HL2、...、HLn和输出层OL。

输入层IL可以包括i个输入节点x₁、x₂、..、x_i，其中i是自然数。长度为i的输入数据(例如，矢量输入数据)IDAT可以输入到输入节点x₁、x₂、...、x_i，使得输入数据IDAT的每个元素被输入到输入节点x₁、x₂、...、x_i中的相应一个。

多个隐藏层HL1、HL2、...、HLn可以包括n个隐藏层，其中n是自然数，并且可以包括多个隐藏节点h¹ ₁、h¹ ₂、h¹ ₃、...、h¹ _m、h² ₁、h² ₂、h² ₃、...、h² _m、hⁿ ₁、hⁿ ₂、hⁿ ₃、...、hⁿ _m。例如，隐藏层HL1可以包括m个隐藏节点h¹ ₁、h¹ ₂、h¹ ₃、...、h^l _m，隐藏层HL2可以包括m个隐藏节点h² ₁、h² ₂、h² ₃、...、h² _m，并且隐藏层HLn可以包括m个隐藏节点hⁿ ₁、hⁿ ₂、hⁿ ₃、...、hⁿ _m，其中m是自然数。

输出层OL可以包括j个输出节点y₁、y₂、...、y_j，其中j是自然数。输出节点y₁、y₂、...、y_j中的每一个可以对应于要归类的类中的相应一个。输出层OL可以生成针对每个类的与输入数据IDAT相关联的输出值(例如，类分数或数值输出，例如回归变量)和/或输出数据ODAT。在一些示例实施例中，输出层OL可以是全连接层，并且可以指示例如输入数据IDAT对应于汽车的概率。

图5A中所示的神经网络的结构可以由关于节点之间的分支(或连接)(示出为线)的信息和分配给每个分支的加权值(未示出)来表示。在一些神经网络模型中，一层内的节点可以不彼此连接，但是不同层的节点可以彼此完全或部分地连接。在一些其他神经网络模型(例如无限制玻尔兹曼机)中，除了(或备选地)其他层的一个或多个节点之外，一层内的至少一些节点也可以连接到一层内的其他节点。

每个节点(例如，节点h¹ ₁)可以接收先前节点(例如，节点x₁)的输出，可以对所接收的输出执行计算操作、运算或计算，并且可以输出计算操作、运算或计算的结果作为到后续节点(例如，节点h² ₁)的输出。每个节点可以通过将输入应用于特定函数(例如，非线性函数)来计算要输出的值。

在一些示例实施例中，预先设置神经网络的结构，并且通过使用数据来适当地设置节点之间的连接的加权值，其中该数据属于哪个类的答案(有时被称为“标签”)已知。具有已知答案的数据有时被称为“训练数据”，并且确定加权值的过程有时被称为“训练”。神经网络在训练过程期间“学习”将数据与对应的标签相关联。一组可独立训练的结构和加权值有时被称为“模型”，并且通过具有确定的加权值的模型来预测输入数据属于哪个类，然后输出预测值的过程有时被称为“测试”过程。

图5A中所示的通用神经网络可能不适合于处理输入图像数据(或输入声音数据)，因为每个节点(例如，节点h¹ ₁)连接到先前层的所有节点(例如，包括在层IL中的节点x₁、x₂、...、x_i)，然后随着输入图像数据的大小增加，加权值的数量急剧增加。因此，已经研究了通过将滤波技术与通用神经网络组合而实现的CNN，使得通过CNN高效地训练二维图像(例如，输入图像数据)。

参考图5B，CNN可以包括多个层CONV1、RELU1、CONV2、RELU2、POOL1、CONV3、RELU3、CONV4、RELU4、POOL2、CONV5、RELU5、CONV6、RELU6、POOL3和FC。这里，CONV是卷积层，RELU是修正线性单元，POOL是池化层，并且FC是全连接层。

与通用神经网络不同，CNN的每个层可以具有宽度、高度和深度三个维度，因此输入到每个层的数据可以是具有宽度、高度和深度三个维度的体数据。例如，如果图5B中的输入图像具有32个宽度(例如，32个像素)和32个高度以及三个颜色通道R、G和B的大小，对应于输入图像的输入数据IDAT可以具有32×32×3的大小。图5B中的输入数据IDAT可以被称为输入体数据或输入激活体。

卷积层CONV1、CONV2、CONV3、CONV4、CONV5和CONV6中的每一个可以对输入体数据执行卷积运算。在图像处理中，卷积运算指示基于具有加权值的掩模处理图像数据的操作，并且通过将输入值乘以加权值并将总乘积结果相加来获得输出值。掩模可以被称为滤波器、窗或内核。

每个卷积层的参数可以包括一组可学习的滤波器。每个滤波器可以在空间上较小(沿宽度和高度)，但可以延伸过输入体的整个深度。例如，在正向传导期间，每个滤波器可以在输入体的宽度和高度上滑动(例如，卷积)，并且可以在任何位置处在滤波器和输入的条目之间计算点积。当滤波器在输入体的宽度和高度上滑动时，可以生成二维激活图，该二维激活图与在每个空间位置处的该滤波器的响应相对应。结果，可以通过沿深度维度堆叠这些激活图来生成输出体。例如，如果具有32×32×3大小的输入体数据通过具有四个有零填充的滤波器的卷积层CONV1，则卷积层CONV1的输出体数据可以具有32×32×12的大小(例如，体数据的深度增加)。

RELU层RELU1、RELU2、RELU3、RELU4、RELU5和RELU6中的每一个可以执行修正线性单元(RELU)运算，其对应于由例如函数f(x)＝max(0，x)定义的激活函数(例如，对于所有负输入x，输出为零)。例如，如果具有32×32×12大小的输入体数据通过RELU层RELU1以执行修正线性单元运算，则RELU层RELU1的输出体数据可以具有32×32×12的大小(例如，保持体数据的大小)。

池化层POOL1、POOL2和POOL3中的每一个可以沿着宽度和高度的空间维度对输入体数据执行下采样运算。例如，以2×2矩阵形式排列的四个输入值可以基于2×2滤波器被转换为一个输出值。例如，可以基于2×2最大池化来选择以2×2矩阵形式排列的四个输入值的最大值，或者可以基于2×2平均池化来获得以2×2矩阵形式排列的四个输入值的平均值。例如，如果具有32×32×12大小的输入体数据通过具有2×2滤波器的池化层POOL1，则池化层POOL1的输出体数据可以具有16×16×12的大小(例如，体数据的宽度和高度减小，并且体数据的深度保持)。

通常，一个卷积层(例如，CONV1)和一个RELU层(例如，RELU1)可以在CNN中形成CONV/RELU层对，CONV/RELU层对可以在CNN中重复排列，并且可以在CNN中周期性地插入池化层，从而减小图像的空间大小并提取图像特征。

输出层或全连接层FC可以输出针对每个类的输入体数据IDAT的结果(例如，类分数)。例如，当重复进行卷积运算和下采样运算时，可以将与二维图像相对应的输入体数据IDAT转换为一维矩阵或矢量。例如，全连接层FC可以指示输入体数据IDAT对应于汽车、卡车、飞机、船和马的概率。

包括在CNN中的层的类型和数量可以不限于参考图5B描述的示例，并且可以根据示例实施例改变。此外，尽管在图5B中未示出，但是CNN还可以包括其他层，例如softmax层和偏置添加层等，softmax层用于将对应于预测结果的分数值转换为概率值，偏置添加层用于添加至少一个偏置。

参考图5C，RNN可以包括使用图5C的左侧所示的特定节点或单元N的重复结构。

图5C的右侧所示的结构可以指示左侧所示的RNN的递归连接被展开(或铺开)。术语“展开”意味着网络被写出或示出为包括所有节点NA、NB和NC的完整或整个序列。例如，如果感兴趣的序列是3个单词的句子，则RNN可以展开为3层神经网络，每个单词一层(例如，没有递归连接或没有循环)。

在图5C中的RNN中，X指示RNN的输入。例如，Xt可以是在时间步骤t处的输入，并且X_t-1和X_t+1可以分别是在时间步骤t-1和t+1处的输入。

在图5C中的RNN中，S指示隐藏状态。例如，S_t可以是在时间步骤t处的隐藏状态，并且S_t-1和S_t+1可以分别是在时间步骤t-1和t+1处的隐藏状态。可以基于先前的隐藏状态和在当前步骤处的输入来计算隐藏状态。例如，S_t＝f(UX_t+WS_t-1)。例如，函数f通常可以是诸如tanh或RELU之类的非线性函数。计算第一隐藏状态所需的S_-1通常可以初始化为全零。

在图5C中的RNN中，O指示RNN的输出。例如，O_t可以是在时间步骤t处的输出，并且O_t-1和O_t+1可以分别是在时间步骤t-1和t+1处的输出。例如，如果需要预测句子中的下一个单词，它将是跨词汇表的概率的矢量。例如，O_t＝softmax(VS_t)。

在图5C中的RNN中，隐藏状态可以是网络的“记忆”。例如，RNN可以具有“记忆”，其可以捕获关于到目前为止已计算了什么的信息。隐藏状态S_t可以捕获关于所有先前时间步骤中发生了什么的信息。输出O_t可以仅基于在当前时间步骤t处的记忆来计算。此外，与在每一层处使用不同参数的传统神经网络不同，RNN可以跨所有时间步骤共享相同的参数(例如，图5C中的U、V和W)。这可以指示可以在每个步骤处仅以不同的输入来执行相同任务的事实。这可以大大减少需要训练或学习的参数总数。

参考图6，神经网络系统600可以包括用于执行和/或驱动神经网络模型的多个异构资源、以及用于管理和/或控制多个异构资源的资源管理器601。

多个异构资源可以包括中央处理单元(CPU)610、神经处理单元(NPU)620、图形处理单元(GPU)630、数字信号处理器(DSP)640和图像信号处理器(ISP)650，并且还可以包括专用硬件(DHW)660、存储器(MEM)670、直接存储器访问单元(DMA)680和连接690。CPU 610、NPU 620、GPU 630、DSP 640、ISP 650和专用硬件660可以被称为处理器、处理单元(PE)、计算资源等。DMA 680和连接690可以被称为通信资源。

CPU 610、NPU 620、GPU 630、DSP 640、ISP 650和专用硬件660可以执行诸如特定的计算和任务之类的各种计算功能，并且可以用于执行神经网络模型。例如，专用硬件660可以包括视觉处理单元(VPU)、视觉知识产权(VIP)等。存储器670可以用作工作存储器或针对由多个异构资源处理的数据的数据存储，并且可以存储与神经网络模型相关联的数据。DMA 680可以控制对存储器670的访问。例如，DMA680可以包括存储器DMA(MDMA)、外围DMA(PDMA)、远程DMA(RDMA)、智能DMA(SDMA)等。连接690可以执行与内部元件和/或外部设备的有线/无线通信。例如，连接690可以包括支持诸如系统总线、外围组件互连(PCI)、PCI快速(PCIe)等的内部通信的内部总线和/或可以支持诸如移动电信、通用串行总线(USB)、以太网、WiFi、蓝牙、近场通信(NFC)、射频识别(RFID)等的外部通信。

尽管在图6中未示出，但是计算资源还可以包括微处理器、应用处理器(AP)、定制硬件、压缩硬件等，并且通信资源还可以包括能够复制存储器的资源等。

在一些示例实施例中，神经网络系统600可以包括在任何计算设备和/或移动设备中。

在一些示例实施例中，各种服务和/或应用(例如计算机视觉(例如，图像分类、图像检测、图像分割、图像跟踪等)服务、基于生物信息或生物计量数据的用户认证服务、高级驾驶员辅助系统(ADAS)服务、语音助理服务、自动语音识别(ASR)服务等)中的至少一种可以由参考图5A、图5B和图5C描述的神经网络模型和参考图6描述的神经网络系统600来执行、实施和/或处理。

图7是示出了执行图1中的分析的示例的流程图。

参考图1和图7，当执行对第一神经网络模型是否适合于在第一目标设备上执行的分析(步骤S300)时，用于执行分析的多个适合性确定算法可以包括第一算法，第一算法用于确定与第一目标设备相关联的第一神经网络模型的结构和层的性能效率，并且可以基于第一算法对第一神经网络模型执行第一分析(步骤S310)。例如，步骤S310可以由图4中的分析模块300执行。

如参考图5A、图5B和图5C所描述的，第一神经网络模型可以包括具有各种特性的多个层，并且可以具有若干层被分组在一起的结构(或网络结构)。在第一神经网络模型的结构和层中，可能存在不适用或不适合于第一目标设备的操作的结构、层和/或元素。在步骤S310中，可以确定或检查第一神经网络模型的结构和层对于第一目标设备是否高效，并且可以在步骤S400中对确定的结果进行评分和可视化显示。

图8是示出了执行图7中的第一分析的示例的流程图。

参考图7和图8，当基于第一算法对第一神经网络模型执行第一分析(步骤S310)时，可以使用针对第一目标设备的预列出表(例如，图4中的预列出表310)来获得第一神经网络模型的结构和层的第一分数(步骤S312)。

例如，可以基于预列出表310来分析第一神经网络模型的结构和层对于第一目标设备是否高效(步骤S312a)，并且可以基于步骤S312a的结果来获得第一分数(步骤S312b)。例如，在步骤S312a中使用的预列出表310可以是预定义了对于第一目标设备中的推理高效和/或低效的结构和层的表或列表。例如，预列出表310可以包括在模型信息(例如，图2中的模型信息MI)中，并且可以与模型信息MI一起接收。例如，步骤S312b中的评分可以基于效率的顺序来执行，并且可以针对具有较高效率的结构或层给予较高的分数，并且可以针对具有较低效率的结构或层给予较低的分数。

此外，可以通过使用性能估计器(例如，图4中的性能估计器320)预测第一神经网络模型的结构和层的处理时间来获得第一神经网络模型的结构和层的第二分数(步骤S314)。

例如，可以使用性能估计器320分析第一神经网络模型的结构和层的性能(步骤S314a)，并且可以基于步骤S314a的结果来获得第二分数(步骤S314b)。例如，在步骤S314a中使用的性能估计器320可以是用于估计神经网络模型的处理时间的工具，并且可以以软件和/或硬件的形式实现。例如，可以执行步骤S314b中的评分，使得降低性能的结构和/或层被表示，并且可以针对具有较高性能的结构或层给予较高的分数，并且可以针对具有较低性能的结构或层给予较低的分数。

此外，可以使用针对第一目标设备的经预训练的深度学习模型(例如，图4中的经预训练的深度学习模型330)来获得第一神经网络模型的结构和层的第三分数(步骤S316)。

例如，在步骤S316中使用的经预训练的深度学习模型330可以是取决于第一目标设备而使用不同组件训练的模型。例如，经预训练的深度学习模型330可以包括在模型信息MI中，并且可以与模型信息MI一起接收。例如，步骤S316中的评分可以基于经预训练的深度学习模型330的确定输出来执行。

换句话说，在步骤S312中，可以预定义对于第一目标设备中的推理高效和/或低效的模型的结构和/或层，可以使用预列出表310来检测低效层，并且可以提供定义的解决方案。在步骤S314中，可以使用用于估计处理时间的工具来模拟每个组件，并且可以对每个组件的性能进行预测和评分。在步骤S316中，可以通过记录通过在第一目标设备上执行具有各种结构和层的若干模型获得的性能来预训练深度学习模型，并且可以使用经预训练的深度学习模型来测量第一神经网络模型的每一个组件的性能和适合性。

尽管图8示出了步骤S312、S314和S316基本上同时执行，但是示例实施例不限于此，并且步骤S312、S314和S316可以顺序地或以任何给定顺序执行。

可以基于第一分数、第二分数和第三分数来获得第一神经网络模型的结构和层的性能分数(步骤S318)。例如，可以基于加权求和方案来获得性能分数，在加权求和方案中，第一分数、第二分数和第三分数以不同的权重相加。例如，可以针对每个目标设备不同地设置权重。例如，针对第一分数、第二分数和第三分数的第一权重、第二权重和第三权重可以包括在模型信息MI中，并且可以与模型信息MI一起接收。

在一些示例实施例中，可以针对第一神经网络模型的结构和层中的每一个获得第一分数、第二分数、第三分数和性能分数。

图9是示出了执行图1中的分析的示例的流程图。

参考图1和图9，当执行对第一神经网络模型是否适合于在第一目标设备上执行的分析(步骤S300)时，用于执行分析的多个适合性确定算法可以包括第二算法，第二算法用于分析第一神经网络模型的结构和层的复杂度和容量，并且可以基于第二算法对第一神经网络模型执行第二分析(步骤S320)。例如，步骤S320可以由图4中的分析模块300执行。

在步骤S320中，可以通过分析第一神经网络模型的结构和层的复杂度和容量来确定和引导优化点，并且可以在步骤S400中对确定的结果进行评分和可视化显示。

图10是示出了执行图9中的第二分析的示例的流程图。

参考图9和图10，当基于第二算法对第一神经网络模型执行第二分析(步骤S320)时，可以通过确定第一神经网络模型的结构和层的复杂度来获得第一神经网络模型的结构和层的第四分数(步骤S322)。

例如，可以通过使用复杂度确定单元(例如图4中的复杂度确定单元340)来分析第一神经网络模型的结构和层的复杂度(步骤S322a)，并且可以基于步骤S322a的结果来获得第四分数(步骤S322b)。例如，步骤S322a中使用的复杂度确定单元340可以是用于确定神经网络模型的复杂度的工具，并且可以以软件和/或硬件的形式来实现。例如，可以基于针对第一目标设备的复杂度的阈值来执行步骤S322b中的评分，并且可以针对具有较高复杂度的结构或层给予较低的分数，并且可以针对具有较低复杂度的结构或层给予较高的分数。

在一些示例实施例中，用于通过复杂度确定单元340确定复杂度的标准可以包括神经网络模型中包括的参数、单元和层的数量。在一些示例实施例中，用于通过复杂度确定单元340确定复杂度的方案和/或算法可以包括复杂度评估函数，其在Monica Bianchini和Franco Scarselli的论文“On the Complexity of Neural Network Classifiers：AComparison Between Shallow and Deep Architectures”中被公开。然而，示例实施例不限于此，并且可以使用各种标准、方案和/或算法来确定和/或检查复杂度。

此外，可以通过测量第一神经网络模型的结构和层的容量来获得第一神经网络模型的结构和层的第五分数(步骤S324)。

例如，可以通过使用容量测量单元(例如图4中的容量测量单元350)来分析第一神经网络模型的结构和层的容量(步骤S324a)，并且可以基于步骤S324a的结果来获得第五分数(步骤S324b)。例如，在步骤S324a中使用的容量测量单元350可以是用于测量神经网络模型的容量的工具，并且可以以软件和/或硬件的形式来实现。例如，可以取决于容量要求来执行步骤S324b中的评分，并且可以针对具有较大容量的结构或层给予较高的分数，并且可以针对具有较小容量的结构或层给予较低的分数。

在一些示例实施例中，用于通过容量测量单元350测量容量的方案和/或算法可以包括在Aosen Wang等人的论文“Deep Neural Network Capacity”中所公开的算法。然而，示例实施例不限于此，并且可以使用各种标准、方案和/或算法来测量容量。

换句话说，在步骤S322中，可以使用用于确定第一神经网络模型的复杂度的算法来测量第一神经网络模型在第一目标设备上执行的开销程度，并且可以通过测量取决于第一神经网络模型的复杂度的第一目标设备的性能来预测第一神经网络模型的开销。在步骤S324中，可以测量第一神经网络模型的容量，可以使用第一神经网络模型的容量来确定和引导优化点，并且随着第一神经网络模型的容量变大，可以更容易地优化第一神经网络模型。

尽管图10示出了步骤S322和S324基本上同时执行，但是示例实施例不限于此，并且步骤S322和S324可以顺序地或以任何给定顺序执行。

可以基于第四分数和第五分数来获得第一神经网络模型的结构和层的复杂度分数(步骤S326)。例如，可以基于加权求和方案来获得复杂度分数，在加权求和方案中，第四分数和第五分数以不同的权重相加。例如，可以针对每个目标设备不同地设置权重。例如，针对第四分数和第五分数的第四权重和第五权重可以包括在模型信息MI中，并且可以与模型信息MI一起接收。

在一些示例实施例中，可以针对第一神经网络模型的结构和层中的每一个获得第四分数、第五分数和复杂度分数。

图11是示出了执行图1中的分析的示例的流程图。

参考图1和图11，当执行对第一神经网络模型是否适合于在第一目标设备上执行的分析(步骤S300)时，用于执行分析的多个适合性确定算法可以包括第三算法，第三算法用于确定与第一目标设备相关联的第一神经网络模型的结构和层的存储器效率，并且可以基于第三算法对第一神经网络模型执行第三分析(步骤S330)。例如，步骤S330可以由图4中的分析模块300来执行。

在步骤S330中，可以通过分析第一神经网络模型的结构和层的存储器占用来确定和引导取决于存储器利用率的优化点，并且可以在步骤S400中对确定的结果进行评分和可视化显示。

图12和图13是示出了执行图11中的第三分析的示例的流程图。

参考图11和图12，当基于第三算法对第一神经网络模型执行第三分析(步骤S330)时，可以加载第一目标设备的存储器限制(步骤S332)，并且可以基于第一目标设备的存储器限制来获得第一神经网络模型的结构和层的存储器占用分数(步骤S334)。

例如，由于第一目标设备的特性，可以存在诸如SRAM、DRAM等的存储器的限制，因此第一目标设备的性能可以取决于存储器的限制(例如读/写操作)而变化。可以使用存储器估计器(例如，图4中的存储器估计器360)来预先计算取决于第一神经网络模型的结构和/或类型可能在每一个操作中发生的存储器使用、瓶颈点、存储器共享等，因此可以基于预期的性能来设计优化模型。例如，步骤S334中使用的存储器估计器360可以是用于分析神经网络模型的存储器占用的工具，并且可以以软件和/或硬件的形式来实现。

在一些示例实施例中，可以针对第一神经网络模型的结构和层中的每一个获得存储器占用分数。

参考图11和图13，当基于第三算法对第一神经网络模型执行第三分析(步骤S330)时，步骤S332和S334可以分别与图12中的步骤S332和S334基本相同或相似。

当第一神经网络模型在存储器限制内不可用(或不是可用的)(步骤S512：否)时，可以改变、修改或更新第一神经网络模型(步骤S514)。例如，第一神经网络模型可以取决于存储器使用、瓶颈点、存储器共享等而改变。步骤S512和S514可以与稍后将描述的图17中的步骤S500相对应。

当第一神经网络模型在存储器限制内可用(步骤S512：是)时，该过程可以终止而不改变第一神经网络模型。

图14是示出了执行图1中的分析的示例的流程图。

参考图1和图14，当执行对第一神经网络模型是否适合于在第一目标没备上执行的分析(步骤S300)时，步骤S310可以与参考图7和图8描述的步骤S310基本相同或相似，步骤S320可以与参考图9和图10描述的步骤S320基本相同或相似，并且步骤S330可以与参考图11、图12和图13描述的步骤S330基本相同或相似。

可以基于在步骤S310中获得的性能分数、在步骤S320中获得的复杂度分数以及在步骤S330中获得的存储器占用分数来获得第一神经网络模型的总分数(步骤S340)。例如，可以基于加权求和方案来获得总分数，在加权求和方案中，性能分数、复杂度分数和存储器占用分数以不同的权重相加。例如，可以针对每个目标设备不同地设置权重。例如，针对性能分数、复杂度分数和存储器占用分数的权重可以包括在模型信息MI中，并且可以与模型信息MI一起接收。

图15是示出了图1的优化神经网络模型的方法的示例的流程图。将省略与图1重复的描述。

参考图15，在根据示例实施例的优化神经网络模型的方法中，提供了用于优化神经网络模型的GUI(步骤S1100)。稍后将描述GUI的详细配置。

通过GUI接收第一神经网络模型的第一模型信息(步骤S100a)。通过GUI接收用于执行或驱动第一神经网络模型的第一目标设备的设备信息(步骤S200a)。基于第一模型信息、设备信息以及多个适合性确定算法中的至少一个，执行对第一神经网络模型是否适合于在第一目标设备上执行或驱动的分析(步骤S300)。在GUI上显示分析的结果，使得第一模型信息和分析的结果显示在屏幕上(步骤S400a)。步骤S100a、S200a和S400a可以分别与图1中的步骤S100、S200和S400相似，并且步骤S300可以与图1中的步骤S300基本相同或相似。例如，步骤S300和S400a可以由图4中的分析模块300和GUI控制模块200来执行。

参考图15和图16A，在步骤S400a中，可以在初始操作时间处在GUI上显示包括第一神经网络模型的结构和层的图形表示GR11。例如，图形表示GR11可以包括在第一神经网络模型的输入和输出之间的多个层LAYER1、LAYER2、LAYER3、LAYER4、LAYER5和LAYER6的网络结构。例如，图形表示GR11可以包括多个层框(例如，矩形)和多个箭头，其中每个层框对应于多个层中的相应一个，每个箭头指示层之间的连接。

参考图15、图16B、图16C、图16D、图16E和图16F，在步骤S400a中，可以在GUI上显示图形表示GR12、GR13、GR14、GR15和GR16，每个图形表示包括第一神经网络模型的结构和层以及分析的结果。例如，可以基于对图形表示GR12、GR13、GR14、GR15和GR16中包括的菜单110中包括的按钮112、114、116和118中的一个的选择来显示分析的结果。

图16B、图16C、图16D和图16E示出了基于分数显示分析的结果的示例。在图16B的示例中，可以选择与性能分数相对应的按钮114，并且可以在GUI上显示图形表示GR12，图形表示GR12包括多个层LAYER1至LAYER6和通过步骤S310获得的作为第一分析的结果的多个性能分数SVP1、SVP2、SVP3、SVP4、SVP5和SVP6。在图16C的示例中，可以选择与复杂度分数相对应的按钮116，并且可以在GUI上显示图形表示GR13，图形表示GR13包括多个层LAYER1至LAYER6和通过步骤S320获得的作为第二分析的结果的多个复杂度分数SVC1、SVC2、SVC3、SVC4、SVC5和SVC6。在图16D的示例中，可以选择与存储器占用分数相对应的按钮118，并且可以在GUI上显示图形表示GR14，图形表示GR14包括多个层LAYER1至LAYER6和通过步骤S330获得的作为第三分析的结果的多个存储器占用分数SVM1、SVM2、SVM3、SVM4、SVM5和SVM6。在图16E的示例中，可以选择与基于性能分数、复杂度分数和存储器占用分数的总分数相对应的按钮112，并且可以在GUI上显示图形表示GR15，图形表示GR15包括多个层LAYER1至LAYER6和通过步骤S340获得的多个总分数SVT1、SVT2、SVT3、SVT4、SVT5和SVT6。

在一些示例性实施例中，图16B、图16C、图16D和图16E的图形表示GR12、GR13、GR14和GR15可以是彼此可切换的。

图16F示出了基于颜色来显示分析的结果的示例。与图16E的示例一样，在图16F的示例中可以选择与总分数相对应的按钮112，并且可以在GUI上显示图形表示GR16，图形表示GR16包括多个层LAYER1至LAYER6和一些彩色层框。为了便于说明，在图16F中通过阴影线来指示颜色，并且具有较高阴影线密度的层框可以对应于具有较深颜色的层框。例如，彩色层LAYER2至LAYER4可以对应于具有相对低的总分数的层，具有较深颜色的层框可以对应于具有较低总分数的层，因此与层LAYER3相对应的总分数SVT3可以是最低的总分数。这仅仅是示例，并且可以使用较深的颜色来指示具有较高总分数的层。尽管未详细示出，但是当选择按钮112、114和116中的一个时，也可以基于颜色来显示分析的结果，与图16F的示例一样。

然而，示例实施例不限于此，并且可以使用不同的形状等来实现图形表示，只要图形表示可以以视觉上可与其他层区分的方式来指示具有较低分数的层。

在一些示例实施例中，可以通过使用包括在神经网络模型处理系统1000中的输入设备1310(例如鼠标或触摸屏)接收用户输入来选择按钮112、114、116和118中的一个。

图17是示出了根据示例实施例的优化神经网络模型的方法的流程图。将省略与图1重复的描述。

参考图17，在根据示例实施例的优化神经网络模型的方法中，步骤S100、S200、S300和S400可以分别与图1中的步骤S100、S200、S300和S400基本相同或相似。

基于分析的结果来改变或修改第一神经网络模型的层中的至少一个(步骤S500)。例如，与步骤S400一样，可以在步骤S500中可视化并输出模型改变的结果，并且可以使用GUI来执行S500。例如，步骤S500可以由图4中的更新模块400来执行。

参考图17和图18，当基于分析的结果来改变第一神经网络模型的层中的至少一个时(步骤S500)，可以从第一神经网络模型的层中选择具有最低分数的第一层(步骤S522)。可以推荐能够替换第一层并且分数高于第一层的至少一个第二层(步骤S524)。可以基于至少一个第二层来改变第一层(步骤S526)。例如，可以基于用户输入(例如，图4中的用户输入UI)来执行步骤S522和S526。例如，可以将第一层改变为第二层。

图19是示出了图17的优化神经网络模型的方法的示例的流程图。将省略与图15和图17重复的描述。

参考图19，在根据示例实施例的优化神经网络模型的方法中，步骤S1100、S100a、S200a、S300和S400a可以分别与图15中的步骤S1100、S100a、S200a、S300和S400a基本相同或相似。

可以在GUI上显示模型改变的过程和结果，使得第一模型信息以及模型改变的过程和结果显示在屏幕上(步骤S500a)。步骤S500a可以与图17中的步骤S500相似。例如，步骤S500a可以由图4中的更新模块400和GUI控制模块200来执行。

图20A、图20B、图20C和图20D是用于描述图19的操作的图。将省略与图16A、图16B、图16C、图16D、图16E和图16F重复的描述。

参考图16E、图16F、图19和图20A，在步骤S500a中，可以从多个层LAYER1到LAYER6中选择具有最低总分数SVT3的层LAYER3，因此可以在GUI上显示包括层LAYER3的信息(在菜单120上)的图形表示GR21。例如，层LAYER3的输入数据的大小可以是(1，64，512，512)，层LAYER3的输出数据的大小可以是(1，137，85，85)，并且层LAYER3可以基于在菜单120上显示的配置来实现。

参考图19和图20B，在步骤S500a中，可以在GUI上显示图形表示GR22，图形表示GR22包括能够替换第一层LAYER3的推荐层LAYER31、LAYER32和LAYER33的信息。例如，第一推荐层LAYER31可以用单个层并且基于菜单122上显示的配置来实现。例如，第二推荐层LAYER32和LAYER33可以用两个层并基于菜单122上显示的配置来实现。例如，当将第一层LAYER3改变为第一推荐层LAYER31时，改变前的模型与改变后的模型之间的相似度可以更高。例如，当将第一层LAYER3改变为第二推荐层LAYER32和LAYER33时，性能可以被更大的改进。

参考图19和图20C，在步骤S500a中，可以选择第一推荐层LAYER31以将层LAYER3改变为第一推荐层LAYER31，并且可以在GUI上显示图形表示GR23，图形表示GR23包括选择第一推荐层LAYER31的操作的图形表示。

参考图19和图20D，在步骤S500a中，在将层LAYER3改变为第一推荐层LAYER31之后，可以在GUI上显示图形表示GR24，图形表示GR24包括改变的模型的多个层LAYER1、LAYER2、LAYER31、LAYER4、LAYER5和LAYER6以及改变的模型的多个总分数SVT1、SVT2、SVT31、SVT4、SVT5和SVT6。例如，改变的层LAYER31的总分数SVT31可以高于改变前的层LAYER3的总分数SVT3。

在一些示例实施例中，可以通过经由包括在神经网络模型处理系统1000中的输入设备1310(例如鼠标或触摸屏)接收用户输入来在图20A和图20C中选择层和对应的层框。

如上所述，可以基于适合性确定算法使用可视界面来改变或修改神经网络模型，并且可以通过重复这样的修改过程来设计针对目标设备优化的神经网络模型。可以提出从简单的修改到新的备选结构，并且可以提供自动优化功能和基于用户输入条件的条件优化功能二者。

图21是示出了根据示例实施例的优化神经网络模型的方法的流程图。将省略与图1重复的描述。

参考图21，在根据示例实施例的优化神经网络模型的方法中，步骤S100、S200、S300和S400可以分别与图1中的步骤S100、S200、S300和S400基本相同或相似。

将不同量化方案应用于第一神经网络模型的层中的至少一些(步骤S600)。例如，与步骤S400一样，可以在步骤S600中可视化并输出量化方案改变的结果，并且可以使用GUI来执行S600。例如，步骤S600可以由图4中的量化模块500来执行。

参考图21和图22，当将不同量化方案应用于第一神经网络模型的层中的至少一些时(步骤S600)，可以接收第一神经网络模型的第二模型信息(步骤S610)。第二模型信息可以在对第一神经网络模型的训练完成之后获得。可以基于第二模型信息从第一神经网络模型的层中选择要改变其量化方案的第三层(步骤S620)。可以改变所选择的第三层的量化方案(步骤S630)。例如，可以基于用户输入(例如，图4中的用户输入UI)来执行步骤S620和S630。

与步骤S100、S200、S300和S400不同，步骤S600可以在对第一神经网络模型的训练完成之后执行。例如，可以通过改变第一模型信息的至少一部分来获得第二模型信息。例如，尽管未详细示出，但是可以在图21中的步骤S400和S600之间执行图17中的步骤S500，以获得第二模型信息。

量化是对神经网络模型的一种压缩。对神经网络模型的压缩(或压缩操作)指示用于在尽可能保持预训练的神经网络模型的性能和/或准确性的同时减少神经网络模型的大小和计算量的过程。量化(或量化操作)指示用于通过将通常以浮点表示的权重减小到特定比特数来减小实际存储神经网络模型的大小的技术。

图23是示出了图21的优化神经网络模型的方法的示例的流程图。将省略与图15和图21重复的描述。

参考图23，在根据示例实施例的优化神经网络模型的方法中，步骤S1100、S100a、S200a、S300和S400a可以分别与图15中的步骤S1100、S100a、S200a、S300和S400a基本相同或相似。

可以在GUI上显示量化方案改变的过程和结果，使得第二模型信息以及量化方案改变的过程和结果显示在屏幕上(步骤S600a)。步骤S600a可以与图21中的步骤S600相似。例如，步骤S600a可以由图4中的量化模块500和GUI控制模块200来执行。

图24A、图24B和图24C是用于描述图23的操作的图。将省略与图16A、图16B、图16C、图16D、图16E、图16F、图20A、图20B、图20C和图20D重复的描述。

参考图23和图24A，在步骤S600a中，可以选择与包括在菜单130中的量化性能相对应的按钮132，并且可以在GUI上显示图形表示GR31，图形表示GR31包括多个层LAYER1、LAYER2、LAYER31、LAYER4、LAYER5和LAYER6以及多个量化性能QP1、QP2、QP3、QP4、QP5和QP6。

参考图23和图24B，在步骤S600a中，可以选择与包括在菜单130中的量化方案的改变相对应的按钮134，可以选择要改变其量化方案的层LAYER31，可以将层LAYER31的量化方案从第一量化方案QS1改变为第二量化方案QS2，并且可以在GUI上显示图形表示GR32，图形表示GR32包括与选择层LAYER31和改变层LAYER31的量化方案的操作相对应的图形表示。层LAYER31可以基于第二量化方案QS2来重新量化，并且应用于层LAYER31的量化方案可以不同于应用于其他层的量化方案。

参照图23和图24C，在步骤S600a中，可以选择包括在菜单130中的按钮132，并且可以在GUI上显示图形表示GR33，图形表示GR33包括多个层LAYER1、LAYER2、LAYER31、LAYER4、LAYER5和LAYER6以及多个量化性能QP1、QP2、QP31、QP4、QP5和QP6。例如，基于第二量化方案QS2的层LAYER31的量化性能QP31可以高于基于第一量化方案QS1的层LAYER31的量化性能QP3。

如上所述，可以检查应用于每个组件的量化方案的准确性，并且可以通过取决于分布恢复程度的损失率对组件应用不同的量化方案来改进准确性。例如，可以通过比较浮点模型的层和特征图的量化准确性来提供取决于损失程度提供针对每个层和特征图的合适的量化方案的算法。通过对每个组件应用不同的量化方案并立即检查结果，可以获得优化的量化性能。用户可以任意设置针对一个或多个组件的目标最小/最大范围，可以设置量化分布模式，并且可以通过不同地应用非对称方案、对称方案等和/或通过应用不同的比特宽度来执行重新量化。

参考图25，系统3000可以包括用户设备3100、云计算环境3200和网络3300。用户设备3100可以包括神经网络模型(NNM)优化引擎前端3110。云计算环境3200可以包括云存储3210、数据库3220、NNM优化引擎后端3230、云NNM引擎3240和库存后端3250。根据示例实施例的优化神经网络模型的方法可以在云环境上实现，并且可以由NNM优化引擎前端3110和/或NNM优化引擎后端3230执行。

本发明构思可以应用于包括深度学习、ANN和/或机器学习系统的各种电子设备和系统。例如，本发明构思可以应用于诸如以下各项的系统：个人计算机(PC)、服务器计算机、数据中心、工作站、移动电话、智能电话、平板计算机、膝上型计算机，个人数字助理(PDA)、便携式多媒体播放器(PMP)、数码相机、便携式游戏机、音乐播放器、摄像机、视频播放器、导航设备、可穿戴设备、物联网(IoT)设备、万物联网(IoE)设备、电子书阅读器、虚拟现实(VR)设备、增强现实(AR)设备、机器人设备、无人机等。

在根据示例实施例的优化神经网络模型的方法和神经网络模型处理系统中，可以高效地实现最适用或最适合于目标设备的神经网络模型。例如，在对神经网络模型执行训练之前，可以设计针对目标设备优化的神经网络模型。在对神经网络模型完成训练之后，可以检查和/或确定神经网络模型是否适合于目标设备，并且如果需要，可以修改神经网络模型和/或可以建议更合适的新配置。此外，通过将合适的量化方案应用于神经网络模型的每个组件，可以获得优化的性能。此外，可以提供用于这种操作的GUI。因此，用户可以高效地将神经网络模型设计和修改为针对目标设备是最优化的，并且可以应用合适的量化方案。

根据示例实施例，由附图中的框表示的组件、元件、模块或单元(在本段中统称为“组件”)中的至少一个可以被体现为执行上述各个功能的各种数量的硬件、软件和/或固件结构。根据示例实施例，这些组件中的至少一个可以使用直接电路结构，诸如存储器、处理器、逻辑电路、查找表等，其可以通过一个或多个微处理器或其他控制装置的控制来执行各个功能。此外，这些组件中的至少一个可以由包含用于执行特定逻辑功能的一个或多个可执行指令并由一个或多个微处理器或其他控制装置执行的模块、程序或一部分代码具体实现。此外，这些组件中的至少一个可以包括执行各个功能的诸如中央处理单元(CPU)之类的处理器、微处理器等，或者由其实现。这些组件中的两个或更多个可以组合成执行所组合的两个或更多个组件的所有操作或功能的一个单个组件。此外，这些组件中的至少一个的至少部分功能可以由这些组件中的另一个执行。上述示例性实施例的功能方面可以在一个或多个处理器上执行的算法中实现。此外，由框表示的组件或者处理步骤可以将任意数量的相关技术用于电子配置、信号处理和/或控制、数据处理等。

前述内容是对示例实施例的说明，而不应被解释为对其的限制。尽管已经描述了一些示例实施例，然而本领域技术人员将容易理解，在不实质上脱离示例实施例的新颖教导和优点的前提下，可以在示例实施例中进行多种修改。因此，所有这种修改旨在被包括在如在权利要求中限定的示例实施例的范围内。因此，应理解，前述内容是对各种示例实施例的说明，而不应被解释成限制于所公开的具体示例实施例，并且对所公开的示例实施例的修改以及其他示例实施例旨在被包括在所附权利要求及其等同物的范围内。

Claims

1.一种优化神经网络模型的方法，所述方法包括：

接收关于第一神经网络模型的第一模型信息；

接收关于用于执行所述第一神经网络模型的第一目标设备的设备信息；

基于所述第一模型信息、所述设备信息以及多个适合性确定算法中的至少一个，执行对所述第一神经网络模型是否适合于在所述第一目标设备上执行的分析；以及

输出所述分析的结果，使得所述第一模型信息和所述分析的结果显示在屏幕上。

2.根据权利要求1所述的方法，其中，所述多个适合性确定算法包括第一算法，所述第一算法用于确定与所述第一目标设备相关联的所述第一神经网络模型的结构和层的性能效率。

3.根据权利要求2所述的方法，其中，执行所述分析包括：

基于所述第一算法对所述第一神经网络模型执行第一分析。

4.根据权利要求3所述的方法，其中，执行所述第一分析包括：

使用针对所述第一目标设备的预列出表来获得所述第一神经网络模型的所述结构和所述层的第一分数；

通过使用性能估计器预测所述第一神经网络模型的所述结构和所述层的处理时间来获得所述第一神经网络模型的所述结构和所述层的第二分数；

使用针对所述第一目标设备的经预训练的深度学习模型来获得所述第一神经网络模型的所述结构和所述层的第三分数；以及

基于所述第一分数、所述第二分数和所述第三分数来获得所述第一神经网络模型的所述结构和所述层的性能分数。

5.根据权利要求1所述的方法，其中，所述多个适合性确定算法包括第二算法，所述第二算法用于分析所述第一神经网络模型的结构和层的复杂度和容量。

6.根据权利要求5所述的方法，其中，执行所述分析包括：

基于所述第二算法对所述第一神经网络模型执行第二分析。

7.根据权利要求6所述的方法，其中，执行所述第二分析包括：

通过确定所述第一神经网络模型的所述结构和所述层的复杂度来获得所述第一神经网络模型的所述结构和所述层的第四分数；

通过测量所述第一神经网络模型的所述结构和所述层的容量来获得所述第一神经网络模型的所述结构和所述层的第五分数；以及

基于所述第四分数和所述第五分数来获得所述第一神经网络模型的所述结构和所述层的复杂度分数。

8.根据权利要求1所述的方法，其中，所述多个适合性确定算法包括第三算法，所述第三算法用于确定与所述第一目标设备相关联的所述第一神经网络模型的结构和层的存储器效率。

9.根据权利要求8所述的方法，其中，执行所述分析包括：

基于所述第三算法对所述第一神经网络模型执行第三分析。

10.根据权利要求9所述的方法，其中，执行所述第三分析包括：

基于所述第一目标设备的存储器限制来获得所述第一神经网络模型的所述结构和所述层的存储器占用分数。

11.根据权利要求10所述的方法，还包括：

基于所述第一神经网络模型在所述存储器限制内不可用来改变所述第一神经网络模型。

12.根据权利要求1所述的方法，其中，执行所述分析包括：

通过基于第一算法对所述第一神经网络模型执行第一分析，获得与所述第一目标设备相关联的所述第一神经网络模型的结构和层的性能分数；

通过基于第二算法对所述第一神经网络模型执行第二分析，获得所述第一神经网络模型的所述结构和所述层的复杂度分数；

通过基于第三算法对所述第一神经网络模型执行第三分析，获得与所述第一目标设备相关联的所述第一神经网络模型的所述结构和所述层的存储器占用分数；以及

基于所述性能分数、所述复杂度分数和所述存储器占用分数来获得所述第一神经网络模型的所述结构和所述层的总分数。

13.根据权利要求1所述的方法，还包括：

基于所述分析的结果来改变所述第一神经网络模型的层中的至少一个。

14.根据权利要求13所述的方法，其中，改变所述第一神经网络模型的所述层中的至少一个包括：

从所述第一神经网络模型的所述层中选择具有最低分数的第一层；

提供分数高于所述第一层的至少一个第二层作为用于替换所述第一层的候选；以及

基于所述至少一个第二层来改变所述第一层。

15.根据权利要求1所述的方法，还包括：

将不同量化方案应用于所述第一神经网络模型的层中的至少一些。

16.根据权利要求15所述的方法，其中，将不同量化方案应用于所述第一神经网络模型的所述层中的至少一些包括：

接收关于所述第一神经网络模型的第二模型信息，所述第二模型信息是在对所述第一神经网络模型的训练完成之后获得的；

改变第三层的量化方案，所述第三层是基于所述第二模型信息从所述第一神经网络模型的所述层中选择的。

17.根据权利要求1所述的方法，其中，所述第一模型信息和所述分析的结果显示在图形用户界面GUI上。

18.根据权利要求1所述的方法，其中，所述分析的结果是基于所述第一神经网络模型的结构和层的分数或颜色中的至少一个来显示的。

19.一种基于计算机的神经网络模型处理系统，包括：

输入设备，被配置为接收关于第一神经网络模型的第一模型信息和关于用于执行所述第一神经网络模型的第一目标设备的设备信息；

存储设备，被配置为存储关于程序例程的信息；

处理器，被配置为读取和执行所述程序例程，所述程序例程使所述处理器：

生成所述分析的结果；以及

输出设备，被配置为可视地输出所述分析的结果。

20.一种优化神经网络模型的方法，所述方法包括：

接收关于第一神经网络模型的第一模型信息；

基于所述第一模型信息、所述设备信息以及多个适合性确定算法中的至少一个，执行对所述第一神经网络模型是否适合于在所述第一目标设备上执行的分析；

在图形用户界面GUI上显示第一图形表示，使得所述第一模型信息和所述分析的结果显示在屏幕上，所述第一图形表示包括所述第一模型信息和所述分析的结果；以及

在所述GUI上显示第二图形表示，使得基于所述分析的结果改变所述第一神经网络模型的层中的至少一个的结果被显示。