CN111201525A

CN111201525A - 运算电路以及运算方法

Info

Publication number: CN111201525A
Application number: CN201880066106.8A
Authority: CN
Inventors: 森正志; 田中进; 桥本和茂
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-10-18
Filing date: 2018-09-20
Publication date: 2020-05-26
Also published as: WO2019077933A1; DE112018004972T5; JP6906622B2; US20200278798A1; JPWO2019077933A1; US11281376B2

Abstract

提供能够缩短整体的处理时间的运算电路。运算电路具有：并行运算电路，包括对包含非零要素和零要素的系数矩阵从右乘以输入矢量，将运算结果输出到输出矢量的多个运算器(CLk)；以及输入接口(122)，包括多个存储电路。输入矢量以及系数矩阵的各要素具有指定应乘以该要素的顺序的索引。各存储电路具有：输入存储电路(133)，按照基于索引的顺序，存储输入矢量的要素；以及系数存储电路(132)，包括按照基于索引的顺序存储构成系数矩阵的行或者列矢量的要素的环形缓冲器。各运算器依次执行存储电路的系数矩阵的要素和输入矢量的对应的要素的乘法，根据该要素的索引，将乘法的结果累计到输出矢量的对应的要素。

Description

运算电路以及运算方法

技术领域

本公开涉及运算电路以及运算方法，例如涉及适用于使用多个运算器并行地实施的运算的运算电路以及运算方法。

背景技术

在图像处理、声纹分析、机器人技术等进行模式识别的大量的领域中，经常使用被称为卷积神经网络(CNN：Convolutional Neural Network)的运算方法。一般，CNN包括进行卷积运算的卷积层、计算局部统计量的池化层(pooling layer)、以及全连接层(fullyconnected layer)。卷积层通过一边在输入特征映像上以像素单位扫描内核(还被称为滤波器)，一边反复进行输入特征映像的对应部分与内核的积和运算(multiply-and-addoperation)，对最终的积和运算结果进行非线性变换，生成输出特征映像。

这些层中的主要的运算是0值要素多的大规模的矩阵(A)与矢量(x)之积、以及偏置(b)的和的运算(Ax+b)。以往，通过利用使用多个运算器的并行处理装置处理运算，缩短运算所花费的时间。

作为使0值要素多的大规模的矩阵(A)和矢量(x)的运算高速化的技术，例如，日本特开2009-251724号公报(专利文献1)公开具有多个运算流水线的矢量处理器。该矢量处理器在成为1个矢量运算命令的运算对象的数据数并非流水线数的整数倍的情况下，使未执行命令的流水线执行接下来的矢量运算命令。由此，实施并行处理的高速化。

另外，日本特开2003-67360号公报(专利文献2)公开以预定的地址顺序读出N个数据并进行积和运算的积和运算装置。该积和运算装置在N个数据包含值0的情况下，在生成储存数据的存储装置的地址时，不生成与作为值0的数据对应的地址。由此，不实施作为值0的数据的积和运算，运算量被削减，实现运算的高速化。

现有技术文献

专利文献

专利文献1：日本特开2009-251724号公报

专利文献2：日本特开2003-67360号公报

发明内容

具有多个运算器的并行运算装置中的矩阵(A)和矢量(x)的积的运算处理基本上大致分为(i)各运算器从外部的装置取入成为运算的对象的矩阵(A)的要素和偏置(b)、输入的矢量(x)的处理、(ii)多个运算器使用取入的数据并行地执行运算的处理、以及(iii)各运算器将运算的结果输出到外部的装置的处理来构成。

根据这样的结构，在并行运算的并行性高时，运算处理时间被缩短，所以易于同时发生从各运算器向外部装置的访问的要求。在同时发生多个访问要求的情况下，需要对来自各运算器的访问要求附加顺序而重新排列等调解，来自外部的装置的数据输入处理(i)和数据输出处理(iii)的处理时间未缩短。因此，尽管并行运算处理被高速化，但是整体的处理时间受到数据输入处理(i)和数据输出处理(iii)的限制，作为结果，无法将整体的处理时间缩短到想象的程度。

专利文献1公开并行运算处理的高速化的技术，但未公开与上述叙述的数据输入处理(i)或者数据输出处理(iii)的处理时间的缩短有关的技术。

另外，专利文献2公开通过不生成与作为值0的数据对应的地址而使运算高速化的技术，但未公开与并行运算处理中的上述叙述的数据输入处理(i)或者数据输出处理(iii)的处理时间的缩短有关的技术。

本公开是考虑上述课题而完成的，其目的在于提供一种能够缩短整体的处理时间的运算电路以及运算方法。

一个实施方式的运算电路具备：并行运算电路，包括构成为对包含非零要素和零要素的系数矩阵从右乘以输入矢量，并将运算结果输出到输出矢量的多个运算器；以及输入接口，包括多个存储电路。运算电路对各运算器，按照应运算的顺序，供给应由该运算器运算的矢量的要素。多个运算器与多个存储电路分别对应。各存储电路具有：输入存储电路，存储输入矢量的要素；以及系数存储电路，具备环形缓冲器，并且，在该环形缓冲器中储存构成系数矩阵的行或者列矢量的要素。输入矢量的要素以及系数矩阵的要素具有指定应乘以该要素的顺序的索引。输入接口构成为将输入矢量和系数矩阵的各要素，根据该要素具有的索引，分别依照顺序，储存到与多个运算器中的1个运算器对应的输入存储电路和系数存储电路的环形缓冲器。各运算器构成为依次执行存储电路的系数矩阵的行或者列矢量的要素和输入矢量的对应的要素的乘法，根据该要素的索引，将该乘法的结果累计到输出矢量的对应的要素。

根据上述实施方式，将输入矢量的要素或者构成系数矩阵的行或者列矢量的要素，根据该要素具有的索引，按照应运算的顺序，储存到与多个运算器中的1个运算器对应的输入存储电路和系数存储电路的环形缓冲器。由此，能够在各运算器实施运算之前，经由输入存储电路或者系数存储电路，按照应运算的顺序，仅准备该运算器的运算所需的输入矢量的要素和构成系数矩阵的行或者列矢量的要素。因此，不需要要素的重排处理，能够缩短并行运算所花费的整体的处理时间。

另外，构成系数矩阵的行或者列矢量的要素被储存到环形缓冲器，所以在反复一边使输入矢量变化一边使用系数矩阵的同一行或者列矢量的要素的运算的情况下，能够在各运算的开始时省略使系数存储电路初始化的处理。另外，通过省略初始化处理，能够缩短并行运算所花费的整体的处理时间。

附图说明

图1是示出利用CNN的运算处理的流程图。

图2是用于说明卷积运算的图。

图3是用于说明特征映像以及内核的展开的图。

图4是将本实施方式1所涉及的运算电路12的结构的一个例子与周边电路关联起来示出的图。

图5是将图4的运算器CLk和输入输出数据关联起来说明的图。

图6是示出本实施方式1所涉及的输入I/F和输出I/F的结构的图。

图7是示出本实施方式1所涉及的输入存储电路、输出存储电路、以及系数存储电路的结构的一个例子的图。

图8是示意性地说明本实施方式1所涉及的存储方式的图。

图9是示出本实施方式1所涉及的输入变换电路的结构的一个例子的图。

图10是示出本实施方式1所涉及的输出变换电路的结构的一个例子的图。

图11是示出图5所示的运算器CLk和应运算的要素的关联的具体例的图。

图12是说明本实施方式1所涉及的并行处理的流程图。

图13是示出本实施方式2所涉及的运算电路12A的输入I/F和输出I/F的结构的图。

图14是示出图13的输入通知电路133C的结构的图。

图15是示出本实施方式3所涉及的运算电路12B的输入I/F和输出I/F的结构的图。

图16是将图15的输出通知电路143的结构与周边电路关联起来示出的图。

图17是示出本实施方式4所涉及的运算电路12B的输入I/F和输出I/F的结构的图。

图18是示出本实施方式5所涉及的运算电路12D的输入I/F和输出I/F的结构的图。

图19是示出本实施方式6所涉及的运算电路12E的输入I/F和输出I/F的结构的图。

图20是示出本实施方式7所涉及的运算电路12F的输入I/F和输出I/F的结构的图。

图21是示出本实施方式8所涉及的运算电路的结构的图。

图22是示出本实施方式9所涉及的运算电路的结构的图。

图23是示出本实施方式10所涉及的运算电路的结构的图。

图24是示意地示出能够执行本发明的各实施方式所涉及的运算电路的依照“矩阵实例(matrix case)”的运算的结构的一个例子的图。

图25是示意地示出能够执行本发明的各实施方式所涉及的运算电路的依照“矩阵实例”的运算的结构的其他例子的图。

(附图标记说明)

12、12A、12B、12C、12D、12E、12F、12G、12H、12I、12J、12K：运算电路；17：端口；61：外部输入装置；62：外部存储装置；63：外部输出装置；x：输入矢量；111、A：系数矩阵；121：并行运算电路；124：共享存储器；131、131A：输入变换电路；132、132D：系数存储电路；133：输入存储电路；133A、133B：二重化输入存储电路；133C：输入通知电路；141：输出变换电路；142：输出存储电路；142A、142B：二重化输出存储电路；143、143I：输出通知电路；CLk：运算器；Ck、Cn、MIk、MOk：存储电路。

具体实施方式

以下，参照附图，详细说明各实施方式。此外，对同一或者相当的部分附加同一参照符号，不反复其说明。此外，该公开所涉及的运算电路以及运算方法适用于CNN中的卷积运算，但不限于CNN而还能够应用于其他领域。

实施方式1.

[CNN的处理]

最初，简单说明CNN。图1是示出利用CNN的运算处理的流程图。

参照图1，CNN包括输入层S201、卷积层S202、S204、池化层S203、S205、全连接层S206、以及输出层S207。

输入层S201接受图像数据等处理对象的数据的输入。输出层S207输出进行数据处理后的最终结果。在图1中，为了简化，将卷积层和池化层的组合(S202、S203；S204、S205)反复2次，但也可以进而反复多次。

将卷积层的输入数据称为输入特征映像，将卷积层的输出数据称为输出特征映像。卷积层S202、S204一边在输入特征映像上以像素单位扫描内核(还被称为滤波器)，一边反复进行输入特征映像的对应部分与内核的积和运算，对最终的积和运算结果进行非线性变换，由此生成输出特征映像。内核的要素(还被称为“权重”)事先通过学习决定。后面将参照图2详细叙述卷积运算。

池化层S203、S205通过进行如将输出特征映像的局部区域集中为一个要素那样的动作，减小特征映像的空间尺寸。池化层S203、S205例如取得局部区域的最大值、或者使包含于局部区域的要素平均化。

全连接层S206与输出层S207邻接地设置1个或者多个层。全连接层的S206的各神经元具有与邻接层的所有神经元的结合。

[卷积运算]

图2是用于说明卷积运算的图。如图2所示，通过作为输入特征映像的输入数据100和内核101的卷积运算，生成输出数据102。通过对输出数据102的各要素加上偏置进而施加活性化函数，生成输出特征数据。作为活性化函数，例如使用ReLU(Rectified LinearUnit)等非线性函数。

在图2的例子中，为了简化，将输入数据尺寸设为(7，7)，将内核尺寸设为(3，3)。也可以为了调整输出数据尺寸，用固定数据(例如0)填入输入数据100的周围104。将其称为填充。在图2的输入数据100中，应用宽度为1且值为0的填充。

在卷积运算中，一边在包括填充的部分的输入数据100上使内核101以一定间隔滑动，一边对内核101的要素和对应的输入数据100的要素进行乘法，求出它们的和。即，执行积和运算。积和运算的结果被储存到输出数据102的对应的要素。将使内核101滑动的间隔称为步幅。在图2的情况下，步幅是1。

具体而言，在内核101的配置与图2的粗的实线的框103对应的情况下，作为积和运算结果的“30”被储存到输出数据102的对应的要素106的位置。在内核101的配置与图2的粗的虚线的框105对应的情况下，作为积和运算结果的“13”被储存到输出数据102的对应的要素107的位置。

[特征映像以及内核的展开]

图3是用于说明特征映像以及内核的展开的图。在本实施方式1的情况下，为了缩短卷积运算的处理时间，通过将特征映像的各行接合，特征映像被展开成1列。

具体而言，参照图2以及图3，通过将图2的输入数据100的各行接合，生成图3的输入矢量110。与输入数据100对应的输入矢量110的要素数是7×7＝49。图2的输出数据102也通过针对每个行接合而被展开成1列。与输出数据102对应的输出矢量的要素数也是49。

图2的内核101以在从右乘以输入矢量110时生成与图2的输出数据102对应的输出矢量的方式，展开成矩阵。由此，生成系数矩阵111。系数矩阵111的行数是第1行至第49行的49，系数矩阵111的列数是第1列至第49列的49。此外，在图3所示的系数矩阵111中，空白部分的方格的要素是0。

具体而言，系数矩阵111的第1行是(3，2，0，0，0，0，0，1，3，0，…，0)，相当于图2的内核101位于特征映像上的粗的虚线的框105的情况。通过执行该系数矩阵111的第1行与输入矢量110的积和运算，生成储存于图2的输出数据102的对应的要素107的位置的数据“13”。

同样地，系数矩阵111的第9行是(3，2，1，0，0，0，0，1，3，2，0，0，0，0，2，1，3，0，…，0)，相当于图2的内核101位于特征映像上的粗的实线的框103的情况。通过执行该系数矩阵111的第9行与输入矢量110的积和运算，生成储存于图2的输出数据102的对应的要素106的位置的数据“30”。

在图2中未应用填充的情况下，在与输入数据100对应的输入矢量110中无变更，其要素数是49。输出数据102的数据尺寸成为(5，5)，所以与输出数据102对应的输出矢量的要素数成为5×5＝25。另外，与内核101对应的系数矩阵111的行数成为25，其列数成为49。

在卷积运算中执行的矩阵运算式一般用式(1)表示。即，卷积运算的输出矢量f是通过对系数矩阵A从右乘以输入矢量x并对其运算结果加上偏置矢量b而得到的。在此，系数矩阵A的特征在于，包含比较多的值为0的要素这一点。

[数学式1]

在本说明书中，将输出矢量f的要素设为f₁、…、f_n。将第i个输出矢量f的要素记载为f_i或者f(i)。将输入矢量x的要素设为x₁、…、x_m。将第j个输入矢量x的要素记载为x_j或者x(j)。将偏置矢量b的要素设为b₁、…、b_n。将第i个偏置矢量b的要素记载为b_i或者b(i)。另外，系数矩阵A由第1至第n这n行和第1至第m这m列构成。将第i行第j列的系数矩阵A的要素记载为A_ij或者A(i，j)。在本实施方式1中，作为各要素的索引的值ij、或者j是该要素的标识符，并且还能够指定应运算该要素的后述运算器CLk、该要素的运算器CLk的指定以及应运算的顺序。

另外，在卷积运算中，如NVIDIA公司的技术文献“cuDNN：Efficient Primitivesfwor Deep Learning”第4页的“Figure 1：Convolution lowering”所示，还有用系数矩阵(Fm)表现系数，并且输入以及输出也并非矢量而表现为矩阵(Dm，Om)的实例。将该实例称为“矩阵实例”。在矩阵实例中的卷积运算中，计算矩阵与矩阵之积。

[运算电路的概略性的结构]

图4是将本实施方式1所涉及的运算电路12的结构的一个例子与周边电路关联起来示出的图。运算电路12是“运算装置”的一个实施例。参照图4，运算电路12具备作为用于控制运算电路12内的各部的专用电路的控制电路30、具有分别实施积和运算的多个运算器CLk(k＝1、2、3…n)的并行运算电路121、输入I/F(Interface的简称)122以及输出I/F(Interface)123。运算电路12具有多个运算器CLk。各运算器CLk与系数矩阵A的各行对应地设置。

在运算电路12中，在实施用式(1)表示的矩阵运算的情况下，各运算器CLk与其他运算器CLk并行地执行积和运算。

控制电路30具备处理器31、和包括例如非易失性的存储介质的存储器32。在存储器32中，储存有用于控制运算电路12的控制程序150。

运算电路12经由总线45连接将用于运算的数据输入到运算电路12的外部输入装置61、将来自该运算电路12的运算结果输出到外部的外部输出装置63以及SRAM(StaticRandom Access Memory，静态随机存取存储器)等外部存储装置62。

外部输入装置61、外部存储装置62以及外部输出装置63经由总线40，连接具备存储器50的CPU(Central Processing Unit，中央处理单元)51。存储器50储存系数矩阵A、输入矢量x及偏置矢量b、以及运算电路12的运算结果。

CPU51控制外部输入装置61、外部存储装置62以及外部输出装置63。例如，CPU51从存储器50读出系数矩阵A、输入矢量x以及偏置矢量b，经由外部输入装置61或者外部存储装置62输出到运算电路12的输入I/F122。外部输出装置63输入来自输出I/F123的运算结果，将输入的运算结果经由总线40输出到CPU51。CPU51将来自外部输出装置63的运算结果储存到存储器51。另外，来自输出I/F123的运算结果也可以储存到外部存储装置62。外部存储装置62和外部输出装置63经由有线或者无线的多个线路与输出I/F123连接。输出I/F123具备连接各线路的端口17。

此外，存储器51也可以并非CPU50而与总线40连接。另外，也可以外部存储装置62具备存储器50。

[运算器的结构]

图5是将图4的运算器CLk和输入输出数据关联起来说明的图。参照图5，运算器CLk包括累加器T1、乘法器T2、加法器T3以及寄存器T4。对运算器CLk连接有可从运算器CLk读出的系数存储电路132以及输入存储电路133。“输入存储电路”是在并行运算电路121与外部装置之间存储向并行运算电路121的输入的电路。系数存储电路132以及输入存储电路133包含于图4的输入I/F122。在图5中，示出并行运算装置的多个运算器CLk中的1个，但其他运算器也具有同样的结构。

在系数存储电路132中，储存系数矩阵A的第k个行的要素A_k1～A_kn、和偏置矢量b的第k个要素b_k。另外，在输入存储电路133中，储存输入矢量x的要素x₁～x_n。

(积和运算处理)

在运算器CLk中，累加器T1以及寄存器T4预先储存有初始值(例如0)。在开始了积和运算处理时，乘法器T2与时钟同步地，从系数存储电路132读出要素A_km，从输入存储电路133读出要素x_m，对读出的要素A_km乘以要素x_m来计算积，将计算出的积通过覆盖写入储存到寄存器T4。加法器T3计算寄存器T4的积与储存于累加器T1的累加值sum的和，将计算出的和输出到累加器T1。累加器T1对从输入存储电路133读出的要素b_k与来自加法器T3的和进行加法，将加法结果加到累加值sum。由此，1次的运算处理结束。这样的由系数存储电路132的要素A_km和输入存储电路133的对应的要素x_m的积、以及累加值sum的和构成的积和运算被反复n次。

这样，各运算器CLk与其他运算器CLk独立地，将分配的行的积和运算，反复系数存储电路132的要素A_km以及对应的输入存储电路133的要素x_m的组的总数(m个)。其结果，将各运算器CLk的累加器T1的累加值sum，作为输出矢量f的要素f_k，输出到输出I/F123。

[输入I/F和输出I/F的结构]

图6是示出本实施方式1所涉及的输入I/F和输出I/F的结构的图。在图6中，将输入I/F和输出I/F的结构与除了控制电路30以外的周边电路关联起来示出。在图6中，并行运算电路121连接共享存储器124。共享存储器124构成为通过各运算器CLk能够写入以及能够读出。参照图6，输入I/F122包括输入变换电路131、系数存储电路132以及输入存储电路133。输出I/F123包括输出变换电路141以及输出存储电路142。“输出存储电路”是在并行运算电路121与外部装置之间存储来自并行运算电路121的输出的电路。

图7是示出本实施方式1所涉及的输入存储电路、输出存储电路、以及系数存储电路的结构的一个例子的图。图8是示意性地说明本实施方式1所涉及的存储方式的图。图9是示出本实施方式1所涉及的输入变换电路的结构的一个例子的图。图10是示出本实施方式1所涉及的输出变换电路的结构的一个例子的图。

参照图7(A)，输入存储电路133包括多个存储电路MIk(k＝1，2，3，…)。多个存储电路MIk分别与各运算器CLk对应地设置，即与输入矢量x的各行对应地设置，构成为能够通过对应的运算器CLk读出。存储电路MIk包括储存输入矢量x的要素x_j的多个寄存器。

参照图7(B)，输出存储电路142包括多个存储电路MOk(k＝1，2，3，…)。多个存储电路MOk构成为能够写入输出矢量f的要素f_i，并且能够读出要素f_i。

参照图7(C)，系数存储电路132包括多个存储电路Ck(k＝1，2，3，…)。多个存储电路Ck分别与各运算器CLk对应地设置，即与系数矩阵A的各行对应地设置，构成为能够通过对应的运算器CLk读出。存储电路Ck例如如图8(B)所示，包括储存偏置矢量b的要素b_i和系数矩阵A的要素A_ij的多个寄存器。

(输入变换电路)

输入变换电路131具有例如图9所示的结构。参照图9，输入变换电路131具备与系数存储电路132以及输入存储电路133的各存储电路对应的选择器13、和表格或者专用电路15。表格或者专用电路15向各选择器输出选择指令151。选择指令151表示选择来自外部存储装置62或者外部输入装置61的系数矩阵A的要素A_ij、输入矢量x的要素x_j以及偏置矢量b的要素b_i中的哪些并写入到对应的存储电路的指令。选择指令151包括例如要素A_ij、要素x_j以及要素b_i的索引的值。

具体而言，在输入变换电路131从外部存储装置62或者外部输入装置61受理到要素A_ij、要素x_j以及要素b_i时，各选择器13依照受理的要素A_ij、要素x_j以及要素b_i的索引和选择指令151，选择要素，将选择出的要素A_ij、要素x_j以及要素b_i写入到对应的存储电路MIk或者存储电路Ck。此时，选择器13通过选择指令151，仅选择要素A_ij中的非零的要素A_ij。然后，选择器13将选择出的要素A_ij以及要素b_i储存到对应的存储电路Ck。

另外，输入变换电路131的各选择器13依照从外部存储装置62或者外部输入装置61受理的要素x_j的索引和选择指令151，选择储存到对应的存储电路MIk的要素x_j。在该选择中，选择器13依照选择指令151，仅选择与非零的要素A_ij对应的要素x_j。选择器13将选择出的要素x_j储存到对应的存储电路MIk。

另外，输入变换电路131的选择器13在存储电路MIk中储存要素x_j、并且在存储电路Ck中储存非零的要素A_ij的情况下，按照要素的索引的值表示的顺序，在对应的存储电路的寄存器中储存该要素。具体而言，选择器13在存储电路Ck的多个寄存器中的、将要素A_ij的索引表示的值(数字)作为地址被指定地址的寄存器中，储存要素A_ij。另外，选择器13在存储电路Ck的多个寄存器中的、与要素A_ij的寄存器不同的预先决定的寄存器中，储存要素b_i。同样地，选择器13在存储电路MIk的多个寄存器中的、将要素x_j的索引表示的值(数值)作为地址被指定地址的寄存器中，储存要素x_j。

由此，在存储电路Ck和存储电路MIk中，储存对应的运算器CLk的积和运算所需的要素x_j、非零的要素A_ij、以及要素b_i。另外，在存储电路Ck中，以应运算的顺序，储存非零的要素A_ij，在各存储电路MIk中，以应运算的顺序，储存与非零的要素A_ij对应的要素b_i。

(输入变换电路的表格或者专用电路)

在本实施方式1中，各运算器CLk被分配到系数矩阵A的哪个行、和非零的要素A_ij和应运算的要素x_j的输入矢量x中的位置是预先决定的。因此，在表格或者专用电路15中，储存有表示这样的预先决定的内容的信息，专用电路依照储存的信息，生成发往各选择器13的选择指令151，将生成的选择指令161输出到该选择器13。此外，在向运算器CLk的系数矩阵A的行的分配、以及非零的要素A_ij和应运算的要素x_j的输入矢量x中的位置不变更的情况下，表格或者专用电路15能够构成为固定的电路。

(输出变换电路)

输出变换电路141具有例如图10所示的结构。参照图10，输出变换电路141具备多个选择器14、和表格或者专用电路16。多个选择器14与输出存储电路142的多个存储电路MOk分别对应。存储电路MOk包括1个或者多个寄存器。

输出存储电路142储存的输出f_i被输出到外部存储装置62或者外部输出装置63，但输出存储电路142能够同时输出到外部存储装置62或者外部输出装置63的输出f_i的数量是预先决定的。因此，输出存储电路142具有与可同时输出的输出f_i的数量相同的数量的存储电路MOk。另外，多个存储电路MOk分别经由端口17与外部存储装置62或者外部输出装置63连接。

输出变换电路141的各选择器14在将来自并行运算电路121的输出f_i储存到存储电路MOk时，根据来自表格或者专用电路16的选择指令161和输出f_i的索引的值，从多个存储电路MOk决定1个(即多个端口17中的1个)，将输出f_i储存到决定的存储电路MOk。在本实施方式中，输出f_i的索引还起到作为识别该输出f_i的标识符的作用。选择器14在储存输出f_i时，根据选择指令161和输出f_i的索引决定地址，在用决定的地址被指定地址的存储电路MOk的寄存器中储存输出f_i。

一般，作为系数矩阵A的各行的运算结果的输出f_i是从哪个运算器CLk导出、将该输出f_i输出到哪个端口17、以及规定送出输出f_i的顺序的基准的信息是预先决定的。

表格或者专用电路16储存有上述叙述的基准信息。表格或者专用电路16根据储存的基准信息，生成发往各选择器14的选择指令161，将生成的选择指令161输出到该选择器14。

此外，在系数矩阵A的多个行与多个运算器CLk分别一对一地对应的情况下，能够将运算器CLk和存储电路MOk直接一对一地结合，在该情况下，储存各存储电路MOk的输出f_i的位置(容量、寄存器的个数)仅1个即可。

表格或者专用电路16针对各选择器14输出选择指令161，该选择指令161表示选择作为来自并行运算电路121的运算结果的要素f_i中的哪一个并写入到对应的存储电路MOk的指令。选择指令161包括例如要素f_i的索引的值。

具体而言，选择器14从来自并行运算电路121的各运算器CLk的要素f_i中，根据选择指令161选择要素f_i，将选择出的要素f_i储存到对应的存储电路MOk。各存储电路MOk包括多个寄存器。输出变换电路141在将要素f_i储存到存储电路MOk的情况下，按照依照选择指令161的顺序，将要素f_i储存到该存储电路MOk的寄存器。

来自上述叙述的表格或者专用电路16的选择指令161是根据如下因素预先决定的：针对来自并行运算电路121的输出(要素f_i)，外部存储装置62或者外部输出装置63期待的要素f_i被储存的输出存储电路142的位置(地址)或者读出的顺序。

此外，存储电路MIk、存储电路MOk以及存储电路Ck包括可指定地址的多个寄存器，但不限定于使用寄存器的结构。例如，是可指定地址的存储电路即可，也可以构成为包括例如SRAM。

[运算器和要素的关联的具体例]

图11是示出图5所示的运算器CLk和应运算的要素的关联的具体例的图。如图11所示，根据输入变换电路131，在存储电路Ck以及存储电路MIk中，仅储存应由对应的运算器CLk运算的非零要素A_ij和要素x_j，并且按照应运算的顺序储存。

因此，运算器CLk的乘法器T2仅通过与时钟同步地从存储电路Ck以及存储电路MIk依次读出要素，能够按照应运算的顺序，仅取得应由运算器CLk进行积和运算的要素。

由此，即使同时发生来自各运算器CLk的要素的读出要求，也无需进行在要求之间附加顺序等调解，进而也无需进行在各运算器CLk中将要素按照应进行乘法的顺序排列的处理。因此，相比于需要该调解的以往的积和运算处理，能够提高整体的处理速度。

[系数存储电路的变形例]

参照图8，系数存储电路132储存系数(要素A_ij和要素b_i)的方式包括图8(A)的第1个方式和图8(B)的第2个方式。

参照图8(A)，第1个方式是如图11所示，在运算器CLk的对应的存储电路Ck中接着要素b_i按照索引的顺序储存与系数矩阵A的1行L相当的要素A_ij的方式。图8(A)的第1个方式还能够将从存储电路Ck读出的系数，跳过并行运算电路121，经由输出变换电路141储存到输出存储电路142。

参照图8(B)，第2个方式附加本来的系数数据(要素b_i和与1行L相当的要素A_ij)、和指定执行模式的标志F。例如，标志F针对储存于存储电路Ck的各系数(要素A_ij或者要素b_i)，对并行运算电路121指示应使用该系数实施的运算等处理的种类。在本实施方式1中，执行标志指示的处理的种类包括要素A_ij与要素x_j的积、积和运算、系数(要素A_ij或者要素b_i)的载入、输入数据(要素x_j)的载入、向共享存储器124的写入(例如运算结果(要素f_j)的写入)、从共享存储器124的读出、将各系数(要素A_ij或者要素b_i)跳过并行运算电路121经由输出变换电路141储存到输出存储电路142等。

作为进一步的其他方式，图8(B)的方式还能够变形为如图8(C)所示，存储电路Ck按照索引的顺序储存与多个行L1相当的要素A_ij。

[各部的变形例]

运算电路12可由包括能够通过并行运算执行用上述(1)式表示的矩阵运算的多个运算器的ASIC(Application Specific Integrated Circuit，专用集成电路)或者FPGA(Field Programmable Gate Array，现场可编程门阵列)构成。

另外，具备多个运算器CLk的并行运算电路121是能够并行地执行多个处理(例如积和运算)的结构即可，例如并行运算电路121能够由多核处理器构成。在该情况下，多个处理器核与多个运算器CLk分别对应。

另外，在本实施方式1中，能够将矩阵A的非零要素A_ij和输入矢量的对应的要素x_j，在运算电路12的初始化处理时，经由输入变换电路131，储存到系数存储电路132。此外，在矩阵A的非零要素A_ij和输入矢量的对应的要素x_j的值固定的情况下，系数存储电路132能够包括储存有非零要素A_ij和对应的要素x_j的值的ROM(Read Only Memory，只读存储器)。

也可以为了使矩阵A和矢量x的积的计算高速化，通过2个以上的运算器CLk，实施矩阵A的1行量的积和运算。在该情况下，为了取得来自各运算器CLk的运算结果的和，输出存储电路142能够用于储存各运算器CLk的运算结果。

另外，也可以在外部存储装置62或者外部输入装置61与运算电路12的输入变换电路131之间，追加特化为能够避免输入数据的重复的读入或者参照的卷积运算的结构。

另外，由于矩阵A小，作为输入矢量x从行线缓冲器(line buffer)切出图像的影像部分的处理以具有与通常的卷积核的高度相同的行线数的行线缓冲器取入、和从内核系数寄存器(窗口)取入输入数据为前提。这样的行线缓冲器也可以具有如按照光栅扫描(Raster scan)的顺序取入数据，并且在取入到行线量的数据的时间点，将最久的行线用作接着取入数据的行线那样的环形缓冲器的构造。

[整体处理的流程图]

图12是说明本实施方式1所涉及的并行处理的流程图。将依照图12的流程图的处理，作为控制程序150，储存到控制电路30的存储器32。处理器31从存储器32读出控制程序150，执行读出的控制程序150。

参照图6，说明图12的处理。首先，处理器31实施初始化处理(步骤S1)。

具体而言，在初始化处理中，处理器31起动输入变换电路131，使得实施初始化处理。输入变换电路131将来自外部存储装置62或者外部输入装置61的系数矩阵A的非零的要素A_ij和偏置矢量b的要素b_i，储存到系数存储电路132的多个存储电路Cn。具体而言，如在图9中说明，与存储电路Cn对应的选择器13根据要素A_ij和要素b_i的索引以及选择指令151，将选择出的要素A_ij和要素b_i储存到对应的存储电路Cn。

如果初始化处理结束，则运算电路12转移到通常处理。在通常处理中，控制电路30的处理器31在判定从外部存储装置62或者外部输入装置61向运算电路12输出了输入矢量x的要素x₁、…、x_m时，使输入变换电路131将要素x₁、…、x_m储存到输入存储电路133(步骤S3)。具体而言，如在图9中说明，选择器13根据要素x₁、…、x_m的索引和选择指令151，将选择出的要素x_j储存到对应的存储电路MIk。

控制电路30的处理器31判断通过选择器13将矢量x的要素x₁、…、x_m储存到对应的存储电路MIk的处理是否完成(步骤S5)。处理器31在判断为储存未完成的情况下(在步骤S5中“否”)，返回到步骤S3，在判断为储存完成的情况下(在步骤S5中“是”)，转移到步骤S7。在储存完成(在步骤S5中“是”)时，各存储电路Ck成为以应运算的顺序储存非零的要素A_ij的状态，并且各存储电路MIk成为以应运算的顺序储存与非零的要素A_ij对应的要素b_i的状态。

控制电路30的处理器31使并行运算电路121实施运算(步骤S7)。在此，说明在存储电路Ck中依照图8(A)所示的第1个方式储存系数数据(非零的要素A_ij和要素b_i)的实例。

并行运算电路121的各运算器CLk通过对储存于存储电路Ck的要素A_ij的各个反复进行如下积来完成上述叙述的(积和运算处理)：从对应的存储电路Ck的位置(地址)读出的非零的要素A_ij、与从对应的存储电路MIk的与该地址对应的地址读出的要素x_j的积。在所有运算器CLk中，同时(并行地)实施积和运算处理。

控制电路30的处理器31在所有运算器CLk中结束了积和运算处理时，以将作为运算结果的累加值sum(输出f_i)输出给输出变换电路141的方式，控制各运算器CLk。另外，处理器31以使用控制指令将来自各运算器CLk的输出f_i储存到各存储电路MOk的方式，控制输出变换电路141(步骤S9)。

控制电路30的处理器31判断输出f_i的储存是否完成(步骤S11)。处理器31在判断为储存未完成时(在步骤S11中“否”)，返回到步骤S11，在判断为储存完成时(在步骤S11中“是”)，处理器31以将储存于各存储电路MOk的输出f_i输出到外部存储装置62或者外部输出装置63的方式，控制输出存储电路142(步骤S13)。此时，输出存储电路142从各存储电路MOk按照储存的顺序读出输出f_i，将读出的输出f_i按照读出的顺序送出到线路。同时执行从各存储电路MOk向外部存储装置62或者外部输出装置63的输出f_i的送出。

控制电路30的处理器31判断运算处理是否结束(步骤S15)。处理器31在判断为结束时，结束图12的处理(在步骤S15中“是”)，但在判断为未结束时(在步骤S15中“否”)，返回到步骤S3。此外，根据例如来自CPU51的指令，进行步骤S15的判断。

(流程图的变形例)

在图12的流程图中，系数存储电路132的存储电路Ck的储存方式是图8(A)的第1个方式，但也可以是图8(B)的第2个储存方式。

在第2个储存方式的情况下，并行运算电路121对储存于与系数存储电路132的各运算器CLk对应的存储电路Ck的各要素A_ij，实施由与该要素A_ij对应的标志F指示的种类的运算或者处理。在该情况下也是并行运算电路121的所有运算器CLk同时动作。

在第2个储存方式的情况下，也可以为了针对并行运算电路121的各运算器CLk的运算量的均衡化，对2个(以上)运算器CLk分配系数矩阵A的1行量的运算而实施。在该情况下，并行运算电路121利用共享存储器124计算由进行了分配的2个(以上)运算器CLk计算出的结果的和。另外，在进行分配的运算器CLk的数量不多的情况下，相对全部运算数的该分配处理的数量很少，能够忽略分配处理对运算电路12的运算性能造成的影响。

根据实施方式1，能够通过输入I/F122，在仅并行运算电路121的各运算器CLk能够读出的存储电路Ck和MIk中，在运算之前储存应由该运算器CLk运算的系数数据(要素A_ij以及要素b_i)以及输入数据(要素x_j)。由此，在所有运算器CLk同时(并行地)实施运算时，能够可靠地避免系数数据以及输入数据的访问(读出)的竞争，能够高速地实施并行处理。

另外，在存储电路Ck中，仅储存有非零的要素A_ij，所以在各运算器CLk中，能够从积和运算排除使用作为零的要素A_ij的积的运算、即不需要的乘法。由此，能够缩短从在并行运算电路121中开始利用多个运算器CLk的积和运算的并行处理至得到作为处理的最终结果的输出矢量f的要素f₁、…、f_n为止的所需时间。

实施方式2.

实施方式2示出实施方式1的变形例。图13是示出本实施方式2所涉及的运算电路12A的输入I/F和输出I/F的结构的图。图13的运算电路12A具有与图6的输入I/F122不同的输入I/F122A。运算电路12A的其他结构与图6的其他结构相同，所以不反复说明。

参照图13，输入I/F122A代替输入变换电路131以及输入存储电路133，而具备输入变换电路131A以及输入通知电路133C。图14是示出图13的输入通知电路133C的结构的图。参照图14，输入通知电路133C具备具有图9的选择器13的功能和通知N的输出功能的多个选择器13A。多个选择器13A与运算器CLk分别对应。

输入变换电路131A在从外部输入装置61或者外部存储装置62受理到输入矢量x的要素x_j时，根据要素x_j的索引的值，确定多个运算器CLk中的、实施使用该要素x_j的运算的运算器CLk，仅向确定的运算器CLk输出要素x_j。另外，此时，在图14的输入通知电路133C中，与由输入变换电路131A确定的运算器CLk对应的选择器13A向对应的运算器CLk输出运算的通知N。接受到通知N的运算器CLk从系数存储电路132的存储电路Ck读出要素A_ij和要素b_i，实施使用读出的要素A_ij和要素b_i以及从输入变换电路131要素x_j的积和运算。

根据实施方式2，例如在从外部输入装置61或者外部存储装置62向运算电路12传送要素x_j的速度是低速的情况下，如图13的运算电路12A，代替通过输入存储电路133存储要素x_j，而输入变换电路131A将要素x_j直接输入到运算器CLk。

由此，能够不需要用于输入存储电路133的存储器资源。进而，能够使未从输入通知电路133C接受到通知的运算器CLk即无需进行使用该要素x_j的运算的运算器CLk休止。因此，能够减小运算电路12的电路规模和功耗。

实施方式3.

实施方式3示出实施方式1的变形例。图15是示出本实施方式3所涉及的运算电路12B的输入I/F和输出I/F的结构的图。图15的运算电路12B具有与图6的输出I/F123不同的输出I/F123B。运算电路12B的其他结构与图6的其他结构相同，所以不反复说明。

参照图15，输出I/F123B具备输出变换电路141、输出存储电路142以及输出通知电路143。图16是将图15的输出通知电路143的结构与周边电路关联起来示出的图。参照图16，输出通知电路143具备表格144以及判断电路145。在表格144中，储存有识别应送出到外部存储装置62或者外部输出装置63的输出f_i的例如索引信息。索引信息表示外部存储装置62或者外部输出装置63所需要的种类或者个数的输出f_i。

判断电路145实施监视经由输出变换电路141从各运算器CLk送出的输出f_i的监视处理1451。在监视处理1451中，读取例如输出f_i的索引。判断电路145在根据监视的结果判断为从并行运算电路121输出了表格144的索引信息表示的必要的种类或者个数的所有输出f_i时，将通知N1输出到外部存储装置62或者外部输出装置63。外部存储装置62或者外部输出装置63直至从判断电路145输出通知N1为止是休止，在从判断电路145受理到通知N1时起动而受理来自输出存储电路142的输出f_i。

根据实施方式3，在例如从外部存储装置62或者外部输出装置63向总线40的数据输出是低速的情况下，在直至从输出通知电路143输出通知N1为止的期间，即在不需要向总线40的数据输出的期间，能够使外部存储装置62或者外部输出装置63休止。由此，能够减少外部存储装置62或者外部输出装置63的功耗量。

实施方式4.

实施方式4示出实施方式1的变形例。图17是示出本实施方式4所涉及的运算电路12B的输入I/F和输出I/F的结构的图。图17的运算电路12C具备实施方式2的输入I/F122A和实施方式3的输出I/F123B。

由此，在从外部输入装置61或者外部存储装置62向运算电路12C传送数据的速度、或者外部存储装置62或者外部输出装置63向总线40输出数据的速度是低速的情况下，能够得到实施方式2和实施方式3中的两方的优点。即，能够不需要用于输入存储电路133的存储器资源。进而，能够使无需实施运算的运算器CLk休止。另外，不会使外部存储装置62或者外部输出装置63始终动作而能够休止。

实施方式5.

实施方式5示出实施方式1的变形例。图18是示出本实施方式5所涉及的运算电路12D的输入I/F和输出I/F的结构的图。图18的运算电路12D具有与图6的输入I/F122不同的输入I/F122D。运算电路12D的其他结构与图6的其他结构相同，所以不反复说明。

参照图18，输入I/F122D具备输入变换电路131、系数存储电路132、二重化输入存储电路133A以及二重化输入存储电路133B。通过二重化输入存储电路133A、133B，图6的输入存储电路133被二重化。二重化输入存储电路133A、133B的各个具有与在实施方式1中说明的输入存储电路133相同的结构，能够进行同样的动作。

控制电路30的处理器31将二重化输入存储电路133A、133B的一方的功能切换为如受理来自外部输入装置61或者外部存储装置62的要素x_j那样的功能，将另一方的功能切换为向并行运算电路121输出要素x_j的功能。处理器31在二重化输入存储电路133A、133B的各个完成了各动作时，将一方的功能切换为向并行运算电路121输出要素x_j的功能，将另一方的功能切换为如受理来自外部输入装置61或者外部存储装置62的要素x_j那样的功能。

根据实施方式5，在从外部输入装置61或者外部存储装置62向运算电路12D传送要素x_j的速度是高速时，通过使用二重化输入存储电路133A、133B，运算电路12D能够同时实施从外部输入装置61或者外部存储装置62接收要素x_j的处理、和利用并行运算电路121的运算处理。因此，能够使利用运算电路12D的运算速度高速化。

实施方式6.

实施方式6示出实施方式1的变形例。图19是示出本实施方式6所涉及的运算电路12E的输入I/F和输出I/F的结构的图。图19的运算电路12E具有与图6的输出I/F123不同的输出I/F123E。运算电路12E的其他结构与图6的其他结构相同，所以不反复说明。

参照图19，输出I/F123E具备输出变换电路141、二重化输出存储电路142A以及二重化输出存储电路142B。通过二重化输出存储电路142A、142B，图6的输出存储电路142被二重化。二重化输出存储电路142A、142B的各个具有与在实施方式1中说明的输出存储电路142相同的结构，能够进行同样的动作。

控制电路30的处理器31将二重化输出存储电路142A、142B的一方的功能切换为将从并行运算电路121经由输出变换电路141的输出f_i储存到存储电路MOk的功能，将另一方的功能切换为从存储电路MOk读出输出f_i并将读出的输出f_i送出到外部存储装置62或者外部输出装置63的功能。处理器31在二重化输出存储电路142A、142B的各个完成各动作时，将一方的功能切换为从存储电路MOk读出输出f_i并送出到外部存储装置62或者外部输出装置63的功能，将另一方的功能切换为将从并行运算电路121经由输出变换电路141的输出f_i储存到存储电路MOk的功能。

实施方式6例如能够在被要求从运算电路12向外部存储装置62或者外部输出装置63高速送出输出f_i的情况下应用。具体而言，通过输出存储电路被二重化，运算电路12能够同时(并行地)实施输出向外部存储装置62或者外部输出装置63的输出f_i的处理、和利用并行运算电路121的运算处理，能够使运算电路12的运算处理进一步高速化。

实施方式7.

实施方式7示出实施方式1的变形例。图20是示出本实施方式7所涉及的运算电路12F的输入I/F和输出I/F的结构的图。图20的运算电路12F具备实施方式5的二重化输入存储电路133A、133B以及实施方式6的二重化输出存储电路142A、142B。

实施方式7的运算电路12F分别二重化地具备输入存储电路以及输出存储电路。根据运算电路12F，从外部输入装置61或者外部存储装置62高速地输出的要素x_j的受理、向外部存储装置62或者外部输出装置63的输出f_i的高速的送出、以及利用并行运算电路121的运算处理能够同时进行。

实施方式8.

实施方式8示出实施方式1的变形例。图21是示出本实施方式8所涉及的运算电路的结构的图。图21的运算电路具有运算电路12G、和与运算电路12G连接的运算电路12H。运算电路12G删除了实施方式1的运算电路12的输出I/F123，其他与运算电路12相同。运算电路12H具备输入I/F122H、并行运算电路121以及输出I/F123。输入I/F122H具备输入输出变换电路131H、系数存储电路132以及输入存储电路133。在图21中，除了输入输出变换电路131H以外的其他结构与实施方式1的运算电路12具备的结构相同，所以不反复说明。

输入输出变换电路131H直接受理来自运算电路12G的多个运算器CLk的输出f_i，从受理的输出f_i，针对运算电路12H的每个运算器CLk，确定应由该运算器CLk运算的输出f_i。然后，输入输出变换电路131H将确定的输出f_i，依照应运算的顺序，储存到与该运算器CLk对应的输入存储电路133的存储电路MIk。在图21中，运算电路12连接2个，但连接的个数也可以是3个以上。

根据实施方式8，能够连接2个以上的运算电路12。例如，能够在LSI(Large-ScaleIntegration)电路内，连接2个以上的运算电路12。这样，在如连接2个以上的运算电路12那样的情况下，通过在连接运算电路彼此的连接部中具备输入输出变换电路131H，能够以利用输入输出变换电路131H的1次的处理，完成基于输出变换电路141以及输入变换电路131的使用选择器14(或者选择器13)的2个处理。因此，即使连接多个运算电路，也能够实现处理的高速化。

实施方式9.

实施方式9示出实施方式1的变形例。图22是示出本实施方式9所涉及的运算电路的结构的图。图22的运算电路具有运算电路12G、和与运算电路12G连接的运算电路12I。运算电路12G删除了实施方式1的运算电路12的输出I/F123，其他与运算电路12相同，所以不反复说明。

运算电路12I具备输入I/F122H、并行运算电路121以及输出I/F123B。并行运算电路121以及输出I/F123B与实施方式3所示相同。输入I/F122I具备在实施方式8中示出的输入输出变换电路131H、输出通知电路143I、系数存储电路132以及输入存储电路133。输入输出变换电路131H、系数存储电路132以及输入存储电路133与实施方式3或者实施方式8所示相同，所以不反复说明。

输出通知电路143I向运算电路12I的各运算器CLk输出通知N2。具体而言，在输入输出变换电路131H将来自前级的运算电路12G的多个运算器CLk的输出f_i储存到与运算电路12I的各运算器CLk对应的存储电路MIk时，输出通知电路143I判定在该存储电路MIk中是否储存有应先于该输出f_i运算的输出f_i。输出通知电路143I例如根据输出f_i的索引的值，实施该判定。输出通知电路143I在判定为在存储电路MIk中储存有应先运算的所有输出f_i时，向与该存储电路MIk对应的运算器CLk输出通知N2。由此，运算器CLk能够在接受到在对应的存储电路MIk中储存有积和运算的开始所需的所有要素x_j(即输出f_i)的通知N2时，开始积和运算。

此外，在图22中，连接2个运算电路12，但连接的个数也可以是3个以上。

根据实施方式9，能够连接实施方式3所示的2个以上的运算电路12B。例如，在LSI电路内连接2个以上的运算电路12B那样的情况下，通过在连接部中具备输入输出变换电路131H，能够以利用输入输出变换电路131H的1次的处理，完成输出变换电路141的处理以及利用输入变换电路131的处理这2个处理。因此，即使连接多个运算电路，也能够实现处理的高速化。

实施方式10.

实施方式10示出实施方式1的变形例。图23是示出本实施方式10所涉及的运算电路的结构的图。图23的运算电路具有运算电路12J、和与运算电路12J连接的运算电路12K。运算电路12J从在实施方式7中示出的运算电路12F删除输出I/F123，其他结构与运算电路12F的其他结构相同，所以不反复说明。另外，运算电路12K具备输入I/F122K、并行运算电路121、以及输出I/F123E。输入I/F122K具备输入输出变换电路131K、二重化输入存储电路133A、133B以及系数存储电路132。运算电路12K中的除了输入输出变换电路131K以外的其他结构与实施方式7的运算电路12F的其他结构相同，所以不反复说明。

输入输出变换电路131K直接受理来自运算电路12J的多个运算器CLk的输出f_i，根据受理的输出f_i，针对运算电路12K的每个运算器CLk，确定应由该运算器CLk运算的输出f_i。输入输出变换电路131K将确定的输出f_i，依照应运算的顺序储存到与该运算器CLk对应的输入存储电路133的存储电路MIk。在此，连接2个运算电路，但连接的个数也可以是3个以上。

根据实施方式10，能够连接实施方式7所示的2个以上的运算电路12F。例如，在LSI电路内连接2个以上的运算电路12F那样的情况下，通过在连接部中具备输入输出变换电路131K，能够以利用输入输出变换电路131K的1次的处理，完成输出变换电路141的处理以及输入变换电路131的处理这2个处理。因此，即使连接多个运算电路，也能够实现处理的高速化。

(各实施方式的变形例)

各实施方式所涉及的运算电路也可以如图24那样变形。图24是示意地示出能够执行本发明的各实施方式所涉及的运算电路的依照“矩阵实例”的运算的结构的一个例子的图。实施方式1.～实施方式8.的运算电路可构成为能够计算如图24所示的依照“矩阵实例”的积和运算。在图24中，示出能够执行n×n的系数矩阵A、和与输入数据100相当的n×n的矩阵X的积和运算的运算器CLk。

参照图24，运算器CLk具有与图11所示同样的结构，所以不反复说明。在图24中，对运算器CLk连接能够从运算器CLk读出的系数存储电路132R、储存偏置矢量b的要素的系数存储电路132以及输入存储电路133。输入存储电路133具有与图11所示同样的结构。系数存储电路132R如虚线所示具备环形缓冲器。

运算器CLk的积和运算的结果被储存到存储电路AMOk。存储电路AMOk包括n个寄存器RG。因此，存储电路AMOk(k＝1、2、…、n)具备与矩阵的维数(n×n个)相同的数量的寄存器RG。

在图24中，示出运算器具备的多个运算器CLk中的1个，但其他运算器CLk也具有同样的结构。矩阵X视为由n个列矢量构成，在图24的输入存储电路133中，按照列优先的顺序，输入矩阵X的要素。在图24的输入存储电路133中，例如储存有矩阵X的第k个列的要素x_k1～x_kn。

运算器CLk与实施方式1～8的情况同样地，针对矩阵X的每列，反复矩阵X的1列量的积和运算。运算器CLk实施系数矩阵A的第k个行与矩阵X的各列的积和运算，输出n个积和运算的值(与输出fi相当)。在该积和运算中，也选择系数矩阵A的第k个行的要素中的非零的要素A_ij，实施使用选择出的非零要素A_ij的积和运算。为简化说明，设为系数矩阵A的第k个行不包含非零要素A_ij。

从运算器CLk输出的n个积和运算的值被分别储存到存储电路AMOk的n个寄存器RG。在图24中示出例如在运算器CLk执行了使用矩阵X的第k个列的积和运算的情况下，将该积和运算的值储存到存储电路AMOk的第k个寄存器RG(用斜线表示的寄存器RG)的状态。

在运算器CLk(k＝1、2、…n)结束了积和运算时，在输出存储电路的存储电路AMOk(k＝1、2、…n)具备的(n×n个)的寄存器RG中，储存系数矩阵A与矩阵X的积和运算的结果。

在此，作为实施方式的背景，在运算器CLk反复积和运算的过程中，矩阵X的第k个列的积和运算完成，之后开始下列(第k+1个列)的积和运算时，需要在开始该下列的积和运算之前，使运算器CLk的系数矩阵A的输入初始化。例如，需要能够从系数矩阵A的第k个行的开头的要素起开始读出那样的初始化。因此，下列的积和运算的开始有可能延迟该初始化所花费的时间。

为了避免这样的延迟，在图24中，系数矩阵A的第k个行的要素被储存到系数存储电路132R的环形缓冲器。由此，图24的运算器CLk在完成了矩阵X的第k个列的积和运算时，无需上述初始化，而能够开始下列(第k+1个列)的积和运算。因此，能够高速地实施“矩阵实例”中的积和运算。

此外，如在实施方式1.～实施方式8.中说明的系数矩阵A与输入矢量x的积和运算中，也能够使用具备环形缓冲器的系数存储电路。因此，通过应用图24的运算电路，能够在矩阵×矢量的积和运算以及依照“矩阵实例”的矩阵×矩阵的积和运算这两方中实现积和运算的高速化。

(各实施方式的进一步的变形例)

说明各实施方式的进一步的变形例。各实施方式所涉及的运算电路也可以如图25那样变形。图25是示意地示出能够执行本发明的各实施方式所涉及的运算电路的依照“矩阵实例”的运算的结构的其他例子的图。实施方式1.～实施方式8.的运算电路能够应用如图25所示的运算电路。在图25中，也与图24同样地，示出能够执行n×n的系数矩阵A、和n×n的矩阵X的积和运算的运算器CLk。

图25的运算器CLk、系数存储电路132以及132R、输入存储电路133以及存储电路AMOk的结构与图24的它们的结构相同，所以不反复这些说明。在图25中，运算电路具备输出接口123R。输出接口123R具备包括n个存储电路AMOk(k＝1、2、…、n)的输出存储电路142R。

在图25中，与图24的实例不同，将矩阵X的要素按照行优先的顺序储存到输入存储电路133，将系数矩阵A的第k个列的要素储存到系数存储电路132R。这样，在使用图25的运算器CLk的积和运算中，视为矩阵X由行矢量构成，系数矩阵A由列矢量构成。

图25的运算器CLk在将矩阵X的第k个行矢量(该行矢量的所有要素x_k1～x_kn)储存到了输入存储电路133时，执行使用储存的要素x_k1～x_kn和系数矩阵A的第k个列的要素A_k1～A_kn的积和运算。在该积和运算中，选择要素A_k1～A_kn中的非零的要素A_ij，实施使用选择出的非零要素A_ij的积和运算。为简化说明，设为系数矩阵A的第k个列不包括非零要素A_ij。

在完成了使用系数矩阵A以及矩阵X的积和运算时，在输出存储电路142R的n个存储电路AMOk具备的n×n个寄存器RG中，分别作为要素Tij储存积和运算结果的值。因此，在输出存储电路142R中，储存(n×n)维的矩阵T。

处理器31决定应从矩阵T读出的要素Tij的顺序，以依照决定的顺序从寄存器RG读出要素Tij的方式，向输出接口123R输出控制指令CM。例如，设想在具备图25的运算器CLk的运算电路12的输出级连接接下来的(其他)运算电路12的情况。在该情况下，控制指令CM包括如下指定：作为接下来的运算电路12的输入数据，设为依照列优先顺序的输入数据、或者设为依照行优先顺序的输入数据。输出接口123R依照控制指令CM，从n×n个寄存器RG读出要素Tij。由此，接下来的运算电路12能够按照列优先的顺序或者行优先的顺序，接收输入数据的矩阵X的要素x_ij。

根据图25，在接下来的运算电路12作为输入(即矩阵X)受理运算电路12执行矩阵与矩阵的积和运算而得到的矩阵T的情况下，接下来的运算电路12在实施积和运算处理时，无需实施将矩阵X的要素x_ij按照列优先的顺序或者行优先的顺序重排的处理。

具体而言，通常，在经由外部输入装置61或者外部存储装置62传送给运算电路12的矩阵X是图像等的情况下，外部输入装置61或者外部存储装置62将矩阵X的要素x_ij按照行优先的顺序输出到运算电路12。因此，在将矩阵T的要素x_ij不重排而输出到接下来的运算电路12的情况下，接下来的运算电路12需要在开始累计处理之前，将矩阵T的要素T_ij按照行优先的顺序重排。相对于此，在图25中，输出接口123R依照控制指令CM，从输出存储电路142R读出要素Tij。

具体而言，处理器31根据例如成为积和运算处理的对象的输入数据(即矩阵T的要素T_ij)的种类，设定控制指令CM。该种类可包括图像。在处理器31中，如果输入数据的种类是图像，则在控制指令CM中设定“行优先”的读出指令，否则设定“列优先”的读出指令。

输出接口123R在控制指令CM表示“行优先”的读出指令时，从n×n个寄存器RG，依照索引，以行优先的顺序读出要素Tij，并且在控制指令CM表示“列优先”的读出指令时，依照索引，以列优先的顺序读出要素Tij。这样，根据输入数据的种类(是否为图像等)，接下来的运算电路12能够受理将矩阵T的要素Tij依照列优先以及行优先中的某一方排列的输入(即矩阵X)，能够省略矩阵X的要素x_ij的重排处理。由此，运算电路12能够高速地实施积和运算处理。

应认为本次公开的实施方式在所有方面为例示而不是限制性的。本发明的范围并非上述说明而基于权利要求书示出，意图包括与权利要求书均等的意义以及范围内的所有变更。

权利要求书(按照条约第19条的修改)

1.一种运算电路，具备：

并行运算电路，包括多个运算器；以及

输入接口，包括多个存储电路，

所述多个运算器构成为与所述多个存储电路分别对应，

各所述多个运算器构成为进行使用了储存到对应的所述存储电路的数据的运算，

各所述存储电路具有：

输入存储电路，存储输入数据；以及

系数存储电路，存储系数数据，

所述输入数据以及所述系数数据具有指定应运算该数据的所述运算器以及该数据应被运算的顺序的索引，

所述输入接口构成为将来自外部装置的所述输入数据以及所述系数数据分别根据该数据具有的所述索引并依照所述顺序储存到与所述多个运算器中的1个运算器对应的所述输入存储电路以及所述系数存储电路。

2.根据权利要求1所述的运算电路，其中，

所述输入存储电路包括二重化的输入存储电路，

所述二重化的输入存储电路的一方构成为储存来自所述外部装置的所述输入数据，在储存完成时，能够通过对应的所述运算器读出输入数据，

所述二重化的输入存储电路的另一方构成为通过对应的所述运算器读出输入数据而读出完成时，储存来自所述外部装置的所述输入数据。

3.一种运算电路，具备：

并行运算电路，包括多个运算器；以及

输入接口，包括多个存储电路，

所述多个运算器构成为与所述多个存储电路分别对应，

各所述多个运算器构成为进行使用了系数数据以及输入数据的运算，

各所述存储电路具有系数存储电路，该系数存储电路存储所述系数数据，

所述输入接口还包括输入电路，该输入电路将来自外部装置的所述系数数据储存到与各所述运算器对应的所述存储电路，

所述输入数据以及所述系数数据具有识别应运算该数据的所述运算器以及该数据应被运算的顺序的索引，

所述输入电路构成为将来自所述外部装置的所述系数数据根据该数据具有的所述索引并依照所述顺序储存到与所述多个运算器中的1个所述运算器对应的所述系数存储电路，

所述输入接口在从所述外部装置受理到所述输入数据时，向该输入数据的所述索引表示的所述运算器输出该输入数据。

4.根据权利要求1至3中的任意一项所述的运算电路，其中，

各所述运算器构成为对包含非零要素和零要素的系数矩阵从右乘以输入矢量并将运算结果输出到输出矢量，

所述输入数据包括所述输入矢量的要素，

所述系数数据包括所述系数矩阵的要素，

各所述运算器进而构成为依次执行对应的所述输入矢量的要素和所述系数矩阵的对应的要素的乘法，将该乘法的结果累计到所述输出矢量的要素。

5.根据权利要求4所述的运算电路，其中，

所述并行运算电路进而构成为对所述系数矩阵从右乘以输入矩阵，并将运算结果输出到输出矩阵，

所述输入矢量包括构成所述输入矩阵的行或者列矢量，

构成所述输出矩阵的行或者列矢量包括与各所述运算器对应的所述输出矢量。

6.根据权利要求5所述的运算电路，其中，

还具备输出接口，该输出接口包括构成为储存所述输出矩阵的多个输出存储电路，

所述多个输出存储电路构成为与所述多个运算器分别对应，

各所述输出存储电路构成为储存来自对应的所述运算器的所述输出矢量，

所述输出接口构成为根据所述索引，以列优先或者行优先从所述多个输出存储电路读出所述输出矩阵的要素。

7.根据权利要求6所述的运算电路，其中，

所述输出接口构成为依照控制指令，以所述列优先或者所述行优先从所述多个输出存储电路读出所述输出矩阵的要素。

8.根据权利要求7所述的运算电路，其中，

在将所述输出矩阵作为所述输入矩阵输出给其他所述运算电路时，所述控制指令包括根据所述输出矩阵的要素表示的数据的种类而依照列优先以及行优先中的某一方的读出指令。

9.根据权利要求8所述的运算电路，其中，

所述数据的种类包括图像。

10.根据权利要求4至9中的任意一项所述的运算电路，其中，

所述系数存储电路包括环形缓冲器，

所述系数存储电路构成为在所述环形缓冲器中储存构成所述系数矩阵的行或者列矢量的要素。

11.根据权利要求10所述的运算电路，其中，

所述要素具有的索引进而指定应运算该要素的所述运算器，

所述输入接口构成为将来自外部装置的所述系数矩阵的所述行或者列矢量的要素根据该要素具有的所述索引并依照所述顺序写入到与所述多个运算器中的1个所述运算器对应的所述系数存储电路的环形缓冲器。

12.根据权利要求1至11中的任意一项所述的运算电路，其中，

所述运算电路还具备共享存储器，该共享存储器构成为储存所述多个运算器中的1个运算器的运算结果，能够从其他所述运算器读出。

13.根据权利要求6至9中的任意一项所述的运算电路，其中，

所述输出接口还包括：输出电路；以及多个端口，将来自各所述运算器的所述输出矢量输出到所述外部装置，

所述多个输出存储电路与所述多个端口分别对应，

所述输出电路构成为在从各所述运算器受理到所述输出矢量的要素时，根据预先决定的基准信息和该要素的所述索引，从所述多个输出存储电路中选择1个输出存储电路，在选择出的输出存储电路中储存该要素。

14.根据权利要求13所述的运算电路，其中，

所述输出电路进而构成为依照基于所述预先决定的基准信息和所述输出矢量的要素的所述索引的顺序，在所述选择出的输出存储电路中储存该要素。

15.根据权利要求13或者14所述的运算电路，其中，

所述输出电路在预先决定的数量的要素储存于所述多个输出存储电路时，经由所述多个端口，输出所述多个输出存储电路的所述要素。

16.根据权利要求15所述的运算电路，其中，

所述输出电路在所述预先决定的数量的要素储存于所述多个输出存储电路时，将经由所述多个端口输出该要素的意思的通知，输出到所述外部装置。

17.根据权利要求13至16中的任意一项所述的运算电路，其中，

各所述输出存储电路包括二重化的输出存储电路，

所述二重化的输出存储电路的一方构成为储存来自所述运算器的所述输出矢量的要素，在储存完成时，通过对应的所述端口读出要素，

所述二重化的输出存储电路的另一方构成为通过对应的所述端口读出所述要素而读出完成时，储存来自所述运算器的所述输出矢量的要素。

18.根据权利要求4所述的运算电路，其中，

所述外部装置包括其他所述运算电路，所述输入矢量包括从其他所述运算电路具备的各所述运算器输出的矢量。

19.根据权利要求4所述的运算电路，其中，

所述运算电路用于执行卷积神经网络中的卷积层的运算，

所述输入矢量是将输入到所述卷积层的特征映像展开为一列而成的，

所述系数矩阵与在所述卷积层中利用的内核对应。

20.一种运算方法，使用包括多个运算器的并行运算电路，其中，

所述并行运算电路包括构成为与各所述多个运算器对应并能够从该运算器读出的存储电路，

所述运算方法具备：从装置受理用于运算的系数数据或者输入数据，

所述运算方法还具备：

在受理到所述系数数据或者所述输入数据时，根据所述输入数据或者所述系数数据具有的所述索引，确定所述多个运算器中的1个所述运算器；以及

依照基于所述受理的输入数据或者系数数据具有的所述索引的所述顺序，将该受理的输入数据或者系数数据储存到与确定的所述运算器对应的所述存储电路。

21.一种运算方法，使用包括多个运算器的并行运算电路，其中，

所述存储电路包括储存用于运算的系数数据的电路，

所述运算方法具备：从装置受理用于运算的输入数据，

所述存储电路构成为将所述系数数据依照基于该系数数据具有的所述索引的所述顺序储存，

所述运算方法还具备：

在受理到所述输入数据时，根据所述输入数据具有的所述索引，确定所述多个运算器中的1个所述运算器；以及

依照基于所述受理的输入数据具有的所述索引的所述顺序，将该输入数据输出到确定的所述运算器。

Claims

1.一种运算电路，具备：

并行运算电路，包括多个运算器，该多个运算器构成为对包含非零要素和零要素的系数矩阵从右乘以输入矢量并将运算结果输出到输出矢量；以及

输入接口，包括多个存储电路，

所述多个运算器构成为与所述多个存储电路分别对应，

各所述存储电路具有：

输入存储电路，存储所述输入矢量的要素；以及

系数存储电路，具备环形缓冲器，并且在所述环形缓冲器中储存构成所述系数矩阵的行或者列矢量的要素，

所述输入矢量的要素以及所述系数矩阵的要素具有指定应乘以该要素的顺序的索引，

所述输入接口构成为将所述输入矢量和所述系数矩阵的各要素，根据该要素具有的所述索引，分别依照所述顺序，储存到与所述多个运算器中的1个所述运算器对应的所述输入存储电路和所述系数存储电路的所述环形缓冲器，

各所述运算器构成为依次执行所述存储电路的所述系数矩阵的所述行或者列矢量的要素和所述输入矢量的对应的要素的乘法，根据该要素的所述索引，将该乘法的结果累计到所述输出矢量的对应的要素。

2.根据权利要求1所述的运算电路，其中，

所述输入矢量包括构成所述输入矩阵的行或者列矢量，

3.根据权利要求2所述的运算电路，其中，

所述多个输出存储电路构成为与所述多个运算器分别对应，

所述输出接口构成为从所述多个输出存储电路，根据所述索引，以列优先或者行优先，读出所述输出矩阵的要素。

4.根据权利要求3所述的运算电路，其中，

所述输出接口构成为依照控制指令，从所述多个输出存储电路，以所述列优先或者所述行优先，读出所述输出矩阵的要素。

5.根据权利要求4所述的运算电路，其中，

在将所述输出矩阵作为所述输入矩阵输出给其他所述运算电路时，所述控制指令根据所述输出矩阵的要素表示的数据的种类，包括依照列优先以及行优先中的某一方的读出指令。

6.根据权利要求5所述的运算电路，其中，

所述数据的种类包括图像。

7.根据权利要求1至6中的任意一项所述的运算电路，其中，

所述输入存储电路包括二重化的输入存储电路，

所述二重化的输入存储电路的一方构成为储存来自外部装置的所述输入矢量，在储存完成时，能够通过对应的所述运算器读出输入矢量，

所述二重化的输入存储电路的另一方构成为通过对应的所述运算器读出输入矢量而读出完成时，储存来自所述外部装置的所述输入矢量。

8.根据权利要求1至7中的任意一项所述的运算电路，其中，

所述要素具有的索引进而指定应运算该要素的所述运算器，

所述输入接口构成为将来自外部装置的所述系数矩阵的所述行或者列矢量的要素，根据该要素具有的所述索引，依照所述顺序，写入到与所述多个运算器中的1个所述运算器对应的所述系数存储电路的环形缓冲器。

9.根据权利要求1至8中的任意一项所述的运算电路，其中，

10.根据权利要求3至6中的任意一项所述的运算电路，其中，

所述多个输出存储电路与所述多个端口分别对应，

所述输出电路构成为在从各所述运算器受理到所述输出矢量的要素时，根据预先决定的基准信息和该要素的所述索引，从所述多个输出存储电路选择1个，在选择出的输出存储电路中储存该要素。

11.根据权利要求10所述的运算电路，其中，

12.根据权利要求10或者11所述的运算电路，其中，

13.根据权利要求12所述的运算电路，其中，

14.根据权利要求10至13中的任意一项所述的运算电路，其中，

各所述输出存储电路包括二重化的输出存储电路，

所述二重化的输出存储电路的另一方构成为通过对应的所述端口读出所述运算结果而读出完成时，储存来自所述运算器的所述输出矢量的要素。

15.根据权利要求1至14中的任意一项所述的运算电路，其中，

所述输入矢量包括来自其他所述运算电路具备的各所述运算器的所述输出矢量。

16.根据权利要求1至15中的任意一项所述的运算电路，其中，

所述运算电路用于执行卷积神经网络中的卷积层的运算，

所述系数矩阵与在所述卷积层中利用的内核对应。

17.一种运算方法，使用包括多个运算器的并行运算电路，该多个运算器构成为对包含非零要素和零要素的系数矩阵从右乘以输入矢量并将运算结果输出到输出矢量，其中，

所述运算方法具备：

将所述输入矢量的要素，根据该要素具有的所述索引，依照所述顺序，储存到与所述多个运算器中的1个对应的输入存储电路；

将构成所述系数矩阵的行或者列矢量的要素，根据该要素具有的所述索引，依照所述顺序，储存到与所述多个运算器中的1个对应的环形缓冲器；以及

使用各所述运算器，依次执行所述环形缓冲器的所述系数矩阵的所述行或者列矢量的要素和所述输入存储电路的所述矢量的对应的要素的乘法，根据该要素的所述索引，将该乘法的结果累计到所述输出矢量的对应的要素。