CN103294648A - 支持多mac运算部件向量处理器的分块矩阵乘法向量化方法 - Google Patents
支持多mac运算部件向量处理器的分块矩阵乘法向量化方法 Download PDFInfo
- Publication number
- CN103294648A CN103294648A CN2013101664113A CN201310166411A CN103294648A CN 103294648 A CN103294648 A CN 103294648A CN 2013101664113 A CN2013101664113 A CN 2013101664113A CN 201310166411 A CN201310166411 A CN 201310166411A CN 103294648 A CN103294648 A CN 103294648A
- Authority
- CN
- China
- Prior art keywords
- submatrix
- matrix
- vector
- multiplication
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Complex Calculations (AREA)
Abstract
一种支持多MAC运算部件向量处理器的分块矩阵乘法向量化方法,流程为:(1)依据向量处理器的向量处理单元VPE的数量p、VPE中的MAC运算部件的数量m、向量存储器的容量s和矩阵元素的数据大小d,确定最优的子矩阵的块大小blocksize,确定乘数矩阵B的子矩阵的列数和行数以及确定被乘数矩阵A的子矩阵的行数与列数;(2)将向量存储器的容量s分为容量相等的两部分存储区域Buffer0和Buffer1,依次在Buffer0和Buffer1间以乒乓方式实现子矩阵的乘法,直到整个矩阵乘法计算完成。本发明具有实现简单、操作方便、可提高向量处理器并行性、能提高处理器运算效率等优点。
Description
技术领域
本发明主要涉及到数据处理技术领域,特指一种支持多MAC运算部件向量处理器的分块矩阵乘法向量化方法。
背景技术
随着大型稠密线性方程组求解、4G无线通信、雷达信号处理、高清视频和数字图像处理等计算密集型应用的高性能计算需求日益增长,计算机体系结构出现显著变化,出现许多新型体系结构,如众核体系结构、异构多核体系结、流处理器体系结构和向量处理器体系结构等等,这些新的体系结构在单芯片上集成多个处理器核,每个核上包含丰富的运算部件,大幅度提高了芯片的计算性能;同时,还对软件开发提出了新的挑战。因为现有的大量程序和算法是基于单核处理器设计的,如何针对多核、多运算部件等体系结构特点,充分开发各个层次的并行性,高效地并行和向量化这些应用算法是当前面临的主要困难。
“矩阵乘法”是高性能计算(High Performance Computing,HPC)常用的核心模块之一,是典型的计算密集和访存密集型应用,对处理器的乘加(Multiply Accumulate,MAC)能力和访存带宽要求非常高,计算的时间复杂度很高,大约为O(N3),N为矩阵规模。传统的三重循环实现矩阵乘法的方法计算访存比较低,Cache的数据缺失、矩阵数据搬移开销占比大,导致处理器的运算效率较低。分块矩阵乘法方法将大矩阵的乘法分割为一系列子矩阵的乘法,通过合理的设置子矩阵的块大小,子矩阵的块大小blocksize通常满足blocksize<=sqrt(M/3),M为Cache的容量,使得子矩阵计算时的数据访问能够全部在Cache中命中,通过减少子矩阵的计算时间降低整个大矩阵乘法的计算时间,从而大幅度提高处理器的运算效率。
图1是多MAC运算部件向量处理器的一般结构示意图,它包括标量处理部件(Scalar Processing Unit,SPU)和向量处理部件(Vector Processing Unit,VPU),SPU负责标量任务计算和流控,VPU负责向量计算,包括若干向量处理单元(Vector Processing Element,VPE),每个VPE包含MAC0、MAC1等多个运算功能部件,以及ALU 、BP等其他功能部件。SPU和VPU提供数据通道传输和交换数据。向量数据访问单元支持向量数据的Load/Store,提供大容量的专用向量存储器,而不是单核处理器的Cache机制,现有的分块矩阵乘法方法不适合这类向量处理器。因此,亟需设计一种高效的支持多MAC运算部件向量处理器的分块矩阵乘法向量化的方法,以便最优的发挥向量处理器的运算效率。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种实现简单、操作方便、可提高向量处理器并行性、能提高处理器运算效率的支持多MAC运算部件向量处理器的分块矩阵乘法向量化方法。
为解决上述技术问题,本发明采用以下技术方案:
一种支持多MAC运算部件向量处理器的分块矩阵乘法向量化方法,流程为:
(1)依据向量处理器的向量处理单元VPE的数量p、VPE中的MAC运算部件的数量m、向量存储器的容量s和矩阵元素的数据大小d,确定最优的子矩阵的块大小blocksize,确定乘数矩阵B的子矩阵的列数和行数以及确定被乘数矩阵A的子矩阵的行数与列数;
(2)将向量存储器的容量s分为容量相等的两部分存储区域Buffer0和Buffer1,依次在Buffer0和Buffer1间以乒乓方式实现子矩阵的乘法,直到整个矩阵乘法计算完成。
作为本发明的进一步改进:
所述步骤(1)中,乘数矩阵B的子矩阵的列数为p*m,行数为(s/2/2)/(p*m*d);确定乘数矩阵B的子矩阵块大小后,再确定被乘数矩阵A的子矩阵块大小;所述被乘数矩阵A的子矩阵的行数与列数都等于乘数矩阵B的子矩阵的行数,即(s/2/2)/(p*m*d)。
所述向量处理器的标量处理部件SPU依次读取被乘数子矩阵A的每一行中的每一个元素,并扩展成一个向量数据;由向量处理部件VPU读取乘数子矩阵B的B0行数据与前述向量数据的每个元素分别进行乘累加;当遍历完被乘数子矩阵的A0行数据时,计算得到结果子矩阵C的C0行数据;当遍历完被乘数子矩阵A的所有行时,完成结果子矩阵C的计算。
所述步骤(2)中,存储区域Buffer0用于本次的子矩阵乘法中的乘数矩阵B和输出结果矩阵C的子矩阵存储,同时通过DMA控制器将下一次子矩阵乘法所需要的乘数矩阵B的子矩阵数据搬运到存储区域Buffer1,以及上一次的结果子矩阵数据搬移到外存储器。
与现有技术相比,本发明的优点在于:本发明依据向量处理器的体系结构特点和矩阵元素的数据大小,确定最优的子矩阵的块大小blocksize,有效提高了处理器的计算访存比;采用双缓冲的乒乓方式实现子矩阵的乘法能够有效地将数据搬移时间与计算时间重叠,减少总的计算时间。由向量处理器的标量处理部件SPU读取被乘数子矩阵的行数据,并扩展成向量数据,与向量处理部件VPU按行读取乘数子矩阵的向量数据的每个元素分别进行乘累加,避免了列数据的访问以及向量数据的规约求和。这些优点使得本发明的方法实现简单,操作方便,能够充分挖掘向量处理器的指令、数据、任务等各个层次的并行性,将处理器的运算效率提高到90%以上,从而充分发挥多MAC运算部件向量处理器所具有的高性能计算能力的优点。
附图说明
图1是多MAC运算部件向量处理器的一般结构示意图。
图2是本发明方法的执行流程示意图。
图3是具体实施例中依据向量处理器的体系结构特点确定最优子矩阵的块大小的流程示意图。
图4是本发明中子矩阵乘法的具体实施过程的运算示意图。
图5是在具体实施例中采用双缓冲的乒乓方式实现子矩阵乘法的流程示意图。
具体实施方式
以下将结合说明书附图和具体实施例对本发明做进一步详细说明。
如图2所示,本发明支持多MAC运算部件向量处理器的分块矩阵乘法向量化方法,具体流程为:
(1)首先依据向量处理器的向量处理单元VPE的数量p、VPE中的MAC运算部件的数量m、向量存储器的容量s和矩阵元素的数据大小d,确定最优的子矩阵的块大小blocksize,确定乘数矩阵B的子矩阵的列数和行数以及确定被乘数矩阵A的子矩阵的行数与列数。
(2)将向量存储器的容量s分为容量相等的两部分存储区域Buffer0和Buffer1,依次在Buffer0和Buffer1间以乒乓方式实现子矩阵的乘法,直到整个矩阵乘法计算完成。
如图3所示,具体应用时,根据向量处理器的向量处理单元VPE的数量p、每个VPE中的MAC运算部件的数量m、向量存储器的容量s和矩阵元素的数据大小d,确定最优的子矩阵的块大小blocksize。其中,乘数矩阵B的子矩阵的列数为p*m,行数为(s/2/2)/(p*m*d)。确定乘数矩阵B的子矩阵块大小后,再确定被乘数矩阵A的子矩阵块大小。被乘数矩阵A的子矩阵的行数与列数都等于乘数矩阵B的子矩阵的行数,即(s/2/2)/(p*m*d)。举一个例子来说,假定矩阵元素的数据为单精度浮点数据,数据大小为4B(字节),向量存储器的容量为1024KB,向量处理单元VPE的数量p=16,每个VPE中的MAC运算部件的数量m=2,则乘数矩阵B的子矩阵的列数为p*m=16*2=32列,行数为(1024*1024/2/2)/(16*2*4)=2048行。被乘数矩阵A的子矩阵的行数与列数都等于2048。
如图4所示,本实施例中,乘数矩阵B的子矩阵的列数为4、行数为8;被乘数矩阵A的子矩阵的行数与列数都等于8。采用的方法是,由向量处理器的标量处理部件SPU依次读取被乘数子矩阵A的每一行中的每一个元素,并扩展成一个向量数据,如图4中的A0行的a00元素扩展成向量(a00, a00, a00, a00),a01元素扩展成向量(a01, a01, a01, a01)。由向量处理部件VPU读取乘数子矩阵B的B0行数据(b00, b01, b02, b03),与前述向量数据的每个元素分别进行乘累加。当遍历完被乘数子矩阵的A0行数据时,计算得到结果子矩阵C的C0行数据(c00, c01, c02, c03)。当遍历完被乘数子矩阵A的所有行时,完成结果子矩阵C的计算。
如图5所示,本实施例中的分块矩阵乘法采用双缓冲(Buffer)的乒乓方式实现子矩阵的乘法,将向量存储器的容量s分为容量相等的两部分存储区域Buffer0和Buffer1,其中Buffer0用于本次的子矩阵乘法中的乘数矩阵B和输出结果矩阵C的子矩阵存储,同时通过DMA控制器将下一次子矩阵乘法所需要的乘数矩阵B的子矩阵数据搬运到Buffer1,以及上一次的结果子矩阵数据搬移到外存储器。
综上所述,通过本发明所实现的支持多MAC运算部件向量处理器的分块矩阵乘法向量化方法,能够依据向量处理器的体系结构特点确定最优的子矩阵的块大小blocksize。采用双缓冲的乒乓方式实现子矩阵的乘法能够有效地将数据搬移时间与计算时间重叠,减少总的计算时间。由向量处理器的标量处理部件SPU读取被乘数子矩阵的行数据,并扩展成向量数据,与向量处理部件VPU按行读取乘数子矩阵的向量数据的每个元素分别进行乘累加,避免了列数据的访问以及向量数据的规约求和。这些优点使得本发明的方法实现简单,操作方便,能够充分挖掘向量处理器的指令、数据、任务等各个层次的并行性,将处理器的运算效率提高到90%以上,从而充分发挥多MAC运算部件向量处理器所具有的高性能计算能力的优点。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (4)
1.一种支持多MAC运算部件向量处理器的分块矩阵乘法向量化方法,其特征在于,流程为:
(1)依据向量处理器的向量处理单元VPE的数量p、VPE中的MAC运算部件的数量m、向量存储器的容量s和矩阵元素的数据大小d,确定最优的子矩阵的块大小blocksize,确定乘数矩阵B的子矩阵的列数和行数以及确定被乘数矩阵A的子矩阵的行数与列数;
(2)将向量存储器的容量s分为容量相等的两部分存储区域Buffer0和Buffer1,依次在Buffer0和Buffer1间以乒乓方式实现子矩阵的乘法,直到整个矩阵乘法计算完成。
2.根据权利要求1所述的支持多MAC运算部件向量处理器的分块矩阵乘法向量化方法,其特征在于,所述步骤(1)中,乘数矩阵B的子矩阵的列数为p*m,行数为(s/2/2)/(p*m*d);确定乘数矩阵B的子矩阵块大小后,再确定被乘数矩阵A的子矩阵块大小;所述被乘数矩阵A的子矩阵的行数与列数都等于乘数矩阵B的子矩阵的行数,即(s/2/2)/(p*m*d)。
3.根据权利要求2所述的支持多MAC运算部件向量处理器的分块矩阵乘法向量化方法,其特征在于,所述向量处理器的标量处理部件SPU依次读取被乘数子矩阵A的每一行中的每一个元素,并扩展成一个向量数据;由向量处理部件VPU读取乘数子矩阵B的B0行数据与前述向量数据的每个元素分别进行乘累加;当遍历完被乘数子矩阵的A0行数据时,计算得到结果子矩阵C的C0行数据;当遍历完被乘数子矩阵A的所有行时,完成结果子矩阵C的计算。
4.根据权利要求1或2或3所述的支持多MAC运算部件向量处理器的分块矩阵乘法向量化方法,其特征在于,所述步骤(2)中,存储区域Buffer0用于本次的子矩阵乘法中的乘数矩阵B和输出结果矩阵C的子矩阵存储,同时通过DMA控制器将下一次子矩阵乘法所需要的乘数矩阵B的子矩阵数据搬运到存储区域Buffer1,以及上一次的结果子矩阵数据搬移到外存储器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310166411.3A CN103294648B (zh) | 2013-05-08 | 2013-05-08 | 支持多mac运算部件向量处理器的分块矩阵乘法向量化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310166411.3A CN103294648B (zh) | 2013-05-08 | 2013-05-08 | 支持多mac运算部件向量处理器的分块矩阵乘法向量化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103294648A true CN103294648A (zh) | 2013-09-11 |
CN103294648B CN103294648B (zh) | 2016-06-01 |
Family
ID=49095548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310166411.3A Active CN103294648B (zh) | 2013-05-08 | 2013-05-08 | 支持多mac运算部件向量处理器的分块矩阵乘法向量化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103294648B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104461465A (zh) * | 2014-12-29 | 2015-03-25 | 南京大学 | 一种基于乒乓操作的高效率控制器及其方法 |
CN104899182A (zh) * | 2015-06-09 | 2015-09-09 | 中国人民解放军国防科学技术大学 | 一种支持可变分块的矩阵乘加速方法 |
CN105426344A (zh) * | 2015-11-09 | 2016-03-23 | 南京大学 | 基于Spark的分布式大规模矩阵乘法的矩阵计算方法 |
CN106445471A (zh) * | 2016-10-13 | 2017-02-22 | 北京百度网讯科技有限公司 | 处理器和用于在处理器上执行矩阵乘运算的方法 |
CN108509384A (zh) * | 2017-02-24 | 2018-09-07 | 富士通株式会社 | 计算方法、信息处理装置、计算程序及信息处理系统 |
CN108805273A (zh) * | 2018-05-20 | 2018-11-13 | 复旦大学 | 一种lstm中门控单元加速运算的硬件实现电路 |
CN108985450A (zh) * | 2018-06-28 | 2018-12-11 | 中国人民解放军国防科技大学 | 面向向量处理器的卷积神经网络运算向量化方法 |
CN109086075A (zh) * | 2017-10-30 | 2018-12-25 | 上海寒武纪信息科技有限公司 | 人工智能处理器及使用处理器执行矩阵乘向量指令的方法 |
US10338919B2 (en) | 2017-05-08 | 2019-07-02 | Nvidia Corporation | Generalized acceleration of matrix multiply accumulate operations |
CN110263296A (zh) * | 2019-05-18 | 2019-09-20 | 南京惟心光电系统有限公司 | 一种基于光电计算阵列的矩阵向量乘法器及其运算方法 |
US10454680B2 (en) | 2016-11-01 | 2019-10-22 | Beijing Baidu Netcom Science And Technology Co., Ltd. | RSA decryption processor and method for controlling RSA decryption processor |
CN110415157A (zh) * | 2018-04-26 | 2019-11-05 | 华为技术有限公司 | 一种矩阵乘法的计算方法及装置 |
CN111045958A (zh) * | 2018-10-11 | 2020-04-21 | 展讯通信(上海)有限公司 | 加速引擎及处理器 |
CN111737292A (zh) * | 2020-07-16 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 一种数据检索的方法以及相关装置 |
CN111902813A (zh) * | 2018-03-27 | 2020-11-06 | Sk电信有限公司 | 用于卷积运算的装置以及方法 |
CN112346852A (zh) * | 2019-08-06 | 2021-02-09 | 脸谱公司 | 矩阵求和运算的分布式物理处理 |
CN112446007A (zh) * | 2019-08-29 | 2021-03-05 | 上海华为技术有限公司 | 一种矩阵运算方法、运算装置以及处理器 |
CN112948758A (zh) * | 2021-02-24 | 2021-06-11 | 上海商汤智能科技有限公司 | 数据处理方法、装置以及芯片 |
CN114489496A (zh) * | 2022-01-14 | 2022-05-13 | 南京邮电大学 | 基于fpga人工智能加速器的数据存储和传输方法 |
US11556337B2 (en) | 2021-04-12 | 2023-01-17 | Analog Devices International Unlimited Company | Parallel matrix multiplication technique optimized for memory fetches |
US11990137B2 (en) | 2018-09-13 | 2024-05-21 | Shanghai Cambricon Information Technology Co., Ltd. | Image retouching method and terminal device |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102018110607A1 (de) | 2017-05-08 | 2018-11-08 | Nvidia Corporation | Verallgemeinerte Beschleunigung von Matrix-Multiplikations-und-Akkumulations-Operationen |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7844630B2 (en) * | 2007-09-01 | 2010-11-30 | International Business Machines Corporation | Method and structure for fast in-place transformation of standard full and packed matrix data formats |
CN102214160A (zh) * | 2011-07-08 | 2011-10-12 | 中国科学技术大学 | 一种基于龙芯3a的单精度矩阵乘法优化方法 |
CN102446160A (zh) * | 2011-09-06 | 2012-05-09 | 中国人民解放军国防科学技术大学 | 面向双精度simd部件的矩阵乘实现方法 |
-
2013
- 2013-05-08 CN CN201310166411.3A patent/CN103294648B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7844630B2 (en) * | 2007-09-01 | 2010-11-30 | International Business Machines Corporation | Method and structure for fast in-place transformation of standard full and packed matrix data formats |
CN102214160A (zh) * | 2011-07-08 | 2011-10-12 | 中国科学技术大学 | 一种基于龙芯3a的单精度矩阵乘法优化方法 |
CN102446160A (zh) * | 2011-09-06 | 2012-05-09 | 中国人民解放军国防科学技术大学 | 面向双精度simd部件的矩阵乘实现方法 |
Non-Patent Citations (2)
Title |
---|
纪坤,等.: "矩阵三角分解分块算法的研究与实现", 《计算机应用与软件》 * |
陈晶,等.: "分布式并行矩阵乘算法分析", 《测控技术》 * |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104461465A (zh) * | 2014-12-29 | 2015-03-25 | 南京大学 | 一种基于乒乓操作的高效率控制器及其方法 |
CN104899182A (zh) * | 2015-06-09 | 2015-09-09 | 中国人民解放军国防科学技术大学 | 一种支持可变分块的矩阵乘加速方法 |
CN104899182B (zh) * | 2015-06-09 | 2017-10-31 | 中国人民解放军国防科学技术大学 | 一种支持可变分块的矩阵乘加速方法 |
CN105426344A (zh) * | 2015-11-09 | 2016-03-23 | 南京大学 | 基于Spark的分布式大规模矩阵乘法的矩阵计算方法 |
CN106445471A (zh) * | 2016-10-13 | 2017-02-22 | 北京百度网讯科技有限公司 | 处理器和用于在处理器上执行矩阵乘运算的方法 |
US10140251B2 (en) | 2016-10-13 | 2018-11-27 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Processor and method for executing matrix multiplication operation on processor |
US10454680B2 (en) | 2016-11-01 | 2019-10-22 | Beijing Baidu Netcom Science And Technology Co., Ltd. | RSA decryption processor and method for controlling RSA decryption processor |
CN108509384A (zh) * | 2017-02-24 | 2018-09-07 | 富士通株式会社 | 计算方法、信息处理装置、计算程序及信息处理系统 |
CN108509384B (zh) * | 2017-02-24 | 2022-04-12 | 富士通株式会社 | 计算方法、信息处理装置、计算程序及信息处理系统 |
US10884734B2 (en) | 2017-05-08 | 2021-01-05 | Nvidia Corporation | Generalized acceleration of matrix multiply accumulate operations |
US10338919B2 (en) | 2017-05-08 | 2019-07-02 | Nvidia Corporation | Generalized acceleration of matrix multiply accumulate operations |
CN109086075A (zh) * | 2017-10-30 | 2018-12-25 | 上海寒武纪信息科技有限公司 | 人工智能处理器及使用处理器执行矩阵乘向量指令的方法 |
US12050887B2 (en) | 2017-10-30 | 2024-07-30 | Shanghai Cambricon Information Technology Co., Ltd. | Information processing method and terminal device |
US11922132B2 (en) | 2017-10-30 | 2024-03-05 | Shanghai Cambricon Information Technology Co., Ltd. | Information processing method and terminal device |
CN109086075B (zh) * | 2017-10-30 | 2021-06-08 | 上海寒武纪信息科技有限公司 | 人工智能处理器及使用处理器执行矩阵乘向量指令的方法 |
US11762631B2 (en) | 2017-10-30 | 2023-09-19 | Shanghai Cambricon Information Technology Co., Ltd. | Information processing method and terminal device |
CN111902813B (zh) * | 2018-03-27 | 2024-05-07 | Sapeon韩国株式会社 | 用于卷积运算的装置以及方法 |
CN111902813A (zh) * | 2018-03-27 | 2020-11-06 | Sk电信有限公司 | 用于卷积运算的装置以及方法 |
CN110415157A (zh) * | 2018-04-26 | 2019-11-05 | 华为技术有限公司 | 一种矩阵乘法的计算方法及装置 |
CN110415157B (zh) * | 2018-04-26 | 2024-01-30 | 华为技术有限公司 | 一种矩阵乘法的计算方法及装置 |
CN108805273A (zh) * | 2018-05-20 | 2018-11-13 | 复旦大学 | 一种lstm中门控单元加速运算的硬件实现电路 |
CN108985450B (zh) * | 2018-06-28 | 2019-10-29 | 中国人民解放军国防科技大学 | 面向向量处理器的卷积神经网络运算向量化方法 |
CN108985450A (zh) * | 2018-06-28 | 2018-12-11 | 中国人民解放军国防科技大学 | 面向向量处理器的卷积神经网络运算向量化方法 |
US11990137B2 (en) | 2018-09-13 | 2024-05-21 | Shanghai Cambricon Information Technology Co., Ltd. | Image retouching method and terminal device |
US11996105B2 (en) | 2018-09-13 | 2024-05-28 | Shanghai Cambricon Information Technology Co., Ltd. | Information processing method and terminal device |
US12094456B2 (en) | 2018-09-13 | 2024-09-17 | Shanghai Cambricon Information Technology Co., Ltd. | Information processing method and system |
US12057109B2 (en) | 2018-09-13 | 2024-08-06 | Shanghai Cambricon Information Technology Co., Ltd. | Information processing method and terminal device |
US12057110B2 (en) | 2018-09-13 | 2024-08-06 | Shanghai Cambricon Information Technology Co., Ltd. | Voice recognition based on neural networks |
CN111045958A (zh) * | 2018-10-11 | 2020-04-21 | 展讯通信(上海)有限公司 | 加速引擎及处理器 |
CN110263296A (zh) * | 2019-05-18 | 2019-09-20 | 南京惟心光电系统有限公司 | 一种基于光电计算阵列的矩阵向量乘法器及其运算方法 |
CN112346852A (zh) * | 2019-08-06 | 2021-02-09 | 脸谱公司 | 矩阵求和运算的分布式物理处理 |
CN112446007A (zh) * | 2019-08-29 | 2021-03-05 | 上海华为技术有限公司 | 一种矩阵运算方法、运算装置以及处理器 |
CN111737292A (zh) * | 2020-07-16 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 一种数据检索的方法以及相关装置 |
CN112948758A (zh) * | 2021-02-24 | 2021-06-11 | 上海商汤智能科技有限公司 | 数据处理方法、装置以及芯片 |
US11556337B2 (en) | 2021-04-12 | 2023-01-17 | Analog Devices International Unlimited Company | Parallel matrix multiplication technique optimized for memory fetches |
CN114489496A (zh) * | 2022-01-14 | 2022-05-13 | 南京邮电大学 | 基于fpga人工智能加速器的数据存储和传输方法 |
CN114489496B (zh) * | 2022-01-14 | 2024-05-21 | 南京邮电大学 | 基于fpga人工智能加速器的数据存储和传输方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103294648B (zh) | 2016-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103294648B (zh) | 支持多mac运算部件向量处理器的分块矩阵乘法向量化方法 | |
US12086700B2 (en) | Neural processor | |
US20210326405A1 (en) | Method and apparatus for distributed and cooperative computation in artificial neural networks | |
CN108805266B (zh) | 一种可重构cnn高并发卷积加速器 | |
CN103049241B (zh) | 一种提高cpu+gpu异构装置计算性能的方法 | |
CN103440121B (zh) | 一种面向向量处理器的三角矩阵乘法向量化方法 | |
CN102411558B (zh) | 面向向量处理器的大矩阵相乘的向量化实现方法 | |
WO2019128404A1 (zh) | 矩阵乘法器 | |
CN112465110B (zh) | 一种卷积神经网络计算优化的硬件加速装置 | |
US20150088954A1 (en) | System and Method for Sparse Matrix Vector Multiplication Processing | |
CN110415157B (zh) | 一种矩阵乘法的计算方法及装置 | |
CN102110079B (zh) | 一种基于mpi的分布式共轭梯度法的调优计算方法 | |
CN103336758A (zh) | 一种稀疏矩阵的存储方法CSRL及基于该方法的SpMV实现方法 | |
CN109643233A (zh) | 具有带读取和读取/前进操作数编码的流引擎的数据处理设备 | |
CN105335331B (zh) | 一种基于大规模粗粒度可重构处理器的sha256实现方法及系统 | |
CN103984527A (zh) | 优化稀疏矩阵向量乘提升不可压缩管流模拟效率的方法 | |
Yue et al. | A 28nm 16.9-300TOPS/W computing-in-memory processor supporting floating-point NN inference/training with intensive-CIM sparse-digital architecture | |
CN103970720A (zh) | 基于大规模粗粒度嵌入式可重构系统及其处理方法 | |
CN104317770A (zh) | 用于众核处理系统的数据存储结构及数据访问方法 | |
CN110598844A (zh) | 一种基于fpga的并行卷积神经网络加速器及加速方法 | |
CN111859277B (zh) | 一种稀疏矩阵向量乘法向量化实现方法 | |
CN103198451A (zh) | 一种用gpu通过分块实现快速小波变换的方法 | |
CN104615584B (zh) | 面向gpdsp的大规模三角线性方程组求解向量化计算的方法 | |
WO2016024508A1 (ja) | マルチプロセッサ装置 | |
CN104636316A (zh) | 面向gpdsp的大规模矩阵乘法计算的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |