CN107256203A - 一种矩阵向量乘法的实现方法和装置 - Google Patents
一种矩阵向量乘法的实现方法和装置 Download PDFInfo
- Publication number
- CN107256203A CN107256203A CN201710506697.3A CN201710506697A CN107256203A CN 107256203 A CN107256203 A CN 107256203A CN 201710506697 A CN201710506697 A CN 201710506697A CN 107256203 A CN107256203 A CN 107256203A
- Authority
- CN
- China
- Prior art keywords
- matrix
- data block
- vector
- row
- column
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Complex Calculations (AREA)
Abstract
本发明实施例公开了一种矩阵向量乘法的实现方法,该方法包括:在开放运算语言OpenCL框架下,对相乘的第一矩阵和第二矩阵分别进行向量化处理;将向量化处理后获得的多个子矩阵进行并行运算。本发明实施例还公开了一种矩阵向量乘法的实现装置。通过本发明实施例的方案,能够在高性能计算平台上实施,充分利用了计算机硬件资源,并且大大缩短了计算时间,提高了运算效率。
Description
技术领域
本发明实施例涉及高性能计算领域,尤其涉及一种矩阵向量乘法的实现方法和装置。
背景技术
当前社会人类的数据大爆炸,信息数据越来越多,人们对信息数据的处理能力的要求也越来越高,例如在人工智能、气象预报、航天国防、金融经济、石油勘探、科学研究等领域,对高性能运算的需求与日俱增,而高性能的矩阵向量乘法计算,更是其重要的基石。但目前的矩阵向量乘法中采用的方案是CPU(Central Processing Unit中央处理器)串行计算矩阵向量乘法,即对矩阵中的一个数据乘完以后再进行下一个数据的相乘,计算时间长,效率低,远不能满足当前日益增长的数据处理速度要求。
发明内容
为了解决上述问题,本发明实施例提出了一种矩阵向量乘法的实现方法和装置,能够在高性能计算平台上实施,充分利用计算机硬件资源,并且大大缩短了计算时间,提高了运算效率。
为了达到上述目的,本发明实施例提出了一种矩阵向量乘法的实现方法,该方法包括:
在开放运算语言OpenCL框架下,对相乘的第一矩阵和第二矩阵分别进行向量化处理;
将向量化处理后获得的多个子矩阵进行并行运算。
可选地,在开放运算语言OpenCL框架下,对相乘的第一矩阵和第二矩阵分别进行向量化处理包括:
将第一矩阵中的每一个行向量作为一个行数据块,并将第二矩阵中的每一个列向量作为一个列数据块;
分别将任意一个行数据块与任意一个列数据块传入一个kernel函数中,并获取多个kernel函数;其中,每个kernel函数与其中传入的行数据块和列数据块一一对应;
对每个kernel函数中的行数据块和列数据块分别进行向量化处理,以获得多个行向量子矩阵和多个列向量子矩阵。
可选地,对每个kernel函数中的行数据块和列数据块分别进行向量化处理包括:
采用OpenCL的向量Vector数据类型,分别对行数据块中的每n个浮点型数据进行向量化处理以获得多个行向量子矩阵,并且分别对列数据块中的每n个浮点型数据进行向量化处理以获得多个列向量子矩阵,其中,n为正整数。
可选地,将向量化处理后获得的多个子矩阵进行并行运算包括:
在每个kernel函数中,分别将相互对应的行向量子矩阵与列向量子矩阵进行并行相乘。
可选地,n=4。
为了达到上述目的,本发明实施例还提出了一种矩阵向量乘法的实现装置,该装置包括:处理模块和运算模块;
处理模块,用于在开放运算语言OpenCL框架下,对相乘的第一矩阵和第二矩阵分别进行向量化处理;
运算模块,用于将向量化处理后获得的多个子矩阵进行并行运算。
可选地,处理模块在开放运算语言OpenCL框架下,对相乘的第一矩阵和第二矩阵分别进行向量化处理包括:
将第一矩阵中的每一个行向量作为一个行数据块,并将第二矩阵中的每一个列向量作为一个列数据块;
分别将任意一个行数据块与任意一个列数据块传入一个kernel函数中,并获取多个kernel函数;其中,每个kernel函数与其中传入的行数据块和列数据块一一对应;
对每个kernel函数中的行数据块和列数据块分别进行向量化处理,以获得多个行向量子矩阵和多个列向量子矩阵。
可选地,处理模块对每个kernel函数中的行数据块和列数据块分别进行向量化处理包括:
采用OpenCL的Vector数据类型,分别对行数据块中的每n个浮点型数据进行向量化处理以获得多个行向量子矩阵,并且分别对列数据块中的每n个浮点型数据进行向量化处理以获得多个列向量子矩阵,其中,n为正整数。
可选地,运算模块将向量化处理后获得的多个子矩阵进行并行运算包括:
在每个kernel函数中,分别将相互对应的行向量子矩阵与列向量子矩阵进行并行相乘。
可选地,n=4。
本发明实施例方案包括:在开放运算语言OpenCL框架下,对相乘的第一矩阵和第二矩阵分别进行向量化处理;将向量化处理后获得的多个子矩阵进行并行运算。通过本发明实施例的方案,能够在高性能计算平台上实施,充分利用了计算机硬件资源,并且大大缩短了计算时间,提高了运算效率。
附图说明
下面对本发明实施例中的附图进行说明,实施例中的附图是用于对本发明实施例的进一步理解,与说明书一起用于解释本发明实施例,并不构成对本发明实施例保护范围的限制。
图1为本发明实施例的矩阵向量乘法的实现方法流程图;
图2为本发明实施例的对相乘的第一矩阵和第二矩阵分别进行向量化处理方法流程图;
图3为本发明实施例的对第一矩阵和第二矩阵进行数据块划分示意图;
图4为本发明实施例的矩阵向量乘法的OpenCL框架流程图;
图5为本发明实施例的kernel函数中对行数据块与列数据块进行向量化示意图;
图6为本发明实施例的矩阵向量乘法的实现装置组成框图。
具体实施方式
为了便于本领域技术人员的理解,下面结合附图对本发明实施例作进一步的描述,并不能用来限制本发明实施例的保护范围。
本发明实施例提出了一种矩阵向量乘法的实现方法,如图1所示,该方法可以包括S101-S102:
S101、在开放运算语言OpenCL框架下,对相乘的第一矩阵和第二矩阵分别进行向量化处理。
在本发明实施例中,为了解决当前矩阵乘法运算方法存在的速度慢、效率低的问题,提出了一种基于OpenCL的矩阵向量乘法实现方法。OpenCL(OpenComputingLanguage开放运算语言)语言,它是开放的、跨平台的面向异构系统通用目的的并行编程框架。在目前的可实现并行加速的计算机硬件条件下,可以充分利用计算机硬件资源,提高矩阵向量乘法的运算效率;所述的计算机硬件为所有支持OpenCL的计算机硬件平台,例如,此计算机硬件平台可由CPU、GPU(Graphic Processing Unit,图形处理器)或其他类型的处理器组成。
在本发明实施例中,基于OpenCL的矩阵向量乘法实现的方法是通过将运算矩阵分块处理,分块个数与矩阵行列数相等,从而实现数据的并行化处理。具体可以通过以下方案实现。
可选地,如图2所示,在开放运算语言OpenCL框架下,对相乘的第一矩阵和第二矩阵分别进行向量化处理可以包括S201-S203:
S201、将第一矩阵中的每一个行向量作为一个行数据块,并将第二矩阵中的每一个列向量作为一个列数据块。
在本发明实施例中,在OpenCL框架下首先进行初始化工作,对设备Device、上下文Context、程序Program等必需的组件进行定义与赋值,然后对相乘的第一矩阵和第二矩阵进行分块处理。具体地,可以将第一矩阵中的每一个行向量作为一个行数据块,并将第二矩阵中的每一个列向量作为一个列数据块。如图3所示的行数据块Hblock1、Hblock2、Hblock3……Hblockn,以及列数据块Lblock1、Lblock2、Lblock3……Lblockn。
S202、分别将任意一个行数据块与任意一个列数据块传入一个kernel函数中,并获取多个kernel函数;其中,每个kernel函数与其中传入的行数据块和列数据块一一对应。
在本发明实施例中,如图4所示,在进行计算时,可以将任意的一个行数据块以及一个列数据块传入一个kernel函数中,例如,将Hblock1与Lblock1传入kernel中,将Hblock2与Lblock1传入kerne2中,将Hblock3与Lblock1传入kerne3中,……,依此类推,将不同的行数据块与列数据块的组合放入不同的kernel函数中,以在不同的kernel函数中分别对相应的行数据块与列数据块做并行乘法运算。
S203、对每个kernel函数中的行数据块和列数据块分别进行向量化处理,以获得多个行向量子矩阵和多个列向量子矩阵。
在本发明实施例中,在将行数据块与列数据块传入不同的kernel函数中以后,在每个kernel函数中,还可以进一步对行数据块与列数据块进行向量化处理,以将该行数据块与列数据块进一步划分为更小的子向量或子矩阵。具体可以通过以下方案实现。
可选地,对每个kernel函数中的行数据块和列数据块分别进行向量化处理包括:
采用OpenCL的向量Vector数据类型,分别对行数据块中的每n个浮点型数据进行向量化处理以获得多个行向量子矩阵,并且分别对列数据块中的每n个浮点型数据进行向量化处理以获得多个列向量子矩阵,其中,n为正整数。
在本发明实施例中,如图5所示,在kernel函数的运算当中,采用OpenCL的Vector数据类型,可以进一步将每个行数据块以及列数据块中包含的数据进行向量化处理,每个行数据块和列数据块可以被划分为多个子矩阵,每个子矩阵中可以包含n个浮点型数据。
在本发明实施例中,n的数值可以根据当前计算平台的计算能力进行确定,如果当前计算平台的计算能力较强,可以将n的数值设置的较小一些,如果当前计算平台的计算能力较差,可以将n的数值设置的较大一些。可选地,n=4。例如,将行数据块中的每相邻的4个单精度浮点数据作为一个行向量子矩阵,对应地,将列数据块中的每相邻的4个单精度浮点数据作为一个列向量子矩阵,如图5所示的行向量子矩阵HVector1、HVector2……HVectorn,以及列向量子矩阵LVector1、LVector2……LVectorn。
S102、将向量化处理后获得的多个子矩阵进行并行运算。
在本发明实施例中,对每个kernel函数中的数据块进一步向量化以后,便可以对向量化后的多个子矩阵采用异步线程进行并行运算了。
可选地,将向量化处理后获得的多个子矩阵进行并行运算可以包括:
在每个kernel函数中,分别将相互对应的行向量子矩阵与列向量子矩阵进行并行相乘。
在本发明实施例中,例如分别将HVector1与LVector1相乘,将HVector2与LVector2相乘,……将HVectorn与LVectorn相乘,并且上述运算并行进行,当n=4时,使得每一个线程一次处理4个单精度浮点数操作,从而利用向量运算进一步提高运算效率。每个计算单元在运算过程中相互独立,无需通信,故也具有良好的可拓展性,并且该实施例方案兼顾了并行粒度与运算效率。
在本发明实施例中,通过本发明实施例方案将实现高性能计算单元之间独立运算,无需通信或相互等待,实现高性能快速计算;并且本发明实施例方案具有良好的平台移植性,由于OpenCL的跨平台特性,此实施例方案可方便的移植到所有支持OpenCL的异构高性能计算平台上;与传统的CPU串行计算矩阵向量乘法相比,利用了数据并行与向量化方法,大大提高了计算效率。
为了达到上述目的,本发明实施例还提出了一种矩阵向量乘法的实现装置1,需要说明的是,上述的方法实施例中的任意一个实施例均适用于本发明的装置实施例中,在此不再赘述,如图6所示,该装置可以包括:处理模块11和运算模块12;
处理模块11,用于在开放运算语言OpenCL框架下,对相乘的第一矩阵和第二矩阵分别进行向量化处理;
运算模块12,用于将向量化处理后获得的多个子矩阵进行并行运算。
可选地,处理模块11在开放运算语言OpenCL框架下,对相乘的第一矩阵和第二矩阵分别进行向量化处理包括:
将第一矩阵中的每一个行向量作为一个行数据块,并将第二矩阵中的每一个列向量作为一个列数据块;
分别将任意一个行数据块与任意一个列数据块传入一个kernel函数中,并获取多个kernel函数;其中,每个kernel函数与其中传入的行数据块和列数据块一一对应;
对每个kernel函数中的行数据块和列数据块分别进行向量化处理,以获得多个行向量子矩阵和多个列向量子矩阵。
可选地,处理模块11对每个kernel函数中的行数据块和列数据块分别进行向量化处理包括:
采用OpenCL的Vector数据类型,分别对行数据块中的每n个浮点型数据进行向量化处理以获得多个行向量子矩阵,并且分别对列数据块中的每n个浮点型数据进行向量化处理以获得多个列向量子矩阵,其中,n为正整数。
可选地,运算模块12将向量化处理后获得的多个子矩阵进行并行运算包括:
在每个kernel函数中,分别将相互对应的行向量子矩阵与列向量子矩阵进行并行相乘。
可选地,n=4。
本发明实施例方案包括:在开放运算语言OpenCL框架下,对相乘的第一矩阵和第二矩阵分别进行向量化处理;将向量化处理后获得的多个子矩阵进行并行运算。通过本发明实施例的方案,能够在高性能计算平台上实施,充分利用了计算机硬件资源,并且大大缩短了计算时间,提高了运算效率。
需要说明的是,以上所述的实施例仅是为了便于本领域的技术人员理解而已,并不用于限制本发明实施例的保护范围,在不脱离本发明实施例的发明构思的前提下,本领域技术人员对本发明实施例所做出的任何显而易见的替换和改进等均在本发明实施例的保护范围之内。
Claims (10)
1.一种矩阵向量乘法的实现方法,其特征在于,所述方法包括:
在开放运算语言OpenCL框架下,对相乘的第一矩阵和第二矩阵分别进行向量化处理;
将向量化处理后获得的多个子矩阵进行并行运算。
2.如权利要求1所述的矩阵向量乘法的实现方法,其特征在于,所述在开放运算语言OpenCL框架下,对相乘的第一矩阵和第二矩阵分别进行向量化处理包括:
将所述第一矩阵中的每一个行向量作为一个行数据块,并将所述第二矩阵中的每一个列向量作为一个列数据块;
分别将任意一个行数据块与任意一个列数据块传入一个kernel函数中,并获取多个kernel函数;其中,每个kernel函数与其中传入的所述行数据块和所述列数据块一一对应;
对每个kernel函数中的行数据块和列数据块分别进行向量化处理,以获得多个行向量子矩阵和多个列向量子矩阵。
3.如权利要求2所述的矩阵向量乘法的实现方法,其特征在于,所述对每个kernel函数中的行数据块和列数据块分别进行向量化处理包括:
采用所述OpenCL的向量Vector数据类型,分别对所述行数据块中的每n个浮点型数据进行向量化处理以获得多个行向量子矩阵,并且分别对所述列数据块中的每n个浮点型数据进行向量化处理以获得多个列向量子矩阵,其中,n为正整数。
4.如权利要求3所述的矩阵向量乘法的实现方法,其特征在于,所述将向量化处理后获得的多个子矩阵进行并行运算包括:
在每个kernel函数中,分别将相互对应的行向量子矩阵与列向量子矩阵进行并行相乘。
5.如权利要求3所述的矩阵向量乘法的实现方法,其特征在于,所述n=4。
6.一种矩阵向量乘法的实现装置,其特征在于,所述装置包括:处理模块和运算模块;
所述处理模块,用于在开放运算语言OpenCL框架下,对相乘的第一矩阵和第二矩阵分别进行向量化处理;
所述运算模块,用于将向量化处理后获得的多个子矩阵进行并行运算。
7.如权利要求6所述的矩阵向量乘法的实现装置,其特征在于,所述处理模块在开放运算语言OpenCL框架下,对相乘的第一矩阵和第二矩阵分别进行向量化处理包括:
将所述第一矩阵中的每一个行向量作为一个行数据块,并将所述第二矩阵中的每一个列向量作为一个列数据块;
分别将任意一个行数据块与任意一个列数据块传入一个kernel函数中,并获取多个kernel函数;其中,每个kernel函数与其中传入的所述行数据块和所述列数据块一一对应;
对每个kernel函数中的行数据块和列数据块分别进行向量化处理,以获得多个行向量子矩阵和多个列向量子矩阵。
8.如权利要求7所述的矩阵向量乘法的实现装置,其特征在于,所述处理模块对每个kernel函数中的行数据块和列数据块分别进行向量化处理包括:
采用所述OpenCL的向量Vector数据类型,分别对所述行数据块中的每n个浮点型数据进行向量化处理以获得多个行向量子矩阵,并且分别对所述列数据块中的每n个浮点型数据进行向量化处理以获得多个列向量子矩阵,其中,n为正整数。
9.如权利要求8所述的矩阵向量乘法的实现装置,其特征在于,所述运算模块将向量化处理后获得的多个子矩阵进行并行运算包括:
在每个kernel函数中,分别将相互对应的行向量子矩阵与列向量子矩阵进行并行相乘。
10.如权利要求8所述的矩阵向量乘法的实现装置,其特征在于,所述n=4。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710506697.3A CN107256203A (zh) | 2017-06-28 | 2017-06-28 | 一种矩阵向量乘法的实现方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710506697.3A CN107256203A (zh) | 2017-06-28 | 2017-06-28 | 一种矩阵向量乘法的实现方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107256203A true CN107256203A (zh) | 2017-10-17 |
Family
ID=60024258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710506697.3A Pending CN107256203A (zh) | 2017-06-28 | 2017-06-28 | 一种矩阵向量乘法的实现方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107256203A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726357A (zh) * | 2017-10-27 | 2019-05-07 | 阿里巴巴集团控股有限公司 | 矩阵乘法计算方法和计算设备 |
CN111339490A (zh) * | 2020-02-18 | 2020-06-26 | 三星(中国)半导体有限公司 | 矩阵乘法计算方法和装置 |
CN112632464A (zh) * | 2020-12-28 | 2021-04-09 | 上海壁仞智能科技有限公司 | 用于处理数据的处理装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411558A (zh) * | 2011-10-31 | 2012-04-11 | 中国人民解放军国防科学技术大学 | 面向向量处理器的大矩阵相乘的向量化实现方法 |
CN103631761A (zh) * | 2012-08-29 | 2014-03-12 | 睿励科学仪器(上海)有限公司 | 并行处理架构进行矩阵运算并用于严格波耦合分析的方法 |
CN105426344A (zh) * | 2015-11-09 | 2016-03-23 | 南京大学 | 基于Spark的分布式大规模矩阵乘法的矩阵计算方法 |
US20160140084A1 (en) * | 2014-11-14 | 2016-05-19 | Advanced Micro Devices, Inc. | Efficient sparse matrix-vector multiplication on parallel processors |
-
2017
- 2017-06-28 CN CN201710506697.3A patent/CN107256203A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411558A (zh) * | 2011-10-31 | 2012-04-11 | 中国人民解放军国防科学技术大学 | 面向向量处理器的大矩阵相乘的向量化实现方法 |
CN103631761A (zh) * | 2012-08-29 | 2014-03-12 | 睿励科学仪器(上海)有限公司 | 并行处理架构进行矩阵运算并用于严格波耦合分析的方法 |
US20160140084A1 (en) * | 2014-11-14 | 2016-05-19 | Advanced Micro Devices, Inc. | Efficient sparse matrix-vector multiplication on parallel processors |
CN105426344A (zh) * | 2015-11-09 | 2016-03-23 | 南京大学 | 基于Spark的分布式大规模矩阵乘法的矩阵计算方法 |
Non-Patent Citations (1)
Title |
---|
刘文志 等: "《OpenCL异构并行计算 原理、机制与优化实践》", 31 January 2016, 机械工业出版社 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726357A (zh) * | 2017-10-27 | 2019-05-07 | 阿里巴巴集团控股有限公司 | 矩阵乘法计算方法和计算设备 |
CN109726357B (zh) * | 2017-10-27 | 2023-04-07 | 阿里巴巴集团控股有限公司 | 矩阵乘法计算方法和计算设备 |
CN111339490A (zh) * | 2020-02-18 | 2020-06-26 | 三星(中国)半导体有限公司 | 矩阵乘法计算方法和装置 |
CN111339490B (zh) * | 2020-02-18 | 2024-04-19 | 三星(中国)半导体有限公司 | 矩阵乘法计算方法和装置 |
CN112632464A (zh) * | 2020-12-28 | 2021-04-09 | 上海壁仞智能科技有限公司 | 用于处理数据的处理装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI749249B (zh) | 芯片裝置、芯片、智能設備以及神經網絡的運算方法 | |
CN112465110B (zh) | 一种卷积神经网络计算优化的硬件加速装置 | |
US12165050B2 (en) | Networks for distributing parameters and data to neural network compute cores | |
CN106970896A (zh) | 面向向量处理器的二维矩阵卷积的向量化实现方法 | |
CN112446471B (zh) | 基于异构众核处理器的卷积加速方法 | |
CN105576648A (zh) | 一种基于gpu-cpu异构计算平台的静态安全分析双层并行方法 | |
CN114201287B (zh) | 一种基于cpu+gpu异构平台协同处理数据的方法 | |
CN107256203A (zh) | 一种矩阵向量乘法的实现方法和装置 | |
CN109472734A (zh) | 一种基于fpga的目标检测网络及其实现方法 | |
CN209708122U (zh) | 一种计算单元、阵列、模块、硬件系统 | |
CN104615584A (zh) | 面向gpdsp的大规模三角线性方程组求解向量化计算的方法 | |
CN115481364A (zh) | 基于gpu加速的大规模椭圆曲线多标量乘法的并行计算方法 | |
CN106933777A (zh) | 基于国产申威26010处理器的基2一维fft的高性能实现方法 | |
CN104572588B (zh) | 矩阵求逆处理方法和装置 | |
CN102799564A (zh) | 基于多核dsp平台的fft并行方法 | |
CN109615061A (zh) | 一种卷积运算方法及装置 | |
Alias et al. | Parallel performance comparison of alternating group explicit method between parallel virtual machine and matlab distributed computing for solving large sparse partial differential equations | |
Yu et al. | GPU-based JFNG method for power system transient dynamic simulation | |
CN107220702B (zh) | 一种低计算能力处理设备的计算机视觉处理方法及装置 | |
Kerbyson et al. | A Performance Analysis of Two-Level Heterogeneous Processing Systems on Wavefront Algorithms | |
CN115346099A (zh) | 基于加速器芯片的图像卷积方法、芯片、设备及介质 | |
Shang et al. | An algorithm/hardware co‐optimized method to accelerate CNNs with compressed convolutional weights on FPGA | |
Wu et al. | Agcm3d: A highly scalable finite-difference dynamical core of atmospheric general circulation model based on 3d decomposition | |
CN107015946A (zh) | 一种分布式高阶svd及其增量计算的方法 | |
CN113822003B (zh) | 一种基于fpga的静态时序分析延迟计算加速系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171017 |