JP7382925B2 - ニューラルネットワークアクセラレーションのための機械学習ランタイムライブラリ - Google Patents
ニューラルネットワークアクセラレーションのための機械学習ランタイムライブラリ Download PDFInfo
- Publication number
- JP7382925B2 JP7382925B2 JP2020521369A JP2020521369A JP7382925B2 JP 7382925 B2 JP7382925 B2 JP 7382925B2 JP 2020521369 A JP2020521369 A JP 2020521369A JP 2020521369 A JP2020521369 A JP 2020521369A JP 7382925 B2 JP7382925 B2 JP 7382925B2
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- processing
- packet
- library
- memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims description 283
- 230000001133 acceleration Effects 0.000 title description 24
- 238000010801 machine learning Methods 0.000 title description 6
- 230000015654 memory Effects 0.000 claims description 159
- 238000012545 processing Methods 0.000 claims description 107
- 238000000034 method Methods 0.000 claims description 65
- 238000007781 pre-processing Methods 0.000 claims description 43
- 230000008569 process Effects 0.000 claims description 32
- 238000012805 post-processing Methods 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000000007 visual effect Effects 0.000 claims description 5
- 239000010410 layer Substances 0.000 description 62
- 230000006870 function Effects 0.000 description 31
- 230000000875 corresponding effect Effects 0.000 description 28
- 238000003860 storage Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 22
- 238000004891 communication Methods 0.000 description 11
- 230000002093 peripheral effect Effects 0.000 description 10
- 238000012546 transfer Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000003068 static effect Effects 0.000 description 8
- 230000004913 activation Effects 0.000 description 7
- 238000001994 activation Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 7
- 238000005457 optimization Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000000872 buffer Substances 0.000 description 2
- -1 e.g. Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/10—Interfaces, programming languages or software development kits, e.g. for simulating neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
- G06V10/955—Hardware or software architectures specially adapted for image or video understanding using specific electronic processors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Multimedia (AREA)
- Advance Control (AREA)
- Complex Calculations (AREA)
Description
Claims (14)
- ニューラルネットワークアクセラレータにサブミットされるタスクをパイプライン化するためのコンピュータ実装方法であって、前記方法は、
ホスト上で実行するライブラリにおいて、ニューラルネットワークアプリケーションから、前記ニューラルネットワークアクセラレータによって処理されるべき複数のタスクを受信することと、
1つまたは複数のコンピュータプロセッサ及び前記複数のタスク中のデータを使用して、前記ライブラリにおけるパイプライン中の複数のステージによって使用される情報を含んでいる、前記複数のタスクの各々についてのそれぞれのパケットを生成することであって、前記ライブラリが、前記ニューラルネットワークアプリケーションと前記ニューラルネットワークアクセラレータを実行するハードウェアシステムとの間のアダプタであり、前記ライブラリにおいて、前記複数のステージの各々が、他のスレッドから独立して前記パケットを処理するそれぞれのスレッドを含む、それぞれのパケットを生成することと、
前記複数のステージのうちの異なるステージにおいて前記それぞれのパケットを並列に処理することであって、前記複数のステージのうちの少なくとも1つが、前記ニューラルネットワークアクセラレータを実行する前記ハードウェアシステムへの呼出しを実施する、前記それぞれのパケットを並列に処理することと、
前記パイプラインを使用して前記パケットを処理した結果を前記ニューラルネットワークアプリケーションに返すことと
を含む、コンピュータ実装方法。 - 前記複数のステージにおいて前記パケットを処理することは、
前処理ステージにおいて前記パケットを処理することと、
前記前処理ステージの後に行われる実行ステージにおいて前記パケットを処理することであって、前記ハードウェアシステムへの前記呼出しが、前記実行ステージ中に行われる、実行ステージにおいて前記パケットを処理することと、
前記実行ステージの後の後処理ステージにおいて前記パケットを処理することと
を含む、請求項1に記載の方法。 - 前記前処理ステージにおいて前記パケットを処理することが、
第1のタスクに対応するデータを、前記ニューラルネットワークアプリケーションによって使用される第1のフォーマットから、前記ハードウェアシステムによって使用される第2のフォーマットに変換すること
を含み、
前記後処理ステージにおいて前記パケットを処理することが、前記結果を前記第2のフォーマットから前記第1のフォーマットに変換することを含む、請求項2に記載の方法。 - 前記ニューラルネットワークアプリケーションのためのメモリの割り当てブロックを、前記ハードウェアシステム中の前記ニューラルネットワークアクセラレータのためのメモリの割り当てブロックにマッピングするメモリマップを生成することと、
前記メモリマップに基づいて前記ニューラルネットワークアプリケーションから受信された第1のメモリアドレスを、前記ハードウェアシステム中のメモリブロックのための第2のメモリアドレスに変換することと
をさらに含む、請求項1に記載の方法。 - ニューラルネットワークの複数の層を実施するために使用される重みを、行列フォーマットにおいて前記ハードウェアシステムに転送することと、
新しいタスクに対応する前記重みのサブセットを識別することと、
前記パケットを処理するときに使用されるべきである前記重みの前記サブセットを示すオフセットを前記ハードウェアシステムに送信することと
をさらに含む、請求項1に記載の方法。 - 前記ハードウェアシステム上の前記ニューラルネットワークアクセラレータの実行に関するメトリックを取得することと、
表示のために前記メトリックの視覚表現を出力することと、
前記ニューラルネットワークアクセラレータの利用率を増加させるように、前記パイプライン中の前記複数のステージを実行するハードウェアリソースを調整することと
をさらに含む、請求項1に記載の方法。 - 前記パイプライン中の前記複数のステージが前記ライブラリにおいて定義され、前記ライブラリは、異なるタイプのニューラルネットワークアプリケーションがタスクを前記ニューラルネットワークアクセラレータにサブミットするために前記パイプライン中の前記複数のステージを使用することを可能にするように構成されたアプリケーションプログラムインターフェース(API)を含む、請求項1に記載の方法。
- プロセッサと、
ニューラルネットワークアプリケーションとニューラルネットワークアクセラレータを実行するハードウェアシステムとの間のアダプタであるライブラリを備えるメモリと
を備えるコンピューティングシステムであって、前記ライブラリは、前記プロセッサによって実行されたとき、
前記ニューラルネットワークアプリケーションから、前記ニューラルネットワークアクセラレータによって処理されるべき複数のタスクを受信することと、
1つまたは複数のコンピュータプロセッサ及び前記複数のタスク中のデータを使用して、パイプライン中の複数のステージによって使用される情報を含んでいる、前記複数のタスクの各々についてのそれぞれのパケットを生成することと、
前記複数のステージのうちの異なるステージにおいて前記それぞれのパケットを並列に処理することであって、前記複数のステージのうちの少なくとも1つが、前記ニューラルネットワークアクセラレータを実行する前記ハードウェアシステムへの呼出しを実施し、前記ライブラリにおいて、前記複数のステージの各々が、他のスレッドから独立して前記パケットを処理するそれぞれのスレッドを含む、前記それぞれのパケットを並列に処理することと、
前記パイプラインを使用して前記パケットを処理した結果を前記ニューラルネットワークアプリケーションに返すことと
を含む動作を実施する、コンピューティングシステム。 - 前記複数のステージにおいて前記パケットを処理することは、
前処理ステージにおいて前記パケットを処理することと、
前記前処理ステージの後に行われる実行ステージにおいて前記パケットを処理することであって、前記ハードウェアシステムへの前記呼出しが、前記実行ステージ中に行われる、実行ステージにおいて前記パケットを処理することと、
前記実行ステージの後の後処理ステージにおいて前記パケットを処理することと
を含む、請求項8に記載のコンピューティングシステム。 - 前記前処理ステージにおいて前記パケットを処理することが、
第1のタスクに対応するデータを、前記ニューラルネットワークアプリケーションによって使用される第1のフォーマットから、前記ハードウェアシステムによって使用される第2のフォーマットに変換すること
を含み、
前記後処理ステージにおいて前記パケットを処理することが、前記結果を前記第2のフォーマットから前記第1のフォーマットに変換することを含む、請求項9に記載のコンピューティングシステム。 - 前記動作が、
前記ニューラルネットワークアプリケーションのためのメモリの割り当てブロックを、前記ハードウェアシステム中の前記ニューラルネットワークアクセラレータのためのメモリの割り当てブロックにマッピングするメモリマップを生成することと、
前記メモリマップに基づいて前記ニューラルネットワークアプリケーションから受信された第1のメモリアドレスを、前記ハードウェアシステム中のメモリブロックのための第2のメモリアドレスに変換することと
をさらに含む、請求項8に記載のコンピューティングシステム。 - 前記動作が、
ニューラルネットワークの複数の層を実施するために使用される重みを、行列フォーマットにおいて前記ハードウェアシステムに転送することと、
新しいタスクに対応する前記重みのサブセットを識別することと、
前記パケットを処理するときに使用されるべきである前記重みの前記サブセットを示すオフセットを前記ハードウェアシステムに送信することと
をさらに含む、請求項8に記載のコンピューティングシステム。 - 前記動作が、
前記ハードウェアシステム上の前記ニューラルネットワークアクセラレータの実行に関するメトリックを取得することと、
表示のために前記メトリックの視覚表現を出力することと、
前記ニューラルネットワークアクセラレータの利用率を増加させるように、前記パイプライン中の前記複数のステージを実行するハードウェアリソースを調整することと
をさらに含む、請求項8に記載のコンピューティングシステム。 - 前記パイプライン中の前記複数のステージが前記ライブラリにおいて定義され、前記ライブラリは、異なるタイプのニューラルネットワークアプリケーションがタスクを前記ニューラルネットワークアクセラレータにサブミットするために前記パイプライン中の前記複数のステージを使用することを可能にするように構成されたAPIを含む、請求項8に記載のコンピューティングシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/785,679 | 2017-10-17 | ||
US15/785,679 US11694066B2 (en) | 2017-10-17 | 2017-10-17 | Machine learning runtime library for neural network acceleration |
PCT/US2018/052833 WO2019079008A1 (en) | 2017-10-17 | 2018-09-26 | LEARNING EXECUTION LIBRARY MACHINE FOR NEURONAL NETWORK ACCELERATION |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020537784A JP2020537784A (ja) | 2020-12-24 |
JP7382925B2 true JP7382925B2 (ja) | 2023-11-17 |
Family
ID=63858145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020521369A Active JP7382925B2 (ja) | 2017-10-17 | 2018-09-26 | ニューラルネットワークアクセラレーションのための機械学習ランタイムライブラリ |
Country Status (6)
Country | Link |
---|---|
US (1) | US11694066B2 (ja) |
EP (1) | EP3698294B1 (ja) |
JP (1) | JP7382925B2 (ja) |
KR (1) | KR102665580B1 (ja) |
CN (1) | CN111247533B (ja) |
WO (1) | WO2019079008A1 (ja) |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10609119B2 (en) * | 2017-11-03 | 2020-03-31 | Salesforce.Com, Inc. | Simultaneous optimization of multiple TCP parameters to improve download outcomes for network-based mobile applications |
KR102615443B1 (ko) * | 2018-05-25 | 2023-12-20 | 에스케이하이닉스 주식회사 | 머신 러닝 장치 및 이를 이용한 머신 러닝 시스템 |
US11277455B2 (en) | 2018-06-07 | 2022-03-15 | Mellanox Technologies, Ltd. | Streaming system |
US11151769B2 (en) * | 2018-08-10 | 2021-10-19 | Intel Corporation | Graphics architecture including a neural network pipeline |
US10846201B1 (en) * | 2018-09-21 | 2020-11-24 | Amazon Technologies, Inc. | Performance debug for networks |
US20200106828A1 (en) * | 2018-10-02 | 2020-04-02 | Mellanox Technologies, Ltd. | Parallel Computation Network Device |
US11044099B2 (en) * | 2018-12-28 | 2021-06-22 | Intel Corporation | Technologies for providing certified telemetry data indicative of resources utilizations |
US11620510B2 (en) * | 2019-01-23 | 2023-04-04 | Samsung Electronics Co., Ltd. | Platform for concurrent execution of GPU operations |
US11625393B2 (en) | 2019-02-19 | 2023-04-11 | Mellanox Technologies, Ltd. | High performance computing system |
EP3699770A1 (en) | 2019-02-25 | 2020-08-26 | Mellanox Technologies TLV Ltd. | Collective communication system and methods |
US11231961B2 (en) * | 2019-05-22 | 2022-01-25 | Fujitsu Limited | Scheduling operations |
US11175898B2 (en) * | 2019-05-31 | 2021-11-16 | Apple Inc. | Compiling code for a machine learning model for execution on a specialized processor |
US20210026686A1 (en) * | 2019-07-22 | 2021-01-28 | Advanced Micro Devices, Inc. | Chiplet-integrated machine learning accelerators |
US11621808B1 (en) | 2019-10-16 | 2023-04-04 | Xilinx, Inc. | Machine learning based methodology for signal waveform, eye diagram, and bit error rate (BER) bathtub prediction |
EP4049187A1 (en) * | 2019-10-22 | 2022-08-31 | Mipsology SAS | Multiple locally stored artificial neural network computations |
US11423303B1 (en) | 2019-11-21 | 2022-08-23 | Xilinx, Inc. | Machine learning based methodology for adaptative equalization |
US11182314B1 (en) * | 2019-11-27 | 2021-11-23 | Amazon Techaologies, Inc. | Low latency neural network model loading |
CN110991632B (zh) * | 2019-11-29 | 2023-05-23 | 电子科技大学 | 一种基于fpga的异构神经网络计算加速器设计方法 |
KR102490539B1 (ko) * | 2019-12-30 | 2023-01-19 | 주식회사 모레 | 딥러닝을 위한 가속기용 프로그램 생성 방법 |
WO2021137669A1 (ko) | 2019-12-30 | 2021-07-08 | 매니코어소프트주식회사 | 딥러닝을 위한 가속기용 프로그램 생성 방법 |
US11687778B2 (en) | 2020-01-06 | 2023-06-27 | The Research Foundation For The State University Of New York | Fakecatcher: detection of synthetic portrait videos using biological signals |
US11750699B2 (en) | 2020-01-15 | 2023-09-05 | Mellanox Technologies, Ltd. | Small message aggregation |
US11252027B2 (en) | 2020-01-23 | 2022-02-15 | Mellanox Technologies, Ltd. | Network element supporting flexible data reduction operations |
EP4091051B1 (en) * | 2020-03-06 | 2023-11-15 | Google LLC | Distributed computing pipeline processing |
KR102455310B1 (ko) * | 2020-05-08 | 2022-10-18 | 한국전자통신연구원 | 콘볼루션 신경망 양자화 추론 장치 및 방법 |
JP2021189832A (ja) * | 2020-06-01 | 2021-12-13 | 株式会社日立製作所 | 電子制御装置 |
US11574249B2 (en) | 2020-06-02 | 2023-02-07 | International Business Machines Corporation | Streamlining data processing optimizations for machine learning workloads |
US11876885B2 (en) | 2020-07-02 | 2024-01-16 | Mellanox Technologies, Ltd. | Clock queue with arming and/or self-arming features |
JP7533003B2 (ja) | 2020-08-11 | 2024-08-14 | コニカミノルタ株式会社 | 情報処理システム、情報処理方法及びプログラム |
CN112099943B (zh) * | 2020-08-13 | 2024-05-03 | 深圳云天励飞技术股份有限公司 | 内存分配方法及相关设备 |
CN112101178B (zh) * | 2020-09-10 | 2023-03-24 | 电子科技大学 | 一种辅助盲人感知外界环境的智能soc终端 |
CN113485762B (zh) * | 2020-09-19 | 2024-07-26 | 广东高云半导体科技股份有限公司 | 用可配置器件卸载计算任务以提高系统性能的方法和装置 |
KR20220049294A (ko) | 2020-10-14 | 2022-04-21 | 삼성전자주식회사 | 스케줄러, 스케줄러의 동작 방법 및 이를 포함한 전자 장치 |
CN112689827B (zh) * | 2020-10-27 | 2022-06-28 | 华为技术有限公司 | 模型推理异常处理方法及装置 |
US20220147813A1 (en) * | 2020-11-06 | 2022-05-12 | Micron Technology, Inc. | Runtime optimization of computations of an artificial neural network compiled for execution on a deep learning accelerator |
CN112508188B (zh) * | 2020-12-01 | 2024-06-14 | 北京奇艺世纪科技有限公司 | 一种分布式模型训练系统、方法、装置、设备和存储介质 |
US20220188660A1 (en) * | 2020-12-10 | 2022-06-16 | Coupang Corp. | Systems and methods for processing data for storing in a feature store and for use in machine learning |
US11556378B2 (en) | 2020-12-14 | 2023-01-17 | Mellanox Technologies, Ltd. | Offloading execution of a multi-task parameter-dependent operation to a network device |
CN112580787B (zh) * | 2020-12-25 | 2023-11-17 | 北京百度网讯科技有限公司 | 神经网络加速器的数据处理方法、装置、设备及存储介质 |
CN114764372A (zh) * | 2021-01-15 | 2022-07-19 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN115222015A (zh) | 2021-04-21 | 2022-10-21 | 阿里巴巴新加坡控股有限公司 | 指令处理装置、加速单元和服务器 |
US11829279B2 (en) * | 2021-09-23 | 2023-11-28 | Intel Corporation | Systems, apparatus, and methods to debug accelerator hardware |
WO2023062443A1 (en) * | 2021-10-14 | 2023-04-20 | University Of Moratuwa | A system and method for evaluating convolutional neural networks |
US11922237B1 (en) | 2022-09-12 | 2024-03-05 | Mellanox Technologies, Ltd. | Single-step collective operations |
KR20240136054A (ko) * | 2023-03-06 | 2024-09-13 | 주식회사 유엑스팩토리 | 컨볼루션 신경망 시스템 |
CN116050499B (zh) * | 2023-04-03 | 2023-07-18 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种模型并行训练中的自适应模型划分方法、系统及设备 |
CN116962176B (zh) * | 2023-09-21 | 2024-01-23 | 浪潮电子信息产业股份有限公司 | 一种分布式集群的数据处理方法、装置、系统及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005182785A (ja) | 2003-12-09 | 2005-07-07 | Microsoft Corp | グラフィックス処理ユニットを使用して機械学習技術の処理を速め、最適化するシステムおよび方法 |
JP2009116872A (ja) | 2007-11-08 | 2009-05-28 | Internatl Business Mach Corp <Ibm> | ネットワーク・オン・チップ(noc)上のソフトウェア・パイプライン化の方法、プログラムおよび装置 |
US20100076915A1 (en) | 2008-09-25 | 2010-03-25 | Microsoft Corporation | Field-Programmable Gate Array Based Accelerator System |
JP2011034190A (ja) | 2009-07-30 | 2011-02-17 | Renesas Electronics Corp | データ処理装置 |
JP2014527733A (ja) | 2011-06-29 | 2014-10-16 | ベリサイン・インコーポレイテッド | データ・プレーン・パケット処理ツール・チェーン |
US20150268978A1 (en) | 2014-03-21 | 2015-09-24 | Vmware, Inc. | Binary editing of applications executed by virtual machines |
JP2017050001A (ja) | 2015-09-04 | 2017-03-09 | バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC | 効果的なニューラルネットワークの配置に用いるシステム及び方法 |
WO2017091763A1 (en) | 2015-11-25 | 2017-06-01 | Baidu Usa Llc | End-to-end speech recognition |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6346825B1 (en) | 2000-10-06 | 2002-02-12 | Xilinx, Inc. | Block RAM with configurable data width and parity for use in a field programmable gate array |
US6947047B1 (en) * | 2001-09-20 | 2005-09-20 | Nvidia Corporation | Method and system for programmable pipelined graphics processing with branching instructions |
US9600288B1 (en) * | 2011-07-18 | 2017-03-21 | Apple Inc. | Result bypass cache |
US9153230B2 (en) | 2012-10-23 | 2015-10-06 | Google Inc. | Mobile speech recognition hardware accelerator |
US9710749B2 (en) * | 2013-09-03 | 2017-07-18 | Qualcomm Incorporated | Methods and apparatus for implementing a breakpoint determination unit in an artificial nervous system |
CN107111663B (zh) | 2014-11-12 | 2021-01-08 | 赛灵思公司 | 目标为可编程集成电路的异构型多处理器程序编译 |
EP3035249B1 (en) * | 2014-12-19 | 2019-11-27 | Intel Corporation | Method and apparatus for distributed and cooperative computation in artificial neural networks |
US20160224379A1 (en) | 2015-01-29 | 2016-08-04 | The Intellisis Corporation | Mapping Processes to Processors in a Network on a Chip Computing System |
US10621486B2 (en) | 2016-08-12 | 2020-04-14 | Beijing Deephi Intelligent Technology Co., Ltd. | Method for optimizing an artificial neural network (ANN) |
CN106650922B (zh) * | 2016-09-29 | 2019-05-03 | 清华大学 | 硬件神经网络转换方法、计算装置、软硬件协作系统 |
US10175980B2 (en) | 2016-10-27 | 2019-01-08 | Google Llc | Neural network compute tile |
-
2017
- 2017-10-17 US US15/785,679 patent/US11694066B2/en active Active
-
2018
- 2018-09-26 KR KR1020207013829A patent/KR102665580B1/ko active IP Right Grant
- 2018-09-26 EP EP18786569.6A patent/EP3698294B1/en active Active
- 2018-09-26 JP JP2020521369A patent/JP7382925B2/ja active Active
- 2018-09-26 CN CN201880067685.8A patent/CN111247533B/zh active Active
- 2018-09-26 WO PCT/US2018/052833 patent/WO2019079008A1/en active Search and Examination
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005182785A (ja) | 2003-12-09 | 2005-07-07 | Microsoft Corp | グラフィックス処理ユニットを使用して機械学習技術の処理を速め、最適化するシステムおよび方法 |
JP2009116872A (ja) | 2007-11-08 | 2009-05-28 | Internatl Business Mach Corp <Ibm> | ネットワーク・オン・チップ(noc)上のソフトウェア・パイプライン化の方法、プログラムおよび装置 |
US20100076915A1 (en) | 2008-09-25 | 2010-03-25 | Microsoft Corporation | Field-Programmable Gate Array Based Accelerator System |
JP2011034190A (ja) | 2009-07-30 | 2011-02-17 | Renesas Electronics Corp | データ処理装置 |
JP2014527733A (ja) | 2011-06-29 | 2014-10-16 | ベリサイン・インコーポレイテッド | データ・プレーン・パケット処理ツール・チェーン |
US20150268978A1 (en) | 2014-03-21 | 2015-09-24 | Vmware, Inc. | Binary editing of applications executed by virtual machines |
JP2017050001A (ja) | 2015-09-04 | 2017-03-09 | バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC | 効果的なニューラルネットワークの配置に用いるシステム及び方法 |
WO2017091763A1 (en) | 2015-11-25 | 2017-06-01 | Baidu Usa Llc | End-to-end speech recognition |
JP2018513399A (ja) | 2015-11-25 | 2018-05-24 | バイドゥ ユーエスエー エルエルシーBaidu USA LLC | 配置されたエンドツーエンド音声認識 |
Also Published As
Publication number | Publication date |
---|---|
US20190114533A1 (en) | 2019-04-18 |
KR102665580B1 (ko) | 2024-05-21 |
KR20200069353A (ko) | 2020-06-16 |
US11694066B2 (en) | 2023-07-04 |
EP3698294B1 (en) | 2024-07-17 |
WO2019079008A1 (en) | 2019-04-25 |
CN111247533A (zh) | 2020-06-05 |
JP2020537784A (ja) | 2020-12-24 |
EP3698294A1 (en) | 2020-08-26 |
CN111247533B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7382925B2 (ja) | ニューラルネットワークアクセラレーションのための機械学習ランタイムライブラリ | |
JP7337053B2 (ja) | 超並列ソフトウェア定義ハードウェアシステムにおける静的ブロックスケジューリング | |
KR102562715B1 (ko) | 다수의 프로세서들 및 뉴럴 네트워크 가속기를 갖는 뉴럴 네트워크 프로세싱 시스템 | |
US11429848B2 (en) | Host-directed multi-layer neural network processing via per-layer work requests | |
KR102578508B1 (ko) | 호스트 전달되는 병합된 가중치들 및 계층별 명령어들의 패키지를 사용한 뉴럴 네트워크 가속기에 의한 다중 계층 뉴럴 네트워크 프로세싱 | |
US11204747B1 (en) | Re-targetable interface for data exchange between heterogeneous systems and accelerator abstraction into software instructions | |
CN113469355B (zh) | 分布式系统中的多模型训练管道 | |
US20180181503A1 (en) | Data flow computation using fifos | |
CN113435682A (zh) | 分布式训练的梯度压缩 | |
CN110569019A (zh) | 数值的随机修约 | |
CN114830135A (zh) | 算子的层次分区 | |
US11847507B1 (en) | DMA synchronization using alternating semaphores | |
US20220318604A1 (en) | Sparse machine learning acceleration | |
US11221979B1 (en) | Synchronization of DMA transfers for large number of queues | |
US12131188B1 (en) | Scheduling for locality of reference to memory | |
US9529587B2 (en) | Refactoring data flow applications without source code changes or recompilation | |
US11875247B1 (en) | Input batching with serial dynamic memory access | |
JP2018106709A (ja) | OpenCLカーネルを処理する方法、及びそれを遂行するコンピューティング装置 | |
US11182314B1 (en) | Low latency neural network model loading |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20200605 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210922 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220907 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221018 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230418 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230623 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231010 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231107 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7382925 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |