JP2022117866A

JP2022117866A - ニューラルネットワーク生成装置、ニューラルネットワーク演算装置、エッジデバイス、ニューラルネットワーク制御方法およびソフトウェア生成プログラム

Info

Publication number: JP2022117866A
Application number: JP2021014621A
Authority: JP
Inventors: 拓之徳永; Hiroyuki Tokunaga
Original assignee: Leap Mind Inc
Current assignee: Leap Mind Inc
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2022-08-12
Also published as: CN116762080A; WO2022163861A1; US20240095522A1

Abstract

【課題】ＩｏＴ機器などの組み込み機器に組み込み可能であり、高性能に動作させることができるニューラルネットワークを生成して制御する。【解決手段】ニューラルネットワーク生成装置は、ニューラルネットワークを演算するニューラルネットワーク実行モデルを生成するニューラルネットワーク生成装置であって、前記ニューラルネットワーク実行モデルは、８ビット以上の要素を含む入力データを、複数の閾値との比較に基づいて、前記要素よりも低ビットである変換値に変換する。【選択図】図２

Description

本発明は、ニューラルネットワーク生成装置、ニューラルネットワーク演算装置、エッジデバイス、ニューラルネットワーク制御方法およびソフトウェア生成プログラムに関する。

近年、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）が画像認識等のモデルとして用いられている。畳み込みニューラルネットワークは、畳み込み層やプーリング層を有する多層構造であり、畳み込み演算等の多数の演算を必要とする。畳み込みニューラルネットワークによる演算を高速化する演算手法が様々考案されている（特許文献１など）。

特開２０１８－０７７８２９号公報

一方で、ＩｏＴ機器などの組み込み機器においても畳み込みニューラルネットワークを利用した画像認識等が使用されている。組み込み機器において畳み込みニューラルネットワークを効率的に動作させるため、組み込み機器のハードウェア構成に合わせたニューラルネットワークに係る演算を行う回路やモデルを生成することが望まれている。また、これらの回路やモデルを高効率かつ高速に動作させる制御方法が望まれている。また、これらの回路やモデルを高効率かつ高速に動作させるソフトウェアを生成するソフトウェア生成プログラムが望まれている。

上記事情を踏まえ、本発明は、ＩｏＴ機器などの組み込み機器に組み込み可能であり、高効率かつ高速に動作させることができるニューラルネットワークに係る演算を行う回路やモデルを生成するニューラルネットワーク生成装置、高効率かつ高速に動作させることができるニューラルネットワークに係る演算を行うニューラルネットワーク演算装置、ニューラルネットワーク演算装置を含むエッジデバイス、ニューラルネットワークに係る演算を行う回路やモデルを高効率かつ高速に動作させるニューラルネットワーク制御方法およびニューラルネットワークに係る演算を行う回路やモデルを高効率かつ高速に動作させるソフトウェアを生成するソフトウェア生成プログラムを提供することを目的とする。

上記課題を解決するために、この発明は以下の手段を提案している。
本発明の第一の態様に係るニューラルネットワーク生成装置は、ニューラルネットワーク生成装置は、ニューラルネットワークを演算するニューラルネットワーク実行モデルを生成するニューラルネットワーク生成装置であって、前記ニューラルネットワーク実行モデルは、８ビット以上の要素を含む入力データを、複数の閾値との比較に基づいて、前記要素よりも低ビットである変換値に変換する。

本発明のニューラルネットワーク生成装置、ニューラルネットワーク演算装置、エッジデバイス、ニューラルネットワーク制御方法およびソフトウェア生成プログラムは、ＩｏＴ機器などの組み込み機器に組み込み可能であり、高性能に動作させることができるニューラルネットワークを生成して制御できる。

第一実施形態に係るニューラルネットワーク生成装置を示す図である。同ニューラルネットワーク生成装置の演算部の入出力を示す図である。畳み込みニューラルネットワークの一例を示す図である。同畳み込みニューラルネットワークの畳み込み層が行う畳み込み演算を説明する図である。ニューラルネットワーク実行モデルの一例を示す図である。同ニューラルネットワーク実行モデルの動作例を示すタイミングチャートである。同ニューラルネットワーク生成装置の制御フローチャートである。生成される畳み込み演算回路の内部ブロック図である。同畳み込み演算回路の乗算器の内部ブロック図である。同乗算器の積和演算ユニットの内部ブロック図である。同畳み込み演算回路のアキュムレータ回路の内部ブロック図である。同アキュムレータ回路のアキュムレータユニットの内部ブロック図である。同畳み込み演算回路の制御回路のステート遷移図である。同畳み込み演算回路の入力変換部のブロック図である。同畳み込み演算のデータ分割やデータ展開を説明する図である。第二実施形態に係る電子機器（ニューラルネットワーク演算装置）の一例を説明する図である。同電子機器の動作例を示すタイミングチャートである。同電子機器のプロセッサが実行する入力データを変換するプログラムの動作を示すフローチャートである。

（第一実施形態）
本発明の第一実施形態について、図１から図１８を参照して説明する。
図１は、本実施形態に係るニューラルネットワーク生成装置３００を示す図である。

［ニューラルネットワーク生成装置３００］
ニューラルネットワーク生成装置３００は、ＩｏＴ機器などの組み込み機器に組み込み可能な学習済みのニューラルネットワーク実行モデル１００を生成する装置である。ニューラルネットワーク実行モデル１００は、畳み込みニューラルネットワーク２００（以下、「ＣＮＮ２００」という）を組み込み機器において演算させるために生成されたソフトウェアやハードウェアモデルである。

ニューラルネットワーク生成装置３００は、ＣＰＵ（Central Processing Unit）等のプロセッサとメモリ等のハードウェアを備えたプログラム実行可能な装置（コンピュータ）である。ニューラルネットワーク生成装置３００の機能は、ニューラルネットワーク生成装置３００においてニューラルネットワーク生成プログラムおよびソフトウェア生成プログラムを実行することにより実現される。ニューラルネットワーク生成装置３００は、記憶部３１０と、演算部３２０と、データ入力部３３０と、データ出力部３４０と、表示部３５０と、操作入力部３６０と、を備える。

記憶部３１０は、ハードウェア情報ＨＷと、ネットワーク情報ＮＷと、学習データセットＤＳと、ニューラルネットワーク実行モデル１００（以下、「ＮＮ実行モデル１００」という）と、学習済みパラメータＰＭと、を記憶する。ハードウェア情報ＨＷ、学習データセットＤＳおよびネットワーク情報ＮＷは、ニューラルネットワーク生成装置３００に入力される入力データである。ＮＮ実行モデル１００および学習済みパラメータＰＭは、ニューラルネットワーク生成装置３００が出力する出力データである。なお、「学習済みのＮＮ実行モデル１００」は、ＮＮ実行モデル１００および学習済みパラメータＰＭを含む。

ハードウェア情報ＨＷは、ＮＮ実行モデル１００を動作させる組み込み機器（以降、「動作対象ハードウェア」という）の情報である。ハードウェア情報ＨＷは、例えば、動作対象ハードウェアのデバイス種別、デバイス制約、メモリ構成、バス構成、動作周波数、消費電力、製造プロセス種別などである。デバイス種別は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）などの種別である。デバイス制約は、動作対象デバイスに含まれる演算器数の上限や回路規模の上限などである。メモリ構成は、メモリ種別やメモリ個数やメモリ容量や入出力データ幅である。バス構成は、バス種類、バス幅、バス通信規格、同一バス上の接続デバイスなどである。また、ＮＮ実行モデル１００に複数のバリエーションが存在する場合、ハードウェア情報ＨＷには使用するＮＮ実行モデル１００のバリエーションに関する情報が含まれる。

ネットワーク情報ＮＷは、ＣＮＮ２００の基本情報である。ネットワーク情報ＮＷは、例えば、ＣＮＮ２００のネットワーク構成、入力データ情報、出力データ情報、量子化情報などである。入力データ情報は、画像や音声などの入力データ種別と、入力データサイズなどである。

学習データセットＤＳは、学習に用いる学習データＤ１と、推論テストに用いるテストデータＤ２と、を有する。

図２は、演算部３２０の入出力を示す図である。
演算部３２０は、実行モデル生成部３２１と、学習部３２２と、推論部３２３と、ハードウェア生成部３２４と、ソフトウェア生成部３２５と、を有する。演算部３２０に入力されるＮＮ実行モデル１００は、ニューラルネットワーク生成装置３００以外の装置で生成されたものであってもよい。

実行モデル生成部３２１は、ハードウェア情報ＨＷおよびネットワーク情報ＮＷに基づいてＮＮ実行モデル１００を生成する。ＮＮ実行モデル１００は、ＣＮＮ２００を動作対象ハードウェアにおいて演算させるために生成されたソフトウェアやハードウェアモデルである。ソフトウェアは、ハードウェアモデルを制御するソフトウェアを含む。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。

学習部３２２は、ＮＮ実行モデル１００および学習データＤ１を用いて、学習済みパラメータＰＭを生成する。推論部３２３は、ＮＮ実行モデル１００およびテストデータＤ２を用いて推論テストを実施する。

ハードウェア生成部３２４は、ハードウェア情報ＨＷおよびＮＮ実行モデル１００に基づいてニューラルネットワークハードウェアモデル４００を生成する。ニューラルネットワークハードウェアモデル４００は、動作対象ハードウェアに実装可能なハードウェアモデルである。ニューラルネットワークハードウェアモデル４００は、ハードウェア情報ＨＷに基づいて、動作対象ハードウェアに最適化されている。ニューラルネットワークハードウェアモデル４００は、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。ニューラルネットワークハードウェアモデル４００は、ＮＮ実行モデル１００をハードウェアに実装するために必要なパラメータリストやコンフィグレーションファイルであってもよい。パラメータリストやコンフィグレーションファイルは別途生成されたＮＮ実行モデル１００と組み合わせて使用される。

以降の説明において、ニューラルネットワークハードウェアモデル４００を動作対象ハードウェアに実装したものを、「ニューラルネットワークハードウェア６００」という。

ソフトウェア生成部３２５は、ネットワーク情報ＮＷおよびＮＮ実行モデル１００に基づいて、ニューラルネットワークハードウェア６００を動作させるソフトウェア５００を生成する。ソフトウェア５００は、学習済みパラメータＰＭを必要に応じてニューラルネットワークハードウェア６００へ転送するソフトウェアを含む。

データ入力部３３０には、学習済みのＮＮ実行モデル１００を生成するために必要なハードウェア情報ＨＷやネットワーク情報ＮＷ等が入力される。ハードウェア情報ＨＷやネットワーク情報ＮＷ等は、例えば所定のデータフォーマットで記載されたデータとして入力される。入力されたハードウェア情報ＨＷやネットワーク情報ＮＷ等は、記憶部３１０に記憶される。ハードウェア情報ＨＷやネットワーク情報ＮＷ等は、操作入力部３６０から使用者により入力または変更されてもよい。

データ出力部３４０には、生成された学習済みのＮＮ実行モデル１００が出力される。例えば、生成されたＮＮ実行モデル１００と、学習済みパラメータＰＭとがデータ出力部３４０に出力される。

表示部３５０は、ＬＣＤディスプレイ等の公知のモニタを有する。表示部３５０は、演算部３２０が生成したＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）画像やコマンド等を受け付けるためのコンソール画面などを表示できる。また、演算部３２０が使用者からの情報入力を必要とする場合、表示部３５０は操作入力部３６０から情報を入力することを使用者に促すメッセージや情報入力に必要なＧＵＩ画像を表示できる。

操作入力部３６０は、使用者が演算部３２０等に対しての指示を入力する装置である。操作入力部３６０は、タッチパネル、キーボード、マウス等の公知の入力デバイスである。操作入力部３６０の入力は、演算部３２０に送信される。

演算部３２０の機能の全部または一部は、例えばＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）のような１つ以上のプロセッサがプログラムメモリに記憶されたプログラムを実行することにより実現される。ただし、演算部３２０の機能の全部または一部は、ＬＳＩ（Large Scale Integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＰＬＤ（Programmable Logic Device）等のハードウェア（例えば回路部；circuity）により実現されてもよい。また、演算部３２０の機能の全部または一部は、ソフトウェアとハードウェアとの組み合わせにより実現されてもよい。

演算部３２０の機能の全部または一部は、クラウドサーバ等の外部機器に設けられたＣＰＵやＧＰＵやハードウェア等の外部アクセラレータを用いて実現されてもよい。演算部３２０は、例えばクラウドサーバ上の演算性能が高いＧＰＵや専用ハードウェアを併用することで、演算部３２０の演算速度を向上させることができる。

記憶部３１０は、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）、ＲＯＭ（Read-Only Memory）、またＲＡＭ（Random Access Memory）等により実現される。記憶部３１０の全部または一部はクラウドサーバ等の外部機器に設けられ、通信回線により演算部３２０等と接続させてもよい。

［畳み込みニューラルネットワーク（ＣＮＮ）２００］
次に、ＣＮＮ２００について説明する。図３は、ＣＮＮ２００の一例を示す図である。ＣＮＮ２００のネットワーク情報ＮＷは、以下で説明するＣＮＮ２００の構成に関する情報である。ＣＮＮ２００は、低ビットの重みｗや量子化された入力データａを用いており、組み込み機器に組み込みやすい。

ＣＮＮ２００は、畳み込み演算を行う畳み込み層２１０と、量子化演算を行う量子化演算層２２０と、出力層２３０と、を含む多層構造のネットワークである。ＣＮＮ２００の少なくとも一部において、畳み込み層２１０と量子化演算層２２０とが交互に連結されている。ＣＮＮ２００は、画像認識や動画認識に広く使われるモデルである。ＣＮＮ２００は、全結合層などの他の機能を有する層（レイヤ）をさらに有してもよい。

図４は、畳み込み層２１０が行う畳み込み演算を説明する図である。
畳み込み層２１０は、入力データａに対して重みｗを用いた畳み込み演算を行う。畳み込み層２１０は、入力データａと重みｗとを入力とする積和演算を行う。

畳み込み層２１０への入力データａ（アクティベーションデータ、特徴マップともいう）は、画像データ等の多次元データである。本実施形態において、入力データａは、要素（ｘ，ｙ，ｃ）からなる３次元テンソルである。ＣＮＮ２００の畳み込み層２１０は、低ビットの入力データａに対して畳み込み演算を行う。本実施形態において、入力データａの要素は、２ビットの符号なし整数（０，１，２，３）である。入力データａの要素は、例えば、４ビットや８ビット符号なし整数でもよい。

ＣＮＮ２００に入力される入力データが、例えば３２ビットの浮動小数点型など、畳み込み層２１０への入力データａと形式が異なる場合、ＣＮＮ２００は畳み込み層２１０の前に型変換や量子化を行う入力層をさらに有してもよい。

畳み込み層２１０の重みｗ（フィルタ、カーネルともいう）は、学習可能なパラメータである要素を有する多次元データである。本実施形態において、重みｗは、要素（ｉ，ｊ，ｃ，ｄ）からなる４次元テンソルである。重みｗは、要素（ｉ，ｊ，ｃ）からなる３次元テンソル（以降、「重みｗｏ」という）をｄ個有している。学習済みのＣＮＮ２００における重みｗは、学習済みのデータである。ＣＮＮ２００の畳み込み層２１０は、低ビットの重みｗを用いて畳み込み演算を行う。本実施形態において、重みｗの要素は、１ビットの符号付整数（０，１）であり、値「０」は＋１を表し、値「１」は－１を表す。

畳み込み層２１０は、式１に示す畳み込み演算を行い、出力データｆを出力する。式１において、ｓはストライドを示す。図４において点線で示された領域は、入力データａに対して重みｗｏが適用される領域ａｏ（以降、「適用領域ａｏ」という）の一つを示している。適用領域ａｏの要素は、（ｘ＋ｉ，ｙ＋ｊ，ｃ）で表される。

量子化演算層２２０は、畳み込み層２１０が出力する畳み込み演算の出力に対して量子化などを実施する。量子化演算層２２０は、プーリング層２２１と、ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ層２２２と、活性化関数層２２３と、量子化層２２４と、を有する。

プーリング層２２１は、畳み込み層２１０が出力する畳み込み演算の出力データｆに対して平均プーリング（式２）やＭＡＸプーリング（式３）などの演算を実施して、畳み込み層２１０の出力データｆを圧縮する。式２および式３において、ｕは入力テンソルを示し、ｖは出力テンソルを示し、Ｔはプーリング領域の大きさを示す。式３において、ｍａｘはＴに含まれるｉとｊの組み合わせに対するｕの最大値を出力する関数である。

ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ層２２２は、量子化演算層２２０やプーリング層２２１の出力データに対して、例えば式４に示すような演算によりデータ分布の正規化を行う。式４において、ｕは入力テンソルを示し、ｖは出力テンソルを示し、αはスケールを示し、βはバイアスを示す。学習済みのＣＮＮ２００において、αおよびβは学習済みの定数ベクトルである。

活性化関数層２２３は、量子化演算層２２０やプーリング層２２１やＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ層２２２の出力に対してＲｅＬＵ（式５）などの活性化関数の演算を行う。式５において、ｕは入力テンソルであり、ｖは出力テンソルである。式５において、ｍａｘは引数のうち最も大きい数値を出力する関数である。

量子化層２２４は、量子化パラメータに基づいて、プーリング層２２１や活性化関数層２２３の出力に対して例えば式６に示すような量子化を行う。式６に示す量子化は、入力テンソルｕを２ビットにビット削減している。式６において、ｑ(ｃ)は量子化パラメータのベクトルである。学習済みのＣＮＮ２００において、ｑ(ｃ)は学習済みの定数ベクトルである。式６における不等式「≦」は「＜」であってもよい。

出力層２３０は、恒等関数やソフトマックス関数等によりＣＮＮ２００の結果を出力する層である。出力層２３０の前段のレイヤは、畳み込み層２１０であってもよいし、量子化演算層２２０であってもよい。

ＣＮＮ２００は、量子化された量子化層２２４の出力データが、畳み込み層２１０に入力されるため、量子化を行わない他の畳み込みニューラルネットワークと比較して、畳み込み層２１０の畳み込み演算の負荷が小さい。

［ニューラルネットワーク実行モデル１００（ＮＮ実行モデル）１００］
次に、ＮＮ実行モデル１００について説明する。図５は、ＮＮ実行モデル１００の一例を示す図である。ＮＮ実行モデル１００は、ＣＮＮ２００を動作対象ハードウェアにおいて演算させるために生成されたソフトウェアやハードウェアモデルである。ソフトウェアは、ハードウェアモデルを制御するソフトウェアを含む。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。

ＮＮ実行モデル１００は、第一メモリ１と、第二メモリ２と、ＤＭＡコントローラ３（以下、「ＤＭＡＣ３」ともいう）と、畳み込み演算回路４と、量子化演算回路５と、コントローラ６と、を備える。ＮＮ実行モデル１００は、第一メモリ１および第二メモリ２を介して、畳み込み演算回路４と量子化演算回路５とがループ状に形成されていることを特徴とする。

第一メモリ１は、例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。第一メモリ１には、ＤＭＡＣ３やコントローラ６を介してデータの書き込みおよび読み出しが行われる。第一メモリ１は、畳み込み演算回路４の入力ポートと接続されており、畳み込み演算回路４は第一メモリ１からデータを読み出すことができる。また、第一メモリ１は、量子化演算回路５の出力ポートと接続されており、量子化演算回路５は第一メモリ１にデータを書き込むことができる。外部ホストＣＰＵは、第一メモリ１に対するデータの書き込みや読み出しにより、ＮＮ実行モデル１００に対するデータの入出力を行うことができる。

第二メモリ２は、例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。第二メモリ２には、ＤＭＡＣ３やコントローラ６を介してデータの書き込みおよび読み出しが行われる。第二メモリ２は、量子化演算回路５の入力ポートと接続されており、量子化演算回路５は第二メモリ２からデータを読み出すことができる。また、第二メモリ２は、畳み込み演算回路４の出力ポートと接続されており、畳み込み演算回路４は第二メモリ２にデータを書き込むことができる。外部ホストＣＰＵは、第二メモリ２に対するデータの書き込みや読み出しにより、ＮＮ実行モデル１００に対するデータの入出力を行うことができる。

ＤＭＡＣ３は、外部バスＥＢに接続されており、ＤＲＡＭなどの外部メモリと第一メモリ１との間のデータ転送を行う。また、ＤＭＡＣ３は、ＤＲＡＭなどの外部メモリと第二メモリ２との間のデータ転送を行う。また、ＤＭＡＣ３は、ＤＲＡＭなどの外部メモリと畳み込み演算回路４との間のデータ転送を行う。また、ＤＭＡＣ３は、ＤＲＡＭなどの外部メモリと量子化演算回路５との間のデータ転送を行う。

畳み込み演算回路４は、学習済みのＣＮＮ２００の畳み込み層２１０における畳み込み演算を行う回路である。畳み込み演算回路４は、第一メモリ１に格納された入力データａを読み出し、入力データａに対して畳み込み演算を実施する。畳み込み演算回路４は、畳み込み演算の出力データｆ（以降、「畳み込み演算出力データ」ともいう）を第二メモリ２に書き込む。

量子化演算回路５は、学習済みのＣＮＮ２００の量子化演算層２２０における量子化演算の少なくとも一部を行う回路である。量子化演算回路５は、第二メモリ２に格納された畳み込み演算の出力データｆを読み出し、畳み込み演算の出力データｆに対して量子化演算（プーリング、ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ、活性化関数、および量子化のうち少なくとも量子化を含む演算）を行う。量子化演算回路５は、量子化演算の出力データ（以降、「量子化演算出力データ」ともいう）оｕｔを第一メモリ１に書き込む。

コントローラ６は、外部バスＥＢに接続されており、外部のホストＣＰＵのスレーブとして動作する。コントローラ６は、パラメータレジスタや状態レジスタを含むレジスタ６１を有している。パラメータレジスタは、ＮＮ実行モデル１００の動作を制御するレジスタである。状態レジスタはセマフォＳを含むＮＮ実行モデル１００の状態を示すレジスタである。外部ホストＣＰＵは、コントローラ６を経由して、レジスタ６１にアクセスできる。

コントローラ６は、内部バスＩＢを介して、第一メモリ１と、第二メモリ２と、ＤＭＡＣ３と、畳み込み演算回路４と、量子化演算回路５と、接続されている。外部ホストＣＰＵは、コントローラ６を経由して、各ブロックに対してアクセスできる。例えば、外部ホストＣＰＵは、コントローラ６を経由して、ＤＭＡＣ３や畳み込み演算回路４や量子化演算回路５に対する命令を指示することができる。また、ＤＭＡＣ３や畳み込み演算回路４や量子化演算回路５は、内部バスＩＢを介して、コントローラ６が有する状態レジスタ（セマフォＳを含む）を更新できる。状態レジスタ（セマフォＳを含む）は、ＤＭＡＣ３や畳み込み演算回路４や量子化演算回路５と接続された専用配線を介して更新されるように構成されていてもよい。

ＮＮ実行モデル１００は、第一メモリ１や第二メモリ２等を有するため、ＤＲＡＭなどの外部メモリからのＤＭＡＣ３によるデータ転送において、重複するデータのデータ転送の回数を低減できる。これにより、メモリアクセスにより発生する消費電力を大幅に低減することができる。

図６は、ＮＮ実行モデル１００の動作例を示すタイミングチャートである。ＮＮ実行モデル１００は、複数のレイヤの多層構造であるＣＮＮ２００の演算を、ループ状に形成された回路により演算する。ＮＮ実行モデル１００は、ループ状の回路構成により、ハードウェア資源を効率的に利用できる。以下、図６に示すニューラルネットワークハードウェア６００の動作例を説明する。

ＤＭＡＣ３は、レイヤ１（図３参照）の入力データａを第一メモリ１に格納する。ＤＭＡＣ３は、畳み込み演算回路４が行う畳み込み演算の順序にあわせて、レイヤ１の入力データａを分割して第一メモリ１に転送してもよい。

畳み込み演算回路４は、第一メモリ１に格納されたレイヤ１（図３参照）の入力データａを読み出す。畳み込み演算回路４は、レイヤ１の入力データａに対してレイヤ１の畳み込み演算を行う。レイヤ１の畳み込み演算の出力データｆは、第二メモリ２に格納される。

量子化演算回路５は、第二メモリ２に格納されたレイヤ１の出力データｆを読み出す。量子化演算回路５は、レイヤ１の出力データｆに対してレイヤ２の量子化演算を行う。レイヤ２の量子化演算の出力データоｕｔは、第一メモリ１に格納される。

畳み込み演算回路４は、第一メモリ１に格納されたレイヤ２の量子化演算の出力データを読み出す。畳み込み演算回路４は、レイヤ２の量子化演算の出力データоｕｔを入力データａとしてレイヤ３の畳み込み演算を行う。レイヤ３の畳み込み演算の出力データｆは、第二メモリ２に格納される。

畳み込み演算回路４は、第一メモリ１に格納されたレイヤ２Ｍ－２（Ｍは自然数）の量子化演算の出力データоｕｔを読み出す。畳み込み演算回路４は、レイヤ２Ｍ－２の量子化演算の出力データоｕｔを入力データａとしてレイヤ２Ｍ－１の畳み込み演算を行う。レイヤ２Ｍ－１の畳み込み演算の出力データｆは、第二メモリ２に格納される。

量子化演算回路５は、第二メモリ２に格納されたレイヤ２Ｍ－１の出力データｆを読み出す。量子化演算回路５は、２Ｍ－１レイヤの出力データｆに対してレイヤ２Ｍの量子化演算を行う。レイヤ２Ｍの量子化演算の出力データоｕｔは、第一メモリ１に格納される。

畳み込み演算回路４は、第一メモリ１に格納されたレイヤ２Ｍの量子化演算の出力データоｕｔを読み出す。畳み込み演算回路４は、レイヤ２Ｍの量子化演算の出力データоｕｔを入力データａとしてレイヤ２Ｍ＋１の畳み込み演算を行う。レイヤ２Ｍ＋１の畳み込み演算の出力データｆは、第二メモリ２に格納される。

畳み込み演算回路４と量子化演算回路５とが交互に演算を行い、図３に示すＣＮＮ２００の演算を進めていく。ＮＮ実行モデル１００は、畳み込み演算回路４が時分割によりレイヤ２Ｍ－１の畳み込み演算とレイヤ２Ｍ＋１を実施する。また、ＮＮ実行モデル１００は、量子化演算回路５が時分割によりレイヤ２Ｍ－２の畳み込み演算とレイヤ２Ｍを実施する。そのため、ＮＮ実行モデル１００は、レイヤごとに別々の畳み込み演算回路４と量子化演算回路５を実装する場合と比較して、回路規模が著しく小さい。

［ニューラルネットワーク生成装置３００の動作］
次に、ニューラルネットワーク生成装置３００の動作（ニューラルネットワーク制御方法）を、図７に示すニューラルネットワーク生成装置３００の制御フローチャートに沿って説明する。ニューラルネットワーク生成装置３００は初期化処理（ステップＳ１０）を実施した後、ステップＳ１１を実行する。

＜ハードウェア情報取得工程（Ｓ１１）＞
ステップＳ１１において、ニューラルネットワーク生成装置３００は、動作対象ハードウェアのハードウェア情報ＨＷを取得する（ハードウェア情報取得工程）。ニューラルネットワーク生成装置３００は、例えば、データ入力部３３０に入力されたハードウェア情報ＨＷを取得する。ニューラルネットワーク生成装置３００は、表示部３５０にハードウェア情報ＨＷの入力に必要なＧＵＩ画像を表示させ、使用者にハードウェア情報ＨＷを操作入力部３６０から入力させることでハードウェア情報ＨＷを取得してもよい。

ハードウェア情報ＨＷは、具体的には、第一メモリ１および第二メモリ２として割り当てるメモリのメモリ種別やメモリ容量や入出力データ幅を有する。

取得されたハードウェア情報ＨＷは、記憶部３１０に記憶される。次に、ニューラルネットワーク生成装置３００は、ステップＳ１２を実行する。

＜ネットワーク情報取得工程（Ｓ１２）＞
ステップＳ１２において、ニューラルネットワーク生成装置３００は、ＣＮＮ２００のネットワーク情報ＮＷを取得する（ネットワーク情報取得工程）。ニューラルネットワーク生成装置３００は、例えば、データ入力部３３０に入力されたネットワーク情報ＮＷを取得する。ニューラルネットワーク生成装置３００は、表示部３５０にネットワーク情報ＮＷの入力に必要なＧＵＩ画像を表示させ、使用者にネットワーク情報ＮＷを操作入力部３６０から入力させることでネットワーク情報ＮＷを取得してもよい。

ネットワーク情報ＮＷは、具体的には、入力層や出力層２３０を含むネットワーク構成と、重みｗや入力データａのビット幅を含む畳み込み層２１０の構成と、量子化情報を含む量子化演算層２２０の構成と、を有する。

取得されたネットワーク情報ＮＷは、記憶部３１０に記憶される。次に、ニューラルネットワーク生成装置３００は、ステップＳ１３を実行する。

＜ニューラルネットワーク実行モデル生成工程（Ｓ１３）＞
ステップＳ１３において、ニューラルネットワーク生成装置３００の実行モデル生成部３２１は、ハードウェア情報ＨＷとネットワーク情報ＮＷとに基づいてＮＮ実行モデル１００を生成する（ニューラルネットワーク実行モデル生成工程）。

ニューラルネットワーク実行モデル生成工程（ＮＮ実行モデル生成工程）は、例えば、畳み込み回路生成工程（Ｓ１３－１）と、量子化回路生成工程（Ｓ１３－２）と、ＤＭＡＣ生成工程（Ｓ１３－３）と、を有する。

＜畳み込み回路生成工程（Ｓ１３－１）＞
実行モデル生成部３２１は、ハードウェア情報ＨＷとネットワーク情報ＮＷとに基づいてＮＮ実行モデル１００の畳み込み回路４を生成する（畳み込み回路生成工程）。実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された重みｗや入力データａのビット幅などの情報から、畳み込み演算回路４のハードウェアモデルを生成する。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。以下、生成される畳み込み演算回路４のハードウェアモデルの一例を説明する。

図８は、生成される畳み込み演算回路４の内部ブロック図である。
畳み込み演算回路４は、重みメモリ４１と、乗算器４２と、アキュムレータ回路４３と、ステートコントローラ４４と、入力変換部４９と、を有する。畳み込み演算回路４は、乗算器４２およびアキュムレータ回路４３に対する専用のステートコントローラ４４を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずに畳み込み演算を実施できる。

重みメモリ４１は、畳み込み演算に用いる重みｗが格納されるメモリであり、例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。ＤＭＡＣ３は、ＤＭＡ転送により、畳み込み演算に必要な重みｗを重みメモリ４１に書き込む。

図９は、乗算器４２の内部ブロック図である。
乗算器４２は、入力データａの各要素と重みｗの各要素とを乗算する。入力データａの各要素は、入力データａが分割されたデータであり、Ｂｃ個の要素を持つベクトルデータである（例えば、後述する「入力ベクトルＡ」）。また、重みｗの各要素は、重みｗが分割されたデータであり、Ｂｃ×Ｂｄ個の要素を持つマトリクスデータである（例えば、後述する「重みマトリクスＷ」）。乗算器４２は、Ｂｃ×Ｂｄ個の積和演算ユニット４７を有し、入力ベクトルＡと重みマトリクスＷとの乗算を並列して実施できる。

乗算器４２は、乗算に必要な入力ベクトルＡと重みマトリクスＷを、第一メモリ１および重みメモリ４１から読み出して乗算を実施する。乗算器４２は、Ｂｄ個の積和演算結果Ｏ（ｄｉ）を出力する。

図１０は、積和演算ユニット４７の内部ブロック図である。
積和演算ユニット４７は、入力ベクトルＡの要素Ａ（ｃｉ）と、重みマトリクスＷの要素Ｗ（ｃｉ，ｄｉ）との乗算を実施する。また、積和演算ユニット４７は、乗算結果と他の積和演算ユニット４７の乗算結果Ｓ（ｃｉ，ｄｉ）と加算する。積和演算ユニット４７は、加算結果Ｓ（ｃｉ＋１，ｄｉ）を出力する。ｃｉは０から(Ｂｃ－１)までのインデックスである。ｄｉは０から(Ｂｄ－１)までのインデックスである。要素Ａ（ｃｉ）は、２ビットの符号なし整数（０，１，２，３）である。要素Ｗ（ｃｉ，ｄｉ）は、１ビットの符号付整数（０，１）であり、値「０」は＋１を表し、値「１」は－１を表す。

積和演算ユニット４７は、反転器（インバータ）４７ａと、セレクタ４７ｂと、加算器４７ｃと、を有する。積和演算ユニット４７は、乗算器を用いず、反転器４７ａおよびセレクタ４７ｂのみを用いて乗算を行う。セレクタ４７ｂは、要素Ｗ（ｃｉ，ｄｉ）が「０」の場合、要素Ａ（ｃｉ）の入力を選択する。セレクタ４７ｂは、要素Ｗ（ｃｉ，ｄｉ）が「１」の場合、要素Ａ（ｃｉ）を反転器により反転させた補数を選択する。要素Ｗ（ｃｉ，ｄｉ）は、加算器４７ｃのＣａｒｒｙ－ｉｎにも入力される。加算器４７ｃは、要素Ｗ（ｃｉ，ｄｉ）が「０」のとき、Ｓ（ｃｉ，ｄｉ）に要素Ａ（ｃｉ）を加算した値を出力する。加算器４７ｃは、要素Ｗ（ｃｉ，ｄｉ）が「１」のとき、Ｓ（ｃｉ，ｄｉ）から要素Ａ（ｃｉ）を減算した値を出力する。

図１１は、アキュムレータ回路４３の内部ブロック図である。
アキュムレータ回路４３は、乗算器４２の積和演算結果Ｏ（ｄｉ）を第二メモリ２にアキュムレートする。アキュムレータ回路４３は、Ｂｄ個のアキュムレータユニット４８を有し、Ｂｄ個の積和演算結果Ｏ（ｄｉ）を並列して第二メモリ２にアキュムレートできる。

図１２は、アキュムレータユニット４８の内部ブロック図である。
アキュムレータユニット４８は、加算器４８ａと、マスク部４８ｂとを有している。加算器４８ａは、積和演算結果Ｏの要素Ｏ（ｄｉ）と、第二メモリ２に格納された式１に示す畳み込み演算の途中経過である部分和と、を加算する。加算結果は、要素あたり１６ビットである。加算結果は、要素あたり１６ビットに限定されず、例えば要素あたり１５ビットや１７ビットであってもよい。

加算器４８ａは、加算結果を第二メモリ２の同一アドレスに書き込む。マスク部４８ｂは、初期化信号ｃｌｅａｒがアサートされた場合に、第二メモリ２からの出力をマスクし、要素Ｏ（ｄｉ）に対する加算対象をゼロにする。初期化信号ｃｌｅａｒは、第二メモリ２に途中経過の部分和が格納されていない場合にアサートされる。

乗算器４２およびアキュムレータ回路４３による畳み込み演算が完了すると、第二メモリに、Ｂｄ個の要素を持つ出力データｆ（ｘ，ｙ，ｄｏ）が格納される。

ステートコントローラ４４は、乗算器４２およびアキュムレータ回路４３のステートを制御する。また、ステートコントローラ４４は、内部バスＩＢを介してコントローラ６と接続されている。ステートコントローラ４４は、命令キュー４５と制御回路４６とを有する。

命令キュー４５は、畳み込み演算回路４用の命令コマンドＣ４が格納されるキューであり、例えばＦＩＦＯメモリで構成される。命令キュー４５には、内部バスＩＢ経由で命令コマンドＣ４が書き込まれる。

制御回路４６は、命令コマンドＣ４をデコードし、命令コマンドＣ４に基づいて乗算器４２およびアキュムレータ回路４３を制御するステートマシンである。制御回路４６は、論理回路により実装されていてもよいし、ソフトウェアによって制御されるＣＰＵによって実装されていてもよい。

図１３は、制御回路４６のステート遷移図である。
制御回路４６は、命令キュー４５に命令コマンドＣ４が入力されると（Ｎｏｔｅｍｐｔｙ）、アイドルステートＳ１からデコードステートＳ２に遷移する。

制御回路４６は、デコードステートＳ２において、命令キュー４５から出力される命令コマンドＣ３をデコードする。また、制御回路４６は、コントローラ６のレジスタ６１に格納されたセマフォＳを読み出し、命令コマンドＣ４において指示された乗算器４２やアキュムレータ回路４３の動作を実行可能であるかを判定する。実行不能である場合（Ｎｏｔｒｅａｄｙ）、制御回路４６は実行可能となるまで待つ（Ｗａｉｔ）。実行可能である場合（ｒｅａｄｙ）、制御回路４６はデコードステートＳ２から実行ステートＳ３に遷移する。

制御回路４６は、実行ステートＳ３において、乗算器４２やアキュムレータ回路４３を制御して、乗算器４２やアキュムレータ回路４３に命令コマンドＣ４において指示された動作を実施させる。制御回路３４は、乗算器４２やアキュムレータ回路４３の動作が終わると、命令キュー４５から実行を終えた命令コマンドＣ４を取り除くとともに、コントローラ６のレジスタ６１に格納されたセマフォＳを更新する。制御回路４６は、命令キュー４５に命令がある場合（Ｎｏｔｅｍｐｔｙ）、実行ステートＳ３からデコードステートＳ２に遷移する。制御回路４６は、命令キュー４５に命令がない場合（ｅｍｐｔｙ）、実行ステートＳ３からアイドルステートＳ１に遷移する。

実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された重みｗや入力データａのビット幅などの情報から、畳み込み演算回路４における演算器の仕様やサイズ（ＢｃやＢｄ）を決定する。ハードウェア情報ＨＷとして生成するＮＮ実行モデル１００（ニューラルネットワークハードウェアモデル４００、ニューラルネットワークハードウェア６００）のハードウェア規模が含まれる場合、実行モデル生成部３２１は、指定された規模にあわせて畳み込み演算回路４における演算器の仕様やサイズ（ＢｃやＢｄ）を調整する。

図１４は、入力変換部４９のブロック図である。
入力変換部４９は、多ビット（８ビット以上）の要素を含む入力データａを８ビット以下の値に変換する。入力変換部４９は、ＣＮＮ２００の入力層に相当する機能を有する。入力変換部４９は、複数の変換部４９１と、閾値メモリ４９２と、を有する。

ここで、入力変換部４９の説明においては、説明を簡略化するために入力データａがｃ軸方向の要素数が１である画像データ（すなわちｘｙ平面における２次元画像）であるとする。また、画像データは、ｘ軸方向およびｙ軸方向の各要素として８ビット以上の多値を画素データとする行列的なデータ構造を備えるとする。この入力データａを入力変換部４９で変換すると各要素は量子化され低ビット（例えば、２ビットまたは１ビット）になる。

変換部４９１は、入力データａの各要素に対して所定の閾値と比較する。変換部４９１は、比較結果に基づいて入力データａの各要素を量子化する。変換部４９１は、例えば８ビットの入力データａを２ビットまたは１ビットの値に量子化する。変換部４９１は、例えば量子化層２２４が実施する量子化と同様の量子化を行う。具体的には、変換部４９１は、入力データａの各要素を式６で示したように閾値と比較し、その結果を量子化結果として出力する。変換部４９１が行う量子化が１ビット量子化の場合には１つの閾値が用いられ、２ビット量子化の場合には３つの閾値が用いられる。

入力変換部４９は、ｃ０個の変換部４９１を含み、それぞれの変換部４９１は同じ要素に対して独立した閾値を用いて量子化を行う。つまり、入力変換部４９は入力データａに対して最大でｃ０個の演算結果を出力する。なお、変換部４９１の出力であって入力データａを変換した結果である変換値のビット精度は、入力データａのビット精度などに基づいて適宜変更してもよい。

閾値メモリ４９２は、変換部４９１での演算に用いる複数の閾値ｔｈを記憶するメモリである。閾値メモリ４９２に記憶された閾値ｔｈは所定の値であり、ｃ０個の変換部４９１のそれぞれに対して設定される。なお、それぞれの閾値ｔｈは学習対象のパラメータであり、後述する学習ステップを実行することにより決定および更新される。

画像データは、ｃ軸方向にｃ０個の要素を有する３次元テンソルのデータ構造に連結される。すなわち、入力変換部４９が行う処理は、画像データの各画素データを低ビット化すると共に、異なる閾値に基づいて生成したｃ０個の画像データを生成することに相当する。この場合、ｃ０個の変換部４９１の出力は、ｃ軸方向に連結されることにより要素（ｘ，ｙ，ｃ０）からなる３次元的なデータ構造として乗算器４２に出力される。

入力変換部４９を備えない場合には、乗算器４２において多ビットの乗算演算が必要になるうえに、ハードウェアとして実装されているｃ軸方向の演算資源が無駄になってしまう場合がある。一方、入力変換部４９を乗算器４２の前段に設けて入力データａを量子化することによって、乗算器４２における乗算演算を簡易な論理演算で置き換えることが可能となるだけでなく、上記の演算資源を効率的に利用することが可能となる。

なお、本実施形態においては複数の変換部４９１に対して入力データａの同一の要素が入力される例を示したが、入力変換部４９の態様はこれに限られない。例えば、入力データａが色成分を含む３チャンネル以上の要素を含む画像データである場合には、変換部４９１を対応する複数のグループにわけ、それぞれのグループに対して対応する要素を入力して変換してもよい。また、色成分以外にも所定の変換部４９１に入力する要素に対して事前に何らかの変換処理を加えてもよいし、事前処理の有無によっていずれの変換部４９１に入力するかを切り替えてもよい。また、入力データａの全ての要素に対して変換処理を行わなくてもよく、例えば入力データａ内の特定の要素である特定色に対応する要素に対してのみ変換処理を行なってもよい。

また、複数の変換部４９１に対して入力データａの異なる要素が入力されてもよい。この場合、入力変換部４９は単に入力データａを量子化するユニットとして機能する。

変換部４９１の個数ｃ０の値は固定値ではなく、ＮＮ実行モデル１００のネットワーク構造またはハードウェア情報ＨＷに合わせて適宜決定した値であることが好ましい。なお、変換部４９１による量子化による演算精度の低下を補う必要がある場合には、変換部４９１の個数は入力データａの各要素のビット精度以上に設定することが好ましい。より一般的には、量子化前後による入力データａのビット精度の差分以上に変換部４９１の個数を設定することが好ましい。具体的には８ビットの入力データａを１ビットに量子化する場合には、変換部４９１の個数は差分である７ビットに相当する７個以上（例えば、１６個や３２個）に設定することが好ましい。

なお、入力変換部４９は、必ずしもハードウェアとして実装されるものでなくてもよい。後述するソフトウェア生成工程（Ｓ１７）において事前処理として入力データａの変換処理を行ってもよい。

＜量子化回路生成工程（Ｓ１３－２）＞
実行モデル生成部３２１は、ハードウェア情報ＨＷとネットワーク情報ＮＷとに基づいてＮＮ実行モデル１００の量子化演算回路５を生成する（量子化回路生成工程）。実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された量子化情報から、量子化演算回路５のハードウェアモデルを生成する。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。

＜ＤＭＡＣ生成工程（Ｓ１３－３）＞
実行モデル生成部３２１は、ハードウェア情報ＨＷとネットワーク情報ＮＷとに基づいてＮＮ実行モデル１００のＤＭＡＣ３を生成する（ＤＭＡＣ生成工程）。実行モデル生成部３２１は、ネットワーク情報ＮＷとして入力された情報から、ＤＭＡＣ３のハードウェアモデルを生成する。ハードウェアモデルは、ビヘイビアレベルであってもよく、ＲＴＬ（Register Transfer Level）であってもよく、ゲートや回路モジュール間の接続を表すネットリストであってもよく、それらの組み合わせであってもよい。

＜学習工程（Ｓ１４）＞
ステップＳ１４において、ニューラルネットワーク生成装置３００の学習部３２２および推論部３２３は、学習データセットＤＳを用いて、生成されたＮＮ実行モデル１００の学習パラメータを学習する（学習工程）。学習工程（Ｓ１４）は、例えば、学習済みパラメータ生成工程（Ｓ１４－１）と、推論テスト工程（Ｓ１４－２）と、を有する。

＜学習工程：学習済みパラメータ生成工程（Ｓ１４－１）＞
学習部３２２は、ＮＮ実行モデル１００および学習データＤ１を用いて、学習済みパラメータＰＭを生成する。学習済みパラメータＰＭは、学習済みの重みｗ、量子化パラメータｑおよび入力変換部４９の閾値等である。

例えば、ＮＮ実行モデル１００が画像認識を実施するＣＮＮ２００の実行モデルである場合、学習データＤ１は入力画像と教師データＴとの組み合わせである。入力画像は、ＣＮＮ２００に入力される入力データａである。教師データＴは、画像に撮像された被写体の種類や、画像における検出対象物の有無や、画像における検出対象物の座標値などである。

学習部３２２は、公知の技術である誤差逆伝播法などによる教師あり学習によって、学習済みパラメータＰＭを生成する。学習部３２２は、入力画像に対するＮＮ実行モデル１００の出力と、入力画像に対応する教師データＴと、の差分Ｅを損失関数（誤差関数）により求め、差分Ｅが小さくなるように重みｗおよび量子化パラメータｑを更新する。また、学習部３２２は、量子化演算回路５において実施するＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎにおけるデータ分布の正規化を行う際の正規化パラメータも更新する。具体的には学習部３２２は、式４において示すスケールαとバイアスβを更新する。

例えば重みｗを更新する場合、重みｗに関する損失関数の勾配が用いられる。勾配は、例えば損失関数を微分することにより算出される。誤差逆伝播法を用いる場合、勾配は逆伝番（ｂａｃｋｗａｒｄ）により算出される。

学習部３２２は、勾配を算出して重みｗを更新する際において、畳み込み演算に関連する演算を高精度化する。具体的には、ＮＮ実行モデル１００が使用する低ビットの重みｗ（例えば１ビット）より高精度な３２ビットの浮動小数点型の重みｗが学習に使用される。また、ＮＮ実行モデル１００の畳み込み演算回路４において実施する畳み込み演算が高精度化される。

学習部３２２は、勾配を算出して重みｗを更新する際において、活性化関数に関連する演算を高精度化する。具体的には、ＮＮ実行モデル１００の量子化演算回路５において実施するＲｅＬＵ関数などの活性化関数より高精度なシグモンド関数が学習に使用される。

一方、学習部３２２は、順伝搬（ｆоｒｗａｒｄ）により入力画像に対する出力データを算出する際においては、畳み込み演算および活性化関数に関連する演算を高精度化せず、ＮＮ実行モデル１００に基づいた演算を実施する。重みｗを更新する際に用いられた高精度な重みｗは、ルックアップテーブル等により低ビット化される。

学習部３２２は、勾配を算出して重みｗを更新する際において、畳み込み演算および活性化関数に関連する演算を高精度化することにより、演算における中間データの精度低下を防止して、高い推論精度を実現できる学習済みパラメータＰＭを生成できる。

一方、学習部３２２は、入力画像に対する出力データを算出する際において、順伝搬（ｆоｒｗａｒｄ）の演算を高精度化せず、ＮＮ実行モデル１００に基づいた演算を実施する。そのため、学習部３２２が算出した出力データと、生成された学習済みパラメータＰＭを用いたＮＮ実行モデル１００の出力データと、が一致する。

さらに、学習部３２２は、学習後の重みｗや量子化パラメータｑを考慮して閾値ｔｈを決定する。学習部３２２は、正規化パラメータに含まれるスケールαとバイアスβを用いて閾値ｔｈを更新する。一例として学習により更新したスケールをα、バイアスをβ、閾値ｔｈの初期値をｔｈ０とした場合、ｔｈ＝（ｔｈ０－β）／αとして学習によって更新された正規化パラメータに基づいて閾値ｔｈを更新する。なお、ここでは正規化パラメータは、一次関数に関するパラメータを前提に説明したが、例えば非線形的に単調増加または単調減少する関数に関するパラメータであってもよい。また、正規化パラメータでなく、重みｗ、量子化パラメータｑまたはこれらの組み合わせを用いて閾値ｔｈを更新してもよい。

＜学習工程：推論テスト工程（Ｓ１４－２）＞
推論部３２３は、学習部３２２が生成した学習済みパラメータＰＭ、ＮＮ実行モデル１００およびテストデータＤ２を用いて推論テストを実施する。例えば、ＮＮ実行モデル１００が画像認識を実施するＣＮＮ２００の実行モデルである場合、テストデータＤ２は、学習データＤ１同様に入力画像と教師データＴとの組み合わせである。

推論部３２３は、推論テストの進捗および結果を表示部３５０に表示する。推論テストの結果は、例えばテストデータＤ２に対する正解率である。

＜確認工程（Ｓ１５）＞
ステップＳ１５において、ニューラルネットワーク生成装置３００の推論部３２３は、操作入力部３６０から結果に関する確認を入力することを使用者に促すメッセージや情報入力に必要なＧＵＩ画像を表示部３５０に表示させる。使用者は、推論テストの結果を許容するかを、操作入力部３６０から入力する。使用者が推論テストの結果を許容することを示す入力が操作入力部３６０から入力された場合、ニューラルネットワーク生成装置３００は、次にステップＳ１６を実施する。使用者が推論テストの結果を許容しないことを示す入力が操作入力部３６０から入力された場合、ニューラルネットワーク生成装置３００は、再度ステップＳ１２を実施する。なお、ニューラルネットワーク生成装置３００はステップＳ１１まで戻って、ハードウェア情報ＨＷを使用者に再入力させてもよい。

＜出力工程（Ｓ１６）＞
ステップＳ１６において、ニューラルネットワーク生成装置３００のハードウェア生成部３２４は、ハードウェア情報ＨＷおよびＮＮ実行モデル１００に基づいてニューラルネットワークハードウェアモデル４００を生成する。

＜ソフトウェア生成工程（Ｓ１７）＞
ステップＳ１７において、ニューラルネットワーク生成装置３００のソフトウェア生成部３２５は、ネットワーク情報ＮＷおよびＮＮ実行モデル１００などに基づいて、ニューラルネットワークハードウェア６００（ニューラルネットワークハードウェアモデル４００を動作対象ハードウェアに実装したもの）を動作させるソフトウェア５００を生成する。ソフトウェア５００は、学習済みパラメータＰＭを必要に応じてニューラルネットワークハードウェア６００へ転送するソフトウェアを含む。

ソフトウェア生成工程（Ｓ１７）は、例えば、入力データ変換工程（Ｓ１７－１）と、入力データ分割工程（Ｓ１７－２）と、ネットワーク分割工程（Ｓ１７－３）と、アロケーション工程（Ｓ１７－４）と、を有する。

＜入力データ変換工程（Ｓ１７－１）＞
畳み込み演算回路４において入力変換部４９がハードウェアとして実装されない場合、ソフトウェア生成部３２５は、事前処理として、事前に変化可能な入力データａを変換して変換済み入力データａ´を生成する。入力データ変換工程における入力データａの変換方法は、入力変換部４９での変換方法と同じである。

＜入力データ分割工程（Ｓ１７－２）：データ分割＞
ソフトウェア生成部３２５は、第一メモリ１および第二メモリ２として割り当てるメモリのメモリ容量や演算器の仕様やサイズ（ＢｃやＢｄ）などに基づいて、畳み込み層２１０の畳み込み演算の入力データａを部分テンソルに分割する。部分テンソルへの分割方法や分割数は特に限定されない。部分テンソルは、例えば、入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃ）をａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）に分割することにより形成される。

図１５は、畳み込み演算のデータ分割やデータ展開を説明する図である。
畳み込み演算のデータ分割において、式１における変数ｃは、式７に示すように、サイズＢｃのブロックで分割される。また、式１における変数ｄは、式８に示すように、サイズＢｄのブロックで分割される。式７において、ｃｏはオフセットであり、ｃｉは０から(Ｂｃ－１)までのインデックスである。式８において、ｄｏはオフセットであり、ｄｉは０から(Ｂｄ－１)までのインデックスである。なお、サイズＢｃとサイズＢｄは同じであってもよい。

式１における入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃ）は、サイズＢｃにより分割され、分割された入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）で表される。以降の説明において、分割された入力データａを「分割入力データａ」ともいう。

式１における重みｗ（ｉ，ｊ，ｃ，ｄ）は、サイズＢｃおよびＢｄにより分割され、分割された重みｗ（ｉ，ｊ，ｃｏ，ｄｏ）で表される。以降の説明において、分割された重みｗを「分割重みｗ」ともいう。

サイズＢｄにより分割された出力データｆ（ｘ，ｙ，ｄｏ）は、式９により求まる。分割された出力データｆ（ｘ，ｙ，ｄｏ）を組み合わせることで、最終的な出力データｆ（ｘ，ｙ，ｄ）を算出できる。

＜入力データ分割工程（Ｓ１７－３）：データ展開＞
ソフトウェア生成部３２５は、ＮＮ実行モデル１００の畳み込み回路４に、分割された入力データａおよび重みｗを展開する。

分割入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）は、Ｂｃ個の要素を持つベクトルデータに展開される。分割入力データａの要素は、ｃｉでインデックスされる（０≦ｃｉ＜Ｂｃ）。以降の説明において、ｉ，ｊごとにベクトルデータに展開された分割入力データａを「入力ベクトルＡ」ともいう。入力ベクトルＡは、分割入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ×Ｂｃ）から分割入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ×Ｂｃ＋（Ｂｃ－１））までを要素とする。

分割重みｗ（ｉ，ｊ，ｃｏ，ｄｏ）は、Ｂｃ×Ｂｄ個の要素を持つマトリクスデータに展開される。マトリクスデータに展開された分割重みｗの要素は、ｃｉとｄｉでインデックスされる（０≦ｄｉ＜Ｂｄ）。以降の説明において、ｉ，ｊごとにマトリクスデータに展開された分割重みｗを「重みマトリクスＷ」ともいう。重みマトリクスＷは、分割重みｗ（ｉ，ｊ，ｃｏ×Ｂｃ，ｄｏ×Ｂｄ）から分割重みｗ（ｉ，ｊ，ｃｏ×Ｂｃ＋（Ｂｃ－１），ｄｏ×Ｂｄ＋（Ｂｄ－１））までを要素とする。

入力ベクトルＡと重みマトリクスＷとを乗算することで、ベクトルデータが算出される。ｉ，ｊ，ｃｏごとに算出されたベクトルデータを３次元テンソルに整形することで、出力データｆ（ｘ，ｙ，ｄｏ）を得ることができる。このようなデータの展開を行うことで、畳み込み層２１０の畳み込み演算を、ベクトルデータとマトリクスデータとの乗算により実施できる。

＜アロケーション工程（Ｓ１７－４）＞
ソフトウェア生成部３２５は、分割された演算をニューラルネットワークハードウェア６００に割り当てて実施させるソフトウェア５００を生成する（アロケーション工程）。生成されるソフトウェア５００は、命令コマンドＣ４を含む。入力データ変換工程（Ｓ１７－１）において入力データａの変換が行われた場合、ソフトウェア５００は、変換済み入力データａ´を含む。

以上説明したように、本実施形態に係るニューラルネットワーク生成装置３００、ニューラルネットワーク制御方法およびソフトウェア生成プログラムによれば、ＩｏＴ機器などの組み込み機器に組み込み可能であり、高性能に動作させることができるニューラルネットワークを生成および制御できる。

以上、本発明の第一実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、上述の実施形態および変形例において示した構成要素は適宜に組み合わせて構成することが可能である。

（変形例１－１）
上記実施形態において、第一メモリ１と第二メモリ２は別のメモリであったが、第一メモリ１と第二メモリ２の態様はこれに限定されない。第一メモリ１と第二メモリ２は、例えば、同一メモリにおける第一メモリ領域と第二メモリ領域であってもよい。

（変形例１－２）
例えば、上記実施形態に記載のＮＮ実行モデル１００やニューラルネットワークハードウェア６００に入力されるデータは単一の形式に限定されず、静止画像、動画像、音声、文字、数値およびこれらの組み合わせで構成することが可能である。なお、ＮＮ実行モデル１００やニューラルネットワークハードウェア６００に入力されるデータは、ニューラルネットワークハードウェア６００が設けられるエッジデバイスに搭載され得る、光センサ、温度計、Global Positioning System（GPS）計測器、角速度計測器、風速計などの物理量測定器における測定結果に限られない。周辺機器から有線または無線通信経由で受信する基地局情報、車両・船舶等の情報、天候情報、混雑状況に関する情報などの周辺情報や金融情報や個人情報等の異なる情報を組み合わせてもよい。

（変形例１－３）
ニューラルネットワークハードウェア６００が設けられるエッジデバイスは、バッテリ等で駆動する携帯電話などの通信機器、パーソナルコンピュータなどのスマートデバイス、デジタルカメラ、ゲーム機器、ロボット製品などのモバイル機器を想定するが、これに限られるものではない。Power on Ethernet（PoE）などでの供給可能なピーク電力制限、製品発熱の低減または長時間駆動の要請が高い製品に利用することでも他の先行例にない効果を得ることができる。例えば、車両や船舶などに搭載される車載カメラや、公共施設や路上などに設けられる監視カメラ等に適用することで長時間の撮影を実現できるだけでなく、軽量化や高耐久化にも寄与する。また、テレビやディスプレイ等の表示デバイス、医療カメラや手術ロボット等の医療機器、製造現場や建築現場で使用される作業ロボットなどにも適用することで同様の効果を奏することができる。

（第二実施形態）
本発明の第二実施形態に係る電子機器（ニューラルネットワーク演算装置）７００について、図１６から図１８を参照して説明する。以降の説明において、既に説明したものと共通する構成については、同一の符号を付して重複する説明を省略する。

図１６は、ニューラルネットワークハードウェア６００を含む電子機器７００の構成の一例を説明する図である。電子機器７００は、バッテリ等の電源で駆動するモバイル製品であり、一例として携帯電話などのエッジデバイスである。電子機器７００は、プロセッサ７１０と、メモリ７１１と、演算部７１２と、入出力部７１３と、表示部７１４と、通信ネットワーク７１６と通信する通信部７１５と、を備える。電子機器７００は、各構成要素を組わせることで、ＮＮ実行モデル１００の機能を実現する。

プロセッサ７１０は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）であり、メモリ７１１に事前に記憶されたソフトウェア５００を読み出して実行し、演算部７１２と合わせてニューラルネットワークハードウェア６００の各機能を実現する。また、プロセッサ７１０は、ソフトウェア５００以外のプログラムを読み出して実行し、ディープラーニングプログラムが有する各機能を実現する上で必要な機能を実現してもよい。

メモリ７１１は、例えばＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）であり、プロセッサ７１０により読み出されて実行される命令群や各種パラメータ等を含むソフトウェア５００を予め記憶している。また、メモリ７１１には表示部７１４に表示されるためのＧＵＩに使用するための画像データや各種設定ファイルを記憶している。なお、メモリ７１１はＲＡＭに限られるものではなく、例えば、ハードディスクドライブ（ＨＤＤ：ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ソリッドステートドライブ（ＳＳＤ：ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、フラッシュメモリ（ＦｌａｓｈＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）であってもよいし、これらを組み合わせたものであってもよい。

演算部７１２は、図５に示したＮＮ実行モデル１００の機能を１つ以上含み、外部バスＥＢを経由してプロセッサ７１０と連携してニューラルネットワークハードウェア６００の各機能を実現する。具体的には、外部バスＥＢを経由して、入力データａを読み出して各種ディープラーニングに関する演算を行い、その結果をメモリ７１１などに書き出す。

入出力部７１３は、例えば、入出力ポート（Ｉｎｐｕｔ／ＯｕｔｐｕｔＰｏｒｔ）である。入出力部７１３は、例えば、１以上のカメラ装置、マウス、キーボード等の入力装置、ディスプレイ、スピーカ等の出力装置が接続される。カメラ装置は、例えば、ドライブレコーダー、防犯用監視システムに接続されているカメラである。また、入出力部７１３は、ＵＳＢポートなどの汎用的なデータの入出力ポートを含んでもよい。

表示部７１４は、ＬＣＤディスプレイ等の各種モニタを有する。表示部７１４は、ＧＵＩ画像などを表示できる。また、プロセッサ７１０が使用者からの情報入力を必要とする場合、表示部７１４は入出力部７１３から情報を入力することを使用者に促すメッセージや情報入力に必要なＧＵＩ画像を表示できる。

通信部７１５は、通信ネットワーク７１６を介して他の機器と通信を実行するためのインターフェース回路である。また、通信ネットワーク７１６は、例えば、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネット、イントラネットである。また、通信部７１６は、ディープラーニングに関する演算結果を含む各種データを送信する機能を有するだけではなく、サーバ等の外部装置から所定のデータを受信する機能を有する。例えば、通信部７１５は、プロセッサ７１０が実行する各種プログラム、当該プログラムに含まれるパラメータ、機械学習に使用される学習モデル、当該学習モデルを学習するためのプログラムや学習結果を外部装置から受信する。

なお、プロセッサ７１０または演算部７１２の機能の一部は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）のような１つ以上のプロセッサがプログラムメモリに記憶されたプログラムを実行することにより実現されてもよい。ただし、演算部７１２の機能の全部または一部は、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）等のハードウェア（例えば回路部；ｃｉｒｃｕｉｔｙ）により実現されてもよい。また、演算部７１２の機能の一部は、ソフトウェアとハードウェアとの組み合わせにより実現されてもよい。

次に、電子機器（ニューラルネットワーク演算装置）７００の動作について説明する。
ニューラルネットワークハードウェア６００は畳み込み演算回路４と量子化演算回路５が二つのメモリを介してループ状に形成されている。これにより、量子化された入力データａおよび重みｗに対して畳み込み演算を効率的に実施可能に構成される。しかし、特殊な演算を実行する場合には効率化が下がる場合がある。

ニューラルネットワークハードウェア６００の各構成要素の制御は、プロセッサ７１０のスレーブとして動作するコントローラ６によって行われる。コントローラ６は、プロセッサ７１０による動作レジスタへの書き込みに同期して、メモリ７１１の所定の領域に格納されている命令セットを順次読み込む。プロセッサ７１０は、読み込んだ命令セットに応じて各構成要素の制御を実施して、ＮＮ実行モデル１００に関する演算を実行する。

一方で、ＮＮ実行モデル１００の演算の全てをニューラルネットワークハードウェア６００で実行する必要はなく、一部の演算を外部の演算資源である例えばプロセッサ７１０で実施してもよい。具体的には、ニューラルネットワークハードウェア６００では実行する場合に演算効率が低下する多ビットの演算や入力層や出力層の演算の全部または一部をプロセッサ７１０が実行することで、演算効率を低下させずに可能な演算の範囲を広げることができる。

本実施形態では、入力層において、多ビットの入力データａ（例えば、画像データなど）を変換する演算（入力変換部４９に相当する変換）をプロセッサ７１０で実施し、その後の畳み込み演算をニューラルネットワークハードウェア６００を含む演算部７１２で実施する場合について説明する。

図１７は、電子機器７００におけるプロセッサ７１０および演算部７１２がＮＮ実行モデル１００の演算処理動作を実施する例を示すタイミングチャートである。ＮＮ実行モデル１００における一部の演算をプロセッサ７１０にて行い、その後の演算をループ状の回路構成を有するニューラルネットワークハードウェア６００により行うことによりハードウェア資源を効率的に利用することができ、演算全体の効率化を図ることができる。

プロセッサ７１０は、メモリ７１１に格納された入力データａを読み出す。プロセッサ７１０は、所定のプログラムを実行し、入力データａの変換（入力変換部４９に相当する変換）を実施する。

図１８は、プロセッサ７１０が実行する入力データａを変換するプログラムの動作を示すフローチャートである。まず、プロセッサ７１０は、ステップＳ１１０にてメモリ７１１から入力データａの一部を読み出す。具体的には、プロセッサ７１０は、畳み込み演算を行う単位で入力データａを読み出す。なお、プロセッサ７１０はニューラルネットワークハードウェア６００が備えるメモリサイズに合わせて入力データａを読み出すことが好ましい。これにより、プロセッサ７１０が処理した後のデータを効率的に後段の演算部７１２で処理することが可能となる。なお、本実施形態における処理対象の入力データａは、ｘ軸方向の要素数が３２、ｙ軸方向の要素数が３２、ｃ軸方向の要素数が１である画像データ（すなわちｘｙ平面における２次元画像）であるとする。

プロセッサ５１０は、ステップＳ１１１にてステップＳ１１０で読み出した入力データａのコピーをｃ０個作成する。ここで、コピーする対象データは、入力データａの全ての要素である３２×３２の画素データである。コピーする対象データは、１画素分のデータでもよいし、畳み込み演算において同時に演算可能な入力データ（例えば、９画素分の入力データ）でもよい。また、本実施形態において生成されるコピーの個数ｃ０は３２とするが、これ以外の個数であってもよい。生成されるコピーの個数ｃ０は、演算部５１２で処理可能なチャンネル数と同数または倍数に設定することが好ましい。

プロセッサ５１０は、ステップＳ１１２にてステップＳ１１１でコピーした入力データａの要素である画素データａ（ｉ，ｊ）と事前に学習により決定しておいた対応する閾値ｔｈ（ｃ）との比較を行う。ｃは、０から(ｃ０－１)までのインデックスである。なお、本実施形態においては入力データａのコピーがｃ０個作成される例を示したが、入力データａの変換の態様はこれに限定されない。例えば、入力データａが色成分を含む３チャンネル以上の要素を含む画像データである場合には、ｃ０個に変換されるデータのそれぞれが異なっていてもよい。なお、閾値ｔｈ（ｃ）は事前に学習したパラメータであって、メモリ５１１に記憶されているが、サーバやホスト機器などの外部装置より通信部５１５を介して適宜取得してもよい。また、ステップＳ１１２の処理は、１画素データごとでなく、複数の画素データを並列して行ってもよい。

プロセッサ７１０は、ステップＳ１１３にてステップＳ１１２の比較結果として、画素データａｉｊが閾値ｔｈ（ｃ）より大きい場合には、出力ｙとして１を出力する。一方、プロセッサ７１０は、ステップＳ１１４にてステップＳ１１２の比較結果として、画素データａｉｊが閾値ｔｈ（ｃ）以下の場合には、出力ｙとして０を出力する。この結果として、ｃ０個のビット幅をもつバイナリ値が生成される。ここで、ステップＳ１１２おける出力ｙは、１ビット値に限られず、２ビットまたは４ビットなどの多ビット値でもよい。

プロセッサ５１０は、ステップＳ１１２からステップＳ１１５を繰り返し、全ての変換対象の全ての画素データに対して変換処理を実施する。

図１７に示すように、プロセッサ７１０は、入力データａの変換を実施した後、変換済み入力データａ´に対するレイヤ１の畳み込み演算を行う。

プロセッサ７１０は、レイヤ１の畳み込み演算結果である多ビットの要素を含むデータに対してレイヤ２の量子化演算を行う。当該演算は演算部７１２に含まれる量子化演算回路５が実行する演算と同一である。プロセッサ７１０が量子化演算を行う場合、フィルタのサイズや演算ビット精度などが量子化演算回路５と異なっていてもよい。プロセッサ７１０は、量子化演算結果をメモリ７１１へ書き戻す。

演算部７１２は、プロセッサ７１０による演算開始のレジスタの制御または所定のウェイト処理に応じて演算を開始する。具体的には、演算部７１２は、レイヤ２の量子化演算が終了してメモリ５１１にデータが書き込まれた後において、当該データを読み出して、レイヤ３の畳み込み演算、レイヤ４の量子化演算及び必要な後段の処理を順次実行する。

以上説明したように、ニューラルネットワークに係る演算を実行する際に、演算対象の入力データａを量子化することにより演算効率を向上させることができる。そして、入力データａが多ビットの場合には、入力データａの変換処理（量子化処理）を設けることによって演算精度の低下を抑えつつさらに演算効率を向上させることが可能となる。

以上、本発明の第二実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、上述の実施形態および変形例において示した構成要素は適宜に組み合わせて構成することが可能である。

（変形例２－１）
図１７ではメモリ７１１を介してプロセッサ７１０と演算部７１２とが演算処理動作を実施する例を示したが、演算処理動作を実施する主体の組み合わせはこれに限られない。

例えば、入力変換部４９の比較処理などの少なくとも一部の処理について、演算部７１２で処理を行ってもよい。一例として、量子化演算回路５が入力変換部４９の比較処理を行ってもよい。この場合、第二メモリ２に格納できるサイズに入力データａを修正してもよい。また、プロセッサ７１０がレイヤ２の処理結果をメモリ７１１を介さずに、演算部７１２内のメモリに直接書き込んでもよい。また、レイヤ１の畳み込み演算結果をメモリ７１１などに一時的に格納する場合には、レイヤ２の量子化演算を第二メモリ２経由で演算部７１２で実施してもよい。

また、図１７ではプロセッサ７１０の演算処理と演算部７１２の演算処理とが時分割で実施される例を示したが、複数の入力データａを処理する場合等においては、演算を並列に処理するようにしてもよい。これにより、さらに演算を効率化することが可能となる。

上述した実施形態におけるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

本発明は、ニューラルネットワークの生成に適用することができる。

３００ニューラルネットワーク生成装置
２００畳み込みニューラルネットワーク（ＣＮＮ）
１００ニューラルネットワーク実行モデル（ＮＮ実行モデル）
４００ニューラルネットワークハードウェアモデル
５００ソフトウェア
６００ニューラルネットワークハードウェア
１第一メモリ
２第二メモリ
３ＤＭＡコントローラ（ＤＭＡＣ）
４畳み込み演算回路
４２乗算器
４３アキュムレータ回路
４９入力変換部
５量子化演算回路
６コントローラ
ＰＭ学習済みパラメータ
ＤＳ学習データセット
ＨＷハードウェア情報
ＮＷネットワーク情報

Claims

ニューラルネットワークを演算するニューラルネットワーク実行モデルを生成するニューラルネットワーク生成装置であって、
前記ニューラルネットワーク実行モデルは、８ビット以上の要素を含む入力データを、複数の閾値との比較に基づいて、前記要素よりも低ビットである変換値に変換する、
ニューラルネットワーク生成装置。
前記ニューラルネットワーク実行モデルは、前記入力データの少なくとも一部の要素を、２ビット以下の前記変換値に変換する、
請求項１に記載のニューラルネットワーク生成装置。
前記ニューラルネットワーク実行モデルの学習パラメータを学習する学習部を備え、
前記学習部は、前記ニューラルネットワークが実施するする畳み込み演算に用いる重みとともに前記閾値を生成する、
請求項１または請求項２に記載のニューラルネットワーク生成装置。
前記ニューラルネットワーク実行モデルの少なくとも一部をハードウェアに実装したニューラルネットワークハードウェアを動作させるソフトウェアを生成するソフトウェア生成部を備え、
前記ソフトウェア生成部は、前記入力データを前記変換値に変換し、前記変換値を前記ニューラルネットワークハードウェアに対する入力とする前記ソフトウェアを生成する、
請求項１から請求項３のいずれか一項に記載のニューラルネットワーク生成装置。
８ビット以上の要素を含む入力データを、複数の閾値との比較に基づいて、前記要素よりも低ビットである変換値に変換する入力変換部と、
前記変換値を入力とする畳み込み演算回路と、
を備える、
ニューラルネットワーク演算装置。
前記入力変換部は、前記入力データの少なくとも一部の要素を、２ビット以下の前記変換値に変換する
請求項５に記載のニューラルネットワーク演算装置。
前記入力変換部は、前記入力データを前記変換値に変換する複数の変換部を有し、
前記複数の変換部の個数は、前記変換部による変換の前後ビット精度の差分以上である、
請求項６に記載のニューラルネットワーク演算装置。
請求項５から請求項７のいずれか1項に記載のニューラルネットワーク演算装置と、
前記ニューラルネットワーク演算装置を動作させる電源と、
を備える
エッジデバイス。
ニューラルネットワークを演算するニューラルネットワークハードウェアを制御する方法であって、
８ビット以上の要素を含む入力データを、複数の閾値との比較に基づいて、前記要素よりも低ビットである変換値に変換する変換ステップと、
前記変換値に対して畳み込み演算を実施する演算ステップと、
を備える、
ニューラルネットワーク制御方法。
前記変換ステップは、前記ニューラルネットワークハードウェア以外の装置によって事前処置される、
請求項９に記載のニューラルネットワーク制御方法。
ニューラルネットワークを演算するニューラルネットワークハードウェアを制御するソフトウェアを生成するプログラムであって、
８ビット以上の要素を含む入力データを、複数の閾値との比較に基づいて、前記要素よりも低ビットである変換値に変換させる変換ステップと、
前記変換値に対して畳み込み演算を実施させる演算ステップと
を備える前記ソフトウェアを生成する
ソフトウェア生成プログラム。
ニューラルネットワークを演算するニューラルネットワークハードウェアを制御するソフトウェアを生成するプログラムであって、
８ビット以上の要素を含む入力データを、複数の閾値との比較に基づいて、前記要素よりも低ビットに変換した変換値を用いて、畳み込み演算を実施させる演算ステップを備える前記ソフトウェアを生成する
ソフトウェア生成プログラム。