JP2020071883A - モデル訓練方法、データ認識方法及びデータ認識装置 - Google Patents
モデル訓練方法、データ認識方法及びデータ認識装置 Download PDFInfo
- Publication number
- JP2020071883A JP2020071883A JP2019195406A JP2019195406A JP2020071883A JP 2020071883 A JP2020071883 A JP 2020071883A JP 2019195406 A JP2019195406 A JP 2019195406A JP 2019195406 A JP2019195406 A JP 2019195406A JP 2020071883 A JP2020071883 A JP 2020071883A
- Authority
- JP
- Japan
- Prior art keywords
- data
- model
- training
- student model
- input data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000012549 training Methods 0.000 title claims abstract description 84
- 238000003672 processing method Methods 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 27
- 238000013528 artificial neural network Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 13
- 238000013527 convolutional neural network Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 11
- 210000002569 neuron Anatomy 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000013140 knowledge distillation Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003920 cognitive function Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
【課題】モデル訓練方法を提供する。【解決手段】教師モデルに対応する生徒モデルを訓練する方法であって、教師モデルは、第1入力データを入力データとし、且つ第1出力データを出力ターゲットとして訓練されたものであり、該方法は、第2入力データを入力データとし、且つ第1出力データを出力ターゲットとして生徒モデルを訓練するステップ、を含み、第2入力データは、第1入力データを変更して得られたデータである。【選択図】図2
Description
本開示は、モデル訓練方法、データ認識方法及びデータ認識装置に関し、具体的には、知識の蒸留(knowledge distillation)を用いて有効なデータ認識モデルを学習することに関する。
最近、データ認識の精度は、深層学習ネットワークを用いることにより大幅に改善された。一方、速度は多くの応用シナリオで考慮する重要な要素であり、演算速度を確保すると共に、応用シナリオに必要な正確性を確保する必要がある。よって、例えば対象検出などのデータ認識の進歩はより深い深層学習の構造に依存しているが、このようなより深い構造は実行時の計算オーバヘッドの増加に繋がる。このため、知識の蒸留という概念が提案されている。
複雑な深層学習ネットワーク構造モデルは、幾つかの独立したモデルからなる集合であってもよいし、幾つかの制約条件に従って訓練された大きなネットワークモデルであってもよい。複雑なネットワークモデルの訓練が完了すると、他の訓練方法を用いて複雑なモデルからアプリケーション側に配置される小型のモデルを抽出し、即ち知識の蒸留を行ってもよい。知識の蒸留は、大きなモデルの監督により高速のニューラルネットワークモデルを訓練するための実用的な方法である。最も一般的な手順として、大きなニューラルネットワーク層から出力を抽出し、小さなニューラルネットワークに同一の結果を強制的に出力させる。このように、小さなニューラルネットワークは大きなモデルの表現力を学習することができる。ここで、小さなニューラルネットワークは「生徒」モデルとも称され、大きなニューラルネットワークは「教師」モデルとも称される。
従来の知識の蒸留の方法では、「生徒」モデルの入力と「教師」モデルの入力とは通常同じである。但し、元の訓練データセットを変更し、例えば元の訓練データセットにおける訓練データを一定量だけ変更すると、従来の方法では、「教師」モデルを再訓練して知識の蒸留の方法を用いて「生徒」モデルを訓練する必要がある。このような方法は、大きく、且つ訓練しにくい「教師」モデルを再訓練する必要があるため、演算負荷が大きくなってしまう。
従って、本発明は、新たな生徒モデルの訓練を提供する。
なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。
以下は、本開示の態様を基本的に理解させるために、本開示の簡単な概要を説明する。なお、この簡単な概要は、本開示を網羅的な概要ではなく、本開示のポイント又は重要な部分を意図的に特定するものではなく、本開示の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。
本開示の目的を実現するために、本開示の1つの態様では、教師モデルに対応する生徒モデルを訓練する方法であって、前記教師モデルは、第1入力データを入力データとし、且つ第1出力データを出力ターゲットとして訓練されたものであり、前記方法は、第2入力データを入力データとし、且つ前記第1出力データを出力ターゲットとして前記生徒モデルを訓練するステップ、を含み、前記第2入力データは、前記第1入力データを変更して得られたデータである、方法を提供する。
本開示のもう1つの態様では、教師モデルに対応する生徒モデルを訓練する方法により訓練された生徒モデルを用いてデータ認識を行うステップ、を含む、データ認識方法を提供する。
本開示のもう1つの態様では、データ認識方法を実行する少なくとも1つのプロセッサ、を含む、データ認識装置を提供する。
本開示によれば、教師モデルを再訓練する必要がなく、訓練された生徒モデルのロバスト性を高める新たなモデル訓練方法を提供する。本開示によれば、教師モデルの訓練の入力は依然として元のデータであるが、生徒モデルの訓練の入力は元のデータを変更して得られたデータである。これによって、生徒モデルの出力は依然として教師モデルと同じであり、即ち、データの違いに関係なく、教師モデルを再訓練せずに生徒モデルを訓練することができる。
本開示の上記及び他の目的、特徴及び利点をより容易に理解させるために、以下は図面を参照しながら本開示の実施形態を説明する。
従来の生徒モデルの訓練方法を示す模式図である。
本開示の実施形態に係る生徒モデルの訓練方法を示す模式図である。
本開示の実施形態に係る学習モデルの訓練方法のフローチャートである。
本開示の実施形態に係るデータ認識方法を示すフローチャートである。
本開示の実施形態に係るデータ認識装置を示す模式図である。
本開示の実施形態に係る生徒モデルの訓練方法又はデータ認識方法を実現可能な装置の汎用機器の構成を示す図である。
以下は図面を参照しながら本開示の例示的な実施形態を説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、当業者が実施形態を実現する際に、実施形態を実現するために特定の決定を行ってもよく、これらの決定は実施形態に応じて変更されてもよい。
なお、本開示を明確にするために、図面には本開示に密に関連する構成要件のみが示され、本開示と関係のない細部が省略されている。
以下は図面を参照しながら本開示の例示的な実施例を説明する。なお、明確化のために、図面及び説明では当業者に知られており、例示的な実施例と関係のない部分及びプロセスの表示及び説明が省略されている。
なお、例示的な実施例の各態様は、システム、方法又はコンピュータプログラムプロダクトとして実施されてもよい。このため、例示的な実施例の各態様は、具体的に以下の形式で実現されてもよく、即ち、完全なハードウェアの実施例、完全なソフトウェアの実施例(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、又はソフトウェアとハードウェアとの組み合わせの実施例であってもよく、本明細書では一般的に「回路」、「モジュール」又は「システム」と称される場合がある。さらに、例示的な実施例の各態様は、1つ又は複数のコンピュータ読み取り可能な媒体で表されるコンピュータプログラムプロダクトの形を採用してもよく、該コンピュータ読み取り可能な媒体にはコンピュータ読み取り可能なプログラムコードが記録されている。コンピュータプログラムは、例えば、コンピュータのネットワークを介して配分されてもよいし、1つ又は複数のリモートサーバに配置されてもよいし、装置のメモリに埋め込まされてもよい。
1つ又は複数のコンピュータ読み取り可能な媒体の任意の組み合わせを用いてもよい。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体又はコンピュータ読み取り可能な記憶媒体であってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電気、磁気、光学、電磁気、赤外線若しくは半導体のシステム、装置若しくは機器、又はこれらの任意の適切な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な例(非網羅的なリスト)は、1つ又は複数のワイヤの電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去型のプログラミング可能な読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD−ROM)、光学的記憶装置、磁気的記憶装置、又はこれらの適切な組み合わせを含む。本明細書では、コンピュータ読み取り可能な記憶媒体は、命令実行システム、装置若しくは機器により使用され、或いはこれらに関連して使用するプログラムを含み、或いは記憶する任意の有形の媒体であってもよい。
コンピュータ読み取り可能な信号媒体は、例えば、ベースバンド内、又はキャリアの一部として伝播される、コンピュータ読み取り可能なプログラムコードを有するデータ信号を含んでもよい。このような伝播信号は、任意の適切な形を採用してもよく、例えば電磁、光学又はこれらの任意の適切な組み合わせを含んでもよいが、これらに限定されない。
コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記憶媒体以外の、命令実行システム、装置又は機器により使用され、或いはこれらに関連して使用されるプログラムを伝送、伝播又は送信できる任意のコンピュータで読み取り可能な媒体であってもよい。
コンピュータ読み取り可能な媒体におけるプログラムコードは、任意の適切な媒体を用いて伝送されてもよく、例えば無線、有線、光ケーブル、無線周波数など、又はこれらの任意の適切な組み合わせを含んでもよいが、これらに限定されない。
本明細書に開示される例示的な実施例の各態様の操作を実行するためのコンピュータプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで記述されてもよく、該プログラミング言語は、Java(登録商標)、Smalltalk、C++などのオブジェクト指向プログラミング言語を含み、「C」プログラミング言語又は同様なプログラミング言語などの従来の手続き型プログラミング言語を含む。
以下は、例示的な実施例に係る方法、装置(システム)及びコンピュータプログラムプロダクトのフローチャート及び/又はブロック図を参照しながら、本明細書で開示される例示的な実施例の各態様を説明する。なお、フローチャート及び/又はブロック図の各ブロック、並びにフローチャート及び/又はブロック図の各ブロックの組み合わせは、コンピュータプログラム命令により実現されてもよい。これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ又は他のプログラミング可能なデータ処理装置のプロセッサに提供されて装置を構成し、コンピュータ又は他のプログラミング可能なデータ処理装置によりこれらの命令を実行することで、フローチャート及び/又はブロック図の各ブロックに規定された機能/操作を実現するための装置を構成する。
これらのコンピュータプログラム命令は、コンピュータ又は他のプログラミング可能なデータ処理装置に特定の方法で動作するコンピュータ読み取り可能な媒体に記憶され、コンピュータ読み取り可能な媒体に記憶された命令によりフローチャート及び/又はブロック図の各ブロックに規定された機能/操作を実現する命令を含むプロダクトを構成してもよい。
コンピュータプログラム命令は、コンピュータ又は他のプログラミング可能なデータ処理装置にロードされ、コンピュータ又は他のプログラミング可能なデータ処理装置で一連の動作ステップが実行され、コンピュータ又は他のプログラミング装置で実行される命令によりフローチャート及び/又はブロック図の各ブロックに規定された機能/操作を実現するプロセスを提供してもよい。
図1は従来の生徒モデルの訓練方法を示す模式図である。
該従来の生徒モデルの訓練方法では、教師モデルの出力と生徒モデルの出力との差分を用いて知識の蒸留を構成し、小さく且つ高速な生徒モデルを訓練する。このような方法により、生徒モデルに教師モデルの表現力を学習させることができる。
通常、従来の生徒モデルの訓練プロセスでは、各サンプルは同じように扱われ、即ち各サンプルにより生じる損失の重みは同一である。しかし、このような方法は以下の欠点を有する。教師モデルは、異なるサンプルについて異なる信頼度を有するため、損失に対して異なる重みで重み付けする。従って、この問題を解決するために、本開示の実施形態に係る方法が提案される。
図2は本開示の実施形態に係る生徒モデルの訓練方法を示す模式図である。
本開示の実施形態に係る生徒モデルの訓練方法では、同様に、教師モデルの出力と生徒モデルの出力との差分を用いて知識の蒸留を構成し、小さく且つ高速な生徒モデルを訓練し、生徒モデルに教師モデルの表現力を学習させる。しかし、図1に示す従来の生徒モデルの訓練方法と異なって、生徒モデルの入力に変化量Δを追加する。一方、出力ターゲットとして依然として教師モデルの出力ターゲットと同様なターゲットを用い、生徒モデルを訓練する。この方法により訓練された生徒モデルは、変更された入力データに適用することができるため、より多くの応用シナリオに適用することができる。
本開示の実施形態に係る学習モデルの訓練方法はニューラルネットワークを用いて生徒モデルを訓練し、ニューラルネットワークは生体のニューロンの機能を簡略化して構成された人工のニューロンを用い、人工のニューロンは接続の重みを有するエッジにより互いに接続されてもよい。接続の重み(ニューラルネットワークのパラメータ)は、エッジの所定値であり、接続の強度とも称される。ニューラルネットワークは、人工のニューロンを通じて人間の脳の認知機能又は学習プロセスを実行できる。人工のニューロンはノードとも称される。
ニューラルネットワークは複数の層を含んでもよい。例えば、ニューラルネットワークは、入力層、隠れ層及び出力層を含んでもよい。入力層は訓練を実行するための入力を受信して隠れ層に送信し、出力層は隠れ層のノードから受信された信号に基づいてニューラルネットワークの出力を生成してもよい。隠れ層は、入力層と出力層との間に配置されてもよい。隠れ層は、入力層から受信された訓練データを予測しやすい値に変更してもよい。入力層及び隠れ層に含まれるノードは接続の重みを有するエッジにより互いに接続されてもよく、隠れ層及び出力層に含まれるノードも接続の重みを有するエッジにより互いに接続されてもよい。入力層、隠れ層及び出力層は、それぞれ複数のノードを含んでもよい。
ニューラルネットワークには、複数の隠れ層を含んでもよい。複数の隠れ層を含むニューラルネットワークは、ディープニューラルネットワークと称されてもよい。ディープニューラルネットワークの訓練は深層学習と称されてもよい。隠れ層に含まれるノードは、隠れノードと称されてもよい。ディープニューラルネットワークで提供される隠れ層の数は特定の数に限定されない。
教師あり学習によりニューラルネットワークを訓練してもよい。教師あり学習とは、入力データ及びそれに対応する出力データをニューラルネットワークに提供し、エッジの接続の重みを更新して入力データに対応する出力データを出力する方法を意味する。例えば、モデル訓練装置は、delta規則及び誤差逆伝播学習により、人工のニューロン間のエッジの接続の重みを更新してもよい。
ディープネットワークはディープのニューラルネットワークである。ディープニューラルネットワークの構造は従来の多層パーセプトロンと同様であり、教師あり学習を行う場合のアルゴリズムも同様である。唯一の差異としては、このネットワークは教師あり学習を行う前に教師なし学習を行い、教師なし学習により学習された重みを教師あり学習の初期値として用いる必要がある。この変更は、実際には合理的な仮定に対応するものである。教師なし学習によりネットワークに対して事前訓練を行って得られたデータの表現をP(x)で表し、その後に教師あり学習によりネットワークを訓練し(例えばBPアルゴリズム)、P(Y|X)を取得し、ここでYは出力である(例えばカテゴリラベル)。この仮説では、P(X)の学習がP(Y|X)の学習に役に立つと考えられる。この学習アプローチは、条件の確率分布P(Y|X)だけでなく、XとYの組み合わせ確率分布も学習するため、単純な教師あり学習に比べてオーバフィッティングのリスクを低減させる。
本開示の実施形態に係る学習モデルの訓練方法は、ディープニューラルネットワーク、特に畳み込みニューラルネットワークを使用する。近年、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)が提案され、CNNは、人工のニューロンが一部のカバレッジ内の周囲のユニットに応答し、大きな画像処理に対して優れたパフォーマンスを発揮できるフィードフォワード型のニューラルネットワークである。CNNは、畳み込み層とプーリング層を含む。CNNは主に、変位、スケーリング、及び他の形式の歪み不変性の2次元画像を認識するために用いられる。CNNの特徴検出層が訓練データにより学習を行うため、CNNを利用すると、明示的な特徴抽出を回避し、訓練データから学習を暗黙的に行う。さらに、同一の特徴マッピング面上のニューロンの重みが同一であるため、ネットワークは並行して学習することができ、これは、ニューロンが互いに接続されたネットワークに対する畳み込みネットワークの大きな利点でもある。畳み込みニューラルネットワークは、局所の重みを共有するという特殊な構造により、音声認識及び画像処理において独自の利点を有し、その配置が実際の生体ニューラルネットワークに近く、重みの共有によりネットワークの複雑さを低減させ、特に多次元の入力ベクトルの画像をネットワークに直接入力できるという特徴により、特徴抽出及び分類プロセスにおけるデータ再構築の複雑さを回避した。このため、本開示の実施形態に係る学習モデルの訓練方法は、好ましくは、畳み込みニューラルネットワークを用いて、教師モデルの出力と生徒モデルの出力との差分を反復的に小さくして生徒モデルを訓練する。畳み込みニューラルネットワークは当業者にとって周知であるため、本開示はその原理の詳細な説明を省略する。
図3は本開示の実施形態に係る学習モデルの訓練方法のフローチャートである。
図3に示すように、ステップ301において、訓練済みの教師モデルを予め取得し、或いは教師モデルを一時的に訓練する。ここで、該教師モデルは、第1入力データの変更されていないサンプルを入力データとし、且つ第1出力データを出力ターゲットとして訓練されたものである。ステップ302において、第2入力データの変更されたサンプルを入力データとし、且つ教師モデルと同一の第1出力データを出力ターゲットとして生徒モデルを訓練する。ここで、第2入力データは、第1入力データを変更して得られたデータであり、該変更は、第1入力データのタイプに対応する信号処理方法である。ステップ301及びステップ302における訓練は、畳み込みニューラルネットワークにより行われる。
従来の生徒モデルの訓練ステップにおいて、教師モデルと同一の第1入力データのサンプルを入力データとし、且つ教師モデルと同一の第1出力データを出力ターゲットとして生徒モデルを訓練する。このプロセスは、以下の式(1)で表されてもよい。
上記の式(1)において、Sは生徒モデルを表し、Tは教師モデルを表し、xiは訓練サンプルを表す。即ち、従来の生徒モデルの訓練方法では、生徒モデルの入力と教師モデルの入力サンプルは同一である。よって、入力サンプルが変わると、知識の蒸留により新たな生徒モデルを取得するために、教師モデルを再訓練する必要がある。
教師モデルと生徒モデルとの出力の差分は、損失関数として表されてもよい。通常の損失関数は、1)Logit損失、2)特徴L2損失、及び3)生徒モデルのsoftmax損失を含む。以下は、この3つの損失関数を詳細に説明する。
1)Logit損失
Logit損失は、教師モデルと生徒モデルにより生成された確率分布の差分を表す。ここで、KLダイバージェンスを用いて損失関数を算出し、ここで、KLダイバージェンスは相対エントロピーであり、2つの確率分布及び差分を表す一般的な方法であり、Logit損失関数は以下の式で表される。
Logit損失は、教師モデルと生徒モデルにより生成された確率分布の差分を表す。ここで、KLダイバージェンスを用いて損失関数を算出し、ここで、KLダイバージェンスは相対エントロピーであり、2つの確率分布及び差分を表す一般的な方法であり、Logit損失関数は以下の式で表される。
式(2)において、LLはLogit損失を表し、xt(i)は教師モデルによりサンプルをi番目のカテゴリに分類する確率を表し、xs(i)は生徒モデルによりサンプルをi番目のカテゴリに分類する確率を表し、mはカテゴリの総数を表す。
式(3)において、LFは特徴L2損失を表し、mはカテゴリの総数(サンプルxiの総数)を表し、
(外1)
はサンプルxiの生徒モデルにより出力された出力特徴を表し、
(外2)
はサンプルxiの教師モデルにより出力された出力特徴を表す。
(外1)
はサンプルxiの生徒モデルにより出力された出力特徴を表し、
(外2)
はサンプルxiの教師モデルにより出力された出力特徴を表す。
式(4)において、LSはsoftmax損失を表し、mはカテゴリの総数(サンプルxiの総数)を表し、yiはxiのラベルを表し、
(外3)
はサンプルxiの生徒モデルにより出力された出力特徴を表し、他のパラメータについて、例えばW及びbは何れもsoftmaxにおける通常のパラメータであり、Wは係数の行列であり、bはオフセットであり、これらのパラメータは何れも訓練により決定されたものである。
(外3)
はサンプルxiの生徒モデルにより出力された出力特徴を表し、他のパラメータについて、例えばW及びbは何れもsoftmaxにおける通常のパラメータであり、Wは係数の行列であり、bはオフセットであり、これらのパラメータは何れも訓練により決定されたものである。
ここで、λL、λF、λSは何れも訓練により取得されたものである。
以下は、上記従来の生徒モデルの訓練ステップとは異なる訓練ステップ302を説明する。
上記の式(6)において、Sは生徒モデルを表し、Tは教師モデルを表し、xiは訓練サンプルを表し、Δはxiが変更される変化量を表す。該変化量は、入力データ、即ちサンプルのタイプに対応する信号処理方法である。例えば、訓練サンプルが画像である場合、Δは例えば画像に対してダウンサンプリング処理を行って生成された変化量であってもよい。入力データのタイプは、画像データ、音声データ又はテキストデータを含むが、これらに限定されない。以上のことから、本開示の実施形態に係る生徒モデルの訓練方法では、生徒モデルの入力サンプルと教師モデルの入力サンプルとは異なる。
訓練データに変化量Δを追加すると、生徒モデルの訓練サンプルドメインと教師モデルの訓練サンプルドメインとは異なることになる。本開示の実施形態に係る生徒モデルの訓練方法では、従来の方法におけるLogit損失及び特徴L2損失により訓練された生徒モデルを直接使用すると、データ又は対象を正確に認識することができない。元の入力サンプルと変更されたデータサンプルとのデータ関連性に基づくと、ドメイン類似度計量−マルチカーネル最大平均値差分(MK−MMD)を損失関数として用いることが考えられる。ドメイン間距離計量をマルチカーネル最大平均値差分MK−MMDに変更することで、複数の適応層のドメイン間距離を同時に測定することができ、また、MK−MMDのパラメータ学習はディープニューラルネットワークの訓練時間を増加させることがない。MK−MMD損失関数に基づく生徒モデルの学習方法により訓練されたモデルは、様々なタイプのタスクにおいて良好な分類効果を達成することができる。使用されるMK−MMD関数は以下の式(7)で表される。
上記の式(7)において、NとMはそれぞれサンプルセットxとyに対応する1つのカテゴリにおけるサンプルの数を表す。本開示の実施形態に係る生徒モデルの訓練方法では、好ましくは、生徒モデルに対応する1つのカテゴリのサンプルの数は、教師モデルの1つのカテゴリのサンプルの数と同一である。即ち、以下の各式において、好ましくは、NとMは同一の値を有する。
上記の式(8)において、LLは変更されたLogit損失を表し、xt(i)は教師モデルによりサンプルをi番目のカテゴリに分類する確率を表し、xs(i)は生徒モデルによりサンプルをi番目のカテゴリに分類する確率を表し、mはカテゴリの総数を表す。
式(9)において、LFは変更された特徴損失を表し、mはカテゴリの総数(サンプルxiの総数)を表し、
(外4)
はサンプルxiの生徒モデルにより出力された出力特徴を表し、
(外5)
はサンプルxiの教師モデルにより出力された出力特徴を表す。
(外4)
はサンプルxiの生徒モデルにより出力された出力特徴を表し、
(外5)
はサンプルxiの教師モデルにより出力された出力特徴を表す。
上記の式(10)において、LSはsoftmax損失を表し、mはカテゴリの総数(サンプルxiの総数)を表し、yiはxiのラベルを表し、
(外6)
はサンプルxiの生徒モデルにより出力された出力特徴を表し、他のパラメータについて、例えばW及びbは何れもsoftmaxにおける通常のパラメータであり、Wは係数の行列であり、bはオフセットであり、これらのパラメータは何れも訓練により決定されたものである。
(外6)
はサンプルxiの生徒モデルにより出力された出力特徴を表し、他のパラメータについて、例えばW及びbは何れもsoftmaxにおける通常のパラメータであり、Wは係数の行列であり、bはオフセットであり、これらのパラメータは何れも訓練により決定されたものである。
ここで、λL、λF、λSは何れも訓練により取得されたものである。該合計の損失を反復的に小さくして生徒モデルを訓練する。
図4は本開示の実施形態に係るデータ認識方法を示すフローチャートである。
図4に示すように、ステップ401において、訓練済みの教師モデルを予め取得し、或いは教師モデルを一時的に訓練する。ここで、該教師モデルは、第1入力データの変更されていないサンプルを入力データとし、且つ第1出力データを出力ターゲットとして訓練されたものである。ステップ402において、第2入力データの変更されたサンプルを入力データとし、且つ教師モデルと同一の第1出力データを出力ターゲットとして生徒モデルを訓練する。ここで、第2入力データは、第1入力データを変更して得られたデータであり、該変更は、第1入力データのタイプに対応する信号処理方法である。ステップ401及びステップ402における訓練は、畳み込みニューラルネットワークにより行われる。ステップ403において、ステップ402において得られた生徒モデルを用いてデータ認識を行う。
上記の式(12)において、Sは生徒モデルを表し、Tは教師モデルを表し、xiは訓練サンプルを表し、Δはxiが変更される変化量を表す。該変化量は、入力データ、即ちサンプルのタイプに対応する信号処理方法である。例えば、訓練サンプルが画像である場合、Δは例えば画像に対してダウンサンプリング処理を行って生成された変化量であってもよい。入力データのタイプは、画像データ、音声データ又はテキストデータを含むが、これらに限定されない。
訓練データに変化量Δを追加すると、生徒モデルの訓練サンプルドメインと教師モデルの訓練サンプルドメインとは異なることになる。本開示の実施形態に係る生徒モデルの訓練方法では、図1に示す従来の方法におけるLogit損失及び特徴L2損失により訓練された生徒モデルを直接使用すると、データ又は対象を正確に認識することができないため、本開示の方法では元のLogit損失及び特徴L2損失を直接使用することができない。元の入力サンプルと変更されたデータサンプルとのデータ関連性に基づくと、ドメイン類似度計量−マルチカーネル最大平均値差分(MK−MMD)を損失関数として用いることが考えられる。
ドメイン間距離計量をマルチカーネル最大平均値差分MK−MMDに変更することで、複数の適応層のドメイン間距離を同時に測定することができ、また、MK−MMDのパラメータ学習はディープニューラルネットワークの訓練時間を増加させることがない。MK−MMD損失関数に基づく生徒モデルの学習方法により訓練されたモデルは、様々なタイプのタスクにおいて良好な分類効果を達成することができる。使用されるMK−MMD関数は以下の式(13)で表される。
上記の式(13)において、NとMはそれぞれサンプルセットxとyに対応する1つのカテゴリにおけるサンプルの数を表す。本開示の実施形態に係る生徒モデルの訓練方法では、好ましくは、生徒モデルに対応する1つのカテゴリのサンプルの数は、教師モデルの1つのカテゴリのサンプルの数と同一である。即ち、以下の各式において、好ましくは、NとMは同一の値を有する。
上記の式(14)において、LLは変更されたLogit損失を表し、xt(i)は教師モデルによりサンプルをi番目のカテゴリに分類する確率を表し、xs(i)は生徒モデルによりサンプルをi番目のカテゴリに分類する確率を表し、mはカテゴリの総数を表す。
式(15)において、LFは変更された特徴損失を表し、mはカテゴリの総数(サンプルxiの総数)を表し、
(外7)
はサンプルxiの生徒モデルにより出力された出力特徴を表し、
(外8)
はサンプルxiの教師モデルにより出力された出力特徴を表す。
(外7)
はサンプルxiの生徒モデルにより出力された出力特徴を表し、
(外8)
はサンプルxiの教師モデルにより出力された出力特徴を表す。
上記の式(16)において、LSはsoftmax損失を表し、mはカテゴリの総数(サンプルxiの総数)を表し、yiはxiのラベルを表し、
(外9)
はサンプルxiの生徒モデルにより出力された出力特徴を表し、他のパラメータについて、例えばW及びbは何れもsoftmaxにおける通常のパラメータであり、Wは係数の行列であり、bはオフセットであり、これらのパラメータは何れも訓練により決定されたものである。
(外9)
はサンプルxiの生徒モデルにより出力された出力特徴を表し、他のパラメータについて、例えばW及びbは何れもsoftmaxにおける通常のパラメータであり、Wは係数の行列であり、bはオフセットであり、これらのパラメータは何れも訓練により決定されたものである。
ここで、λL、λF、λSは何れも訓練により取得されたものである。該合計の損失を反復的に小さくして生徒モデルを訓練する。
図5は本開示の実施形態に係るデータ認識装置を示す模式図である。
図5に示すデータ認識装置500は、データ認識方法を実行する少なくとも1つのプロセッサ501を含む。データ認識装置500は、記憶ユニット503及び/又は通信ユニット502をさらに含んでもよく、記憶ユニット503は認識すべきデータ及び/又は認識により得られたデータを記憶し、通信ユニット502は認識すべきデータを受信し、且つ/或いは認識により得られたデータを送信する。
本開示の各実施形態では、教師モデル及び生徒モデルの入力データは、画像データ、音声データ又はテキストデータの何れかを含んでもよい。
図6は本開示の実施形態に係る生徒モデルの訓練方法又はデータ認識方法を実現可能な装置の汎用機器700の構成を示す図である。汎用機器700は、例えばコンピュータシステムであってもよい。なお、汎用機器700は単なる一例であり、本開示の方法及び装置の使用範囲又は機能を制限するものではない。また、汎用機器700は、上記のモデル訓練方法及びモデル訓練装置における構成要件又はその組み合わせに依存するものではない。
図6において、中央処理部(CPU)701は、読み出し専用メモリ(ROM)702に記憶されているプログラム、又は記憶部708からランダムアクセスメモリ(RAM)703にロードされたプログラムにより各種の処理を実行する。RAM703には、必要に応じて、CPU701が各種の処理を実行するに必要なデータが記憶されている。CPU701、ROM702、及びRAM703は、バス704を介して互いに接続されている。入力/出力インターフェース705もバス704に接続されている。
入力部706(キーボード、マウスなどを含む)、出力部707(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む)、記憶部708(例えばハードディスクなどを含む)、通信部709(ネットワークのインタフェースカード、例えばLANカード、モデムなどを含む)は、入力/出力インターフェース705に接続されている。通信部709は、ネットワーク、例えばインターネットを介して通信処理を実行する。必要に応じて、ドライブ部710は、入力/出力インターフェース705に接続されてもよい。取り外し可能な媒体711は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライブ部710にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部708にインストールされている。
ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体711を介してソフトウェアを構成するプログラムをインストールする。
なお、これらの記憶媒体は、図6に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体711に限定されない。取り外し可能な媒体711は、例えば磁気ディスク(フロッピーディスクを含む)、光ディスク(光ディスク−読み出し専用メモリ(CD−ROM)、及びデジタル多目的ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標))及び半導体メモリを含む。或いは、記憶媒体は、ROM702、記憶部708に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。
また、本開示は、コンピュータ読み取り可能なプログラム命令が記憶されたコンピュータプログラムプロダクトをさらに提供する。該プログラム命令がコンピュータにより読み取り、実行される際に、上記本開示の方法を実行することができる。それに応じて、このようなプログラム命令を記録した上述した各種の記憶媒体も本開示の範囲内のものである。
以上はブロック図、フローチャート及び/又は実施形態を詳細に説明することで、本開示の実施形態の装置及び/又は方法の具体的な実施形態を説明している。これらのブロック図、フローチャート及び/又は実施形態に1つ又は複数の機能及び/又は動作が含まれている場合、これらのブロック図、フローチャート及び/又は実施形態における各機能及び/又は動作は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組み合わせにより個別及び/又はまとめて実施されてもよい。1つの実施形態では、本明細書に記載された主題の幾つかの部分は、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲートアレイ(FPGA)、デジタル信号プロセッサ(DSP)又は他の統合形態により実現されてもよい。なお、本明細書に記載された実施形態の全て又は一部の態様は、集積回路における1つ又は複数のコンピュータにより実行される1つ又は複数のコンピュータプログラムの形(例えば1つ又は複数のコンピュータシステムにより実行される1つ又は複数のコンピュータプログラムの形)、1つ又は複数のプロセッサにより実行される1つ又は複数のプログラムの形(1つ又は複数のマイクロプロセッサにより実行される1つ又は複数のプログラムの形)、ファームウェアの形、又は実質的なこれらの任意の組み合わせの形で均等的に実施されもよい。また、本明細書に開示された内容に応じて、本開示を設計するための回路及び/又は本開示のソフトウェア及び/又はファームウェアを編集するためのコードは全て当業者の能力の範囲内のものである。
なお、用語「含む」、「有する」は本明細書に説明された特徴、要素、ステップ又は部材の存在を意味するが、他の1つ又は複数の特徴、要素、ステップ又は部材の存在又は追加を排除するものではない。序数に関する用語は、これらの用語により言及された特徴、要素、ステップ又は部材の実施の順序又は重要性のレベルを意味することではなく、単なるこれらの特徴、要素、ステップ又は部材を区別するためものである。
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示するが、これらの付記に限定されない。
(付記1)
教師モデルに対応する生徒モデルを訓練する方法であって、
前記教師モデルは、第1入力データを入力データとし、且つ第1出力データを出力ターゲットとして訓練されたものであり、
前記方法は、第2入力データを入力データとし、且つ前記第1出力データを出力ターゲットとして前記生徒モデルを訓練するステップ、を含み、
前記第2入力データは、前記第1入力データを変更して得られたデータである、方法。
(付記2)
前記生徒モデルを訓練するステップは、
前記教師モデルの出力と前記生徒モデルの出力との差分を反復的に小さくして前記生徒モデルを訓練するステップ、を含む、付記1に記載の方法。
(付記3)
前記第1入力データと前記第2入力データとのデータ関連性に基づいて、前記差分を算出するための差分関数を決定する、付記2に記載の方法。
(付記4)
前記差分関数はMK−MMDである、付記3に記載の方法。
(付記5)
前記生徒モデルを訓練する際に前記差分関数を用いてLogit損失関数及び特徴損失関数を算出する、付記3又は4に記載の方法。
(付記6)
前記生徒モデルを訓練する際にSoftmax損失関数を算出する、付記3又は4に記載の方法。
(付記7)
前記教師モデルと前記生徒モデルとは、同一のSoftmax損失関数を有する、付記6に記載の方法。
(付記8)
前記第1入力データは、画像データ、音声データ又はテキストデータの何れかを含む、付記1乃至4の何れかに記載の方法。
(付記9)
前記変更は、前記第1入力データのタイプに対応する信号処理方法である、付記5に記載の方法。
(付記10)
前記第1入力データのサンプルの数は、前記第2入力データのサンプルの数と同一である、付記1乃至4の何れかに記載の方法。
(付記11)
訓練された複数の損失関数のそれぞれのための複数の重みにより、前記差分を算出するための差分関数を決定する、付記1乃至4の何れかに記載の方法。
(付記12)
畳み込みニューラルネットワークを用いて前記生徒モデルを訓練する、付記1乃至4の何れかに記載の方法。
(付記13)
付記1乃至8の何れかに記載の方法により訓練された生徒モデルを用いてデータ認識を行うステップ、を含む、データ認識方法。
(付記14)
付記13に記載のデータ認識方法を実行する少なくとも1つのプロセッサ、を含む、データ認識装置。
(付記15)
プログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラム命令がコンピュータにより実行される際に付記1〜13に記載の方法を実行する、記憶媒体。
(付記1)
教師モデルに対応する生徒モデルを訓練する方法であって、
前記教師モデルは、第1入力データを入力データとし、且つ第1出力データを出力ターゲットとして訓練されたものであり、
前記方法は、第2入力データを入力データとし、且つ前記第1出力データを出力ターゲットとして前記生徒モデルを訓練するステップ、を含み、
前記第2入力データは、前記第1入力データを変更して得られたデータである、方法。
(付記2)
前記生徒モデルを訓練するステップは、
前記教師モデルの出力と前記生徒モデルの出力との差分を反復的に小さくして前記生徒モデルを訓練するステップ、を含む、付記1に記載の方法。
(付記3)
前記第1入力データと前記第2入力データとのデータ関連性に基づいて、前記差分を算出するための差分関数を決定する、付記2に記載の方法。
(付記4)
前記差分関数はMK−MMDである、付記3に記載の方法。
(付記5)
前記生徒モデルを訓練する際に前記差分関数を用いてLogit損失関数及び特徴損失関数を算出する、付記3又は4に記載の方法。
(付記6)
前記生徒モデルを訓練する際にSoftmax損失関数を算出する、付記3又は4に記載の方法。
(付記7)
前記教師モデルと前記生徒モデルとは、同一のSoftmax損失関数を有する、付記6に記載の方法。
(付記8)
前記第1入力データは、画像データ、音声データ又はテキストデータの何れかを含む、付記1乃至4の何れかに記載の方法。
(付記9)
前記変更は、前記第1入力データのタイプに対応する信号処理方法である、付記5に記載の方法。
(付記10)
前記第1入力データのサンプルの数は、前記第2入力データのサンプルの数と同一である、付記1乃至4の何れかに記載の方法。
(付記11)
訓練された複数の損失関数のそれぞれのための複数の重みにより、前記差分を算出するための差分関数を決定する、付記1乃至4の何れかに記載の方法。
(付記12)
畳み込みニューラルネットワークを用いて前記生徒モデルを訓練する、付記1乃至4の何れかに記載の方法。
(付記13)
付記1乃至8の何れかに記載の方法により訓練された生徒モデルを用いてデータ認識を行うステップ、を含む、データ認識方法。
(付記14)
付記13に記載のデータ認識方法を実行する少なくとも1つのプロセッサ、を含む、データ認識装置。
(付記15)
プログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラム命令がコンピュータにより実行される際に付記1〜13に記載の方法を実行する、記憶媒体。
以上は本開示の具体的な実施形態を説明しているが、当業者は添付の特許請求の範囲の要旨及び範囲内で本開示に対して各種の変更、改善又は均等的なものを行うことができる。これらの変更、改善又は均等的なものは本開示の保護範囲に属する。
Claims (10)
- 教師モデルに対応する生徒モデルを訓練する方法であって、
前記教師モデルは、第1入力データを入力データとし、且つ第1出力データを出力ターゲットとして訓練されたものであり、
前記方法は、第2入力データを入力データとし、且つ前記第1出力データを出力ターゲットとして前記生徒モデルを訓練するステップ、を含み、
前記第2入力データは、前記第1入力データを変更して得られたデータである、方法。 - 前記生徒モデルを訓練するステップは、
前記教師モデルの出力と前記生徒モデルの出力との差分を反復的に小さくして前記生徒モデルを訓練するステップ、を含む、請求項1に記載の方法。 - 前記第1入力データと前記第2入力データとのデータ関連性に基づいて、前記差分を算出するための差分関数を決定する、請求項2に記載の方法。
- 前記差分関数はMK−MMDである、請求項3に記載の方法。
- 前記生徒モデルを訓練する際に前記差分関数を用いてLogit損失関数及び特徴損失関数を算出する、請求項3又は4に記載の方法。
- 前記生徒モデルを訓練する際にSoftmax損失関数を算出する、請求項3又は4に記載の方法。
- 前記第1入力データは、画像データ、音声データ又はテキストデータの何れかを含む、請求項1乃至4の何れかに記載の方法。
- 前記変更は、前記第1入力データのタイプに対応する信号処理方法である、請求項5に記載の方法。
- 請求項1乃至8の何れかに記載の方法により訓練された生徒モデルを用いてデータ認識を行うステップ、を含む、データ認識方法。
- 請求項9に記載のデータ認識方法を実行する少なくとも1つのプロセッサ、を含む、データ認識装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811268719.8 | 2018-10-29 | ||
CN201811268719.8A CN111105008A (zh) | 2018-10-29 | 2018-10-29 | 模型训练方法、数据识别方法和数据识别装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020071883A true JP2020071883A (ja) | 2020-05-07 |
Family
ID=67997370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019195406A Pending JP2020071883A (ja) | 2018-10-29 | 2019-10-28 | モデル訓練方法、データ認識方法及びデータ認識装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20200134506A1 (ja) |
EP (1) | EP3648014A1 (ja) |
JP (1) | JP2020071883A (ja) |
CN (1) | CN111105008A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021520568A (ja) * | 2018-11-08 | 2021-08-19 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 組織結節検出方法及びそのモデルトレーニング方法、装置、機器、システム、並びにそのコンピュータプログラム |
WO2022201534A1 (ja) | 2021-03-26 | 2022-09-29 | 三菱電機株式会社 | 再学習システム及び再学習方法 |
JP7535979B2 (ja) | 2020-07-08 | 2024-08-19 | ナノ ディメンション テクノロジーズ,リミテッド | 生徒対教師の不一致を最大化する入力を用いて、教師役ニューラルネットワークを模倣するように生徒役ニューラルネットワークを訓練する方法 |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10963748B1 (en) | 2018-08-31 | 2021-03-30 | Snap Inc. | Generative neural network distillation |
US20220108215A1 (en) * | 2019-01-16 | 2022-04-07 | Google Llc | Robust and Data-Efficient Blackbox Optimization |
US11620515B2 (en) * | 2019-11-07 | 2023-04-04 | Salesforce.Com, Inc. | Multi-task knowledge distillation for language model |
US20210334644A1 (en) * | 2020-04-27 | 2021-10-28 | Nvidia Corporation | Neural network training technique |
CN111640425B (zh) * | 2020-05-22 | 2023-08-15 | 北京百度网讯科技有限公司 | 一种模型训练和意图识别方法、装置、设备及存储介质 |
CN111639710B (zh) * | 2020-05-29 | 2023-08-08 | 北京百度网讯科技有限公司 | 图像识别模型训练方法、装置、设备以及存储介质 |
CN115699029A (zh) * | 2020-06-05 | 2023-02-03 | 华为技术有限公司 | 利用神经网络中的后向传递知识改进知识蒸馏 |
US11430124B2 (en) | 2020-06-24 | 2022-08-30 | Samsung Electronics Co., Ltd. | Visual object instance segmentation using foreground-specialized model imitation |
US12106051B2 (en) | 2020-07-16 | 2024-10-01 | Optum Technology, Inc. | Unsupervised approach to assignment of pre-defined labels to text documents |
CN116249991A (zh) * | 2020-07-24 | 2023-06-09 | 华为技术有限公司 | 一种神经网络蒸馏方法以及装置 |
CN111859960B (zh) * | 2020-07-27 | 2023-08-01 | 中国平安人寿保险股份有限公司 | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 |
CN112749728A (zh) * | 2020-08-13 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 学生模型训练方法、装置、计算机设备及存储介质 |
CN112101545B (zh) * | 2020-08-28 | 2024-09-03 | 北京百度网讯科技有限公司 | 蒸馏系统的训练方法、装置、设备及存储介质 |
US20220076136A1 (en) * | 2020-09-09 | 2022-03-10 | Peyman PASSBAN | Method and system for training a neural network model using knowledge distillation |
CN112232506A (zh) * | 2020-09-10 | 2021-01-15 | 北京迈格威科技有限公司 | 网络模型训练方法、图像目标识别方法、装置和电子设备 |
CN112508169B (zh) * | 2020-11-13 | 2024-09-24 | 华为技术有限公司 | 知识蒸馏方法和系统 |
WO2022104550A1 (zh) * | 2020-11-17 | 2022-05-27 | 华为技术有限公司 | 模型蒸馏训练的方法及相关装置和设备、可读存储介质 |
CN112465138A (zh) * | 2020-11-20 | 2021-03-09 | 平安科技(深圳)有限公司 | 模型蒸馏方法、装置、存储介质及设备 |
CN112529162B (zh) * | 2020-12-15 | 2024-02-27 | 北京百度网讯科技有限公司 | 神经网络模型的更新方法、装置、设备和存储介质 |
CN112529181B (zh) * | 2020-12-15 | 2024-04-23 | 北京百度网讯科技有限公司 | 用于模型蒸馏的方法和装置 |
CN112561059B (zh) * | 2020-12-15 | 2023-08-01 | 北京百度网讯科技有限公司 | 用于模型蒸馏的方法和装置 |
TWI845797B (zh) * | 2020-12-17 | 2024-06-21 | 緯創資通股份有限公司 | 物件辨識裝置及物件辨識方法 |
CN112711915B (zh) * | 2021-01-08 | 2022-02-25 | 自然资源部第一海洋研究所 | 一种海浪有效波高预测方法 |
CN112990429A (zh) * | 2021-02-01 | 2021-06-18 | 深圳市华尊科技股份有限公司 | 机器学习方法、电子设备及相关产品 |
US20220292345A1 (en) | 2021-03-12 | 2022-09-15 | Nec Corporation | Distributionally robust model training |
CN113160041B (zh) * | 2021-05-07 | 2024-02-23 | 深圳追一科技有限公司 | 一种模型训练方法及模型训练装置 |
CN113361572B (zh) * | 2021-05-25 | 2023-06-27 | 北京百度网讯科技有限公司 | 图像处理模型的训练方法、装置、电子设备以及存储介质 |
CN113343979B (zh) * | 2021-05-31 | 2022-11-08 | 北京百度网讯科技有限公司 | 用于训练模型的方法、装置、设备、介质和程序产品 |
CN113313314B (zh) * | 2021-06-11 | 2024-05-24 | 北京沃东天骏信息技术有限公司 | 模型训练方法、装置、设备及存储介质 |
US11941357B2 (en) | 2021-06-23 | 2024-03-26 | Optum Technology, Inc. | Machine learning techniques for word-based text similarity determinations |
CN113420123A (zh) * | 2021-06-24 | 2021-09-21 | 中国科学院声学研究所 | 语言模型的训练方法、nlp任务处理方法及装置 |
CN113326941A (zh) * | 2021-06-25 | 2021-08-31 | 江苏大学 | 基于多层多注意力迁移的知识蒸馏方法、装置及设备 |
CN113724740B (zh) * | 2021-08-30 | 2024-03-08 | 中国科学院声学研究所 | 音频事件检测模型训练方法及装置 |
CN117099125A (zh) * | 2021-12-03 | 2023-11-21 | 宁德时代新能源科技股份有限公司 | 一种基于对比表征蒸馏的快速异常检测方法和系统 |
CN114092918A (zh) * | 2022-01-11 | 2022-02-25 | 深圳佑驾创新科技有限公司 | 模型训练方法、装置、设备及存储介质 |
US20230401831A1 (en) * | 2022-06-10 | 2023-12-14 | Microsoft Technology Licensing, Llc | Scalable knowledge distillation techniques for machine learning |
US12112132B2 (en) | 2022-06-22 | 2024-10-08 | Optum Services (Ireland) Limited | Natural language processing machine learning frameworks trained using multi-task training routines |
US11989240B2 (en) * | 2022-06-22 | 2024-05-21 | Optum Services (Ireland) Limited | Natural language processing machine learning frameworks trained using multi-task training routines |
CN115099988B (zh) * | 2022-06-28 | 2024-10-15 | 腾讯科技(深圳)有限公司 | 模型训练方法、数据处理方法、设备及计算机介质 |
CN115170919B (zh) * | 2022-06-29 | 2023-09-12 | 北京百度网讯科技有限公司 | 图像处理模型训练及图像处理方法、装置、设备和存储介质 |
CN115687914B (zh) * | 2022-09-07 | 2024-01-30 | 中国电信股份有限公司 | 模型蒸馏方法、装置、电子设备及计算机可读介质 |
CN116935188B (zh) * | 2023-09-15 | 2023-12-26 | 腾讯科技(深圳)有限公司 | 模型训练方法、图像识别方法、装置、设备及介质 |
CN117174084B (zh) * | 2023-11-02 | 2024-05-31 | 摩尔线程智能科技(北京)有限责任公司 | 一种训练数据构建方法及装置、电子设备和存储介质 |
CN118627571A (zh) * | 2024-07-12 | 2024-09-10 | 腾讯科技(深圳)有限公司 | 模型训练方法、装置、电子设备及计算机可读存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106170800A (zh) * | 2014-09-12 | 2016-11-30 | 微软技术许可有限责任公司 | 经由输出分布来学习学生dnn |
US9786270B2 (en) * | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
US10255681B2 (en) * | 2017-03-02 | 2019-04-09 | Adobe Inc. | Image matting using deep learning |
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
CN107977707B (zh) * | 2017-11-23 | 2020-11-06 | 厦门美图之家科技有限公司 | 一种对抗蒸馏神经网络模型的方法及计算设备 |
CN108491823B (zh) * | 2018-03-30 | 2021-12-24 | 百度在线网络技术(北京)有限公司 | 用于生成人眼识别模型的方法和装置 |
-
2018
- 2018-10-29 CN CN201811268719.8A patent/CN111105008A/zh active Pending
-
2019
- 2019-09-17 EP EP19197815.4A patent/EP3648014A1/en not_active Withdrawn
- 2019-10-02 US US16/591,045 patent/US20200134506A1/en not_active Abandoned
- 2019-10-28 JP JP2019195406A patent/JP2020071883A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021520568A (ja) * | 2018-11-08 | 2021-08-19 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 組織結節検出方法及びそのモデルトレーニング方法、装置、機器、システム、並びにそのコンピュータプログラム |
JP7086336B2 (ja) | 2018-11-08 | 2022-06-20 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 組織結節検出方法及びそのモデルトレーニング方法、装置、機器、システム、並びにそのコンピュータプログラム |
US11880972B2 (en) | 2018-11-08 | 2024-01-23 | Tencent Technology (Shenzhen) Company Limited | Tissue nodule detection and tissue nodule detection model training method, apparatus, device, and system |
JP7535979B2 (ja) | 2020-07-08 | 2024-08-19 | ナノ ディメンション テクノロジーズ,リミテッド | 生徒対教師の不一致を最大化する入力を用いて、教師役ニューラルネットワークを模倣するように生徒役ニューラルネットワークを訓練する方法 |
WO2022201534A1 (ja) | 2021-03-26 | 2022-09-29 | 三菱電機株式会社 | 再学習システム及び再学習方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111105008A (zh) | 2020-05-05 |
US20200134506A1 (en) | 2020-04-30 |
EP3648014A1 (en) | 2020-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020071883A (ja) | モデル訓練方法、データ認識方法及びデータ認識装置 | |
US10332510B2 (en) | Method and apparatus for training language model and recognizing speech | |
KR102071582B1 (ko) | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 | |
Renganathan | Overview of artificial neural network models in the biomedical domain. | |
US20230281298A1 (en) | Using multimodal model consistency to detect adversarial attacks | |
KR20230018496A (ko) | 뉴럴 네트워크를 위한 트레이닝 방법, 뉴럴 네트워크를 이용한 인식 방법 및 그 장치들 | |
Wang et al. | Research on Healthy Anomaly Detection Model Based on Deep Learning from Multiple Time‐Series Physiological Signals | |
JP2024036354A (ja) | 言語タスクのための対照事前トレーニング | |
CN107220506A (zh) | 基于深度卷积神经网络的乳腺癌风险评估分析系统 | |
You et al. | An intelligent deep feature learning method with improved activation functions for machine fault diagnosis | |
CN110866113B (zh) | 基于稀疏自注意力机制微调伯特模型的文本分类方法 | |
JP2020191080A (ja) | 増分学習のためのデータ認識方法 | |
WO2020144627A1 (en) | Automated generation of codes | |
JP2020135858A (ja) | モデル最適化方法、データ認識方法及びデータ認識装置 | |
JP2022543245A (ja) | 学習を転移させるための学習のためのフレームワーク | |
Agarla et al. | Semi-supervised cross-lingual speech emotion recognition | |
Kumar et al. | A multi-objective randomly updated beetle swarm and multi-verse optimization for brain tumor segmentation and classification | |
Oruh et al. | Deep Learning‐Based Classification of Spoken English Digits | |
CN116595994A (zh) | 基于提示学习的矛盾信息预测方法、装置、设备及介质 | |
CN112951270B (zh) | 语音流利度检测的方法、装置和电子设备 | |
Guido et al. | Introducing the discriminative paraconsistent machine (dpm) | |
Li et al. | [Retracted] Application of Multilayer Perceptron Genetic Algorithm Neural Network in Chinese‐English Parallel Corpus Noise Processing | |
Olaoye et al. | Deep Learning Algorithms and Applications | |
Sathya et al. | An adaptive fuzzy ensemble model for facial expression recognition using poplar optimization and CRNN | |
WO2023231458A1 (zh) | 一种模型训练方法及装置 |