JP2020191080A - 増分学習のためのデータ認識方法 - Google Patents
増分学習のためのデータ認識方法 Download PDFInfo
- Publication number
- JP2020191080A JP2020191080A JP2020083118A JP2020083118A JP2020191080A JP 2020191080 A JP2020191080 A JP 2020191080A JP 2020083118 A JP2020083118 A JP 2020083118A JP 2020083118 A JP2020083118 A JP 2020083118A JP 2020191080 A JP2020191080 A JP 2020191080A
- Authority
- JP
- Japan
- Prior art keywords
- sample set
- training sample
- data recognition
- network structure
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 103
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 19
- 238000013528 artificial neural network Methods 0.000 description 15
- 238000004590 computer program Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
【課題】増分学習のためのデータ認識方法を提供する。【解決手段】方法は、新しい訓練サンプルセットを取得するステップと、新しい訓練サンプルセットと既存の訓練サンプルセットとを併合し、更新後の訓練サンプルセットを取得するステップと、更新後の訓練サンプルセットの複雑度に基づいてデータ認識モデルの規模を計算するステップと、認識すべきデータのタイプに基づいて該規模を有するデータ認識モデルのネットワーク構造のパラメータを取得するステップと、該パラメータに基づいてデータ認識モデルのネットワーク構造を構築するステップと、更新後の訓練サンプルセットを用いてサブネットワーク構造を有するデータ認識モデルを訓練し、データ認識モデルにおける演算および演算に関するパラメータを決定するステップと、生成されたデータ認識モデルに基づいてデータ認識を行うステップと、を含む。【選択図】図6
Description
本開示は、増分学習(Incremental Learning)のためのデータ認識方法に関する。
現在は、情報爆発の時代であり、現在のビジネス活動において大量の情報が収集、記憶、発掘、使用されている。データの増加又は増量に伴い、現在のデータセットのために最適なフィッティングモデルを構築する方法が必要となる。多くの人工知能の企業では、収集されたデータを処理するためにディープニューラルネットワークを使用しており、人工知能及び機械学習の発展に伴い、多くの機械学習アルゴリズムが開発されている。このようなアルゴリズムは殆どバッチ学習(Batch Learning)モードのものであり、即ち、訓練する前に全ての訓練サンプルを一括的に取得でき、これらのサンプルを学習した後に、新しい知識を学習せずに学習プロセスを終了させると仮定している。
なお、上述した技術背景の説明は、本開示の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本開示の背景技術部分として説明されたものであり、当業者により周知されたものではない。
以下は、本開示の態様を基本的に理解させるために、本開示の簡単な概要を説明する。なお、この簡単な概要は、本開示を網羅的な概要ではなく、本開示のポイント又は重要な部分を意図的に特定するものではなく、本開示の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。
本発明の発見によると、バッチ学習モードでは、継続時間中に大量の情報を処理する要求を満たすことができず、実際の応用では、訓練サンプルは通常一括的に取得することができず。時間の経過に伴って取得し、サンプルの繁栄も時間の経過に伴って変化する可能性がある。新しいサンプルを取得した後に全てのデータを再学習すると、大量の時間及びリソースがかかるため、バッチ学習のアルゴリズムはこのような要求を満たすことができない。増分学習アルゴリズムは、全てのデータを再学習する必要がなく、更新後の知識が新しく取得されたデータに適応するように、知識を漸進的に更新し、従来の知識を修正、強化することができる。増分学習は、時間及びリソースへの要求を低減させ、実際の要求を満たすことができる。また、人工知能企業は、既に構築されたモデルに新しい情報を継続的に統合する必要がない。さらに、それほど重要ではないが、専門家又はエンジニアがゼロから新しいモデルを定期的に再構築することは、非常に時間及びコストがかかる。
従って、上記の問題を解決するために、本開示は、特定の増分学習方法、及び該特定の増分学習方法のためのデータ認識方法を提供することを目的とする。
本開示の1つの態様では、増分学習のためのデータ認識方法であって、新しい訓練サンプルセットを取得するステップと、前記新しい訓練サンプルセットと既存の訓練サンプルセットとを併合し、更新後の訓練サンプルセットを取得するステップと、前記更新後の訓練サンプルセットの複雑度を計算し、前記複雑度に基づいて、前記更新後の訓練サンプルセットに基づいて生成されるデータ認識モデルのネットワーク構造の規模を計算するステップと、認識すべきデータのタイプに基づいて、生成されるデータ認識モデルのネットワーク構造のパラメータ空間を決定し、サンプリングにより前記ネットワーク構造のパラメータ空間から前記規模を有するサブネットワーク構造のパラメータを取得し、サブネットワーク構造のパラメータに基づいてデータ認識モデルのためのネットワーク構造を構築し、サブネットワーク構造の各ノードでの演算を取得するステップと、前記更新後の訓練サンプルセットを用いて前記サブネットワーク構造を有するデータ認識モデルを訓練し、前記サブネットワーク構造における各ノードでの演算のパラメータを決定し、前記データ認識モデルを生成するステップと、前記データ認識モデルに基づいてデータ認識を行うステップと、を含む、方法を提供する。
本開示に係る増分学習のためのデータ認識方法によれば、最適なフィッティングモデルを継続的に検索することができ、データを継続的に変更又は追加することができるため、推奨モデルが常に現在のデータに対して優れた性能を有する。また、増分学習にカスタマイズされたネットワーク検索空間を設計することができる。また、ネットワーク構造を効率的に取得するように、検索方策を修正することができる。調整されたデータセットの更新方法は、増分アルゴリズムに適合する。
従来技術に比べて、本開示は以下の利点をさらに有する。増分学習のモデル構造の学習方法を提供した。データセットを漸進的に変更する要求を満たすように、訓練及びテストのデータセットの更新システムを提供した。増分学習のために明確に定義された検索空間を設計した。ネットワーク検索プロセスの効率を向上させるファインチューニング方法を提供した。該方法は、深層学習の専門家及びエンジニアの要求を大幅に低減させ、常に更新されたビッグデータを処理することができる。
本開示の上記及び他の目的、特徴及び利点をより容易に理解させるために、以下は図面を参照しながら本開示の実施形態を説明する。
本開示の各実施形態に係る増分学習のための訓練セット及びテストセットを更新するシステムのフレームワークを示す概略図である。
本開示の実施形態に係る更新されたデータセットを用いてデータ認識モデルを更新することを示す概略図である。
RNNの各層の詳細な演算に対するサンプリングを示す概略図である。
RNN及びCNNのパラメータを調整して最適モデルを取得する反復方法を示す概略図である。
データセットを更新する際に最適な検索モデルのハイパーパラメータを再利用することを示す概略図である。
本開示の実施形態に係る増分学習のためのデータ認識方法を示すフローチャートである。
本開示の実施形態に係る増分学習のためのデータ認識装置及びデータ認識方法を実現可能な汎用機器700の構成を示すブロック図である。
以下は図面を参照しながら本開示の例示的な実施形態を説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、当業者が実施形態を実現する際に、実施形態を実現するために特定の決定を行ってもよく、これらの決定は実施形態に応じて変更されてもよい。
なお、例示的な実施例の各態様は、システム、方法又はコンピュータプログラムプロダクトとして実施されてもよい。このため、例示的な実施例の各態様は、具体的に以下の形式で実現されてもよく、即ち、完全なハードウェアの実施例、完全なソフトウェアの実施例(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、又はソフトウェアとハードウェアとの組み合わせの実施例であってもよく、本明細書では一般的に「回路」、「モジュール」又は「システム」と称される場合がある。さらに、例示的な実施例の各態様は、1つ又は複数のコンピュータ読み取り可能な媒体で表されるコンピュータプログラムプロダクトの形を採用してもよく、該コンピュータ読み取り可能な媒体にはコンピュータ読み取り可能なプログラムコードが記録されている。コンピュータプログラムは、例えば、コンピュータのネットワークを介して配分されてもよいし、1つ又は複数のリモートサーバに配置されてもよいし、装置のメモリに埋め込まされてもよい。
1つ又は複数のコンピュータ読み取り可能な媒体の任意の組み合わせを用いてもよい。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体又はコンピュータ読み取り可能な記憶媒体であってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電気、磁気、光学、電磁気、赤外線若しくは半導体のシステム、装置若しくは機器、又はこれらの任意の適切な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な例(非網羅的なリスト)は、1つ又は複数のワイヤの電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去型のプログラミング可能な読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD−ROM)、光学的記憶装置、磁気的記憶装置、又はこれらの適切な組み合わせを含む。本明細書では、コンピュータ読み取り可能な記憶媒体は、命令実行システム、装置若しくは機器により使用され、或いはこれらに関連して使用するプログラムを含み、或いは記憶する任意の有形の媒体であってもよい。
コンピュータ読み取り可能な信号媒体は、例えば、ベースバンド内、又はキャリアの一部として伝播される、コンピュータ読み取り可能なプログラムコードを有するデータ信号を含んでもよい。このような伝播信号は、任意の適切な形を採用してもよく、例えば電磁、光学又はこれらの任意の適切な組み合わせを含んでもよいが、これらに限定されない。
コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記憶媒体以外の、命令実行システム、装置又は機器により使用され、或いはこれらに関連して使用されるプログラムを伝送、伝播又は送信できる任意のコンピュータで読み取り可能な媒体であってもよい。
コンピュータ読み取り可能な媒体におけるプログラムコードは、任意の適切な媒体を用いて伝送されてもよく、例えば無線、有線、光ケーブル、無線周波数など、又はこれらの任意の適切な組み合わせを含んでもよいが、これらに限定されない。
本明細書に開示される例示的な実施例の各態様の操作を実行するためのコンピュータプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで記述されてもよく、該プログラミング言語は、Java(登録商標)、Smalltalk、C++などのオブジェクト指向プログラミング言語を含み、「C」プログラミング言語又は同様なプログラミング言語などの従来の手続き型プログラミング言語を含む。
以下は、例示的な実施例に係る方法、装置(システム)及びコンピュータプログラムプロダクトのフローチャート及び/又はブロック図を参照しながら、本明細書で開示される例示的な実施例の各態様を説明する。なお、フローチャート及び/又はブロック図の各ブロック、並びにフローチャート及び/又はブロック図の各ブロックの組み合わせは、コンピュータプログラム命令により実現されてもよい。これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ又は他のプログラミング可能なデータ処理装置のプロセッサに提供されて装置を構成し、コンピュータ又は他のプログラミング可能なデータ処理装置によりこれらの命令を実行することで、フローチャート及び/又はブロック図の各ブロックに規定された機能/操作を実現するための装置を構成する。
これらのコンピュータプログラム命令は、コンピュータ又は他のプログラミング可能なデータ処理装置に特定の方法で動作するコンピュータ読み取り可能な媒体に記憶され、コンピュータ読み取り可能な媒体に記憶された命令によりフローチャート及び/又はブロック図の各ブロックに規定された機能/操作を実現する命令を含むプロダクトを構成してもよい。
コンピュータプログラム命令は、コンピュータ又は他のプログラミング可能なデータ処理装置にロードされ、コンピュータ又は他のプログラミング可能なデータ処理装置で一連の動作ステップが実行され、コンピュータ又は他のプログラミング装置で実行される命令によりフローチャート及び/又はブロック図の各ブロックに規定された機能/操作を実現するプロセスを提供してもよい。
図1は、本開示の各実施形態に係る増分学習のための訓練セット及びテストセットを更新するシステムのフレームワークを示す概略図である。
増分学習アルゴリズムは、データ量が増加し続ける状況に対するものであるため、増分データが出現する場合のシステムの全体的な変更状況、例えばモデルの更新、データセットの変更などを理解させるために、まず、本開示の各実施形態に係る増分学習に用いられる訓練データ及びテストデータの更新を説明する。
図1に示すように、収集データバッファプール101を用いて新しいデータを収集し、データの収集方法は応用のシナリオに依存する。なお、任意のデータ取得方法を用いてデータを収集してもよい。また、データを継続的に収集してもよい。収集データバッファプール101を用いて収集されたデータは元のデータ(ラベル付けされていない)であるため、このシステムでは、収集されたデータは、手動ラベル付け102により教師データ103を形成してもよい。収集データバッファプール101を用いて収集されたデータは、本開示の各実施形態に係る訓練されたデータ認識モデル108により認識されてもよく、認識されたある程度教師ありのデータ109はデータバッファプール104に保存され、手動検証105により教師データ103が選択される。なお、手動ラベル付けの対象となるデータは、収集された全てのデータの一部であってもよく、この場合、データ認識モデル108による認識の対象となるデータは、収集された全てのデータの残った部分であってもよく、具体的な割り当て方法は、手動ラベル付けのコストの容認度合いに依存するが、このような割り当て方法に限定されない。以上の方法により教師データ103を取得した。そして、教師データ103から一部のデータをモデル構造検索用のデータ104として選択する。そして、更新された訓練セット105及び検証セット106を取得する。更新された訓練セット105及び検証セット106を用いてモデルを訓練し、一群のデータ認識モデル107を取得する。一群のデータ認識モデル107から最適なネットワーク構造を決定し、該最適なネットワーク構造を有する訓練されたデータ認識モデル108を取得する。訓練されたデータ認識モデル108を用いて、収集データバッファプール101により収集されたデータを認識し、ある程度教師ありのデータ109を取得する。このように、図1に示す訓練データセット及びテストデータセットを自動的に更新するためのシステムを構成した。
次に、図1に示すシステムのフレームワークにおける本発明に関する部分の機能を説明する。
以下は、図2を参照しながら、更新されたデータセットを用いて訓練されたデータ認識モデルを取得する方法を説明する。
図2は、本開示の実施形態に係る更新されたデータセットを用いてデータ認識モデルを更新することを示す概略図である。
訓練セット及びテストセットは、図1に示す訓練データセット及びテストデータセットの更新システムにおいて継続的に更新される。図2では、データセットの自動更新システムにより訓練データセットを継続的に更新又は追加する方法を説明するために、ラベル付けされた訓練データに対する手動検証の方法のみを示し、手動ラベル付けの方法を省略する。
図2に示すように、訓練セットに対して1回の更新を行った後に、これらのデータに基づいて最適なニューラルネットワーク構造を検索する。まず、201において、新しい教師データを取得する。202において、訓練セットデータを選択する。203において、現在の訓練セットの複雑度を決定する。複雑度は、検索空間のパラメータを決定するために用いられる。現在の訓練セットにN個のクラス及びM個のサンプルがあると仮定すると、以下の式(1)、(2)及び(3)を用いて現在の訓練セットの複雑度を表す。
上記の式では、Dは現在のデータセットの複雑度を表す。Dinnerはクラス内の複雑度であり、Dinterはクラス間の複雑度である。σiは各クラスの分散である。XMはM個のサンプル全体により構成された変数である。Cov(XM)はXMの共分散行列を表す。
なお、上記の方法は単なる一例であり、クラス内の複雑度のみ、クラス間の複雑度のみ、又は異なる重みを有するクラス内の複雑度とクラス間の複雑度との和を用いて現在の訓練セットの複雑度を計算してもよい。複雑度の具体的な計算方法は、上記の分散の計算方法に限定されない。
所定のデータセットでは、複雑度Dが大きいほど、ニューラルネットワークが大きくなる。このため、ニューラルネットワークモデルの規模(スケールと称されてもよい)は、モデルの複雑度Dの単調増加関数であってもよい。ここで、以下の式(4)に従ってニューラルネットワークモデルの規模を計算する。
Lはニューラルネットワークのネットワーク構造の層数を表し、Cbはニューラルネットワークのネットワーク構造におけるチャネル数の集合を表す。該式(4)に従って、ニューラルネットワークの層数及びチャネル数を決定することができる。一例として、フィッティングによりニューラルネットワークの層数及びチャネル数を決定してもよい。訓練データセットの複雑度に基づいて対応するニューラルネットワークの層数及びチャネル数を決定することは、当業者にとって理解、実装できるものであり、ここでその説明を省略する。
次に、以上で算出されたニューラルネットワークの規模に基づいて検索空間を調整し、即ち、209において複雑度に基づいて検索空間を決定する。以上のステップにより、ニューラルネットワークの層数及び各層におけるチャネル数が取得された。このように、初期の主ネットワーク構造におけるサブネットワーク構造の層数及びチャネル数が決定された。以下は、所定の演算セットからニューラルネットワーク(出力ノードを有するサブネットワーク構造)の各層における各チャネルの各ノードでの演算を選択し、説明の便宜上、演算セットは、3*3畳み込み演算、5*5畳み込み演算、深度/個別の畳み込み3*3、深度/個別の畳み込み5*5、最大プーリング3*3、平均プーリング3*3の6種類の演算を含む。なお、上記の演算に限定されず、応用の要求に応じて演算セットに含まれる演算を調整してもよい。以下は、該6種類の演算を含む演算セットのみを用いてニューラルネットワークを形成する。一例として、ニューラルネットワークは、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)である。畳み込みニューラルネットワークはフィードフォワードニューラルネットワークの1つであり、その人工ニューロンはカバレッジエリアの周囲のユニットの一部に応答でき、大規模な画像処理に優れた性能を有する。CNNは、畳み込み層(convolutional layer)及びプーリング層(pooling layer)を含む。CNNは、主に変位、スケーリング、及び他の形式の歪み不変性の2次元図形を認識するために用いられる。CNNの特徴検出層は訓練データにより学習するため、CNNを用いる場合、明示的な特徴抽出を回避し、訓練データから暗黙的に学習する。また、同一の特徴マッピング面におけるニューロンの重みが同一であるため、ネットワークは並列に学習することができ、これは、ニューロンが相互に接続されているネットワークに比べて畳み込みネットワークの大きな利点でもある。畳み込みニューラルネットワークは、ローカルな重みを共有するという特殊な構造により、音声認識及び画像処理に独特の利点を有し、そのレイアウトが実際の生物学的なニューラルネットワークに近い。重みを共有することにより、ネットワークの複雑さを低減させ、特に、多次元の入力ベクトルの画像をネットワークに直接入力できるという特徴により、特徴抽出及び分類におけるデータ再構築の複雑度を回避することができる。
また、一例として、各層における詳細な演算は、上述した演算セットにおける6つの定義された演算からRNNサンプリングにより取得される。図2では、ステップ205、210(前に訓練されたネットワークのパラメータをコピーする)及び206により、206における最適サブネットワークを決定し、該部分の詳細な内容は後述する。得られた最適サブネットワークを用いて207のテストセットを分類し、手動検証208により新しい教師データ201を取得する。
図3はRNNの各層の詳細な演算に対するサンプリングを示す概略図である。
図3では、{x0,x1,〜,xL}はL(ノード数、即ちネットワークの層数)次元の乱数ベクトルであり、該ベクトルにおける各要素は、値に基づいて上述した6つの演算うちの1つの演算に対応し、このように、複数群の演算を生成して複数のサブネットワーク構造を構築することができる。1つの乱数ベクトルが1つのサブネットワーク構造に対応するため、複数の乱数ベクトルを生成すると、複数のサブネットワーク構造(一例として、ここのサブネットワーク構造はCNNネットワーク構造である)を生成することができる。ここで、演算が決定されると、サブネットワーク構造が決定される。なお、この際、決定された演算以外の残ったパラメータはまだ決定されていない。
次に、これらのネットワーク構造から最適なネットワーク構造を選択する必要がある。このステップにおいて、正確度の最大値に達し、或いは正確度が十分に高くなるまで、図4に示す2つのステップを繰り返す。
図4はRNN及びCNNのパラメータを調整して最適モデルを取得する反復方法を示す概略図である。
ここで、R(ω)は報酬であり、モデルの正確度を表し、モデルのパラメータはωで表される。目的は、制御方策Pに基づいて期待される報酬を最大化することである。上述した2つのステップの2番目のステップは、R(ω)を取得できるように、サンプリングされたCNNのパラメータωを訓練する。なお、サンプリングされたCNNのパラメータωに対する訓練は、現在のCNNネットワーク構造をそのまま維持するという前提に基づいて行われ、即ち、現在のCNNの各層の各チャネルにおける演算が固定されている場合、報酬が最大化されたCNNのネットワーク構造(演算)以外の残ったパラメータωを取得するように、CNNを訓練する。
ここで、複数のCNNをサンプリングして検証セットを評価し、最大の正確度を有するCNNモデル(決定されたネットワーク構造及びパラメータを含む)を保留する。最大の正確度が所定の正確度閾値よりも大きく、或いは図4における反復回数が所定最大値に達した場合、このプロセスを停止して現在の最適なCNNモデルを出力し、即ち、CNNモデルの現在の最適なネットワーク構造(最適な演算)及びモデルにおいて用いられる最適なパラメータωを決定する。
以下は、RNNのパラメータθの更新方法を説明する。a:所定のθでサンプリングにより一群のサブネットワークを取得する(サンプリングされたサブネットワークの数は自由に設定されてもよく、該RNNの長さ入力次元に関連する)。b:各サブネットワークのωについて、対応するAcc−s(ω)(該関数は、本分野において分類問題についての分類精度を意味し、ここでその具体的な計算方法の説明を省略する)を計算し、報酬値R(ω)を取得する。c:サンプリングされた一群のサブネットワークについて、一群のR(ω)を取得してもよい。取得された報酬値を最大化するように、増分学習で一般的に使用される最適化方策を用いて式J=Ep(R(ω))を最適化する。例えば、近傍方策最適化(Proximal Policy Optimization)又は勾配方策最適化の2つの方法は、強化学習の分野で通常の最適化方法である。
以下は、データを更新する際に、図4に示す調整されたRNN及びCNNのパラメータを最適化して最適化モデルを取得するための反復方法におけるCNNモデルの訓練ステップを説明する。
図5は、データセットを更新する際に最適な検索モデルのハイパーパラメータを再利用することを示す概略図である。
データセットが更新された場合、式(4)に従って、データセットの複雑度Dが変化し、これは層数及びチャネル数がそれに応じて変化することを意味する。通常の場合、更新後の完全なデータセットに基づいてニューラルネットワークを再検索し、サンプリングされたCNNを訓練してもよいが、これは非常に時間がかかり、データセットの漸進的な変更に適していない。従って、以下は、より効果的なファインチューニング(fine tuning)方法を用いて訓練パラメータを調整する。
シナリオ1:データセットがより簡単になる(複雑度が低くなる)場合、新しい層数及びチャネル数は元の値よりも小さくなる。
シナリオ2:データセットがより難しくなる(複雑度が高くなる)場合、新しい層数及びチャネル数は元の値よりも大きくなる。
詳細なステップは図5に示す通りである。シナリオ1では、ステップ501において、直前のモデル(古い最適モデル)のパラメータ(層及びチャネルを含む)に対して枝刈り(pruning)を行い、ステップ502においてパラメータに対してファインチューニングを行い、更新後のネットワークの訓練速度を速くする。シナリオ2では、更新後の訓練サンプルセットを用いて、現在のデータ認識モデルに適応的なサイズのネットワーク構造が追加されたデータ認識モデルを訓練し、パラメータのコピーとファインチューニング又は特徴正規化のスケール変換により訓練速度を速くする。一例として、ステップ503において、新しい層及びチャネルをランダムに初期化し、ステップ505において、変更された層(即ちランダムに初期化された新しい層の出力データ)に対してL2−NORM演算を行い、且つ/或いはステップ506において、変更された層に対して適応的なスケール変換を行い、そして、ステップ504においてコピーされた古い最適モデルの訓練パラメータ(図2におけるステップ201に対応する)とステップ505及びステップ506で処理されたパラメータとを組み合わせ、ステップ507においてファインチューニング後の新しいモデルを取得する。
図6は本開示の実施形態に係る増分学習のためのデータ認識方法を示すフローチャートである。
まず、ステップ601において、新しい訓練サンプルセットを取得する。次に、ステップ602において、新しい訓練サンプルセットと既存の訓練サンプルセットとを併合し、更新後の訓練サンプルセットを取得する。ステップ603において、更新後の訓練サンプルセットの複雑度を計算し、複雑度に基づいて、更新後の訓練サンプルセットに基づいて生成されるデータ認識モデルのネットワーク構造の規模を計算する。ステップ604において、認識すべきデータのタイプに基づいて、生成されるデータ認識モデルのネットワーク構造のパラメータ空間を決定し、サンプリングによりネットワーク構造のパラメータ空間から該規模を有するサブネットワーク構造のパラメータを取得する。具体的には、異なるデータタイプについて、使用されるネットワーク構造のパラメータ空間も異なるため、異なるデータタイプに応じて最適な分類効果を達成できる。ステップ605において、サブネットワーク構造のパラメータに基づいて該データ認識モデルのためのネットワーク構造を構築する。次に、ステップ606において、更新後の訓練サンプルセットを用いてサブネットワーク構造を有するデータ認識モデルを訓練し、サブネットワーク構造における各ノードでの演算及び演算に関するパラメータを決定し、データ認識モデルを生成する。最後に、ステップ607において、データ認識モデルに基づいてデータ認識を行う。
認識可能なデータのタイプは、画像、テキスト、音声に限定されない。
図7は、本開示の実施形態に係る増分学習のためのデータ認識装置及びデータ認識方法を実現可能な汎用機器700の構成を示すブロック図である。汎用機器700は、例えばコンピュータシステムであってもよい。なお、汎用機器700は単なる一例であり、本開示の方法及び装置の使用範囲又は機能を制限するものではない。また、汎用機器700は、上記の情報処理方法及び情報処理装置における構成要件又はその組み合わせに依存するものではない。
図7において、中央処理部(CPU)701は、読み出し専用メモリ(ROM)702に記憶されているプログラム、又は記憶部708からランダムアクセスメモリ(RAM)703にロードされたプログラムにより各種の処理を実行する。RAM703には、必要に応じて、CPU701が各種の処理を実行するに必要なデータが記憶されている。CPU701、ROM702、及びRAM703は、バス704を介して互いに接続されている。入力/出力インターフェース705もバス704に接続されている。
入力部706(キーボード、マウスなどを含む)、出力部707(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む)、記憶部708(例えばハードディスクなどを含む)、通信部709(ネットワークのインタフェースカード、例えばLANカード、モデムなどを含む)は、入力/出力インターフェース705に接続されている。通信部709は、ネットワーク、例えばインターネットを介して通信処理を実行する。必要に応じて、ドライバ710は、入力/出力インターフェース705に接続されてもよい。取り外し可能な媒体711は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライバ710にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部708にインストールされている。
ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体711を介してソフトウェアを構成するプログラムをインストールする。
なお、これらの記憶媒体は、図7に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体711に限定されない。取り外し可能な媒体711は、例えば磁気ディスク(フロッピーディスクを含む)、光ディスク(光ディスク−読み出し専用メモリ(CD−ROM)、及びデジタル多目的ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標))及び半導体メモリを含む。或いは、記憶媒体は、ROM702、記憶部708に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。
以上はブロック図、フローチャート及び/又は実施形態を詳細に説明することで、本開示の実施形態の装置及び/又は方法の具体的な実施形態を説明している。これらのブロック図、フローチャート及び/又は実施形態に1つ又は複数の機能及び/又は動作が含まれている場合、これらのブロック図、フローチャート及び/又は実施形態における各機能及び/又は動作は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組み合わせにより個別及び/又はまとめて実施されてもよい。1つの実施形態では、本明細書に記載された主題の幾つかの部分は、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲートアレイ(FPGA)、デジタル信号プロセッサ(DSP)又は他の統合形態により実現されてもよい。なお、本明細書に記載された実施形態の全て又は一部の態様は、集積回路における1つ又は複数のコンピュータにより実行される1つ又は複数のコンピュータプログラムの形(例えば1つ又は複数のコンピュータシステムにより実行される1つ又は複数のコンピュータプログラムの形)、1つ又は複数のプロセッサにより実行される1つ又は複数のプログラムの形(1つ又は複数のマイクロプロセッサにより実行される1つ又は複数のプログラムの形)、ファームウェアの形、又は実質的なこれらの任意の組み合わせの形で均等的に実施されもよい。また、本明細書に開示された内容に応じて、本開示を設計するための回路及び/又は本開示のソフトウェア及び/又はファームウェアを編集するためのコードは全て当業者の能力の範囲内のものである。
なお、用語「含む」、「有する」は本明細書に説明された特徴、要素、ステップ又は部材の存在を意味するが、他の1つ又は複数の特徴、要素、ステップ又は部材の存在又は追加を排除するものではない。序数に関する用語は、これらの用語により言及された特徴、要素、ステップ又は部材の実施の順序又は重要性のレベルを意味することではなく、単なるこれらの特徴、要素、ステップ又は部材を区別するためものである。
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示するが、これらの付記に限定されない。
(付記1)
コンピュータにより実現される増分学習のためのデータ認識方法であって、
新しい訓練サンプルセットを取得するステップと、
前記新しい訓練サンプルセットと既存の訓練サンプルセットとを併合し、更新後の訓練サンプルセットを取得するステップと、
前記更新後の訓練サンプルセットの複雑度を計算し、前記複雑度に基づいて、前記更新後の訓練サンプルセットに基づいて生成されるデータ認識モデルのネットワーク構造の規模を計算するステップと、
認識すべきデータのタイプに基づいて、生成されるデータ認識モデルのネットワーク構造のパラメータ空間を決定し、サンプリングにより前記ネットワーク構造のパラメータ空間から前記規模を有するサブネットワーク構造のパラメータを取得し、サブネットワーク構造のパラメータに基づいてデータ認識モデルのためのネットワーク構造を構築し、サブネットワーク構造の各ノードでの演算を取得するステップと、
前記更新後の訓練サンプルセットを用いて前記サブネットワーク構造を有するデータ認識モデルを訓練し、前記サブネットワーク構造における各ノードでの演算のパラメータを決定し、前記データ認識モデルを生成するステップと、
前記データ認識モデルに基づいてデータ認識を行うステップと、を含む、方法。
(付記2)
前記データセットの複雑度は、クラス内複雑度、クラス間複雑度、又はクラス内複雑度とクラス間複雑度の組み合わせである、付記1に記載の方法。
(付記3)
複雑度計算式に従って前記データ認識モデルのネットワーク構造の規模を計算する、付記1に記載の方法。
(付記4)
ネットワーク層数L及びチャネル数Cbで前記データ認識モデルの規模を表す、付記1に記載の方法。
(付記5)
前記ネットワーク構造のパラメータ空間は、前記ネットワーク層数L、前記チャネル数Cb、各層のネットワークにより採用されるテンソル演算方式、及び各層のネットワーク間の結合方式を含み、
前記ネットワークのパラメータ空間の各部分は、特定の値範囲の数字で表され、
前記ネットワークのパラメータ空間の各部分の値が決定された数字により構成されたベクトルは、決定されたサブネットワーク構造を表す、付記4に記載の方法。
(付記6)
新しい訓練サンプルセットを取得するステップは、
新しく収集されたデータに対して手動でラベル付けすることで、前記新しい訓練サンプルセットを取得すること、及び/又は
現在のデータ認識モデルを用いて新しく収集されたデータを認識した認識結果に対して手動で検証することで、前記新しい訓練サンプルセットを取得すること、を含む、付記1に記載の方法。
(付記7)
前記更新後の訓練サンプルセットを用いて前記サブネットワーク構造を有するデータ認識モデルを訓練し、前記サブネットワーク構造における各ノードでの演算及び演算に関するパラメータを決定するステップにおいて、
前記更新後の訓練サンプルセットの規模が現在の訓練サンプルセットの規模よりも小さい場合、更新後のモデルの規模が直前のモデルの規模よりも小さくなるように、直前のモデルのパラメータに対して枝刈り及びパラメータのファインチューニングを行い、更新後のサブネットワークの訓練速度を速くする、付記1に記載の方法。
(付記8)
前記更新後の訓練サンプルセットを用いて前記サブネットワーク構造を有するデータ認識モデルを訓練し、前記サブネットワーク構造における各ノードでの演算及び演算に関するパラメータを決定するステップにおいて、
前記更新後の訓練サンプルセットの規模が現在の訓練サンプルセットの規模よりも大きい場合、前記更新後の訓練サンプルセットを用いて、前記現在のデータ認識モデルに適応的なサイズのネットワーク構造が追加されたデータ認識モデルを訓練し、パラメータのコピーとファインチューニング又は特徴正規化のスケール変換により訓練速度を速くする、付記1に記載の方法。
(付記9)
前記データ認識モデルは、CNNである、付記1乃至8の何れかに記載の方法。
(付記10)
データ更新、ネットワーク構造パラメータコントローラ更新及びサブネットワークモデルのパラメータ更新である3つのステップ、をさらに含み、
該3つのステップにより交互に反復的に更新を行うことで、増分学習を行う、付記1乃至8の何れかに記載の方法。
(付記11)
プロセッサ、を含む、増分学習のためのデータ認識装置であって、
前記プロセッサは、
新しい訓練サンプルセットを取得し、
前記新しい訓練サンプルセットと既存の訓練サンプルセットとを併合し、更新後の訓練サンプルセットを取得し、
前記更新後の訓練サンプルセットの複雑度を計算し、前記複雑度に基づいて、前記更新後の訓練サンプルセットに基づいて生成されるデータ認識モデルのネットワーク構造の規模を計算し、
認識すべきデータのタイプに基づいて、生成されるデータ認識モデルのネットワーク構造のパラメータ空間を決定し、サンプリングにより前記ネットワーク構造のパラメータ空間から前記規模を有するサブネットワーク構造のパラメータを取得し、サブネットワーク構造のパラメータに基づいてデータ認識モデルのためのネットワーク構造を構築し、サブネットワーク構造の各ノードでの演算を取得し、
前記更新後の訓練サンプルセットを用いて前記サブネットワーク構造を有するデータ認識モデルを訓練し、前記サブネットワーク構造における各ノードでの演算のパラメータを決定し、前記データ認識モデルを生成し、
前記データ認識モデルに基づいてデータ認識を行う、装置。
(付記12)
プログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラム命令がコンピュータにより実行される際に、前記コンピュータが付記11に記載のデータ認識装置の機能を果たす、記憶媒体。
(付記1)
コンピュータにより実現される増分学習のためのデータ認識方法であって、
新しい訓練サンプルセットを取得するステップと、
前記新しい訓練サンプルセットと既存の訓練サンプルセットとを併合し、更新後の訓練サンプルセットを取得するステップと、
前記更新後の訓練サンプルセットの複雑度を計算し、前記複雑度に基づいて、前記更新後の訓練サンプルセットに基づいて生成されるデータ認識モデルのネットワーク構造の規模を計算するステップと、
認識すべきデータのタイプに基づいて、生成されるデータ認識モデルのネットワーク構造のパラメータ空間を決定し、サンプリングにより前記ネットワーク構造のパラメータ空間から前記規模を有するサブネットワーク構造のパラメータを取得し、サブネットワーク構造のパラメータに基づいてデータ認識モデルのためのネットワーク構造を構築し、サブネットワーク構造の各ノードでの演算を取得するステップと、
前記更新後の訓練サンプルセットを用いて前記サブネットワーク構造を有するデータ認識モデルを訓練し、前記サブネットワーク構造における各ノードでの演算のパラメータを決定し、前記データ認識モデルを生成するステップと、
前記データ認識モデルに基づいてデータ認識を行うステップと、を含む、方法。
(付記2)
前記データセットの複雑度は、クラス内複雑度、クラス間複雑度、又はクラス内複雑度とクラス間複雑度の組み合わせである、付記1に記載の方法。
(付記3)
複雑度計算式に従って前記データ認識モデルのネットワーク構造の規模を計算する、付記1に記載の方法。
(付記4)
ネットワーク層数L及びチャネル数Cbで前記データ認識モデルの規模を表す、付記1に記載の方法。
(付記5)
前記ネットワーク構造のパラメータ空間は、前記ネットワーク層数L、前記チャネル数Cb、各層のネットワークにより採用されるテンソル演算方式、及び各層のネットワーク間の結合方式を含み、
前記ネットワークのパラメータ空間の各部分は、特定の値範囲の数字で表され、
前記ネットワークのパラメータ空間の各部分の値が決定された数字により構成されたベクトルは、決定されたサブネットワーク構造を表す、付記4に記載の方法。
(付記6)
新しい訓練サンプルセットを取得するステップは、
新しく収集されたデータに対して手動でラベル付けすることで、前記新しい訓練サンプルセットを取得すること、及び/又は
現在のデータ認識モデルを用いて新しく収集されたデータを認識した認識結果に対して手動で検証することで、前記新しい訓練サンプルセットを取得すること、を含む、付記1に記載の方法。
(付記7)
前記更新後の訓練サンプルセットを用いて前記サブネットワーク構造を有するデータ認識モデルを訓練し、前記サブネットワーク構造における各ノードでの演算及び演算に関するパラメータを決定するステップにおいて、
前記更新後の訓練サンプルセットの規模が現在の訓練サンプルセットの規模よりも小さい場合、更新後のモデルの規模が直前のモデルの規模よりも小さくなるように、直前のモデルのパラメータに対して枝刈り及びパラメータのファインチューニングを行い、更新後のサブネットワークの訓練速度を速くする、付記1に記載の方法。
(付記8)
前記更新後の訓練サンプルセットを用いて前記サブネットワーク構造を有するデータ認識モデルを訓練し、前記サブネットワーク構造における各ノードでの演算及び演算に関するパラメータを決定するステップにおいて、
前記更新後の訓練サンプルセットの規模が現在の訓練サンプルセットの規模よりも大きい場合、前記更新後の訓練サンプルセットを用いて、前記現在のデータ認識モデルに適応的なサイズのネットワーク構造が追加されたデータ認識モデルを訓練し、パラメータのコピーとファインチューニング又は特徴正規化のスケール変換により訓練速度を速くする、付記1に記載の方法。
(付記9)
前記データ認識モデルは、CNNである、付記1乃至8の何れかに記載の方法。
(付記10)
データ更新、ネットワーク構造パラメータコントローラ更新及びサブネットワークモデルのパラメータ更新である3つのステップ、をさらに含み、
該3つのステップにより交互に反復的に更新を行うことで、増分学習を行う、付記1乃至8の何れかに記載の方法。
(付記11)
プロセッサ、を含む、増分学習のためのデータ認識装置であって、
前記プロセッサは、
新しい訓練サンプルセットを取得し、
前記新しい訓練サンプルセットと既存の訓練サンプルセットとを併合し、更新後の訓練サンプルセットを取得し、
前記更新後の訓練サンプルセットの複雑度を計算し、前記複雑度に基づいて、前記更新後の訓練サンプルセットに基づいて生成されるデータ認識モデルのネットワーク構造の規模を計算し、
認識すべきデータのタイプに基づいて、生成されるデータ認識モデルのネットワーク構造のパラメータ空間を決定し、サンプリングにより前記ネットワーク構造のパラメータ空間から前記規模を有するサブネットワーク構造のパラメータを取得し、サブネットワーク構造のパラメータに基づいてデータ認識モデルのためのネットワーク構造を構築し、サブネットワーク構造の各ノードでの演算を取得し、
前記更新後の訓練サンプルセットを用いて前記サブネットワーク構造を有するデータ認識モデルを訓練し、前記サブネットワーク構造における各ノードでの演算のパラメータを決定し、前記データ認識モデルを生成し、
前記データ認識モデルに基づいてデータ認識を行う、装置。
(付記12)
プログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラム命令がコンピュータにより実行される際に、前記コンピュータが付記11に記載のデータ認識装置の機能を果たす、記憶媒体。
以上は本開示の具体的な実施形態を説明しているが、当業者は添付の特許請求の範囲の要旨及び範囲内で本開示に対して各種の変更、改善又は均等的なものを行うことができる。これらの変更、改善又は均等的なものは本開示の保護範囲に属する。
Claims (10)
- コンピュータにより実現される増分学習のためのデータ認識方法であって、
新しい訓練サンプルセットを取得するステップと、
前記新しい訓練サンプルセットと既存の訓練サンプルセットとを併合し、更新後の訓練サンプルセットを取得するステップと、
前記更新後の訓練サンプルセットの複雑度を計算し、前記複雑度に基づいて、前記更新後の訓練サンプルセットに基づいて生成されるデータ認識モデルのネットワーク構造の規模を計算するステップと、
認識すべきデータのタイプに基づいて、生成されるデータ認識モデルのネットワーク構造のパラメータ空間を決定し、サンプリングにより前記ネットワーク構造のパラメータ空間から前記規模を有するサブネットワーク構造のパラメータを取得し、サブネットワーク構造のパラメータに基づいてデータ認識モデルのためのネットワーク構造を構築し、サブネットワーク構造の各ノードでの演算を取得するステップと、
前記更新後の訓練サンプルセットを用いて前記サブネットワーク構造を有するデータ認識モデルを訓練し、前記サブネットワーク構造における各ノードでの演算のパラメータを決定し、前記データ認識モデルを生成するステップと、
前記データ認識モデルに基づいてデータ認識を行うステップと、を含む、方法。 - 前記データセットの複雑度は、クラス内複雑度、クラス間複雑度、又はクラス内複雑度とクラス間複雑度の組み合わせである、請求項1に記載の方法。
- 複雑度計算式に従って前記データ認識モデルのネットワーク構造の規模を計算する、請求項1に記載の方法。
- ネットワーク層数L及びチャネル数Cbで前記データ認識モデルの規模を表す、請求項1に記載の方法。
- 前記ネットワーク構造のパラメータ空間は、前記ネットワーク層数L、前記チャネル数Cb、各層のネットワークにより採用されるテンソル演算方式、及び各層のネットワーク間の結合方式を含み、
前記ネットワークのパラメータ空間の各部分は、特定の値範囲の数字で表され、
前記ネットワークのパラメータ空間の各部分の値が決定された数字により構成されたベクトルは、決定されたサブネットワーク構造を表す、請求項4に記載の方法。 - 新しい訓練サンプルセットを取得するステップは、
新しく収集されたデータに対して手動でラベル付けすることで、前記新しい訓練サンプルセットを取得すること、及び/又は
現在のデータ認識モデルを用いて新しく収集されたデータを認識した認識結果に対して手動で検証することで、前記新しい訓練サンプルセットを取得すること、を含む、請求項1に記載の方法。 - 前記更新後の訓練サンプルセットを用いて前記サブネットワーク構造を有するデータ認識モデルを訓練し、前記サブネットワーク構造における各ノードでの演算及び演算に関するパラメータを決定するステップにおいて、
前記更新後の訓練サンプルセットの規模が現在の訓練サンプルセットの規模よりも小さい場合、更新後のモデルの規模が直前のモデルの規模よりも小さくなるように、直前のモデルのパラメータに対して枝刈り及びパラメータのファインチューニングを行い、更新後のサブネットワークの訓練速度を速くする、請求項1に記載の方法。 - 前記更新後の訓練サンプルセットを用いて前記サブネットワーク構造を有するデータ認識モデルを訓練し、前記サブネットワーク構造における各ノードでの演算及び演算に関するパラメータを決定するステップにおいて、
前記更新後の訓練サンプルセットの規模が現在の訓練サンプルセットの規模よりも大きい場合、前記更新後の訓練サンプルセットを用いて、前記現在のデータ認識モデルに適応的なサイズのネットワーク構造が追加されたデータ認識モデルを訓練し、パラメータのコピーとファインチューニング又は特徴正規化のスケール変換により訓練速度を速くする、請求項1に記載の方法。 - 前記データ認識モデルは、CNNである、請求項1乃至8の何れかに記載の方法。
- データ更新、ネットワーク構造パラメータコントローラ更新及びサブネットワークモデルのパラメータ更新である3つのステップ、をさらに含み、
該3つのステップにより交互に反復的に更新を行うことで、増分学習を行う、請求項1乃至8の何れかに記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910423683.4 | 2019-05-21 | ||
CN201910423683.4A CN111985601A (zh) | 2019-05-21 | 2019-05-21 | 用于增量学习的数据识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020191080A true JP2020191080A (ja) | 2020-11-26 |
Family
ID=73435832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020083118A Withdrawn JP2020191080A (ja) | 2019-05-21 | 2020-05-11 | 増分学習のためのデータ認識方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2020191080A (ja) |
CN (1) | CN111985601A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113850302A (zh) * | 2021-09-02 | 2021-12-28 | 杭州海康威视数字技术股份有限公司 | 一种增量学习方法、装置及设备 |
CN113887633A (zh) * | 2021-09-30 | 2022-01-04 | 国网河南省电力公司电力科学研究院 | 基于il的闭源电力工控系统恶意行为识别方法及系统 |
JP2022068146A (ja) * | 2021-04-28 | 2022-05-09 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | データ注釈方法、装置、電子機器、記憶媒体およびコンピュータプログラム |
CN115114467A (zh) * | 2021-03-17 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 图片神经网络模型的训练方法以及装置 |
CN115134687A (zh) * | 2022-06-22 | 2022-09-30 | 中国信息通信研究院 | 光接入网的业务识别方法、装置、电子设备及存储介质 |
CN116805157A (zh) * | 2023-08-25 | 2023-09-26 | 中国人民解放军国防科技大学 | 无人集群自主动态评估方法及装置 |
WO2023248305A1 (ja) * | 2022-06-20 | 2023-12-28 | 日本電気株式会社 | 情報処理装置、情報処理方法、及びコンピュータ読み取り可能な記録媒体 |
CN118349858A (zh) * | 2024-06-17 | 2024-07-16 | 齐鲁工业大学(山东省科学院) | 基于增量学习的分布式光纤检测信号识别方法 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113259331B (zh) * | 2021-04-29 | 2022-10-11 | 上海电力大学 | 一种基于增量学习的未知异常流量在线检测方法及系统 |
CN113469245A (zh) * | 2021-06-30 | 2021-10-01 | 山东恒远智能科技有限公司 | 一种基于工业互联网的数据识别方法 |
CN113645063B (zh) * | 2021-07-16 | 2024-03-19 | 上海德衡数据科技有限公司 | 基于边缘计算的智能集成数据的方法及系统 |
CN114662588B (zh) * | 2022-03-21 | 2023-11-07 | 合肥工业大学 | 一种自动更新模型的方法、系统、设备及存储介质 |
CN117152849A (zh) * | 2023-10-09 | 2023-12-01 | 江苏比特达信息技术有限公司 | 一种煤矿井下弱特征人员身份识别新方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915566A (zh) * | 2015-06-17 | 2015-09-16 | 大连理工大学 | 一种支持增量更新的深度计算模型设计方法 |
CN106295803A (zh) * | 2016-08-10 | 2017-01-04 | 中国科学技术大学苏州研究院 | 深度神经网络的构建方法 |
JP6928371B2 (ja) * | 2017-08-01 | 2021-09-01 | 国立研究開発法人情報通信研究機構 | 分類器、分類器の学習方法、分類器における分類方法 |
GB2566257A (en) * | 2017-08-29 | 2019-03-13 | Sky Cp Ltd | System and method for content discovery |
CN108776774A (zh) * | 2018-05-04 | 2018-11-09 | 华南理工大学 | 一种基于复杂度感知分类算法的面部表情识别方法 |
-
2019
- 2019-05-21 CN CN201910423683.4A patent/CN111985601A/zh active Pending
-
2020
- 2020-05-11 JP JP2020083118A patent/JP2020191080A/ja not_active Withdrawn
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115114467A (zh) * | 2021-03-17 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 图片神经网络模型的训练方法以及装置 |
CN115114467B (zh) * | 2021-03-17 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 图片神经网络模型的训练方法以及装置 |
JP2022068146A (ja) * | 2021-04-28 | 2022-05-09 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | データ注釈方法、装置、電子機器、記憶媒体およびコンピュータプログラム |
CN113850302A (zh) * | 2021-09-02 | 2021-12-28 | 杭州海康威视数字技术股份有限公司 | 一种增量学习方法、装置及设备 |
CN113850302B (zh) * | 2021-09-02 | 2023-08-29 | 杭州海康威视数字技术股份有限公司 | 一种增量学习方法、装置及设备 |
CN113887633A (zh) * | 2021-09-30 | 2022-01-04 | 国网河南省电力公司电力科学研究院 | 基于il的闭源电力工控系统恶意行为识别方法及系统 |
WO2023248305A1 (ja) * | 2022-06-20 | 2023-12-28 | 日本電気株式会社 | 情報処理装置、情報処理方法、及びコンピュータ読み取り可能な記録媒体 |
CN115134687A (zh) * | 2022-06-22 | 2022-09-30 | 中国信息通信研究院 | 光接入网的业务识别方法、装置、电子设备及存储介质 |
CN115134687B (zh) * | 2022-06-22 | 2024-05-07 | 中国信息通信研究院 | 光接入网的业务识别方法、装置、电子设备及存储介质 |
CN116805157A (zh) * | 2023-08-25 | 2023-09-26 | 中国人民解放军国防科技大学 | 无人集群自主动态评估方法及装置 |
CN116805157B (zh) * | 2023-08-25 | 2023-11-17 | 中国人民解放军国防科技大学 | 无人集群自主动态评估方法及装置 |
CN118349858A (zh) * | 2024-06-17 | 2024-07-16 | 齐鲁工业大学(山东省科学院) | 基于增量学习的分布式光纤检测信号识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111985601A (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020191080A (ja) | 増分学習のためのデータ認識方法 | |
WO2023000574A1 (zh) | 一种模型训练方法、装置、设备及可读存储介质 | |
JP2020071883A (ja) | モデル訓練方法、データ認識方法及びデータ認識装置 | |
CN110674323B (zh) | 基于虚拟标签回归的无监督跨模态哈希检索方法及系统 | |
Tian et al. | Weakly-supervised nucleus segmentation based on point annotations: A coarse-to-fine self-stimulated learning strategy | |
KR20200110400A (ko) | 학습 데이터 증강 정책 | |
CN111523640B (zh) | 神经网络模型的训练方法和装置 | |
US20220309334A1 (en) | Graph neural networks for datasets with heterophily | |
JP2021503661A (ja) | 第1のニューラルネットワークモデルと第2のニューラルネットワークモデルとの訓練 | |
US11416743B2 (en) | Swarm fair deep reinforcement learning | |
JP2020135858A (ja) | モデル最適化方法、データ認識方法及びデータ認識装置 | |
CN112149809A (zh) | 模型超参数的确定方法及设备、计算设备和介质 | |
CN116569194A (zh) | 联合学习 | |
Basterrech et al. | Evolutionary Echo State Network: A neuroevolutionary framework for time series prediction | |
CN110782016A (zh) | 用于优化神经网络架构搜索的方法和装置 | |
CN114494783A (zh) | 一种基于动态图神经网络的预训练方法 | |
CN105809200A (zh) | 一种生物启发式自主抽取图像语义信息的方法及装置 | |
Chen et al. | Towards efficient multiobjective hyperparameter optimization: a multiobjective multi-fidelity bayesian optimization and hyperband algorithm | |
Sunitha et al. | Political optimizer-based automated machine learning for skin lesion data | |
Duggal et al. | High performance squeezenext for cifar-10 | |
CN116107666A (zh) | 程序业务流信息生成方法、装置、电子设备和计算机介质 | |
CN112241786A (zh) | 模型超参数的确定方法及设备、计算设备和介质 | |
CN117636100B (zh) | 预训练任务模型调整处理方法、装置、电子设备和介质 | |
He et al. | Efficient Population Based Hyperparameter Scheduling for Medical Image Segmentation | |
US12105612B1 (en) | Algorithmic architecture co-design and exploration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230112 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20240126 |