JP2023523029A - 画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体 - Google Patents
画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体 Download PDFInfo
- Publication number
- JP2023523029A JP2023523029A JP2022564577A JP2022564577A JP2023523029A JP 2023523029 A JP2023523029 A JP 2023523029A JP 2022564577 A JP2022564577 A JP 2022564577A JP 2022564577 A JP2022564577 A JP 2022564577A JP 2023523029 A JP2023523029 A JP 2023523029A
- Authority
- JP
- Japan
- Prior art keywords
- image
- sample
- loss value
- recognition model
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 claims abstract description 241
- 238000012549 training Methods 0.000 claims abstract description 101
- 230000003247 decreasing effect Effects 0.000 claims abstract description 33
- 238000004590 computer program Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000010276 construction Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 239000010754 BS 2869 Class F Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
Description
本願は、2020年8月25日に提出された、名称が「画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体」、出願番号が2020108629110である中国特許出願を主張し、その全ての内容が参照によって本願に組み込まれる。
同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するステップと、
前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得るステップであって、前記訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、前記損失値は、目標分類損失値と、各前記ブランチニューラルネットワークに対応する分類損失値とを含み、前記目標分類損失値は、前記訓練対象の画像認識モデルの前記サンプル画像セットに対する損失値であり、前記分類損失値は、対応するブランチニューラルネットワークの前記ブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値であるステップと、
前記損失値に基づいて、前記損失値が予め設定された閾値よりも低くなるまで前記訓練対象の画像認識モデルのモデルパラメータを調整し、前記訓練対象の画像認識モデルを訓練済みの画像認識モデルとするステップと、を含む画像認識モデル生成方法を提供する。
同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するための取得モジュールと、
前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得るための訓練モジュールであって、前記訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、前記損失値は、目標分類損失値と、各前記ブランチニューラルネットワークに対応する分類損失値とを含み、前記目標分類損失値は、前記訓練対象の画像認識モデルの前記サンプル画像セットに対する損失値であり、前記分類損失値は、対応するブランチニューラルネットワークの前記ブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値である訓練モジュールと、
前記損失値に基づいて、前記損失値が予め設定された閾値よりも低くなるまで前記訓練対象の画像認識モデルのモデルパラメータを調整し、前記訓練対象の画像認識モデルを訓練済みの画像認識モデルとするための調整モジュールと、を備える画像認識モデル生成装置を提供する。
同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するステップと、
前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得るステップであって、前記訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、前記損失値は、目標分類損失値と、各前記ブランチニューラルネットワークに対応する分類損失値とを含み、前記目標分類損失値は、前記訓練対象の画像認識モデルの前記サンプル画像セットに対する損失値であり、前記分類損失値は、対応するブランチニューラルネットワークの前記ブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値であるステップと、
前記損失値に基づいて、前記損失値が予め設定された閾値よりも低くなるまで前記訓練対象の画像認識モデルのモデルパラメータを調整し、前記訓練対象の画像認識モデルを訓練済みの画像認識モデルとするステップと、を実現するプロセッサと、を備えるコンピュータ機器を提供する。
同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するステップと、
前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得るステップであって、前記訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、前記損失値は、目標分類損失値と、各前記ブランチニューラルネットワークに対応する分類損失値とを含み、前記目標分類損失値は、前記訓練対象の画像認識モデルの前記サンプル画像セットに対する損失値であり、前記分類損失値は、対応するブランチニューラルネットワークの前記ブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値であるステップと、
前記損失値に基づいて、前記損失値が予め設定された閾値よりも低くなるまで前記訓練対象の画像認識モデルのモデルパラメータを調整し、前記訓練対象の画像認識モデルを訓練済みの画像認識モデルとするステップと、を実現するコンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供する。
サンプル画像セットの複数のサンプル画像サブセットを均一にサンプリングして、サンプル画像入力シーケンスを得るステップ41と、
サンプル画像入力シーケンスに基づいて、サンプル画像を訓練対象の画像認識モデルに入力して、サンプル画像の画像クラスを得るステップ42と、
サンプル画像の画像クラスと、対応する実際の画像クラスとに基づいて、訓練対象の画像認識モデルの損失値を決定するステップ43と、を含む。
サンプル画像入力シーケンスに基づいて、サンプル画像を訓練対象の画像認識モデルに入力して、サンプル画像の画像クラスを得る上記ステップ42は、ベースニューラルネットワークがサンプル画像の第1画像特徴を取得し、ブランチニューラルネットワークが、第1画像特徴に基づいてサンプル画像の第2画像特徴を得るとともに、第2画像特徴に基づいてサンプル画像セットのサンプル画像の画像クラスを決定するように、サンプル画像を訓練対象の画像認識モデルに入力することを含む。
サンプル画像セットのサンプル画像の画像クラスと、対応する実際の画像クラスとに基づいて、サンプル画像セットのサンプル画像の損失値を決定するステップ51と、
複数のブランチニューラルネットワークにより決定されたサンプル画像セットのサンプル画像の損失値に基づいて、サンプル画像セットに対応する損失値を得、目標分類損失値とするステップ52と、
複数のブランチニューラルネットワークに対応するサンプル画像サブセットの全てのサンプル画像の損失値を取得し、サンプル画像サブセットの全てのサンプル画像の損失値の和を複数のブランチニューラルネットワークに対応する分類損失値とするステップ53と、
目標分類損失値と、複数のブランチニューラルネットワークに対応する分類損失値とに基づいて、訓練対象の画像認識モデルの損失値を計算して得るステップ54と、を含む。
(式中、Lfは目標分類損失値であり、Jはクロスエントロピー損失関数であり、Fnetは訓練対象の画像認識モデルであり、Xはサンプル画像入力シーケンスにおけるサンプル画像であり、Yはサンプル画像の実際の画像クラスであり、h、m、tはそれぞれ画像の数が順次減少する第1、第2及び第3サンプル画像サブセットであり、
は3つのサンプル画像サブセットに対応する3つのブランチニューラルネットワークであり、添え字はブランチニューラルネットワークに対応するサンプル画像サブセットである。)で示される。
ブランチニューラルネットワークと第1、第2及び第3サンプル画像サブセットとが対応関係にあり、
ブランチニューラルネットワークを計算する場合に、サンプル画像セット全体に対する損失値を計算することに相当する。
は第3サンプル画像サブセットのみと対応関係が存在するため、
の損失値を計算する場合に、第3サンプル画像サブセットの対応するサンプル画像の実際の画像クラスに基づいて損失値を計算すればよい。全てのブランチニューラルネットワークにより算出された分類損失値を得て加算演算を行った結果は、最終的な画像クラスの予測結果であり、具体的に、下記式:
(式中、Liは複数のブランチニューラルネットワークに対応する分類損失値の和であり、Sm+tはXの一方のサブセットであり、サンプル画像入力シーケンスにおける第2及び第3サンプル画像サブセットに属するサンプル画像を含み、StはXの他方のサブセットであり、サンプル画像入力シーケンスにおける第3サンプル画像サブセットに属するサンプル画像を含む。)で示される。
Lall=(1-α)Lf/n1+αLi/n2;
(式中、Lallは訓練対象の画像認識モデルの損失値であり、αはハイパーパラメータであり、n1はXにおけるサンプル画像の数であり、n2はX、Sm+t及びStにおけるサンプル画像の数の総和である。)で示される。
サンプル画像を取得し、サンプル画像の画像クラスに基づいて、画像クラスの画像の数を決定するステップ61と、
画像クラスの画像の数に基づいて、画像クラスの並び順を得、並び順に従って、画像クラスを、同じ数の画像クラスを含む複数のクラス組み合わせに分けるステップ62と、
複数のクラス組み合わせと、複数のクラス組み合わせにおける画像クラスに対応するサンプル画像とに基づいて、複数のクラス組み合わせに対応するサンプル画像サブセットを得、複数のサンプル画像サブセットの組み合わせをサンプル画像セットとするステップ63と、をさらに含む。
同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するための取得モジュール71と、
サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、訓練対象の画像認識モデルの損失値を得るための訓練モジュール72であって、訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、損失値は、目標分類損失値と、各ブランチニューラルネットワークに対応する分類損失値とを含み、目標分類損失値は、訓練対象の画像認識モデルのサンプル画像セットに対する損失値であり、分類損失値は、対応するブランチニューラルネットワークのブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値である訓練モジュール72と、
損失値に基づいて、損失値が予め設定された閾値よりも低くなるまで訓練対象の画像認識モデルのモデルパラメータを調整し、訓練対象の画像認識モデルを訓練済みの画像認識モデルとするための調整モジュール73と、を備える画像認識モデル生成装置を提供する。
本願は、2020年8月25日に提出された、名称が「画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体」、出願番号が2020108629110である中国特許出願の優先権を主張し、その全ての内容が参照によって本願に組み込まれる。
同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するステップと、
前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得るステップであって、前記訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、前記損失値は、目標分類損失値と、各前記ブランチニューラルネットワークに対応する分類損失値とを含み、前記目標分類損失値は、前記訓練対象の画像認識モデルの前記サンプル画像セットに対する損失値であり、各前記ブランチニューラルネットワークに対応する前記分類損失値は、対応するブランチニューラルネットワークの前記ブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値であるステップと、
前記損失値に基づいて、前記損失値が予め設定された閾値よりも低くなるまで前記訓練対象の画像認識モデルのモデルパラメータを調整し、前記訓練対象の画像認識モデルを訓練済みの画像認識モデルとするステップと、を含む画像認識モデル生成方法を提供する。
同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するための取得モジュールと、
前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得るための訓練モジュールであって、前記訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、前記損失値は、目標分類損失値と、各前記ブランチニューラルネットワークに対応する分類損失値とを含み、前記目標分類損失値は、前記訓練対象の画像認識モデルの前記サンプル画像セットに対する損失値であり、各前記ブランチニューラルネットワークに対応する前記分類損失値は、対応するブランチニューラルネットワークの前記ブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値である訓練モジュールと、
前記損失値に基づいて、前記損失値が予め設定された閾値よりも低くなるまで前記訓練対象の画像認識モデルのモデルパラメータを調整し、前記訓練対象の画像認識モデルを訓練済みの画像認識モデルとするための調整モジュールと、を備える画像認識モデル生成装置を提供する。
同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するステップと、
前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得るステップであって、前記訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、前記損失値は、目標分類損失値と、各前記ブランチニューラルネットワークに対応する分類損失値とを含み、前記目標分類損失値は、前記訓練対象の画像認識モデルの前記サンプル画像セットに対する損失値であり、各前記ブランチニューラルネットワークに対応する前記分類損失値は、対応するブランチニューラルネットワークの前記ブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値であるステップと、
前記損失値に基づいて、前記損失値が予め設定された閾値よりも低くなるまで前記訓練対象の画像認識モデルのモデルパラメータを調整し、前記訓練対象の画像認識モデルを訓練済みの画像認識モデルとするステップと、を実現するプロセッサと、を備えるコンピュータ機器を提供する。
同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するステップと、
前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得るステップであって、前記訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、前記損失値は、目標分類損失値と、各前記ブランチニューラルネットワークに対応する分類損失値とを含み、前記目標分類損失値は、前記訓練対象の画像認識モデルの前記サンプル画像セットに対する損失値であり、各前記ブランチニューラルネットワークに対応する前記分類損失値は、対応するブランチニューラルネットワークの前記ブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値であるステップと、
前記損失値に基づいて、前記損失値が予め設定された閾値よりも低くなるまで前記訓練対象の画像認識モデルのモデルパラメータを調整し、前記訓練対象の画像認識モデルを訓練済みの画像認識モデルとするステップと、を実現するコンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供する。
サンプル画像セットの複数のサンプル画像サブセットを均一にサンプリングして、サンプル画像入力シーケンスを得るステップ41と、
サンプル画像入力シーケンスに基づいて、サンプル画像を訓練対象の画像認識モデルに入力して、サンプル画像の認識された画像クラスを得るステップ42と、
サンプル画像の認識された画像クラスと、対応するサンプル画像の実際の画像クラスとに基づいて、訓練対象の画像認識モデルの損失値を決定するステップ43と、を含む。
サンプル画像入力シーケンスに基づいて、サンプル画像を訓練対象の画像認識モデルに入力して、サンプル画像の認識された画像クラスを得る上記ステップ42は、ベースニューラルネットワークがサンプル画像の第1画像特徴を取得し、ブランチニューラルネットワークが、第1画像特徴に基づいてサンプル画像の第2画像特徴を得るとともに、第2画像特徴に基づいてサンプル画像セットのサンプル画像の認識された画像クラスを決定するように、サンプル画像を訓練対象の画像認識モデルに入力することを含む。
サンプル画像セットのサンプル画像の認識された画像クラスと、対応するサンプル画像の実際の画像クラスとに基づいて、サンプル画像セットのサンプル画像の損失値を決定するステップ51と、
複数のブランチニューラルネットワークにより決定されたサンプル画像セットのサンプル画像の損失値に基づいて、サンプル画像セットに対応する損失値を得、目標分類損失値とするステップ52と、
各ブランチニューラルネットワークに対応するサンプル画像サブセットの全てのサンプル画像の損失値を取得し、サンプル画像サブセットの全てのサンプル画像の損失値の和を各ブランチニューラルネットワークに対応する分類損失値とするステップ53と、
目標分類損失値と、各ブランチニューラルネットワークに対応する分類損失値とに基づいて、訓練対象の画像認識モデルの損失値を計算して得るステップ54と、を含む。
L f =J(F net (X),Y),ここで、F net (X)=N h+m+t (X)+N m+t (X)+N t (X)
(式中、Lfは目標分類損失値であり、Jはクロスエントロピー損失関数であり、Fnetは訓練対象の画像認識モデルであり、Xはサンプル画像入力シーケンスにおけるサンプル画像セットであり、Yはサンプル画像の実際の画像クラスであり、h、m、tはそれぞれ画像の数が順次減少する第1、第2及び第3サンプル画像サブセットであり、N h+m+t 、N m+t 、N t は3つのサンプル画像サブセットに対応する3つのブランチニューラルネットワークであり、添え字はブランチニューラルネットワークに対応するサンプル画像サブセットである。)で示される。
(式中、Liは複数のブランチニューラルネットワークに対応する分類損失値の和であり、Sm+tはXの一方のサブセットであり、サンプル画像入力シーケンスにおける第2及び第3サンプル画像サブセットに属するサンプル画像を含み、StはXの他方のサブセットであり、サンプル画像入力シーケンスにおける第3サンプル画像サブセットに属するサンプル画像を含む。)で示される。
Lall=(1-α)Lf/n1+αLi/n2;
(式中、Lallは訓練対象の画像認識モデルの損失値であり、αはハイパーパラメータであり、n1はXにおけるサンプル画像の数であり、n2はX、Sm+t及びStにおけるサンプル画像の数の総和である。)で示される。
サンプル画像を取得し、サンプル画像の画像クラスに基づいて、画像クラスの画像の数を決定するステップ61と、
画像クラスの画像の数に基づいて、画像クラスの並び順を得、並び順に従って、画像クラスを、同じ数の画像クラスを含む複数のクラス組み合わせに分けるステップ62と、
複数のクラス組み合わせと、複数のクラス組み合わせにおける画像クラスに対応するサンプル画像とに基づいて、複数のクラス組み合わせに対応するサンプル画像サブセットを得、複数のサンプル画像サブセットの組み合わせをサンプル画像セットとするステップ63と、をさらに含む。
同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するための取得モジュール71と、
サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、訓練対象の画像認識モデルの損失値を得るための訓練モジュール72であって、訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、損失値は、目標分類損失値と、各ブランチニューラルネットワークに対応する分類損失値とを含み、目標分類損失値は、訓練対象の画像認識モデルのサンプル画像セットに対する損失値であり、各前記ブランチニューラルネットワークに対応する分類損失値は、対応するブランチニューラルネットワークのブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値である訓練モジュール72と、
損失値に基づいて、損失値が予め設定された閾値よりも低くなるまで訓練対象の画像認識モデルのモデルパラメータを調整し、訓練対象の画像認識モデルを訓練済みの画像認識モデルとするための調整モジュール73と、を備える画像認識モデル生成装置を提供する。
Claims (10)
- 同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するステップと、
前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得るステップであって、前記訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、前記損失値は、目標分類損失値と、各前記ブランチニューラルネットワークに対応する分類損失値とを含み、前記目標分類損失値は、前記訓練対象の画像認識モデルの前記サンプル画像セットに対する損失値であり、前記分類損失値は、対応するブランチニューラルネットワークの前記ブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値であるステップと、
前記損失値に基づいて、前記損失値が予め設定された閾値よりも低くなるまで前記訓練対象の画像認識モデルのモデルパラメータを調整し、前記訓練対象の画像認識モデルを訓練済みの画像認識モデルとするステップと、を含む画像認識モデル生成方法。 - 前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得る前記ステップは、
前記サンプル画像セットの複数の前記サンプル画像サブセットを均一にサンプリングして、サンプル画像入力シーケンスを得るステップと、
前記サンプル画像入力シーケンスに基づいて、サンプル画像を前記訓練対象の画像認識モデルに入力して、前記サンプル画像の画像クラスを得るステップと、
前記サンプル画像の画像クラスと、対応する実際の画像クラスとに基づいて、前記訓練対象の画像認識モデルの損失値を決定するステップと、を含む請求項1に記載の方法。 - 前記訓練対象の画像認識モデルは、前記ブランチニューラルネットワークに接続されるベースニューラルネットワークをさらに含み、
前記サンプル画像入力シーケンスに基づいて、サンプル画像を前記訓練対象の画像認識モデルに入力して、前記サンプル画像の画像クラスを得る前記ステップは、
前記ベースニューラルネットワークが前記サンプル画像の第1画像特徴を取得し、前記ブランチニューラルネットワークが、前記第1画像特徴に基づいて前記サンプル画像の第2画像特徴を得るとともに、前記第2画像特徴に基づいて前記サンプル画像セットのサンプル画像の画像クラスを決定するように、前記サンプル画像を前記訓練対象の画像認識モデルに入力することを含む請求項2に記載の方法。 - 前記サンプル画像の画像クラスと、対応する実際の画像クラスとに基づいて、前記訓練対象の画像認識モデルの損失値を決定する前記ステップは、
前記サンプル画像セットのサンプル画像の画像クラスと、対応する実際の画像クラスとに基づいて、前記サンプル画像セットのサンプル画像の損失値を決定するステップと、
複数の前記ブランチニューラルネットワークにより決定された前記サンプル画像セットのサンプル画像の損失値に基づいて、前記サンプル画像セットに対応する損失値を得、前記目標分類損失値とするステップと、
複数の前記ブランチニューラルネットワークに対応するサンプル画像サブセットの全てのサンプル画像の損失値を取得し、前記サンプル画像サブセットの全てのサンプル画像の損失値の和を複数の前記ブランチニューラルネットワークに対応する分類損失値とするステップと、
前記目標分類損失値と、複数の前記ブランチニューラルネットワークに対応する分類損失値とに基づいて、前記訓練対象の画像認識モデルの損失値を計算して得るステップと、を含む請求項3に記載の方法。 - 前記サンプル画像セットは、画像の数が順次減少する3つのサンプル画像サブセットを含み、前記訓練対象の画像認識モデルは、3つのブランチニューラルネットワークを含み、
前記目標分類損失値は、下記式:
(式中、Lfは前記目標分類損失値であり、Jはクロスエントロピー損失関数であり、Fnetは訓練対象の画像認識モデルであり、Xは前記サンプル画像入力シーケンスにおけるサンプル画像であり、Yは前記サンプル画像の実際の画像クラスであり、h、m、tはそれぞれ画像の数が順次減少する第1、第2及び第3サンプル画像サブセットであり、前記
は3つのサンプル画像サブセットに対応する3つのブランチニューラルネットワークであり、添え字はブランチニューラルネットワークに対応するサンプル画像サブセットである。)により計算して得られ、
複数の前記ブランチニューラルネットワークに対応する前記分類損失値は、下記式:
(式中、Liは複数の前記ブランチニューラルネットワークに対応する分類損失値の和であり、Sm+tはXの一方のサブセットであり、前記サンプル画像入力シーケンスにおける第2及び第3サンプル画像サブセットに属するサンプル画像を含み、StはXの他方のサブセットであり、前記サンプル画像入力シーケンスにおける第3サンプル画像サブセットに属するサンプル画像を含む。)により計算して得られる請求項4に記載の方法。 - 前記訓練対象の画像認識モデルの損失値は、下記式により計算して得られる請求項5に記載の方法。
Lall=(1-α)Lf/n1+αLi/n2;
(式中、Lallは訓練対象の画像認識モデルの損失値であり、αはハイパーパラメータであり、n1はXにおけるサンプル画像の数であり、n2はX、Sm+t及びStにおけるサンプル画像の数の総和である。) - サンプル画像セットを取得する前に、
サンプル画像を取得し、前記サンプル画像の画像クラスに基づいて、前記画像クラスの画像の数を決定するステップと、
前記画像クラスの画像の数に基づいて、前記画像クラスの並び順を得、前記並び順に従って、前記画像クラスを、同じ数の画像クラスを含む複数のクラス組み合わせに分けるステップと、
複数の前記クラス組み合わせと、複数の前記クラス組み合わせにおける画像クラスに対応するサンプル画像とに基づいて、複数の前記クラス組み合わせに対応するサンプル画像サブセットを得、複数の前記サンプル画像サブセットの組み合わせを前記サンプル画像セットとするステップと、をさらに含む請求項1に記載の方法。 - 同じ数の画像クラスをそれぞれ含み、画像の数が順次減少する複数のサンプル画像サブセットを含むサンプル画像セットを取得するための取得モジュールと、
前記サンプル画像セットに基づいて、訓練対象の画像認識モデルを訓練して、前記訓練対象の画像認識モデルの損失値を得るための訓練モジュールであって、前記訓練対象の画像認識モデルは、対応する画像をそれぞれ認識するためのブランチニューラルネットワークを複数含み、前記損失値は、目標分類損失値と、各前記ブランチニューラルネットワークに対応する分類損失値とを含み、前記目標分類損失値は、前記訓練対象の画像認識モデルの前記サンプル画像セットに対する損失値であり、前記分類損失値は、対応するブランチニューラルネットワークの前記ブランチニューラルネットワークに対応するサンプル画像サブセットに対する損失値である訓練モジュールと、
前記損失値に基づいて、前記損失値が予め設定された閾値よりも低くなるまで前記訓練対象の画像認識モデルのモデルパラメータを調整し、前記訓練対象の画像認識モデルを訓練済みの画像認識モデルとするための調整モジュールと、を備える画像認識モデル生成装置。 - コンピュータプログラムが記憶されているメモリと、前記コンピュータプログラムを実行する場合に、請求項1~7のいずれか一項に記載の方法のステップを実現するプロセッサと、を備えるコンピュータ機器。
- プロセッサによって実行される場合に、請求項1~7のいずれか一項に記載の方法のステップを実現するコンピュータプログラムが記憶されているコンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010862911.0 | 2020-08-25 | ||
CN202010862911.0A CN111950656B (zh) | 2020-08-25 | 2020-08-25 | 图像识别模型生成方法、装置、计算机设备和存储介质 |
PCT/CN2021/106635 WO2022042123A1 (zh) | 2020-08-25 | 2021-07-16 | 图像识别模型生成方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023523029A true JP2023523029A (ja) | 2023-06-01 |
JP7376731B2 JP7376731B2 (ja) | 2023-11-08 |
Family
ID=73366432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022564577A Active JP7376731B2 (ja) | 2020-08-25 | 2021-07-16 | 画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7376731B2 (ja) |
CN (1) | CN111950656B (ja) |
WO (1) | WO2022042123A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950656B (zh) * | 2020-08-25 | 2021-06-25 | 深圳思谋信息科技有限公司 | 图像识别模型生成方法、装置、计算机设备和存储介质 |
CN112966767B (zh) * | 2021-03-19 | 2022-03-22 | 焦点科技股份有限公司 | 一种特征提取和分类任务分离的数据不均衡处理方法 |
CN113034368A (zh) * | 2021-04-01 | 2021-06-25 | 深圳思谋信息科技有限公司 | 图像超分辨率模型训练方法、装置、计算机设备和介质 |
CN113240032B (zh) * | 2021-05-25 | 2024-01-30 | 北京有竹居网络技术有限公司 | 一种图像分类方法、装置、设备及存储介质 |
CN114155388B (zh) * | 2022-02-10 | 2022-05-13 | 深圳思谋信息科技有限公司 | 一种图像识别方法、装置、计算机设备和存储介质 |
CN114581751B (zh) * | 2022-03-08 | 2024-05-10 | 北京百度网讯科技有限公司 | 图像识别模型的训练方法和图像识别方法、装置 |
CN115294644B (zh) * | 2022-06-24 | 2024-07-02 | 北京昭衍新药研究中心股份有限公司 | 一种基于3d卷积参数重构的快速猴子行为识别方法 |
CN117036869B (zh) * | 2023-10-08 | 2024-01-09 | 之江实验室 | 一种基于多样性和随机策略的模型训练方法及装置 |
CN117746306B (zh) * | 2023-12-12 | 2024-06-04 | 日照朝力信息科技有限公司 | 一种基于图像处理的林木病虫害识别方法和系统 |
CN117457101B (zh) * | 2023-12-22 | 2024-03-26 | 中国农业科学院烟草研究所(中国烟草总公司青州烟草研究所) | 一种烘烤烟叶含水量预测方法、介质及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014049118A (ja) * | 2012-08-31 | 2014-03-17 | Fujitsu Ltd | 畳み込みニューラルネットワーク分類器システム、その訓練方法、分類方法および用途 |
US20190272482A1 (en) * | 2018-03-05 | 2019-09-05 | Deepak Chandrakant Patil | Online sampling analysis |
WO2019232489A1 (en) * | 2018-06-01 | 2019-12-05 | NTT Security Corporation | An ensemble-based data curation pipeline for efficient label propagation |
JP2020522794A (ja) * | 2017-06-01 | 2020-07-30 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | ニューラルネットワーク分類 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9940729B1 (en) * | 2016-11-18 | 2018-04-10 | Here Global B.V. | Detection of invariant features for localization |
CN110162556A (zh) * | 2018-02-11 | 2019-08-23 | 陕西爱尚物联科技有限公司 | 一种有效发挥数据价值的方法 |
CN108921013B (zh) * | 2018-05-16 | 2020-08-18 | 浙江零跑科技有限公司 | 一种基于深度神经网络的视觉场景识别系统及方法 |
CN108875934A (zh) * | 2018-05-28 | 2018-11-23 | 北京旷视科技有限公司 | 一种神经网络的训练方法、装置、系统及存储介质 |
CN108764370B (zh) * | 2018-06-08 | 2021-03-12 | Oppo广东移动通信有限公司 | 图像处理方法、装置、计算机可读存储介质和计算机设备 |
CN110097130B (zh) * | 2019-05-07 | 2022-12-13 | 深圳市腾讯计算机系统有限公司 | 分类任务模型的训练方法、装置、设备及存储介质 |
CN111242158A (zh) * | 2019-12-05 | 2020-06-05 | 北京迈格威科技有限公司 | 神经网络训练方法、图像处理方法及装置 |
CN111125460B (zh) * | 2019-12-24 | 2022-02-25 | 腾讯科技(深圳)有限公司 | 信息推荐方法及装置 |
CN111401307B (zh) * | 2020-04-08 | 2022-07-01 | 中国人民解放军海军航空大学 | 基于深度度量学习的卫星遥感图像目标关联方法和装置 |
CN111291841B (zh) * | 2020-05-13 | 2020-08-21 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、装置、计算机设备和存储介质 |
CN111950656B (zh) * | 2020-08-25 | 2021-06-25 | 深圳思谋信息科技有限公司 | 图像识别模型生成方法、装置、计算机设备和存储介质 |
-
2020
- 2020-08-25 CN CN202010862911.0A patent/CN111950656B/zh active Active
-
2021
- 2021-07-16 WO PCT/CN2021/106635 patent/WO2022042123A1/zh active Application Filing
- 2021-07-16 JP JP2022564577A patent/JP7376731B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014049118A (ja) * | 2012-08-31 | 2014-03-17 | Fujitsu Ltd | 畳み込みニューラルネットワーク分類器システム、その訓練方法、分類方法および用途 |
JP2020522794A (ja) * | 2017-06-01 | 2020-07-30 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | ニューラルネットワーク分類 |
US20190272482A1 (en) * | 2018-03-05 | 2019-09-05 | Deepak Chandrakant Patil | Online sampling analysis |
WO2019232489A1 (en) * | 2018-06-01 | 2019-12-05 | NTT Security Corporation | An ensemble-based data curation pipeline for efficient label propagation |
Also Published As
Publication number | Publication date |
---|---|
WO2022042123A1 (zh) | 2022-03-03 |
JP7376731B2 (ja) | 2023-11-08 |
CN111950656B (zh) | 2021-06-25 |
CN111950656A (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023523029A (ja) | 画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体 | |
US11741361B2 (en) | Machine learning-based network model building method and apparatus | |
WO2021203854A1 (zh) | 用户分类方法、装置、计算机设备和存储介质 | |
CN108804641A (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
JP7287397B2 (ja) | 情報処理方法、情報処理装置及び情報処理プログラム | |
CN110889450B (zh) | 超参数调优、模型构建方法和装置 | |
CN110210558B (zh) | 评估神经网络性能的方法及装置 | |
CN115688913A (zh) | 一种云边端协同个性化联邦学习方法、系统、设备及介质 | |
CN109376995A (zh) | 财务数据评分方法、装置、计算机设备和存储介质 | |
CN114329029B (zh) | 对象检索方法、装置、设备及计算机存储介质 | |
JPWO2019146189A1 (ja) | ニューラルネットワークのランク最適化装置および最適化方法 | |
CN114245910A (zh) | 一种自动机器学习AutoML系统、方法及设备 | |
CN113609337A (zh) | 图神经网络的预训练方法、训练方法、装置、设备及介质 | |
WO2022252694A1 (zh) | 神经网络优化方法及其装置 | |
CN110991621A (zh) | 一种基于通道数搜索卷积神经网络的方法 | |
CN110264407A (zh) | 图像超分辨模型训练及重建方法、装置、设备及存储介质 | |
CN110222838B (zh) | 文档排序方法、装置、电子设备及存储介质 | |
CN113705276A (zh) | 模型构建方法、模型构建装置、计算机设备及介质 | |
CN114677535A (zh) | 域适应图像分类网络的训练方法、图像分类方法及装置 | |
CN112817563B (zh) | 目标属性配置信息确定方法、计算机设备和存储介质 | |
CN113222014A (zh) | 图像分类模型训练方法、装置、计算机设备和存储介质 | |
TWI758223B (zh) | 具有動態最小批次尺寸之運算方法,以及用於執行該方法之運算系統及電腦可讀儲存媒體 | |
CN111159450A (zh) | 图片分类方法、装置、计算机设备和存储介质 | |
US20220058448A1 (en) | Image selection from a database | |
US11875263B2 (en) | Method and apparatus for energy-aware deep neural network compression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221021 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221021 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230922 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231003 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231026 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7376731 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |