JP2021077377A - 物体認識モデルを学習するための方法および装置 - Google Patents
物体認識モデルを学習するための方法および装置 Download PDFInfo
- Publication number
- JP2021077377A JP2021077377A JP2020186750A JP2020186750A JP2021077377A JP 2021077377 A JP2021077377 A JP 2021077377A JP 2020186750 A JP2020186750 A JP 2020186750A JP 2020186750 A JP2020186750 A JP 2020186750A JP 2021077377 A JP2021077377 A JP 2021077377A
- Authority
- JP
- Japan
- Prior art keywords
- function
- loss
- neural network
- network model
- angle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 135
- 230000006870 function Effects 0.000 claims abstract description 506
- 238000003062 neural network model Methods 0.000 claims abstract description 86
- 230000008859 change Effects 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 131
- 230000008569 process Effects 0.000 claims description 70
- 239000013598 vector Substances 0.000 claims description 32
- 230000007423 decrease Effects 0.000 claims description 17
- 230000036961 partial effect Effects 0.000 claims description 15
- 238000010200 validation analysis Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 abstract description 30
- 238000013527 convolutional neural network Methods 0.000 description 103
- 238000012545 processing Methods 0.000 description 20
- 238000007781 pre-processing Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 238000001514 detection method Methods 0.000 description 11
- 230000009471 action Effects 0.000 description 10
- 238000009795 derivation Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 8
- 238000012795 verification Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
【解決手段】物体認識のためのニューラルネットワークモデルを最適化する装置は、ニューラルネットワークモデルおよび重み関数を有する損失関数を用いて、学習画像セットから抽出された特徴の損失データを決定する損失決定手段と、損失データと更新関数とに基づいてニューラルネットワークモデルのパラメータの更新動作を実行する更新手段とを含む。更新関数は、ニューラルネットワークモデルの重み関数を有する損失関数に基づいて導出され、重み関数および損失関数は、同じ方向に特定値間隔で単調に変化する。
【選択図】図4A
Description
本出願は、参照によりその全体が本明細書に組み込まれる、2019年11月7日に出願された中国特許出願第201911082558.8号の利点を主張する。
ここで、
(1) 関数νintra(θyi)は、非負であり、間隔[0,π/2]内で単調に増加する関数であるべきであり、その結果、xiとWyiとが互いに接近することにつれて、それらの移動速度が徐々に減少することを保証することができる。
(2) 関数νinter(θj)は、非負であり、間隔[0,π/2]内で単調に減少する関数であるべきであり、その結果、xiとWjとが互いに接近した場合に、重みが迅速に拡大することを保証することができる。
(3) 学習データにおけるノイズの存在を考慮して、クラス内損失の収束速度を制限するために、0のクラス内角度付近で柔軟なカットオフ点で関数νintra(θyi)を設計すべきである。クラス間損失の収束速度を制御するために、π/2のクラス間角度付近で柔軟なカットオフ点で関数νinter(θj)を設計すべきである。このようにして、クラス内およびクラス間最適化ターゲットは、厳密に最大化または最小化されるのではなく、適度に調整することができる。
学習セット:合計500,000枚の画像、10,000人の身元、を含むCASIA-WebFace
テストセット:YTF、LFW、CFP−FP、AGEDB−30、CPLFW、CALFW
評価基準:1: N TPIR (True Positive Recognition Rate, Rank1 @ 106)、Megafacechallengeと同じ
畳み込みニューラルネットワークアーキテクチャ:RestNet50
比較される従来技術:Softmax,NSoftmax,SphereFace,CosFace,ArcFace,D−Softmax
実験結果を以下の表1に示し、ここで、SFaceは本開示による技術的解決策である。
学習セット:合計5,800,000枚の画像、85,000人の身元、を含むMS1MV2
評価セット:LFW,YTF,CPLFW,CALFW,IJB−C
評価基準:1: N TPIR (True Positive Identification Rate, Rank1 @ 106)およびTPR/FPR
畳み込みニューラルネットワークアーキテクチャ:RestNet100
比較すべき従来技術:ArcFace
実験結果を以下の表2および3に示し、ここで、SFaceは本開示による技術的解決策である。
このステップでは、入力が物体または顔の実マークを有するオリジナル画像であり、次いで、入力オリジナル画像は、一連の前処理動作を介して、畳み込みニューラルネットワークの要件(requirements)を満たす学習データに変換される。この一連の前処理動作には、顔または物体の検出、顔または物体の位置合わせ、画像の拡大、画像の正規化などが含まれる。
このステップでは、入力が畳み込みニューラルネットワークの要件(requirements)を満たした物体または顔を有する画像データであり、次いで、選択された畳み込みニューラルネットワーク構造および現在の対応するパラメータが画像特徴を抽出するために利用される。畳み込みニューラルネットワーク構造は、VGG16、ResNet、SENetなどのような共通のネットワーク構造とすることができる。
このステップでは、入力は、抽出された画像特徴および畳み込みニューラルネットワークの最後の全結合層であり、次いで、現在のクラス内損失およびクラス間損失がそれぞれ、提案されたジョイント重み付け損失関数(proposed joint weighted loss function)に基づいて計算される。具体的な損失関数の定義は、上述の式(2)〜(4)を参照することによって理解することができる。
このステップでは、予め設定された何らかの条件に基づいて、学習を終了するか否かを判定することができる。プリセット条件は、損失閾値条件、反復回数条件、勾配降下速度条件などを含むことができる。条件のうちの少なくとも1つが満たされる場合、学習は終了することができ、処理はS7600に進む。全てのプリセット条件が満たされていない場合には、処理はS7500に進む。
このステップでは入力がS7300で計算されたジョイント損失であり、本開示による重み関数は、畳み込みニューラルネットワークモデルのパラメータを更新するために使用される。
このステップでは、CNNモデル構造内のすべての層の現在のパラメータが学習されたモデルとして働き、その結果、最適化されたニューラルネットワークモデルを得ることができる。
このステップの動作はS7100の動作と同一または類似であり、ここでは詳細に説明しない。
このステップの動作はS7200の動作と同一または類似であり、ここでは詳細に説明しない。
このステップではあるプリセット条件に基づいて予備学習であるかどうかを判定することができ、プリセット条件は損失閾値条件、反復回数条件、勾配降下速度条件などを含むことができる。上記条件の少なくとも1つが満たされた場合には、予備学習を終了できると判断でき、処理はS8600に進む。いずれのプリセット条件も満たさない場合には、予備学習を継続する必要があると判断し、処理はS8500に進む。
このステップでは、入力がS8300で計算されたクラス内損失である。畳み込みニューラルネットワークの出力層に対する現在のクラス内損失の勾配は最初に、再導出された偏導関数式に基づいて計算される必要があり、次に、畳み込みニューラルネットワークモデルのパラメータはバックプロパゲーションアルゴリズムによって更新することができ、ニューラルネットワークモデルの更新されたパラメータは、S8200に戻される。導出された偏導関数式は以下の通りである。
このステップでは、何らかのプリセット条件に基づいて、学習を終了するか否かを判定することができる。プリセット条件は、損失閾値条件、反復回数条件、勾配降下速度条件などを含むことができる。条件の少なくとも1つが満たされる場合、学習は終了することができ、処理はS8900に進む。いずれのプリセット条件も満たされない場合、処理はS8800に進む。
このステップでは、入力がS8600で計算されたジョイント損失である。先に導出された偏導関数(式(5)〜式(11))によれば、まず、畳み込みニューラルネットワークの出力層に対する現在のクラス間損失の勾配が計算され、次に、畳み込みニューラルネットワークモデルのパラメータが逆伝搬アルゴリズムを使用して更新され、畳み込みニューラルネットワークモデルパラメータの更新されたパラメータが次の反復学習のためにS8200に戻される。
このステップの動作はS7100の動作と同一または類似であり、ここでは詳細に説明しない。
このステップは、畳み込みニューラルネットワークモデル学習を実行するために第1および第2の実施形態のうちのいずれか1つによる動作を使用して、本開示による最適化された畳み込みニューラルネットワークモデルを得ることができる。
このステップでは、あるプリセット条件に基づいてパラメータ調整を行うか否かを判定することができ、プリセット条件には、調整時間条件、畳み込みニューラルネットワーク性能条件等が含まれてもよい。上記条件の少なくとも1つが満たされていれば、調整動作は終了可能であると判断でき、処理はS9500に進む。プリセット条件のいずれも満たされていない場合には、調整動作を継続する必要があると判断し、処理はS9400に進む。
このステップでは、所定の調整時間に達するまで、または学習結果もはや良好でなくなるまで、特定のパラメータ調整方法に従ってパラメータを調整し続けることができる。
このステップでは、重み関数の調整されたパラメータが出力され、その結果、より最適化された重み関数を得ることができ、それによって、後続の畳み込みニューラルネットワークモデル学習の性能を改善することができる。
このステップの動作はS7100の動作と同じまたは同様であり、ここでは詳細に説明しない。
このステップは、畳み込みニューラルネットワークモデル学習を実行するために、第1および第2の実施形態のうちのいずれか1つによる動作を使用して、本開示による最適化された畳み込みニューラルネットワークモデルを得ることができる。
このステップでは、S10300で選択された性能がより良い畳み込みニューラルネットワークモデルについて、あるプリセット条件に基づいてパラメータ調整を行うか否かを判定することができる。プリセット条件は、調整時間条件、畳み込みニューラルネットワーク性能条件などを含むことができる。上記条件の少なくとも1つが満たされていれば、調整動作は終了可能であると判断でき、処理はS10600に進む。いずれのプリセット条件も満たされない場合には、調整動作を継続する必要があると判断し、処理はS10500に進む。このステップにおける動作は、前のステップS9300と同じまたは同様であり、ここでは詳細に説明しない。
このステップでは、パラメータ調整が、予め設定された調整時間に達するまで、または学習結果もはや良好でなくなるまで、特定のパラメータ調整モードに従って継続する。このステップの動作は、前のステップS9400と同じまたは同様であり、ここでは詳細に説明しない。
このステップでは、調整された重み関数のパラメータが出力され、その結果、より最適化された重み関数を得ることができ、それによって、後続の畳み込みニューラルネットワークモデル学習の性能が改善される。
このステップでは、入力が、物体または顔の実マークを有するオリジナル画像であり、次いで、入力オリジナル画像は、畳み込みニューラルネットワークモデルの要件を満たすように、顔または物体の検知、顔または物体の位置合わせ、画像拡張(image augmentation)、画像正規化などを含むことができる既存の一連の前処理動作を用いて、畳み込みニューラルネットワークの要件を満たす学習データに変換することができる。
このステップは、基本的には上記実施形態における特徴抽出動作と同様であり、ここでは詳細に説明しない。
このステップでは、抽出された画像特徴に基づいて顔/物体が識別または検証される。ここでの動作は、当技術分野で公知の様々な方法で行うことができ、ここでは詳細に説明しない。
このステップでは、入力は、畳込みニューラルネットワークの最後の全結合層のための重み行列と抽出された画像特徴とであり、次いで、定義された角度計算式に従って、現在抽出された画像特徴と重み行列の各次元(each dimension)との間の角度が計算される。角度算出式は、具体的には以下のように定義される。
このステップでは、入力が、前のステップで計算された角度情報である。入力画像が適切な学習サンプルであるか否かは、何らかのプリセット判定条件に基づいて判定することができる。適切な学習サンプルとは、計算された角度に基づいて、入力画像がオリジナル学習セット内のいずれの物体にも属していないか、またはオリジナル学習セット内の物体に属しているが、入力画像の特徴が物体の特徴中心から離れていることを判断することができることを意味しており、これは、画像が物体に対して認識するのが比較的困難なサンプル、すなわち適切な学習サンプルであることを示す。
前記ニューラルネットワークモデルおよび重み関数を有する損失関数を用いて、学習画像セットから抽出された特徴の損失データを決定する損失決定手段と、
前記損失データと更新関数とに基づいて前記ニューラルネットワークモデルのパラメータの更新動作を実行する更新手段と
を備え、
前記更新関数は、前記ニューラルネットワークモデルの前記重み関数を有する前記損失関数に基づいて導出され、前記重み関数および前記損失関数は、同じ方向に特定値間隔で単調に変化する
ことを特徴とする装置。
前記更新関数は、前記クラス内角度損失関数およびクラス内角度重み関数に基づいて決定されることを特徴とするEE1に記載の装置。
前記更新関数は、前記クラス間角度損失関数およびクラス間角度重み関数に基づいて決定されることを特徴とするEE1に記載の装置。
前記ニューラルネットワークモデルおよび重み関数を有する損失関数を用いて、学習画像セットから抽出された特徴の損失データを決定する損失決定工程と、
前記損失データと更新関数とに基づいて前記ニューラルネットワークモデルのパラメータの更新動作を実行する更新工程と
を備え、
前記更新関数は、前記ニューラルネットワークモデルの前記重み関数を有する前記損失関数に基づいて導出され、前記重み関数および前記損失関数は、同じ方向に特定値間隔で単調に変化する
ことを特徴とする方法。
前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサにEE23の方法を実行させる命令が格納されている少なくとも1つの記憶装置と
を備えることを特徴とする装置。
Claims (25)
- 物体認識のためのニューラルネットワークモデルを最適化する装置であって、
前記ニューラルネットワークモデルおよび重み関数を有する損失関数を用いて、学習画像セットから抽出された特徴の損失データを決定する損失決定手段と、
前記損失データと更新関数とに基づいて前記ニューラルネットワークモデルのパラメータの更新動作を実行する更新手段と
を備え、
前記更新関数は、前記ニューラルネットワークモデルの前記重み関数を有する前記損失関数に基づいて導出され、前記重み関数および前記損失関数は、同じ方向に特定値間隔で単調に変化する
ことを特徴とする装置。 - 前記重み関数および前記損失関数は、それぞれ角度の関数であり、前記角度は、前記ニューラルネットワークモデルの全結合層における特定の重みベクトルと、超球面多様体上にマッピングされた抽出された特徴と、の間の交差角であり、前記特定値間隔は、特定の角度値間隔であることを特徴とする請求項1に記載の装置。
- 前記特定の角度値間隔が[0、π/2]であり、前記重み関数および前記損失関数が、同じ方向に前記特定の角度値間隔で単調かつ滑らかに変更することを特徴とする請求項2に記載の装置。
- 前記損失関数は、前記交差角度のコサイン関数であることを特徴とする請求項2に記載の装置。
- 前記損失関数は、クラス内角度損失関数を含み、クラス内角度は、超球面多様体上にマッピングされた抽出された特徴と、真理値物体(truth object)を表す前記ニューラルネットワークモデルの全結合層内の重みベクトルと、の間の交差角度であり、
前記更新関数は、前記クラス内角度損失関数およびクラス内角度重み関数に基づいて決定されることを特徴とする請求項1に記載の装置。 - 前記クラス内角度損失関数は、負をとるクラス内角度コサイン関数であり、前記クラス内角度重み関数は、負ではない関数であり、前記角度が特定値間隔で増加することにつれて滑らかに単調に増加することを特徴とする請求項1に記載の装置。
- 前記値間隔が[0、π/2]であり、前記クラス内角度重み関数が0近傍に水平カットオフ点を有することを特徴とする請求項1に記載の装置。
- 前記損失関数はクラス間角度損失関数をさらに含み、クラス間角度は超球面多様体上にマッピングされた抽出された特徴と、前記ニューラルネットワークモデルの全結合層内の別の重みベクトルと、の間の交差角度であり、
前記更新関数は、前記クラス間角度損失関数およびクラス間角度重み関数に基づいて決定されることを特徴とする請求項1に記載の装置。 - 前記クラス間角度損失関数は、クラス間角度コサイン関数の和であり、前記クラス間角度重み関数は負ではない関数であり、前記角度が特定値間隔で増加することにつれて滑らかに単調に減少する関数であることを特徴とする請求項1に記載の装置。
- 前記値間隔は[0、π/2]であり、前記クラス間角度重み関数はπ/2付近に水平カットオフ点を有することを特徴とする請求項1に記載の装置。
- 前記更新関数は、前記重み関数と前記損失関数の偏導関数とに基づくことを特徴とする請求項1に記載の装置。
- 前記更新手段はさらに、前記損失関数の偏導関数と前記重み関数とを乗算して、前記ニューラルネットワークモデルを更新するための更新勾配を決定することを特徴とする請求項1に記載の装置。
- 前記更新手段はさらに、バックプロパゲーション方法および前記決定された更新勾配を用いて、前記ニューラルネットワークモデルの前記パラメータを更新することを特徴とする請求項12に記載の装置。
- 前記ニューラルネットワークモデルが更新された後、前記損失決定手段および前記更新手段は、前記更新されたニューラルネットワークモデルを用いて動作することを特徴とする請求項1に記載の装置。
- 前記更新手段は、前記決定された損失データが閾値よりも大きく、前記損失決定手段および前記更新手段によって実行される反復動作の回数が所定の反復回数に達しない場合に、前記決定された更新勾配を用いて更新を実行することを特徴とする請求項1に記載の装置。
- 前記損失データ決定手段は更に、前記ニューラルネットワークモデルの前記重み関数と前記損失関数との組合せを用いて、前記損失データを決定することを特徴とする請求項1に記載の装置。
- 前記ニューラルネットワークモデルの前記重み関数と前記損失関数との組合せは、前記ニューラルネットワークモデルの前記重み関数と前記損失関数との積であることを特徴とする請求項1に記載の装置。
- 前記ニューラルネットワークモデルを用いて学習画像セットから画像特徴を取得する画像特徴取得手段をさらに備えることを特徴とする請求項1に記載の装置。
- 前記ニューラルネットワークモデルは、ディープニューラルネットワークモデルであり、前記取得された画像特徴は、前記画像のデプス埋め込み特徴であることを特徴とする請求項1に記載の装置。
- 前記重み関数の前記パラメータは、学習セットまたは検証セットについて決定された損失データに基づいて調整され得ることを特徴とする請求項1に記載の装置。
- 前記重み関数の第1のパラメータおよび第2のパラメータが、反復である損失データ決定動作および更新動作を実行するために個別に設定された後、前記損失データをより良くさせる前記第1および第2のパラメータのうちの一方の周りの2つのパラメータが、次の反復動作における前記重み関数のための前記第1のパラメータおよび前記第2のパラメータとして選択されることを特徴とする請求項20に記載の装置。
- 前記重み関数は、シグモイド関数または類似の特性を有するその変形関数であり、前記パラメータは、勾配パラメータおよび水平切片パラメータを含むことを特徴とする請求項20に記載の装置。
- 物体認識のためのニューラルネットワークモデルを学習する方法であって、
前記ニューラルネットワークモデルおよび重み関数を有する損失関数を用いて、学習画像セットから抽出された特徴の損失データを決定する損失決定工程と、
前記損失データと更新関数とに基づいて前記ニューラルネットワークモデルのパラメータの更新動作を実行する更新工程と
を備え、
前記更新関数は、前記ニューラルネットワークモデルの前記重み関数を有する前記損失関数に基づいて導出され、前記重み関数および前記損失関数は、同じ方向に特定値間隔で単調に変化する
ことを特徴とする方法。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに、物体認識のためのニューラルネットワークモデルを学習する方法であって、
前記ニューラルネットワークモデルおよび重み関数を有する損失関数を用いて、学習画像セットから抽出された特徴の損失データを決定することと、
前記損失データと更新関数とに基づいて前記ニューラルネットワークモデルのパラメータの更新動作を実行することと
を備え、
前記更新関数は、前記ニューラルネットワークモデルの前記重み関数を有する前記損失関数に基づいて導出され、前記重み関数および前記損失関数は、同じ方向に特定値間隔で単調に変化する
前記方法を実行させる命令が格納されている少なくとも1つの記憶装置と
を備えることを特徴とする装置。 - プロセッサによって実行されると、請求項23に記載の方法を実行させる命令を格納した記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911082558.8A CN112784953B (zh) | 2019-11-07 | 对象识别模型的训练方法及装置 | |
CN201911082558.8 | 2019-11-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021077377A true JP2021077377A (ja) | 2021-05-20 |
Family
ID=75747950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020186750A Pending JP2021077377A (ja) | 2019-11-07 | 2020-11-09 | 物体認識モデルを学習するための方法および装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210241097A1 (ja) |
JP (1) | JP2021077377A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023063167A1 (ja) * | 2021-10-14 | 2023-04-20 | キヤノン株式会社 | 撮像システム、撮像装置、情報処理サーバー、撮像方法、情報処理方法、及び記憶媒体 |
WO2023145632A1 (ja) * | 2022-01-28 | 2023-08-03 | キヤノン株式会社 | 撮像システム、撮像装置、情報処理サーバー、撮像方法、情報処理方法、及びコンピュータプログラム |
WO2023175664A1 (ja) * | 2022-03-14 | 2023-09-21 | 日本電気株式会社 | 学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12045725B1 (en) | 2018-12-05 | 2024-07-23 | Perceive Corporation | Batch normalization for replicated layers of neural network |
US11995555B1 (en) * | 2019-12-17 | 2024-05-28 | Perceive Corporation | Training a neural network with quantized weights |
CN111523513B (zh) * | 2020-05-09 | 2023-08-18 | 深圳市华百安智能技术有限公司 | 通过大数据筛选进行人员入户安全验证的工作方法 |
US11436498B2 (en) * | 2020-06-09 | 2022-09-06 | Toyota Research Institute, Inc. | Neural architecture search system for generating a neural network architecture |
US12093816B1 (en) | 2020-07-07 | 2024-09-17 | Perceive Corporation | Initialization of values for training a neural network with quantized weights |
US20220031208A1 (en) * | 2020-07-29 | 2022-02-03 | Covidien Lp | Machine learning training for medical monitoring systems |
US20220092388A1 (en) * | 2020-09-18 | 2022-03-24 | The Boeing Company | Machine learning network for screening quantum devices |
CN114120381A (zh) * | 2021-11-29 | 2022-03-01 | 广州新科佳都科技有限公司 | 掌静脉特征提取方法、装置、电子设备和介质 |
CN114417987A (zh) * | 2022-01-11 | 2022-04-29 | 支付宝(杭州)信息技术有限公司 | 一种模型训练方法、数据识别方法、装置及设备 |
WO2023234882A1 (en) | 2022-05-31 | 2023-12-07 | Syntonim Bilisim Hizmetleri Ticaret Anonim Sirketi | System and method for lossless synthetic anonymization of the visual data |
TWI815492B (zh) * | 2022-06-06 | 2023-09-11 | 中國鋼鐵股份有限公司 | 鋼帶表面缺陷辨識方法與系統 |
CN115526266B (zh) * | 2022-10-18 | 2023-08-29 | 支付宝(杭州)信息技术有限公司 | 模型训练方法和装置、业务预测方法和装置 |
CN116299219B (zh) * | 2023-05-18 | 2023-08-01 | 西安电子科技大学 | 一种干扰深度特征距离度量联合检测与抑制方法 |
CN116350227B (zh) * | 2023-05-31 | 2023-09-22 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种脑磁图棘波的个体化检测方法、系统及储存介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11734568B2 (en) * | 2018-02-14 | 2023-08-22 | Google Llc | Systems and methods for modification of neural networks based on estimated edge utility |
US20190325342A1 (en) * | 2018-04-20 | 2019-10-24 | Sri International | Embedding multimodal content in a common non-euclidean geometric space |
CN110580487A (zh) * | 2018-06-08 | 2019-12-17 | Oppo广东移动通信有限公司 | 神经网络的训练方法、构建方法、图像处理方法和装置 |
US11468315B2 (en) * | 2018-10-24 | 2022-10-11 | Equifax Inc. | Machine-learning techniques for monotonic neural networks |
CN111444744A (zh) * | 2018-12-29 | 2020-07-24 | 北京市商汤科技开发有限公司 | 活体检测方法、装置以及存储介质 |
US11531879B1 (en) * | 2019-04-25 | 2022-12-20 | Perceive Corporation | Iterative transfer of machine-trained network inputs from validation set to training set |
US11537882B2 (en) * | 2019-10-28 | 2022-12-27 | Samsung Sds Co., Ltd. | Machine learning apparatus and method for object detection |
-
2020
- 2020-11-04 US US17/089,583 patent/US20210241097A1/en active Pending
- 2020-11-09 JP JP2020186750A patent/JP2021077377A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023063167A1 (ja) * | 2021-10-14 | 2023-04-20 | キヤノン株式会社 | 撮像システム、撮像装置、情報処理サーバー、撮像方法、情報処理方法、及び記憶媒体 |
WO2023145632A1 (ja) * | 2022-01-28 | 2023-08-03 | キヤノン株式会社 | 撮像システム、撮像装置、情報処理サーバー、撮像方法、情報処理方法、及びコンピュータプログラム |
WO2023175664A1 (ja) * | 2022-03-14 | 2023-09-21 | 日本電気株式会社 | 学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
US20210241097A1 (en) | 2021-08-05 |
CN112784953A (zh) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021077377A (ja) | 物体認識モデルを学習するための方法および装置 | |
US11023806B2 (en) | Learning apparatus, identifying apparatus, learning and identifying system, and recording medium | |
US11049011B2 (en) | Neural network classifier | |
US10325223B1 (en) | Recurrent machine learning system for lifelong learning | |
US9323337B2 (en) | System and method for gesture recognition | |
TWI466037B (zh) | 用於學習有效率串聯偵測器之多實例修剪 | |
US20210256290A1 (en) | Image feature learning device, image feature learning method, image feature extraction device, image feature extraction method, and program | |
US20160307565A1 (en) | Deep neural support vector machines | |
Zhang et al. | GADAM: genetic-evolutionary ADAM for deep neural network optimization | |
US20100290700A1 (en) | Information processing device and method, learning device and method, programs, and information processing system | |
US9886948B1 (en) | Neural network processing of multiple feature streams using max pooling and restricted connectivity | |
JP2022063250A (ja) | SuperLoss:堅牢なカリキュラム学習のための一般的な損失 | |
JP2017504118A (ja) | ジェスチャを使用するメディアの再生を制御するためのシステムおよび方法 | |
Shi et al. | Deep regression for face alignment | |
CN109919055B (zh) | 一种基于AdaBoost-KNN的动态人脸情感识别方法 | |
US20220180627A1 (en) | Method and apparatus for training an object recognition model | |
JP2012118668A (ja) | パターン分類装置の学習装置及びそのためのコンピュータプログラム | |
CN108985151B (zh) | 手写模型训练方法、手写字识别方法、装置、设备及介质 | |
CN110991326A (zh) | 基于Gabor滤波器和改进极限学习机的步态识别方法及系统 | |
US20240320493A1 (en) | Improved Two-Stage Machine Learning for Imbalanced Datasets | |
US11544563B2 (en) | Data processing method and data processing device | |
JP7350587B2 (ja) | 能動学習装置、能動学習方法及びプログラム | |
KR101514551B1 (ko) | 환경 변화에 강인한 멀티모달 사용자 인식 | |
JP4928193B2 (ja) | 顔画像認識装置及び顔画像認識プログラム | |
US9892726B1 (en) | Class-based discriminative training of speech models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20210103 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210113 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240710 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240919 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241007 |