WO2022250063A1

WO2022250063A1 - 顔認証を行う画像処理装置および画像処理方法

Info

Publication number: WO2022250063A1
Application number: PCT/JP2022/021288
Authority: WO
Inventors: 俊太舘; 泰弘奥野; 日出来空門
Original assignee: キヤノン株式会社
Priority date: 2021-05-26
Filing date: 2022-05-24
Publication date: 2022-12-01
Also published as: US20240087364A1; EP4350611A1

Abstract

画像処理装置は、画像から特徴を抽出する第一の学習済みモデルに基づいて、第一の画像から第一の特徴量を取得する第一の取得手段と、第二の画像の状態に応じて決定された、画像から特徴を抽出する第二の学習済みモデルに基づいて、前記第二の画像から第二の特徴量を取得する第二の取得手段と、前記第一の特徴量と前記第二の特徴量に基づいて、前記第一の画像に含まれる物体と前記第二の画像に含まれる物体が同一か否かを判定する照合手段と、を有し、前記第二の学習済みモデルは、前記第一の学習済みモデルと同じ特徴空間で前記第二の特徴量を学習したモデルである。

Description

顔認証を行う画像処理装置および画像処理方法

　本発明は、画像を用いた顔認証技術に関するものである。

　画像中の人物の顔が、他の画像中の人物と同一人物であるか否かを判定する顔認証技術がある。顔認証では、一般に撮影時の物体の見えの角度、照明、マスクおよび眼鏡といった装着物の有無、などの対象の状態や撮影環境の条件が異なると照合が困難である。そこで、特許文献１では、画像から人物の特徴を抽出する際に、マスクや眼鏡の装着を判定し、その結果に応じて特徴量を抽出する画像領域を動的に変更する。

特許第４９５７０５６号公報米国特許第１０９５６８１９号

Ｄｅｎｇ，　ｅｔ．　Ａｌ．，　ＡｒｃＦａｃｅ：　Ａｄｄｉｔｉｖｅ　Ａｎｇｕｌａｒ　Ｍａｒｇｉｎ　Ｌｏｓｓ　ｆｏｒ　Ｄｅｅｐ　Ｆａｃｅ　Ｒｅｃｏｇｎｉｔｉｏｎ．　Ｉｎ　ＣＶＰＲ，　２０１９Ｆｌｏｒｉａｎ　Ｓｃｈｒｏｆｆ，　Ｄｍｉｔｒｙ　Ｋａｌｅｎｉｃｈｅｎｋｏ，　ａｎｄ　Ｊａｍｅｓ　Ｐｈｉｌｂｉｎ．　Ｆａｃｅｎｅｔ：　Ａ　ｕｎｉｆｉｅｄ　ｅｍｂｅｄｄｉｎｇ　ｆｏｒ　ｆａｃｅ　ｒｅｃｏｇｎｉｔｉｏｎ　ａｎｄ　ｃｌｕｓｔｅｒｉｎｇ．　Ｉｎ　ＣＶＰＲ，　２０１５

　しかしながら、特許文献１では、人物の登録時に装着物等の状態に応じて複数パターンの特徴を保存する必要があった。

　本発明は上記課題に鑑みてなされたものであり、異なる状態である物体同士を照合する場合において登録すべき情報より少なくすることを目的とする。

　上記課題を解決する本発明にかかる画像処理装置は、画像から特徴を抽出する第一の学習済みモデルに基づいて、第一の画像から第一の特徴量を取得する第一の取得手段と、第二の画像の状態に応じて決定された、画像から特徴を抽出する第二の学習済みモデルに基づいて、前記第二の画像から第二の特徴量を取得する第二の取得手段と、前記第一の特徴量と前記第二の特徴量に基づいて、前記第一の画像に含まれる物体と前記第二の画像に含まれる物体が同一か否かを判定する照合手段と、を有し、前記第二の学習済みモデルは、前記第一の学習済みモデルと同じ特徴空間で前記第二の特徴量を学習したモデルである。

　本発明によれば、異なる状態である物体同士を照合する場合において登録すべき情報をより少なくすることが出来る。

画像処理装置の機能構成例を示すブロック図画像処理装置のハードウェア構成例を示すブロック図照合処理の動作の一例を示す模式図照合処理の動作の一例を示す模式図画像処理装置が実行する処理を示すフローチャート画像処理装置が実行する処理を示すフローチャート画像処理装置が実行する処理を示すフローチャート学習処理の動作の一例を示す模式図学習処理の動作の一例を示す模式図画像処理装置が実行する処理を示すフローチャート画像処理装置が実行する処理を示すフローチャート学習処理の一例を示す模式図学習処理の一例を示す模式図学習処理の一例を示す模式図画像処理装置の機能構成例を示すブロック図画像処理装置が実行する処理を示すフローチャート画像処理装置が実行する処理を示すフローチャート画像処理装置が実行する処理を示すフローチャート学習処理の動作の一例を示す模式図画像処理装置の機能構成例を示すブロック図画像処理装置の機能構成例を示すブロック図照合処理の動作の一例を示す模式図画像処理装置が実行する処理を示すフローチャート画像処理装置が実行する処理を示すフローチャート画像処理装置の機能構成例を示すブロック図画像処理装置が実行する処理を示すフローチャート画像処理装置が実行する処理を示すフローチャート画像処理装置が実行する処理を示すフローチャート

　＜実施形態１＞
　本発明の実施形態に係る画像処理装置を、図面を参照しながら説明する。なお、図面間で符号の同じものは同じ動作をするとして重ねての説明を省く。また、この実施の形態に掲載されている構成要素はあくまで例示であり、この発明の範囲をそれらのみに限定する趣旨のものではない。

　従来の顔認証技術では、大きく２つの問題がある。ひとつは、（１）人物の登録時に装着物等の状態に応じて複数パターンの特徴を保存する必要がある。あるいは（２）人物のマスク等の状態を判定した後に登録画像の特徴量変換を行う必要がある。このため、照合の対象となる登録人物が多数の場合、（１）の方法では多くの記憶領域が必要になり、（２）の方法では照合速度に劣る問題がある。本実施形態に係る画像処理装置は、画像中の物体の撮影時の状態に応じ異なる特徴量変換手段で特徴量に変換してから照合を行う。これにより状態に応じて特徴量変換手段を変更しない従来の方法に比べて、照合の精度に優れる。また本発明によれば、異なる変換手段を用いつつ、同一物体であれば出力される特徴量が互いに類似するように学習の調整を行う。このため変換の方法が相異なっても区別することなく照合処理に用いることができる。このため登録画像パターンの特徴量を抽出する従来の方法に比べ、特徴量の記憶に必要なメモリ量が少なく済む。あるいは照合処理の計算コストや速度に優れる。

　図１は、画像処理装置の機能構成例を示す図である。画像処理装置１は、第一の画像取得部１０１、第二の画像取得部１０２、物体パラメータ決定１０３、記憶部１０４、第一の特徴量変換部１０５、第二の特徴量変換部１０６、特徴量照合部１０７、を有する。詳細は後述する。

　図２は、本実施形態における、画像処理装置１のハードウェア構成図である。ＣＰＵ　Ｈ１０１は、ＲＯＭ　Ｈ１０２に格納されている制御プログラムを実行することにより、本装置全体の制御を行う。ＲＡＭ　Ｈ１０３は、各構成要素からの各種データを一時記憶する。また、プログラムを展開し、ＣＰＵ　Ｈ１０１が実行可能な状態にする。記憶部Ｈ１０４は、本実施形態の画像変換を行うための変換パラメータを格納するものである。記憶部Ｈ１０４の媒体としては、ＨＤＤ，フラッシュメモリ、各種光学メディアなどを用いることができる。取得部Ｈ１０５は、キーボード・タッチパネル、ダイヤル等で構成され、ユーザからの入力を受け付けるものであり、被写体の画像を再構成する際の任意視点の設定等に用いる。表示部Ｈ１０６は、液晶ディスプレイ等で構成され、被写体の画像の再構成結果を表示する。また、本装置は通信部Ｈ１０７を介して、撮影装置やその他の装置と通信することができる。

　＜画像照合処理フェーズ＞
　図３Ａ及び図３Ｂは、本実施形態の照合処理の模式図であり、本発明の方法と従来の方法との差異を示している。図３Ａは従来の方法であり、認証処理の対象となる人物を含む入力画像と登録人物を含む登録画像とに対して同一のパラメータで特徴量の変換を行う。この時マスクやサングラスの装着の有無といった大きな見えの変化があると、精度の劣化が生じ易い。一方であらゆる見えの変化に対応させようとすると、特徴量変換部の構成規模が大きくなる課題がある。図３Ｂは本発明の模式図例である。同図では入力画像が入力されると、物体パラメータ決定１０３がマスク装着の有無といった被写体の状態を判定する。その判定結果に応じて特徴量変換部１０６が記憶部１０４から適切な変換パラメータを読み出して特徴量変換を行う。ここで、変換パラメータは、人物の状態や撮影環境に応じて、複数種類学習されている。変換パラメータは被写体の状態に特化して個別に学習がなされているため、マスクやサングラスの装着の有無といった大きな見えの変化に対しても頑健な照合が実現できる。

　なお本実施形態の方法では、上記特徴量は、いずれの変換パラメータで変換されたものであっても、同一物体であれば互いに類似度が高くなるように学習を行う（学習方法については後述する）。このため、特徴量の照合部１０７は特徴量間の内積や角度といった基本的な方法に拠って類似度を算出すればよく、特別な処理を必要としない。このように物体の状態に関わらず一種類の類似度を統一的な照合の尺度とすることができる。例えば、特許文献１の方法では、特徴抽出方法の数と同じ数だけ登録人物の特徴量を記憶しなければならないのに対して、本実施形態の方法では、登録人物に対しては１つの変換パラメータを適用するので、登録すべき特徴量を絞ることができる。

　次に図４を用いて照合の処理の手順を説明する。本実施形態では２枚の人物画像が与えられたときに、同一人物が写っているか、異なる人物かを画像特徴量に基づいて判定することを目的とする。図４のフローチャートに示した処理は、コンピュータである図２のＣＰＵ１０１により記憶装置１０４に格納されているコンピュータプログラムに従って実行される。以下の説明では、各工程（ステップ）について先頭にＳを付けて表記することで、工程（ステップ）の表記を省略する。

　まずＳ１０１では、第一の画像取得部１０１が、認証対象の物体（ここでは人物）を含む一枚目の画像（第一の画像）を取得する。Ｓ１０２では、判定部１０３が、第一の画像が所定の条件を満たすか判定する。所定の条件を満たす場合は、物体の状態や撮影環境が通常の状態（学習された環境に近い状態）であって、それ以外の場合はマスクをしている場合や環境の照度が変わった場合等で通常の状態でないと判定する。ここでは、具体的には、１枚目の画像の人物がマスクを装着しているか否かを判定する。マスクの検出は、テンプレートマッチング等の手法を用いる。所定の条件（マスクをしていない）を満たしている場合はＳ１０３に進む。所定の条件を満たしていない場合（マスクをしている）はＳ１０４に進む。

　Ｓ１０３では、第一の特徴量変換部（第一の特徴取得部）１０５が、通常人物用の特徴量変換のパラメータ（第一のパラメータセット）を読み出して学習済みモデルにセットする。学習済みモデルは、画像から物体の特徴量を取得するためのニューラルネットワークである。第一のパラメータセットが適用された学習済みモデルを第一の学習済みモデルと呼ぶ。Ｓ１０４では、第一の特徴量変換部１０５が、マスク装着人物用の特徴量変換パラメータ（第二のパラメータセット）を読み出して学習済みモデルにセットする。第二のパラメータセットが適用された学習済みモデルを第二の学習済みモデルと呼ぶ。ここで特徴量変換部１０５は、例えば、非特許文献１で公知な畳み込みニューラルネットワークで構成されている。または、特徴量変換部１０５は、特許文献２で公知なＴｒａｎｓｆｏｒｍｅｒネットワーク（トランスフォーマーネットワーク）と呼ばれるディープニューラルネットワーク（以降ＤＮＮと略す）で構成されている。つまり、特徴量変換部１０５は、画像に含まれる人物の特徴を取得するための学習済みモデルであって、画像に含まれる人物の状態に応じて学習されたパラメータセットを用いて特徴量を取得する。（非特許文献１：Ｄｅｎｇ，　ｅｔ．　Ａｌ．，　ＡｒｃＦａｃｅ：　Ａｄｄｉｔｉｖｅ　Ａｎｇｕｌａｒ　Ｍａｒｇｉｎ　Ｌｏｓｓ　ｆｏｒ　Ｄｅｅｐ　Ｆａｃｅ　Ｒｅｃｏｇｎｉｔｉｏｎ．　Ｉｎ　ＣＶＰＲ，　２０１９）。（特許文献２：米国特許第１０９５６８１９号）。ここで特徴量変換のパラメータはニューロンの層数やニューロンの数、結合重み等の各種パラメータである。次にＳ１０５では、第一の特徴量変換部１０５が、第一の学習済みモデルまたは第二の学習済みモデルに基づいて、第一の画像取得部１０１から受け取った第一の画像から特徴量を変換する。

　次にＳ１０６からＳ１１０では、２枚目の画像（第二の画像）に対して前述のＳ１０１からＳ１０５までと同一の処理を行う。つまり、第二の画像に含まれる人物がマスクをしていない場合は、第一のパラメータセットが適用された学習済みモデルを第一の学習済みモデルから特徴量を取得する。第二の画像に含まれる人物がマスクをしている場合は、第二のパラメータセットが適用された第二の学習済みモデルから特徴量を取得する。ただし上記処理を第二の画像取得部１０２と第二の特徴量変換部（第二の特徴取得部）１０６が行う。これにより、１枚目の画像と２枚目の画像がそれぞれ特徴量に変換される。この特徴量をｆ_１，ｆ_２と表す。ｆ_１とｆ_２は非特許文献１と同様に１次元ベクトルとする。（ＤＮＮの全結合層の処理を経て、１次元ベクトルに変換されている。）また第一の特徴量変換部１０５と第二の特徴量変換部１０６が受け取るＤＮＮのパラメータは同一の構成である必要はないが、最終層のニューロンの出力チャンネル数は同一とする。これによりｆ_１とｆ_２の次元の長さは同一に揃っているとする。

　次にＳ１１１では、特徴量照合部１０７が、２つの特徴量の類似度スコアを算出する。すなわち、第一の特徴量と第二の特徴量とに基づいて、第一の画像に含まれる物体と第二の画像に含まれる物体が同一か否かを判定する。第一の特徴量と第二の特徴量との類似度スコアが所定の閾値以上である場合は、２つの画像には同一の物体が含まれる。第一の特徴量と第二の特徴量との類似度スコアが所定の閾値より小さい場合は、２つの画像には異なる物体が含まれる。ここで特徴量間の類似度を図る指標は複数が公知であるが、ここでは非特許文献１の方法と同じく、特徴量ベクトル間の角度を用いる。下記のように類似度のスコアを計算する。

　（数式１）
　類似度スコア（ｆ_１，ｆ_２）　：＝　ｃｏｓ（θ_１２）
　＝＜ｆ_１，ｆ_２＞÷（｜ｆ_１｜・｜ｆ_２｜）

　ただしθ_１２は特徴量ベクトルｆ_１とｆ_２のなす角度であり、＜ｘ，ｙ＞はｘとｙの内積、｜ｘ｜はｘの長さである。特徴量照合部１０７は上記の類似度スコアが所定の閾値以上であれば同一人物、そうでなければ他人、と判定する。以上で照合処理の動作が終了する。なお、第一の画像および第二の画像は、共通の画像取得部、特徴量変換部によって、特徴量を取得する構成でもよい。

　＜学習処理フェーズ＞
　本実施形態の学習フェーズについて説明する。ここでは非特許文献１で公知である＜代表ベクトル手法＞による学習を行う。代表ベクトル手法は、各人物を代表する特徴量ベクトルを設定し、これを併用することで学習効率を上げる顔認証の学習手法である。詳細は非特許文献１を参照されたい。なお、学習処理フェーズにおける画像処理装置２は、図１４に示す。画像変換部２００は、対象の基準となる画像（例えば、装着物がない状態の人物の顔画像）のセットである第一の画像群を、対象の所定の状態を示す画像（例えば、マスクを装着した人物の顔画像）のセットである第二の画像群に変換する。具体的には、マスク等の装着物を示す画像を顔画像に合成することや、ある一定の明るさになるよう画像を変換する。画像取得部２０１は、学習用に用いる画像群を取得する。ここでは、２種類以上のパラメータセットを学習するため、２種類以上の画像群を取得する。特徴量変換部２０２は、画像の状態に応じたパラメータセットと画像から特徴量を抽出する学習モデルとを用いて、画像のそれぞれから特徴量を取得する。学習部２０３は、パラメータセットと、画像から特徴量を抽出する学習モデルを学習する。なお、本実施形態では、第一の学習モデルと第二の学習モデルを交互に学習させる例を述べる。

　本形態の処理フロー手順は図５Ａ、図５Ｂからなる。ここで図５Ａに示した処理を＜一回目の学習処理＞、図５Ｂに示した処理を＜二回目の学習処理＞、と呼ぶ。＜一回目の学習処理＞ではマスク非装着の人物の画像群（第一の画像群）を用いて通常の特徴量変換の学習を行う。＜二回目の学習処理＞ではマスクを装着した人物の画像群（第二の画像群）を用いてマスク人物に特化した学習を行う。なお、図１４の実線部分は＜一回目の学習処理＞の処理で用いる構成であって、破線部分は＜二回目の学習処理＞の処理で用いる構成である。

　＜一回目の学習処理＞の内容は基本的に非特許文献１の方法に準じる。図５Ａに画像処理装置が実行する学習フェーズでの処理を示す。まずＳ２０１では、特徴量変換部２０２が、第一の学習モデルのパラメータセットと代表ベクトルｖ_１～ｖ_ｎを乱数で初期化する。ここで１～ｎは学習画像中に含まれる全人物のＩＤである。各代表ベクトルｖはｄ次元ベクトルである（ｄは所定の値である）。

　次にＳ２０２では、画像取得部２０１が、第一の画像群からランダムに選んだ画像Ｉ_１～Ｉ_ｍを取得する。第一の画像群は、基準となる画像群であって、マスクを装着していない複数の人物画像であり、一人の人物につき１枚以上の画像が含まれる。各画像には人物のＩＤの情報が付されている。

　次にＳ２０３では、特徴量変換部２０２が、第一の学習モデルに上記第一の画像群の各画像Ｉ_ｉを入力することによって第一の学習特徴量ｆ_ｉを取得する。ここで学習特徴量ｆ_ｉはｄ次元のベクトルである。次にＳ２０４では、特徴量変換部２０２が、各人物画像と代表ベクトル間の特徴量の類似度（クラス内類似度）と各人物と他人の代表ベクトルの特徴量の類似度（クラス間類似度）に基づいて、損失値を計算する。

　（数式２）
　クラス内類似度スコア（ｆ_ｉ）＝　類似度スコア（ｆ_ｉ，ｖ_ｙ（ｉ））　，
　クラス間類似度スコア（ｆ_ｉ）＝　Σ_{ｊ≠ｙ（￢ｉ）}　類似度スコア（ｆ_ｉ，ｖ_ｊ）

　ただしここで、ｙ（ｉ）は画像Ｉ_ｉの人物のＩＤの番号である。これを各画像について下記のように総和したものが学習に用いる損失値となる。

　（数式３）
　損失値　＝　Σ_ｉ　クラス間類似度スコア（ｆ_ｉ）　－　λクラス内類似度スコア（ｆ_ｉ）

　λは学習のバランスのための重みパラメータである。なお上記は損失値の一例であり、マージン付の類似度スコアや交差エントロピーを用いる等の様々な公知の方法がある。詳細は非特許文献１等を参照されたい。

　次にＳ２０５とＳ２０６では、学習部２０３が、上記の損失値を小さくするように特徴変換部（第一の学習モデル）の第一のパラメータセットを更新する。Ｓ２０５では、特徴量変換部２０３が、代表ベクトルの値を、Ｓ２０６では第一のパラメータセットを、それぞれ更新する。ＤＮＮで一般的な誤差逆伝搬手法を用いることで損失値を減ずる方向に微小に更新していく。これにより代表ベクトルは各人物の特徴を代表する値としてより機能するように改善され、第一の学習済みモデルは同一人物の特徴量であれば互いに似るように改善されていく。

　以上のような学習処理を学習が収束するか所定の回数まで繰り返す（Ｓ２０７）。次にＳ２０８、および、Ｓ２０９では、記憶部１０４が、第一のパラメータセットおよび代表ベクトルｖ_１～ｖ_ｎの値を記憶して保存する。

　図６は＜一回目の学習処理＞が終了した時点の結果例を模式的に示している。特徴空間６００上に代表ベクトル６０１，６０２，６０３がＩＤ１番～ＩＤ３番の人物を代表する特徴ベクトルとして得られている。さらに各人物の特徴ａ，ｂや特徴ｐ，ｑなどはこれらの代表ベクトルの近傍に位置するように第一のパラメータセットが適切に学習されている（図中に各人物の画像特徴を黒丸で表している）。

　次に＜二回目の学習処理＞を行う。本処理ではマスクを装着した人物の学習用画像群（第二の画像群）を用いて、マスク装着人物用の特徴量変換のＤＮＮ（第二の学習モデル）を学習する。

　図５Ｂを用いて＜二回目の学習処理＞を説明する。準備として、Ｓ３００では、画像変換部２００が、第一の画像群を所定の条件を満たすような第二の画像群に変換する。具体的には、マスクやサングラス等の装着物を合成した画像や、照度の異なる画像を既存の変換方法を用いて生成する。第二の画像群が予め用意できている場合はＳ３００をスキップしてよい。Ｓ３０１では、特徴量変換部２０２が、第一のパラメータセットを取得し、第二の学習モデルのパラメータの初期値とする。次にＳ３０２～Ｓ３０６まで図５Ａの処理フローと同様に第二の学習モデルの第二のパラメータの学習を行う。処理の内容や損失の計算等は先のＳ２０２～Ｓ２０７の処理と同一である。ただしＳ２０５で行った代表ベクトルｖ_１～ｖ_ｎの更新処理は行わず、前段階のＳ２０８で保存した値のまま固定して使う。これにより、マスクを装着した人物の特徴量が、マスクを装着していない人物の代表ベクトルに近づくような学習が行われる。学習が収束したらＳ３０７では、記憶部１０４が、第二のパラメータセットを保存して学習を終了する。なお代表ベクトルの値は学習時にのみ用い、照合動作時には代表ベクトルの値は使用しない。

　図７は＜二回目の学習処理＞の開始時点を模式的に示した図である。代表ベクトル６０１，６０２，６０３の位置は固定され、以降学習による更新はされない。マスクを装着した人物の画像ｃ，画像ｄは、その人物の代表ベクトル６０１から遠いところに位置している。＜二回目の学習処理＞の学習調整を行うことで、特徴ｃ（付番７０２）に矢印を付して示すように、各人物の特徴はそれぞれの代表ベクトルの方向に近づくように、第二のパラメータセットが学習される。これにより、学習の収束時には、マスク非装着人物の画像（図６のａ，ｂ）に対して第一のパラメータセットを用いた特徴量と、マスクを装着した人物の画像（図７のｃ，ｄ）に対して第二のパラメータセットを用いた特徴量とが、特徴空間上で近接するようになる。

　＜学習方法の派生形態＞
　ここで学習の形態のその他の派生的な形態を挙げる。例えば、＜代表ベクトル＞を用いない学習形態も考えられる。この学習の動作処理のフロー例を図８Ａ及び図８Ｂ、模式図として図９Ａ～図９Ｃを用いて説明する。本形態例では通常の人物の画像のセットと、同画像にマスク画像を重畳合成した画像群を用いる。図９Ａに通常の人物の画像ａ，ｂ，ｐ、およびマスクを重畳した画像ａ’，ｂ’，ｐ’の例を示す。本派生の例では画像ａ’，ｂ’，ｐ’の特徴量が画像ａ，ｂ，ｐの特徴量へとそれぞれ近づくように第二のパラメータセットを学習する。

　まず＜一回目の学習処理＞は通常の人物の画像群を用いて、先述の方法に準じた学習処理をＳ４０１～Ｓ４０７で行う。なお先述の方法と異なり代表ベクトルを用いずに下式でクラス内類似度とクラス間類似度から損失値を算出し、第一の学習モデルの第一のパラメータセットを更新する。

　（数式４）
　クラス内類似度スコア（ｆ_ｉ）＝　Σ_{ｙ（ｋ）＝ｙ（ｉ）}　類似度スコア（ｆ_ｉ，ｆ_ｋ）　，
　クラス間類似度スコア（ｆ_ｉ）＝　Σ_{ｙ（ｊ）≠ｙ（￢ｉ）}　類似度スコア（ｆ_ｉ，ｆ_ｊ）　，
　損失値　＝　Σ_ｉ　クラス間類似度スコア（ｆ_ｉ）　－　λクラス内類似度スコア（ｆ_ｉ）

　ここでｆ_ｉ，ｆ_ｋは同一人物の特徴量のペア、ｆ_ｉ，ｆ_ｊは他人同士の特徴量のペアである。＜一回目の学習処理＞の結果を図９Ｂに示す。

　次に、＜二回目の学習処理＞で第二の学習モデルの第二のパラメータセットを学習する。Ｓ５０１では、特徴量変換部２０２が、ＤＮＮのパラメータを初期化し、Ｓ５０２では、画像取得部２０１が、学習画像としてマスクを重畳する前の元画像（第一の学習画像）と合成重畳した画像（第二の学習画像）のペアを取得する。つまり、第一の学習画像と第二の学習画像とは、同一の物体が撮像された画像であって、物体の状態や撮影環境が異なるような画像のペアである。Ｓ５０３とＳ５０４では、特徴量変換部２０２が、第一の学習モデルと元画像（第一の画像）から第一の学習特徴量を、第二の特徴モデルと合成画像（第二の画像）からそれぞれ学習特徴量を取得する。Ｓ５０５では、学習部２０３が、人物のクラス内とクラス間の損失値を算出する。この時、これまでに用いた人物のクラス内とクラス間の類似度スコアの項に加えて下式のように画像ペアの類似度の項を新たに追加する。

　（数式５）
　画像ペア類似度スコア（ｆ_ｘ）＝　類似度スコア（ｆ_ｘ，ｆ_ｘ’）

　（数式６）
　損失値　＝　Σ_ｉ　クラス間類似度スコア（ｆ_ｉ）－　λ_１　クラス内類似度スコア（ｆ_ｉ）
　　　　　　　　　　　　　　　　　　　　　　－　λ_２　画像ペア類似度スコア（ｆ_ｉ）

　なお上式でｆ_ｘは画像ｘの特徴量、ｆ_ｘ’は画像ｘにマスクを重畳合成した画像ｘ’の特徴量である。λ_１，λ_２は各項のバランスをとるパラメータである。

　画像ペアの類似度の項はマスク重畳前の元画像（第一の学習画像）と重畳後の合成画像（第二の学習画像）のそれぞれの学習特徴量同士との距離が所定の値より小さくなるように学習する。特徴量ペアの類似度の項の模式図を図９Ｃに付番９００，９０１，９０２を矢印に付して併せて示す。同図で矢印９０３は従来のクラス内類似度，矢印９０４はクラス間類似度を示している。このように複数の類似度を組み合わせて損失値を定義することで、照合の精度を向上させることが期待できる。Ｓ５０６では上記の損失値を減ずるように第二の学習モデルの第二パラメータセットの学習を行う。ここでは第一の学習モデルの学習を行わないため、この＜二回目の学習処理＞では、マスク非装着の元画像の特徴量は「固定」されて動かず、マスクを装着合成した画像の特徴量が、マスク非装着の特徴量に近づく方向に変化するような学習が行われる。Ｓ５０７で、学習部２０３が、学習が収束したと判断した場合、Ｓ５０８で第二の学習モデルの第二のパラメータセットを保存して学習を終了する。以上が学習方法の派生形態の例になる。

　またさらに別の学習方法の形態例も考えられる。一つの例として、＜一回目の学習処理＞で通常人物用の特徴量変換部を学習する際に、若干数のマスク人物画像含めて学習を行っておくことが考えられる。このようにすると照合時に物体パラメータ決定１０３が判定に失敗して、誤った特徴量変換パラメータが適用されても、大幅な性能劣化を抑止することが期待できる。同様に、マスク装着人物用の特徴量変換部の学習を行う際に、通常人物の画像も混ぜて学習することも考えられる。

　このように学習処理については様々な形態の学習処理が考えられる。ここで説明した複数の学習処理方法を、学習の進度に応じて段階的に適用することも考えられる。このように本発明の画像処理装置を学習するための処理は一つの例に限定されない。

　＜特徴量変換部の構成の派生形態＞
　次にＤＮＮの構成について派生の形態例を挙げる。例えば、通常人物用の特徴量変換のＤＮＮと、マスク装着人物用のＤＮＮで、層数やニューロン数を変更することが考えられる。一般に、マスクをつけた人物や横顔の人物などの照合困難な対象や、見えのバリエーションが豊富な対象は、規模の大きいＤＮＮを用いることで性能が向上しやすい。このため、扱う対象に応じて各ＤＮＮの規模を調整すれば計算コストと照合精度の費用対効果を向上させることができる。

　また別の形態として、通常人物用の特徴量変換のＤＮＮと、マスク装着人物用のＤＮＮで、前段の層は共有し、後段の層のみを人物の状態に応じて部分的に変更するといった形態が考えられる。

　さらに別の形態として、通常人物用の特徴量変換部とマスク装着人物用の特徴量変換部で構成の全く異なる特徴量変換の手段を用いることが考えられる。例えば通常人物用の特徴量変換部に畳み込みニューラルネットワークを用いて、マスク装着人物用に特許文献２で公知なＴｒａｎｓｆｏｒｍｅｒネットワークを用いることが考えられる。また再帰的ニューラルネットワーク等を用いてもよい。損失値に基づいてパラメータを調整することが可能な手段であれば、特徴量変換部にはＤＮＮに限らず広く様々な特徴量変換の手段が適用可能である。

　さらに別の派生の形態として、入力画像を変換して得られる特徴量ｆ_１，ｆ_２は、１次元ベクトルでなくＮ次元行列の形態でもよい。また本実施形態では第一の学習済みモデルと第二の学習済みモデルから得られる特徴ベクトルの長さを同一としたが、長さが異なっていてもよい。異なる長さの特徴量を用いる場合は、Ｅａｒｔｈ　Ｍｏｖｅｒ‘ｓ　Ｄｉｓｔａｎｃｅなどの不等長のベクトル間の類似度を算出する公知の方法を用いればよい。

　以上で実施形態１の説明を終える。

　＜実施形態２＞
　本実施形態はマスクやサングラスの装着の有無による切り替え以外の形態に本発明を適用する。実施形態１では１枚対１枚の画像を入力とし、同一物体の被写体かを判定した。本実施形態では、顔認証によって開閉する自動ドアのゲートのようなユースケースを想定した形態例を説明する。本実施形態の画像処理装置には予めＮ人の人物の特徴量を登録しておく。照合時にはゲートの前のカメラで撮影した１枚の画像を入力画像として入力し、入力された人物が登録されたＮ人のうちいずれかの人物と同一であるか、いずれにも該当しないかを判定する。

　実施形態１ではマスクの有無を判定して特徴量変換部の切り替えを行った。本実施形態では、登録用の顔画像（照明条件が良好な正面顔）と、問い合わせ用の顔画像（カメラの設置状況により照明条件が悪い、顔向きの角度が大きい、等がある）で、撮影条件が大きく異なる。そこで、それぞれに対応する特徴量変換部を学習して用いることとする。

　図１０に画像処理装置３の機能構成例を示す。基本的な構成は図１に準じている。差異としては、新たに特徴登録部１０８および処理モード設定部１０９を備える。照合処理のフローは図１１Ａ及び図１１Ｂである。人物の登録動作を図１１Ａに、入力画像と登録人物との照合動作を図１１Ｂに示している。

　画像処理装置３が登録動作を開始すると、処理モード設定部１０９が、現在の動作モードを登録動作モードに設定する（Ｓ６０１）。Ｓ６０２では、第一の特徴量変換部１０５が、登録動作モード用の変換パラメータセット（第一のパラメータセット）を取得する。取得したパラメータセットを学習済みモデルに適用する。次にＳ６０４では、第一の画像取得部１０１が、一人ずつ全Ｎ人の登録用人物画像を入力し（Ｓ６０４）、特徴量変換部１０５が特徴量に変換し（Ｓ６０５）、特徴登録部１０８に各人物の特徴量として登録する。登録画像としては良好な条件で撮影した人物の正面顔が想定される。そのため第一の特徴量変換部は正面顔を主に用いて予め学習してある。

　次に画像処理装置が照合動作を開始すると、処理モード設定部１０９が、動作モードを照合動作モードに設定する（Ｓ７０１）。まずＳ７０２は、第二の特徴量変換部１０６が、複数の学習済みのパラメータセットのうち、状況に応じて選択されたパラメータセット（第二のパラメータセット）を取得する。第二のパラメータセットは、様々な角度の人物を学習データとして用いて予め学習してある。

　Ｓ７０３では、第二の画像取得部１０２が、撮影した一枚の入力画像を取得する。なおカメラとゲートドアの位置関係の状況によっては画像中のどこに人物が写っているかは事前に決定されない。そのため第二の画像取得部１０２の内部に顔検出器を用意しておき、顔を検出させて顔周辺の画像だけを切り出してもよい。（顔検出器は広く公知のものを使用すればよい。）次に第二の特徴量変換部１０６が入力画像から第二の特徴量を取得する（Ｓ７０４）。Ｓ７０５～Ｓ７０７で特徴量照合部１０７が入力画像の特徴量と各登録済の特徴量との類似度を一つ一つ算出し（Ｓ７０６）、所定値以上に類似度の高い候補人物がいればその結果を出力する（Ｓ７０８）。処理フロー中には図示しないが、実際のユースケースでは以上の結果に基づきゲートドアの開閉動作を行う。具体的には、第二の画像に含まれる人物が登録人物のいずれかと一致する場合は、ゲートを開ける制御を行い、いずれの登録人物とも一致しない場合は、ゲートを開けず、必要に応じて管理者に通知を出力する。認証結果を入室ゲートの近くの表示装置に出力しても良い。

　図１２は本実施形態２の学習処理のフローである。図１３に模式図を併せて示す。ここでは実施形態１の形態と異なり、第一の学習モデルと第二の学習モデルとを同時に学習する点がこれまでとの差異である。本実施形態の学習の方法がこのような方法にも適用可能であることを説明する。なお、ハードウェア構成例は図２、画像処理装置の機能構成例は図１４と同様である。

　図１２のＳ８０１では、画像取得部２０１が、登録画像の撮影条件を模した正面画像だけを集めた第一の学習画像群を取得する。Ｓ８０２では、特徴量変換部２０２が、第一のパラメータセットを用いた第一の学習モデルに基づいて、第一の学習画像群から第一の学習特徴量を取得する。Ｓ８０３では、画像取得部２０１が、第二の学習画像群を取得する。第二の画像群は入力画像を想定した見下ろしなどを含む角度の異なる様々な人物画像を含む。Ｓ８０４では、特徴量変換部２０２が、第二のパラメータセットを用いた第二の学習モデルに基づいて、第二の学習画像群から第二の学習特徴量を取得する。

　Ｓ８０５では、学習部２０３が、それぞれの画像群から画像をランダムに選んで本人ペア（クラス内ペア）と他人ペア（クラス間ペア）を作り、それらの特徴量間の類似度に基づいて損失値を求める。損失には下記のように非特許文献２等で公知なトリプレット損失を用いる。（非特許文献２：Ｆｌｏｒｉａｎ　Ｓｃｈｒｏｆｆ，　Ｄｍｉｔｒｙ　Ｋａｌｅｎｉｃｈｅｎｋｏ，　ａｎｄ　Ｊａｍｅｓ　Ｐｈｉｌｂｉｎ．　Ｆａｃｅｎｅｔ：　Ａ　ｕｎｉｆｉｅｄ　ｅｍｂｅｄｄｉｎｇ　ｆｏｒ　ｆａｃｅ　ｒｅｃｏｇｎｉｔｉｏｎ　ａｎｄ　ｃｌｕｓｔｅｒｉｎｇ．　Ｉｎ　ＣＶＰＲ，　２０１５）。

　（数式７）
　損失値　＝　Σ_ｉ　［クラス間ペア類似度スコア（ｆ_ｉ，ｆ_ｊ）
　－　クラス内ペア類似度スコア（ｆ_ｉ，ｆ_ｋ）＋ｍ　］^＋　，
ただしｍは学習を頑健にするための損失のマージン値の定数、［・］^＋は
　（数式８）
　［ｘ］^＋＝ｘ　　　　Ｉｆ　ｘ＞０
　［ｘ］^＋＝０　　　　Ｏｔｈｅｒｗｉｓｅ
で定義される関数である。

　ここでｆ_ｉは人物画像Ｉ_ｉの特徴量、ｆ_ｊは画像Ｉ_ｉと異なる人物の特徴量、ｆ_ｋはＩ_ｉと同一人物の別の画像Ｉ_ｋの特徴量である。

　なお人物画像Ｉ_ｉは第一の学習セットあるいは第二の学習セットからランダムに選択し、それに応じて人物画像Ｉ_ｊとＩ_ｋをサンプリングしてクラス間ペアとクラス内ペアを作る。この時、人物画像Ｉ_ｉを第一の学習セットから選んだ場合は人物画像Ｉ_ｊとＩ_ｋは第二の学習セットから選び、人物画像Ｉ_ｉを第二の学習セットから選んだ場合は人物画像Ｉ_ｊとＩ_ｋは第一の学習セットから選ぶ。これにより第一の学習モデルと第二の学習モデルを連動させて学習させることができる。

　Ｓ８０６では、学習部２０３が、第一の学習モデルと第二の学習モデルのそれぞれが損失値を減ずる方向に誤差逆伝搬の方法を用いてパラメータの学習更新を行う。この結果、図１３に模式図を示すように、二つの学習モデルのそれぞれの出力に対して類似度に基づく損失値を算出し、それを誤差として再び各特徴変換部に逆伝搬させて学習更新が行われる。

　以上のように第一の学習モデルと第二の学習モデルとで異なる特性の画像を処理させながら、双方で同時に学習を行う例について説明した。なお派生的方法として、初期段階は二つの学習モデルを同時に学習し、後半では第一の特徴量を固定して第二の特徴量のみ学習するといった組み合わせも考えられる。

　＜実施形態３＞
　上述の実施形態では、状態判定と特徴量変換の双方が画像から状態や特徴量を各々求めていた。本実施形態では、画像から中間特徴量を生成し、中間特徴量をもとに状態判定と特徴量変換を行う形態について説明する。ここで、状態とは、例えば、性別、人種や年齢といった人物の属性を含む。本実施形態では、画像に含まれる人物について個人を特定するための特徴量を得る際に、人物の属性に応じて学習モデルの一部のパラメータを異ならせる。一方で、人物の属性（状態）判定及び特徴量変換の処理を実行する学習モデルのレイヤについては共通のものを用いる。これにより、状態判定と特徴量変換の処理が共通化され、速度・メモリの効率が高められる。

　本実施形態では、図１５～図１８を用いて、実施形態１と同様の１枚対１枚の画像を入力とし、同一物体の被写体かを判定する「１対１の画像照合処理」の場合について説明する。次に、図１９～図２０Ａ、図２０Ｂを使用して、予め登録したＮ人の人物から、入力画像に映る人物がいずれかの登録人物と同一であるかを判定する「１対Ｎの画像照合処理」の場合について説明する。なお、ハードウェア構成は実施形態１，２における図２の情報処理装置と同様である。

　＜１対１の画像照合処理＞
　図１５に画像処理装置１５の機能構成例を示す。基本的な構成は図１に準じている。差異としては、第一の特徴量変換部１５０１が中間特徴量を生成することである。これに伴い、中間特徴量をもとにパラメータ決定部１５０２と第二の特徴量変換部１５０４と第三の特徴量変換部１５０５（第三の特徴取得部）が動作するようになっている。パラメータ決定部１５０２は、画像に含まれる物体の状態（人物の場合、属性）に応じて、学習済みモデルのパラメータを決定する。パラメータ決定部１５０２は、画像の中間特徴量に基づいて、画像に含まれる物体の状態を推定する。推定方法は、注目属性の代表的な特徴量との一致度が所定の閾値以上であれば注目属性であると推定する。または、画像から物体の状態に関する特徴量を出力する第三の学習済みモデルに基づいて画像に含まれる物体の状態を推定する。さらに、パラメータ決定部１５０２は、推定された状態（人物の属性）に応じて予め対応付けられた変換パラメータを決定する。つまり、第一の画像に含まれる物体の属性と、第二の画像に含まれる物体の属性が同じ場合は、同一の学習済みモデル（または特徴変換パラメータ）が決定される。第一の画像に含まれる物体の属性と、第二の画像に含まれる物体の属性が異なる場合は、異なる学習済みモデル（またはモデルのパラメータ）が決定される。また、記憶部１５０３は第二の特徴量変換部１５０４と第三の特徴量変換部１５０５に供給する変換パラメータを記憶する。

　図１６は本実施形態の照合処理の模式図である。入力画像は、第一の特徴量変換部１５０１により、物体の状態に関する中間特徴量に変換される。変換された中間特徴量を用いて、パラメータ決定部１５０２によって状態に応じた変換パラメータが求められる。物体の状態は、性別・人種などがある。あるいは、年齢・顔向き・マスク有無等であってもよく、これらに限定されるものではない。記憶部１５０３には、状態Ｙに特化した変換パラメータ１６０２と、全状態に対応する一般用の所定の変換パラメータ１６０１が保存されている。例えば、入力画像に対する状態判定が「状態Ｙ」であれば、状態Ｙ用の変換パラメータ１６０２を第三の特徴量変換部１５０５に設定する。なお、対象の物体が学習済みの特定の状態には当てはまらない場合は、ダミーとして所定のパラメータを与えるようにしてもよい。そして、第三の特徴量変換部１５０５は、パラメータ決定部１５０２によって決定されたパラメータに基づいて、中間特徴量を顔特徴量に変換する。なお、前記実施形態では、特徴量と呼称していたが、中間特徴量と区別しやすくするため顔特徴量と呼称している。次に、登録画像も顔特徴量へと変換を行い、特徴量照合部１０７により入力画像と登録画像の顔特徴量の照合を行う。

　これによって、中間特徴量に変換する部分が共通化されるため、処理スピードを高められる。加えて、パラメータ決定部や第二と第三の特徴変換部のモデルのサイズを小さくできる。また、モデルサイズが小さくなることにより、記憶部１５０３で管理する変換パラメータのサイズも小さくできる上に、変換パラメータの読み出し速度も高速にできる。なお、実施形態１ではパラメータ決定部１５０２は、物体の状態（マスクの装着の有無）をテンプレートマッチング等の方法により求めていた。しかし、パラメータ決定部１５０２も第二と第三の特徴変換部等と同様にディープニューラルネットワークにより構成してもよい。同様に、第一の特徴量変換部もディープニューラルネットワークとして構成してもよい。具体的な状態判定方法は図２１を用いて後述する。

　これによって、特定の状態に特化した変換パラメータを保持することにより、状態の変化に対して頑健な照合が実現できる。加えて、状態判定に失敗したとしても、いずれの変換パラメータも特徴空間を共有しているため、大きく失敗した特徴量変換をしない。そのため、状態判定の性能に対しても頑健な照合が実現できる。また、この性質を高めるために、各変換パラメータは対応する状態以外の画像に対する特徴量変換もある程度はできるように学習しておいても良い。例えば、学習データとして対応する状態の画像に加えて、少量の他状態の画像を含めて学習するなどしても良い。あるいは、他状態のときは損失値を小さくする等の損失関数を変更した学習をしても良い。

　次に図１７を用いて照合の処理の手順を説明する。この処理では、１枚対１枚の画像を入力とし、同一物体の被写体かを判定する。この例では、パラメータ決定部１５０２が求める状態は「性別」として説明する。

　Ｓ１７０１では、第一の画像取得部１０１が、人物を含む１枚目の画像（第一の画像）を取得する。

　Ｓ１７０２では、第一の特徴量変換部１５０１が、第一の画像を中間特徴量（第一の中間特徴量）に変換する。

　Ｓ１７０３では、パラメータ決定部１５０２が、第一の中間特徴量から第一の画像の状態（第一の状態）であるか否か判定する。具体的には、第一の画像に映る人物の性別が男性であるか否か（女性でないか）を判定する。

　Ｓ１７０４では、パラメータ決定部１５０２が、判定結果に基づいて、記憶部１５０３から第一の状態に対応する変換パラメータを読み出して、第二の特徴量変換部１５０４にセットする。

　Ｓ１７０５で、第二の特徴量変換部１５０４が、第一の中間特徴量を変換して顔特徴量（第一の顔特徴量）を得る。ここでは、Ｓ１７０３での判定結果に応じて、第一の状態が男性である場合は、第二の特徴変換部１５０４には、男性の識別が得意なパラメータが設定された学習済みモデルに基づいて、画像から特徴を得ることになる。

　Ｓ１７０６では、第二の画像取得部１０２が、人物を含む２枚目の画像（第二の画像）を取得する。

　Ｓ１７０７では、第一の特徴量変換部１５０１が、第二の画像を中間特徴量（第二の中間特徴量）に変換する。

　Ｓ１７０８では、パラメータ決定部１５０２が、第二の中間特徴量から第二の画像の状態（第二の状態）を判定する。具体的には、第二の画像に映る人物の性別が男性であるか否か（女性でないか）を判定する。

　Ｓ１７０９では、記憶部１５０３から第二の状態に対応する変換パラメータを読み出して、第三の特徴量変換部１５０５にセットする。

　Ｓ１７１０では、第三の特徴量変換部１５０５が第二の中間特徴量を変換して顔特徴量（第二の顔特徴量）を得る。ここで、第一の画像と第二の画像がともに男性の画像であれば、第二の特徴変換部１５０４と第三の特徴変換部１５０５に設定される学習済みモデルのパラメータは同じものになる。一方で、例えば、第一の画像が男性、第二の画像が女性の画像であれば、第二の特徴変換部１５０４と第三の特徴変換部１５０５に設定される学習済みモデルのパラメータは異なる。

　Ｓ１７１１では、特徴量照合部１０７が、Ｓ１７０５とＳ１７１０で得た２つの特徴量の類似度スコアを算出する。類似度スコアを閾値処理することで、２つの画像に映る人物が同一か否かを判定できる。

　次に図１８を用いて、図１７とは異なる照合の処理手順を説明する。パラメータ決定部１５０２によって判定される状態が人種・性別等のとき、異なる状態であれば異なる人物であると判断ができる。この処理では、予め２枚の画像の状態を求めてから、画像に含まれる物体に状態ついての判定結果の確信度高くかつそれぞれの状態が異なると判断される場合には、顔特徴量への変換処理をスキップする。これによって処理を軽減できる。また、２枚とも同じ状態と判定されるときは、変換パラメータの読みだしを１回にまとめることで処理を軽減できる。

　図１８のＳ１８０１～Ｓ１８０３は、図１７のＳ１７０１～Ｓ１７０３と同じで、第一の特徴変換部１５０１が、第一の画像を中間特徴量に変換し、第一の画像の状態（第一の状態）を求める。Ｓ１８０４～Ｓ１８０６も、Ｓ１７０６～Ｓ１７０８と同様に、第一の特徴変換部１５０１が、第二の画像を中間特徴量に変換して第二の画像の状態（第二の状態）を求める。

　Ｓ１８０７では、パラメータ決定部１５０２が、Ｓ１８０３とＳ１８０６で求めた第一の状態と第二の状態が同じであるか否かを判定する。同じときはＳ１８０８へ移り、それ以外はＳ１８１２へ移る。

　Ｓ１８０８では、パラメータ決定部１５０２が、記憶部１５０３から第一の状態に対応する変換パラメータを読みだして、第二の特徴量変換部１５０４と第三の特徴量変換部１５０５にセットする。

　Ｓ１８０９では、第二の特徴量変換部１５０４が、第一の中間特徴量を顔特徴量（第一の顔特徴量）に変換する。

　Ｓ１８１０では、第三の特徴量変換部１５０５が、第二の中間特徴量を顔特徴量（第二の顔特徴量）に変換する。

　Ｓ１８１１では、特徴量照合部１０７が、第一の顔特徴量と第二の顔特徴量の類似度スコアを算出する。

　Ｓ１８１２では、パラメータ決定部１５０２が出力した状態のスコア（状態スコア）が高いか否かを判定する。そのため、パラメータ決定部１５０２は状態とともにスコアを出力するように構成する。例えば、パラメータ決定部１５０２をディープニューラルネットワークとして構成し、状態ごとの出力を得るように構成する。そして、画像の状態に対応する出力が最も大きくなるように学習しておく。状態判定は、出力が最大になる状態として判定すればよく、状態スコアはその出力値を用いればよい。状態スコアを求める具体的な方法は図２１を用いて後述する。予め定めた閾値より状態スコアが大きいならば、Ｓ１８１３に移る。それ以外は、Ｓ１８１４に移る。

　Ｓ１８１３では、特徴量照合部１０７が、第一の画像と第二の画像に対する類似度をゼロとして出力する。つまり、状態判定に対する確信度が所定値以上であって、それぞれの物体の状態（人物の属性）が異なる場合は、同一物体である可能性が低いことが判断できる。

　Ｓ１８１４では、パラメータ決定部１５０２が、記憶部１５０３から第一の状態に対応する変換パラメータを読み出して、第二の特徴量変換部１５０４にセットする。

　Ｓ１８１５では、第二の特徴量変換部１５０４が第一の中間特徴量を変換して顔特徴量（第一の顔特徴量）を得る。

　Ｓ１８１６では、記憶部１５０３から第二の状態に対応する変換パラメータを読み出して、第三の特徴量変換部１５０５にセットする。

　Ｓ１８１７では、第三の特徴量変換部１５０５が第二の中間特徴量を変換して顔特徴量（第二の顔特徴量）を得る。

　Ｓ１８１８では、特徴量照合部１０７が、Ｓ１８１５とＳ１８１７で得た２つの特徴量の類似度スコアを算出する。上述した実施形態と同様に、類似度スコアが所定の閾値以上であれば、２つの物体は同一と判定され、閾値未満であれば異なる物体であると判定される。

　＜１対Ｎの画像照合処理＞
　図１９に画像処理装置１９の機能構成例を示す。基本的な構成は図１５に準じている。差異としては、処理モード設定部１９０１と特徴量登録部１９０２を備える。照合処理のフローは図２０Ａ及び図２０Ｂである。人物の登録動作を図２０Ａに、入力画像と登録人物との照合動作を図２０Ｂに示す。

　パラメータ決定部１５０２は、登録動作では、予め取得した登録人物の人種の状態に応じた変換パラメータを決定する。これは、登録時には、登録人物の人種を正確に知ることができるため、画像から推定する必要がないためである。具体的な処理の流れについて、図２０Ａを用いて説明する。

　Ｓ２００１ａでは、処理モード設定部１０９が、現在の動作モードを登録動作モードに設定する。

　Ｓ２００２ａでは、処理モード設定部１０９が、登録人物の人種の状態を取得する。例えば、予め登録人物ごとの人種の状態のリストをＨＤＤ等の記憶部Ｈ１０４に記憶しておき、それを取得する。あるいは、キーボードなどの取得部Ｈ１０５から登録する人物の人種の状態を取得する。

　Ｓ２００３ａは、登録人物を順に処理するためのループの始端である。登録人物には１から順に番号が割り当てられているものとする。登録人物を変数ｉを用いて参照するため、はじめにｉを１に初期化する。さらに、ｉが登録人物数以下であるときＳ２００５ａへ移り、これを満たさないときループを抜けて処理を終了する。

　Ｓ２００４ａでは、パラメータ決定部１５０２が、処理モード設定部１０９が取得した人物ｉの状態に基づいて、記憶部１５０３から対応する変換パラメータを読みだし、第二の特徴量変換部１５０４にセットする。

　Ｓ２００５ａでは、第一の画像取得部１０１が人物ｉの登録画像を取得する。

　Ｓ２００６ａでは、第一の特徴量変換部１５０１が、登録画像を中間特徴量に変換する。

　Ｓ２００７ａでは、第二の特徴量変換部１５０４が中間特徴量を変換して顔特徴量を得る。

　Ｓ２００８ａでは、特徴登録部１９０２に人物ｉの顔特徴量として登録する。加えて、人物ｉの人種の状態も登録する。

　Ｓ２００９ａは、登録人物のループの終端であり、ｉに１を加算してＳ２００３ａへ戻る。

　次に、入力画像と登録人物の照合動作について図２０Ｂを用いて説明する。照合動作のときは、入力画像の人種等の状態は不明であるため、画像から推定した状態に基づいて処理を行う。また、人種・性別等の状態のとき、異なる状態であれば異なる人物であると判断ができる。そこで、入力画像の人種等の状態を確信度高く推定できたときは、照合する登録人物を絞り込むことで処理速度を向上させる。具体的な処理の流れについて、図２０Ｂを用いて説明する。なお、この例では、パラメータ決定部１５０２が求める状態は「人種」である。

　Ｓ２００１ｂでは、処理モード設定部１０９が、動作モードを照合動作モードに設定する。これにより処理モード設定部１０９から状態を取得しないようになる。

　Ｓ２００２ｂでは、第二の画像取得部１０２が、問い合わせ画像（第二の画像）を取得する。

　Ｓ２００３ｂでは、第一の特徴量変換部１５０１が、第二の画像を中間特徴量（第二の中間特徴量）に変換する。

　Ｓ２００４ｂでは、パラメータ決定部１５０２が、第二の中間特徴量から第二の画像の状態（第二の状態）を判定する。具体的には、第二の画像に映る人物の人種を判定する。

　Ｓ２００５ｂでは、パラメータ決定部１５０２が、第二の状態に応じて、記憶部１５０３から第二の状態に対応する変換パラメータを決定する。第三の特徴量変換部１５０５には、決定された変換パラメータを（第三の）学習済みモデルに設定する。

　Ｓ２００６ｂでは、第三の特徴量変換部１５０５が、第二の中間特徴量を変換して顔特徴量（第二の顔特徴量）を得る。

　Ｓ２００７ｂでは、パラメータ決定部１５０２が出力した状態のスコア（状態スコア）が高いか否かを判定する。予め定めた閾値より状態スコアが大きいならば、Ｓ２００８ｂに移る。それ以外は、Ｓ２００９ｂに移る。

　Ｓ２００８ｂでは、特徴量照合部１０７は、第二の状態と同じ状態である登録人物を、候補人物として絞り込む。つまり、本実施形態では、同じ人種の登録人物に絞り込む。

　Ｓ２００９ｂは、登録人物を順に処理するためのループの始端である。Ｓ２００８ｂにより登録人物が絞り込まれている場合は、特徴量照合部１０７は、絞り込まれた登録人物を順に照合処理する。そのため、変数ｉで順に登録人物を参照するため、はじめに処理対象となる登録人物に１から順に番号を割り当て、ｉを１に初期化する。さらに、ｉが処理対象の登録人物数以下であるときＳ２０１０ｂへ移り、これを満たさないときループを抜けてＳ２０１２ｂへ移る。

　Ｓ２０１０ｂでは、特徴量照合部１０７は、特徴登録部１９０２に記憶された人物ｉの顔特徴量を得る。そして、特徴量照合部１０７が、Ｓ２００６ｂで得た第二の顔特徴量と、人物ｉの顔特徴量の類似度スコアを算出する。

　Ｓ２０１１ｂは、登録人物のループの終端であり、ｉに１を加算してＳ２００９ｂへ戻る。

　Ｓ２０１２ｂでは、出力部１９００が、Ｓ２０１０ｂで求めた類似度スコアが、所定値以上の人物がいればその結果を出力する。なお、出力部１９００は、特徴量照合部１０７における照合結果、つまり顔認証の結果を表示装置等に出力する。

　＜状態判定方法の例＞
　第一の特徴量変換部１５０１とパラメータ決定部１５０２により画像から状態を求める方法について述べる。第一の特徴量変換部１５０１とパラメータ決定部１５０２を、前述のＤＮＮを使用して構成する。パラメータ決定部１５０２はニューラルネットワークの出力数を状態数と同じにして、Ｓｏｆｔｍａｘ関数を通して出力を得るように構成する。

　次に、画像から状態を求められるよう学習する。本実施形態では、パラメータ決定部１５０２のＳｏｆｔｍａｘ関数の出力の各次元に状態のラベルを対応付けて、画像の対応する状態が１をとり、それ以外が０をとるように学習をする。学習フローについて図２１を用いて説明する。

　Ｓ２１０１では、第一の特徴量変換部１５０１で使用するパラメータセットを乱数などで初期化する。あるいは、前述の図５Ａ等に記載の方法で、顔認証を学習して獲得したパラメータセットで初期化するなどしても良い。

　Ｓ２１０２では、パラメータ決定部１５０２で使用するパラメータセットを乱数などで初期化する。

　Ｓ２１０３では、状態のラベルが付与された顔画像群を取得する。例えば、状態が人種であれば、人種のラベルが付与された顔画像群が取得される。

　Ｓ２１０４では、パラメータ決定部１５０２で状態のラベルを推定する。画像を入力として、ＤＮＮをフォワード処理して、Ｓｏｆｔｍａｘ関数の値を得ることを行う。

　Ｓ２０１５では、交差エントロピーとして知られる数式９に基づいて損失を計算する。

　（数式９）
　損失値　＝　－Σｐ（ｉ）ｌｏｇ（ｑ（ｉ））

　ここで、ｐ（ｉ）は、ｉ番目の状態値が正解のときに１をとり、それ以外は０をとる正解ラベルの情報を示す。ｑ（ｉ）は、ｉ番目の状態に対応するＳｏｆｔｍａｘ関数の値を示す。

　Ｓ２０１６では、損失値が小さくなるように第一の特徴量変換部１５０１とパラメータ決定部１５０２のパラメータセットを更新する。ＤＮＮで一般的な誤差逆伝搬手法を用いることで損失値を減ずる方向に微小に更新していく。

　Ｓ２１０７では、学習が終了したか否かを判定する。例えば、損失値の減少幅が小さくなったとき、学習が終了したと判定する。あるいは、予め定めた回数だけ学習が繰り返された場合に学習が終了したと判断するなどしてもよい。学習が終了した場合は、Ｓ２１０８へ移り。それ以外はＳ２１０３へ戻る。

　Ｓ２１０８では、第一の特徴量変換部１５０１のパラメータセットを記憶する。

　Ｓ２１０９では、パラメータ決定部１５０２のパラメータセットを記憶する。

　これによって得られた第一の特徴量変換部１５０１とパラメータ決定部１５０２のパラメータセットを用いることで、画像に対する状態を求めることができるようになる。具体的には、画像に対するＳｏｆｔｍａｘ関数の値を得て、最も大きな値をとる次元に対応する状態に該当すると判定する。なお、このとき得られるＳｏｆｔｍａｘ関数の値は、より確信度が高いときはより大きな値をとるようになるため、Ｓｏｆｔｍａｘ関数の値を状態スコアとして使用することもできる。

　以上によって、状態判定と特徴量変換の中間特徴量の算出までを共通化することで、処理速度が高速化される。加えて、状態判定と特徴量変換のモデルサイズも小さくでき、メモリ使用量も削減できる。また、記憶部１５０３で管理する変換パラメータも小さくできるため、変換パラメータの読み出し速度を高速化できる。

　加えて、人種・年齢等の状態の異なりが、人物の異なりと一致する場合においては、確信度高く状態が異なると判断されるとき、特徴量変換をスキップして類似度を低く見積もる。これにより、処理の高速化を図れる。なお、状態の異なりに基づき類似度を低く見積もることは、状態判定と特徴量変換の中間特徴量の算出までを共通化しない場合にも適用可能である。つまり、実施形態１や実施形態２のように、状態判定と特徴量変換がともに画像を入力として行われる場合においても適用可能である。また、状態としては、人物が生涯で変化しにくい属性を設定すればよい。あるいは、運用期間が短いのであれば、年齢・髭の有無・髪型等の見た目の属性を使用してもよい。また、人種の代わりに肌の色等の代替属性を使用してもよい。そのため、使用する状態は、人種や性別に限定されるものではない。

　＜その他派生の形態＞
　本明細書中では人物の照合を中心に説明を行ったが、本発明は同一性の照合や類似度の算出に関する様々なタスクに適応可能である。例えば特定のカテゴリの物体を検出するタスク、動画中から特定形状の意匠を抽出する画像問い合わせタスク、類似画像検索、などへの適用がある。

　条件判定部１０３や処理モード設定部１０９が判定する状態は、入力画像の画質、物体の見えの角度、物体のサイズ、物体の見えの明瞭さ、照明の明暗、物体の遮蔽、物体の付属物や装着物の有無、或いは物体のサブタイプ、或いはそれらの組合せを含む。

　またここでは物体の状態に応じて２種類のパラメータを使い分けたが、これを３種類以上用いて切り替える形態も考えられる。

　またここでは画像認識の実施形態を中心に例示したが、画像に限らず、音声信号、音楽といった情報の照合や類似検索も考えられる。特許文献２のようなテキストを特徴量に変換する手法を用いることで、書籍やＳＮＳのログ、帳票といったテキスト情報について、意味内容の類似した文書を照合・検索するといったタスクに応用することも考えられる。なお書籍やＳＮＳ等はそれぞれのカテゴリに固有な語彙やフォーマットが存在するので、各文書のカテゴリごとに特徴量変換手段を使い分けることで性能が上がる余地がある。

　また、実施形態では同一物体か否かの照合を主に説明したが、物体間の類似度の値を回帰推定することも可能である。そのためには例えば下式のように物体ｉと物体ｊのペア間の真の類似度を教師値として与え、推定類似度スコアとの二乗誤差で損失値を定義する。

　（数式１０）
　損失値　＝　Σ_ｉΣ_ｊ　（真のペア類似度スコア（ｆ_ｉ，ｆ_ｊ）
　－　ペア類似度スコア（ｆ_ｉ，ｆ_ｊ））^２

　この損失値を減ずるように特徴量変換部１０５と特徴量変換部１０６のパラメータをそれぞれ学習すればよい。ただしここでｆ_ｉ，ｆ_ｊはそれぞれ第一の学習済みモデルと第二の学習済みモデルで変換された画像の特徴量のペアである。以上のように本発明が様々なタスクに適用可能であることを示した。

　本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、データ通信用のネットワーク又は各種記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。また、そのプログラムをコンピュータが読み取り可能な記録媒体に記録して提供してもよい。

　本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために、以下の請求項を添付する。

　本願は、２０２１年５月２６日提出の日本国特許出願特願２０２１－０８８２２７と２０２１年１１月２６日提出の日本国特許出願特願２０２１－１９２４４８を基礎として優先権を主張するものであり、その記載内容の全てをここに援用する。

Claims

　画像から特徴を抽出する第一の学習済みモデルに基づいて、第一の画像から第一の特徴量を取得する第一の取得手段と
　第二の画像の状態に応じて決定された、画像から特徴を抽出する第二の学習済みモデルに基づいて、前記第二の画像から第二の特徴量を取得する第二の取得手段と
　前記第一の特徴量と前記第二の特徴量に基づいて、前記第一の画像に含まれる物体と前記第二の画像に含まれる物体が同一か否かを判定する照合手段と
　を有し、
　前記第二の学習済みモデルは、前記第一の学習済みモデルと同じ特徴空間で前記第二の特徴量を学習したモデルであることを特徴とすることを特徴とする画像処理装置。
　前記第二の画像が所定の条件を満たすか否かを判定する判定手段を更に有し、
　前記第二の取得手段は、前記所定の条件の判定の結果に応じて前記第二の学習済みモデルを決定することを特徴とする請求項１に記載の画像処理装置。
　前記判定手段は、入力画像の画質、物体の見えの角度、物体のサイズ、物体の見えの明瞭さ、照明の明暗、物体の遮蔽、物体の付属物や装着物の有無、物体のサブタイプ、のうち少なくとも１つ以上の状態を検出するための前記所定の条件を判定することを特徴とする請求項２に記載の画像処理装置。
　前記第二の取得手段は、前記第二の画像に含まれる人物がマスクをしている場合に、前記第一の学習済みモデルとは異なる学習済みモデルを前記第二の学習済みモデルとして決定することを特徴とする請求項２または３に記載の画像処理装置。
　前記第一の学習済みモデルに基づいて抽出された特徴量と、前記第二の学習済みモデルに基づいて抽出された特徴量と、の類似度が所定の値より大きくなるように前記第一の学習済みモデルおよび前記第二の学習済みモデルを学習する学習手段を更に有することを特徴とする請求項１乃至４のいずれか１項に記載の画像処理装置。
　前記学習手段は、状態が異なる複数の画像群に基づいて、前記第一の学習済みモデルおよび前記第二の学習済みモデルのそれぞれを学習することを特徴とする請求項５に記載の画像処理装置。
　前記複数の画像群は、基準となる第一の画像群と、前記基準となる画像群を変換した第二の画像群と、を含み、
　前記学習手段は、前記第一の画像群に含まれる画像と、前記第二の画像群に含まれる画像とが同一の物体である場合に、前記第一の画像群に含まれる画像の特徴量と、前記第二の画像群に含まれる画像の特徴量とが類似するように学習すること特徴とする請求項６に記載の画像処理装置。
　前記第二の画像群は、前記第一の画像群に装着物を合成した画像群であることを特徴とする請求項７に記載の画像処理装置。
　前記第一の学習済みモデルおよび前記第二の学習済みモデルは、それぞれが複数の層からなるニューラルネットワークからなることを特徴とする請求項５乃至８のいずれか１項に記載の画像処理装置。
　前記第一の学習済みモデルおよび前記第二の学習済みモデルは、一部の層のパラメータを共有する請求項９に記載の画像処理装置。
　前記第一の学習済みモデルおよび前記第二の学習済みモデルは、トランスフォーマーネットワークであることを特徴とする請求項９または１０に記載の画像処理装置。
　前記学習手段は、前記第一の学習済みモデルを学習した後に、前記第一の学習済みモデルに基づいて抽出される特徴量に基づいて前記第二の学習済みモデルを学習することを特徴とする請求項５乃至１１のいずれか１項に記載の画像処理装置。
　前記第一の学習済みモデルおよび前記第二の学習済みモデルは、同時あるいは交互にパラメータの学習を行うことを特徴とする請求項５乃至１１のいずれか１項に記載の画像処理装置。
　画像から物体の状態に関する特徴量を出力する第三の学習済みモデルに基づいて、前記第一の画像の中間特徴量を取得する第三の取得手段と、
　前記取得された記第一の画像の中間特徴量に基づいて、前記第一の学習済みモデルのパラメータを決定するパラメータ決定手段と、を更に有することを特徴とする請求項１乃至１３のいずれか１項に記載の画像処理装置。
　前記第三の取得手段は、更に前記第二の画像の中間特徴量を取得し、
　前記パラメータ決定手段は、前記取得された記第二の画像の中間特徴量に基づいて、前記第二の学習済みモデルのパラメータを決定し、
　前記第二の学習済みモデルのパラメータは、前記第一の画像の中間特徴量が示す前記物体の属性と前記取得された記第二の画像の中間特徴量が示す前記物体の属性とが異なる場合は、前記第一の学習済みモデルのパラメータとは異なるパラメータに決定されることを特徴とする請求項１４に記載の画像処理装置。
　前記第一の取得手段は、前記第三の取得手段により取得される第一の画像の中間特徴量を使用して第一の特徴量を取得することを特徴とする請求項１４に記載の画像処理装置。
　前記第二の取得手段は、前記第三の取得手段により取得される第二の画像の中間特徴量を使用して第二の特徴量を取得することを特徴とする請求項１５に記載の画像処理装置。
　画像から特徴を抽出する第一の学習済みモデルに基づいて、第一の画像から第一の特徴量を取得する第一の取得工程と、
　第二の画像の状態に応じて決定された、画像から特徴を抽出する第二の学習済みモデルに基づいて、前記第二の画像から第二の特徴量を取得する第二の取得工程と、
　前記第一の特徴量と前記第二の特徴量に基づいて、前記第一の画像に含まれる物体と前記第二の画像に含まれる物体が同一か否かを判定する照合工程と、
　を有し、
　前記第二の学習済みモデルは、前記第一の学習済みモデルと同じ特徴空間で前記第二の特徴量を学習したモデルであることを特徴とする画像処理方法。
　画像から特徴を抽出する第一の学習済みモデルに基づいて、第一の画像から第一の特徴量を取得する第一の取得工程と、
　第二の画像の状態に応じて決定された、画像から特徴を抽出する第二の学習済みモデルに基づいて、前記第二の画像から第二の特徴量を取得する第二の取得工程と、
　前記第一の特徴量と前記第二の特徴量に基づいて、前記第一の画像に含まれる物体と前記第二の画像に含まれる物体が同一か否かを判定する照合工程と、
　をコンピュータに実行させるためのプログラムであって、
　前記第二の学習済みモデルは、前記第一の学習済みモデルと同じ特徴空間で前記第二の特徴量を学習したモデルであることを特徴とするプログラム。