JP7263216B2

JP7263216B2 - ワッサースタイン距離を使用する物体形状回帰

Info

Publication number: JP7263216B2
Application number: JP2019212083A
Authority: JP
Inventors: ジン・サン; スリチャラン・カルーア・パリ・クマール; ラジャ・バーラ
Original assignee: パロアルトリサーチセンターインコーポレイテッド
Priority date: 2018-12-17
Filing date: 2019-11-25
Publication date: 2023-04-24
Anticipated expiration: 2039-11-25
Also published as: EP3671555A1; JP2020098587A; US20200193607A1; US10943352B2

Description

本開示は、概して、コンピュータビジョンシステムに関する。より具体的には、本開示は、ニューラルネットワークフレームワークを使用して物体形状を予測するシステム及び方法に関する。

物体検出（例えば、画像内の顔、建造物、車などの検出）は、コンピュータビジョンにおける基本的な問題である。物体検出における現在のアプローチは、多くの場合、物体の粗い軸平行境界ボックス（ａｘｉｓ－ａｌｉｇｎｅｄｂｏｕｎｄｉｎｇｂｏｘｅｓ、ＡＡＢＢ）を生成することを伴う。例えば、多くの顔検出アプリケーションは、検出された顔の周囲に矩形のボックスを作成する。そのようなボックスは、典型的には、物体の形状に適合せず、したがって、細粒シーン分析では限定された有用性を有する。一方、物体輪郭検出（例えば、物体の詳細な外形を検出すること）は、物体に関連付けられたより正確な形状情報を提供することができる。実際に、物体境界を正確に見つける能力は、分割、認識、及び場面理解を含む多くの視覚タスクに対して、広範囲に及ぶ影響を有し得る。

Ｐｏｌｙｇｏｎ－ＲＮＮなどの現在のアプローチは、再帰型ニューラルネットワーク（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ、ＲＮＮ）を使用して、物体の外形又は輪郭に沿う点を（多角形の一部として）予測することより、物体の境界又は輪郭を検出及び追跡する。より具体的には、物体の外形上の現在の予測点の画像パッチが与えられると、Ｐｏｌｙｇｏｎ－ＲＮＮは、次の予測点の２Ｄ位置を回帰することができる。しかしながら、Ｐｏｌｙｇｏｎ－ＲＮＮアプローチは、それ自身の欠点を有する。Ｐｏｌｙｇｏｎ－ＲＮＮは、多くの場合、外形上の点の数に対応する複数の精選されたハイパーパラメータを必要とし、また第１の点の特別な処理が必要である。

一実施形態は、画像内の物体の外形を検出するためのシステムを提供することができる。動作中、システムは、少なくとも１つの物体を含む画像を受信し、ランダムノイズ信号を生成し、受信した画像及びランダムノイズ信号を形状回帰器モジュールに提供し、形状回帰器モジュールは、形状回帰モデルを適用して、受信した画像内の物体の形状外形を予測する。

この実施形態の変形例では、システムは、形状回帰モデルを更に訓練する。訓練中、システムは、訓練画像のセットを取得する。それぞれの訓練画像はアノテーションされ、かつ少なくとも１つの物体を含んでおり、アノテーションされた訓練画像は、真の形状外形のセットに関連付けられている。システムは、訓練画像及びランダムノイズ信号を形状回帰モデルに入力して、推定された形状外形を取得し、推定された形状外形及び真の形状外形を、推定された形状外形及び真の形状外形の確率分布間のワッサースタイン距離を計算する識別器モジュールに提供し、識別器モジュールによって計算されたワッサースタイン距離に基づいて形状回帰モデルのパラメータを最適化する。

更なる変形例では、形状回帰モデルを最適化することは、計算されたワッサースタイン距離が低減されるように形状回帰モデルのパラメータを更新することを含むことができる。

更なる変形例では、形状回帰器モジュールは第１のニューラルネットワークとして実装され、識別器モジュールは第２のニューラルネットワークとして実装される。

更なる変形例では、第１及び第２のニューラルネットワークは共に、敵対的生成ネットワーク（ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋ、ＧＡＮ）を形成する。

この実施形態の変形例では、形状外形は、物体の境界に沿ったデカルトｘ－ｙ座標に関して定義される。

この実施形態の変形例では、形状外形は、物体の境界に属する画像ピクセルの確率に関して定義される。

一実施形態は、画像内の物体の外形を検出するための装置を提供することができる。装置は、少なくとも１つの物体を含む画像を受信するように構成された受信モジュールと、ランダムノイズ信号を生成するように構成されたノイズ生成器と、画像及びランダムノイズ信号を受信し、形状回帰モデルを適用して、受信した画像内の物体の形状外形を予測するように構成された形状回帰器モジュールと、を含むことができる。

例示的な敵対的生成ネットワーク（ＧＡＮ）アーキテクチャ（従来技術）を示す。本発明の一実施形態による、ＧＡＮ生成器の例示的な早期のイテレーション出力を示す。本発明の一実施形態による、例示的な生成器のアーキテクチャを示す。本発明の一実施形態による、例示的な批評器のアーキテクチャを示す。本発明の一実施形態による、例示的な輪郭検出ワッサースタインＧＡＮ（ＷａｓｓｅｒｓｔｅｉｎＧＡＮ、Ｗ－ＧＡＮ）のアーキテクチャを示す。本発明の一実施形態による、複数回のイテレーション後の輪郭検出ワッサースタインＧＡＮ（Ｗ－ＧＡＮ）生成器の出力を示す。本発明の一実施形態による、輪郭検出ワッサースタインＧＡＮ（Ｗ－ＧＡＮ）の例示的な訓練プロセスを示すフロー図を提示する。本発明の一実施形態による、例示的な形状検出プロセスを示すフロー図を提示する。本発明の一実施形態による、物体形状検出システムを容易にする例示的なコンピュータシステムを示す。本発明の一実施形態による、物体輪郭検出システムを容易にする例示的な装置を示す。

概要
本明細書に記載される実施形態は、画像内の物体の境界を自動的に検出する問題を解決する。より具体的には、システムは、物体境界を検出するように修正されているＷ－ＧＡＮ（ワッサースタイン敵対的生成ネットワーク）に基づく。Ｗ－ＧＡＮは、画像の推測された境界と、画像の境界のグラウンドトゥルース（すなわち、ヒューマンアノテーション）との間のワッサースタイン距離を最小化することによって訓練され得る。Ｗ－ＧＡＮフレームワークは、形状回帰器（すなわち、生成器）及びＷスコア計算器（すなわち、識別器）を含むことができる。形状回帰器は、画像、及びランダムノイズのセットを入力に取り、予測された境界点を出力することができる。識別器は、予測された境界点とグラウンドトゥルース境界点との間のワッサースタイン距離を計算することができる。形状回帰器は、ワッサースタイン距離を最小化することによって訓練され得る。

ワッサースタインＧＡＮ
敵対的生成ネットワーク（ＧＡＮ）は、ゼロサムゲームフレームワークにおいて互いに競合する２つのニューラルネットワークからなるシステムによって実装される、教師なし機械学習で使用される人工知能アルゴリズムの一クラスである。近年、ＧＡＮは、合成だがリアルな画像など、合成データを生成する手段として人気が高まってきている。これを行うために、ＧＡＮは、典型的には、生成器ニューラルネットワーク（生成器と呼ばれる）と、識別器ニューラルネットワーク（識別器と呼ばれる）とを含む。

動作中、生成器は、潜在空間から特定の対象となるデータ分布にマッピングすることを学習し、一方、識別器は、真のデータ分布からのインスタンスと生成器によって生成された候補との間の違いを識別する。生成器の訓練目的は、真のデータ分布から生じたかのように見える新規な合成されたインスタンスを生成することによって、識別器の誤り率を増加させる（すなわち、識別器ネットワークを「騙す」）ことである。一例として画像生成を使用すると、生成器は、合成画像サンプルを出力として生成し、これらの画像が実在画像であると識別器に「確信させる」ことによって合成画像サンプルの品質を改善しようとし得る。識別器は、実在画像サンプルと生成された合成画像サンプルとを見分けることを課せられる。識別器は、画像が全体として実在であるか否かを判定する。結果として、複数回のイテレーションにより、生成器は、実在画像の統計的特性を組み入れた合成画像を生成することを学習する。

図１は、例示的な敵対的生成ネットワーク（ＧＡＮ）アーキテクチャ（従来技術）を示す。ＧＡＮ１００は、生成器１０２及び識別器１０４を含むことができる。生成器１０２は、正規分布又は一様分布を使用するノイズをサンプリングし、ディープネットワークを使用して出力（例えば、画像）を作成することができる。生成器１０２の出力は、識別器１０４に送信され得、識別器１０４は、その入力（すなわち、生成器１０２の出力）を訓練サンプルと比較することによってそれが実在するものであるか、又は生成されたものであるかを判定する。識別器１０４は、その入力が実在するものである可能性を推定するための値（例えば、Ｄ（ｘ））を出力することができる。

ワッサースタイン距離（アースムーバーの距離（ｅａｒｔｈｍｏｖｅｒ’ｓｄｉｓｔａｎｃｅ）、又はＥＭＤとも呼ばれる）は、確率分布間に定義される距離関数である。ワッサースタインＧＡＮ（Ｗ－ＧＡＮ）は、ワッサースタイン距離をメトリック（例えば、損失関数）として使用するＧＡＮを指す。より具体的には、識別器は、ワッサースタイン距離を使用して、生成器によって出力された画像の品質を判断し、合成画像の高品質化を促す。生成器の訓練目的は、生成された候補画像と真の画像（グラウンドトゥルースと呼ばれることもある）との間のワッサースタイン距離を最小化することである。分布Ｐ_ｒと分布Ｐ_ｇとの間のワッサースタイン距離は、

として定義することができ、式中、

は、周辺がそれぞれＰ_ｒ及びＰ_ｇである全ての同時分布γ（ｘ，ｙ）のセットを示す。直感的には、γ（ｘ，ｙ）は、分布Ｐ_ｒを分布Ｐ_ｇに変換するために、どのくらいの「量」がｘからｙに移送されなければならないかを示す。確率分布の単純なシーケンスがワッサースタイン距離下で収束することは証明され得る。更に、ワッサースタイン距離が連続的かつ微分可能であり、したがって、訓練中に連続的に滑らかな勾配を提供可能であることは証明され得る。そのような特性は、識別器を訓練する際に有益であり得る。より具体的には、Ｗ－ＧＡＮにおいて、識別器は、最適になるまで訓練され得る。

物体形状検出のためのＷ－ＧＡＮ
コンピュータビジョンでは、画像外観を物体の存在及び位置に直接マッピングする回帰関数を学習することによって、回帰ベースの方法を物体検出のために使用することができる。具体的な例として、画像内の物体の外形点（すなわち、外形上の点）を生成するために、形状回帰器モジュールを使用することができる。より詳細には、形状回帰器モジュールの出力は、外形点の２Ｄ位置（例えば、デカルトｘ－ｙ座標）であり得る。例えば、形状回帰器の入力が画像であれば、形状回帰器の出力は、画像の外観を与えられた座標のセット（例えば、（（ｘ_１，ｙ_１）、（ｘ_２，ｙ_２）、．．．、（ｘ_ｎ，ｙ_ｎ））又はこれらの座標の条件付き確率であり得る。

形状回帰器モジュールを実現するために、様々な技術を使用することができる。いくつかの実施形態では、形状回帰器モジュールは、フィードフォワードニューラルネットワークを実装する。更なる実施形態では、ニューラルネットワークは、多層パーセプトロンネットワークであり得る。

いくつかの実施形態では、形状回帰器モジュールは、ＧＡＮの一部であり得る。より具体的には、形状回帰器モジュールは、ＧＡＮの生成器であり得、候補の生成に関与し得る。合成画像が必要とされる用途では、ＧＡＮの生成器は候補画像を生成するが、本発明の実施形態では、ＧＡＮ生成器（すなわち、形状回帰器モジュール）は外形点を生成する。ＧＡＮを訓練するために、複数のアノテーションされたサンプル画像を使用することができる。より具体的には、サンプル画像内の１つ以上の物体の外形が手動でマーキングされている。動作中、対象となる画像が特定の量のノイズ（元のサンプル画像の変形形態又は摂動画像を生成する）と共に生成器に送信され得、生成器は、物体の候補外形を生成することができる。図２は、一実施形態による、ＧＡＮ生成器の例示的な早期のイテレーション出力を示す。図２中、曲線２０２は、ターゲット形状（すなわち、サンプル）であり得、曲線２０４は生成器出力であり得る。図２は、生成器の開始出力とターゲット画像との間の有意差を明確に示している。いくつかの実施形態では、画像の表現（例えば、多次元ベクトル）が、ＧＡＮ生成器への入力として使用され得、ノイズは乱数生成器によって生成され得る。更に、ノイズは、正規分布又は一様分布を有し得る。

図３は、一実施形態による、例示的な生成器のアーキテクチャを示す。生成器３００は、画像を受信するための画像受信モジュール３０２と、受信した画像を多次元ベクトルに変換するための画像表現モジュール３０４と、ランダムノイズを生成するための乱数生成器３０６と、合成器３０８と、複数の層（例えば、入力層、出力層、及び複数の隠れ層）を含むことができる、ニューラルネットワーク３１０と、を含むことができる。いくつかの実施形態では、ニューラルネットワーク３１０は、形状回帰器であり得る。生成器３００はまた、ニューラルネットワーク３１０の出力を分析し、同出力を、外形点又は形状分布の２Ｄ座標など、所望の形式に変換するための出力モジュール３１２を含むこともできる。例えば、画像の各ピクセルについて、生成器３００は、ピクセルが物体の外形上にある可能性を示す出力を生成することができる。いくつかの実施形態では、生成器３００は、外形点のセット（例えば、（（ｘ_１，ｙ_１）、（ｘ_２，ｙ_２）、．．．、（ｘ_ｎ，ｙ_ｎ））又は外形点の確率分布を出力することができる。生成器３００によって生成される外形点の数は、外形の形状に応じて、任意であり得ることに留意されたい。より複雑な外形は、それを記述するためにより多くの点を必要とし得るが、より単純な外形は、より少ない点を必要とし得る。一般に、生成器３００によって生成又は出力される外形点の数は、識別器に提供されるグラウンドトゥルース外形点の数と一致しなくてもよい。このことは、ニューラルネットワークによって生成される外形点の数が訓練サンプルの数と同じであることを必要とするＰｏｌｙｇｏｎ－ＲＮＮアプローチと比較して有利である。

ニューラルネットワーク３１０は画像を入力として受信するため、（ｘ，ｙ）座標の形状分布は、ニューラルネットワーク３１０の内部に暗黙的に埋め込まれることに留意されたい。入力画像の形状を生成するために、ニューラルネットワーク３１０のフォワードパスを行うことができ、これにより、暗黙的な形状分布から（ｘ，ｙ）座標がサンプリングされる。形状座標系は、入力画像の中点を中心とすることができる。例えば、ｘ－ｙ平面の原点は、入力画像の中心にあることができる。

任意の種類のＧＡＮと同様に、生成器３００の出力は、比較のために識別器モジュールに送信され得る。いくつかの実施形態では、識別器は、生成器３００の出力とグラウンドトゥルースとの間のワッサースタイン距離を計算する。ワッサースタインＧＡＮの設定では、識別器は批評器とも呼ばれ得、批評器は、スカラーワッサースタイン距離を出力する。図４は、本発明の一実施形態による、例示的な批評器のアーキテクチャを示す。

識別器４００は、アノテーションされたサンプル画像を受信するための画像受信モジュール４０２を含むことができる。より具体的には、サンプル画像は、特定の種類の物体（例えば、顔、車、建造物など）の輪郭又は外形を示すようにアノテーションされている。識別器４００はまた、生成器出力との比較に使用され得るグラウンドトゥルースを生成するためのグラウンドトゥルース生成モジュール４０４を含むこともできる。グラウンドトゥルースは、アノテーションされたサンプル画像から抽出され得る。いくつかの実施形態では、グラウンドトゥルースは、形状分布（例えば、外形点（ｘ^＊，ｙ^＊）の確率分布であり得る。アノテーションされた画像内の外形点の数は、生成器３００によって生成される外形点の数と同じでなくてもよい。識別器４００はまた、生成器の出力を受信するための生成器出力受信モジュール４０６を含むこともできる。生成器の出力及びグラウンドトゥルースは、ワッサースタイン距離計算器４０８に送信され得、ワッサースタイン距離計算器４０８は、ワッサースタイン距離を計算する。なお、ニューラルネットワークに、ワッサースタイン距離Ｗを計算する上で必須である、１－リプシッツ関数ｆを学習させることが必要であることに留意されたい。いくつかの実施形態では、ワッサースタイン距離は、以下のように計算され得る。

式中、ｆは１－リプシッツ関数であり、Ｐ_ｓ及びＰ_＊はそれぞれ、生成器出力及びグラウンドトゥルース分布である。ｆにおける最大重み値を制限するためにクリッピングが必要であることに留意されたい。より具体的には、識別器の重み係数は、ハイパーパラメータのセットによって制御される特定の範囲内である必要がある。

いくつかの実施形態では、ｘ座標及びｙ座標の分布は、独立してモデル化され、生成され得る。換言すれば、ワッサースタイン距離（又はＷスコア）は、ｘ座標及びｙ座標に関して独立して計算され得る。代替実施形態では、ｘ座標及びｙ座標は、複雑な形状表現を介して一緒にモデル化され得る。ワッサースタイン距離計算器４０８の出力は、Ｗスコアと表される。

図５は、本発明の一実施形態による、例示的な輪郭検出ワッサースタインＧＡＮ（Ｗ－ＧＡＮ）のアーキテクチャを示す。輪郭検出Ｗ－ＧＡＮ５００は、生成器入力モジュール５０２、形状回帰器ベースの生成器５０４、識別器訓練入力モジュール５０６、Ｗスコアベースの識別器５０８、及び最適化モジュール５１０を含むことができる。

生成器入力モジュール５０２は、形状回帰器ベースの生成器５０４に入力を提供することに関与し得る。入力は、対象となる画像及びランダムノイズを含み得る。より具体的には、生成器入力モジュール５０２は、対象となる画像を、形状回帰器ベースの生成器５０４に送信され得る多次元ベクトルに変換することができる。ランダムノイズは、イテレーション間で更新され得る。いくつかの実施形態では、形状回帰器ベースの生成器５０４は、形状回帰器として機能するニューラルネットワーク（例えば、フィードフォワードニューラルネットワーク）を含むことができる。より具体的には、形状回帰器ベースの生成器５０４は、候補形状分布（例えば、外形点のセット）を生成するように構成され得る。画像には、形状分布に関連する全ての情報が暗黙的に含まれていることに留意されたい。したがって、形状回帰器ベースの生成器５０４は、回帰モデルを使用して、画像内の外形点（例えば、ピクセル）を特定することができる。形状回帰器ベースの生成器５０４によって生成される外形点の数は任意であり得、外形の形状によって決定され得る。外形点が１つずつ生成されるＰｏｌｙｇｏｎ－ＲＮＮアプローチと比較して、形状回帰器ベースの生成器５０４は、１つのパスを使用して外形全体を生成することができる。形状回帰器ベースの生成器５０４の出力は、予測された外形点の座標（例えば、（（ｘ_１，ｙ_１）、（ｘ_２，ｙ_２）、．．．、（ｘ_ｎ，ｙ_ｎ））又はそれらの確率分布Ｐ（ｘ，ｙ）を含むことができる。形状回帰器ベースの生成器５０４の出力は、Ｗスコアベースの識別器５０８に送信され得る。

識別器訓練入力モジュール５０６は、訓練サンプル（すなわち、アノテーションされたサンプル画像）をＷスコアベースの識別器５０８に送信することができる。いくつかの実施形態では、識別器訓練入力モジュール５０６は、グラウンドトゥルース外形点の座標（例えば、（ｘ_１＊，ｙ_１＊）、（ｘ_２＊，ｙ_２＊）、．．．、（ｘ_ｍ＊，ｙ_ｍ＊）又はそれらの確率分布Ｐ（ｘ_＊，ｙ_＊）をＷスコアベースの識別器５０８に送信することができる。

Ｗスコアベースの識別器５０８は、形状回帰器ベースの生成器５０４によって生成された外形点と、アノテーションされたサンプル画像内のグラウンドトゥルース外形点との間のワッサースタイン距離（又はＷスコア）を計算することができる。より具体的には、Ｗスコアは、式（１）を使用して計算され得る。いくつかの実施形態では、Ｗスコアベースの識別器５０８は、２つの確率分布に基づいて１－リプシッツ関数を学習することに関与するニューラルネットワークを含むことができ、このニューラルネットワークは、Ｗスコアを計算する上で必須である。いくつかの実施形態では、Ｗスコアベースの識別器５０８は、外形点のｘ座標及びｙ座標に関して独立してＷスコアを計算し、次いで、それらを組み合わせて合計スコアを得ることができる。これは、より単純な１－リプシッツ関数（確率分布は１つの変数のみを有する）を可能にする。代替実施形態では、Ｗスコアベースの識別器５０８は、ｘ座標及びｙ座標の同時確率分布に基づいてＷスコアを計算することができる。

Ｗスコアベースの識別器５０８は、形状回帰器ベースの生成器５０４のパラメータが固定されると、訓練され得る。所定の回数のイテレーション後、Ｗスコアベースの識別器５０８は、計算されたＷスコアを最適化モジュール５１０に送信することができ、最適化モジュール５１０は、最適化条件が満たされたかどうかを判定することができる。最適化条件は、生成器イテレーションの回数が所定の閾値以上であること又はＷスコアが所定の値未満であることを含み得る。最適化条件が満たされると、最適化モジュール５１０は、形状回帰器ベースの生成器５０４を、その現在の予測を予測された外形点として出力するように構成することができる。そうでなければ、最適化モジュール５１０は、形状回帰器ベースの生成器５０４が自身のパラメータを調整し、外形点の新たな予測を生成することができるように、形状回帰器ベースの生成器５０４に制御信号を送信することができる。このプロセスは、所定の最適化条件（例えば、生成器イテレーションの回数又はＷスコアに基づく）が達成されるまで、それ自体を繰り返すことができる。一般に、イテレーション回数が多いほど、多くの場合、外形又は輪郭の予測は良好になり得る。形状回帰器ベースの生成器５０４の各イテレーションに対して、Ｗスコアベースの識別器５０８は、多くの場合、多数回（例えば、約１０００回）の訓練イテレーションを実行することに留意されたい。換言すれば、形状回帰器ベースの生成器５０４のパラメータの各更新に対して、Ｗスコアベースの識別器５０８のパラメータは多数回更新されている。

図６は、本発明の一実施形態による、複数回のイテレーション後の輪郭検出ワッサースタインＧＡＮ（Ｗ－ＧＡＮ）生成器の出力を示す。上の図面は、１４９回のイテレーション後の結果を示し、下の図面は、９４９回のイテレーション後の結果を示す。この例では、訓練サンプルは、曲線６０２及び６０６として示される、ドメイン［０，π］内の１次元正弦関数からランダムに選択された１００個の点を含み得る。予測された形状（例えば、形状回帰器ベースの生成器の出力）は、曲線６０４及び６０８として示されている。形状回帰器ベースの生成器は、例えば、それぞれ５０個のニューロンを有する２層のパーセプトロンを含み得、Ｗスコアベースの識別器は、形状回帰器ベースの生成器と同様のネットワーク構造を有し得る。入力ランダムノイズは、１００次元ノイズであり得る。各イテレーションでは、Ｗスコアベースの識別器は１０００ステップで訓練され、形状回帰器ベースの生成器は１ステップで訓練される（すなわち、１ステップのフォワードパスを行う）。図６からわかるように、イテレーション回数が増加すると、予測された形状は真のターゲット形状に近づく。

図７Ａは、本発明の一実施形態による、輪郭検出ワッサースタインＧＡＮ（Ｗ－ＧＡＮ）の例示的な訓練プロセスを示すフロー図を提示する。動作中、システムは、複数の訓練画像を取得する（動作７０２）。訓練画像はアノテーションされていることに留意されたい。より具体的には、物体の輪郭又は外形は、それらの訓練画像内でラベル付けされており、形状分布のグラウンドトゥルースを表している。システムは、ランダムノイズを生成する（動作７０４）。訓練画像及びランダムノイズは組み合わされ、形状回帰器に送信され得る（動作７０６）。いくつかの実施形態では、形状回帰器は、画像内の物体の輪郭又は外形を検出するように訓練され得るフィードフォワードニューラルネットワークを含むことができる。形状回帰器は、訓練画像の画像形状分布（例えば、少なくとも１つの物体の外形又は輪郭上の点の位置）を予測する（動作７０８）。いくつかの実施形態では、予測された画像形状分布は、複数の外形点及びそれらの確率分布を含むことができる。外形点の数は、アノテーションされたサンプル画像内でラベル付けされている外形点の数とは異なり得る。アノテーションされたサンプル画像（すなわち、グラウンドトゥルース）及び予測された形状分布は、Ｗスコア計算器に送信され得る（動作７１０）。

Ｗスコア計算器は、予測された形状分布とグラウンドトゥルースとの間のワッサースタイン距離（Ｗスコア）を計算する（動作７１２）。より具体的には、Ｗスコア計算器内のニューラルネットワークは、計算されたＷスコアを出力する前に、多数回のイテレーションにわたって訓練されてもよい。次いで、システムは、所定の最適化条件が満たされているかどうかを判定する（動作７１４）。所定の最適化条件は、形状回帰器のパラメータ更新イテレーションの回数が所定の閾値に達しているかどうか、又はＷスコアが閾値未満であるかどうかを含み得る。最適化条件が満たされた場合、システムは形状回帰モデルを出力する（動作７１６）。そうでなければ、システムは形状回帰器のパラメータを更新し（動作７１８）、新たな予測が行われる（動作７０８）。より具体的には、形状回帰器のパラメータは、後に生成されるワッサースタイン距離が低減され得るように、すなわち、予測された形状分布とグラウンドトゥルース形状分布との間の類似性が増すように、更新される。

図７Ｂは、本発明の一実施形態による、例示的な形状検出プロセスを示すフロー図を提示する。動作中、システムは、少なくとも１つの物体を含む検出対象画像を受信し得る（動作７２２）。システム内のランダムノイズ生成器は、ランダムノイズを生成し得る（動作７２４）。いくつかの実施形態では、ランダムノイズは、正規分布又は一様分布を有し得る。次いで、システムは、前に訓練した形状回帰モデルを適用して、検出対象画像内の１つ以上の物体の形状外形を予測し得る（動作７２６）。いくつかの実施形態では、画像及びノイズは形状回帰器に送信され得、形状回帰器は、訓練した形状回帰モデルを適用する。

一般に、本発明の実施形態は、画像内の物体境界又は外形の迅速な推測のための解決策を提供する。物体の周囲の矩形領域のみを検出する従来のアプローチと比較して、境界検出は、はるかに高い精度を提供することができる。一方、ピクセルレベルのインスタンス分割に基づくアプローチと比較して、現在のＷ－ＧＡＮアプローチは、はるかに高速であり得、したがって、リアルタイムアプリケーションを可能にする。例えば、カメラシステムが道路をスキャンすると、画像内の車が、輪郭検出Ｗ－ＧＡＮを使用してリアルタイムで検出され、その車の外形でその車の位置がマーキングされる。同様に、様々な顔検出アプリケーション（例えば、ユーザ認証又は監視）では、矩形ボックスを使用して顔をマーキングする代わりに、各顔の実際の外形が、輪郭検出Ｗ－ＧＡＮを使用して検出及びマーキングされ得る。更に、形状検出能力はまた、様々な物体検出アプリケーションの性能を向上させることもできる。

例示的なコンピュータシステム及び装置
図８は、本発明の一実施形態による、物体形状検出システムを容易にする例示的なコンピュータシステムを示す。コンピュータシステム８００は、プロセッサ８０２、メモリ８０４、及び記憶デバイス８０６を含む。コンピュータシステム８００は、ディスプレイデバイス８１０、キーボード８１２、及びポインティングデバイス８１４に結合され得、また、１つ以上のネットワークインタフェースを介してネットワーク８０８に結合され得る。記憶デバイス８０６は、オペレーティングシステム８１８及び物体形状検出システム８２０を記憶することができる。

物体形状検出システム８２０は、コンピュータシステム８００によって実行されると、コンピュータシステム８００に、本開示で説明される方法及び／又はプロセスを実行させることができる命令を含むことができる。物体形状検出システム８２０は、対象となる画像及びアノテーションされた訓練サンプルの両方を含めて、画像を受信するための命令（画像受信モジュール８２２）と、画像から画像表現を抽出するための命令（画像表現モジュール８２４）と、ノイズを生成するための命令（ノイズ生成器８２６）と、を含むことができる。更に、物体形状検出システム８２０は、形状回帰モデルを適用するための命令（形状回帰器モジュール８２８）と、予測された形状分布とグラウンドトゥルースとの間のワッサースタイン距離を推定するための命令（ワッサースタイン距離推定モジュール８３０）と、推定されたワッサースタイン距離に基づいて形状回帰器モジュールのパラメータを最適化するための命令（最適化モジュール８３２）と、を含むことができる。

図９は、本発明の一実施形態による、物体輪郭検出システムを容易にする例示的な装置を示す。装置９００は、有線、無線、量子光、又は電気通信チャネルを介して互いに通信し得る複数のユニット又は装置を備えることができる。装置９００は、１つ以上の集積回路を使用して実現され得、図９に示されているものよりも少ない又は多いユニット又は装置を含み得る。更に、装置９００は、コンピュータシステムに統合され得るか、又は他のコンピュータシステム及び／若しくはデバイスと通信することができる別個のデバイスとして実現され得る。具体的には、装置９００は、図８のコンピュータシステム８００のモジュール８２２～８３２と同様の機能又は動作を実行するユニット９０２～９１２を備えることができ、これには、画像受信ユニット９０２、画像表現ユニット９０４、ノイズ生成ユニット９０６、形状回帰器ユニット９０８と、ワッサースタイン距離推定ユニット９１０、及び最適化ユニット９１２が含まれる。装置９００は、通信ユニット９１４を更に含むことができる。

「発明を実施するための形態」セクションに記載される方法及び処理は、上記のようにコンピュータ可読記憶媒体に記憶され得るコード及び／又はデータとして具体化することができる。コンピュータシステムが、コンピュータ可読記憶媒体上に記憶されたコード及び／又はデータを読み取って実行すると、コンピュータシステムは、データ構造及びコードとして具体化され、コンピュータ可読記憶媒体内に記憶された方法及び処理を実行する。

更に、上述の方法及び処理は、ハードウェアモジュール又は装置に含まれてもよい。ハードウェアモジュール又は装置としては、特定用途向け集積回路（ａｐｐｌｉｃａｔｉｏｎ－ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ、ＡＳＩＣ）チップ、フィールドプログラム可能ゲートアレイ（ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ、ＦＰＧＡ）、特定の時刻に特定のソフトウェアモジュール又はコードを実行する専用又は共有プロセッサ、及び、既知の又は後に開発される他のプログラム可能論理デバイスを含むことができるが、これらに限定されない。ハードウェアモジュール又は装置が起動されると、それらの内部に含まれる方法及び処理が実行される。

Claims

画像内の物体の外形を検出するための方法であって、
少なくとも１つの物体に関連付けられた２次元（２Ｄ）情報を含む２Ｄ画像を受信することと、
ランダムノイズ信号を生成することと、
前記受信した２Ｄ画像及び前記ランダムノイズ信号を形状回帰器モジュールに提供することであって、前記形状回帰器モジュールは、前記物体に関連付けられた前記２Ｄ情報に基づいて、形状回帰モデルを適用して、前記受信した画像内の物体の形状外形を予測し、前記形状回帰モデルは、アノテーションされた訓練画像のセットによって提供される２Ｄ情報を使用して訓練されたワッサースタイン敵対的生成ネットワーク（Ｗ－ＧＡＮ）を含み、それぞれの訓練画像は、前記訓練画像内で少なくとも１つの物体の２Ｄの真の形状外形を定義することによってアノテーションされる、ことと、を含む、方法。
前記形状回帰モデルを訓練することを更に含み、前記形状回帰モデルを訓練することが、
前記アノテーションされた訓練画像及びランダムノイズ信号を前記形状回帰モデルに入力して、推定された形状外形を取得することと、
前記推定された形状外形及び真の形状外形を、前記推定された形状外形及び真の形状外形の確率分布間のワッサースタイン距離を計算する識別器モジュールに提供することと、
前記識別器モジュールによって計算された前記ワッサースタイン距離に基づいて前記形状回帰モデルのパラメータを最適化することと、を含む、請求項１に記載の方法。
前記形状回帰モデルを最適化することが、前記計算されたワッサースタイン距離が低減されるように前記形状回帰モデルのパラメータを更新することを含む、請求項２に記載の方法。
前記形状回帰器モジュールが第１のニューラルネットワークとして実装され、前記識別器モジュールが第２のニューラルネットワークとして実装される、請求項２に記載の方法。
前記第１及び第２のニューラルネットワークが共に、敵対的生成ネットワーク（ＧＡＮ）を形成する、請求項４に記載の方法。
前記予測された形状外形が、前記物体の境界に沿ったデカルトｘ－ｙ座標に関して定義される、請求項１に記載の方法。
前記予測された形状外形が、前記物体の境界に属する画像ピクセルの確率に関して定義される、請求項１に記載の方法。
画像内の物体の外形を検出するための装置であって、
プロセッサと、
前記プロセッサに結合され、命令を記憶するメモリであって、前記命令が、前記プロセッサによって実行されると、前記プロセッサに、方法を実行させる、メモリと、
を備え、
前記方法は、
少なくとも１つの物体に関連付けられた２Ｄ情報を含む２次元画像を受信することと、
ランダムノイズ信号を生成することと、
前記物体に関連付けられた前記２Ｄ情報に基づいて、形状回帰モデルを適用して、前記受信した画像内の物体の形状外形を予測するように構成された形状回帰器モジュールに、前記受信した２Ｄ画像及び前記ランダムノイズ信号を提供することであって、前記形状回帰モデルは、アノテーションされた訓練画像のセットによって提供される２Ｄ情報を使用して訓練されたワッサースタイン敵対的生成ネットワーク（Ｗ－ＧＡＮ）を含み、それぞれの訓練画像は、前記訓練画像内で少なくとも１つの物体の２Ｄの真の形状外形を定義することによってアノテーションされる、ことと、を含む、装置。
前記形状回帰モデルの訓練を容易にする識別器モジュールを更に備え、
前記形状回帰モデルを訓練することが、
前記アノテーションされた訓練画像及びランダムノイズ信号を前記形状回帰モデルに入力して、推定された形状外形を取得することと、
前記推定された形状外形及び真の形状外形を、前記推定された形状外形及び真の形状外形の確率分布間のワッサースタイン距離を計算する前記識別器モジュールに提供することと、
前記識別器モジュールによって計算された前記ワッサースタイン距離に基づいて前記形状回帰モデルのパラメータを最適化することと、を含む、請求項８に記載の装置。
前記形状回帰モデルを最適化することが、前記計算されたワッサースタイン距離が低減されるように前記形状回帰モデルのパラメータを更新することを含む、請求項９に記載の装置。
前記形状回帰器モジュールが第１のニューラルネットワークとして実装され、前記識別器モジュールが第２の第２のニューラルネットワークとして実装される、請求項９に記載の装置。
前記第１及び第２のニューラルネットワークが共に、敵対的生成ネットワーク（ＧＡＮ）を形成する、請求項１１に記載の装置。
前記予測された形状外形が、前記物体の境界に沿ったデカルトｘ－ｙ座標に関して定義される、請求項８に記載の装置。
前記予測された形状外形が、前記物体の境界に属する画像ピクセルの確率に関して定義される、請求項８に記載の装置。
命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記命令が、コンピュータによって実行されると、前記コンピュータに、画像内の物体の外形を検出するための方法を実行させ、前記方法が、
少なくとも１つの物体に関連付けられた２次元（２Ｄ）情報を含む２Ｄ画像を受信することと、
ランダムノイズ信号を生成することと、
前記受信した２Ｄ画像及び前記ランダムノイズ信号を形状回帰器モジュールに提供することであって、前記形状回帰器モジュールは、前記物体に関連付けられた前記２Ｄ情報に基づいて、形状回帰モデルを適用して、前記受信した画像内の物体の形状外形を予測し、前記形状回帰モデルは、アノテーションされた訓練画像のセットによって提供される２Ｄ情報を使用して訓練されたワッサースタイン敵対的生成ネットワーク（Ｗ－ＧＡＮ）を含み、それぞれの訓練画像は、前記訓練画像内で少なくとも１つの物体の２Ｄの真の形状外形を定義することによってアノテーションされる、ことと、を含む、非一時的コンピュータ可読記憶媒体。
前記方法が、前記形状回帰モデルを訓練することを更に含み、前記形状回帰モデルを訓練することが、
前記アノテーションされた訓練画像及びランダムノイズ信号を前記形状回帰モデルに入力して、推定された形状外形を取得することと、
前記推定された形状外形及び真の形状外形を、前記推定された形状外形及び真の形状外形の確率分布間のワッサースタイン距離を計算する識別器モジュールに提供することと、
前記識別器モジュールによって計算された前記ワッサースタイン距離に基づいて前記形状回帰モデルのパラメータを最適化することと、を含む、請求項１５に記載の非一時的コンピュータ可読記憶媒体。
前記形状回帰モデルを最適化することが、前記計算されたワッサースタイン距離が低減されるように前記形状回帰モデルのパラメータを更新することを含む、請求項１６に記載の非一時的コンピュータ可読記憶媒体。
前記形状回帰器モジュールが第１のニューラルネットワークとして実装され、前記識別器モジュールが第２のニューラルネットワークとして実装され、前記第１及び第２のニューラルネットワークが共に、敵対的生成ネットワーク（ＧＡＮ）を形成する、請求項１６に記載の非一時的コンピュータ可読記憶媒体。
前記予測された形状外形が、前記物体の境界に沿ったデカルトｘ－ｙ座標に関して定義される、請求項１５に記載の非一時的コンピュータ可読記憶媒体。
前記予測された形状外形が、前記物体の境界に属する画像ピクセルの確率に関して定義される、請求項１５に記載の非一時的コンピュータ可読記憶媒体。