Nothing Special   »   [go: up one dir, main page]

JP7263216B2 - ワッサースタイン距離を使用する物体形状回帰 - Google Patents

ワッサースタイン距離を使用する物体形状回帰 Download PDF

Info

Publication number
JP7263216B2
JP7263216B2 JP2019212083A JP2019212083A JP7263216B2 JP 7263216 B2 JP7263216 B2 JP 7263216B2 JP 2019212083 A JP2019212083 A JP 2019212083A JP 2019212083 A JP2019212083 A JP 2019212083A JP 7263216 B2 JP7263216 B2 JP 7263216B2
Authority
JP
Japan
Prior art keywords
shape
regression model
image
outline
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019212083A
Other languages
English (en)
Other versions
JP2020098587A (ja
JP2020098587A5 (ja
Inventor
ジン・サン
スリチャラン・カルーア・パリ・クマール
ラジャ・バーラ
Original Assignee
パロ アルト リサーチ センター インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パロ アルト リサーチ センター インコーポレイテッド filed Critical パロ アルト リサーチ センター インコーポレイテッド
Publication of JP2020098587A publication Critical patent/JP2020098587A/ja
Publication of JP2020098587A5 publication Critical patent/JP2020098587A5/ja
Application granted granted Critical
Publication of JP7263216B2 publication Critical patent/JP7263216B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Description

本開示は、概して、コンピュータビジョンシステムに関する。より具体的には、本開示は、ニューラルネットワークフレームワークを使用して物体形状を予測するシステム及び方法に関する。
物体検出(例えば、画像内の顔、建造物、車などの検出)は、コンピュータビジョンにおける基本的な問題である。物体検出における現在のアプローチは、多くの場合、物体の粗い軸平行境界ボックス(axis-aligned bounding boxes、AABB)を生成することを伴う。例えば、多くの顔検出アプリケーションは、検出された顔の周囲に矩形のボックスを作成する。そのようなボックスは、典型的には、物体の形状に適合せず、したがって、細粒シーン分析では限定された有用性を有する。一方、物体輪郭検出(例えば、物体の詳細な外形を検出すること)は、物体に関連付けられたより正確な形状情報を提供することができる。実際に、物体境界を正確に見つける能力は、分割、認識、及び場面理解を含む多くの視覚タスクに対して、広範囲に及ぶ影響を有し得る。
Polygon-RNNなどの現在のアプローチは、再帰型ニューラルネットワーク(recurrent neural network、RNN)を使用して、物体の外形又は輪郭に沿う点を(多角形の一部として)予測することより、物体の境界又は輪郭を検出及び追跡する。より具体的には、物体の外形上の現在の予測点の画像パッチが与えられると、Polygon-RNNは、次の予測点の2D位置を回帰することができる。しかしながら、Polygon-RNNアプローチは、それ自身の欠点を有する。Polygon-RNNは、多くの場合、外形上の点の数に対応する複数の精選されたハイパーパラメータを必要とし、また第1の点の特別な処理が必要である。
一実施形態は、画像内の物体の外形を検出するためのシステムを提供することができる。動作中、システムは、少なくとも1つの物体を含む画像を受信し、ランダムノイズ信号を生成し、受信した画像及びランダムノイズ信号を形状回帰器モジュールに提供し、形状回帰器モジュールは、形状回帰モデルを適用して、受信した画像内の物体の形状外形を予測する。
この実施形態の変形例では、システムは、形状回帰モデルを更に訓練する。訓練中、システムは、訓練画像のセットを取得する。それぞれの訓練画像はアノテーションされ、かつ少なくとも1つの物体を含んでおり、アノテーションされた訓練画像は、真の形状外形のセットに関連付けられている。システムは、訓練画像及びランダムノイズ信号を形状回帰モデルに入力して、推定された形状外形を取得し、推定された形状外形及び真の形状外形を、推定された形状外形及び真の形状外形の確率分布間のワッサースタイン距離を計算する識別器モジュールに提供し、識別器モジュールによって計算されたワッサースタイン距離に基づいて形状回帰モデルのパラメータを最適化する。
更なる変形例では、形状回帰モデルを最適化することは、計算されたワッサースタイン距離が低減されるように形状回帰モデルのパラメータを更新することを含むことができる。
更なる変形例では、形状回帰器モジュールは第1のニューラルネットワークとして実装され、識別器モジュールは第2のニューラルネットワークとして実装される。
更なる変形例では、第1及び第2のニューラルネットワークは共に、敵対的生成ネットワーク(generative adversarial network、GAN)を形成する。
この実施形態の変形例では、形状外形は、物体の境界に沿ったデカルトx-y座標に関して定義される。
この実施形態の変形例では、形状外形は、物体の境界に属する画像ピクセルの確率に関して定義される。
一実施形態は、画像内の物体の外形を検出するための装置を提供することができる。装置は、少なくとも1つの物体を含む画像を受信するように構成された受信モジュールと、ランダムノイズ信号を生成するように構成されたノイズ生成器と、画像及びランダムノイズ信号を受信し、形状回帰モデルを適用して、受信した画像内の物体の形状外形を予測するように構成された形状回帰器モジュールと、を含むことができる。
例示的な敵対的生成ネットワーク(GAN)アーキテクチャ(従来技術)を示す。 本発明の一実施形態による、GAN生成器の例示的な早期のイテレーション出力を示す。 本発明の一実施形態による、例示的な生成器のアーキテクチャを示す。 本発明の一実施形態による、例示的な批評器のアーキテクチャを示す。 本発明の一実施形態による、例示的な輪郭検出ワッサースタインGAN(Wasserstein GAN、W-GAN)のアーキテクチャを示す。 本発明の一実施形態による、複数回のイテレーション後の輪郭検出ワッサースタインGAN(W-GAN)生成器の出力を示す。 本発明の一実施形態による、輪郭検出ワッサースタインGAN(W-GAN)の例示的な訓練プロセスを示すフロー図を提示する。 本発明の一実施形態による、例示的な形状検出プロセスを示すフロー図を提示する。 本発明の一実施形態による、物体形状検出システムを容易にする例示的なコンピュータシステムを示す。 本発明の一実施形態による、物体輪郭検出システムを容易にする例示的な装置を示す。
概要
本明細書に記載される実施形態は、画像内の物体の境界を自動的に検出する問題を解決する。より具体的には、システムは、物体境界を検出するように修正されているW-GAN(ワッサースタイン敵対的生成ネットワーク)に基づく。W-GANは、画像の推測された境界と、画像の境界のグラウンドトゥルース(すなわち、ヒューマンアノテーション)との間のワッサースタイン距離を最小化することによって訓練され得る。W-GANフレームワークは、形状回帰器(すなわち、生成器)及びWスコア計算器(すなわち、識別器)を含むことができる。形状回帰器は、画像、及びランダムノイズのセットを入力に取り、予測された境界点を出力することができる。識別器は、予測された境界点とグラウンドトゥルース境界点との間のワッサースタイン距離を計算することができる。形状回帰器は、ワッサースタイン距離を最小化することによって訓練され得る。
ワッサースタインGAN
敵対的生成ネットワーク(GAN)は、ゼロサムゲームフレームワークにおいて互いに競合する2つのニューラルネットワークからなるシステムによって実装される、教師なし機械学習で使用される人工知能アルゴリズムの一クラスである。近年、GANは、合成だがリアルな画像など、合成データを生成する手段として人気が高まってきている。これを行うために、GANは、典型的には、生成器ニューラルネットワーク(生成器と呼ばれる)と、識別器ニューラルネットワーク(識別器と呼ばれる)とを含む。
動作中、生成器は、潜在空間から特定の対象となるデータ分布にマッピングすることを学習し、一方、識別器は、真のデータ分布からのインスタンスと生成器によって生成された候補との間の違いを識別する。生成器の訓練目的は、真のデータ分布から生じたかのように見える新規な合成されたインスタンスを生成することによって、識別器の誤り率を増加させる(すなわち、識別器ネットワークを「騙す」)ことである。一例として画像生成を使用すると、生成器は、合成画像サンプルを出力として生成し、これらの画像が実在画像であると識別器に「確信させる」ことによって合成画像サンプルの品質を改善しようとし得る。識別器は、実在画像サンプルと生成された合成画像サンプルとを見分けることを課せられる。識別器は、画像が全体として実在であるか否かを判定する。結果として、複数回のイテレーションにより、生成器は、実在画像の統計的特性を組み入れた合成画像を生成することを学習する。
図1は、例示的な敵対的生成ネットワーク(GAN)アーキテクチャ(従来技術)を示す。GAN100は、生成器102及び識別器104を含むことができる。生成器102は、正規分布又は一様分布を使用するノイズをサンプリングし、ディープネットワークを使用して出力(例えば、画像)を作成することができる。生成器102の出力は、識別器104に送信され得、識別器104は、その入力(すなわち、生成器102の出力)を訓練サンプルと比較することによってそれが実在するものであるか、又は生成されたものであるかを判定する。識別器104は、その入力が実在するものである可能性を推定するための値(例えば、D(x))を出力することができる。
ワッサースタイン距離(アースムーバーの距離(earth mover’s distance)、又はEMDとも呼ばれる)は、確率分布間に定義される距離関数である。ワッサースタインGAN(W-GAN)は、ワッサースタイン距離をメトリック(例えば、損失関数)として使用するGANを指す。より具体的には、識別器は、ワッサースタイン距離を使用して、生成器によって出力された画像の品質を判断し、合成画像の高品質化を促す。生成器の訓練目的は、生成された候補画像と真の画像(グラウンドトゥルースと呼ばれることもある)との間のワッサースタイン距離を最小化することである。分布Pと分布Pとの間のワッサースタイン距離は、
Figure 0007263216000001
として定義することができ、式中、
Figure 0007263216000002
は、周辺がそれぞれP及びPである全ての同時分布γ(x,y)のセットを示す。直感的には、γ(x,y)は、分布Pを分布Pに変換するために、どのくらいの「量」がxからyに移送されなければならないかを示す。確率分布の単純なシーケンスがワッサースタイン距離下で収束することは証明され得る。更に、ワッサースタイン距離が連続的かつ微分可能であり、したがって、訓練中に連続的に滑らかな勾配を提供可能であることは証明され得る。そのような特性は、識別器を訓練する際に有益であり得る。より具体的には、W-GANにおいて、識別器は、最適になるまで訓練され得る。
物体形状検出のためのW-GAN
コンピュータビジョンでは、画像外観を物体の存在及び位置に直接マッピングする回帰関数を学習することによって、回帰ベースの方法を物体検出のために使用することができる。具体的な例として、画像内の物体の外形点(すなわち、外形上の点)を生成するために、形状回帰器モジュールを使用することができる。より詳細には、形状回帰器モジュールの出力は、外形点の2D位置(例えば、デカルトx-y座標)であり得る。例えば、形状回帰器の入力が画像であれば、形状回帰器の出力は、画像の外観を与えられた座標のセット(例えば、((x,y)、(x,y)、...、(x,y))又はこれらの座標の条件付き確率であり得る。
形状回帰器モジュールを実現するために、様々な技術を使用することができる。いくつかの実施形態では、形状回帰器モジュールは、フィードフォワードニューラルネットワークを実装する。更なる実施形態では、ニューラルネットワークは、多層パーセプトロンネットワークであり得る。
いくつかの実施形態では、形状回帰器モジュールは、GANの一部であり得る。より具体的には、形状回帰器モジュールは、GANの生成器であり得、候補の生成に関与し得る。合成画像が必要とされる用途では、GANの生成器は候補画像を生成するが、本発明の実施形態では、GAN生成器(すなわち、形状回帰器モジュール)は外形点を生成する。GANを訓練するために、複数のアノテーションされたサンプル画像を使用することができる。より具体的には、サンプル画像内の1つ以上の物体の外形が手動でマーキングされている。動作中、対象となる画像が特定の量のノイズ(元のサンプル画像の変形形態又は摂動画像を生成する)と共に生成器に送信され得、生成器は、物体の候補外形を生成することができる。図2は、一実施形態による、GAN生成器の例示的な早期のイテレーション出力を示す。図2中、曲線202は、ターゲット形状(すなわち、サンプル)であり得、曲線204は生成器出力であり得る。図2は、生成器の開始出力とターゲット画像との間の有意差を明確に示している。いくつかの実施形態では、画像の表現(例えば、多次元ベクトル)が、GAN生成器への入力として使用され得、ノイズは乱数生成器によって生成され得る。更に、ノイズは、正規分布又は一様分布を有し得る。
図3は、一実施形態による、例示的な生成器のアーキテクチャを示す。生成器300は、画像を受信するための画像受信モジュール302と、受信した画像を多次元ベクトルに変換するための画像表現モジュール304と、ランダムノイズを生成するための乱数生成器306と、合成器308と、複数の層(例えば、入力層、出力層、及び複数の隠れ層)を含むことができる、ニューラルネットワーク310と、を含むことができる。いくつかの実施形態では、ニューラルネットワーク310は、形状回帰器であり得る。生成器300はまた、ニューラルネットワーク310の出力を分析し、同出力を、外形点又は形状分布の2D座標など、所望の形式に変換するための出力モジュール312を含むこともできる。例えば、画像の各ピクセルについて、生成器300は、ピクセルが物体の外形上にある可能性を示す出力を生成することができる。いくつかの実施形態では、生成器300は、外形点のセット(例えば、((x,y)、(x,y)、...、(x,y))又は外形点の確率分布を出力することができる。生成器300によって生成される外形点の数は、外形の形状に応じて、任意であり得ることに留意されたい。より複雑な外形は、それを記述するためにより多くの点を必要とし得るが、より単純な外形は、より少ない点を必要とし得る。一般に、生成器300によって生成又は出力される外形点の数は、識別器に提供されるグラウンドトゥルース外形点の数と一致しなくてもよい。このことは、ニューラルネットワークによって生成される外形点の数が訓練サンプルの数と同じであることを必要とするPolygon-RNNアプローチと比較して有利である。
ニューラルネットワーク310は画像を入力として受信するため、(x,y)座標の形状分布は、ニューラルネットワーク310の内部に暗黙的に埋め込まれることに留意されたい。入力画像の形状を生成するために、ニューラルネットワーク310のフォワードパスを行うことができ、これにより、暗黙的な形状分布から(x,y)座標がサンプリングされる。形状座標系は、入力画像の中点を中心とすることができる。例えば、x-y平面の原点は、入力画像の中心にあることができる。
任意の種類のGANと同様に、生成器300の出力は、比較のために識別器モジュールに送信され得る。いくつかの実施形態では、識別器は、生成器300の出力とグラウンドトゥルースとの間のワッサースタイン距離を計算する。ワッサースタインGANの設定では、識別器は批評器とも呼ばれ得、批評器は、スカラーワッサースタイン距離を出力する。図4は、本発明の一実施形態による、例示的な批評器のアーキテクチャを示す。
識別器400は、アノテーションされたサンプル画像を受信するための画像受信モジュール402を含むことができる。より具体的には、サンプル画像は、特定の種類の物体(例えば、顔、車、建造物など)の輪郭又は外形を示すようにアノテーションされている。識別器400はまた、生成器出力との比較に使用され得るグラウンドトゥルースを生成するためのグラウンドトゥルース生成モジュール404を含むこともできる。グラウンドトゥルースは、アノテーションされたサンプル画像から抽出され得る。いくつかの実施形態では、グラウンドトゥルースは、形状分布(例えば、外形点(x,y)の確率分布であり得る。アノテーションされた画像内の外形点の数は、生成器300によって生成される外形点の数と同じでなくてもよい。識別器400はまた、生成器の出力を受信するための生成器出力受信モジュール406を含むこともできる。生成器の出力及びグラウンドトゥルースは、ワッサースタイン距離計算器408に送信され得、ワッサースタイン距離計算器408は、ワッサースタイン距離を計算する。なお、ニューラルネットワークに、ワッサースタイン距離Wを計算する上で必須である、1-リプシッツ関数fを学習させることが必要であることに留意されたい。いくつかの実施形態では、ワッサースタイン距離は、以下のように計算され得る。
Figure 0007263216000003
式中、fは1-リプシッツ関数であり、P及びPはそれぞれ、生成器出力及びグラウンドトゥルース分布である。fにおける最大重み値を制限するためにクリッピングが必要であることに留意されたい。より具体的には、識別器の重み係数は、ハイパーパラメータのセットによって制御される特定の範囲内である必要がある。
いくつかの実施形態では、x座標及びy座標の分布は、独立してモデル化され、生成され得る。換言すれば、ワッサースタイン距離(又はWスコア)は、x座標及びy座標に関して独立して計算され得る。代替実施形態では、x座標及びy座標は、複雑な形状表現を介して一緒にモデル化され得る。ワッサースタイン距離計算器408の出力は、Wスコアと表される。
図5は、本発明の一実施形態による、例示的な輪郭検出ワッサースタインGAN(W-GAN)のアーキテクチャを示す。輪郭検出W-GAN500は、生成器入力モジュール502、形状回帰器ベースの生成器504、識別器訓練入力モジュール506、Wスコアベースの識別器508、及び最適化モジュール510を含むことができる。
生成器入力モジュール502は、形状回帰器ベースの生成器504に入力を提供することに関与し得る。入力は、対象となる画像及びランダムノイズを含み得る。より具体的には、生成器入力モジュール502は、対象となる画像を、形状回帰器ベースの生成器504に送信され得る多次元ベクトルに変換することができる。ランダムノイズは、イテレーション間で更新され得る。いくつかの実施形態では、形状回帰器ベースの生成器504は、形状回帰器として機能するニューラルネットワーク(例えば、フィードフォワードニューラルネットワーク)を含むことができる。より具体的には、形状回帰器ベースの生成器504は、候補形状分布(例えば、外形点のセット)を生成するように構成され得る。画像には、形状分布に関連する全ての情報が暗黙的に含まれていることに留意されたい。したがって、形状回帰器ベースの生成器504は、回帰モデルを使用して、画像内の外形点(例えば、ピクセル)を特定することができる。形状回帰器ベースの生成器504によって生成される外形点の数は任意であり得、外形の形状によって決定され得る。外形点が1つずつ生成されるPolygon-RNNアプローチと比較して、形状回帰器ベースの生成器504は、1つのパスを使用して外形全体を生成することができる。形状回帰器ベースの生成器504の出力は、予測された外形点の座標(例えば、((x,y)、(x,y)、...、(x,y))又はそれらの確率分布P(x,y)を含むことができる。形状回帰器ベースの生成器504の出力は、Wスコアベースの識別器508に送信され得る。
識別器訓練入力モジュール506は、訓練サンプル(すなわち、アノテーションされたサンプル画像)をWスコアベースの識別器508に送信することができる。いくつかの実施形態では、識別器訓練入力モジュール506は、グラウンドトゥルース外形点の座標(例えば、(x1*,y1*)、(x2*,y2*)、...、(xm*,ym*)又はそれらの確率分布P(x,y)をWスコアベースの識別器508に送信することができる。
Wスコアベースの識別器508は、形状回帰器ベースの生成器504によって生成された外形点と、アノテーションされたサンプル画像内のグラウンドトゥルース外形点との間のワッサースタイン距離(又はWスコア)を計算することができる。より具体的には、Wスコアは、式(1)を使用して計算され得る。いくつかの実施形態では、Wスコアベースの識別器508は、2つの確率分布に基づいて1-リプシッツ関数を学習することに関与するニューラルネットワークを含むことができ、このニューラルネットワークは、Wスコアを計算する上で必須である。いくつかの実施形態では、Wスコアベースの識別器508は、外形点のx座標及びy座標に関して独立してWスコアを計算し、次いで、それらを組み合わせて合計スコアを得ることができる。これは、より単純な1-リプシッツ関数(確率分布は1つの変数のみを有する)を可能にする。代替実施形態では、Wスコアベースの識別器508は、x座標及びy座標の同時確率分布に基づいてWスコアを計算することができる。
Wスコアベースの識別器508は、形状回帰器ベースの生成器504のパラメータが固定されると、訓練され得る。所定の回数のイテレーション後、Wスコアベースの識別器508は、計算されたWスコアを最適化モジュール510に送信することができ、最適化モジュール510は、最適化条件が満たされたかどうかを判定することができる。最適化条件は、生成器イテレーションの回数が所定の閾値以上であること又はWスコアが所定の値未満であることを含み得る。最適化条件が満たされると、最適化モジュール510は、形状回帰器ベースの生成器504を、その現在の予測を予測された外形点として出力するように構成することができる。そうでなければ、最適化モジュール510は、形状回帰器ベースの生成器504が自身のパラメータを調整し、外形点の新たな予測を生成することができるように、形状回帰器ベースの生成器504に制御信号を送信することができる。このプロセスは、所定の最適化条件(例えば、生成器イテレーションの回数又はWスコアに基づく)が達成されるまで、それ自体を繰り返すことができる。一般に、イテレーション回数が多いほど、多くの場合、外形又は輪郭の予測は良好になり得る。形状回帰器ベースの生成器504の各イテレーションに対して、Wスコアベースの識別器508は、多くの場合、多数回(例えば、約1000回)の訓練イテレーションを実行することに留意されたい。換言すれば、形状回帰器ベースの生成器504のパラメータの各更新に対して、Wスコアベースの識別器508のパラメータは多数回更新されている。
図6は、本発明の一実施形態による、複数回のイテレーション後の輪郭検出ワッサースタインGAN(W-GAN)生成器の出力を示す。上の図面は、149回のイテレーション後の結果を示し、下の図面は、949回のイテレーション後の結果を示す。この例では、訓練サンプルは、曲線602及び606として示される、ドメイン[0,π]内の1次元正弦関数からランダムに選択された100個の点を含み得る。予測された形状(例えば、形状回帰器ベースの生成器の出力)は、曲線604及び608として示されている。形状回帰器ベースの生成器は、例えば、それぞれ50個のニューロンを有する2層のパーセプトロンを含み得、Wスコアベースの識別器は、形状回帰器ベースの生成器と同様のネットワーク構造を有し得る。入力ランダムノイズは、100次元ノイズであり得る。各イテレーションでは、Wスコアベースの識別器は1000ステップで訓練され、形状回帰器ベースの生成器は1ステップで訓練される(すなわち、1ステップのフォワードパスを行う)。図6からわかるように、イテレーション回数が増加すると、予測された形状は真のターゲット形状に近づく。
図7Aは、本発明の一実施形態による、輪郭検出ワッサースタインGAN(W-GAN)の例示的な訓練プロセスを示すフロー図を提示する。動作中、システムは、複数の訓練画像を取得する(動作702)。訓練画像はアノテーションされていることに留意されたい。より具体的には、物体の輪郭又は外形は、それらの訓練画像内でラベル付けされており、形状分布のグラウンドトゥルースを表している。システムは、ランダムノイズを生成する(動作704)。訓練画像及びランダムノイズは組み合わされ、形状回帰器に送信され得る(動作706)。いくつかの実施形態では、形状回帰器は、画像内の物体の輪郭又は外形を検出するように訓練され得るフィードフォワードニューラルネットワークを含むことができる。形状回帰器は、訓練画像の画像形状分布(例えば、少なくとも1つの物体の外形又は輪郭上の点の位置)を予測する(動作708)。いくつかの実施形態では、予測された画像形状分布は、複数の外形点及びそれらの確率分布を含むことができる。外形点の数は、アノテーションされたサンプル画像内でラベル付けされている外形点の数とは異なり得る。アノテーションされたサンプル画像(すなわち、グラウンドトゥルース)及び予測された形状分布は、Wスコア計算器に送信され得る(動作710)。
Wスコア計算器は、予測された形状分布とグラウンドトゥルースとの間のワッサースタイン距離(Wスコア)を計算する(動作712)。より具体的には、Wスコア計算器内のニューラルネットワークは、計算されたWスコアを出力する前に、多数回のイテレーションにわたって訓練されてもよい。次いで、システムは、所定の最適化条件が満たされているかどうかを判定する(動作714)。所定の最適化条件は、形状回帰器のパラメータ更新イテレーションの回数が所定の閾値に達しているかどうか、又はWスコアが閾値未満であるかどうかを含み得る。最適化条件が満たされた場合、システムは形状回帰モデルを出力する(動作716)。そうでなければ、システムは形状回帰器のパラメータを更新し(動作718)、新たな予測が行われる(動作708)。より具体的には、形状回帰器のパラメータは、後に生成されるワッサースタイン距離が低減され得るように、すなわち、予測された形状分布とグラウンドトゥルース形状分布との間の類似性が増すように、更新される。
図7Bは、本発明の一実施形態による、例示的な形状検出プロセスを示すフロー図を提示する。動作中、システムは、少なくとも1つの物体を含む検出対象画像を受信し得る(動作722)。システム内のランダムノイズ生成器は、ランダムノイズを生成し得る(動作724)。いくつかの実施形態では、ランダムノイズは、正規分布又は一様分布を有し得る。次いで、システムは、前に訓練した形状回帰モデルを適用して、検出対象画像内の1つ以上の物体の形状外形を予測し得る(動作726)。いくつかの実施形態では、画像及びノイズは形状回帰器に送信され得、形状回帰器は、訓練した形状回帰モデルを適用する。
一般に、本発明の実施形態は、画像内の物体境界又は外形の迅速な推測のための解決策を提供する。物体の周囲の矩形領域のみを検出する従来のアプローチと比較して、境界検出は、はるかに高い精度を提供することができる。一方、ピクセルレベルのインスタンス分割に基づくアプローチと比較して、現在のW-GANアプローチは、はるかに高速であり得、したがって、リアルタイムアプリケーションを可能にする。例えば、カメラシステムが道路をスキャンすると、画像内の車が、輪郭検出W-GANを使用してリアルタイムで検出され、その車の外形でその車の位置がマーキングされる。同様に、様々な顔検出アプリケーション(例えば、ユーザ認証又は監視)では、矩形ボックスを使用して顔をマーキングする代わりに、各顔の実際の外形が、輪郭検出W-GANを使用して検出及びマーキングされ得る。更に、形状検出能力はまた、様々な物体検出アプリケーションの性能を向上させることもできる。
例示的なコンピュータシステム及び装置
図8は、本発明の一実施形態による、物体形状検出システムを容易にする例示的なコンピュータシステムを示す。コンピュータシステム800は、プロセッサ802、メモリ804、及び記憶デバイス806を含む。コンピュータシステム800は、ディスプレイデバイス810、キーボード812、及びポインティングデバイス814に結合され得、また、1つ以上のネットワークインタフェースを介してネットワーク808に結合され得る。記憶デバイス806は、オペレーティングシステム818及び物体形状検出システム820を記憶することができる。
物体形状検出システム820は、コンピュータシステム800によって実行されると、コンピュータシステム800に、本開示で説明される方法及び/又はプロセスを実行させることができる命令を含むことができる。物体形状検出システム820は、対象となる画像及びアノテーションされた訓練サンプルの両方を含めて、画像を受信するための命令(画像受信モジュール822)と、画像から画像表現を抽出するための命令(画像表現モジュール824)と、ノイズを生成するための命令(ノイズ生成器826)と、を含むことができる。更に、物体形状検出システム820は、形状回帰モデルを適用するための命令(形状回帰器モジュール828)と、予測された形状分布とグラウンドトゥルースとの間のワッサースタイン距離を推定するための命令(ワッサースタイン距離推定モジュール830)と、推定されたワッサースタイン距離に基づいて形状回帰器モジュールのパラメータを最適化するための命令(最適化モジュール832)と、を含むことができる。
図9は、本発明の一実施形態による、物体輪郭検出システムを容易にする例示的な装置を示す。装置900は、有線、無線、量子光、又は電気通信チャネルを介して互いに通信し得る複数のユニット又は装置を備えることができる。装置900は、1つ以上の集積回路を使用して実現され得、図9に示されているものよりも少ない又は多いユニット又は装置を含み得る。更に、装置900は、コンピュータシステムに統合され得るか、又は他のコンピュータシステム及び/若しくはデバイスと通信することができる別個のデバイスとして実現され得る。具体的には、装置900は、図8のコンピュータシステム800のモジュール822~832と同様の機能又は動作を実行するユニット902~912を備えることができ、これには、画像受信ユニット902、画像表現ユニット904、ノイズ生成ユニット906、形状回帰器ユニット908と、ワッサースタイン距離推定ユニット910、及び最適化ユニット912が含まれる。装置900は、通信ユニット914を更に含むことができる。
「発明を実施するための形態」セクションに記載される方法及び処理は、上記のようにコンピュータ可読記憶媒体に記憶され得るコード及び/又はデータとして具体化することができる。コンピュータシステムが、コンピュータ可読記憶媒体上に記憶されたコード及び/又はデータを読み取って実行すると、コンピュータシステムは、データ構造及びコードとして具体化され、コンピュータ可読記憶媒体内に記憶された方法及び処理を実行する。
更に、上述の方法及び処理は、ハードウェアモジュール又は装置に含まれてもよい。ハードウェアモジュール又は装置としては、特定用途向け集積回路(application-specific integrated circuit、ASIC)チップ、フィールドプログラム可能ゲートアレイ(field-programmable gate array、FPGA)、特定の時刻に特定のソフトウェアモジュール又はコードを実行する専用又は共有プロセッサ、及び、既知の又は後に開発される他のプログラム可能論理デバイスを含むことができるが、これらに限定されない。ハードウェアモジュール又は装置が起動されると、それらの内部に含まれる方法及び処理が実行される。

Claims (20)

  1. 画像内の物体の外形を検出するための方法であって、
    少なくとも1つの物体に関連付けられた2次元(2D)情報を含む2D画像を受信することと、
    ランダムノイズ信号を生成することと、
    前記受信した2D画像及び前記ランダムノイズ信号を形状回帰器モジュールに提供することであって、前記形状回帰器モジュールは、前記物体に関連付けられた前記2D情報に基づいて、形状回帰モデルを適用して、前記受信した画像内の物体の形状外形を予測し、前記形状回帰モデルは、アノテーションされた訓練画像のセットによって提供される2D情報を使用して訓練されたワッサースタイン敵対的生成ネットワーク(W-GAN)を含み、それぞれの訓練画像は、前記訓練画像内で少なくとも1つの物体の2Dの真の形状外形を定義することによってアノテーションされる、ことと、を含む、方法。
  2. 前記形状回帰モデルを訓練することを更に含み、前記形状回帰モデルを訓練することが
    前記アノテーションされた訓練画像及びランダムノイズ信号を前記形状回帰モデルに入力して、推定された形状外形を取得することと、
    前記推定された形状外形及び真の形状外形を、前記推定された形状外形及び真の形状外形の確率分布間のワッサースタイン距離を計算する識別器モジュールに提供することと、
    前記識別器モジュールによって計算された前記ワッサースタイン距離に基づいて前記形状回帰モデルのパラメータを最適化することと、を含む、請求項1に記載の方法。
  3. 前記形状回帰モデルを最適化することが、前記計算されたワッサースタイン距離が低減されるように前記形状回帰モデルのパラメータを更新することを含む、請求項2に記載の方法。
  4. 前記形状回帰器モジュールが第1のニューラルネットワークとして実装され、前記識別器モジュールが第2のニューラルネットワークとして実装される、請求項2に記載の方法。
  5. 前記第1及び第2のニューラルネットワークが共に、敵対的生成ネットワーク(GAN)を形成する、請求項4に記載の方法。
  6. 前記予測された形状外形が、前記物体の境界に沿ったデカルトx-y座標に関して定義される、請求項1に記載の方法。
  7. 前記予測された形状外形が、前記物体の境界に属する画像ピクセルの確率に関して定義される、請求項1に記載の方法。
  8. 画像内の物体の外形を検出するための装置であって、
    プロセッサと、
    前記プロセッサに結合され、命令を記憶するメモリであって、前記命令が、前記プロセッサによって実行されると、前記プロセッサに、方法を実行させる、メモリと、
    を備え、
    前記方法は、
    少なくとも1つの物体に関連付けられた2D情報を含む2次元画像を受信することと、
    ランダムノイズ信号を生成することと、
    前記物体に関連付けられた前記2D情報に基づいて、形状回帰モデルを適用して、前記受信した画像内の物体の形状外形を予測するように構成された形状回帰器モジュールに、前記受信した2D画像及び前記ランダムノイズ信号を提供することであって、前記形状回帰モデルは、アノテーションされた訓練画像のセットによって提供される2D情報を使用して訓練されたワッサースタイン敵対的生成ネットワーク(W-GAN)を含み、それぞれの訓練画像は、前記訓練画像内で少なくとも1つの物体の2Dの真の形状外形を定義することによってアノテーションされる、ことと、を含む、装置。
  9. 前記形状回帰モデルの訓練を容易にする識別器モジュールを更に備え
    前記形状回帰モデルを訓練することが、
    前記アノテーションされた訓練画像及びランダムノイズ信号を前記形状回帰モデルに入力して、推定された形状外形を取得することと、
    前記推定された形状外形及び真の形状外形を、前記推定された形状外形及び真の形状外形の確率分布間のワッサースタイン距離を計算する前記識別器モジュールに提供することと、
    前記識別器モジュールによって計算された前記ワッサースタイン距離に基づいて前記形状回帰モデルのパラメータを最適化することと、を含む、請求項8に記載の装置。
  10. 前記形状回帰モデルを最適化することが、前記計算されたワッサースタイン距離が低減されるように前記形状回帰モデルのパラメータを更新することを含む、請求項9に記載の装置。
  11. 前記形状回帰器モジュールが第1のニューラルネットワークとして実装され、前記識別器モジュールが第2の第2のニューラルネットワークとして実装される、請求項9に記載の装置。
  12. 前記第1及び第2のニューラルネットワークが共に、敵対的生成ネットワーク(GAN)を形成する、請求項11に記載の装置。
  13. 前記予測された形状外形が、前記物体の境界に沿ったデカルトx-y座標に関して定義される、請求項8に記載の装置。
  14. 前記予測された形状外形が、前記物体の境界に属する画像ピクセルの確率に関して定義される、請求項8に記載の装置。
  15. 命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記命令が、コンピュータによって実行されると、前記コンピュータに、画像内の物体の外形を検出するための方法を実行させ、前記方法が、
    少なくとも1つの物体に関連付けられた2次元(2D)情報を含む2D画像を受信することと、
    ランダムノイズ信号を生成することと、
    前記受信した2D画像及び前記ランダムノイズ信号を形状回帰器モジュールに提供することであって、前記形状回帰器モジュールは、前記物体に関連付けられた前記2D情報に基づいて、形状回帰モデルを適用して、前記受信した画像内の物体の形状外形を予測し、前記形状回帰モデルは、アノテーションされた訓練画像のセットによって提供される2D情報を使用して訓練されたワッサースタイン敵対的生成ネットワーク(W-GAN)を含み、それぞれの訓練画像は、前記訓練画像内で少なくとも1つの物体の2Dの真の形状外形を定義することによってアノテーションされる、ことと、を含む、非一時的コンピュータ可読記憶媒体。
  16. 前記方法が、前記形状回帰モデルを訓練することを更に含み、前記形状回帰モデルを訓練することが
    前記アノテーションされた訓練画像及びランダムノイズ信号を前記形状回帰モデルに入力して、推定された形状外形を取得することと、
    前記推定された形状外形及び真の形状外形を、前記推定された形状外形及び真の形状外形の確率分布間のワッサースタイン距離を計算する識別器モジュールに提供することと、
    前記識別器モジュールによって計算された前記ワッサースタイン距離に基づいて前記形状回帰モデルのパラメータを最適化することと、を含む、請求項15に記載の非一時的コンピュータ可読記憶媒体。
  17. 前記形状回帰モデルを最適化することが、前記計算されたワッサースタイン距離が低減されるように前記形状回帰モデルのパラメータを更新することを含む、請求項16に記載の非一時的コンピュータ可読記憶媒体。
  18. 前記形状回帰器モジュールが第1のニューラルネットワークとして実装され、前記識別器モジュールが第2のニューラルネットワークとして実装され、前記第1及び第2のニューラルネットワークが共に、敵対的生成ネットワーク(GAN)を形成する、請求項16に記載の非一時的コンピュータ可読記憶媒体。
  19. 前記予測された形状外形が、前記物体の境界に沿ったデカルトx-y座標に関して定義される、請求項15に記載の非一時的コンピュータ可読記憶媒体。
  20. 前記予測された形状外形が、前記物体の境界に属する画像ピクセルの確率に関して定義される、請求項15に記載の非一時的コンピュータ可読記憶媒体。
JP2019212083A 2018-12-17 2019-11-25 ワッサースタイン距離を使用する物体形状回帰 Active JP7263216B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/222,062 US10943352B2 (en) 2018-12-17 2018-12-17 Object shape regression using wasserstein distance
US16/222,062 2018-12-17

Publications (3)

Publication Number Publication Date
JP2020098587A JP2020098587A (ja) 2020-06-25
JP2020098587A5 JP2020098587A5 (ja) 2022-11-29
JP7263216B2 true JP7263216B2 (ja) 2023-04-24

Family

ID=68917481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019212083A Active JP7263216B2 (ja) 2018-12-17 2019-11-25 ワッサースタイン距離を使用する物体形状回帰

Country Status (3)

Country Link
US (1) US10943352B2 (ja)
EP (1) EP3671555A1 (ja)
JP (1) JP7263216B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993825B (zh) * 2019-03-11 2023-06-20 北京工业大学 一种基于深度学习的三维重建方法
DE102019210270A1 (de) * 2019-05-23 2020-11-26 Robert Bosch Gmbh Verfahren zum Trainieren eines Generative Adversarial Networks (GAN), Generative Adversarial Network, Computerprogramm, maschinenlesbares Speichermedium und Vorrichtung
US11068753B2 (en) * 2019-06-13 2021-07-20 Visa International Service Association Method, system, and computer program product for generating new items compatible with given items
CN113362351A (zh) * 2020-03-05 2021-09-07 阿里巴巴集团控股有限公司 一种图像处理方法、装置、电子设备以及存储介质
US11823379B2 (en) * 2020-08-05 2023-11-21 Ping An Technology (Shenzhen) Co., Ltd. User-guided domain adaptation for rapid annotation from user interactions for pathological organ segmentation
US20220051017A1 (en) * 2020-08-11 2022-02-17 Nvidia Corporation Enhanced object identification using one or more neural networks
US11762951B2 (en) * 2020-11-18 2023-09-19 Adobe Inc. Generative image congealing
CN112633350B (zh) * 2020-12-18 2021-10-01 湖北工业大学 一种基于图卷积的多尺度点云分类实现方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8358839B2 (en) * 2009-11-30 2013-01-22 Xerox Corporation Local regression methods and systems for image processing systems
CN103093490B (zh) * 2013-02-02 2015-08-26 浙江大学 基于单个视频摄像机的实时人脸动画方法
EP3136290A1 (en) * 2015-08-28 2017-03-01 Thomson Licensing Method and device for determining the shape of an object represented in an image, corresponding computer program product and computer readable medium
WO2018010101A1 (en) * 2016-07-12 2018-01-18 Microsoft Technology Licensing, Llc Method, apparatus and system for 3d face tracking
EP4131172A1 (en) * 2016-09-12 2023-02-08 Dassault Systèmes Deep convolutional neural network for 3d reconstruction of a real object
US10679046B1 (en) * 2016-11-29 2020-06-09 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Machine learning systems and methods of estimating body shape from images
WO2018140596A2 (en) * 2017-01-27 2018-08-02 Arterys Inc. Automated segmentation utilizing fully convolutional networks
US10497257B2 (en) * 2017-08-31 2019-12-03 Nec Corporation Parking lot surveillance with viewpoint invariant object recognition by synthesization and domain adaptation
US10614557B2 (en) * 2017-10-16 2020-04-07 Adobe Inc. Digital image completion using deep learning
US10733699B2 (en) * 2017-10-24 2020-08-04 Deep North, Inc. Face replacement and alignment
US10878529B2 (en) * 2017-12-22 2020-12-29 Canon Medical Systems Corporation Registration method and apparatus
US11445994B2 (en) * 2018-01-24 2022-09-20 Siemens Healthcare Gmbh Non-invasive electrophysiology mapping based on affordable electrocardiogram hardware and imaging
US20190347567A1 (en) * 2018-03-13 2019-11-14 Genetic Intelligence, Inc. Methods for data segmentation and identification
US10825227B2 (en) * 2018-04-03 2020-11-03 Sri International Artificial intelligence for generating structured descriptions of scenes
US10614207B1 (en) * 2019-07-09 2020-04-07 Capital One Services, Llc Generating captcha images using variations of the same object

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Christian F. Baumgartner, 外4名,"Visual Feature Attribution Using Wasserstein GANs",2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,米国,IEEE,2018年06月23日,p.8309-8319
WANCHAO SU, 外4名,"Interactive Sketch-Based Normal Map Generation with Deep Neural Networks",Proceedings of the ACM on Computer Graphics and Interactive Techniques,第1巻, 第1号,2018年07月25日,p.1-17
ZIQIANG ZHENG, 外4名,"Instance Map Based Image Synthesis With a Denoising Generative Adversarial Network",IEEE Access,第6巻,米国,IEEE,2018年06月20日,p.33654-33665
上西和樹, 外2名,"敵対的生成ネットワークを用いた,3次元点群形状特徴量の教師なし学習",研究報告コンピュータグラフィックスとビジュアル情報学(CG),日本,情報処理学会,2018年06月14日,p.1-7
久保田涼介, 外1名,"全層畳み込みニューラルネットワークを用いた透明物体の輪郭抽出",電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2018年05月10日,第118巻, 第35号,p.41-46
榎木谷侑生, 外2名,"Adversarial U-Net for Liver Segmentation",電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2018年03月12日,第117巻, 第518号,p.67-68

Also Published As

Publication number Publication date
EP3671555A1 (en) 2020-06-24
JP2020098587A (ja) 2020-06-25
US20200193607A1 (en) 2020-06-18
US10943352B2 (en) 2021-03-09

Similar Documents

Publication Publication Date Title
JP7263216B2 (ja) ワッサースタイン距離を使用する物体形状回帰
US20230229919A1 (en) Learning to generate synthetic datasets for training neural networks
US10672131B2 (en) Control method, non-transitory computer-readable storage medium, and control apparatus
US11062207B2 (en) Control systems using deep reinforcement learning
CN108496127B (zh) 集中于对象的有效三维重构
US20220254157A1 (en) Video 2D Multi-Person Pose Estimation Using Multi-Frame Refinement and Optimization
EP3385909B1 (en) Optical flow determination system
US11074438B2 (en) Disentangling human dynamics for pedestrian locomotion forecasting with noisy supervision
CN104794733A (zh) 对象跟踪方法和装置
CN106127120A (zh) 姿势估计方法和装置、计算机系统
CN112395987A (zh) 基于无监督域适应cnn的sar图像目标检测方法
JP2020038660A (ja) CNN(Convolutional Neural Network)を利用して車線を検出するための学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{LEARNING METHOD, LEARNING DEVICE FOR DETECTING LANE USING CNN AND TEST METHOD, TEST DEVICE USING THE SAME}
KR102695522B1 (ko) 이미지 인식 모델을 트레이닝시키는 장치 및 방법과 이미지 인식 장치 및 방법
US11928813B2 (en) Method and system for detecting change to structure by using drone
CN111354022B (zh) 基于核相关滤波的目标跟踪方法及系统
Le et al. Human detection and tracking for autonomous human-following quadcopter
US20230281981A1 (en) Methods, devices, and computer readable media for training a keypoint estimation network using cgan-based data augmentation
US11657506B2 (en) Systems and methods for autonomous robot navigation
CN117372536A (zh) 激光雷达与相机标定方法、系统、设备和存储介质
Chen et al. Towards bio-inspired place recognition over multiple spatial scales
CN112949761A (zh) 三维图像神经网络模型的训练方法、装置和计算机设备
US20240095934A1 (en) Image processing apparatus, training apparatus, image processing method, training method, and non-transitory computer-readable medium
Colling Uncertainty Quantification and its Applications for Multimodal Semantic Segmentation
Oleksiienko et al. Variational Voxel Pseudo Image Tracking
JP2023048873A (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191129

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20191129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221118

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221118

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20221118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230412

R150 Certificate of patent or registration of utility model

Ref document number: 7263216

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150