Nothing Special   »   [go: up one dir, main page]

JP6832504B2 - 物体追跡方法、物体追跡装置およびプログラム - Google Patents

物体追跡方法、物体追跡装置およびプログラム Download PDF

Info

Publication number
JP6832504B2
JP6832504B2 JP2017098560A JP2017098560A JP6832504B2 JP 6832504 B2 JP6832504 B2 JP 6832504B2 JP 2017098560 A JP2017098560 A JP 2017098560A JP 2017098560 A JP2017098560 A JP 2017098560A JP 6832504 B2 JP6832504 B2 JP 6832504B2
Authority
JP
Japan
Prior art keywords
image
feature amount
neural network
objects
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017098560A
Other languages
English (en)
Other versions
JP2018026108A (ja
Inventor
ヤン キム ミン
ヤン キム ミン
宗太郎 築澤
宗太郎 築澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to CN201780003689.5A priority Critical patent/CN108352072B/zh
Priority to EP17839122.3A priority patent/EP3499454B1/en
Priority to PCT/JP2017/024932 priority patent/WO2018030048A1/ja
Publication of JP2018026108A publication Critical patent/JP2018026108A/ja
Priority to US16/171,923 priority patent/US10803602B2/en
Application granted granted Critical
Publication of JP6832504B2 publication Critical patent/JP6832504B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Description

本開示は、物体追跡方法、物体追跡装置およびプログラムに関し、特にニューラルネットワークを用いてコンピュータが行う物体追跡方法、物体追跡装置およびそのプログラムに関する。
例えば動画像に映る複数の対象物体を追跡する物体追跡技術にDeep Learningを用いることが提案されている(例えば非特許文献1〜3)。非特許文献1〜3では、Deep Learningで用いられるニューラルネットワークに、時系列情報を扱えるリカレントニューラルネットワーク(Recurrent Neural Network)を利用する。これにより、動画像間に映る複数の対象物体の流れなどの時間的情報を扱えるので、Deep Learningを用いた物体追跡技術を実現できる。
Gan, Q., Guo, Q., Zhang, Z., Cho, K.: First step toward model-free, anonymous object tracking with recurrent neural networks. CoRR abs/1511.06425 Kahou, S.E., Michalski, V., Memisevic, R.: RATM: recurrent attentive tracking model. CoRR abs/1510.08660(2015) Ondruska, P., Posner, I.: Deep tracking: Seeing beyond seeing using recurrent neural networks. CoRR abs/1602.00991(2016)
しかしながら、上記非特許文献1〜3で提案されているDeep Learningを用いた物体追跡技術は、リカレントニューラルネットワークを利用していることから、演算量が非常に多く処理速度が遅い。このため、例えば、事故などの可能性を事前に検知し回避するシステムであるADAS(Advanced Driver Assistance System:先進運転支援システム)など、リアルタイムな物体追跡が要求されるシステムには、当該物体追跡技術を適用することは難しい。
本開示は、上述の事情を鑑みてなされたもので、Deep Learningを用いた物体追跡の処理速度をより向上できる物体追跡方法、物体追跡装置およびプログラムを提供することを目的とする。
上記課題を解決するために、本開示の一形態に係る物体追跡方法は、ニューラルネットワークを用いてコンピュータが行う物体追跡方法であって、それぞれ1以上の物体が映り、時系列に連続した2以上の画像を、前記ニューラルネットワークに入力する入力ステップと、前記入力ステップにおいて入力された前記2以上の画像それぞれの特徴量であって前記ニューラルネットワークに抽出させた特徴量を比較して類似性を照合することで、前記2以上の画像のうちの時系列で前の画像に映る追跡候補である1以上の物体に一致する、前記前の画像より時系列で後の画像に映る1以上の物体の識別情報および位置情報を、識別結果として出力する出力ステップとを含み、前記ニューラルネットワークは、以上の全結合層と以上の畳み込み層とを有する同一構造を2以上含み、前記同一構造間の対応する層でパラメータを共有する。
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本開示の物体追跡方法等によれば、Deep Learningを用いた物体追跡の処理速度をより向上できる。
図1は、実施の形態における物体追跡装置の構成の一例を示すブロック図である。 図2は、図1に示す出力部の詳細構成の一例を示すブロック図である。 図3は、図2に示す抽出部が用いるニューラルネットワークの構造の一例の説明図である。 図4は、図3に示す基本ニューラルネットワークの構造の一例の説明図である。 図5は、実施の形態における物体追跡装置の処理例を示すフローチャートである。 図6Aは、実施の形態における物体追跡装置への入力画像の一例を示す図である。 図6Bは、実施の形態における物体追跡装置への入力画像の一例を示す図である。 図7は、実施の形態における物体追跡装置が行う処理のイメージを示す図である。 図8は、実施の形態における物体追跡装置が行う処理のイメージを示す図である。 図9Aは、実施の形態における物体追跡装置の処理結果の一例を示す図である。 図9Bは、実施の形態における物体追跡装置の処理結果の一例を示す図である。 図10は、実施の形態における学習処理の概要を示すフローチャートである。 図11は、実施の形態における一段階目の学習処理で用いる基本ニューラルネットワークの構造の一例の説明図である。 図12は、実施の形態における二段階目の学習処理で用いるニューラルネットワークの構造の一例の説明図である。 図13は、実施例1におけるMarket-1501データセットを用いた学習時誤差を示す図である。 図14は、実施例1におけるMarket-1501データセットを用いた検証時誤差を示す図である。 図15Aは、実施例1における検証用のMarket-1501データセットを用いて得た特徴量のユークリッド距離を示す図である。 図15Bは、実施例1における検証用のMarket-1501データセットを用いて得た特徴量のユークリッド距離を示す図である。 図16Aは、実施例1における検証用のMot16データセットを用いて得た特徴量のユークリッド距離を示す図である。 図16Bは、実施例1における検証用のMot16データセットを用いて得た特徴量のユークリッド距離を示す図である。 図16Cは、実施例1における検証用のMot16データセットを用いて得た特徴量のユークリッド距離を示す図である。 図17Aは、実施例1における検証用のMot16データセットを用いて得た特徴量のユークリッド距離を示す図である。 図17Bは、実施例1における検証用のMot16データセットを用いて得た特徴量のユークリッド距離を示す図である。 図17Cは、実施例1における検証用のMot16データセットを用いて得た特徴量のユークリッド距離を示す図である。 図18Aは、実施例1における学習用のMot16データセットを用いて得た特徴量のユークリッド距離を示す図である。 図18Bは、実施例1における学習用のMot16データセットを用いて得た特徴量のユークリッド距離を示す図である。 図18Cは、実施例1における学習用のMot16データセットを用いて得た特徴量のユークリッド距離を示す図である。 図19Aは、実施例1における学習用のMot16データセットを用いて得た特徴量のユークリッド距離を示す図である。 図19Bは、実施例1における学習用のMot16データセットを用いて得た特徴量のユークリッド距離を示す図である。 図19Cは、実施例1における学習用のMot16データセットを用いて得た特徴量のユークリッド距離を示す図である。 図20は、実施例1における所定のアルゴリズムの一例を示す図である。 図21は、実施例2におけるMOT16 Train Data setのベンチマーク評価結果を示す図である。 図22は、実施例2におけるMOT16 Test Data setのベンチマーク評価結果を示す図である。
(本開示の一態様を得るに至った経緯)
物体追跡は、機械視覚(マシン・ビジョン)の認識に対する関心の高まりとともに、急速に発展している。また、物体追跡は、オブジェクトを高いレベルで理解することへの関心の高まりにより、コンピュータ・ビジョンにおいて最も活発になされているトピックの1つになっている。物体追跡では、スポーツ分析の分野でさえ、監視システムにより他律的に動作させることから自律的に動作させることに目的を変化させるなど、追跡性能を向上させるための広いアプローチがすでにある。
しかし、機械視覚が物体追跡を行うためには、データセットに依存する多数のパラメータを調整する必要があり、ADASなど、リアルタイムに物体追跡が要求されるシステムに適用するためには、重大な制限となる。
近年、DNNs(Deep Neural Networks)は、大量の特徴を学習できることから、広く使用されるようになってきた。そのため、DNNsを用いて物体追跡システムを構築する技術も積極的に提案されてきている(例えば上記非特許文献1〜3)。非特許文献1〜3では、上述したように、Deep Learningに用いるニューラルネットワークに、物体の移動の流れなどの時間的情報(時系列情報)を組み込めるリカレントニューラルネットワーク(RNN)が利用される。物体の移動の流れなどの時間的情報は、動画像中における対象物体の流れの関係はもちろん、動画像中にわたる物体の追跡においても重要である。
しかし、非特許文献1〜3で提案される物体追跡技術は、非常に多くの演算を必要とするため、処理速度が遅くなってしまうという課題を有している。
そこで、本開示の一形態に係る物体追跡方法は、ニューラルネットワークを用いてコンピュータが行う物体追跡方法であって、それぞれ1以上の物体が映り、時系列に連続した2以上の画像を、前記ニューラルネットワークに入力する入力ステップと、前記入力ステップにおいて入力された前記2以上の画像それぞれの特徴量であって前記ニューラルネットワークに抽出させた特徴量を比較して類似性を照合することで、前記2以上の画像のうちの時系列で前の画像に映る追跡候補である1以上の物体に一致する、前記前の画像より時系列で後の画像に映る1以上の物体の識別情報および位置情報を、識別結果として出力する出力ステップとを含み、前記ニューラルネットワークは、以上の全結合層と以上の畳み込み層とを有する同一構造を2以上含み、前記同一構造間の対応する層でパラメータを共有する。
これにより、Deep Learningを用いた物体追跡の処理速度をより向上できる物体追跡方法を実現できる。
ここで、例えば、前記入力ステップでは、それぞれ1以上の物体が映り、時系列に連続した第1画像および第2画像を前記ニューラルネットワークに入力し、前記出力ステップでは、前記入力ステップにおいて入力された前記第1画像に映る追跡候補である1以上の物体それぞれの第1特徴量、および、前記第2画像に映る1以上の物体それぞれの第2特徴量を前記ニューラルネットワークに抽出させ、抽出させた前記第1特徴量および前記第2特徴量を比較して類似性を照合することで、前記第1画像に映る前記追跡候補それぞれに一致する前記第2画像に映る1以上の物体の識別情報および位置情報を、識別結果として出力し、前記ニューラルネットワークは、前記同一構造を2つ含み、2つの前記同一構造で前記第1画像の前記第1特徴量および前記第2画像の前記第2特徴量を抽出するとしてもよい。
また、例えば、前記入力ステップでは、それぞれ1以上の物体が映り、時系列に連続した第1画像、第2画像および第3画像を前記ニューラルネットワークに入力し、前記出力ステップでは、前記入力ステップにおいて入力された前記第1画像に映る追跡候補である1以上の物体それぞれの第1特徴量、前記第2画像に映る1以上の物体それぞれの第2特徴量、および、前記第3画像に映る1以上の物体それぞれの第3特徴量を前記ニューラルネットワークに抽出させ、抽出した前記第1特徴量、前記第2特徴量および前記第3特徴量を比較して類似性を照合することで、前記第1画像に映る前記追跡候補それぞれに一致する前記第2画像および前記第3画像に映る1以上の物体の識別情報および位置情報を、識別結果として出力し、前記ニューラルネットワークは、前記同一構造を3つ含み、3つの前記同一構造で前記第1画像の前記第1特徴量、前記第2画像の前記第2特徴量および前記第3画像の前記第3特徴量を抽出するとしてもよい。
また、例えば、前記物体追跡方法は、さらに、前記入力ステップを行う前に、同一物体が映る2つ以上の画像であるペア画像と非同一物体が映る2つ以上の画像である非ペア画像とを複数含む学習用データを用いて、前記ニューラルネットワークに、前記ペア画像それぞれから、比較による類似性の照合において同一物体を示す特徴量を抽出させるための前記パラメータを学習させる学習ステップを含むとしてもよい。
また、例えば、前記ニューラルネットワークは、さらに、前記2以上の同一構造の外に、前記入力ステップにおいて入力された前記2以上の画像に映る1以上の物体の位置変化および当該画像中の領域変化を算出する追加層を有するとしてもよい。
また、例えば、前記物体追跡方法は、さらに、前記入力ステップを行う前に、同一物体が映る2つ以上の画像であるペア画像と非同一物体が映る2つ以上の画像である非ペア画像とを複数含む学習用データを用いて、前記ニューラルネットワークのうちの前記2以上の同一構造に、前記ペア画像それぞれから、比較による類似性の照合において同一物体を示す特徴量を抽出させるための、前記パラメータを学習させる第1学習ステップと、前記第1学習ステップで学習させた前記パラメータを前記2以上の同一構造に反映させた前記ニューラルネットワークに、前記学習用データを用いて、前記ペア画像それぞれから、比較による類似性の照合において同一物体を示す特徴量を抽出させるための前記パラメータを学習させる第2学習ステップとを含むとしてもよい。
また、例えば、前記比較による類似性は、前記2つ以上の同一構造で抽出された前記入力ステップにおいて入力された前記2以上の画像それぞれの特徴量の距離の比較により評価されるとしてもよい。
また、例えば、前記比較による類似性は、前記2以上の画像それぞれの特徴量のユークリッド距離を用いた誤差関数を用いて評価されるとしてもよい。
また、例えば、前記2つ以上の同一構造はそれぞれ、前記入力ステップにおいて入力された前記2以上の画像のうち対応する画像の特徴量を、当該画像の次元よりも減じた次元で抽出し、前記2つ以上の同一構造それぞれで抽出される特徴量の次元は同一であるとしてもよい。
また、例えば、前記2以上の画像に映る1以上の物体は、人物および車両のうちの少なくとも一方であるとしてもよい。
以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
(実施の形態1)
以下では、図面を参照しながら、実施の形態1における物体追跡装置10の物体追跡方法等の説明を行う。
[物体追跡装置10の構成]
図1は、本実施の形態における物体追跡装置10の構成の一例を示すブロック図である。図2は、図1に示す出力部12の詳細構成の一例を示すブロック図である。
物体追跡装置10は、ニューラルネットワークを用いたコンピュータ等で実現され、図1に示すように入力部11と出力部12とで構成されている。物体追跡装置10は、追跡対象が映る映像が入力されると、追跡対象の物体の識別情報および位置情報を含む追跡結果を出力する。なお、物体追跡装置10は、追跡結果を付与した映像を出力してもよい。
<入力部11>
入力部11は、それぞれ1以上の物体が映り、時系列に連続した2以上の画像を、ニューラルネットワークに入力する。より具体的には、入力部11は、それぞれ1以上の物体が映り、時系列に連続した第1画像および第2画像をニューラルネットワークに入力する。なお、入力部11は、それぞれ1以上の物体が映り、時系列に連続した第1画像、第2画像および第3画像をニューラルネットワークに入力してもよい。
本実施の形態では、入力部11は、時系列に連続した2つの画像である第1画像および第2画像を出力部12の抽出部121に入力するとして説明する。なお、入力部11は、時系列に連続した3つの画像である第1画像、第2画像および第3画像を出力部12の抽出部121に入力してもよい。また、1以上の物体は、人物および車両のうちの少なくとも一方であればよいが、これら以外であってもよい。
<出力部12>
出力部12は、図2に示すように、抽出部121と、照合部122と、追跡結果出力部123とを備える。出力部12は、入力部11に入力された映像に対する追跡結果を出力する。例えば、出力部12は、入力部11に入力された映像に含まれる時系列画像において、時系列で前の画像に含まれる追跡対象の物体と一致する、時系列で後の画像に含まれる物体の識別情報および位置情報を追跡結果として出力する。なお、出力部12は、入力部11に入力された映像に追跡結果を付与して出力してもよい。つまり、出力部12は、時系列で後の画像に含まれる物体に、時系列で前の画像に含まれる同一物体に付された識別情報と同一の識別情報を付した映像を出力してもよい。
≪抽出部121≫
抽出部121は、ニューラルネットワークを用いて、入力部11により入力された2以上の画像それぞれの特徴量(特徴マップ)を抽出する。つまり、当該特徴量は特徴マップであってもよい。ここで、当該ニューラルネットワークは、以上の全結合層と以上の畳み込み層とを有する同一構造を2以上含み、同一構造間の対応する層でパラメータを共有する。当該ニューラルネットワークは、さらに当該2以上の同一構造の外に、入力部11により入力される2以上の画像に映る1以上の物体の位置変化および当該画像中の領域変化を算出する追加層を有する。そして、当該2つ以上の同一構造はそれぞれ、入力部11により入力された2以上の画像のうち対応する画像の特徴量を、当該画像の次元よりも減じた次元で抽出し、2つ以上の同一構造それぞれで抽出される特徴量の次元は同一である。
本実施の形態では、抽出部121は、以上の全結合層と以上の畳み込み層とを有する同一構造を2つ含み、同一構造間の対応する層でパラメータを共有し、かつ、当該2つの同一構造の外に、入力部11により入力される2つの画像に映る1以上の物体の位置変化および当該画像中の領域変化を算出する追加層を有するニューラルネットワークを用いる。そして、抽出部121は、入力部11により入力された第1画像に映る追跡候補である1以上の物体それぞれの第1特徴量、および、第2画像に映る1以上の物体それぞれの第2特徴量を、当該ニューラルネットワークを用いて抽出する。
なお、入力部11により、時系列に連続した3つの画像である第1画像、第2画像および第3画像が入力される場合、抽出部121は、以上の全結合層と以上の畳み込み層とを有する同一構造を3つ含み、同一構造間の対応する層でパラメータを共有し、かつ、当該3つの同一構造の外に、入力部11により入力される3つの画像に映る1以上の物体の位置変化および当該画像中の領域変化を算出する追加層を有するニューラルネットワークを用いてもよい。すなわち、抽出部121は、入力部11により入力された第1画像に映る追跡候補である1以上の物体それぞれの第1特徴量、第2画像に映る1以上の物体それぞれの第2特徴量、および、第3画像に映る1以上の物体それぞれの第3特徴量を、当該ニューラルネットワークを用いて抽出してもよい。
ここで、本実施の形態の抽出部121が用いるニューラルネットワークの構造の一例について説明する。図3は、図2に示す抽出部121が用いるニューラルネットワーク121aの構造の一例の説明図である。図4は、図3に示す基本ニューラルネットワーク1211の構造の一例の説明図である。
本実施の形態の抽出部121が用いるニューラルネットワーク121aの構造は、例えば図4に示す基本ニューラルネットワーク1211(N)を拡張したものに相当する。
図4に示す基本ニューラルネットワーク1211は、5つの畳み込み層(conv1〜conv5)と、2つのプーリング層(poo1, poo2)と、2つの全結合層(fc1,fc2)とを有する同一構造を2つ含み、同一構造間の対応する5つの畳み込み層と2つの全結合層とでパラメータを共有している。なお、このようにプーリング層を除く同一構造の対応する層でパラメータを共有するニューラルネットワークはサイアミーズニューラルネットワーク(Siamese neural network)とも呼ばれる。
図4に示すように、各畳み込み層では、活性化関数として例えば双曲線正接(tanh)を使用する。また、最初の全結合層(fc1)では、活性化関数として例えばランプ関数(Rectified Linear Unit(ReLU))を使用する。フィルタのサイズすなわちカーネルサイズは、例えばconv1では5x5、pool1では2x2、conv2では3x3、pool2では2x2、conv3では3x3、conv4では2x2、conv5では2x2、fc1では2048、fc2では1024としている。なお、これらは一例であり、上記とは異なる活性化関数およびカーネルサイズとしてもよい。また、図4に示す基本ニューラルネットワーク1211では、同一構造内での畳み込み層を5つ有する場合を例に挙げているが、これに限らない。同一構造内での畳み込み層の数を増やすと画像の特徴抽出する際の認識精度が向上する一方で演算量が増え処理時間を要するため、適宜決定すればよい。
いずれにせよ、基本ニューラルネットワーク1211は、2以上の同一構造を有し、当該同一構造の対応する層でパラメータを共有すればよい。そして、このような基本ニューラルネットワーク1211は、入力された第1画像および第2画像の特徴量を、同一の次元で、かつ、第1画像および第2画像の次元よりも減じた次元で抽出できる。
図3に示すニューラルネットワーク121aは、図4に示す基本ニューラルネットワーク1211の外に、入力部11により入力される2以上の画像に映る1以上の物体の位置変化および当該画像中の領域変化を算出する追加層1217および追加層1219を少なくとも有する。また、ニューラルネットワーク121aは、図4に示す基本ニューラルネットワーク1211の外に、特徴層1212および特徴層1213を有する。なお、ニューラルネットワーク121aは、サイアミーズニューラルネットワーク(Siamese neural network)である基本ニューラルネットワーク1211(NB:Base Network)を拡張したものであるので、拡張サイアミーズニューラルネットワーク(Enhanced Siamese neural network(ESNN))と称する場合もある。
より具体的には、図3に示すニューラルネットワーク121aは、基本ニューラルネットワーク1211、特徴層1212、特徴層1213、特徴結合層1214、特徴結合層1215、次元処理層1216、次元処理層1218、追加層1217および追加層1219で構成されている。
特徴層1212は、基本ニューラルネットワーク1211が抽出した第1画像についての例えば2次元または4次元の特徴量(特徴マップ)を出力する層である。つまり、特徴層1212のカーネルサイズは、2または4である。このように特徴層1212が出力する第1画像の特徴量は、第1画像の次元数(数百万)と比較して大幅に減っている。同様に、特徴層1213は、基本ニューラルネットワーク1211が抽出した第2画像についての例えば2次元または4次元の特徴量(特徴マップ)を出力する層である。つまり、特徴層1213のカーネルサイズは、2または4である。このように特徴層1213が出力する第2画像の特徴量は、第2画像の次元数(数百万)と比較して大幅に減っている。なお、特徴層1212および特徴層1213のカーネルサイズは、2または4に限らず1以上であればよい。
なお、特徴層1212および特徴層1213は、基本ニューラルネットワーク1211の外に位置するが、基本ニューラルネットワーク1211の出力層でもある。
次元処理層1216は、活性化関数として例えばランプ関数(Rectified Linear Unit(ReLU))を使用する畳み込み層からなり、次元を増やす処理および次元を減らす処理を行う。次元処理層1216は、特徴層1212および特徴層1213が保持する特徴量の次元を増やして、追加層1217に入力する。また、次元処理層1216は、追加層1217が出力する位置評価量の次元を減らして、特徴結合層1214および特徴結合層1215に入力する。
次元処理層1218は、同様に、活性化関数として例えばランプ関数(Rectified Linear Unit(ReLU))を使用する畳み込み層からなり、次元を増やす処理および次元を減らす処理を行う。次元処理層1218は、特徴層1212および特徴層1213が保持する特徴量の次元を増やして、追加層1219に入力する。また、次元処理層1218は、追加層1217が出力する領域の大きさ評価量の次元を減らして、特徴結合層1214および特徴結合層1215に入力する。
追加層1217は、第1画像と第2画像に映る1以上の物体すなわち追跡対象物体の位置変化を追加特徴量として算出する。追加層1217は、例えば第1画像と第2画像に示される追跡対象物体を含むボックス(box:矩形の箱)の領域同士において(共通集合の面積/和集合の面積)の計算を行う。このように追加層1217は、IoU(Intersection-over-Union)を計算することで、追跡対象物体の位置変化を追加特徴量として算出する。
追加層1219は、第1画像と第2画像に映る1以上の物体すなわち追跡対象物体の領域の大きさの変化を追加特徴量として算出する。追加層1219は、例えば第1画像と第2画像に示される追跡対象物体を示すボックスの領域の(最小面積/最大面積)の計算を行う。このように追加層1219は、領域の大きさの変化をAreaRatio(面積比)で計算することで、追跡対象物体の領域変化を追加特徴量として算出する。
なお、次元処理層1216および次元処理層1218は、特徴層1212および特徴層1213が保持する特徴量と、追加層1217および追加層1217が算出する追加特徴量との次元が異なれば必要だが、次元が同じであれば必要ない。
特徴結合層1214は、特徴層1212が有する第1画像における特徴量と、追加層1217、追加層1219で算出した追加特徴量とを結合する。同様に、特徴結合層1215は、特徴層1213が有する第2画像における特徴量と、追加層1217、追加層1219で算出した追加特徴量とを結合する。
このようにして、抽出部121は、ニューラルネットワーク121aを用いて、入力部11により入力された2以上の画像それぞれの特徴量(特徴マップ)を抽出することで、追跡候補の位置変化および領域変化を考慮した追跡候補の画像上の類似性を得ることができる。なお、特徴マップは類似行列の形で得てもよいし、ベクトル表記の形で得てもよい。また、特徴マップは、追跡候補の画像上の類似性を示すことから、類似性マッピング(Similarity Mapping)と称する場合もある。
≪照合部122≫
照合部122は、ニューラルネットワークに抽出させた特徴量(特徴マップ)を照合する。本実施の形態では、照合部122は、抽出部121が抽出した第1画像に映る追跡候補である1以上の物体それぞれの第1特徴量および第2画像に映る1以上の物体それぞれの第2特徴量を照合する。より具体的には、照合部122は、所定のアルゴリズムを用いて、抽出部121で抽出された第1特徴量および第2特徴量を照合する。照合部122は、例えばユークリッド距離を用いて、抽出部121で抽出された第1特徴量および第2特徴量の距離を評価することで、追跡候補の位置変化および領域変化を考慮した追跡候補の画像上の類似性を照合する。なお、第1特徴量および第2特徴量の距離の評価方法は、ユークリッド距離を用いる場合に限らない。例えば、マンハッタン距離を用いてもよいしマハビラス距離を用いてもよい。
なお、入力部11により、時系列に連続した3つの画像である第1画像、第2画像および第3画像が入力される場合、照合部122は、抽出部121が抽出した第1特徴量、第2特徴量および第3特徴量を照合すればよい。
≪追跡結果出力部123≫
追跡結果出力部123は、2以上の画像のうちの時系列で前の画像に映る追跡候補である1以上の物体に一致する、前の画像より時系列で後の画像に映る1以上の物体の識別情報および位置情報を、識別結果として出力する。
本実施の形態では、追跡結果出力部123は、第1画像に映る追跡候補それぞれに一致する第2画像に映る1以上の物体の識別情報および位置情報を、識別結果として出力する。また、入力部11により、時系列に連続した3つの画像である第1画像、第2画像および第3画像が入力される場合、追跡結果出力部123は、第1画像に映る追跡候補それぞれに一致する第2画像および第3画像に映る1以上の物体の識別情報および位置情報を、識別結果として出力する。
なお、追跡結果出力部123は、第1画像に映る追跡候補それぞれと同一物体である旨を示す識別情報を付した第2画像を出力してもよい。例えば、第1画像に映る追跡候補に例えば識別番号が付されていた場合、追跡結果出力部123は、第1画像に映る追跡候補と同一物体の第2画像に映る追跡候補に同一の識別番号を付した第2画像を識別結果として出力してもよい。
また、入力部11により、時系列に連続した3つの画像である第1画像、第2画像および第3画像が入力される場合、追跡結果出力部123は、第1画像に映る追跡候補それぞれに一致する第2画像および第3画像に映る1以上の物体に、第1画像に映る追跡候補それぞれと同一物体である旨を示す識別情報を付した第2画像および第3画像を出力してもよい。
[物体追跡装置10の動作等]
次に、以上のように構成される物体追跡装置10の動作等について説明する。
図5は、本実施の形態における物体追跡装置10の処理例を示すフローチャートである。図6Aおよび図6Bは、本実施の形態における物体追跡装置10への入力画像の一例を示す図である。図7および図8は、本実施の形態における物体追跡装置10が行う処理のイメージを示す図である。図9Aのおよび図9Bは、本実施の形態における物体追跡装置10の処理結果の一例を示す図である。
まず、物体追跡装置10に追跡対象が映る映像を入力する(S1)。より具体的には、物体追跡装置10のコンピュータは、当該映像を構成する画像のうちの2以上の画像であってそれぞれ1以上の物体が映り、時系列に連続した2以上の画像をニューラルネットワーク121aに入力する。例えば、物体追跡装置10のコンピュータは、図6Aおよび図6Bに示す時系列に連続した、追跡対象が映る画像50t−1および画像50を、ニューラルネットワーク121aに入力する。
ここで、図6Aに示す画像50t−1は物体追跡装置10に入力される時系列で前の第1画像の一例であり、追跡対象である二人の人物を含む領域であるボックスに1または2の識別番号が付されている。一方、図6Bに示す画像50は物体追跡装置10に入力される時系列で後の第2画像の一例であるが、追跡対象である二人の人物を含む領域であるボックスには識別番号が付されていない。
次に、物体追跡装置10のコンピュータは、ニューラルネットワーク121aにS1で入力された2以上の画像の追跡対象の物体の特徴量である特徴マップを推定させ、推定させた特徴マップを照合することで得た追跡結果を出力する(S2)。
より具体的には、物体追跡装置10のコンピュータは、まず、ニューラルネットワーク121aにS1で入力された2以上の画像それぞれの特徴量である特徴マップを抽出させる。図7に示す例では、同一構造の対応する層でパラメータを共有するニューラルネットワーク121aを用いて、特徴マップを抽出する処理のイメージが示されている。
次いで、物体追跡装置10のコンピュータは、ニューラルネットワーク121aを用いて得た特徴マップを照合することで、時系列で前の画像に映る追跡候補である1以上の物体と一致する時系列で後の画像に映る1以上の物体を識別する。図8に示す例では、第1画像である画像50t−1のボックスに含まれる追跡対象の人物と、第2画像である画像50のボックスに含まれる追跡対象の人物との特徴マップを、所定のマッチングアルゴリズムで比較して類似性を照合することで、同一人物か否かを識別する処理のイメージが示されている。
そして、物体追跡装置10のコンピュータは、時系列で前の画像に映る追跡候補である1以上の物体に一致する時系列で後の画像に映る1以上の物体の識別情報および位置情報を、識別結果として出力する。本実施の形態では、物体追跡装置10のコンピュータは、後の画像に映る1以上の物体が前の画像に映る追跡候補それぞれと同一物体である旨を示す識別情報を付した後の画像を、追跡結果として出力する。物体追跡装置10のコンピュータは、例えば図9Aに示す画像50t−1に映る追跡対象の人物と同一人物である図9Bに示す画像50に映る人物を含むボックスに、図9Aに示す画像50t−1に映る追跡対象の人物を含むボックスに付された識別番号と同じ番号を付して出力する。ここで、ボックスが位置情報の一例であり、識別番号が識別情報の一例である。
ここで、図9Aに示す画像50t−1は図6Aと同じ第1画像の一例である。一方、図9Bに示す画像50は図6Bと同じ第2画像の一例であるが、追跡対象である二人の人物を含む領域であるボックスに追跡結果として識別番号が付されている。
[物体追跡装置10の学習処理]
以下、このような物体追跡装置10を実現するための学習処理について説明する。本実施の形態では、まず、サイアミーズニューラルネットワーク(基本ニューラルネットワーク1211)の学習を行い、その後に、拡張サイアミーズニューラルネットワーク(ニューラルネットワーク121a)の学習を行う二段階学習を行う。以下では、一段階目の学習で用いられるサイアミーズニューラルネットワークを基本ニューラルネットワーク1211aと称し、二段階目の学習で用いられる拡張サイアミーズニューラルネットワークをニューラルネットワーク121bと称して説明する。
図10は、本実施の形態における学習処理の概要を示すフローチャートである。図11は、本実施の形態における一段階目の学習処理で用いる基本ニューラルネットワーク1211aの構造の一例の説明図である。図12は、本実施の形態における二段階目の学習処理で用いるニューラルネットワーク121bの構造の一例の説明図である。なお、図3および図4と同様の要素には同一の符号を付しており、詳細な説明は省略する。
<S10>
まず、同一物体が映る2つの画像であるペア画像と非同一物体が映る2つの画像である非ペア画像とを複数含む学習用データを準備する(S10)。より具体的には、一段階目の学習処理(以下、第1学習処理と称する)で用いる学習用データと、二段階目の学習処理(以下、第2学習処理と称する)で用いる学習用データとを準備する。
本実施の形態では、第1学習処理用に、Market-1501データセットから生成したペア画像(matching pairs)と、非ペア画像(non-matching pairs)とを複数含む学習用データを準備する。ここで、ペア画像は、同じ大きさの同一物体が映る同じ大きさ2つの画像である。非ペア画像は、同じ大きさの非同一物体が映る同じ大きさの2つの画像である。また、第2学習処理用に、MOT16データセットから生成した同一物体が映る2つの画像であるペア画像と非同一物体が映る2つの画像である非ペア画像とを複数含む学習用データを準備する。
≪Market-1501データセット≫
Market-1501データセットは、テストおよび学習の両方に利用可能なアノテーション(正解ラベル)が付された1501個の同一人物が含まれ、人物の再識別に用いることができる。Market-1501データセットは、6台の異なる角度のカメラにより収集される。
≪MOT16データセット≫
一方、MOT16データセットは、MOT16-02,04,05,09,10,11,13などテストに利用可能な7つのテストシーケンスとMOT16-01,03,06,07,08,12,14など学習処理に利用可能なの7つの学習用シーケンスを含む。学習用シーケンスには、79,790個の検出が含まれており、テストシーケンスには、135,376個の歩行者を示す検出が含まれている。MOT16データセットに含まれる1つのシーケンスは、単一視点から撮影されたビデオシーケンスであり、各シーケンスは、車、ハンドヘルドカメラなどに取り付けられたカメラなどさまざまな視点で収集されたシーケンスである。
<S11>
次に、コンピュータは、S10で準備した学習用データを用いて、基本ニューラルネットワーク1211aを学習させる第1学習処理を行う(S11)。より具体的には、コンピュータは、同一物体が映る2つの画像であるペア画像と非同一物体が映る2つの画像である非ペア画像とを複数含む学習用データを用いて、基本ニューラルネットワーク1211aに、ペア画像それぞれから、比較による類似性の照合において同一物体を示す特徴量を抽出させるためのパラメータを学習させる第1学習処理を行う。ここで、比較による類似性は、基本ニューラルネットワーク1211aで抽出された2以上の画像それぞれの特徴量の距離の比較により評価される。一例としては、比較による類似性は、2以上の画像それぞれの特徴量のユークリッド距離を用いた誤差関数を用いて評価される。
本実施の形態では、コンピュータは、図11に示すような基本ニューラルネットワーク1211aを用いて第1学習処理を行う。図11に示す基本ニューラルネットワーク1211aは、データ入力層51およびデータ入力層51pと、評価層1220とをさらに備える。
データ入力層51およびデータ入力層51pは、図4に示す基本ニューラルネットワーク1211に対して、ペア画像または非ペア画像を入力する。データ入力層51は、第1学習処理用に準備された学習用データに含まれるペア画像または非ペア画像の一方の画像を基本ニューラルネットワーク1211aに入力する。データ入力層51pは、ペア画像または非ペア画像の他方の画像を基本ニューラルネットワーク1211aに入力する。
評価層1220は、基本ニューラルネットワーク1211aにより抽出され、出力された特徴量をユークリッド距離を用いて評価する。評価層1220は、例えば(式1)および(式2)により、ユークリッド距離を用いた誤差関数を算出する。
ここで、Enは、特徴層1212aから出力される特徴量Fpと、特徴層1213aから出力される特徴量Fとのユークリッド距離を示す。また、(式2)におけるyは、データ入力層51およびデータ入力層51pから入力され2つの画像のラベルを示す。y=1は、2つの画像がペア画像であることを示し、y=0は、2つの画像が非ペア画像であることを示す。mは、マージンパラメータであり、2つの画像に映る物体が非同一である場合に同一性を示す特徴量を抽出できないときの対策として機能する。本実施の形態では、m=3としている。
S11において、コンピュータは、評価層1220で算出される誤差が小さくなるように基本ニューラルネットワーク1211aのパラメータを調整または更新する。ここで、パラメータは、基本ニューラルネットワーク1211aを構成する畳み込み層および全結合層の重みと特徴層1212aおよび特徴層1213aで共有する重みである。コンピュータは、第1学習処理において評価層1220で算出される誤差が最小または変動しなくなった状態までパラメータを調整または更新する。
<S12>
次に、コンピュータは、S10で準備した学習用データを用いて、S11で学習した基本ニューラルネットワーク1211aのパラメータを反映させたニューラルネットワーク121bを学習させる第2学習処理を行う(S12)。より具体的には、コンピュータは、S11で学習させたパラメータを基本ニューラルネットワーク1211bに反映させたニューラルネットワーク121bに、S10で準備した学習用データを用いて、ペア画像それぞれから、比較による類似性の照合において同一物体を示す特徴量を抽出させるためのパラメータを学習させる第2学習処理を行う。
本実施の形態では、コンピュータは、図12に示すようなニューラルネットワーク121bを用いて第2学習処理を行う。図12に示すニューラルネットワーク121bは、評価層1222が追加されている。なお、図12に示すニューラルネットワーク121bでは、S11で学習されたパラメータが基本ニューラルネットワーク1211bに反映され、一旦固定される。
データ入力層51は、第2学習処理用に準備された学習用データに含まれるペア画像または非ぺア画像の一方の画像を基本ニューラルネットワーク1211bに入力する。データ入力層51pは、ペア画像または非ぺア画像の他方の画像を基本ニューラルネットワーク1211bに入力する。
評価層1222は、ニューラルネットワーク121aに対して、特徴層1212bおよび特徴層1213bにより出力される特徴量をユークリッド距離を用いて評価するための誤差関数を算出する。評価層1222は、評価層1220と同様に、例えば(式1)および(式2)により、ユークリッド距離を用いた誤差関数を算出すればよい。この場合、(式1)における特徴量Fpは、特徴層1212bから出力される特徴量と追加層1217および追加層1219で算出した追加特徴量とが結合されたものとすればよい。また、(式1)における特徴量Fは、特徴層1213bから出力される特徴量と追加層1217および追加層1219で算出した追加特徴量とが結合されたものとすればよい。そして、Enは、これらの特徴量Fpおよび特徴量Fとのユークリッド距離とすればよい。
なお、追加層1217、追加層1219が算出する追加特徴量は、以下の(式3)により算出することができる。
ここで、bi、bjは、データ入力層51およびデータ入力層51pに入力される2つの画像それぞれに映る物体を含む領域を示すボックスである。追加層1217は、追加特徴量としてDIoUを算出し、追加層1219は、追加特徴量としてDARATを算出する。
S12において、コンピュータは、図12に示すニューラルネットワーク121bの基本ニューラルネットワーク1211bにS11で学習されたパラメータを反映するが、最初のフェーズでは固定して第2学習処理を行う。
換言すると、コンピュータは、第2学習処理の最初のフェーズにおいて、基本ニューラルネットワーク1211bのパラメータの固定し、第2学習処理用に準備された学習用データを用いて特徴層1212bおよび特徴層1213bが共有するパラメータのみ学習を行う。具体的には、コンピュータは、評価層1222で算出される誤差が小さくなるように、第2学習処理用に準備された学習用データを用いて特徴層1212bおよび特徴層1213bが共有するパラメータを調整または更新する。ここで、パラメータは、第2学習処理の最初のフェーズにおいて評価層1222で算出される誤差が最小または変動しなくなった状態となるよう調整または更新される。
続いて、コンピュータは、特徴層1212bおよび特徴層1213bが共有するパラメータの学習が一旦終了すると、基本ニューラルネットワーク1211bのパラメータの固定を解除して第2学習処理を行う。つまり、コンピュータは、第2学習処理の最後のフェーズにおいて、第2学習処理用に準備された学習用データを用いてニューラルネットワーク121b全部のパラメータの学習を行う。
なお、第2学習処理において、まず、最初のフェーズにおいて、特徴層1212bおよび特徴層1213bが共有するパラメータのみ学習させているのは、第1学習処理で学習された基本ニューラルネットワーク1211aのパラメータを活かすためである。仮に、第2学習処理において、最初および最後のフェーズを設けずに、第2学習処理用に準備された学習用データを用いてニューラルネットワーク121b全部のパラメータの学習を行わせるとする。すると、第1学習処理で学習されたパラメータを大幅に変更してしまうことになり、学習効率が落ちるばかりか、パラメータが収束しない可能性もある。
本実施の形態では、このような2段階の学習処理を行うことにより、物体追跡装置10に用いるニューラルネットワーク121aのパラメータを学習させることができる。
[物体追跡装置10の効果等]
以上のように、本実施の形態における物体追跡装置10によれば、拡張サイアミーズニューラルネットワークを用いて、時系列に入力される入力画像における追跡候補の画像上の類似性を示す特徴マップを位置変化および領域変化を追加特徴として取り込み、かつ、入力画像の次元数よりも大幅に減らした次元数で取得することができる。そして、取得した特徴マップを比較し、時系列に入力される入力画像における追跡候補の類似性を照合することで物体追跡を行うことができる。このように、本実施の形態における物体追跡装置10は、拡張サイアミーズニューラルネットワークを用いることで、次元数を減らした時間的な情報を考慮できる特徴マップを用いて追跡候補の類似性を照合することができる。これにより、本実施の形態における物体追跡装置10は、リカレントニューラルネットワークを利用した物体追跡よりも高速に処理を行うことができる。つまり、本実施の形態における物体追跡装置10によれば、Deep Learningを用いた物体追跡の処理速度をより向上できる。したがって、本実施の形態における物体追跡装置10を、ADASなど、リアルタイムな物体追跡が要求されるシステムに適用できる。
(変形例)
上記の実施の形態では、物体追跡装置10に用いられるニューラルネットワークが拡張サイアミーズニューラルネットワークである場合について説明したが、これに限らない。物体追跡装置10に用いられるニューラルネットワークが、サイアミーズニューラルネットワークすなわち基本ニューラルネットワーク1211および特徴層1212、1213のみで構成されていてもよい。この場合、図10に示す学習処理は、図11に示す構成すなわち基本ニューラルネットワーク1211aに対してS11の第1学習処理およびS12の第2学習処理を行えばよい。
なお、図11に示す構成すなわち基本ニューラルネットワーク1211aに対して、S11の第1学習処理のみを行うとしてもよい。すなわち、コンピュータは、S10で準備した学習用データを用いて、同一物体が映る2つ以上の画像であるペア画像と非同一物体が映る2つ以上の画像である非ペア画像とを複数含む学習用画像を用いて、基本ニューラルネットワーク1211aで構成されるニューラルネットワークに、ペア画像それぞれから、比較による類似性の照合において同一物体を示す特徴量を抽出させるための前記パラメータを学習させる学習処理を行ってもよい。
(実施例1)
物体追跡装置10に用いられるニューラルネットワークがサイアミーズニューラルネットワークまたは拡張サイアミーズニューラルネットワークである場合の2段階の学習処理の有効性について検証したので、その実験結果を実施例1として説明する。
[データセット]
(第1学習処理で用いる学習用データ)
Market-1501データセットから、64(w)×64(h)の同じ大きさの同一人物が128(w)×128(h)の同じサイズの異なる2つの画像をランダムに選択したペア画像を75,000セット生成した。また、Market-1501データセットから、64(w)×64(h)の同じ大きさの異なる人物が128(w)×128(h)の同じサイズの異なる2つの画像をランダムに選択した非ペア画像を75,000セット生成した。そして、これらを含めたものを第1学習処理で用いる学習用データとした。また、第1学習処理の有効性の検証用に、上記のようなペア画像および非ペア画像をそれぞれ25,000セット生成した。
(第2学習処理で用いる学習用データ)
MOT16データセットを構成する7つのテストシーケンスには、groundtruth情報すなわち正解情報がない。そこで、MOT16データセットを構成する7つの学習用シーケンスを学習用の6つのシーケンスと検証用の1つのシーケンスに分割した。6つのシーケンスにおいて、2つの連続フレームから合計で約222,400個となるペア画像と非ペア画像とをIoU(位置変化)およびAreaRatio(領域変化)を示すデータと共に生成し、 第2学習処理で用いる学習用データとした。残りの1つのシーケンスにおいて、2つの連続フレームから、合計で約198,800個となるペア画像と非ペア画像とをIoU(位置変化)およびAreaRatio(領域変化)を示すデータと共に生成し, 第2学習処理の有効性の検証用とした。
[第1学習処理の有効性]
第1学習処理では、Market-1501データセットから生成した学習用データを用いて基本ニューラルネットワーク1211aを、1回分のバッチサイズを128、学習率を0.01として確率的勾配降下法で学習させた。
図13は、実施例1におけるMarket-1501データセットを用いた学習時誤差を示す図である。図14は、実施例1におけるMarket-1501データセットを用いた検証時誤差を示す図である。縦軸は誤差を示し、横軸は100反復を1回とした回数を示す。図14には、図13の回数時における、第1学習処理済みの基本ニューラルネットワーク1211aで検証した結果が示されている。
Market-1501データセットで検証した結果、第1学習処理済みの基本ニューラルネットワーク1211aは、精度= 0.9854、再現率= 0.9774およびF1= 0.9814を達成した。なお、F1のスコアは、以下の(式4)で算出することができる。
ここで、TPは真陽性の数すなわち正負2クラス分類としたときに真が正、かつ、予測結果も正であった出力データ数を示す。FPは偽陽性の数すなわち真が負、かつ、予測結果が正であった出力データ数を示す。FNは偽陰性の数すなわち真が負、かつ、予測結果が負であった出力データ数を示す。
図15Aおよび図15Bは、実施例1における検証用のMarket-1501データセットを用いて得た特徴量のユークリッド距離を示す図である。縦軸は、学習済みの基本ニューラルネットワーク1211aにより出力された2つの特徴量のユークリッド距離を示している。横軸において左側のグラフは、第1学習処理済みの基本ニューラルネットワーク1211aに、非ペア画像を入力したときに出力された2つの特徴量のユークリッド距離を線形または対数のスケールで示している。横軸において右側のグラフは、第1学習処理済みの基本ニューラルネットワーク1211aに、ペア画像を入力したときに出力された2つの特徴量のユークリッド距離を線形または対数のスケールで示している。なお、図15Bは、図15Aの縦軸を対数のスケールに変換したものに相当する。
図15Bに示すように、第1学習処理済みの基本ニューラルネットワーク1211aでは、水平線h1(m=3)を境界としてペア画像および非ペア画像から抽出した2つの特徴量で概ね類似性が分類できているのがわかる。つまり、第1学習処理済みの基本ニューラルネットワーク1211aは、ペア画像については同一物体を示す特徴量を抽出し、非ペア画像については非同一物体を示す特徴量を抽出しているのがわかる。
[第2学習処理の有効性]
第2学習処理では、上述したように、まず、ニューラルネットワーク121bの一部を構成する基本ニューラルネットワーク1211bに第1学習処理により学習したパラメータを反映させた。次に、Mot16データセットから生成した学習用データを用いて、最初のフェーズにおいて基本ニューラルネットワーク1211bのパラメータを固定してニューラルネットワーク121bを学習させた。そして、最後のフェーズにおいて、基本ニューラルネットワーク1211bのパラメータを固定を解除してニューラルネットワーク121bを学習させた。
Mot16データセットで検証した結果、第2学習処理済みの基本ニューラルネットワーク1211bだけから、精度=0.9837、再現率=0.9966およびF1=0.9901を達成した。また、第2学習処理済みのニューラルネットワーク121bから、精度=0.9908、再現率=0.9990およびF1= 0.9949を達成した。
図16A〜図17Cは、実施例1における検証用のMot16データセットを用いて得た特徴量のユークリッド距離を示す図である。図16A〜図16Cには、第2学習処理済みの基本ニューラルネットワーク1211bにより得た2つの特徴量のユークリッド距離が示されている。図17A〜図17Cには、第2学習処理済みのニューラルネットワーク121bにより得た2つの特徴量のユークリッド距離が示されている。これらの図において、濃色点はペア画像から抽出した特徴量のものを示し、薄色点は非ぺア画像から抽出した特徴量のものを示している。
より具体的には、図16Aには、第2学習処理済みの基本ニューラルネットワーク1211bにより得た2つの特徴量のユークリッド距離のヒストグラムが示されている。縦軸は正規化された周波数を示し、横軸はユークリッド距離を示す。なお、点線v1はペア画像から抽出した2つの特徴量のユークリッド距離の平均値を示し、点線v2は非ぺア画像から抽出した2つの特徴量のユークリッド距離の平均値を示している。図16Bは、図16Aの結果を、横軸にIoU(共通集合の面積/和集合の面積)、縦軸に線形のスケールのユークリッド距離でプロットしたものである。図16Cは、図16Aの結果を、横軸にIoU(共通集合の面積/和集合の面積)、縦軸に対数のスケールのユークリッド距離でプロットしたものである。なお、図16Cは、図16Aの縦軸を対数のスケールに変換したものに相当する。
図17Aには、第2学習処理済みの基本ニューラルネットワーク1211bにより得た2つの特徴量のユークリッド距離のヒストグラムが示されている。縦軸は正規化された周波数を示し、横軸はユークリッド距離を示す。なお、点線v3はペア画像から抽出した2つの特徴量のユークリッド距離の平均値を示し、点線v4は非ぺア画像から抽出した2つの特徴量のユークリッド距離の平均値を示している。図17Bは、図17Aの結果を、横軸にIoU(共通集合の面積/和集合の面積)、縦軸に線形のスケールのユークリッド距離でプロットしたものである。図17Cは、図17Aの結果を、横軸にIoU(共通集合の面積/和集合の面積)、縦軸に対数のスケールのユークリッド距離でプロットしたものである。なお、図17Cは、図17Aの縦軸を対数のスケールに変換したものに相当する。
図16Cに示すように、第2学習処理済みの基本ニューラルネットワーク1211bでは、水平線h2(m=3)を境界としてペア画像および非ペア画像から抽出した2つの特徴量で概ね類似性が分類できているのがわかる。また、図17Cに示すように、第2学習処理済みのニューラルネットワーク121bでは、水平線h2(m=3)を境界としてペア画像および非ペア画像から抽出した特徴量で類似性を分類できているのがわかる。そして、図16Cと図17Cとを比較すると、図17Cに示される例の方がより効果的に類似性を分類できているのがわかる。つまり、第2学習処理済みのニューラルネットワーク121bは、ペア画像については同一物体を示す特徴量を、非ペア画像については非同一物体を示す特徴量をより効果的に抽出できているのがわかる。例えば、第2学習処理済みの基本ニューラルネットワーク1211bでは、IoU<0.05で、誤分類された非ペア画像の特徴量のものを、第2学習処理済みのニューラルネットワーク121bでは正しく分類されていることからわかる。これは、第2学習処理済みのニューラルネットワーク121bでは、例えば類似の衣服を着ている異なる人物から抽出される類似した特徴量を、IoUおよびAreaRatioなどの位置変化および領域変化を示す情報を利用することで、異なる人物から抽出された特徴量であると識別できることを意味する。
なお、図18A〜図19Cは、実施例1における学習用のMot16データセットを用いて得た特徴量のユークリッド距離を示す図である。図18A〜図19Cは、図16A〜図17Cとは、学習用のMot16データセットを用いている点を除いて同様の図となっている。図18Aにおいて、点線v5は第2学習処理済みの基本ニューラルネットワーク1211bがペア画像から抽出した2つの特徴量のユークリッド距離の平均値を示し、点線v6は第2学習処理済みの基本ニューラルネットワーク1211bが非ぺア画像から抽出した2つの特徴量のユークリッド距離の平均値を示している。同様に、図19Aにおいて、点線v7は第2学習処理済みのニューラルネットワーク121bがペア画像から抽出した2つの特徴量のユークリッド距離の平均値を示し、点線v8は第2学習処理済みのニューラルネットワーク121bが非ぺア画像から抽出した2つの特徴量のユークリッド距離の平均値を示している。
[アルゴリズム]
図20は、実施例1における所定のアルゴリズムの一例を示す図である。図20には、基本ニューラルネットワーク1211a、1211bが抽出した特徴量、およびニューラルネットワーク121bが抽出した特徴量を比較して類似性を照合するために用いた所定のアルゴリズムの一例が示されている。
本実施例では、基本ニューラルネットワーク1211a、1211bが抽出した特徴量の類似性の照合を、以下の(式5)〜(式8)により算出できるスコア関数Snewを用いて行った。
ここで、bi、bjは、図11または図12に示すデータ入力層51、51pに入力される時系列に連続した2つの画像Bt-1、Btそれぞれに映る人物などの物体を含む領域を示すボックスである。(式5)に示すSDistは、(式6)に示すように、bi、bjから基本ニューラルネットワーク1211a、1211bが抽出した特徴量のユークリッド距離D(bi,bj)とバイアス項γとから導くことができる。SIoUは、(式7)に示すように、bi、bjのIoU(位置変化)を1.0だけシフトさせることで導くことができる。SAratは、(式8)に示すように、bi、bjのAreaRatio(領域変化)から導くことができる。
また、本実施例では、ニューラルネットワーク121bが抽出した特徴量による類似性の照合を、以下の(式6)により算出できるSDistを用いて行った。
以上から、以下の(式9)に示されるスコア関数Snewを用いて特徴量による類似性の照合を行うことができる。つまり、基本ニューラルネットワークが抽出する特徴量による類似性の照合を行うときには、IoUおよびAreaRatioとユークリッド距離とを用いて行えばよい。また、基本ニューラルネットワークを拡張したニューラルネットワークが抽出する特徴量による類似性の照合を行うときには、ユークリッド距離のみを用いて行えばよい。
そして、本実施例では、(式9)に示されるスコア関数Snewを、図20に示すような所定のアルゴリズムを用いて導出する。なお、図20の行1で入力されるnは、現フレームとペアを生成するためにどのくらいの前のフレームを検索するかを決定する。図20では、現フレームの追跡対象の物体と類似する物体が決定された場合、現フレームの追跡対象の物体と同一のIDが割り当てられる。
(実施例2)
実施例2では、MOT16 Train Data setとMOT16 Test Data setとを用いて物体追跡装置10に用いられるニューラルネットワークの性能を評価したので、その結果について説明する。なお、実施例2では、物体追跡装置10に用いられるニューラルネットワークがサイアミーズニューラルネットワークとした。つまり、実施例2では、変形例における物体追跡装置10に用いられるニューラルネットワークについて性能を評価した。また、MOT16を用いて、複数の対象物体を追跡する物体追跡の性能をベンチマーク評価することは、最も確立された評価方法の一つであり広く使用されている。
図21は、実施例2におけるMOT16 Train Data setのベンチマーク評価結果を示す図である。図21に示すように、物体追跡の精度(MOTA)のうち最も高い値48.6は、MOT16-11シーケンスを用いた場合の評価結果である。物体追跡の精度(MOTA)のうち最も低い値6.2は、MOT16-13シーケンスを用いた場合の評価結果である。しかし、MOT16-13シーケンスは、MOT16 Train Data setに含まれるシーケンスの中で最も物体追跡を行うのが難しいシーケンスであることが知られている。MOT16 Train Data setを用いて場合の物体追跡の精度(MOTA)の平均値は、31.0である。
実行時間(Hz)は、MOT16 Train Data setに含まれるシーケンス毎に異なっている。実行時間は、シーケンスの密度に依存するため、シーケンスの密度すなわち画像フレーム内における対象物体の検出数が多いほど処理量が多いので時間を要するためである。なお、本実施例における実行時間は、NVIDIA GeForce GTX 970カードを使用して評価した。
図22は、実施例2におけるMOT16 Test Data setのベンチマーク評価結果を示す図である。なお、図22において、「Ours」は、本開示における物体追跡装置10が行う物体検出の性能評価結果すなわちベンチマーク評価に該当する。その他は、サイアミーズニューラルネットワークを用いない方法においての物体検出のベンチマーク評価である。また、図22に示されるベンチマーク評価は、1)未来の情報を用いないで現在および過去の情報を用いる方法であるオンライン、2)追跡対象を自前で用意せずに提供された検出セットを使用する方法で行われている。
図22に示すように、物体追跡の精度(MOTA)が35.2で、実行時間(Hz)が5.6Hzである。その他のベンチマーク評価が行われたハードウェア仕様に関する情報が不足しており、実行時間(Hz)すなわち処理速度の正確な比較は不可能であるものの、「Ours」は、「その他」と比較して、精度と処理速度との両方において非常に十分な性能を達成しているのがわかる。
以上のように、本開示に係る物体追跡装置および物体追跡方法によれば、Deep Learningを用いた物体追跡の処理速度をより向上できる物体追跡方法を実現できる。したがって、本開示に係る物体追跡装置および物体追跡方法を、ADASなど、リアルタイムな物体追跡が要求されるシステムに十分に適用できる。
(他の実施態様の可能性)
以上、実施の形態において本開示の物体追跡方法について説明したが、各処理が実施される主体や装置に関しては特に限定しない。ローカルに配置された特定の装置内に組み込まれたプロセッサーなど(以下に説明)によって処理されてもよい。またローカルの装置と異なる場所に配置されているクラウドサーバなどによって処理されてもよい。
また、学習用データまたは物体追跡方法の入力画像としては、車載カメラで撮影された画像(全体画像)であってもよいし、全体画像の一部画像(部分画像)であってもよい。部分画像としては、追跡対象の一つの物体を含む領域の画像であってもよい。全体画像としては、追跡対象の複数の物体を含む画像であってもよい。
なお、本開示は、上記実施の形態に限定されるものではない。例えば、本明細書において記載した構成要素を任意に組み合わせて、また、構成要素のいくつかを除外して実現される別の実施の形態を本開示の実施の形態としてもよい。また、上記実施の形態に対して本開示の主旨、すなわち、請求の範囲に記載される文言が示す意味を逸脱しない範囲で当業者が思いつく各種変形を施して得られる変形例も本開示に含まれる。
また、本開示は、さらに、以下のような場合も含まれる。
(1)上記の装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(2)上記の装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
(3)上記の装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
(4)また、本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
(5)また、本開示は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(登録商標) Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。
また、本開示は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
本開示は、Deep Learningを用いた物体追跡方法、物体追跡装置およびプログラムに利用でき、特にADASなど、リアルタイムな物体追跡が要求されるシステムに利用できる。
10 物体追跡装置
11 入力部
12 出力部
50t−1、50 画像
51、51p データ入力層
121 抽出部
121a、121b ニューラルネットワーク
122 照合部
123 追跡結果出力部
1211、1211a、1211b 基本ニューラルネットワーク
1212、1212a、1212b、1213、1213a、1213b 特徴層
1214、1215 特徴結合層
1216、1218 次元処理層
1217、1219 追加層
1220、1222 評価層

Claims (11)

  1. ニューラルネットワークを用いてコンピュータが行う物体追跡方法であって、
    それぞれ1以上の物体が映り、時系列に連続した第1画像および第2画像を含む2以上の画像を、前記ニューラルネットワークに入力する入力ステップと、
    前記入力ステップにおいて入力された前記第1画像に映る追跡候補である1以上の物体それぞれの第1特徴量および前記第2画像に映る1以上の物体それぞれの第2特徴量を前記ニューラルネットワークに抽出させ、抽出させた前記第1特徴量および前記第2特徴量を比較して類似性を照合することで、前記第1画像に映る追跡候補である1以上の物体に一致する、前記第1画像より時系列で後の前記第2画像に映る1以上の物体の識別情報および位置情報を、識別結果として出力する出力ステップとを含み、
    前記ニューラルネットワークは、0以上の全結合層と1以上の畳み込み層とを有する同一構造を2以上含み、前記同一構造間の対応する層でパラメータを共有し、
    前記ニューラルネットワークは、さらに、前記2以上の同一構造の外に、前記入力ステップにおいて入力された前記2以上の画像に映る1以上の物体のIoU(Intersection-over-Union)および当該画像中の領域の面積比を追加特徴量として算出する追加層を備え、
    前記出力ステップでは、前記ニューラルネットワークは、2つ以上の同一構造のうちの2つの前記同一構造で前記第1画像の特徴量および前記第2画像の特徴量を抽出し、
    前記第1特徴量は、前記追加特徴量として算出された前記IoUおよび前記面積比を前記2以上の同一構造のうちの第1の構造から出力される、前記第1画像の特徴量と結合した特徴量であり、
    前記第2特徴量は、前記追加特徴量として算出された前記IoUおよび前記面積比を前記2以上の同一構造のうちの第2の構造から出力される、前記第2画像の特徴量と結合した特徴量である、
    物体追跡方法。
  2. 前記2以上の画像は、前記第1画像および前記第2画像であり、
    前記2以上の同一構造は、2つの同一構造である、
    請求項1に記載の物体追跡方法。
  3. 前記入力ステップでは、それぞれ1以上の物体が映り、時系列に連続した第1画像、第2画像および第3画像を前記ニューラルネットワークに入力し、
    前記出力ステップでは、前記入力ステップにおいて入力された前記第1画像に映る追跡候補である1以上の物体それぞれの第1特徴量、前記第2画像に映る1以上の物体それぞれの第2特徴量、および、前記第3画像に映る1以上の物体それぞれの第3特徴量を前記ニューラルネットワークに抽出させ、抽出した前記第1特徴量、前記第2特徴量および前記第3特徴量を比較して類似性を照合することで、前記第1画像に映る前記追跡候補それぞれに一致する前記第2画像および前記第3画像に映る1以上の物体の識別情報および位置情報を、識別結果として出力し、
    前記2以上の同一構造は、3つの同一構造であり、3つの前記同一構造で前記第1画像の特徴量、前記第2画像の特徴量および前記第3画像の特徴量を抽出する、
    請求項1に記載の物体追跡方法。
  4. 前記物体追跡方法は、さらに、
    前記入力ステップを行う前に、同一物体が映る2つ以上の画像であるペア画像と非同一物体が映る2つ以上の画像である非ペア画像とを複数含む学習用データを用いて、前記ニューラルネットワークに、前記ペア画像それぞれから、比較による類似性の照合において同一物体を示す特徴量を抽出させるための前記パラメータを学習させる学習ステップを含む、
    請求項1〜3のいずれか1項に記載の物体追跡方法。
  5. 前記物体追跡方法は、さらに、
    前記入力ステップを行う前に、同一物体が映る2つ以上の画像であるペア画像と非同一物体が映る2つ以上の画像である非ペア画像とを複数含む学習用データを用いて、前記ニューラルネットワークのうちの前記2以上の同一構造に、前記ペア画像それぞれから、比較による類似性の照合において同一物体を示す特徴量を抽出させるための、前記パラメータを学習させる第1学習ステップと、
    前記第1学習ステップで学習させた前記パラメータを前記2以上の同一構造に反映させた前記ニューラルネットワークに、前記学習用データを用いて、前記ペア画像それぞれから、比較による類似性の照合において同一物体を示す特徴量を抽出させるための前記パラメータを学習させる第2学習ステップとを含む、
    請求項に記載の物体追跡方法。
  6. 前記比較による類似性は、前記2つ以上の同一構造で抽出された前記入力ステップにおいて入力された前記2以上の画像それぞれの特徴量の距離の比較により評価される、
    請求項4またはに記載の物体追跡方法。
  7. 前記比較による類似性は、
    前記2以上の画像それぞれの特徴量のユークリッド距離を用いた誤差関数を用いて評価される、
    請求項に記載の物体追跡方法。
  8. 前記2つ以上の同一構造はそれぞれ、前記入力ステップにおいて入力された前記2以上の画像のうち対応する画像の特徴量を、当該画像の次元よりも減じた次元で抽出し、
    前記2つ以上の同一構造それぞれで抽出される特徴量の次元は同一である、
    請求項1〜のいずれか1項に記載の物体追跡方法。
  9. 前記2以上の画像に映る1以上の物体は、人物および車両のうちの少なくとも一方である、
    請求項1〜のいずれか1項に記載の物体追跡方法。
  10. 0以上の全結合層と1以上の畳み込み層とを有する同一構造を2以上含み、前記同一構造間の対応する層でパラメータを共有するニューラルネットワークに、それぞれ1以上の物体が映り時系列に連続した第1画像および第2画像を含む2以上の画像を入力する入力ステップと、
    前記入力ステップにおいて入力された前記第1画像に映る追跡候補である1以上の物体それぞれの第1特徴量および前記第2画像に映る1以上の物体それぞれの第2特徴量を前記ニューラルネットワークに抽出させ、抽出させた前記第1特徴量および前記第2特徴量を比較して類似性を照合することで、前記第1画像に映る追跡候補である1以上の物体に一致する前記第1画像より時系列で後の前記第2画像に映る1以上の物体の識別情報および位置情報を、識別結果として出力する出力ステップとを、
    コンピュータに実行させ、
    前記ニューラルネットワークは、さらに、前記2以上の同一構造の外に、前記入力ステップにおいて入力された前記2以上の画像に映る1以上の物体のIoU(Intersection-over-Union)および当該画像中の領域の面積比を追加特徴量として算出する追加層を備えており、
    前記出力ステップでは、前記ニューラルネットワークに、2つ以上の同一構造のうちの2つの前記同一構造で前記第1画像の特徴量および前記第2画像の特徴量を抽出させ、
    前記第1特徴量は、前記追加特徴量として算出された前記IoUおよび前記面積比を前記2以上の同一構造のうちの第1の構造から出力される、前記第1画像の特徴量と結合した特徴量であり、
    前記第2特徴量は、前記追加特徴量として算出された前記IoUおよび前記面積比を前記2以上の同一構造のうちの第2の構造から出力される、前記第2画像の特徴量と結合した特徴量である、
    プログラム。
  11. それぞれ1以上の物体が映り、時系列に連続した第1画像および第2画像を含む2以上の画像を、ニューラルネットワークに入力する入力部と、
    前記入力部により入力された前記第1画像に映る追跡候補である1以上の物体それぞれの第1特徴量および前記第2画像に映る1以上の物体それぞれの第2特徴量を前記ニューラルネットワークに抽出させ、抽出させた前記第1特徴量および前記第2特徴量を比較して類似性を照合することで、前記第1画像に映る追跡候補である1以上の物体に一致する前記第1画像より時系列で後の前記第2画像に映る1以上の物体の識別情報および位置情報を、識別結果として出力する出力部とを備え、
    前記ニューラルネットワークは、0以上の全結合層と1以上の畳み込み層とを有する同一構造を2以上含み、前記同一構造間の対応する層でパラメータを共有し、
    前記ニューラルネットワークは、さらに、前記2以上の同一構造の外に、前記入力部において入力された前記2以上の画像に映る1以上の物体のIoU(Intersection-over-Union)および当該画像中の領域の面積比を追加特徴量として算出する追加層を備え、
    前記ニューラルネットワークは、2つ以上の同一構造のうちの2つの前記同一構造で前記第1画像の特徴量および前記第2画像の特徴量を抽出し、
    前記第1特徴量は、前記追加特徴量として算出された前記IoUおよび前記面積比を前記2以上の同一構造のうちの第1の構造から出力される、前記第1画像の特徴量と結合した特徴量であり、
    前記第2特徴量は、前記追加特徴量として算出された前記IoUおよび前記面積比を前記2以上の同一構造のうちの第2の構造から出力される、前記第2画像の特徴量と結合した特徴量である、
    物体追跡装置。
JP2017098560A 2016-08-08 2017-05-17 物体追跡方法、物体追跡装置およびプログラム Active JP6832504B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201780003689.5A CN108352072B (zh) 2016-08-08 2017-07-07 物体跟踪方法、物体跟踪装置以及记录介质
EP17839122.3A EP3499454B1 (en) 2016-08-08 2017-07-07 Object tracking method, object tracking device, and program
PCT/JP2017/024932 WO2018030048A1 (ja) 2016-08-08 2017-07-07 物体追跡方法、物体追跡装置およびプログラム
US16/171,923 US10803602B2 (en) 2016-08-08 2018-10-26 Object tracking method, object tracking apparatus, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201662371962P 2016-08-08 2016-08-08
US62/371,962 2016-08-08

Publications (2)

Publication Number Publication Date
JP2018026108A JP2018026108A (ja) 2018-02-15
JP6832504B2 true JP6832504B2 (ja) 2021-02-24

Family

ID=61194124

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017098560A Active JP6832504B2 (ja) 2016-08-08 2017-05-17 物体追跡方法、物体追跡装置およびプログラム

Country Status (4)

Country Link
US (1) US10803602B2 (ja)
EP (1) EP3499454B1 (ja)
JP (1) JP6832504B2 (ja)
CN (1) CN108352072B (ja)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018060268A (ja) * 2016-10-03 2018-04-12 株式会社日立製作所 認識装置および学習システム
US12118769B1 (en) 2017-07-26 2024-10-15 Vizit Labs, Inc. Machine learning architecture for peer-based image scoring
US11417085B2 (en) * 2017-07-26 2022-08-16 Vizit Labs, Inc. Systems and methods for automating benchmark generation using neural networks for image or video selection
US12020470B1 (en) 2017-07-26 2024-06-25 Vizit Labs, Inc. Systems and methods for using image scoring an improved search engine
US11763546B1 (en) 2017-07-26 2023-09-19 Vizit Labs, Inc. Systems and methods for managing computer memory for scoring images or videos using selective web crawling
CN107562805B (zh) * 2017-08-08 2020-04-03 浙江大华技术股份有限公司 一种以图搜图的方法及装置
CN108230359B (zh) * 2017-11-12 2021-01-26 北京市商汤科技开发有限公司 目标检测方法和装置、训练方法、电子设备、程序和介质
US11087273B1 (en) * 2017-12-14 2021-08-10 Amazon Technologies, Inc. Item recognition system using reference images
WO2019170024A1 (zh) 2018-03-06 2019-09-12 北京市商汤科技开发有限公司 目标跟踪方法和装置、电子设备、存储介质
CN108460787B (zh) 2018-03-06 2020-11-27 北京市商汤科技开发有限公司 目标跟踪方法和装置、电子设备、程序、存储介质
KR102103770B1 (ko) * 2018-04-02 2020-04-24 동국대학교 산학협력단 보행자 검출 장치 및 방법
JP6988698B2 (ja) * 2018-05-31 2022-01-05 トヨタ自動車株式会社 物体認識装置
JP7268063B2 (ja) * 2018-06-29 2023-05-02 バイドゥドットコム タイムズ テクノロジー (ベイジン) カンパニー リミテッド 低電力のリアルタイムオブジェクト検出用のシステム及び方法
EP3588441B1 (en) * 2018-06-29 2023-08-09 Fujitsu Limited Imagification of multivariate data sequences
TWI679612B (zh) * 2018-08-14 2019-12-11 國立交通大學 影像追蹤方法
SG11202101826WA (en) * 2018-08-23 2021-03-30 Univ Texas Controlling a device by tracking movement of hand using acoustic signals
CN109344661B (zh) * 2018-09-06 2023-05-30 南京聚铭网络科技有限公司 一种基于机器学习的微代理的网页防篡改方法
US10872424B2 (en) * 2018-11-19 2020-12-22 Accenture Global Solutions Limited Object tracking using object attributes
JP7238962B2 (ja) 2019-03-13 2023-03-14 日本電気株式会社 物体追跡装置、物体追跡方法、及び、プログラム
US20220139071A1 (en) * 2019-03-25 2022-05-05 Sony Semiconductor Solutions Corporation Information processing device, information processing method, information processing program, and information processing system
CN110349147B (zh) * 2019-07-11 2024-02-02 腾讯医疗健康(深圳)有限公司 模型的训练方法、眼底黄斑区病变识别方法、装置及设备
JP7404125B2 (ja) * 2019-09-13 2023-12-25 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 物体追跡方法及びプログラム
JP7453767B2 (ja) * 2019-09-25 2024-03-21 キヤノン株式会社 情報処理装置、情報処理方法
JP7518609B2 (ja) * 2019-11-07 2024-07-18 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP7331947B2 (ja) * 2019-12-24 2023-08-23 日本電気株式会社 物体識別装置、物体識別方法、学習装置、学習方法、及び、プログラム
JP7310927B2 (ja) * 2019-12-26 2023-07-19 日本電気株式会社 物体追跡装置、物体追跡方法及び記録媒体
SG10201913754XA (en) * 2019-12-30 2020-12-30 Sensetime Int Pte Ltd Image processing method and apparatus, electronic device, and storage medium
US11450021B2 (en) 2019-12-30 2022-09-20 Sensetime International Pte. Ltd. Image processing method and apparatus, electronic device, and storage medium
JP7226368B2 (ja) * 2020-02-17 2023-02-21 トヨタ自動車株式会社 物体状態識別装置
CN111460906B (zh) * 2020-03-05 2023-05-26 重庆大学 一种基于集成学习的脉冲神经网络模式识别方法及系统
JP7115502B2 (ja) 2020-03-23 2022-08-09 トヨタ自動車株式会社 物体状態識別装置、物体状態識別方法及び物体状態識別用コンピュータプログラムならびに制御装置
JP7381388B2 (ja) 2020-04-03 2023-11-15 トヨタ自動車株式会社 信号灯状態識別装置、信号灯状態識別方法及び信号灯状態識別用コンピュータプログラムならびに制御装置
JP7359735B2 (ja) 2020-04-06 2023-10-11 トヨタ自動車株式会社 物体状態識別装置、物体状態識別方法及び物体状態識別用コンピュータプログラムならびに制御装置
US20210358164A1 (en) * 2020-05-15 2021-11-18 Nvidia Corporation Content-aware style encoding using neural networks
EP3920102B1 (en) * 2020-06-05 2024-10-30 HTC Corporation Machine learning system and machine learning method involving data augmentation, and storage medium
CN111885384B (zh) * 2020-07-10 2023-08-22 郑州大学 带宽受限下基于生成对抗网络的图片处理和传输方法
WO2022044222A1 (ja) * 2020-08-27 2022-03-03 日本電気株式会社 学習装置、学習方法、追跡装置及び記憶媒体
US12067708B2 (en) * 2020-09-08 2024-08-20 Rakuten Group, Inc. Image judgement apparatus, image judgement method and non-transitory computer readable medium
US11818373B1 (en) * 2020-09-08 2023-11-14 Block, Inc. Machine-learning based data compression for streaming media
US11741712B2 (en) 2020-09-28 2023-08-29 Nec Corporation Multi-hop transformer for spatio-temporal reasoning and localization
US11964654B2 (en) * 2020-10-30 2024-04-23 GM Global Technology Operations LLC Spatially invariant 3D convolutional network over spherical coordinate input
CN112509008B (zh) * 2020-12-15 2022-05-03 重庆邮电大学 一种基于交并比引导孪生网络的目标跟踪方法
KR102308752B1 (ko) 2021-02-22 2021-10-05 주식회사 에스아이에이 객체 추적 방법 및 장치
SE2100097A1 (en) * 2021-06-09 2022-12-10 Saab Ab Method and Device for object tracking
KR102373752B1 (ko) * 2021-06-28 2022-03-14 주식회사 아센디오 복수 모델을 이용한 차량식별추적 방법, 및 시스템
KR102373753B1 (ko) * 2021-06-28 2022-03-14 주식회사 아센디오 딥러닝 기반의 차량식별추적 방법, 및 시스템
CN113628244B (zh) * 2021-07-05 2023-11-28 上海交通大学 基于无标注视频训练的目标跟踪方法、系统、终端及介质
US20230025770A1 (en) * 2021-07-19 2023-01-26 Kookmin University Industry Academy Cooperation Foundation Method and apparatus for detecting an object based on identification information of the object in continuous images
EP4145405A1 (fr) * 2021-09-02 2023-03-08 Bull SAS Procédé d'entrainement d'un réseau neuronal d'analyse d'image, et procédé de ré-identification d'objet mettant en oeuvre un tel réseau neuronal
CN114332169B (zh) * 2022-03-14 2022-05-06 南京甄视智能科技有限公司 基于行人重识别的行人跟踪方法、装置、存储介质及设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4859025B2 (ja) * 2005-12-16 2012-01-18 株式会社リコー 類似画像検索装置、類似画像検索処理方法、プログラム及び情報記録媒体
JP4290164B2 (ja) * 2006-01-31 2009-07-01 キヤノン株式会社 識別領域を示す表示を画像と共に表示させる表示方法、コンピュータ装置に実行させるプログラム、および、撮像装置
CN101299233B (zh) * 2008-04-08 2010-11-10 西安交通大学 基于fpga实现的运动目标识别与跟踪方法
JP5248236B2 (ja) * 2008-08-08 2013-07-31 パナソニック株式会社 画像処理装置および画像処理方法
CN104299245B (zh) * 2014-10-13 2017-12-26 深圳先进技术研究院 基于神经网络的增强现实跟踪方法
CN104915643B (zh) * 2015-05-26 2018-06-22 中山大学 一种基于深度学习的行人再标识方法
US10019631B2 (en) * 2015-11-05 2018-07-10 Qualcomm Incorporated Adapting to appearance variations when tracking a target object in video sequence
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
JP2018005420A (ja) * 2016-06-29 2018-01-11 富士通株式会社 情報処理装置、学習ネットワーク学習値算出プログラムおよび学習ネットワーク学習値算出方法

Also Published As

Publication number Publication date
EP3499454A1 (en) 2019-06-19
US20190066313A1 (en) 2019-02-28
EP3499454A4 (en) 2019-06-19
US10803602B2 (en) 2020-10-13
JP2018026108A (ja) 2018-02-15
CN108352072A (zh) 2018-07-31
EP3499454B1 (en) 2020-06-03
CN108352072B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
JP6832504B2 (ja) 物体追跡方法、物体追跡装置およびプログラム
CN110414432B (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
CN106548127B (zh) 图像识别方法
Bideau et al. It’s moving! a probabilistic model for causal motion segmentation in moving camera videos
Hoang et al. Enhanced detection and recognition of road markings based on adaptive region of interest and deep learning
CN110659589B (zh) 基于姿态和注意力机制的行人再识别方法、系统、装置
US20150379371A1 (en) Object Detection Utilizing Geometric Information Fused With Image Data
US20160104053A1 (en) Hierarchical Interlinked Multi-scale Convolutional Network for Image Parsing
US20190301861A1 (en) Method and apparatus for binocular ranging
US11410327B2 (en) Location determination apparatus, location determination method and computer program
CN109492576B (zh) 图像识别方法、装置及电子设备
US20150036935A1 (en) Information processing apparatus, information processing method, and storage medium
US20160148070A1 (en) Image processing apparatus, image processing method, and recording medium
WO2018030048A1 (ja) 物体追跡方法、物体追跡装置およびプログラム
CN113297963A (zh) 多人姿态的估计方法、装置、电子设备以及可读存储介质
CN112070071B (zh) 视频中的对象标注方法、装置、计算机设备及存储介质
CN112036457B (zh) 训练目标检测模型的方法及装置、目标检测方法及装置
US20170053172A1 (en) Image processing apparatus, and image processing method
CN109523570A (zh) 运动参数计算方法及装置
JP6713422B2 (ja) 学習装置、イベント検出装置、学習方法、イベント検出方法、プログラム
CN114168768A (zh) 图像检索方法及相关设备
CN112257628A (zh) 一种户外比赛运动员的身份识别方法、装置及设备
CN115018886B (zh) 运动轨迹识别方法、装置、设备及介质
CN113486761B (zh) 一种指甲识别方法、装置、设备及存储介质
CN112989869B (zh) 人脸质量检测模型的优化方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170612

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170714

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210113

R151 Written notification of patent or utility model registration

Ref document number: 6832504

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151