JP6832504B2 - 物体追跡方法、物体追跡装置およびプログラム - Google Patents
物体追跡方法、物体追跡装置およびプログラム Download PDFInfo
- Publication number
- JP6832504B2 JP6832504B2 JP2017098560A JP2017098560A JP6832504B2 JP 6832504 B2 JP6832504 B2 JP 6832504B2 JP 2017098560 A JP2017098560 A JP 2017098560A JP 2017098560 A JP2017098560 A JP 2017098560A JP 6832504 B2 JP6832504 B2 JP 6832504B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- feature amount
- neural network
- objects
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biodiversity & Conservation Biology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Description
物体追跡は、機械視覚(マシン・ビジョン)の認識に対する関心の高まりとともに、急速に発展している。また、物体追跡は、オブジェクトを高いレベルで理解することへの関心の高まりにより、コンピュータ・ビジョンにおいて最も活発になされているトピックの1つになっている。物体追跡では、スポーツ分析の分野でさえ、監視システムにより他律的に動作させることから自律的に動作させることに目的を変化させるなど、追跡性能を向上させるための広いアプローチがすでにある。
以下では、図面を参照しながら、実施の形態1における物体追跡装置10の物体追跡方法等の説明を行う。
図1は、本実施の形態における物体追跡装置10の構成の一例を示すブロック図である。図2は、図1に示す出力部12の詳細構成の一例を示すブロック図である。
入力部11は、それぞれ1以上の物体が映り、時系列に連続した2以上の画像を、ニューラルネットワークに入力する。より具体的には、入力部11は、それぞれ1以上の物体が映り、時系列に連続した第1画像および第2画像をニューラルネットワークに入力する。なお、入力部11は、それぞれ1以上の物体が映り、時系列に連続した第1画像、第2画像および第3画像をニューラルネットワークに入力してもよい。
出力部12は、図2に示すように、抽出部121と、照合部122と、追跡結果出力部123とを備える。出力部12は、入力部11に入力された映像に対する追跡結果を出力する。例えば、出力部12は、入力部11に入力された映像に含まれる時系列画像において、時系列で前の画像に含まれる追跡対象の物体と一致する、時系列で後の画像に含まれる物体の識別情報および位置情報を追跡結果として出力する。なお、出力部12は、入力部11に入力された映像に追跡結果を付与して出力してもよい。つまり、出力部12は、時系列で後の画像に含まれる物体に、時系列で前の画像に含まれる同一物体に付された識別情報と同一の識別情報を付した映像を出力してもよい。
抽出部121は、ニューラルネットワークを用いて、入力部11により入力された2以上の画像それぞれの特徴量(特徴マップ)を抽出する。つまり、当該特徴量は特徴マップであってもよい。ここで、当該ニューラルネットワークは、0以上の全結合層と1以上の畳み込み層とを有する同一構造を2以上含み、同一構造間の対応する層でパラメータを共有する。当該ニューラルネットワークは、さらに当該2以上の同一構造の外に、入力部11により入力される2以上の画像に映る1以上の物体の位置変化および当該画像中の領域変化を算出する追加層を有する。そして、当該2つ以上の同一構造はそれぞれ、入力部11により入力された2以上の画像のうち対応する画像の特徴量を、当該画像の次元よりも減じた次元で抽出し、2つ以上の同一構造それぞれで抽出される特徴量の次元は同一である。
照合部122は、ニューラルネットワークに抽出させた特徴量(特徴マップ)を照合する。本実施の形態では、照合部122は、抽出部121が抽出した第1画像に映る追跡候補である1以上の物体それぞれの第1特徴量および第2画像に映る1以上の物体それぞれの第2特徴量を照合する。より具体的には、照合部122は、所定のアルゴリズムを用いて、抽出部121で抽出された第1特徴量および第2特徴量を照合する。照合部122は、例えばユークリッド距離を用いて、抽出部121で抽出された第1特徴量および第2特徴量の距離を評価することで、追跡候補の位置変化および領域変化を考慮した追跡候補の画像上の類似性を照合する。なお、第1特徴量および第2特徴量の距離の評価方法は、ユークリッド距離を用いる場合に限らない。例えば、マンハッタン距離を用いてもよいしマハビラス距離を用いてもよい。
追跡結果出力部123は、2以上の画像のうちの時系列で前の画像に映る追跡候補である1以上の物体に一致する、前の画像より時系列で後の画像に映る1以上の物体の識別情報および位置情報を、識別結果として出力する。
次に、以上のように構成される物体追跡装置10の動作等について説明する。
以下、このような物体追跡装置10を実現するための学習処理について説明する。本実施の形態では、まず、サイアミーズニューラルネットワーク(基本ニューラルネットワーク1211)の学習を行い、その後に、拡張サイアミーズニューラルネットワーク(ニューラルネットワーク121a)の学習を行う二段階学習を行う。以下では、一段階目の学習で用いられるサイアミーズニューラルネットワークを基本ニューラルネットワーク1211aと称し、二段階目の学習で用いられる拡張サイアミーズニューラルネットワークをニューラルネットワーク121bと称して説明する。
まず、同一物体が映る2つの画像であるペア画像と非同一物体が映る2つの画像である非ペア画像とを複数含む学習用データを準備する(S10)。より具体的には、一段階目の学習処理(以下、第1学習処理と称する)で用いる学習用データと、二段階目の学習処理(以下、第2学習処理と称する)で用いる学習用データとを準備する。
Market-1501データセットは、テストおよび学習の両方に利用可能なアノテーション(正解ラベル)が付された1501個の同一人物が含まれ、人物の再識別に用いることができる。Market-1501データセットは、6台の異なる角度のカメラにより収集される。
一方、MOT16データセットは、MOT16-02,04,05,09,10,11,13などテストに利用可能な7つのテストシーケンスとMOT16-01,03,06,07,08,12,14など学習処理に利用可能なの7つの学習用シーケンスを含む。学習用シーケンスには、79,790個の検出が含まれており、テストシーケンスには、135,376個の歩行者を示す検出が含まれている。MOT16データセットに含まれる1つのシーケンスは、単一視点から撮影されたビデオシーケンスであり、各シーケンスは、車、ハンドヘルドカメラなどに取り付けられたカメラなどさまざまな視点で収集されたシーケンスである。
次に、コンピュータは、S10で準備した学習用データを用いて、基本ニューラルネットワーク1211aを学習させる第1学習処理を行う(S11)。より具体的には、コンピュータは、同一物体が映る2つの画像であるペア画像と非同一物体が映る2つの画像である非ペア画像とを複数含む学習用データを用いて、基本ニューラルネットワーク1211aに、ペア画像それぞれから、比較による類似性の照合において同一物体を示す特徴量を抽出させるためのパラメータを学習させる第1学習処理を行う。ここで、比較による類似性は、基本ニューラルネットワーク1211aで抽出された2以上の画像それぞれの特徴量の距離の比較により評価される。一例としては、比較による類似性は、2以上の画像それぞれの特徴量のユークリッド距離を用いた誤差関数を用いて評価される。
次に、コンピュータは、S10で準備した学習用データを用いて、S11で学習した基本ニューラルネットワーク1211aのパラメータを反映させたニューラルネットワーク121bを学習させる第2学習処理を行う(S12)。より具体的には、コンピュータは、S11で学習させたパラメータを基本ニューラルネットワーク1211bに反映させたニューラルネットワーク121bに、S10で準備した学習用データを用いて、ペア画像それぞれから、比較による類似性の照合において同一物体を示す特徴量を抽出させるためのパラメータを学習させる第2学習処理を行う。
以上のように、本実施の形態における物体追跡装置10によれば、拡張サイアミーズニューラルネットワークを用いて、時系列に入力される入力画像における追跡候補の画像上の類似性を示す特徴マップを位置変化および領域変化を追加特徴として取り込み、かつ、入力画像の次元数よりも大幅に減らした次元数で取得することができる。そして、取得した特徴マップを比較し、時系列に入力される入力画像における追跡候補の類似性を照合することで物体追跡を行うことができる。このように、本実施の形態における物体追跡装置10は、拡張サイアミーズニューラルネットワークを用いることで、次元数を減らした時間的な情報を考慮できる特徴マップを用いて追跡候補の類似性を照合することができる。これにより、本実施の形態における物体追跡装置10は、リカレントニューラルネットワークを利用した物体追跡よりも高速に処理を行うことができる。つまり、本実施の形態における物体追跡装置10によれば、Deep Learningを用いた物体追跡の処理速度をより向上できる。したがって、本実施の形態における物体追跡装置10を、ADASなど、リアルタイムな物体追跡が要求されるシステムに適用できる。
上記の実施の形態では、物体追跡装置10に用いられるニューラルネットワークが拡張サイアミーズニューラルネットワークである場合について説明したが、これに限らない。物体追跡装置10に用いられるニューラルネットワークが、サイアミーズニューラルネットワークすなわち基本ニューラルネットワーク1211および特徴層1212、1213のみで構成されていてもよい。この場合、図10に示す学習処理は、図11に示す構成すなわち基本ニューラルネットワーク1211aに対してS11の第1学習処理およびS12の第2学習処理を行えばよい。
物体追跡装置10に用いられるニューラルネットワークがサイアミーズニューラルネットワークまたは拡張サイアミーズニューラルネットワークである場合の2段階の学習処理の有効性について検証したので、その実験結果を実施例1として説明する。
(第1学習処理で用いる学習用データ)
Market-1501データセットから、64(w)×64(h)の同じ大きさの同一人物が128(w)×128(h)の同じサイズの異なる2つの画像をランダムに選択したペア画像を75,000セット生成した。また、Market-1501データセットから、64(w)×64(h)の同じ大きさの異なる人物が128(w)×128(h)の同じサイズの異なる2つの画像をランダムに選択した非ペア画像を75,000セット生成した。そして、これらを含めたものを第1学習処理で用いる学習用データとした。また、第1学習処理の有効性の検証用に、上記のようなペア画像および非ペア画像をそれぞれ25,000セット生成した。
MOT16データセットを構成する7つのテストシーケンスには、groundtruth情報すなわち正解情報がない。そこで、MOT16データセットを構成する7つの学習用シーケンスを学習用の6つのシーケンスと検証用の1つのシーケンスに分割した。6つのシーケンスにおいて、2つの連続フレームから合計で約222,400個となるペア画像と非ペア画像とをIoU(位置変化)およびAreaRatio(領域変化)を示すデータと共に生成し、 第2学習処理で用いる学習用データとした。残りの1つのシーケンスにおいて、2つの連続フレームから、合計で約198,800個となるペア画像と非ペア画像とをIoU(位置変化)およびAreaRatio(領域変化)を示すデータと共に生成し, 第2学習処理の有効性の検証用とした。
第1学習処理では、Market-1501データセットから生成した学習用データを用いて基本ニューラルネットワーク1211aを、1回分のバッチサイズを128、学習率を0.01として確率的勾配降下法で学習させた。
第2学習処理では、上述したように、まず、ニューラルネットワーク121bの一部を構成する基本ニューラルネットワーク1211bに第1学習処理により学習したパラメータを反映させた。次に、Mot16データセットから生成した学習用データを用いて、最初のフェーズにおいて基本ニューラルネットワーク1211bのパラメータを固定してニューラルネットワーク121bを学習させた。そして、最後のフェーズにおいて、基本ニューラルネットワーク1211bのパラメータを固定を解除してニューラルネットワーク121bを学習させた。
図20は、実施例1における所定のアルゴリズムの一例を示す図である。図20には、基本ニューラルネットワーク1211a、1211bが抽出した特徴量、およびニューラルネットワーク121bが抽出した特徴量を比較して類似性を照合するために用いた所定のアルゴリズムの一例が示されている。
実施例2では、MOT16 Train Data setとMOT16 Test Data setとを用いて物体追跡装置10に用いられるニューラルネットワークの性能を評価したので、その結果について説明する。なお、実施例2では、物体追跡装置10に用いられるニューラルネットワークがサイアミーズニューラルネットワークとした。つまり、実施例2では、変形例における物体追跡装置10に用いられるニューラルネットワークについて性能を評価した。また、MOT16を用いて、複数の対象物体を追跡する物体追跡の性能をベンチマーク評価することは、最も確立された評価方法の一つであり広く使用されている。
以上、実施の形態において本開示の物体追跡方法について説明したが、各処理が実施される主体や装置に関しては特に限定しない。ローカルに配置された特定の装置内に組み込まれたプロセッサーなど(以下に説明)によって処理されてもよい。またローカルの装置と異なる場所に配置されているクラウドサーバなどによって処理されてもよい。
11 入力部
12 出力部
50t−1、50t 画像
51、51p データ入力層
121 抽出部
121a、121b ニューラルネットワーク
122 照合部
123 追跡結果出力部
1211、1211a、1211b 基本ニューラルネットワーク
1212、1212a、1212b、1213、1213a、1213b 特徴層
1214、1215 特徴結合層
1216、1218 次元処理層
1217、1219 追加層
1220、1222 評価層
Claims (11)
- ニューラルネットワークを用いてコンピュータが行う物体追跡方法であって、
それぞれ1以上の物体が映り、時系列に連続した第1画像および第2画像を含む2以上の画像を、前記ニューラルネットワークに入力する入力ステップと、
前記入力ステップにおいて入力された前記第1画像に映る追跡候補である1以上の物体それぞれの第1特徴量および前記第2画像に映る1以上の物体それぞれの第2特徴量を前記ニューラルネットワークに抽出させ、抽出させた前記第1特徴量および前記第2特徴量を比較して類似性を照合することで、前記第1画像に映る追跡候補である1以上の物体に一致する、前記第1画像より時系列で後の前記第2画像に映る1以上の物体の識別情報および位置情報を、識別結果として出力する出力ステップとを含み、
前記ニューラルネットワークは、0以上の全結合層と1以上の畳み込み層とを有する同一構造を2以上含み、前記同一構造間の対応する層でパラメータを共有し、
前記ニューラルネットワークは、さらに、前記2以上の同一構造の外に、前記入力ステップにおいて入力された前記2以上の画像に映る1以上の物体のIoU(Intersection-over-Union)および当該画像中の領域の面積比を追加特徴量として算出する追加層を備え、
前記出力ステップでは、前記ニューラルネットワークは、2つ以上の同一構造のうちの2つの前記同一構造で前記第1画像の特徴量および前記第2画像の特徴量を抽出し、
前記第1特徴量は、前記追加特徴量として算出された前記IoUおよび前記面積比を前記2以上の同一構造のうちの第1の構造から出力される、前記第1画像の特徴量と結合した特徴量であり、
前記第2特徴量は、前記追加特徴量として算出された前記IoUおよび前記面積比を前記2以上の同一構造のうちの第2の構造から出力される、前記第2画像の特徴量と結合した特徴量である、
物体追跡方法。 - 前記2以上の画像は、前記第1画像および前記第2画像であり、
前記2以上の同一構造は、2つの同一構造である、
請求項1に記載の物体追跡方法。 - 前記入力ステップでは、それぞれ1以上の物体が映り、時系列に連続した第1画像、第2画像および第3画像を前記ニューラルネットワークに入力し、
前記出力ステップでは、前記入力ステップにおいて入力された前記第1画像に映る追跡候補である1以上の物体それぞれの第1特徴量、前記第2画像に映る1以上の物体それぞれの第2特徴量、および、前記第3画像に映る1以上の物体それぞれの第3特徴量を前記ニューラルネットワークに抽出させ、抽出した前記第1特徴量、前記第2特徴量および前記第3特徴量を比較して類似性を照合することで、前記第1画像に映る前記追跡候補それぞれに一致する前記第2画像および前記第3画像に映る1以上の物体の識別情報および位置情報を、識別結果として出力し、
前記2以上の同一構造は、3つの同一構造であり、3つの前記同一構造で前記第1画像の特徴量、前記第2画像の特徴量および前記第3画像の特徴量を抽出する、
請求項1に記載の物体追跡方法。 - 前記物体追跡方法は、さらに、
前記入力ステップを行う前に、同一物体が映る2つ以上の画像であるペア画像と非同一物体が映る2つ以上の画像である非ペア画像とを複数含む学習用データを用いて、前記ニューラルネットワークに、前記ペア画像それぞれから、比較による類似性の照合において同一物体を示す特徴量を抽出させるための前記パラメータを学習させる学習ステップを含む、
請求項1〜3のいずれか1項に記載の物体追跡方法。 - 前記物体追跡方法は、さらに、
前記入力ステップを行う前に、同一物体が映る2つ以上の画像であるペア画像と非同一物体が映る2つ以上の画像である非ペア画像とを複数含む学習用データを用いて、前記ニューラルネットワークのうちの前記2以上の同一構造に、前記ペア画像それぞれから、比較による類似性の照合において同一物体を示す特徴量を抽出させるための、前記パラメータを学習させる第1学習ステップと、
前記第1学習ステップで学習させた前記パラメータを前記2以上の同一構造に反映させた前記ニューラルネットワークに、前記学習用データを用いて、前記ペア画像それぞれから、比較による類似性の照合において同一物体を示す特徴量を抽出させるための前記パラメータを学習させる第2学習ステップとを含む、
請求項1に記載の物体追跡方法。 - 前記比較による類似性は、前記2つ以上の同一構造で抽出された前記入力ステップにおいて入力された前記2以上の画像それぞれの特徴量の距離の比較により評価される、
請求項4または5に記載の物体追跡方法。 - 前記比較による類似性は、
前記2以上の画像それぞれの特徴量のユークリッド距離を用いた誤差関数を用いて評価される、
請求項6に記載の物体追跡方法。 - 前記2つ以上の同一構造はそれぞれ、前記入力ステップにおいて入力された前記2以上の画像のうち対応する画像の特徴量を、当該画像の次元よりも減じた次元で抽出し、
前記2つ以上の同一構造それぞれで抽出される特徴量の次元は同一である、
請求項1〜7のいずれか1項に記載の物体追跡方法。 - 前記2以上の画像に映る1以上の物体は、人物および車両のうちの少なくとも一方である、
請求項1〜6のいずれか1項に記載の物体追跡方法。 - 0以上の全結合層と1以上の畳み込み層とを有する同一構造を2以上含み、前記同一構造間の対応する層でパラメータを共有するニューラルネットワークに、それぞれ1以上の物体が映り時系列に連続した第1画像および第2画像を含む2以上の画像を入力する入力ステップと、
前記入力ステップにおいて入力された前記第1画像に映る追跡候補である1以上の物体それぞれの第1特徴量および前記第2画像に映る1以上の物体それぞれの第2特徴量を前記ニューラルネットワークに抽出させ、抽出させた前記第1特徴量および前記第2特徴量を比較して類似性を照合することで、前記第1画像に映る追跡候補である1以上の物体に一致する前記第1画像より時系列で後の前記第2画像に映る1以上の物体の識別情報および位置情報を、識別結果として出力する出力ステップとを、
コンピュータに実行させ、
前記ニューラルネットワークは、さらに、前記2以上の同一構造の外に、前記入力ステップにおいて入力された前記2以上の画像に映る1以上の物体のIoU(Intersection-over-Union)および当該画像中の領域の面積比を追加特徴量として算出する追加層を備えており、
前記出力ステップでは、前記ニューラルネットワークに、2つ以上の同一構造のうちの2つの前記同一構造で前記第1画像の特徴量および前記第2画像の特徴量を抽出させ、
前記第1特徴量は、前記追加特徴量として算出された前記IoUおよび前記面積比を前記2以上の同一構造のうちの第1の構造から出力される、前記第1画像の特徴量と結合した特徴量であり、
前記第2特徴量は、前記追加特徴量として算出された前記IoUおよび前記面積比を前記2以上の同一構造のうちの第2の構造から出力される、前記第2画像の特徴量と結合した特徴量である、
プログラム。 - それぞれ1以上の物体が映り、時系列に連続した第1画像および第2画像を含む2以上の画像を、ニューラルネットワークに入力する入力部と、
前記入力部により入力された前記第1画像に映る追跡候補である1以上の物体それぞれの第1特徴量および前記第2画像に映る1以上の物体それぞれの第2特徴量を前記ニューラルネットワークに抽出させ、抽出させた前記第1特徴量および前記第2特徴量を比較して類似性を照合することで、前記第1画像に映る追跡候補である1以上の物体に一致する前記第1画像より時系列で後の前記第2画像に映る1以上の物体の識別情報および位置情報を、識別結果として出力する出力部とを備え、
前記ニューラルネットワークは、0以上の全結合層と1以上の畳み込み層とを有する同一構造を2以上含み、前記同一構造間の対応する層でパラメータを共有し、
前記ニューラルネットワークは、さらに、前記2以上の同一構造の外に、前記入力部において入力された前記2以上の画像に映る1以上の物体のIoU(Intersection-over-Union)および当該画像中の領域の面積比を追加特徴量として算出する追加層を備え、
前記ニューラルネットワークは、2つ以上の同一構造のうちの2つの前記同一構造で前記第1画像の特徴量および前記第2画像の特徴量を抽出し、
前記第1特徴量は、前記追加特徴量として算出された前記IoUおよび前記面積比を前記2以上の同一構造のうちの第1の構造から出力される、前記第1画像の特徴量と結合した特徴量であり、
前記第2特徴量は、前記追加特徴量として算出された前記IoUおよび前記面積比を前記2以上の同一構造のうちの第2の構造から出力される、前記第2画像の特徴量と結合した特徴量である、
物体追跡装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201780003689.5A CN108352072B (zh) | 2016-08-08 | 2017-07-07 | 物体跟踪方法、物体跟踪装置以及记录介质 |
EP17839122.3A EP3499454B1 (en) | 2016-08-08 | 2017-07-07 | Object tracking method, object tracking device, and program |
PCT/JP2017/024932 WO2018030048A1 (ja) | 2016-08-08 | 2017-07-07 | 物体追跡方法、物体追跡装置およびプログラム |
US16/171,923 US10803602B2 (en) | 2016-08-08 | 2018-10-26 | Object tracking method, object tracking apparatus, and recording medium |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662371962P | 2016-08-08 | 2016-08-08 | |
US62/371,962 | 2016-08-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018026108A JP2018026108A (ja) | 2018-02-15 |
JP6832504B2 true JP6832504B2 (ja) | 2021-02-24 |
Family
ID=61194124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017098560A Active JP6832504B2 (ja) | 2016-08-08 | 2017-05-17 | 物体追跡方法、物体追跡装置およびプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US10803602B2 (ja) |
EP (1) | EP3499454B1 (ja) |
JP (1) | JP6832504B2 (ja) |
CN (1) | CN108352072B (ja) |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018060268A (ja) * | 2016-10-03 | 2018-04-12 | 株式会社日立製作所 | 認識装置および学習システム |
US12118769B1 (en) | 2017-07-26 | 2024-10-15 | Vizit Labs, Inc. | Machine learning architecture for peer-based image scoring |
US11417085B2 (en) * | 2017-07-26 | 2022-08-16 | Vizit Labs, Inc. | Systems and methods for automating benchmark generation using neural networks for image or video selection |
US12020470B1 (en) | 2017-07-26 | 2024-06-25 | Vizit Labs, Inc. | Systems and methods for using image scoring an improved search engine |
US11763546B1 (en) | 2017-07-26 | 2023-09-19 | Vizit Labs, Inc. | Systems and methods for managing computer memory for scoring images or videos using selective web crawling |
CN107562805B (zh) * | 2017-08-08 | 2020-04-03 | 浙江大华技术股份有限公司 | 一种以图搜图的方法及装置 |
CN108230359B (zh) * | 2017-11-12 | 2021-01-26 | 北京市商汤科技开发有限公司 | 目标检测方法和装置、训练方法、电子设备、程序和介质 |
US11087273B1 (en) * | 2017-12-14 | 2021-08-10 | Amazon Technologies, Inc. | Item recognition system using reference images |
WO2019170024A1 (zh) | 2018-03-06 | 2019-09-12 | 北京市商汤科技开发有限公司 | 目标跟踪方法和装置、电子设备、存储介质 |
CN108460787B (zh) | 2018-03-06 | 2020-11-27 | 北京市商汤科技开发有限公司 | 目标跟踪方法和装置、电子设备、程序、存储介质 |
KR102103770B1 (ko) * | 2018-04-02 | 2020-04-24 | 동국대학교 산학협력단 | 보행자 검출 장치 및 방법 |
JP6988698B2 (ja) * | 2018-05-31 | 2022-01-05 | トヨタ自動車株式会社 | 物体認識装置 |
JP7268063B2 (ja) * | 2018-06-29 | 2023-05-02 | バイドゥドットコム タイムズ テクノロジー (ベイジン) カンパニー リミテッド | 低電力のリアルタイムオブジェクト検出用のシステム及び方法 |
EP3588441B1 (en) * | 2018-06-29 | 2023-08-09 | Fujitsu Limited | Imagification of multivariate data sequences |
TWI679612B (zh) * | 2018-08-14 | 2019-12-11 | 國立交通大學 | 影像追蹤方法 |
SG11202101826WA (en) * | 2018-08-23 | 2021-03-30 | Univ Texas | Controlling a device by tracking movement of hand using acoustic signals |
CN109344661B (zh) * | 2018-09-06 | 2023-05-30 | 南京聚铭网络科技有限公司 | 一种基于机器学习的微代理的网页防篡改方法 |
US10872424B2 (en) * | 2018-11-19 | 2020-12-22 | Accenture Global Solutions Limited | Object tracking using object attributes |
JP7238962B2 (ja) | 2019-03-13 | 2023-03-14 | 日本電気株式会社 | 物体追跡装置、物体追跡方法、及び、プログラム |
US20220139071A1 (en) * | 2019-03-25 | 2022-05-05 | Sony Semiconductor Solutions Corporation | Information processing device, information processing method, information processing program, and information processing system |
CN110349147B (zh) * | 2019-07-11 | 2024-02-02 | 腾讯医疗健康(深圳)有限公司 | 模型的训练方法、眼底黄斑区病变识别方法、装置及设备 |
JP7404125B2 (ja) * | 2019-09-13 | 2023-12-25 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 物体追跡方法及びプログラム |
JP7453767B2 (ja) * | 2019-09-25 | 2024-03-21 | キヤノン株式会社 | 情報処理装置、情報処理方法 |
JP7518609B2 (ja) * | 2019-11-07 | 2024-07-18 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
JP7331947B2 (ja) * | 2019-12-24 | 2023-08-23 | 日本電気株式会社 | 物体識別装置、物体識別方法、学習装置、学習方法、及び、プログラム |
JP7310927B2 (ja) * | 2019-12-26 | 2023-07-19 | 日本電気株式会社 | 物体追跡装置、物体追跡方法及び記録媒体 |
SG10201913754XA (en) * | 2019-12-30 | 2020-12-30 | Sensetime Int Pte Ltd | Image processing method and apparatus, electronic device, and storage medium |
US11450021B2 (en) | 2019-12-30 | 2022-09-20 | Sensetime International Pte. Ltd. | Image processing method and apparatus, electronic device, and storage medium |
JP7226368B2 (ja) * | 2020-02-17 | 2023-02-21 | トヨタ自動車株式会社 | 物体状態識別装置 |
CN111460906B (zh) * | 2020-03-05 | 2023-05-26 | 重庆大学 | 一种基于集成学习的脉冲神经网络模式识别方法及系统 |
JP7115502B2 (ja) | 2020-03-23 | 2022-08-09 | トヨタ自動車株式会社 | 物体状態識別装置、物体状態識別方法及び物体状態識別用コンピュータプログラムならびに制御装置 |
JP7381388B2 (ja) | 2020-04-03 | 2023-11-15 | トヨタ自動車株式会社 | 信号灯状態識別装置、信号灯状態識別方法及び信号灯状態識別用コンピュータプログラムならびに制御装置 |
JP7359735B2 (ja) | 2020-04-06 | 2023-10-11 | トヨタ自動車株式会社 | 物体状態識別装置、物体状態識別方法及び物体状態識別用コンピュータプログラムならびに制御装置 |
US20210358164A1 (en) * | 2020-05-15 | 2021-11-18 | Nvidia Corporation | Content-aware style encoding using neural networks |
EP3920102B1 (en) * | 2020-06-05 | 2024-10-30 | HTC Corporation | Machine learning system and machine learning method involving data augmentation, and storage medium |
CN111885384B (zh) * | 2020-07-10 | 2023-08-22 | 郑州大学 | 带宽受限下基于生成对抗网络的图片处理和传输方法 |
WO2022044222A1 (ja) * | 2020-08-27 | 2022-03-03 | 日本電気株式会社 | 学習装置、学習方法、追跡装置及び記憶媒体 |
US12067708B2 (en) * | 2020-09-08 | 2024-08-20 | Rakuten Group, Inc. | Image judgement apparatus, image judgement method and non-transitory computer readable medium |
US11818373B1 (en) * | 2020-09-08 | 2023-11-14 | Block, Inc. | Machine-learning based data compression for streaming media |
US11741712B2 (en) | 2020-09-28 | 2023-08-29 | Nec Corporation | Multi-hop transformer for spatio-temporal reasoning and localization |
US11964654B2 (en) * | 2020-10-30 | 2024-04-23 | GM Global Technology Operations LLC | Spatially invariant 3D convolutional network over spherical coordinate input |
CN112509008B (zh) * | 2020-12-15 | 2022-05-03 | 重庆邮电大学 | 一种基于交并比引导孪生网络的目标跟踪方法 |
KR102308752B1 (ko) | 2021-02-22 | 2021-10-05 | 주식회사 에스아이에이 | 객체 추적 방법 및 장치 |
SE2100097A1 (en) * | 2021-06-09 | 2022-12-10 | Saab Ab | Method and Device for object tracking |
KR102373752B1 (ko) * | 2021-06-28 | 2022-03-14 | 주식회사 아센디오 | 복수 모델을 이용한 차량식별추적 방법, 및 시스템 |
KR102373753B1 (ko) * | 2021-06-28 | 2022-03-14 | 주식회사 아센디오 | 딥러닝 기반의 차량식별추적 방법, 및 시스템 |
CN113628244B (zh) * | 2021-07-05 | 2023-11-28 | 上海交通大学 | 基于无标注视频训练的目标跟踪方法、系统、终端及介质 |
US20230025770A1 (en) * | 2021-07-19 | 2023-01-26 | Kookmin University Industry Academy Cooperation Foundation | Method and apparatus for detecting an object based on identification information of the object in continuous images |
EP4145405A1 (fr) * | 2021-09-02 | 2023-03-08 | Bull SAS | Procédé d'entrainement d'un réseau neuronal d'analyse d'image, et procédé de ré-identification d'objet mettant en oeuvre un tel réseau neuronal |
CN114332169B (zh) * | 2022-03-14 | 2022-05-06 | 南京甄视智能科技有限公司 | 基于行人重识别的行人跟踪方法、装置、存储介质及设备 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4859025B2 (ja) * | 2005-12-16 | 2012-01-18 | 株式会社リコー | 類似画像検索装置、類似画像検索処理方法、プログラム及び情報記録媒体 |
JP4290164B2 (ja) * | 2006-01-31 | 2009-07-01 | キヤノン株式会社 | 識別領域を示す表示を画像と共に表示させる表示方法、コンピュータ装置に実行させるプログラム、および、撮像装置 |
CN101299233B (zh) * | 2008-04-08 | 2010-11-10 | 西安交通大学 | 基于fpga实现的运动目标识别与跟踪方法 |
JP5248236B2 (ja) * | 2008-08-08 | 2013-07-31 | パナソニック株式会社 | 画像処理装置および画像処理方法 |
CN104299245B (zh) * | 2014-10-13 | 2017-12-26 | 深圳先进技术研究院 | 基于神经网络的增强现实跟踪方法 |
CN104915643B (zh) * | 2015-05-26 | 2018-06-22 | 中山大学 | 一种基于深度学习的行人再标识方法 |
US10019631B2 (en) * | 2015-11-05 | 2018-07-10 | Qualcomm Incorporated | Adapting to appearance variations when tracking a target object in video sequence |
US9858496B2 (en) * | 2016-01-20 | 2018-01-02 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
JP2018005420A (ja) * | 2016-06-29 | 2018-01-11 | 富士通株式会社 | 情報処理装置、学習ネットワーク学習値算出プログラムおよび学習ネットワーク学習値算出方法 |
-
2017
- 2017-05-17 JP JP2017098560A patent/JP6832504B2/ja active Active
- 2017-07-07 EP EP17839122.3A patent/EP3499454B1/en active Active
- 2017-07-07 CN CN201780003689.5A patent/CN108352072B/zh active Active
-
2018
- 2018-10-26 US US16/171,923 patent/US10803602B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP3499454A1 (en) | 2019-06-19 |
US20190066313A1 (en) | 2019-02-28 |
EP3499454A4 (en) | 2019-06-19 |
US10803602B2 (en) | 2020-10-13 |
JP2018026108A (ja) | 2018-02-15 |
CN108352072A (zh) | 2018-07-31 |
EP3499454B1 (en) | 2020-06-03 |
CN108352072B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6832504B2 (ja) | 物体追跡方法、物体追跡装置およびプログラム | |
CN110414432B (zh) | 对象识别模型的训练方法、对象识别方法及相应的装置 | |
CN106548127B (zh) | 图像识别方法 | |
Bideau et al. | It’s moving! a probabilistic model for causal motion segmentation in moving camera videos | |
Hoang et al. | Enhanced detection and recognition of road markings based on adaptive region of interest and deep learning | |
CN110659589B (zh) | 基于姿态和注意力机制的行人再识别方法、系统、装置 | |
US20150379371A1 (en) | Object Detection Utilizing Geometric Information Fused With Image Data | |
US20160104053A1 (en) | Hierarchical Interlinked Multi-scale Convolutional Network for Image Parsing | |
US20190301861A1 (en) | Method and apparatus for binocular ranging | |
US11410327B2 (en) | Location determination apparatus, location determination method and computer program | |
CN109492576B (zh) | 图像识别方法、装置及电子设备 | |
US20150036935A1 (en) | Information processing apparatus, information processing method, and storage medium | |
US20160148070A1 (en) | Image processing apparatus, image processing method, and recording medium | |
WO2018030048A1 (ja) | 物体追跡方法、物体追跡装置およびプログラム | |
CN113297963A (zh) | 多人姿态的估计方法、装置、电子设备以及可读存储介质 | |
CN112070071B (zh) | 视频中的对象标注方法、装置、计算机设备及存储介质 | |
CN112036457B (zh) | 训练目标检测模型的方法及装置、目标检测方法及装置 | |
US20170053172A1 (en) | Image processing apparatus, and image processing method | |
CN109523570A (zh) | 运动参数计算方法及装置 | |
JP6713422B2 (ja) | 学習装置、イベント検出装置、学習方法、イベント検出方法、プログラム | |
CN114168768A (zh) | 图像检索方法及相关设备 | |
CN112257628A (zh) | 一种户外比赛运动员的身份识别方法、装置及设备 | |
CN115018886B (zh) | 运动轨迹识别方法、装置、设备及介质 | |
CN113486761B (zh) | 一种指甲识别方法、装置、设备及存储介质 | |
CN112989869B (zh) | 人脸质量检测模型的优化方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170612 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170714 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201013 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201211 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210113 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6832504 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |