JP7211495B2 - 教師データ生成装置 - Google Patents
教師データ生成装置 Download PDFInfo
- Publication number
- JP7211495B2 JP7211495B2 JP2021515437A JP2021515437A JP7211495B2 JP 7211495 B2 JP7211495 B2 JP 7211495B2 JP 2021515437 A JP2021515437 A JP 2021515437A JP 2021515437 A JP2021515437 A JP 2021515437A JP 7211495 B2 JP7211495 B2 JP 7211495B2
- Authority
- JP
- Japan
- Prior art keywords
- moving image
- image data
- data
- frame images
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/772—Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
- G06V10/7784—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
- G06V10/7788—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Description
動画データを構成する複数のフレーム画像のうちの一部の複数のフレーム画像を第1の動画データとして選択し、前記第1の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第2の動画データとして選択し、前記第1の動画データおよび前記第2の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第3の動画データとして選択する選択手段と、
前記第1の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第1の教師データを生成する第1の生成手段と、
前記第1の教師データを使用して、前記特定の認識対象を認識する第1のモデルを学習する第1の学習手段と、
前記第1のモデルを使用して、前記第2の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第2の教師データを生成する第2の生成手段と、
前記第2の教師データを使用して、前記特定の認識対象を認識する第2のモデルを学習する第2の学習手段と、
前記第2のモデルを使用して、前記第3の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第3の教師データを生成する第3の生成手段と、
を含む。
動画データを構成する複数のフレーム画像のうちの一部の複数のフレーム画像を第1の動画データとして選択し、前記第1の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第2の動画データとして選択し、前記第1の動画データおよび前記第2の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第3の動画データとして選択し、
前記第1の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第1の教師データを生成し、
前記第1の教師データを使用して、前記特定の認識対象を認識する第1のモデルを学習し、
前記第1のモデルを使用して、前記第2の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第2の教師データを生成し、
前記第2の教師データを使用して、前記特定の認識対象を認識する第2のモデルを学習し、
前記第2のモデルを使用して、前記第3の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第3の教師データを生成する。
コンピュータに、
動画データを構成する複数のフレーム画像のうちの一部の複数のフレーム画像を第1の動画データとして選択し、前記第1の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第2の動画データとして選択し、前記第1の動画データおよび前記第2の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第3の動画データとして選択する処理と、
前記第1の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第1の教師データを生成する処理と、
前記第1の教師データを使用して、前記特定の認識対象を認識する第1のモデルを学習する処理と、
前記第1のモデルを使用して、前記第2の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第2の教師データを生成する処理と、
前記第2の教師データを使用して、前記特定の認識対象を認識する第2のモデルを学習する処理と、
前記第2のモデルを使用して、前記第3の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第3の教師データを生成する処理と、
を行わせるためのプログラムを記録する。
次に、本発明の第1の実施形態について、図面を参照して説明する。図1は、本実施形態に係る教師データ生成装置100のブロック図である。図1を参照すると、教師データ生成装置100は、カメラI/F(インターフェース)部101と、通信I/F部102と、操作入力部103と、画面表示部104と、記憶部105と、演算処理部106とを含んで構成されている。
ップS10)。
図3は選択部106-2の処理の一例を示すフローチャートである。図3を参照すると、選択部106-2は、動画データ105-2を構成するフレーム画像毎に、R、G、Bそれぞれの平均値である平均RGB値を算出する(ステップS21)。この例では、色情報としてRGB表色系を使用したが、HSV表色系などの他の表色系を使用してもよい。
図6は選択部106-2の処理の他の例を示すフローチャートである。図6を参照すると、選択部106-2は、先ず、動画データ105-2からシーンチェンジ点を検出する(ステップS31)。例えば、選択部106-2は、動画データ105-2を構成するフレーム画像毎に、時間的に直前のフレーム画像との画像特徴量(例えば色情報あるいはエッジ情報)の変化量を測定し、測定した画像特徴量の変化量が所定の値を超えることにより、シーンチェンジを検出する。
選択部106-2は、第1の動画データ105-2を構成する複数のフレーム画像、および、第2の動画データ105-6を構成する複数のフレーム画像を、それぞれ動画データ105からランダムに選択する。
<選択部106-2の例4>
選択部106-2は、動画データ105-2を時間軸に沿って、連続する10枚程度の第1の動画データ105-3と、連続する40枚程度の第2の動画データ105-6と、残りの第3の動画データ105-9とに機械的に分割する。
<選択部106-2の例5>
選択部106-2は、動画データ105-2からr(rは2以上の正の整数。例えばr=5)おきに選択した10枚程度のフレーム画像を第1の動画データ105-3とし、40枚程度のフレーム画像を第2の動画データ105-6とし、残りのフレーム画像を第3の動画データ105-9とする。
<選択部106-2の例6>
選択部106-2は、動画データ105-2を構成するフレーム画像のイメージを画面表示部104に表示し、操作入力部103を通じてユーザから選択されたフレーム画像を、第1の動画データ105-3とする。ユーザは、学習に効果のありそうなフレーム画像を第1の動画データ105-3として選択する。あるいはユーザは、ラベル付けする対象毎に、その対象が含まれるフレーム画像を1枚あるいは数枚、第1の動画データ105-3として選択する。
<選択部106-2の例7>
選択部106-2は、動画データ105-2をラベル付けする対象毎にクラスタリングし、各クラスタから代表のフレーム画像を第1の動画データ105-3として選択する。
<選択部106-2の例8>
選択部106-2は、動画データ105-2から、ラベル付けする対象がより多く含まれるフレーム画像を所定枚数だけ第1の動画データ105-3として選択する。
<選択部106-2の例9>
選択部106-2は、動画データ105-2から、オクルージョンの少ないフレーム画像を所定枚数だけ第1の動画データとして選択する。
<選択部106-2の例10>
選択部106-2は、動画データ105-2を分割単位間で類似度が増すように複数のフレーム画像群に分割し、複数のフレーム画像群のうちの1つのフレーム画像群を第1の動画データ105-3とし、他の1つ以上のフレーム画像群を第2の動画データ105-6とし、残りのフレーム画像群を第3の動画データ105-9とする。
次に、本発明の第2の実施形態について図8を参照して説明する。図8は、本実施形態に係る教師データ生成装置200のブロック図である。
[付記1]
動画データを構成する複数のフレーム画像のうちの一部の複数のフレーム画像を第1の動画データとして選択し、前記第1の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第2の動画データとして選択し、前記第1の動画データおよび前記第2の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第3の動画データとして選択する選択手段と、
前記第1の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第1の教師データを生成する第1の生成手段と、
前記第1の教師データを使用して、前記特定の認識対象を認識する第1のモデルを学習する第1の学習手段と、
前記第1のモデルを使用して、前記第2の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第2の教師データを生成する第2の生成手段と、
前記第2の教師データを使用して、前記特定の認識対象を認識する第2のモデルを学習する第2の学習手段と、
前記第2のモデルを使用して、前記第3の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第3の教師データを生成する第3の生成手段と、
を含む教師データ生成装置。
[付記2]
前記選択手段は、前記第2の動画データが前記第1の動画データよりもデータ量が多くなるように前記選択を行うように構成されている、
付記1に記載の教師データ生成装置。
[付記3]
前記選択手段は、前記第3の動画データが前記第2の動画データよりもデータ量が多くなるように前記選択を行うように構成されている、
付記1または2に記載の教師データ生成装置。
[付記4]
前記選択手段は、前記動画データを構成する複数のフレーム画像を特定の画像特徴量に基づいて複数のグループにクラスタリングし、前記複数のグループのそれぞれから少なくとも1つのフレーム画像を前記第1の動画データを構成するフレーム画像として抽出するように構成されている、
付記1乃至3の何れかに記載の教師データ生成装置。
[付記5]
前記選択手段は、前記動画データを構成する複数のフレーム画像を特定の画像特徴量に基づいて複数のグループにクラスタリングし、前記複数のグループのそれぞれから少なくとも1つのフレーム画像を前記第2の動画データを構成するフレーム画像として抽出するように構成されている、
付記1乃至4の何れかに記載の教師データ生成装置。
[付記6]
前記選択手段は、前記動画データを構成する複数のフレーム画像を特定の画像特徴量に基づいて複数のグループにクラスタリングし、前記複数のグループのそれぞれから少なくとも1つのフレーム画像を前記第3の動画データを構成するフレーム画像として抽出するように構成されている、
付記1乃至5の何れかに記載の教師データ生成装置。
[付記7]
前記選択手段は、前記動画データのシーンチェンジ点を検出し、前記動画データを構成する複数のフレーム画像を前記検出されたシーンチェンジ点を分割点として複数のグループに分割し、前記複数のグループのそれぞれから少なくとも1つのフレーム画像を前記第1の動画データを構成するフレーム画像として抽出するように構成されている、
付記1乃至3の何れかに記載の教師データ生成装置。
[付記8]
前記選択手段は、前記動画データのシーンチェンジ点を検出し、前記動画データを構成する複数のフレーム画像を前記検出されたシーンチェンジ点を分割点として複数のグループに分割し、前記複数のグループのそれぞれから少なくとも1つのフレーム画像を前記第2の動画データを構成するフレーム画像として抽出するように構成されている、
付記1、2、3または7に記載の教師データ生成装置。
[付記9]
前記選択手段は、前記動画データのシーンチェンジ点を検出し、前記動画データを構成する複数のフレーム画像を前記検出されたシーンチェンジ点を分割点として複数のグループに分割し、前記複数のグループのそれぞれから少なくとも1つのフレーム画像を前記第3の動画データを構成するフレーム画像として抽出するように構成されている、
付記1、2、3、7または8に記載の教師データ生成装置。
[付記10]
固定されたカメラ位置から固定されたカメラ視野で撮影を行う撮像手段によって撮影されて得られた時系列画像データを前記動画データとして取得する入力手段を、さらに含む、
付記1乃至9の何れかに記載の教師データ生成装置。
[付記11]
前記選択手段は、前記動画データを構成するフレーム画像の総数に基づいて、前記第1の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部のフレーム画像を前記第2の動画データとして選択するか、一部の複数のフレーム画像を前記第2の動画データとして選択するかを決定するように構成されている、
付記1乃至10の何れかに記載の教師データ生成装置。
[付記12]
前記選択手段は、前記動画データを構成するフレーム画像の総数に基づいて、前記第1の動画データおよび前記第2の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部のフレーム画像を前記第3の動画データとして選択するか、一部の複数のフレーム画像を前記第3の動画データとして選択するかを決定するように構成されている、
付記1乃至11の何れかに記載の教師データ生成装置。
[付記13]
ユーザとの対話型処理によって前記第2の生成手段によって生成された前記第2の教師データに対する修正を行うチェック手段を、
さらに含む付記1乃至12の何れかに記載の教師データ生成装置。
[付記14]
動画データを構成する複数のフレーム画像のうちの一部の複数のフレーム画像を第1の動画データとして選択し、前記第1の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第2の動画データとして選択し、前記第1の動画データおよび前記第2の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第3の動画データとして選択し、
前記第1の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第1の教師データを生成し、
前記第1の教師データを使用して、前記特定の認識対象を認識する第1のモデルを学習し、
前記第1のモデルを使用して、前記第2の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第2の教師データを生成し、
前記第2の教師データを使用して、前記特定の認識対象を認識する第2のモデルを学習し、
前記第2のモデルを使用して、前記第3の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第3の教師データを生成する、
教師データ生成方法。
[付記15]
前記選択では、前記第2の動画データが前記第1の動画データよりもデータ量が多くなるように前記選択を行うように構成されている、
付記14に記載の教師データ生成方法。
[付記16]
前記選択では、前記第3の動画データが前記第2の動画データよりもデータ量が多くなるように前記選択を行うように構成されている、
付記14または15に記載の教師データ生成方法。
[付記17]
前記選択では、前記動画データを構成する複数のフレーム画像を特定の画像特徴量に基づいて複数のグループにクラスタリングし、前記複数のグループのそれぞれから少なくとも1つのフレーム画像を前記第1の動画データを構成するフレーム画像として抽出するように構成されている、
付記14乃至16の何れかに記載の教師データ生成方法。
[付記18]
前記選択では、前記動画データを構成する複数のフレーム画像を特定の画像特徴量に基づいて複数のグループにクラスタリングし、前記複数のグループのそれぞれから少なくとも1つのフレーム画像を前記第2の動画データを構成するフレーム画像として抽出するように構成されている、
付記14乃至17の何れかに記載の教師データ生成方法。
[付記19]
前記選択では、前記動画データを構成する複数のフレーム画像を特定の画像特徴量に基づいて複数のグループにクラスタリングし、前記複数のグループのそれぞれから少なくとも1つのフレーム画像を前記第3の動画データを構成するフレーム画像として抽出するように構成されている、
付記14乃至18の何れかに記載の教師データ生成方法。
[付記20]
前記選択では、前記動画データのシーンチェンジ点を検出し、前記動画データを構成する複数のフレーム画像を前記検出されたシーンチェンジ点を分割点として複数のグループに分割し、前記複数のグループのそれぞれから少なくとも1つのフレーム画像を前記第1の動画データを構成するフレーム画像として抽出するように構成されている、
付記14乃至16の何れかに記載の教師データ生成方法。
[付記21]
前記選択では、前記動画データのシーンチェンジ点を検出し、前記動画データを構成する複数のフレーム画像を前記検出されたシーンチェンジ点を分割点として複数のグループに分割し、前記複数のグループのそれぞれから少なくとも1つのフレーム画像を前記第2の動画データを構成するフレーム画像として抽出するように構成されている、
付記14、15、16または20に記載の教師データ生成方法。
[付記22]
前記選択では、前記動画データのシーンチェンジ点を検出し、前記動画データを構成する複数のフレーム画像を前記検出されたシーンチェンジ点を分割点として複数のグループに分割し、前記複数のグループのそれぞれから少なくとも1つのフレーム画像を前記第3の動画データを構成するフレーム画像として抽出するように構成されている、
付記14、15、16、20または21に記載の教師データ生成方法。
[付記23]
固定されたカメラ位置から固定されたカメラ視野で撮影を行う撮像手段によって撮影されて得られた時系列画像データを前記動画データとして取得する、
付記14乃至22の何れかに記載の教師データ生成方法。
[付記24]
前記選択では、前記動画データを構成するフレーム画像の総数に基づいて、前記第1の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部のフレーム画像を前記第2の動画データとして選択するか、一部の複数のフレーム画像を前記第2の動画データとして選択するかを決定する、
付記14乃至23の何れかに記載の教師データ生成方法。
[付記25]
前記選択では、前記動画データを構成するフレーム画像の総数に基づいて、前記第1の動画データおよび前記第2の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部のフレーム画像を前記第3の動画データとして選択するか、一部の複数のフレーム画像を前記第3の動画データとして選択するかを決定する、
付記14乃至24の何れかに記載の教師データ生成方法。
[付記26]
ユーザとの対話型処理によって前記第2の教師データに対する修正を行う、
付記14乃至25の何れかに記載の教師データ生成方法。
[付記27]
コンピュータに、
動画データを構成する複数のフレーム画像のうちの一部の複数のフレーム画像を第1の動画データとして選択し、前記第1の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第2の動画データとして選択し、前記第1の動画データおよび前記第2の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部または一部の複数のフレーム画像を第3の動画データとして選択する処理と、
前記第1の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第1の教師データを生成する処理と、
前記第1の教師データを使用して、前記特定の認識対象を認識する第1のモデルを学習する処理と、
前記第1のモデルを使用して、前記第2の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第2の教師データを生成する処理と、
前記第2の教師データを使用して、前記特定の認識対象を認識する第2のモデルを学習する処理と、
前記第2のモデルを使用して、前記第3の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第3の教師データを生成する処理と、
を行わせるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
101 カメラI/F部
102 通信I/F部
103 操作入力部
104 画面表示部
105 記憶部
105-1 プログラム
105-2 動画データ
105-3 第1の動画データ
105-4 第1の教師データ
105-5 第1のモデル
105-6 第2の動画データ
105-7 第2の教師データ
105-8 第2のモデル
105-9 第3の動画データ
105-10 第3の教師データ
106 演算処理部
106-1 入力部
106-2 選択部
106-3 ラベル付けツール
106-4 学習部
106-5 生成部
106-6 チェックツール
106-7 出力部
106-8 制御部
200 教師データ生成装置
201 選択手段
202 第1の生成手段
203 第1の学習手段
204 第2の生成手段
205 第2の学習手段
206 第3の生成手段
Claims (9)
- 動画データを構成する複数のフレーム画像を特定の画像特徴量に基づいて複数のグループにクラスタリングし、前記複数のグループのそれぞれから、一部のフレーム画像を第1の動画データとして選択し、
前記第1の動画データとして選択されなかった前記複数のフレーム画像の全部または一部を、前記複数のグループのそれぞれから、第2の動画データとして選択し、
前記複数のフレーム画像の一部が、前記第2の動画データとして選択された場合に、前記第1の動画データおよび前記第2の動画データとして選択されなかった前記複数のフレーム画像の全部または一部を、前記複数のグループのそれぞれから、第3の動画データとして選択する選択手段と、
前記第1の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第1の教師データを生成する第1の生成手段と、
前記第1の教師データを使用して、前記特定の認識対象を認識する第1のモデルを学習する第1の学習手段と、
前記第1のモデルを使用して、前記第2の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第2の教師データを生成する第2の生成手段と、
前記第2の教師データを使用して、前記特定の認識対象を認識する第2のモデルを学習する第2の学習手段と、
前記第3の動画データが選択されている場合に、前記第2のモデルを使用して、前記第3の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第3の教師データを生成する第3の生成手段と、
を含む教師データ生成装置。 - 前記選択手段は、前記第2の動画データが前記第1の動画データよりもデータ量が多くなるように前記選択を行い、前記第3の動画データが前記第2の動画データよりもデータ量が多くなるように前記選択を行うように構成されている、
請求項1に記載の教師データ生成装置。 - 前記選択手段は、前記動画データのシーンチェンジ点を検出し、前記動画データを構成する複数のフレーム画像を前記検出されたシーンチェンジ点を分割点として複数のグループに分割し、前記複数のグループのそれぞれから、少なくとも1つのフレーム画像を前記第1の動画データを構成するフレーム画像として抽出し、少なくとも1つのフレーム画像を前記第2の動画データを構成するフレーム画像として抽出し、少なくとも1つのフレーム画像を前記第3の動画データを構成するフレーム画像として抽出するように構成されている、
請求項1乃至2の何れかに記載の教師データ生成装置。 - 固定されたカメラ位置から固定されたカメラ視野で撮影を行う撮像手段によって撮影されて得られた時系列画像データを前記動画データとして取得する入力手段を、さらに含む、
請求項1乃至3の何れかに記載の教師データ生成装置。 - 前記選択手段は、前記動画データを構成するフレーム画像の総数に基づいて、前記第1の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部のフレーム画像を前記第2の動画データとして選択するか、一部の複数のフレーム画像を前記第2の動画データとして選択するかを決定するように構成されている、
請求項1乃至4の何れかに記載の教師データ生成装置。 - 前記選択手段は、前記動画データを構成するフレーム画像の総数に基づいて、前記第1の動画データおよび前記第2の動画データとして選択されなかった前記動画データを構成する複数のフレーム画像のうちの全部のフレーム画像を前記第3の動画データとして選択するか、一部の複数のフレーム画像を前記第3の動画データとして選択するかを決定するように構成されている、
請求項1乃至5の何れかに記載の教師データ生成装置。 - ユーザとの対話型処理によって前記第2の生成手段によって生成された前記第2の教師データに対する修正を行うチェック手段を、
さらに含む請求項1乃至6の何れかに記載の教師データ生成装置。 - 動画データを構成する複数のフレーム画像を複数のグループにクラスタリングし、前記複数のグループのそれぞれから、少なくとも一つのフレーム画像を第1の動画データとして選択し、
前記第1の動画データとして選択されなかった前記複数のフレーム画像の全部または一部を、前記複数のグループのそれぞれから、第2の動画データとして選択し、
前記複数のフレーム画像の一部が、前記第2の動画データとして選択された場合に、前記第1の動画データおよび前記第2の動画データとして選択されなかった前記複数のフレーム画像の全部または一部を、前記複数のグループのそれぞれから、第3の動画データとして選択し、
前記第1の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第1の教師データを生成し、
前記第1の教師データを使用して、前記特定の認識対象を認識する第1のモデルを学習し、
前記第1のモデルを使用して、前記第2の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第2の教師データを生成し、
前記第2の教師データを使用して、前記特定の認識対象を認識する第2のモデルを学習し、
前記第3の動画データが選択されている場合に、前記第2のモデルを使用して、前記第3の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第3の教師データを生成する、
教師データ生成方法。 - コンピュータに、
動画データを構成する複数のフレーム画像を複数のグループにクラスタリングし、前記複数のグループのそれぞれから、少なくとも一つのフレーム画像を第1の動画データとして選択する処理と、
前記第1の動画データとして選択されなかった前記複数のフレーム画像の全部または一部を、前記複数のグループのそれぞれから、第2の動画データとして選択する処理と、
前記複数のフレーム画像の一部が、前記第2の動画データとして選択された場合に、前記第1の動画データおよび前記第2の動画データとして選択されなかった前記複数のフレーム画像の全部または一部を、前記複数のグループのそれぞれから、第3の動画データとして選択する処理と、
前記第1の動画データを構成する複数のフレーム画像から特定の認識対象に係るラベル付けされたデータである第1の教師データを生成する処理と、
前記第1の教師データを使用して、前記特定の認識対象を認識する第1のモデルを学習する処理と、
前記第1のモデルを使用して、前記第2の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第2の教師データを生成する処理と、
前記第2の教師データを使用して、前記特定の認識対象を認識する第2のモデルを学習する処理と、
前記第3の動画データが選択されている場合に、前記第2のモデルを使用して、前記第3の動画データを構成する複数のフレーム画像から前記特定の認識対象に係るラベル付けされたデータである第3の教師データを生成する処理と、
を行わせるためのプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/017766 WO2020217425A1 (ja) | 2019-04-25 | 2019-04-25 | 教師データ生成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020217425A1 JPWO2020217425A1 (ja) | 2020-10-29 |
JP7211495B2 true JP7211495B2 (ja) | 2023-01-24 |
Family
ID=72941674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021515437A Active JP7211495B2 (ja) | 2019-04-25 | 2019-04-25 | 教師データ生成装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11954901B2 (ja) |
JP (1) | JP7211495B2 (ja) |
WO (1) | WO2020217425A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024176573A1 (ja) * | 2023-02-21 | 2024-08-29 | 日本電気株式会社 | データ拡張装置、データ拡張方法、及びプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010033532A (ja) | 2008-06-26 | 2010-02-12 | Sony Corp | 電子機器、動きベクトル検出方法及びそのプログラム |
JP2018200531A (ja) | 2017-05-26 | 2018-12-20 | 富士通株式会社 | 教師データ生成装置、教師データ生成方法、教師データ生成プログラム、及び物体検出システム |
JP2019061579A (ja) | 2017-09-27 | 2019-04-18 | 富士フイルム株式会社 | 学習支援装置、学習支援装置の作動方法、学習支援プログラム、学習支援システム、および端末装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6357787B2 (ja) | 2014-02-07 | 2018-07-18 | 日本電気株式会社 | データ処理装置 |
US10928831B2 (en) * | 2018-12-05 | 2021-02-23 | Here Global B.V. | Method and apparatus for de-biasing the detection and labeling of objects of interest in an environment |
US20220067480A1 (en) * | 2019-01-25 | 2022-03-03 | Nec Corporation | Recognizer training device, recognition device, data processing system, data processing method, and storage medium |
-
2019
- 2019-04-25 JP JP2021515437A patent/JP7211495B2/ja active Active
- 2019-04-25 WO PCT/JP2019/017766 patent/WO2020217425A1/ja active Application Filing
- 2019-04-25 US US17/602,403 patent/US11954901B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010033532A (ja) | 2008-06-26 | 2010-02-12 | Sony Corp | 電子機器、動きベクトル検出方法及びそのプログラム |
JP2018200531A (ja) | 2017-05-26 | 2018-12-20 | 富士通株式会社 | 教師データ生成装置、教師データ生成方法、教師データ生成プログラム、及び物体検出システム |
JP2019061579A (ja) | 2017-09-27 | 2019-04-18 | 富士フイルム株式会社 | 学習支援装置、学習支援装置の作動方法、学習支援プログラム、学習支援システム、および端末装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024176573A1 (ja) * | 2023-02-21 | 2024-08-29 | 日本電気株式会社 | データ拡張装置、データ拡張方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20220215653A1 (en) | 2022-07-07 |
US11954901B2 (en) | 2024-04-09 |
JPWO2020217425A1 (ja) | 2020-10-29 |
WO2020217425A1 (ja) | 2020-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104573706B (zh) | 一种物体图像识别方法及其系统 | |
KR102596897B1 (ko) | 모션벡터 및 특징벡터 기반 위조 얼굴 검출 방법 및 장치 | |
US11222239B2 (en) | Information processing apparatus, information processing method, and non-transitory computer-readable storage medium | |
JP7386545B2 (ja) | 画像中の物体を識別するための方法、及び当該方法を実施するためのモバイル装置 | |
CN112330526B (zh) | 一种人脸转换模型的训练方法、存储介质及终端设备 | |
TWI439951B (zh) | 人臉影像性別辨識系統及其辨識方法及其電腦程式產品 | |
CN108960192B (zh) | 动作识别方法及其神经网络生成方法、装置和电子设备 | |
US10440296B2 (en) | Method for processing an asynchronous signal | |
JP2016006626A (ja) | 検知装置、検知プログラム、検知方法、車両、パラメータ算出装置、パラメータ算出プログラムおよびパラメータ算出方法 | |
CN108985443B (zh) | 动作识别方法及其神经网络生成方法、装置和电子设备 | |
CN105912126B (zh) | 一种手势运动映射到界面的增益自适应调整方法 | |
CN105243395A (zh) | 一种人体图像比对方法和装置 | |
CN111209818A (zh) | 视频个体识别方法、系统、设备及可读存储介质 | |
WO2018078857A1 (ja) | 視線推定装置、視線推定方法及びプログラム記録媒体 | |
JP2018026115A (ja) | 火炎検出方法、火炎検出装置及び電子機器 | |
JP2015197708A (ja) | オブジェクト識別装置、オブジェクト識別方法及びプログラム | |
JPWO2015064292A1 (ja) | 画像の特徴量に関する処理システム、処理方法及びプログラム | |
JP7211495B2 (ja) | 教師データ生成装置 | |
JP6384167B2 (ja) | 移動体追跡装置及び移動体追跡方法、並びにコンピュータ・プログラム | |
JP6738293B2 (ja) | カメラキャリブレーション方法、プログラムおよび装置 | |
JPWO2019215780A1 (ja) | 識別システム、モデル再学習方法およびプログラム | |
JP7385416B2 (ja) | 画像処理装置、画像処理システム、画像処理方法及び画像処理プログラム | |
JP7211496B2 (ja) | 教師データ生成装置 | |
WO2020049636A1 (ja) | 識別システム、モデル提供方法およびモデル提供プログラム | |
US11983242B2 (en) | Learning data generation device, learning data generation method, and learning data generation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210928 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210928 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220928 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221226 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7211495 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |