Nothing Special   »   [go: up one dir, main page]

JP5602135B2 - ビデオコンテンツ内の個人の自動注釈付けのための方法およびシステム - Google Patents

ビデオコンテンツ内の個人の自動注釈付けのための方法およびシステム Download PDF

Info

Publication number
JP5602135B2
JP5602135B2 JP2011518715A JP2011518715A JP5602135B2 JP 5602135 B2 JP5602135 B2 JP 5602135B2 JP 2011518715 A JP2011518715 A JP 2011518715A JP 2011518715 A JP2011518715 A JP 2011518715A JP 5602135 B2 JP5602135 B2 JP 5602135B2
Authority
JP
Japan
Prior art keywords
face
module
video
models
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011518715A
Other languages
English (en)
Other versions
JP2011528150A (ja
Inventor
ジェイ ヤグニク,
ミン チャオ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2011528150A publication Critical patent/JP2011528150A/ja
Application granted granted Critical
Publication of JP5602135B2 publication Critical patent/JP5602135B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • G06V40/173Classification, e.g. identification face re-identification, e.g. recognising unknown faces across different face tracks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Collating Specific Patterns (AREA)

Description

本発明は、ビデオコンテンツ内の個人の認識に関する。
インターネットは、テキスト、画像、およびビデオを含む、異なる種類の膨大な量のコンテンツをホストする。このコンテンツを活用するために、コンテンツは、検索可能であり、かつ整理されている必要がある。画像は、一般に、ユーザによって手動で割り当てられるタグに基づいて検索および整理される。同様に、ビデオコンテンツは、一般に、手動で割り当てられるタグに基づいて検索および整理される。
しかしながら、インターネット上の入手可能な大量のビデオコンテンツにタグを手動で割り当てる時、一貫性を維持することは非現実的である。例えば、各ビデオは、相当な長さである場合があり、ビデオの異なる部分に登場する、多くの個人を含む場合がある。ビデオは、姿勢、表情、照明、オクルージョン、および品質によって様々であり得る。ビデオ内に登場する各個人の名前でビデオに正確にタグを付けるには、相当量の手動労力が要求され得る。コンテンツにタグを付ける手動手法には、インターネット上の入手可能な大量のコンテンツに対する拡張性がない。
一般的なオブジェクト認識への現在の手法は、所与のクエリに関連する画像を見つけ、次に、次いで画像内およびビデオ内のオブジェクト検出/認識に使用される種々のオブジェクトの関連モデルを学習するために、画像検索エンジンを使用するステップを含む。しかしながら、これらの手法は、大きなデータ集合内で一個人の顔によって提示され得る相当な変化に対処せず、同一の個人のものではあるが、年齢、化粧、表情、光条件等を含む側面による相当な変化を有する顔を確実に認識することができない。他の手法は、ニュースアーカイブを使用して、適当なラベルを推測するために、顔の判別座標を自動抽出し、クラスタ化するステップを適用する。しかしながら、顔の判別座標に基づいて直接クラスタ化することは、一連の画像に生じるノイズの問題に対処しない。
したがって、ビデオ内に登場する個人の顔に基づき、ビデオコンテンツに自動で注釈を付ける方法およびシステムが必要とされる。
一実施形態では、ビデオ内の顔を識別する、コンピュータ実装方法は、入力ビデオストリームから1つ以上の顔トラックを生成する段階と、1つ以上の顔トラックのそれぞれの主要な顔画像を選択する段階と、顔クラスタを生成するように、顔トラックをクラスタ化する段階であって、各顔クラスタは、1つ以上の主要な顔画像に関連付けられる、段階と、顔クラスタから顔モデルを作成する段階と、顔モデルを顔モデルデータベースに相関させる段階とを含む。
別の実施形態では、ビデオ内の顔を識別するためのシステムは、顔モデルおよび対応する名前を伴う顔エントリを有する、顔モデルデータベース構成要素と、ビデオ顔識別モジュール構成要素とを含む。ビデオ顔識別モジュールは、入力ビデオストリーム内の顔を検出する、顔検出モジュールと、検出顔を追跡し、顔トラックを生成する、顔追跡モジュールと、トラック内顔クラスタ化モジュールと、トラック間顔クラスタ化モジュールと、検出顔モデル生成モジュールと、検出顔モデルをデータベース内の顔エントリと比較する、モデル比較モジュールとを含むことができる。
さらに別の実施形態では、ビデオ内の顔を識別するためのシステムは、構成要素として、名前リストを生成する、名前生成モジュールと、名前リストに対応する画像の場所を特定する、画像検索モジュールと、顔検出モジュールと、顔モデル生成モジュールと、1つ以上の顔モデルおよび対応する名前を対で記憶する、収集モジュールと、一貫性学習モジュールとを有する、顔モデルジェネレータを含む。検出顔モデルおよび名前の対に加えて、収集モジュールはまた、ユーザ入力から得られる顔モデルおよび名前の対を記憶してもよい。
本明細書は、例えば、以下の項目も提供する。
(項目1)
ビデオ内の顔を識別するコンピュータ実装方法であって、
(a)少なくとも1つの入力ビデオストリームから、1つ以上の顔トラックを生成するステップと、
(b)前記1つ以上の顔トラックのそれぞれの1つ以上の主要な顔画像を選択するステップと、
(c)1つ以上の顔クラスタを生成するように、前記1つ以上の顔トラックをクラスタ化するステップであって、各顔クラスタは、前記主要な顔画像のうちの少なくとも1つに関連付けられる、ステップと、
(d)前記1つ以上の顔クラスタから、1つ以上の顔モデルを作成するステップと、
(e)前記顔モデルのうちの少なくとも1つを顔モデルデータベースに相関させるステップと
を含む、方法。
(項目2)
1つ以上の顔トラックを生成するステップは、
(i)前記少なくとも1つの入力ビデオストリーム内の顔を検出するステップと、
(ii)前記少なくとも1つの入力ビデオストリーム内の前記顔を追跡するステップと
を含む、項目1に記載のコンピュータ実装方法。
(項目3)
前記検出するステップおよび前記追跡するステップは、前記入力ビデオストリームの持続時間の間、間隔を置いて繰り返される、項目2に記載のコンピュータ実装方法。
(項目4)
(f)前記顔モデルデータベースからのデータを使用して、少なくとも1つの出力ビデオストリームに注釈を付けるステップをさらに含む、項目1に記載のコンピュータ実装方法。
(項目5)
(i)前記少なくとも1つの出力ビデオストリーム内の少なくとも1つの顔トラックに注釈を付けるステップをさらに含む、項目4に記載のコンピュータ実装方法。
(項目6)
相関させるステップは、前記1つ以上の顔クラスタを前記顔モデルデータベースに相関させるように、多数決アルゴリズムを使用するステップを含む、項目1に記載のコンピュータ実装方法。
(項目7)
相関させるステップは、前記1つ以上の顔クラスタを前記顔モデルデータベースに相関させるように、確率的投票アルゴリズムを使用するステップを含む、項目1に記載のコンピュータ実装方法。
(項目8)
ビデオ内の顔を識別するためのシステムであって、
(a)顔モデルおよび対応する名前を備える顔エントリを有する、顔モデルデータベースと、
(b)ビデオ顔識別モジュールであって、
(i)入力ビデオストリーム内の顔を検出し、1つ以上の検出顔を生成する、顔検出モジュールと、
(ii)前記1つ以上の検出顔のうちの少なくとも1つを追跡し、1つ以上の顔トラックを生成する、顔追跡モジュールと、
(iii)前記1つ以上の顔トラックを使用して、1つ以上のトラック内顔クラスタを生成する、トラック内顔クラスタ化モジュールと、
(iv)前記1つ以上のトラック内顔クラスタを使用して、1つ以上のトラック間顔クラスタを生成する、トラック間顔クラスタ化モジュールと、
(v)前記1つ以上のトラック間顔クラスタを使用して、前記1つ以上の検出顔の1つ以上の検出顔モデルを生成する、検出顔モデル生成モジュールと、
(vi)前記1つ以上の検出顔モデルを前記顔エントリと比較する、モデル比較モジュールと
を備える、ビデオ顔識別モジュールと
を備える、システム。
(項目9)
(c)顔モデルジェネレータであって、前記顔モデルジェネレータは、
(i)名前リストを生成する、名前生成モジュールと、
(ii)前記名前リスト内の1つ以上の対応する名前に関連付けられる、少なくとも1つの顔を有する、1つ以上の画像の場所を特定する、画像検索モジュールと、
(iii)前記1つ以上の画像内の1つ以上の標的顔を検出する、顔検出モジュールと、
(iv)前記1つ以上の標的顔のうちの少なくとも1つの1つ以上の顔モデルを生成する、顔モデル生成モジュールと、
(v)前記1つ以上の顔モデルおよび前記1つ以上の対応する名前を対で記憶する、収集モジュールと、
(vi)一貫性学習モジュールであって、1つ以上の代表的な顔モデルは、前記1つ以上の顔モデルから選択され、前記1つ以上の代表的な顔モデルは、前記顔モデルデータベース内に記憶される、一貫性学習モジュールと
を備える、顔モデルジェネレータをさらに備える、項目8に記載のシステム。
(項目10)
前記名前リストは、1つ以上の遠隔位置でアクセス可能な文書内の名前に基づいて生成される、項目9に記載のシステム。
(項目11)
文書は、ウェブ文書を含む、項目10に記載のシステム。
(項目12)
(d)前記検出顔に基づき、前記顔モデルデータベースを更新する、顔モデル更新モジュールをさらに備える、項目8に記載のシステム。
(項目13)
前記顔モデルデータベースは、1つ以上の顔画像および1つ以上の対応するテキストラベルを備える、1つ以上のエントリを含み、各エントリは、1つのエンティティを表す、項目8に記載のシステム。
(項目14)
前記顔モデルデータベースはさらに、1つ以上の顔画像および1つ以上の対応するテキストラベルを備える、ユーザによって直接入力される1つ以上のエントリを含む、項目13に記載のシステム。
(項目15)
前記顔追跡モジュールは、顔の特徴に基づく顔トラッカを含む、項目8に記載のシステム。
(項目16)
前記トラック内クラスタ化は、ノイズクラスタを除去するステップを含む、項目8に記載のシステム。
(項目17)
前記トラック間クラスタ化は、ノイズクラスタを除去するステップを含む、項目8に記載のシステム。
(項目18)
前記顔検出モジュールは、周期的に呼び出され、前記顔追跡モジュールは、前記顔検出モジュールによって検出される顔に対して呼び出される、項目8に記載のシステム。
(項目19)
(e)前記入力ビデオストリームに注釈を付けて、注釈付き出力ビデオストリームを作り出す、ビデオ注釈モジュールをさらに備える、項目8に記載のシステム。
(項目20)
(f)ユーザクエリを前記顔モデルデータベース内の1つ以上のエントリに関連付ける、クエリモジュールをさらに備える、項目8に記載のシステム。
本発明のさらなる特徴および利点、ならびにその種々の実施形態の構造および動作は、添付の図面を参照して、以下に詳細に記載される。本発明は、本明細書に記載される具体的実施形態に限定されないことが留意される。そのような実施形態は、例示するためだけに本明細書に提示される。追加の実施形態は、本明細書に包含される教示に基づき、関連技術分野に精通する者に明らかとなるであろう。
実施例が添付の図面中に図示され得る、本発明の実施形態が参照される。これらの図面は、制限ではなく、例示であることが意図される。本発明は、概して、これらの実施形態の文脈において記載されるが、本発明の範囲をこれらの特定の実施形態に制限することは意図されないことを理解されたい。
図1は、本発明の一実施形態に係る、システム図である。 図2は、本発明の実施形態に係る、顔モデル生成モジュールの構成要素を示す。 図3は、本発明の実施形態に係る、ビデオ顔認識モジュールの構成要素を示す。 図4は、モデル構築段階およびビデオ顔認識段階を含む、本発明の実施形態を実装するコンピュータ実装方法の高レベルフローチャートを示す。 図5は、本発明の実施形態に係る、図4のモデル生成段階のより詳細な動作を示す。 図6は、本発明の実施形態に係る、一個人に対応する顔モデルエントリの構造を示す。 図7は、本発明の実施形態に係る、図4のビデオ顔認識段階のより詳細な動作を示す。 図8は、本発明の実施形態に係る、図7の顔検出および追跡段階の動作の詳細図である。
本発明は、特定の用途の実例的実施形態を参照して本明細書に記載されるが、本発明は、それに限定されないことを理解されたい。本明細書の教示が入手可能な当業者は、その範囲内の追加の修正、用途、および実施形態、ならびに本発明が大いに役立ち得る追加の分野を認識するであろう。
ビデオ記録デバイスの普及およびインターネットによって提供される接続性によって加速されたコンテンツの増殖によって、ますますより大きなビデオのコレクションが入手可能となってきている。相互接続ネットワークおよび共有ビデオコレクションの使用によって、いかなる時点においても、単一のユーザは、世界中に広まった、個人が著した種々の主題上のビデオコンテンツの大きなコレクションへのアクセスを有し得る。これらの大きなコレクションに含まれる情報を活用するために、コレクションは、検索を容易にするように構造化される必要がある。例えば、ビデオ内に登場する個人の名前等の情報で、これらのビデオの大きなコレクションに自動で注釈を付けることができるシステムが有用であり得る。本開示の方法およびシステムは、最小限の手動介入によって、名前と顔を自動で関連付けるため、および次いで、ビデオコンテンツ内の顔の確実な認識に使用される、一式の顔モデルを得るために、例えば、インターネット上の入手可能な大きなテキストおよび画像コーパスを利用する。得られた一式のモデルは、ビデオコンテンツをより検索可能にするためのビデオコンテンツの自動認識および注釈付けに使用することができる。例えば、関連付けを行うのに十分な情報が入手可能な有名人または他の人気のある人々のモデルが作成されてもよい。
(システム構成要素)
図1は、本発明の実施形態に係る、例えば、ビデオ内に登場する人気のある個人の名前等の情報で、ビデオに自動で注釈を付けることができるシステム100を示す。ビデオプロセッサモジュール101は、接続デバイス131を用いて、システムインターフェース130に連結される。システムインターフェース130は、ビデオプロセッサモジュール101と同一のコンピューティングプラットフォーム上にある、ユーザインターフェースもしくはアプリケーションプログラミングインターフェース、または例えば、ウェブクライアント等の遠隔ユーザインターフェースであってもよい。したがって、接続デバイス131は、例えば、周辺構成要素相互接続(Peripheral Component Interconnect:PCI)バス、イーサネット(登録商標)、または無線通信標準等の接続方法を使用してもよい。
ビデオプロセッサモジュール101はまた、ビデオコーパス114、画像コーパス112、およびテキストコーパス110にアクセスすることもできる。コーパス114、112、および110のいくつかまたは全ては、例えば、インターネットのような広域ネットワーク(WAN)、もしくはローカルエリアネットワーク(LAN)等のネットワーク140を通してアクセス可能であってもよく、またはユーザの所有するシステム上のローカルにあってもよい。コーパス114、112、および110は、それぞれ、同一の場所にある、または分散された、1つ以上のコーパスを含んでもよい。いくつかの実施形態では、コーパス114、112、および110は、一部分または全体が同一の場所にあってもよい。ビデオプロセッサモジュール101は、例えば、かつ制限なく、PCIバス、イーサネット(登録商標)、および無線通信標準を含む、任意の接続141を通して、ネットワーク140に連結されてもよい。ビデオコーパス114は、任意の長さ、ならびに例えば、かつ制限なく、任意のMoving Picture Experts Group(MPEG)標準、audio video interleave標準(AVI)、QuickTime、およびWindows(登録商標) Media Video(WMV)を含む、任意のビデオ形式のビデオクリップを含んでもよい。ビデオクリップは、1人以上の個人を有するビデオを含む。画像コーパス112は、JPEG、TIFF、およびPNG等の任意の画像形式の画像を含んでもよい。画像コーパス112は、個人の画像を含む。テキストコーパス110は、例えば、ローカルで、および/またはインターネット上でアクセス可能なテキストアーカイブを含む。入手可能なテキストアーカイブは、例えば、かつ制限なく、ASCIIテキスト、PDFテキスト、および他の形態のテキストを含んでもよい。
ビデオプロセッサモジュール101はまた、接続142で、顔モデルのデータベース121および注釈付きビデオのデータベース123にも連結される。顔モデルのデータベース121は、画像コーパス112内の入手可能な画像に少なくとも一部において基づき、ビデオプロセッサモジュール101によって生成された、顔モデルを含む。顔モデルのそのような生成は、以下の図5を参照してさらに記載される。データベース121は、表される各個人の1つ以上の顔モデルを含んでもよい。これはまた、個人もしくは個人の顔画像に付けられた名前または他のタグ等の追加の情報を含んでもよい。注釈付きビデオのデータベース123は、ビデオプロセッサモジュール101での処理中に注釈が付けられた、主にビデオコーパス114からのビデオを含む。本開示で使用される場合、「データベース」とは、データ要素の任意のコレクション、ならびに関連ストレージおよびアクセス機構を指す。接続142は、例えば、PCIバス、イーサネット(登録商標)、および無線通信標準等の1つ以上の接続方法を使用してもよい。
ビデオプロセッサモジュール101は、顔モデル生成モジュール102、ビデオ顔認識モジュール103、ビデオ注釈付けモジュール109、モデル更新モジュール107、およびクエリモジュール105を含む、いくつかの構成要素を含むことができる。ビデオプロセッサモジュール101、ならびにサブモジュール102、103、105、107、および109のいくつかまたは全ては、ソフトウェア、ハードウェア、またはこれらの任意の組み合わせに実装されてもよい。例えば、モデル生成モジュール102は、中央処理演算装置(図1に示されていない)上に、実行可能なコードとして実装されてもよい。別の実施形態では、モデル生成モジュール102は、Field Programmable Gate Array等のハードウェア構成要素に実装されてもよい。当業者は、ビデオプロセッサモジュール101が、1つ以上のプラットフォームに実装されてもよいことを理解するであろう。
顔モデル生成モジュール102は、画像コーパス112およびビデオコーパス114内の画像から選択される顔のモデルを構築してもよい。モジュール102はまた、顔画像がモデル化される、一式の人々を決定してもよい。例えば、実施形態では、テキストコーパス110は、最も人気のある個人のリストを得、彼らのそれぞれの顔の1つ以上の画像の場所を特定するために分析される。ニュースアーカイブは、テキストコーパス110および画像コーパス112の組み合わせであってもよく、ニュースアーカイブ内の個人の名前の出現頻度の分析は、最も頻繁に出現する名前のリストを生成することができる。最も頻繁に出現する名前の多くは、1つ以上のニュース記事内の名前が付けられた個人の顔を有する画像に関連付けられてもよく、したがって、これらの名前が付けられた人々の顔画像のモデルを取得するための開始点として使用することができる。次いで、画像コーパス112およびビデオコーパス114からのこれらならびに他の一致画像から得られた顔モデルは、顔モデルのデータベース121内に記憶することができる。
ビデオ顔認識モジュール103は、ビデオコーパス114から顔を検出し、認識するために、顔モデルのデータベース121からの顔モデルを含む顔モデルを使用する。ビデオストリーム内の顔の認識は、以下の図7および図8を参照してより詳細に説明される。ビデオコーパス114のビデオストリーム内の顔が検出され、認識される際、モジュール103は、ビデオ注釈付けモジュール109と共に、顔が認識される個人に関する既知の情報で、ビデオに注釈を付けることができる。例えば、対応する画像に関連付けられるデータベース121内の名前およびタグが、注釈付けに使用されてもよい。次いで、注釈付きビデオ、またはその一部分を、注釈付きビデオのデータベース123内に記憶することができる。
本発明のいくつかの実施形態では、モデル更新モジュール107は、画像コーパス112およびビデオコーパス114への新しい追加に基づき、データベース121内の顔モデルを更新するために使用することができる。これはまた、ビデオ顔認識モジュール103によって認識される顔を追加することによって、データベース121内の顔モデルを更新してもよい。増加する数の画像に従って、データベース121内の入手可能な顔モデルを更新することによって、様々な姿勢、光条件等を網羅する複数の画像を有する個人の顔認識の信頼性が高められてもよい。また、いくつかの実施形態では、クエリモジュール105は、注釈付きビデオデータベース123内のビデオ情報を活用するために使用されてもよい。例えば、クエリモジュール105は、外部モジュールによるアクセスによって、指定される個人が登場する一式のビデオクリップまたはビデオクリップの部分を検索し、これらのビデオクリップを入手可能にするように、外部モジュールと共働してもよい。このように、例えば、指定される個人が少なくとも1回登場するビデオトラックを提示するように、特定の個人の標準ブラウザ検索を向上することができる。
図2は、顔モデル生成モジュール102の構成要素を示す。名前リスト生成モジュール201は、顔モデルが生成され、顔モデルのデータベース121内に記憶される、個人のリストを取得する。例えば、名前リスト生成モジュール201は、最も頻繁に出現する名前のリストを決定するために、外部テキストコーパス、例えば、テキストコーパス110にアクセスしてもよい。画像検索モジュール203は、少なくとも1つの画像を、モジュール201によって生成された名前のリスト内の各名前に関連付ける。例えば、画像コーパス112内の1つ以上の画像は、モジュール201によって生成された名前のリストにある名前の有名人に関する新聞記事の一部分であってもよい。記事と共に画像を含むことによって、画像検索モジュール203によって検出される関連が提供される。着目個人の名前のリストおよびこれらの名前に関連付けられる画像を使用して、顔検出モジュール205は、関連付けられる名前に対応する顔を検出するように、各画像を処理する。顔モデル作成モジュール207は、単一の名前に対応する、検出された1つ以上の顔から、1つ以上の顔モデルを作成する。モデル収集モジュール209は、同一の個人に対応する全ての顔モデルを集める。一貫性学習モジュール211は、各関連付けられた名前の1つ以上の顔モデルを選択し、一致が弱いと見なされる顔モデルを除外する。
図1を参照すると、顔モデルデータベース121は、データベース内に含まれる一個人当たり1つ以上の顔モデルを包含する。顔認識に複数のモデルを使用することによって、システムの精度が高まる。複数の顔モデルは、同一の個人の異なる風貌、異なる光条件、異なる環境等を表すことができる。画像およびビデオコンテンツの大きなコレクション内の同一の個人の顔について、表情、顔の装飾品、年齢、光条件等の非常に大きな変化が予測され得る。同一の個人の各顔モデル、および/または顔モデルの各グループに、個人の名前を含む、1つ以上のタグを関連付けることができる。
図3には、本発明の実施形態に係る、ビデオ顔認識モジュール103の構成要素が示されている。ビデオ顔検出モジュール301は、到着ビデオ内の顔を検出する。検出モジュール301が顔を検出した後、顔追跡モジュール303は、到着ビデオストリーム内の顔を追跡する。顔追跡モジュール303は、モジュール301によって検出され、次いでモジュール303によって追跡される、各顔の1つ以上のトラックを作成することができる。次いで、トラック内クラスタ化モジュール305は、各トラックに基づき、顔クラスタを作成するように、生成されたトラックを処理する。例えば、一個人の顔が、表情、サングラス等の顔の装飾品、異なる光条件等によって、風貌が大幅に変化する場合、単一のトラックの持続時間中にさえ、大きく変化するため、顔を正確に捕捉するために、複数の顔モデルが要求されてもよい。トラック内クラスタ化モジュール305は、特定の顔において検出される変化のレベルに従って、各ビデオトラック内で追跡される各顔の1つ以上の顔画像を収集する。トラック間クラスタ化モジュール307は、顔画像のトラック内クラスタを使用して、クラスタを作成する。トラック間クラスタ化モジュール307は、ビデオ内の検出される各個人の1つの一式の顔画像クラスタを作成するように、別個のトラックからの類似するクラスタを組み合わせることができる。
トラック間クラスタ化モジュール307によって生成された顔画像クラスタを入力として、ビデオ顔モデル生成モジュール309は、各個人の選択された1つ以上の画像に対応する顔モデルを生成する。生成される新しい顔モデルは、例えば、顔モデルのデータベース121内に記憶することができる。例えば、種々の表情、光条件等を網羅する複数の顔モデルを有することで、一般に、ビデオまたは画像コーパス内の顔の出現を確実に検出することが容易になる。モデル比較モジュール311は、新しく生成された顔モデルを取り出し、追加のモデルを記憶することが有益であり得るかどうかを決定してもよい。モジュール311は、新しく生成された顔モデルをデータベース121内に記憶された1つ以上のモデルと一致させ、それによって、新しく生成された顔モデルを、場合によっては、個人の名前を含む、データベース121内に記憶された1つ以上のタグに関連付ける。新しく検出された顔を、データベース121内に以前に記憶された情報に関連付けることによって、モジュール311は、注釈モジュール109が、関連付けられた個人の名前、および/またはタグ内に包含される他の情報等のデータで、ビデオトラックまたはセグメントに注釈を付けるのを容易にしてもよい。注釈付きビデオは、注釈付きビデオのデータベース123内に記憶されてもよい。新しい顔モデルが顔モデルのデータベース121に追加される際、顔モデルを作成または更新するために、例えば、一貫性学習アルゴリズム等の検証およびフィルタリングアルゴリズムを使用することができる。
(顔モデルの生成および更新)
図4は、本発明の実施形態に係る、2つの主要な処理段階を示す、フローチャートである。顔モデル生成段階401は、データベース121等の顔モデルのデータベースを構築し、更新するステップを含む。ビデオ顔認識段階402は、ビデオ内の顔を検出し、認識するために、既存の顔モデルデータベースを使用するステップを含む。顔モデル生成段階401の実施形態は、図5に示される構成要素段階にさらに分けられる。段階401は、図2に示されるものを含む構成要素を使用して実装することができる。ビデオ顔認識段階402の実施形態は、図7に示される構成要素段階にさらに分けられる。段階402は、図3に示されるものを含む構成要素を使用して実装することができる。
図5は、本発明の実施形態に係る、顔モデルのデータベースの作成における、例示的処理段階を図示する、フローチャートである。段階501では、一式の名前が決定され、各名前に対して、段階401は、1つ以上の対応する顔モデルを決定し、これらの顔モデルを、顔モデルのデータベース121等のデータベース内に記憶することを試みる。名前のリストは、例えば、最新ニュースアーカイブ等のテキストおよび画像コーパス内に最も頻繁に出現する名前等の基準に基づいて決定されてもよい。そのような選択基準は、一般に、例えば、有名人等の最も人気のある名前のリストをもたらしてもよい。名前の自動生成リストは、新しい名前を追加するため、既存の名前を削除するため、もしくは既存の名前を修正するために、手動またはプログラムで編集されてもよい。例えば、一実施形態では、名前のリストにユーザの親友の名前を追加することができる。ソースのコレクション内に最も頻繁に出現する名前を決定するためのテキスト分析方法は、当該技術分野において周知である。
段階502では、名前リスト内の名前のそれぞれに関連付けられる複数の画像を集めるために、画像コーパス112が検索される。前述されるように、本発明の実施形態は、完全に、または部分的に統合されたテキストおよび画像コーパスで動作してもよい。例えば、画像が埋め込まれている画像キャプションまたは記事は、名前と関連画像との間の実質的に明白な関連を入手するために使用することができる。本発明の実施形態では、同一の記事内に画像が登場するニュース記事内に頻繁に登場する名前の関連等、名前と画像との間の関連を推測することができる。上記のニュース記事内のもの等の名前と画像との間の関連弛緩は、例えば、一般に、弱く、かつノイズの多いテキスト−画像相関データと見なすことができる。画像コーパスのサイズに対する対応するテキストコーパスのサイズが増加するにつれて、名前を画像に確実に相関させることがより困難になる。しかしながら、インターネット上でアクセス可能なもの等のテキストおよび画像コーパスのサイズならびに多様性は、これらの弱く、かつノイズの多い関連を、顔画像対名前の関連の初期推定値として使用することを可能にする。
段階503では、段階502で見つかった各画像に対して、顔検出が実施される。画像内の顔検出の方法は、当該技術分野において周知である。画像が1つのみ検出顔をもたらす場合、検出顔と対応する名前との間の関連は、明白であってもよい。画像が複数の検出顔をもたらす時、本発明のいくつかの実施形態では、対応する名前と各検出顔との間の関連が推測されてもよい。一個人への関連の解像度は、例えば、段階506に任せることができる。いくつかの実施形態では、所定の数より多い検出顔を有する画像は、本発明の目的への使用から除外されてもよい。いくつかの実施形態では、対応する文書内の最も著名な顔画像を最も頻繁に出現する名前に相関させる等の方法が使用されてもよい。当業者は、テキストサンプル内に登場する名前と対応する画像との間に緩い初期の関連を形成する、複数の方法が存在することを理解するであろう。本発明の一実施形態では、ユーザは、個人の顔、および対応する名前またはテキストラベルを含む、1つ以上の画像を提供してもよい。これらのユーザによって提供される画像および名前の対はまた、さらなる処理のために、顔データベースに追加されてもよい。
段階503で検出される各顔に対して、段階504で、1つ以上の特徴ベクトルが生成される。特徴ベクトルは、対応する特徴ベクトルを使用して、2つの顔画像を比較することができるように、検出顔の特定の特性を説明する。顔画像の特徴ベクトルを生成する方法は、当該技術分野において既知である。例えば、名前がつけられた個人の画像コーパスの検索、および見つかる画像の処理は、名称が「Identifying Images Using Face Recognition」の米国特許出願公開第2008/0130960号に記載される。
段階505では、特徴ベクトルが、対応する個人の名前と関連して記憶される。例えば、他の関連タグ情報を含む、特徴ベクトルおよび対応する名前の対は、顔画像のデータベース121等のデータベース内に記憶することができる。図6は、本発明の一実施形態の顔画像のデータベース121内のエントリの実施例を図示する。特定の個人Aについて、個人の顔画像を表す、全ての特徴ベクトル601が、個人Aに関連付けられる名前を含むテキストラベルまたはタグに関連付けられてもよい。当業者は、データを記憶する他の形態が可能であることを理解するであろう。
段階506では、特定の個人の特徴ベクトルは、特定の個人のものであると確実に見なすことができる、一式の顔モデルおよび/または特徴群に減少するように処理される。各個人の保持される顔モデルの数は、様々であり、表情、年齢、顔の装飾品、光条件等の画像の状態の変化に主に依存する。本発明のいくつかの実施形態では、各表される個人の好適な一式の顔モデルを抜き出すために、一貫性学習等のバギング技術が適用される。一貫性学習は、例えば、名称が「Graph Based Sampling」の米国特許出願第11/840,139号に詳細に記載される。
(ビデオ内の顔の検出および追跡)
図7は、本発明の実施形態に係る、ビデオ顔認識段階402をより詳細に図示する。段階701では、ビデオが受信される。ビデオは、例えば、かつ制限なく、ローカルで、ネットワーク上で、またはビデオ再生デバイスもしくはビデオ記録デバイス等の外部ソースから受信されてもよい。本開示の教示は、例えば、MPEG、AVI、QuickTime、WMV等を含む、任意のビデオ形式のビデオに適用する。段階702では、到着ビデオストリーム上で、顔検出および追跡が実施される。本発明の一実施形態では、一連のブーストされた分類子の拡張子に基づく正面顔検出が使用される。一連のブーストされた分類子を使用する正面顔検出は、P. Viola and M. Jones, ”Robust real time object detection,” Proceedings of the IEEE ICCV Workshop on Statistical and Computational Theories of Vision, Vancouver, Canada (July 2001)に記載される。
本発明のいくつかの実施形態では、顔検出および顔追跡は、各検出顔に対して、交互かつ周期的に使用される。顔検出を周期的に実施し、顔追跡プロセスによって導かれることによって、一般に、顔検出が顔追跡より計算上集中的であるため、計算負荷の低減が助長される。顔追跡の信頼性を改善するために、本発明のいくつかの実施形態は、各顔画像の特徴群から選択される一式の特徴が追跡される、顔の特徴に基づく追跡を使用することができる。顔の特徴に基づく追跡は、顔を追跡することができるかどうかを確実に決定することができる。
図8は、本発明の一実施形態における、段階702の詳細な動作の図示である。段階802では、ショット境界であるかどうかを決定するように、各到着ビデオフレーム801が観測される。ショット境界検出は、異なるショットにわたる追跡を低減するために使用される。ショットは、1つのカメラからの連続する一連のフレームである。ショット間に、例えば、カットおよびフェードを含む、いくつかの異なる種類のショット境界または変わり目が存在する。カットとは、単一のフレーム内に出現する、突然のショット変更である。フェードとは、通常、黒一色のフレームをもたらす、または黒一色のフレームで開始する、輝度の緩やかな変化である。多くの他の種類の緩やかな変わり目が可能である。多くの技術が、ショット境界検出の文献に記載される。フレームがショット境界フレームであると決定される場合、そのフレームは、顔検出段階803がそのフレーム内の個人の顔を検出する時に処理される。段階803が正常に行われる時、次いで、段階806で、新しい顔の特徴トラッカを始動させることができる。顔トラッカは、ビデオが進行する際に、割り当てられた顔を追跡することに主に専念する、別個の処理スレッドとして実装されてもよい。段階806で作成されるもの等の顔トラッカは、出力をもたらし、顔モデルのデータベース121等のストレージ内に追跡結果を記録する。
ステップ802で、現在のビデオフレームはショット境界ではないと決定される時、段階808は、ビデオフレーム上で顔検出を実施するかどうかを決定する。顔追跡の使用は、各フレーム上で顔検出を行うことによってもたらされる可能性がある計算負荷を低減するためにするように想定される。顔の特徴に基づく追跡システムは、各フレーム上で追跡を継続することができるかどうかを効率的に決定することができる。段階808で、顔検出を使用すると決定される時、段階809で顔検出が開始される。段階809で顔が検出される場合、段階811で、検出顔が現在追跡されているかどうかが決定されなければならない。段階809で検出された顔が現在追跡されている場合、段階812で、既存の対応するトラッカを再起動する試みが行われる。段階813で既存のトラッカを再起動することができないと段階813で決定される場合、段階806で、新しいトラッカが作成され、起動される。段階809で、顔検出が失敗する場合、段階814で、既存のトラッカを使用する試みが行われる。段階815では、既存のトラッカが段階814で使用するのに利用可能であるかどうかが決定される。段階815で失格の各既存のトラッカは、段階816で終了される。
段階808で、現在のビデオフレームの顔検出が不要であると決定される場合、段階817で、既存の顔トラッカのそれぞれを再起動する試みが行われる。段階818で、トラッカの起動が失敗すると決定される場合、トラッカを検出することができるかどうかを決定するために、段階819で、さらなる確認が行われる。段階819で検出することができないトラッカは、段階816で終了される。そうでなければ、段階819で依然として検出することができるトラッカに対して、段階820で、新しいトラッカが作成され、起動される。段階807で受信される各入力ビデオフレーム801の結果は、さらなる処理のために、記録または記憶することができる。
図7に戻ると、顔検出および追跡が実施されたビデオは、段階702で、各トラックの一式の代表的な顔画像が選択される。段階702での顔検出および追跡の後、顔は、各トラックが、実施形態では、連続するビデオフレーム内の同一の個人の一連の顔である、顔トラックによって表されてもよい。インターネットでアクセス可能なもの等の広く入手可能なビデオコーパスを考えると、ビデオの品質が悪いことがしばしばある。段階703で、各ビデオトラック内の主要な顔画像を選択することによって、ビデオコーパス114内に含まれる、より低い品質のビデオの影響を大幅に低減することができる。ビデオトラック内の一式の主要な顔画像の選択に、クラスタ化に基づくアルゴリズム、例えば、階層的クラスタ化および/またはk平均クラスタ化を使用することができる。顔をクラスタに分割するために、2つの画像間の距離が使用されてもよい。2つの顔画像間の距離は、顔の特徴点から抽出される、選択される局所ガボール特徴に基づいてもよい。クラスタ化の後、各クラスタは、姿勢、オクルージョン、および品質による、同一の個人の異なる顔を含む。ノイズを低減するために、本発明のいくつかの実施形態では、所定の数より少ない顔画像を有するクラスタは、廃棄されてもよい。別の実施形態では、非正面顔画像を有するクラスタまたは顔画像は、非正面顔に基づく認識がそれ程信頼性がないため、廃棄することができる。
同一の個人は、単一のビデオ内に何回か登場する可能性がある。段階704では、同一の個人の画像を有するトラックを共に熟考することができるように、トラック間クラスタ化が行われる。トラックのクラスタ化では、距離測定は、段階703で選択された、各トラック内の主要な顔の類似点に基づいてもよい。例えば、2つのクラスタ間の距離は、第1のトラックの主要な顔と第2のトラックからの主要な顔との間の最大類似点によって画定されてもよい。階層的クラスタ化アルゴリズムはまた、この段階で、トラックをクラスタ化するために使用することができる。トラック内クラスタがトラック間クラスタにクラスタ化された後、不要または複製画像が廃棄されるように、各トラック間クラスタ内の一式の主要な顔画像に対して、さらなる処理が行われてもよい。
次に、処理段階705は、段階704で作成されたクラスタのそれぞれの上で顔認識を行う。本発明の実施形態では、各顔画像のアイデンティティを選択するために、多数決アルゴリズムおよび確率的投票アルゴリズムの組み合わせを使用することができる。多数決アルゴリズムでは、最も頻繁に出現するクラスタ内のアイデンティティが選択される。確率的投票アルゴリズムでは、アイデンティティ関連の信頼もまた考慮される。したがって、確率的投票アルゴリズムでは、最も強い信頼スコアを有するアイデンティティが選択される。本発明の一実施形態では、これは、熟考中の一式の顔モデル内に対応する画像を有さない、ある個人を表す、架空個人を導入することによって達成されてもよい。例えば、信頼c(f)を伴う個人p(f)として、k−最近傍アルゴリズムによって認識される、各主要な顔f(顔トラックのクラスタの一式の主要な顔は、f,f,…、f)を熟考する。その後、全ての認識された個人
Figure 0005602135
内の各個人について、pとして主要な顔が認識される回数は、N(j)、すなわち、
Figure 0005602135
であり、式中、
Figure 0005602135
は、2つの引数が一致する時に1であり、そうでなければ0である、指標関数である。pの平均認識信頼は、C(p)、すなわち、
Figure 0005602135
である。
これらのパラメータが所定の閾値を超える値に到達する場合、最大N(p)および
Figure 0005602135
を伴うアイデンティティは、トラックのこのクラスタのアイデンティティとして認識することができる。所定の閾値が到達されない場合、クラスタのアイデンティティは未知である。
段階705での個人の顔の識別の後、ビデオに注釈を付けるために、対応する顔の以前に得られた関連を使用することができる。例えば、顔モデルのデータベース121は、各記憶されたモデルを、新たに処理されたビデオセグメントに注釈を付けるために使用することができる個人の名前および/または他の情報に関連付けてもよい。例えば、ビデオ注釈モジュール109等のモジュールは、注釈を提供するように、ビデオ顔認識モジュール103と共働することができる。
注釈付きビデオ、例えば、注釈付きビデオのデータベース123内に記憶されたビデオは、クエリ応答に追加の情報を提供するために使用することができる。例えば、本発明の一実施形態では、名前による個人の検索は、個人が登場するビデオの特定のセグメントへのリンク、または完全なビデオ内の登場回数の指標を取り出すことができる。別の実施形態では、記憶された情報は、検索応答に提供される付随リンクにサムネイル画像を提供するために使用することができる。例えば、クエリモジュール105は、検索クエリに関連する識別された個人に対応する一致画像クリップまたはビデオクリップを提供することによって、外部検索アプリケーションと共働することができる。
発明の概要および要約の項ではなく、発明を実施するための形態の項は、請求項を解釈するために使用されることを目的とすると理解されたい。発明の概要および要約の項は、本発明者らによって検討されるような、本発明の全てではないが1つ以上の例示的実施形態を説明してもよく、したがって、決して本発明および添付の図面を制限することを目的としない。
特定の機能の実装およびその関係を例証する機能的構成要素を用いて、本発明を上記で説明している。これらの機能的構成要素の境界は、説明の便宜上、本明細書では任意に画定されている。特定の機能およびその関係が適切に実施される限り、代替境界を画定することができる。
具体的実施形態の先述の説明は、本発明の一般概念から逸脱することなく、必要以上の実験を伴わずに、当技術分野内の知識を適用することによって、他者が種々の用途についてそのような具体的実施形態を容易に修正および/または適合させることができる、本発明の一般的性質を完全に明らかにする。したがって、そのような適合および修正は、本明細書で提示される教示および指導に基づいて、開示された実施形態の同等物の意味および範囲内となることを目的とする。本明細書の用語または表現が、教示および指導に照らして当業者によって解釈されるように、本明細書の表現または用語は、限定ではなく説明の目的によるものであると理解されたい。
本発明の外延および範囲は、上記の例示的実施形態のうちのいずれかによって決して制限されるべきではないが、以下の請求項およびそれらの同等物のみに従って定義されるべきである。

Claims (20)

  1. ビデオ内の顔を識別するコンピュータ実装方法であって、
    (a)少なくとも1つの入力ビデオストリームから、1つ以上の顔トラックを生成するステップと、
    (b)前記1つ以上の顔トラックのそれぞれの1つ以上の主要な顔画像を選択するステップと、
    (c)1つ以上の顔クラスタを生成するように、前記1つ以上の顔トラックをクラスタ化するステップであって、各顔クラスタは、前記主要な顔画像のうちの少なくとも1つに関連付けられる、ステップと、
    (d)前記1つ以上の顔クラスタから、1つ以上の顔モデルを作成するステップであって、前記1つ以上の顔モデルの各々は、その顔モデルに関連付けられた検出顔の特定の特性を説明するそれぞれの低減されたセットの特徴ベクトルを含み、前記低減されたセットの特徴ベクトルの各々は、一貫性学習技術を使用して、それぞれの顔クラスタに関連付けられた前記1つ以上の主要な顔画像の一セットの特徴ベクトルを低減することにより取得される、ステップと、
    (e)前記顔モデルのうちの少なくとも1つを顔モデルデータベースに相関させるステップと
    を含む、方法。
  2. 1つ以上の顔トラックを生成するステップは、
    (i)前記少なくとも1つの入力ビデオストリームの複数の画像フレーム内で前記顔を検出するステップと、
    (ii)前記少なくとも1つの入力ビデオストリーム内の前記顔を追跡するステップと
    を含む、請求項1に記載のコンピュータ実装方法。
  3. 前記検出するステップおよび前記追跡するステップは、前記入力ビデオストリームの持続時間の間、間隔を置いて繰り返される、請求項2に記載のコンピュータ実装方法。
  4. 前記検出するステップおよび前記追跡するステップは、所定の数よりも多い検出顔を含む前記入力ストリームの少なくとも1つの画像フレームを除外するステップをさらに含む、請求項1に記載のコンピュータ実装方法。
  5. 前記1つ以上のクラスタのそれぞれのクラスタは、前記主要な顔画像のうちの少なくとも1つのオクルージョンまたは品質のうちの少なくとも1つの点で異なる、請求項4に記載のコンピュータ実装方法。
  6. 相関させるステップは、前記1つ以上の顔クラスタを前記顔モデルデータベースに相関させるように、多数決アルゴリズムを使用するステップを含む、請求項1に記載のコンピュータ実装方法。
  7. 相関させるステップは、前記1つ以上の顔クラスタを前記顔モデルデータベースに相関させるように、確率的投票アルゴリズムを使用するステップを含む、請求項1に記載のコンピュータ実装方法。
  8. ビデオ内の顔を識別するためのシステムであって、
    (a)顔モデルおよび対応する名前を備える顔エントリを有する、顔モデルデータベースであって、前記顔モデルの各々は、その顔モデルに関連付けられた検出顔の特定の特性を説明するそれぞれの低減されたセットの特徴ベクトルを含み、前記低減されたセットの特徴ベクトルの各々は、一貫性学習技術を使用して、前記検出顔の少なくとも1つの画像に関連付けられた一セットの特徴ベクトルを低減することにより取得される、顔モデルデータベースと、
    (b)ビデオ顔識別モジュールであって、
    (i)入力ビデオストリーム内の顔を検出し、1つ以上の検出顔を生成する、顔検出モジュールと、
    (ii)前記1つ以上の検出顔のうちの少なくとも1つを追跡し、1つ以上の顔トラックを生成する、顔追跡モジュールと、
    (iii)前記1つ以上の顔トラックを使用して、1つ以上のトラック内顔クラスタを生成する、トラック内顔クラスタ化モジュールと、
    (iv)前記1つ以上のトラック内顔クラスタを使用して、1つ以上のトラック間顔クラスタを生成する、トラック間顔クラスタ化モジュールと、
    (v)前記1つ以上のトラック間顔クラスタを使用して、前記1つ以上の検出顔の1つ以上の検出顔モデルを生成する、検出顔モデル生成モジュールと、
    (vi)前記1つ以上の検出顔モデルを前記顔エントリと比較する、モデル比較モジュールと
    を備える、ビデオ顔識別モジュールと
    を備える、システム。
  9. (c)顔モデルジェネレータであって、前記顔モデルジェネレータは、
    (i)名前リストを生成する、名前生成モジュールと、
    (ii)前記名前リスト内の1つ以上の対応する名前に関連付けられる、少なくとも1つの顔を有する、1つ以上の画像の場所を特定する、画像検索モジュールと、
    (iii)前記1つ以上の画像内の1つ以上の標的顔を検出する、顔検出モジュールと、
    (iv)前記1つ以上の標的顔のうちの少なくとも1つの1つ以上の顔モデルを生成する、顔モデル生成モジュールと、
    (v)前記1つ以上の顔モデルおよび前記1つ以上の対応する名前を対で記憶する、収集モジュールと、
    (vi)一貫性学習モジュールであって、1つ以上の代表的な顔モデルは、前記1つ以上の顔モデルから選択され、前記1つ以上の代表的な顔モデルは、前記顔モデルデータベース内に記憶される、一貫性学習モジュールと
    を備える、顔モデルジェネレータをさらに備える、請求項8に記載のシステム。
  10. 前記名前リストは、1つ以上の遠隔位置でアクセス可能な文書内の名前に基づいて生成される、請求項9に記載のシステム。
  11. 文書は、ウェブ文書を含む、請求項10に記載のシステム。
  12. (d)前記検出顔に基づき、前記顔モデルデータベースを更新する、顔モデル更新モジュールをさらに備える、請求項8に記載のシステム。
  13. 前記顔モデルデータベースは、1つ以上の顔画像および1つ以上の対応するテキストラベルを備える、1つ以上のエントリを含み、各エントリは、1つのエンティティを表す、請求項8に記載のシステム。
  14. 前記顔モデルデータベースはさらに、1つ以上の顔画像および1つ以上の対応するテキストラベルを備える、ユーザによって直接入力される1つ以上のエントリを含む、請求項13に記載のシステム。
  15. 前記顔追跡モジュールは、顔の特徴に基づく顔トラッカを含む、請求項8に記載のシステム。
  16. 前記トラック内クラスタ化は、ノイズクラスタを除去するステップを含む、請求項8に記載のシステム。
  17. 前記トラック間クラスタ化は、ノイズクラスタを除去するステップを含む、請求項8に記載のシステム。
  18. 前記顔検出モジュールは、周期的に呼び出され、前記顔追跡モジュールは、前記顔検出モジュールによって検出される顔に対して呼び出される、請求項8に記載のシステム。
  19. (e)前記入力ビデオストリームに注釈を付けて、注釈付き出力ビデオストリームを作り出す、ビデオ注釈モジュールをさらに備える、請求項8に記載のシステム。
  20. (f)ユーザクエリを前記顔モデルデータベース内の1つ以上のエントリに関連付ける、クエリモジュールをさらに備える、請求項8に記載のシステム。
JP2011518715A 2008-07-14 2009-07-14 ビデオコンテンツ内の個人の自動注釈付けのための方法およびシステム Active JP5602135B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/172,939 US8213689B2 (en) 2008-07-14 2008-07-14 Method and system for automated annotation of persons in video content
US12/172,939 2008-07-14
PCT/US2009/004061 WO2010008520A1 (en) 2008-07-14 2009-07-14 Method and system for automated annotation of persons in video content

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2014077554A Division JP2014146367A (ja) 2008-07-14 2014-04-04 ビデオコンテンツ内の個人の自動注釈付けのための方法およびシステム

Publications (2)

Publication Number Publication Date
JP2011528150A JP2011528150A (ja) 2011-11-10
JP5602135B2 true JP5602135B2 (ja) 2014-10-08

Family

ID=41060877

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2011518715A Active JP5602135B2 (ja) 2008-07-14 2009-07-14 ビデオコンテンツ内の個人の自動注釈付けのための方法およびシステム
JP2014077554A Withdrawn JP2014146367A (ja) 2008-07-14 2014-04-04 ビデオコンテンツ内の個人の自動注釈付けのための方法およびシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2014077554A Withdrawn JP2014146367A (ja) 2008-07-14 2014-04-04 ビデオコンテンツ内の個人の自動注釈付けのための方法およびシステム

Country Status (6)

Country Link
US (1) US8213689B2 (ja)
EP (1) EP2318979B1 (ja)
JP (2) JP5602135B2 (ja)
KR (1) KR101640268B1 (ja)
CN (1) CN102165464A (ja)
WO (1) WO2010008520A1 (ja)

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4496263B2 (ja) * 2008-10-23 2010-07-07 株式会社東芝 情報処理装置およびコンテンツ表示方法
US8396004B2 (en) * 2008-11-10 2013-03-12 At&T Intellectual Property Ii, L.P. Video share model-based video fixing
JP5361524B2 (ja) * 2009-05-11 2013-12-04 キヤノン株式会社 パターン認識システム及びパターン認識方法
US8676725B1 (en) 2009-06-05 2014-03-18 Google Inc. Method and system for entropy-based semantic hashing
US8605956B2 (en) * 2009-11-18 2013-12-10 Google Inc. Automatically mining person models of celebrities for visual search applications
JP5684992B2 (ja) * 2010-02-26 2015-03-18 キヤノン株式会社 情報処理システム、情報処理装置、処理方法及びプログラム
JP2015038640A (ja) * 2010-04-19 2015-02-26 株式会社東芝 映像表示装置、映像表示方法
CN101853377B (zh) * 2010-05-13 2012-10-17 复旦大学 一种对数字视频进行内容识别的方法
JP5375744B2 (ja) * 2010-05-31 2013-12-25 カシオ計算機株式会社 動画再生装置、動画再生方法及びプログラム
US8726161B2 (en) * 2010-10-19 2014-05-13 Apple Inc. Visual presentation composition
US20120200667A1 (en) * 2011-02-08 2012-08-09 Gay Michael F Systems and methods to facilitate interactions with virtual content
US8903198B2 (en) * 2011-06-03 2014-12-02 International Business Machines Corporation Image ranking based on attribute correlation
US8769556B2 (en) * 2011-10-28 2014-07-01 Motorola Solutions, Inc. Targeted advertisement based on face clustering for time-varying video
CN104025117B (zh) 2011-10-31 2018-09-28 惠普发展公司,有限责任合伙企业 时间面部序列
US20130148898A1 (en) * 2011-12-09 2013-06-13 Viewdle Inc. Clustering objects detected in video
US9239848B2 (en) 2012-02-06 2016-01-19 Microsoft Technology Licensing, Llc System and method for semantically annotating images
US8789120B2 (en) * 2012-03-21 2014-07-22 Sony Corporation Temporal video tagging and distribution
US8798401B1 (en) * 2012-06-15 2014-08-05 Shutterfly, Inc. Image sharing with facial recognition models
EP2680189A1 (en) * 2012-06-26 2014-01-01 Alcatel-Lucent Method and system for generating multimedia descriptors
US8965170B1 (en) * 2012-09-04 2015-02-24 Google Inc. Automatic transition of content based on facial recognition
CN103841367A (zh) * 2012-11-21 2014-06-04 深圳市赛格导航科技股份有限公司 一种监控系统
KR101398700B1 (ko) * 2012-12-20 2014-05-30 인하대학교 산학협력단 비디오 동영상 데이터를 위한 주석 시스템 및 방법
JP2014139733A (ja) * 2013-01-21 2014-07-31 Sony Corp 情報処理装置および方法、並びにプログラム
US9098552B2 (en) * 2013-02-05 2015-08-04 Google Inc. Scoring images related to entities
US9524282B2 (en) * 2013-02-07 2016-12-20 Cherif Algreatly Data augmentation with real-time annotations
US9760803B2 (en) * 2013-05-15 2017-09-12 Google Inc. Associating classifications with images
EP3011504A4 (en) * 2013-06-19 2017-02-22 Conversant LLC Automatic face discovery and recognition for video content analysis
US9501693B2 (en) * 2013-10-09 2016-11-22 Honda Motor Co., Ltd. Real-time multiclass driver action recognition using random forests
CN103530652B (zh) * 2013-10-23 2016-09-14 北京中视广信科技有限公司 一种基于人脸聚类的视频编目方法、检索方法及其系统
US9852364B2 (en) * 2014-03-19 2017-12-26 Hulu, LLC Face track recognition with multi-sample multi-view weighting
GB2528044B (en) * 2014-07-04 2018-08-22 Arc Devices Ni Ltd Non-touch optical detection of vital signs
CN104133875B (zh) * 2014-07-24 2017-03-22 北京中视广信科技有限公司 一种基于人脸的视频标注方法和视频检索方法
JP6472184B2 (ja) 2014-07-29 2019-02-20 キヤノン株式会社 オブジェクト識別装置、オブジェクト識別方法及びプログラム
US9854973B2 (en) 2014-10-25 2018-01-02 ARC Devices, Ltd Hand-held medical-data capture-device interoperation with electronic medical record systems
CN105893920B (zh) * 2015-01-26 2019-12-27 阿里巴巴集团控股有限公司 一种人脸活体检测方法和装置
US9704020B2 (en) * 2015-06-16 2017-07-11 Microsoft Technology Licensing, Llc Automatic recognition of entities in media-captured events
CN105357475A (zh) * 2015-10-28 2016-02-24 小米科技有限责任公司 用于视频播放的方法及装置
CN105681749A (zh) * 2016-01-12 2016-06-15 上海小蚁科技有限公司 用于预览视频的方法、装置、系统和计算机可读介质
US9811763B2 (en) * 2016-01-14 2017-11-07 Social Studios Ltd. Methods and systems for building a media clip
US9918128B2 (en) * 2016-04-08 2018-03-13 Orange Content categorization using facial expression recognition, with improved detection of moments of interest
KR101827978B1 (ko) * 2016-06-17 2018-02-09 (주)잼투고 퍼포머 객체 기반의 협연 서비스 제공서버 및 제공방법
US10380429B2 (en) 2016-07-11 2019-08-13 Google Llc Methods and systems for person detection in a video feed
US10957171B2 (en) 2016-07-11 2021-03-23 Google Llc Methods and systems for providing event alerts
KR20180024200A (ko) * 2016-08-29 2018-03-08 오드컨셉 주식회사 영상 검색 정보 제공 방법, 장치 및 컴퓨터 프로그램
BR102016030449A2 (pt) * 2016-12-23 2018-07-17 Faculdades Catolicas Associacao Sem Fins Lucrativos Mantenedora Da Pontificia Univ Catolica Do Rio D método para avaliação e seleção de amostras de imagens faciais para o reconhecimento facial a partir de sequências de vídeo
US10467510B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Intelligent assistant
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US10506926B2 (en) 2017-02-18 2019-12-17 Arc Devices Limited Multi-vital sign detector in an electronic medical records system
US10492684B2 (en) 2017-02-21 2019-12-03 Arc Devices Limited Multi-vital-sign smartphone system in an electronic medical records system
CN106919917A (zh) * 2017-02-24 2017-07-04 北京中科神探科技有限公司 人脸比对方法
US10223591B1 (en) 2017-03-30 2019-03-05 Amazon Technologies, Inc. Multi-video annotation
CN108734049A (zh) * 2017-04-13 2018-11-02 佳能株式会社 图像处理方法和装置以及图像处理系统
US10057644B1 (en) * 2017-04-26 2018-08-21 Disney Enterprises, Inc. Video asset classification
US11783010B2 (en) 2017-05-30 2023-10-10 Google Llc Systems and methods of person recognition in video streams
US10410086B2 (en) * 2017-05-30 2019-09-10 Google Llc Systems and methods of person recognition in video streams
EP3410343A1 (en) * 2017-05-30 2018-12-05 Google LLC Systems and methods of person recognition in video streams
US11256951B2 (en) 2017-05-30 2022-02-22 Google Llc Systems and methods of person recognition in video streams
US10602987B2 (en) 2017-08-10 2020-03-31 Arc Devices Limited Multi-vital-sign smartphone system in an electronic medical records system
US10664688B2 (en) 2017-09-20 2020-05-26 Google Llc Systems and methods of detecting and responding to a visitor to a smart home environment
US11134227B2 (en) 2017-09-20 2021-09-28 Google Llc Systems and methods of presenting appropriate actions for responding to a visitor to a smart home environment
CN108229321B (zh) * 2017-11-30 2021-09-21 北京市商汤科技开发有限公司 人脸识别模型及其训练方法和装置、设备、程序和介质
US10485431B1 (en) 2018-05-21 2019-11-26 ARC Devices Ltd. Glucose multi-vital-sign system in an electronic medical records system
KR102129843B1 (ko) * 2018-12-17 2020-07-03 주식회사 크라우드웍스 검증용 주석 처리 작업을 이용한 실전용 주석 처리 작업의 검증 방법 및 장치
KR102192795B1 (ko) * 2019-07-01 2020-12-18 한국과학기술원 기계 학습 데이터 레이블을 제3자 집단이 투표로 결정하고 보상을 블록체인에 기록하는 방법 및 장치
US11157777B2 (en) 2019-07-15 2021-10-26 Disney Enterprises, Inc. Quality control systems and methods for annotated content
CA3147361A1 (en) 2019-08-09 2021-02-18 Clearview Ai, Inc. Methods for providing information about a person based on facial recognition
CN110633677B (zh) * 2019-09-18 2023-05-26 威盛电子股份有限公司 人脸识别的方法及装置
US11893795B2 (en) 2019-12-09 2024-02-06 Google Llc Interacting with visitors of a connected home environment
US11645579B2 (en) 2019-12-20 2023-05-09 Disney Enterprises, Inc. Automated machine learning tagging and optimization of review procedures
US11151386B1 (en) * 2020-03-04 2021-10-19 Amazon Technologies, Inc. Automated identification and tagging of video content
US11504014B2 (en) 2020-06-01 2022-11-22 Arc Devices Limited Apparatus and methods for measuring blood pressure and other vital signs via a finger
US11933765B2 (en) * 2021-02-05 2024-03-19 Evident Canada, Inc. Ultrasound inspection techniques for detecting a flaw in a test object
WO2024035442A1 (en) * 2022-08-11 2024-02-15 Innopeak Technology, Inc. Methods and systems for image processing

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6272231B1 (en) 1998-11-06 2001-08-07 Eyematic Interfaces, Inc. Wavelet-based facial motion capture for avatar animation
US6795567B1 (en) 1999-09-16 2004-09-21 Hewlett-Packard Development Company, L.P. Method for efficiently tracking object models in video sequences via dynamic ordering of features
US7308133B2 (en) * 2001-09-28 2007-12-11 Koninklijke Philips Elecyronics N.V. System and method of face recognition using proportions of learned model
AUPS170902A0 (en) * 2002-04-12 2002-05-16 Canon Kabushiki Kaisha Face detection and tracking in a video sequence
WO2007036892A1 (en) 2005-09-30 2007-04-05 Koninklijke Philips Electronics, N.V. Method and apparatus for long term memory model in face detection and recognition
KR100771244B1 (ko) * 2006-06-12 2007-10-29 삼성전자주식회사 동영상 데이터 처리 방법 및 장치
JP4697106B2 (ja) * 2006-09-25 2011-06-08 ソニー株式会社 画像処理装置および方法、並びにプログラム
US7881505B2 (en) 2006-09-29 2011-02-01 Pittsburgh Pattern Recognition, Inc. Video retrieval system for human face content

Also Published As

Publication number Publication date
US8213689B2 (en) 2012-07-03
JP2014146367A (ja) 2014-08-14
WO2010008520A1 (en) 2010-01-21
KR101640268B1 (ko) 2016-07-15
JP2011528150A (ja) 2011-11-10
KR20110036934A (ko) 2011-04-12
US20100008547A1 (en) 2010-01-14
EP2318979B1 (en) 2018-06-06
CN102165464A (zh) 2011-08-24
EP2318979A1 (en) 2011-05-11

Similar Documents

Publication Publication Date Title
JP5602135B2 (ja) ビデオコンテンツ内の個人の自動注釈付けのための方法およびシステム
US8170280B2 (en) Integrated systems and methods for video-based object modeling, recognition, and tracking
Huang et al. Person search in videos with one portrait through visual and temporal links
JP5037627B2 (ja) 顔認識を用いた画像の識別
US9542419B1 (en) Computer-implemented method for performing similarity searches
JP3873793B2 (ja) 顔メタデータ生成方法および顔メタデータ生成装置
US9176987B1 (en) Automatic face annotation method and system
US10025854B2 (en) Video searching
US7809192B2 (en) System and method for recognizing objects from images and identifying relevancy amongst images and information
KR101516712B1 (ko) 의미론적 시각 검색 엔진
US20060253491A1 (en) System and method for enabling search and retrieval from image files based on recognized information
Zhang et al. Context-based person identification framework for smart video surveillance
CN112738556A (zh) 视频处理方法及装置
Li et al. Real-time human action recognition by luminance field trajectory analysis
Gao et al. Cast2face: assigning character names onto faces in movie with actor-character correspondence
Fischer et al. Interactive person re-identification in TV series
CN113705288B (zh) 一种基于3d人脸重建的公众人物识别系统和方法
Jadhav et al. Marking Celebrity Faces Utilizing Annotation by Mining Weakly Labeled Facial Images
Le et al. Indexing faces in broadcast news video archives
Zhang et al. MAR: Matching-Augmented Reasoning for Enhancing Visual-based Entity Question Answering
CN117786137A (zh) 一种多媒体数据查询方法、装置、设备及可读存储介质
CN118916515A (zh) 融合属性特征与向量嵌入的检索方法、设备和存储介质
Chu et al. Somebody helps me: Travel video scene detection using web-based context
Adami et al. Text Driven Recognition of Multiple Faces in Newspapers

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131125

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140507

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140723

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140819

R150 Certificate of patent or registration of utility model

Ref document number: 5602135

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250