Nothing Special   »   [go: up one dir, main page]

JP2007272896A - 適応型文脈支援による人間分類を行うためのデジタル画像処理方法および装置 - Google Patents

適応型文脈支援による人間分類を行うためのデジタル画像処理方法および装置 Download PDF

Info

Publication number
JP2007272896A
JP2007272896A JP2007088639A JP2007088639A JP2007272896A JP 2007272896 A JP2007272896 A JP 2007272896A JP 2007088639 A JP2007088639 A JP 2007088639A JP 2007088639 A JP2007088639 A JP 2007088639A JP 2007272896 A JP2007272896 A JP 2007272896A
Authority
JP
Japan
Prior art keywords
persons
score
clothing
formulas
clothes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007088639A
Other languages
English (en)
Inventor
Yang Song
ソン ヤン
Thomas Leung
レオン トーマス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Publication of JP2007272896A publication Critical patent/JP2007272896A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/7635Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks based on graphs, e.g. graph cuts or spectral clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Discrete Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】人物の分類を行う方法および装置を提供する。
【解決手段】複数の人物を含む複数のデジタル画像にアクセスするステップ、顔認識を実施して前記複数の人物の顔間の類似性に関係する第1のスコアを判定するステップ、服装認識を実施して前記複数の人物の服装間の類似性に関係する第2のスコアを判定するステップ、前記顔と前記服装が前記複数の人物に属する確率を推定する複数の公式で、その内の少なくとも1つの公式が第1のスコアと第2のスコアを利用し、その内の少なくとも1つの公式が第1のスコアと第2のスコアの内の一方だけを利用する、複数の公式を提供するステップ、第1のスコア中の、複数の人物中の2人の人物に関する第1のスコアの利用可能性と、第2のスコア中の、2人の人物に関する第2のスコアの利用可能性とに基づいて前記2人の人物の同一性の類似性に関する確率を推定する公式を、前記複数の公式から選択するステップを含む。
【選択図】図1

Description

この出願の基礎となる米国出願は、当該米国出願と同時に出願された“Method and Apparatus for Context-Aided Human Identification”および“Method and Apparatus for Performing Constrained Spectral Clustering of Digital Image Data”と題する同時係属出願の関連出願であり、各出願は参照によりその内容全体が本明細書に組み込まれる。
本発明は、分類技法に関し、より詳細には、人々などのオブジェクトのデジタル画像を分類するための方法および装置に関する。
画像内のオブジェクトの識別および分類は、多くの分野で役立つ重要な応用分野である。例えば、画像内の人々の識別および分類は、写真アルバム内の画像の自動編成および検索、セキュリティの応用例などに重要かつ有用なものである。写真内およびデジタル画像データ内の人々を識別するために、顔認識が使用されている。
しかしながら、信頼性のある顔認識は、画像状態および人間画像の変動の故に、実現が困難である。かかる変動としては、(1)室内の照度と戸外の照度の違いや、逆光の人々の画像と順光の人々の画像の違いなどの照明の変動、(2)人々の正面姿勢と側面姿勢の違いなどの姿勢の変化、(3)画像内の顔の焦点ずれや動きぼけなどの画像品質不良、(4)目を開けた状態と目を閉じた状態の違いや、口を開けた状態と口を閉じた状態の違いなどの顔の表情の多様性、(5)人々の加齢などが挙げられる。
いくつかの刊行物では、画像内の人間の認識技法について研究がなされている。かかる技法の1つは、下記非特許文献1に記載されており、人間の識別方法が開示されている。この非特許文献1では、画像内の人々を特徴付けする上で、顔の特徴および文脈的特徴が使用されている。しかしながら、この人間の識別方法では、人々の顔の特徴と文脈的特徴は互いに独立のものとして仮定されている。このような仮定は正確でなく、顔の特徴および文脈的特徴を効果的に使用して人々を特徴付けることを妨げる。また、顔の特徴と文脈的特徴の統合は、それらの特徴が信頼できず利用可能でないときは支障が生じる。
L. Zhang、L. Chen、M. Li、H. Zhang "Automated Annotation of Human Faces in Family Albums"Proc. ACM Multimedia、MM '03、Berkeley、CA、USA、Nov. 2-8(2003年)
本願に開示の諸実施形態は、画像内の人々のいくつかの特徴が利用可能なときに、画像内の人々が識別できる適応型文脈支援による人間分類(adaptive context-aided human classification)を行うための方法および装置を使用することによって、人間の認識および分類に関連する問題に対処する。この方法および装置は、顔と服装の認識データの原理的統合を実施する。この方法および装置は、顔と服装の認識データを組み合わせて画像内の人々を分類する際に使用される総認識結果(overall recognition results)を取得する公式を選択する。これらの公式は、画像内の人々の顔と服装に関係するデータの利用可能性に応じて選択される。
本発明は、デジタル画像を処理する方法および装置を対象とする。本発明の第1の態様によれば、デジタル画像処理方法は、複数の人物を含む複数のデジタル画像を表すデジタル・データにアクセスするステップと、顔認識を実施して前記複数の人物の顔間の類似性に関係する第1のスコアを判定するステップと、服装認識を実施して前記複数の人物の服装間の類似性に関係する第2のスコアを判定するステップと、前記顔中の顔と前記服装中の服装とが前記複数の人物中の人物に属する確率を推定する複数の公式であって、その内の少なくとも1つの公式が、第1のスコアと第2のスコアとを利用し、その内の少なくとも1つの公式が、第1のスコアと第2のスコアの内の一方だけを利用する、複数の公式を提供するステップと、前記第1のスコア中の、前記複数の人物中の2人の人物に関する第1のスコアの利用可能性と、前記第2のスコア中の、前記2人の人物に関する第2のスコアの利用可能性とに基づいて、前記2人の人物の同一性の類似性に関する確率を推定する公式を、前記複数の公式から選択するステップとを含む。
本発明の第2の態様によれば、デジタル画像処理装置は、複数の人物を含む複数のデジタル画像を表すデジタル・データを提供する画像データ・ユニットと、前記複数の人物の顔間の類似性に関係する第1のスコアを判定する顔認識ユニットと、前記複数の人物の服装間の類似性に関係する第2のスコアを判定する服装認識ユニットと、公式選択ユニットであって、前記顔中の顔と前記服装中の服装とが前記複数の人物中の人物に属する確率を推定する複数の公式であって、その内の少なくとも1つの公式が、第1のスコアと第2のスコアとを利用し、その内の少なくとも1つの公式が、第1のスコアと第2のスコアの内の一方だけを利用する、複数の公式を提供し、前記第1のスコア中の、前記複数の人物中の2人の人物に関する第1のスコアの利用可能性と、前記第2のスコア中の、前記2人の人物に関する第2のスコアの利用可能性とに基づいて、前記2人の人物の同一性の類似性に関する確率を推定する公式を、前記複数の公式から選択する公式選択ユニットとを備える。
本発明の別の諸態様および利点は、以下の詳細な説明を添付の図面と併せて読むことにより明らかになる。
以下の説明では、添付の図面を参照しながら本発明の諸態様をより具体的に記載する。図1は、本発明の一実施形態による、デジタル画像データの適応型文脈支援による人間分類を行う画像処理ユニットを含むシステムを概略的に示すブロック図である。図1に示されるシステム104は、次の構成要素、すなわち、画像入力デバイス24と、画像処理ユニット34と、表示装置64と、ユーザ入力ユニット54と、画像出力ユニット62と、印刷ユニット44とを含む。図1のシステム104の動作は、以下の論述により明らかにされる。
画像入力デバイス24は、画像処理ユニット34に画像データを供給する。画像データは、デジタル画像であることもある。画像入力デバイス24から入力できるデジタル画像の例は、人々の日常活動の写真や、セキュリティまたは身分証明のために撮影される人々の写真などである。画像入力デバイス24は、デジタル画像データを提供する任意の数のデバイスの1つまたは複数とすることができる。画像入力デバイス24は、画像データベースやデジタル・システムなどから取り出されるデジタル画像データを提供することもできる。画像入力デバイス24は、フィルム上に記録された白黒またはカラー画像を走査するスキャナ、デジタル・カメラ、例えばCD−R、フロッピー・ディスク、USBドライブなどの記録媒体、画像を記憶するデータベース・システム、ネットワーク接続、画像を処理するコンピュータ・アプリケーションのようなデジタル・データを出力する画像処理システムなどであってよい。
画像処理ユニット34は、画像入力デバイス24から画像データを受け取り、後段で詳細に論じる様式でデジタル画像データ内の人々に関する適応型文脈支援による人間分類を実施する。ユーザは、表示装置64を介して、デジタル画像データの適応型文脈支援による人間分類における中間結果を含めた画像処理ユニット34の出力を閲覧することができ、ユーザ入力ユニット54を介して、画像処理ユニット34に対するコマンドを入力することができる。図1に示される実施形態では、ユーザ入力ユニット54は、キーボード56と、マウス57とを含んでいるが、他の従来の入力デバイスを使用することもできる。
本発明の諸実施形態によるデジタル画像データ内の人々に関する適応型文脈支援による人間分類を実施することに加え、画像処理ユニット34は、ユーザ入力ユニット54から受け取ったコマンドに従って、公知の色/密度補正機能だけでなく画像の切り取り(cropping)や圧縮など、追加的な画像処理機能を実施することもできる。印刷ユニット44は、画像処理ユニット34の出力を受け取り、処理済みの画像データのハード・コピーを生成する。印刷ユニット44は、画像処理ユニット34から出力された画像データに従って感光材料を露光させて、その感光材料に画像を記録することができる。印刷ユニット44は、カラー・レーザ・プリンタなど他のタイプとすることもできる。画像処理ユニット34の出力のハード・コピーを生成することに加えてまたはその代わりに、処理済みの画像データを、例えば携帯型記録媒体やネットワーク(図示せず)を介してファイルとしてユーザに返却することもできる。表示装置64は、画像処理ユニット34の出力を受け取り、画像データと共に当該画像データ内の人々のクラスタリング結果を表示する。画像処理ユニット34の出力は、画像出力ユニット62にも送ることができる。画像出力ユニット62は、画像処理ユニット34から受け取られた画像の分類結果を記憶するデータベースとすることができる。
図2は、本発明の一実施形態によるデジタル画像データの適応型文脈支援による人間分類を行う画像処理ユニット34の諸態様をより詳細に示すブロック図である。図2に示されるように、本実施形態による画像処理ユニット34は、画像データ・ユニット127と、服装認識モジュール137と、顔認識モジュール147と、類似性測定モジュール157と、公式選択モジュール177と、分類モジュール167と、任意選択の顔検出モジュール141と、任意選択の頭部検出モジュール142とを含む。図2の様々な構成要素は別々の要素として示されているが、かかる表現は説明を分かりやすくするためのものであり、様々の構成要素のある種の動作は、同じ物理デバイスによって、例えば1つまたは複数のマイクロプロセッサによって実施されてもよいことが理解されるべきである。
一般に、図2に示される画像処理ユニット34の各要素からなる構成は、画像入力デバイス24から画像セット(a set of images)を入力し、画像セット中の画像内の服装および顔の認識を実施し、画像セット内の画像に関する服装と顔の認識結果を組み合わせる公式を選択し、画像セット内の人々に関する類似性測定値を判定し、画像内に示される人々の同一性に従って画像を分類する。分類モジュール167は、画像内に示される人々の同一性に基づいて、画像の分類結果を出力する。かかる分類結果は、印刷ユニット44、表示装置64、および/または画像出力ユニット62に出力することができる。画像データ・ユニット127は、服装認識モジュール137、顔認識モジュール147、任意選択の顔検出モジュール141、および任意選択の頭部検出モジュール142に画像を送る前に、それらの画像に対する前処理および準備操作を実施することもできる。画像に対して実施される前処理および準備操作としては、画像のサイズ、色、外観などを変更する、サイズ変更、切り取り、圧縮、色補正などを挙げることができる。
顔検出は、画像セット内の顔の位置およびサイズを判定する。顔認識は、検出された顔の同一性を既知の位置およびサイズを用いて判定する。したがって、顔認識は典型的には、顔検出の後に実施される。顔検出は、任意選択の顔検出モジュール141が存在する場合には、当該モジュールによって実施される。顔検出は、顔認識モジュール147が顔検出用のサブ・モジュールを含む場合には、顔認識モジュール147によって実施してもよい。したがって、この場合、顔認識の実施には、顔検出の実施が含まれる。服装認識モジュール137は、顔認識モジュール147または任意選択の顔検出モジュール141と通信して、顔検出結果を取得することができる。別法として、服装認識モジュール137は、任意選択の頭部検出モジュール142から頭部検出結果を取得することもできる。
服装認識モジュール137、顔認識モジュール147、類似性測定モジュール157、公式選択モジュール177、分類モジュール167、任意選択の顔検出モジュール141、および任意選択の頭部検出モジュール142は、例示的な一実装形態ではソフトウェア・システム/アプリケーションである。次に、図2に示される画像処理ユニット34内に含まれる構成要素の処理を、図3〜9を参照しながら説明する。
写真の自動編成は、写真アルバムの編成やセキュリティの応用例など、多くの潜在的な用途が存在する重要な応用分野である。現在の応用分野では、顔情報を服装情報、写真記録データ、および他の文脈手掛り(context cue)と統合し、1人または複数の人物の同一性に従って写真が編成できる人間分類技法が、実装されている。顔情報、服装情報、および他の文脈手掛りを使用して、写真内の人物間の類似性が評価される。次いで、写真内の人物は、その人物の同一性に基づいて複数のグループに配置される。したがって、同じ個人の画像は全て1つのグループ内に配置され、別の個人に由来する画像は他のグループ内に配置される。
人々の同一性に基づいて画像を分類する分類方法および装置は、顔認識ならびに画像内の他の手掛り(cue)を使用することができる。顔情報以外の情報は、本願では「文脈」情報と呼ばれ、人々を認識する上で豊富な手掛りを提供する可能性もある。これらのタイプの文脈情報は典型的には、画像内に存在する。第1のタイプの文脈情報は、ある人物が身に付けている服装などの外観ベース(appearance-based)の情報であり、第2のタイプの文脈情報は、例えば1枚の写真内の異なる顔は異なる人物に属するという事実や、一部の人々(例えば夫婦)は一緒に写真に写る可能性が高いという事実によって表現できる論理ベース(logic-based)の情報であり、第3のタイプの文脈情報は、写真の撮影された時間など写真のメタデータ(meta-data of pictures)である。これらの3つのタイプの文脈情報はしばしば、人間の観察者が写真内の人々を意識的にまたは無意識的に区別するのに使用される。文脈情報を有効に利用することができる分類方法は、人間の認識精度を向上させることができる。
本願で提示される方法および装置は、顔および可能な限り多くの文脈情報を使用することにより、人物の同一性に従って写真を自動的に編成する。本願に記載の方法を使用すると、文脈情報を使用した顔認識エンジンの結果が改善される。
本願では、「人物の画像(person image)」または「人々の画像(people images)」、または「複数の人物の画像(person images)」という表現は、画像内の人々の画像を指すために相互に置換え可能に使用される。したがって、3人の人を示す画像は、3人の人物の画像を含み、1人の人物を示す画像は、1人の人物の画像を含む。
図3は、図2に示される本発明の一実施形態によるデジタル画像データの適応型文脈支援による人間分類を行う画像処理ユニット34によって実施される処理を示す流れ図である。画像データ・ユニット127は、画像入力デバイス24から受け取った画像セットを入力する(S213)。これらの画像は、様々な姿勢で、様々な時間帯および様々な日にちに、様々な環境で撮影された人々の写真であってよい。
顔認識モジュール147は、画像セットを受け取り、当該画像セット(image set)に含まれる画像内の顔の顔認識を実施する(S215)。顔認識は、顔の同一性に関連する顔情報を取得するために使用される。顔認識モジュール147は、参照により本明細書に組み込まれる刊行物であるT. Leungの ”Texton Correlation for Recognition“ Proc. European Conference Computer Vision, ECCV(2004年)203〜214頁に記載の方法を使用して顔認識を実施し、顔認識結果を取得することができる。”Texton Correlation for Recognition“では、顔は、テクストン(texton)と呼ばれる局所的な特性特徴(local characteristic feature)を使用して、状況の変化による顔の外観の変動がテクストン間の相関で符号化されるように表現される。テクストン間の相関は、顔の同一性に関連する顔情報を含む。テクストンの相関をモデル化するには、2つの方法を使用することができる。1つの方法は、条件付きテクストン分散モデル(conditional texton distribution model)であり、位置的独立性を仮定するものである。第2の方法は、フィッシャー線形識別分析を使用して各位置間の2次変動(second order variation)を取得するものである。テクストン・モデルは、長時間に及ぶ様々な照明および姿勢の画像内の顔認識に使用することができる。他の顔認識技法が顔認識モジュール147によって使用されてもよい。
顔認識モジュール147は、顔認識結果を類似性測定モジュール157に出力する(S217)。顔認識モジュール147は、顔認識結果を人々の顔間の類似性に関係するスコアの形で出力することができる。かかるスコアは、顔対における顔間の類似性を測定し、同じ画像中または異なる画像中の2つの顔間の相関を指し示すことができる。異なる画像中の2つの顔が同じ人物に属する場合には、それらの2つの顔は、高い相関を示すことになる。一方、異なる画像中の2つの顔が異なる人に属する場合には、それらの2つの顔は、低い相関を示すことになる。
服装認識モジュール137も、画像データ・ユニット127から画像セットを受け取り、服装認識を実施し、画像セットに含まれる画像内の人々の服装に関して、服装認識結果を取得する(S219)。服装認識結果は、画像セットに含まれる画像内の人々の服装間の類似性スコアとすることができる。本発明で言及される服装は、実際の服装だけでなく、画像内の人々に関連する他の外部オブジェクトも含む。本願では、「服装」という用語は、様々な人々を区別する際に次の全てのオブジェクトが役立つ可能性があることから、実際の服装だけでなく、帽子、靴、腕時計、眼鏡なども指す。服装認識モジュール137は、服装認識結果を類似性測定モジュール157に出力する(S220)。
服装認識結果は服装類似性スコアの形で、様々な人々の服装間の類似の程度を測定する。例えば、同じ服装をした人物が2つの画像に登場するときは、2つの異なる画像中の当該人物の服装に関連するスコアは、それらの服装が類似することを指し示す。服装認識モジュール137は、参照によりその内容全体が本明細書に組み込まれる“Method and Apparatus for Context-Aided Human Identification”と題する相互参照の関連米国出願に記載の方法を使用し、服装認識を実施して服装認識結果と服装類似性スコアとを取得することができる。
類似性測定モジュール157は、顔認識結果を顔認識モジュール147から受け取り、服装認識結果を服装認識モジュール137から受け取る。次いで、類似性測定モジュール157は、公式選択モジュール177と通信して、画像セット内の人々の画像間の類似性測定値を判定する公式を検索する(S222)。公式選択モジュール177は、画像セット中の画像の文脈情報を使用し、顔認識結果と服装認識結果とを使用して類似性測定値を取得する公式を選択する(S224)。公式選択モジュール177は、画像セット中の画像内の人々に関する顔認識結果と服装認識結果の利用可能性および使用可能性に応じて公式を選択する。公式選択モジュール177から適当な公式を受け取ると、類似性測定モジュール157は、顔認識結果と服装認識結果を統合して画像内に存在する人々の間の類似性測定値を取得する(S226)。顔認識結果と服装認識結果の両方を統合する複合的類似性測定値(combined similarity measures)は、異なる画像中の2人の人が同じ人物か否かを判定するより頑健な方法を実現する。
分類モジュール167は、類似性測定モジュール157から画像セット中の画像内の人々の間の類似性測定値を受け取る。分類モジュール167は、類似性測定値に基づいて、画像内に存在する人々の同一性に応じて画像を分類する(S230)。分類モジュール167は、参照によりその内容全体が本明細書に組み込まれる“Method and Apparatus for Performing Constrained Spectral Clustering of Digital Image Data”と題する相互参照の関連米国出願に記載のクラスタリング技法を使用して画像の分類を実施することができる。次いで、分類モジュール167は、画像セット中の画像に関する分類結果を出力する(S233)。かかる分類結果は、印刷ユニット44、表示装置64、および/または画像出力ユニット62に出力することができる。
図4は、本発明の一実施形態による服装認識を実施してデジタル画像データ内の服装に関する服装認識結果を取得する技法を示す流れ図である。図4に記載の技法を使用して、服装認識モジュール137は、図3のステップS219の画像内の服装に関する類似性スコアの形で、服装認識結果を取得することができる。
服装認識は、画像内の服装の断片を識別し、服装の断片が互いにどの程度類似しているかを判定し、したがって、2人の人物の画像中の2着の服装の断片が実際に同じ個人に属する可能性がどの程度あるかを指示するものである。服装認識方法には3つのステップが含まれ、すなわち、服装の検出およびセグメント化、特徴抽出による服装表現、ならびに抽出された特徴に基づく類似性計算が含まれる。
服装認識モジュール137は、画像データ・ユニット127から画像セットを受け取る(S244)。次いで、服装認識モジュール137は、画像内に存在する服装の検出およびセグメント化を実施する(S248)。服装の検出およびセグメント化は、初期の服装領域を検出する服装位置の初期推定と、洗練された(refined)服装領域を取得する画像内の初期の服装領域のセグメント化と、洗練された服装領域からのクラッタ除去とを含む。服装位置の初期推定値は、顔認識モジュール147からの顔検出結果、またはそれが存在する場合は任意選択の顔検出モジュール141からの顔検出結果を使用することによって、顔検出から取得される。顔認識モジュール147および任意選択の顔検出モジュール141は、参照により本明細書に組み込まれる次の各刊行物、すなわち、S. Ioffeの“Red Eye Detection with Machine Learning”Proc. ICIP(2003年)、H. SchneidermanおよびT. Kanadeの“A Statistical Method for 3D Object Detection Applied to Faces and Cars”Proc. CVPR(2000年)、ならびにP. ViolaおよびM. Jonesの“Rapid Object Detection Using a Boosted Cascade of Simple Features”Proc. CVPR(2001年)に記載の方法の1つまたは複数を使用して顔検出を実施することができる。服装位置の初期推定値は、任意選択の頭部検出モジュール142からの頭部検出結果から取得することもできる。頭部検出は、上記の各刊行物に記載の方法と同様の方法を使用して実施することができる。頭部検出を実施する他の方法が使用されてもよい。
クラッタは、実際には服装領域の一部ではないが服装領域と混合されまたはそれと混ざり合う画像領域である。クラッタとしては、服装を身に付けている人々の皮膚などの皮膚領域と、人物の前にある物体や人々の服装を遮る部分などの遮蔽物とが挙げられる。次に、服装認識モジュール137は特徴を抽出し、服装領域の数値表現を取得するために、抽出された特徴を使用して服装領域を表現する(S252)。服装認識モジュール137によって生成される服装領域の数値表現は、さらなる分析のための服装領域の操作を可能にする。服装領域の代表的な領域またはコード・ワードが抽出され、服装領域に現れるコード・ワードの周波数から特徴ベクトルが生成される。特徴ベクトルは、服装領域の数値表現を提供する。最後に、服装認識モジュール137は、類似性計算を実施して服装領域間の類似性スコアを判定する(S256)。2着の服装の断片の類似性スコアは、2着の服装の断片に関して重み付けされたコード・ワードの周波数ベクトルを正規化したスカラ積として計算される。次いで、服装認識モジュール137は、複数対の服装の断片に関する類似性スコアを類似性測定モジュール157に出力する(S220)。ステップS248、S252、およびS256がどのように実施されるかに関するさらなる詳細は、参照によりその内容全体が本明細書に組み込まれる“Method and Apparatus for Context-Aided Human Identification”と題する相互参照の関連米国出願で確認することができる。
図5は、本発明の一実施形態に従って顔と服装の認識結果を組み合わせて、2人の人物の画像に関する類似性測定値を取得する技法を示す流れ図である。図5に記載の技法を使用して、類似性測定モジュール157は、図3のステップS226を実施する間に、人物の画像間の類似性測定値を取得することができる。
線形ロジスティック回帰は、顔と服装の認識結果を組み合わせ、人物の画像間の類似性測定値を取得するために使用される。服装情報は、顔情報を補完するものであり、プロフィールの顔の場合によくあるように、顔の位置および/または顔の角度が変化する場合、顔の画像品質が悪い場合、または画像内の顔の表情が変動する場合は、非常に有益な情報となる。顔と服装の手掛りを統合したときは、顔の手掛りだけを使用したときよりも強力な画像内の人々の同一性認識の結果が達成される。類似性測定モジュール157は、服装の文脈を顔認識と統合する。服装認識モジュール137による服装認識から取得される類似性スコアは、2着の服装の断片がどの程度類似しているかを指示する。画像セット内の画像に関する人間の認識精度を向上させるために、服装の手掛りが顔の手掛りと統合される。服装の手掛りと顔の手掛りの組合せは、後に画像内に存在する人々の同一性に基づいて画像を分類するのに使用される類似性測定値を提供する。
手掛りの組合せの問題は、数学的には以下のように記述することができる。任意の対の人物の画像に関しては、xを人物の画像内に現れる2人の人物の顔間の類似性を測定する顔認識に由来する顔認識スコアとし、xを2人の人物の服装間の類似性を測定する服装認識に由来する服装認識スコアとする。ランダム変数Yは、当該対の人物が同じ人物であるか否かを示すものとする。したがって、Y=1は、2人の人物が同じ人物であることを意味し、Y=0は、そうでないことを意味する。手掛りの組合せの問題は、確率P(Y=1|x,x)=f(x,x)から、当該対の人物の画像が同じ人物を表すものであるか否かが適切な形で指示されるような関数f(x,x)を発見することによって解決することができる。
一方の人物の画像が人物Aを示し、他方の人物の画像が人物Bを示す1対の人々の画像に関して、類似性測定モジュール157は、服装認識xに由来するスコアと、服装認識xに由来するスコアとを検索する(S302)。xは、顔認識モジュール147によって判定されたように人物AとBの顔間の類似性を測定する。顔認識モジュール147は、参照により本明細書に組み込まれるT. Leungの“Texton Correlation for Recognition”Proc. European Conference Computer Vision、ECCV(2004年)203〜214頁に記載の方法を使用して、顔間のスコアxを抽出することができる。xは、服装認識モジュール137によって取得される人物Aの服装と人物Bの服装との間の類似性スコアである。服装認識モジュール137は、参照によりその内容全体が本明細書に組み込まれる“Method and Apparatus for Context-Aided Human Identification”と題する相互参照の関連米国出願に記載の方法を使用して、2人の人物の服装の断片間の類似性スコアxを抽出することができる。
ランダム変数Yは、当該対の人物の画像が同じ人物に由来するものであるか否かを示すものとする。したがって、Y=1は、当該画像が同じ人物に関する画像であることを意味し、Y=0は、そうでないことを意味する。類似性測定モジュール157は、顔スコアxと服装スコアxとが与えられた場合の、当該対の人物の画像が同じ個人に属する確率P(Y=1|x,x)を推定する。線形ロジスティック回帰により、公式1
Figure 2007272896
が取得され、上式で
Figure 2007272896
は、学習されるパラメータである。パラメータ
Figure 2007272896
は予め、訓練画像セット(a set of training images)を基に類似性測定モジュール157によって学習される。例示的な訓練画像セットの対数尤度を最大化する
Figure 2007272896
は、ニュートン‐ラフソン法を繰り返し使用することによって取得することができる。取得される
Figure 2007272896
は、公式1で使用するために検索される(S304)。
顔認識スコアxと服装認識スコアxの対が方程式(1)に差し込まれ(plugged)、P(Y=1|x,x)が取得される(S306)。P(Y=1|x,x)は、スコアxおよびxに関連する人物の画像が同じ人物に由来する確率である。1対の人物の画像に関連する確率P(Y=1|x,x)は、当該対の人物の画像に関する類似性測定値であり、分類モジュール167に出力される(S308)。
図6は、顔認識結果または服装認識結果が欠落している場合に、本発明の一実施形態に従って2人の人物の画像に関する類似性測定値を取得する技法を示す流れ図である。図6に示される技法を使用して、類似性測定モジュール157は、図3の処理ステップS226の間に、人物の画像間の類似性測定値を取得することができる。線形ロジスティック回帰は、顔または服装の情報が欠落している場合に対処するのに適した手法を提供する。顔認識結果は、例えば顔を遮るものが存在する場合または後頭部しか見えない場合や、顔認識が困難となるプロフィールの顔しか存在しない場合は、利用可能でない可能性がある。服装の文脈を使用する1つの利点は、人間の認識精度を向上させるのに役立つことであるが、顔認識結果が利用可能でない場合も人間の認識が可能となる別の利点もある。
服装認識結果は、服装が遮られることによって欠落する可能性もある。服装認識結果は、別の日に(別のイベントで)撮影された画像、または同じ写真内の異なる人が同じ服装をしている場合については信頼できない可能性がある。
測定値同士を直接、公平に比較できるように、全ての状況下の(顔認識結果だけを用いる場合、服装認識結果だけを用いる場合、ならびに顔と服装の認識結果を組み合わせる場合の)類似性測定値は、互換性を有する(compatible)必要がある。顔情報または服装情報が欠落している場合に対処するには、ここでも線形ロジスティック回帰が使用される。
図5の表記法と同様の表記法が使用される。一方のスコアだけが利用可能な人物Aと人物Bとを含む1対の人物の画像に関して、類似性測定モジュール157は、例えば顔認識xに由来するスコアまたは服装認識xに由来するスコアの内の利用可能なスコアを検索する(S312)。1対の人物の画像について顔認識スコアxが欠落しているが、服装類似性スコアxは利用可能である場合には、P(Y=1|x)が計算される(S317)。一方、1対の人物の画像について服装認識スコアxが欠落しているが、顔認識スコアxは利用可能である場合には、P(Y=1|x)が計算される(S316)。Y=1は、2つの画像が同じ個人に属することを示し、Y=0は、そうでないことを示す。確率P(Y=1|x,x)は、顔認識スコアと服装認識スコアがどちらも利用可能であるときに1対の人物の画像が同じ個人を表す確率であることから、図6に示される場合については、顔認識スコアxと服装類似性スコアxのいずれかが欠落している故に、当該確率を計算することはできない。
確率P(Y=1|x,x)、P(Y=1|x)、およびP(Y=1|x)は、互換性を有する。一方のスコアが欠落した図6に示される状況と、両方のスコアが利用可能な図5に示される状況との間の互換性は、P(Y=1|x)、およびP(Y=1|x)がP(Y=1|x,x)の周辺確率であり直接比較できる場合に保証される。したがって、方程式(1)からベイズ則により、
Figure 2007272896
となり、P(Y=1|x)は、次のように計算することができる。
Figure 2007272896
いくつかの定数CおよびCに対してx=C・x+Cと仮定した場合、すなわち、P(x|x)=δ(x−C・x−C)と仮定した場合、服装類似性スコアxを伴う2着の服装の断片が同じ人物に属する確率は、次の公式2から求められる。
Figure 2007272896
仮定x=C・x+Cは、服装情報だけで1対の人物の画像間の類似性が判定される場合と同様に、顔情報が欠落している場合にも適用される。公式2から、P(Y=1|x)は、xが利用可能でない場合はロジスティック関数の形をとる。顔のスコアが利用可能であるが、服装のスコアxは利用可能でない場合、P(Y=1|x)は、次の公式3を使用してロジスティック関数の形と同様に表現することができる。
Figure 2007272896
公式2および3のw’、w’、w”、w”など、ロジスティック関数のパラメータは、線形ロジスティック回帰により、公式1のパラメータ
Figure 2007272896
について使用される推定と同様の形で推定することができる。パラメータw’、w’、w”、およびw”は予め、訓練画像セットを基に類似性測定モジュール157によって学習することができる。次いで、1対の人物の画像に関連する確率P(Y=1|x)またはP(Y=1|x)が、分類モジュール167に出力される(S318、S320)。顔情報または服装情報が欠落している場合に対処できることにより、服装を遮るものが存在する場合(使用可能な顔認識のみ)、または服装認識結果しか利用可能でないプロフィールの顔についても、服装アルゴリズムが有効に働くようになる。
公式2は、服装情報だけで1対の人物の画像間の類似性が判定されるように、顔のスコアを服装のスコアの線形関数と仮定することによって導出される。この仮定は、顔情報が欠落している場合に合理的な仮定となる。この仮定の妥当性ならびに計算対象のP(Y=1|x,x)、P(Y=1|x)、およびP(Y=1|x)の互換性を検査した結果、仮定は妥当であることが判明した。
人々が同じ(または同様の)服装をしている場合は、服装情報を確率の計算に組み込む上で支障が生じる。写真C内の2人の人物P5およびP6は、同じ個人ではない。したがって、写真C内の2人の人物P5およびP6が同じ(または同様の)服装をしている場合は、P5およびP6に関する服装情報(すなわち、服装類似性スコアx)は、誤解を招く情報を与えまたは何らの情報も与えないので破棄する必要がある。次いで、P5およびP6の人々の間の類似確率が、P(Y=1|x)に関する公式3から、顔のスコアxだけを使用して計算される。
図7は、本発明の一実施形態による人々の間の類似性測定値を計算する際に使用されるパラメータを学習する技法を示す流れ図である。図7に示されるパラメータ学習技法は、類似性測定モジュール157が図5のステップS304で使用するパラメータ
Figure 2007272896
または図6のステップS313で使用するパラメータwを生成するのに使用される。
線形ロジスティック回帰法では、確率P(Y=1|x,x)=f(x,x)によってxおよびxに関連する当該対の人物の画像が同じ人物を表すものであるか否かが適切な形で指示されるような関数f(x,x)が、判定される。関数fは、
Figure 2007272896
という形をとり、
上式で、x=xおよびx=xとした場合、
Figure 2007272896
となり、w=[w,w,w]は、訓練画像セットを学習することによってパラメータが決定される3次元ベクトルである。
訓練画像セットは、同じ人物または異なる人物に由来する複数対の人物の画像を含む。複数対の訓練画像に関する顔認識スコアおよび服装認識スコアが、抽出される。パラメータwは、公式(4)の確率から、訓練対(training pair)に由来する2人の人が同じ人物である場合と、訓練対に由来する2人の人が同じ人物でない場合とが正しく記述される可能性を最大化することができるパラメータとして決定される。
類似性測定モジュール157は、訓練画像セットを入力する(S355)。訓練画像セットには、それぞれ正の例または負の例に相当するN対の画像が存在する。1対の人物の画像は、人物の画像が同じ人物および同じ日にちに由来するものである場合は、正の例と見なされる。写真の撮影された時間情報は、1対の人物の画像が同じ日にちに由来するかどうかを判定する際に使用される。これらのN対に関する顔認識スコアおよび服装認識スコアは、
Figure 2007272896
によって求められ、上式で、
Figure 2007272896
1≦i≦Nとするi番目の対の訓練画像に関するスコアである。i番目の対が同じ人物に由来するものであるか否かの基本真理(ground truth)は、yで表される。したがって、y=1は、i番目の対が同じ人物に由来するものであることを意味し、y=0は、i番目の対が同じ人物に由来するものではないことを意味する。
Figure 2007272896
とすれば、
Figure 2007272896
となる。
Figure 2007272896
の式で使用されるパラメータwは、各対の独立性を仮定した場合に、公式(4)の確率から、訓練対に由来する2人の人が同じ人物である場合が正しく記述される可能性Lを最大化することができるパラメータである。この可能性は、基本真理データ(S365)および訓練画像に関する写真の撮影された時間データ(S367)を使用して次のように計算される(S357)。
Figure 2007272896
したがって、次のようになる。
Figure 2007272896
Figure 2007272896
の式で使用されるパラメータwは、方程式(6)を最大化することができるパラメータである。したがって、パラメータwは、
Figure 2007272896
を満足する(S359)。方程式(7)の解は、ニュートン‐ラフソン法を繰り返し使用することによって取得することができる(S361)。wを繰り返し更新する公式は、
t+1=w+(X’*fp*X)−1*X’*(Y−f
となり、上式でwは、繰り返しtにおけるwの推定であり、Xは、N×3の行列であり、Nは、Xのi番目の行が[xi1,xi2,1]となる訓練例(例えば1対の服装画像など)の合計数であり、X’は、Xの転置行列であり、fpは、i番目の対角要素が
Figure 2007272896
となるN×Nの対角行列であり、上式で、
Figure 2007272896
は、wを使用して計算され、Yは、i番目の要素がyとなるN×1の列ベクトルであり、fは、i番目の要素がwを使用して計算される
Figure 2007272896
となるN×1の列ベクトルである。wを繰り返し判定する手順は、初期値wから開始した後、収束するまで繰り返される。学習プロセスが終了すると、可能性Lを最大化することができるwが取得される。wのパラメータは、類似性測定モジュール157によって保存される(S363)。
図8は、本発明の一実施形態による人物の画像に関する類似性測定値を取得する公式選択技法を示す流れ図である。図8に示される技法を使用して、公式選択モジュール177は、図3の公式選択ステップS224を実施することができる。
図8に示されるように、類似性測定モジュール157は、服装認識モジュール137および顔認識モジュール147から顔と服装の認識スコアを受け取る(S450)。類似性測定モジュール157は、受け取られたスコアのタイプに関する情報を、すなわち、服装または顔のスコア、および、写真の撮影された時間、画像の暗黙的な時間または位置情報、画像のイベント認識データなど追加的な画像文脈情報、および、画像を識別するカウンタなどの画像追跡データを、公式選択モジュール177に送る。
公式選択モジュール177は、類似性測定モジュール157から情報を受け取った後に、受け取られたスコアに関連する画像が同じイベントに由来するものかどうかを判定する検査を実施する(S452)。画像は、それらが1日や半日などの期間であり得る同じ期間に撮影されたものである場合や、同じ場所で撮影されたものである場合などには同じイベントに由来することになる。受け取られたスコアに関連する画像が同じイベントに由来しない場合には、人々は、全ての画像において同じ服装をしていないことになる。次いで、公式選択モジュール177は、人々の間の類似性スコアを計算するために公式3を選択する(S472)。公式3は顔認識スコアだけを使用し、服装認識は破棄する。
受け取られたスコアに関連する画像が同じイベントに由来するものである場合には、服装のスコアは互いに関連する。受け取られた顔または服装のスコアに関連する2人の人物の画像sおよびsが、選択される。公式選択モジュール177は、人物の画像sおよびsの一方がプロフィールの顔であるかどうかを判定する検査を実施する(S454)。回答がyesの場合は、典型的にはプロフィールの顔から良好な顔認識スコアが与えられないので、人物の画像sとsの間の顔類似性スコアは、使用可能でない。次いで、公式選択モジュール177は、sとsの間の類似性スコアを計算するために公式2を選択する(S456)。公式2は服装認識スコアだけを使用し、顔認識スコアは破棄する。
人々の画像sおよびsの顔がそれぞれプロフィールの顔でない場合は、公式選択モジュール177は、sとsの間の服装類似性スコアが利用可能であるかどうかを判定する検査を実施する(S458)。服装類似性スコアが利用可能でない場合には、公式選択モジュール177は、顔認識スコアだけを使用してsとsの間の類似性スコアを計算するために公式3を選択する(S460)。
とsの間の服装類似性スコアが利用可能である場合には、公式選択モジュール177は、人物の画像sおよびsが同じ画像に由来し、かつ同じまたは同様の服装をしているかどうか(すなわち、sとsの間の服装類似性スコアが高いかどうか)を判定する検査を実施する(S462)。人々が同じ(または同様の)服装をしている場合は、服装情報を組み込むことが困難となる。1枚の写真内の2人の人は通常、同じ個人ではない。したがって、1枚の写真内の2人の人物sおよびsが同じ(または同様の)服装をしている場合は、服装情報を破棄する必要がある。したがって、公式選択モジュール177は、顔認識コアだけを使用してsとsの間の類似性スコアを計算するために公式3を選択する(S464)。
さらに、sと、いずれかの画像中の第3の人物s(s≠s)の間の服装類似性スコアが高い場合(S474)、すなわちsの服装がsの服装に(したがってsの服装にも)非常に似ている場合には、服装類似性スコアがsに関する曖昧な情報を提供する(すなわちsをsとsの両方に関連付ける)ことから、sとsに関する服装類似性スコアも欠落として扱われる。この場合、公式選択モジュール177は、顔認識スコアだけを使用してsとsの間の類似性スコアを計算するために公式3を選択する(S476)。同じように、sと第3の人物s(s≠s)の間の服装類似性スコアが高い場合、すなわちsの服装がsの服装に(したがってsの服装にも)非常に似ている場合には、sとsに関する服装類似性スコアも欠落として扱われ、公式選択モジュール177は、顔認識スコアだけを使用してsとsの間の類似性スコアを計算するために公式3を選択する。
一方、画像セット中の任意の画像内に存在するsと別の人物s(s≠s)の画像間の1対の(pair−wise)服装類似性が高くない場合には、sとsの間の服装認識スコアと共に、それが利用可能であれば顔認識スコアも使用することができる。したがって、公式選択モジュール177は、顔と服装の認識スコアの両方を使用して、または顔のスコアが利用可能でない場合には服装認識スコアだけを使用してsとsの間の類似性スコアを計算するために、公式1または公式2を選択する(S478)。同様に、画像セット中の任意の画像内に存在するsと別の人物s(s≠s)の画像間の1対の服装類似性が高くない場合には、sとsの間の服装認識スコアと共に、それが利用可能であればsとsの間の顔認識スコアも使用することができる。
ステップS462の検査の結果が否定的なものである場合、すなわち、人物の画像sおよびsが同じ画像に由来するものでない場合、あるいはsおよびsが同じまたは同様の服装をしていない場合には、sとsの間の服装のスコアが使用可能である。次いで、公式選択モジュール177は、sおよびsに関する顔認識スコアが利用可能であるかどうかを判定する検査を実施する(S466)。顔認識スコアが利用可能である場合には、公式選択モジュール177は、sとsの間の類似性スコアを計算するために公式1を選択する(S470)。顔認識スコアが利用可能でない場合には、公式選択モジュール177は、sとsの間の類似性スコアを計算するために公式2を選択する(S470)。
ステップS462は、ステップS452の直後に実施されてもよい。
類似性測定モジュール157は、各対の人物の画像について公式選択モジュール177によって選択された公式を受け取り、その公式を使用して各対の人物の画像内の人物間の類似性スコアを計算する(S480)。
参照により本明細書に組み込まれるM. I. JordanおよびR. A. Jacobsの“Hierarchical Mixtures of Experts and The EM Algorithm”Neural Computation, 6(1994年)181〜214頁にあるようなエキスパートの混合(mixture of experts)など、図8に示される公式選択方法と共に他の手掛りの組合せに関するアルゴリズムを使用することもできる。
図9は、人物の同一性に基づいて本発明の一実施形態による人物の画像の分類を実施する技法を示す流れ図である。図9に示される技法を使用して、分類モジュール167は、図3のステップS230の画像内に存在する人物の同一性に従って、画像を複数のグループに分類することができる。画像内に存在する人物の同一性に従って画像を複数のグループに分類するために使用できる方法は、スペクトル・クラスタリングを行うステップと、ハード制約条件(hard constraint)を用いたスペクトル・クラスタリングを行うステップと、K平均クラスタリングを使用したスペクトル・クラスタリングを行うステップと、相反性行列(repulsion matrix)を使用したスペクトル・クラスタリングを行うステップと、ハード制約条件を伴う相反性行列を使用したスペクトル・クラスタリングを行うステップと、ハード制約条件を強制(enforce)する制約条件付き(constrained)K平均クラスタリングを使用した制約条件付きスペクトル・クラスタリングを行うステップとを含む。上述の各クラスタリング方法に関する詳細な説明は、参照によりその内容全体が本明細書に組み込まれる“Method and Apparatus for Performing Constrained Spectral Clustering of Digital Image Data”と題する相互参照の関連米国出願に記載されている。
類似性測定モジュール157によって取得される1対の複合的な類似性測定値は、画像中の人々を各自の同一性に基づいてクラスタリングする基礎を提供し、したがって、各画像に示される人々の同一性に従って画像をクラスタリングする基礎を提供する。
J. ShiおよびJ. Malikの“Normalized cuts and image segmentation”Proc. CVPR(1997年6月)731〜737頁、Y. Weissの“Segmentation using eigenvectors: a Unifying View”Proc. ICCV(1999年)、A. Y. Ng、M. I. Jordan、およびY. Weissの“On spectral clustering: Analysis and an algorithm”NIPS 14(2002年)、ならびにStella X. Yuの博士論文“Computational Models of Perceptual Organization”Carnegie Mellon University(2003年:CMU-RI-TR-03-14)に記載されるように、従来のK平均法から現行のスペクトル・クラスタリング法にいたるまで、多くのクラスタリング・アルゴリズムが開発されている。K平均法を凌ぐスペクトル・クラスタリング法の主要な利点の1つは、クラスタが凸領域に対応しないとき、K平均法は失敗しやすい可能性があることである。各クラスタの密度がしばしばガウス型と仮定されるEMを使用してモデルを混合する場合にも同じことがいえる。人間のクラスタリングを行う際は、画像状態の様々な側面が変化する可能性もあることから、クラスタは、必ずしも凸領域を形成しない。したがって本願では、人間のクラスタリングにはスペクトル・クラスタリング・アルゴリズムの方が好都合である。
スペクトル・クラスタリング法は、ポイント間の1対の類似性から導出される行列の固有値および固有ベクトルによって各ポイントをクラスタリングする。スペクトル・クラスタリング法ではグローバル構造が想定されておらず、したがって、非凸クラスタを扱うことができる。スペクトル・クラスタリングは、例えば各ポイントがグラフ内のノードとなり、2つのポイント間の類似性が各ポイント間のエッジの重みを与える、グラフ・パーティショニングと同様のものである。人間のクラスタリングを行う際は、各ポイントは、人物の画像であり、類似性測定値は、顔および/または服装の認識スコアから同じ同一性が導出される確率である。
コンピュータ・ビジョンで使用される1つの効果的なスペクトル・クラスタリング法は、参照により本明細書に組み込まれるJ. ShiおよびJ. Malikの“Normalized Cuts and Image Segmentation”Proc. CVPR(1997年6月)731〜737頁に記載の正規化カット(normalized cuts)方法である。上記の刊行物の正規化カット方法を使用して、分類モジュール167は、ステップS605のスペクトル・クラスタリング分類を実施することができる。上記の刊行物の正規化カット方法は、参照により本明細書に組み込まれるStella X. Yuの博士論文“Computational Models of Perceptual Organization”Carnegie Mellon University(2003年:CMU-RI-TR-03-14)において一般化されている。
正規化カットの基準は、各クラスタ内のリンク(類似性)を最大化し、クラスタ間のリンクを最小化する。ポイント・セットS={s,…,s}は、K個のクラスタにクラスタリングされるものとする。Wを、項Wijがポイントsとsの間の類似性となるN×Nの重み行列とする。Dは、i番目の対角要素がWのi番目の行の合計(すなわち、i番目のノードの大きさ)となる対角行列を表すものとする。クラスタリング結果は、N×Kの区画行列Xで表すことができ、ここでポイントsがk番目のクラスタに属するとき、かつそのときに限り、Xik=1となり、そうでないときは0となる。Xは、Xのl番目の列ベクトルを表すものとし、1≦l≦Kとする。Xは、l番目のクラスタのメンバシップ・インジケータ・ベクトルである。これらの表記法を使用して、正規化カットの基準は、
Figure 2007272896
を最大化することができる最良の区画行列Xを発見する。
Xに対するバイナリ区画行列の制約条件を緩和し、レイリー・リッツ法を使用すれば、連続領域の最適解がD−1/2WD−1/2におけるK個の最大固有ベクトルから導出されることを示すことができる。vを、D−1/2WD−1/2におけるi番目の最大固有ベクトルとし、V=[v,v,…,v]とする。したがって、ε(X)の連続最適解(continuous optimum)は、
Figure 2007272896
によって、すなわち、
の行が正規化されたバージョン
Figure 2007272896
(各行は単位長さとなる)によって達成することができる。最適解は実際には一意でなく、上記の最適解は、正規直交変換:
Figure 2007272896
までの行列セットであり、
上式で、IはK×Kの同一性行列である。
したがって、図9のステップS605およびS613の分類モジュール167の動作に関して、ポイント・セットS={s,…,s}は、分類モジュール167に入力されるものとし、ここで1≦i≦Nとする各ポイントsは、画像セット中の画像に由来する人物の画像(顔または服装あるいはその両方を含む可能性がある)となる。したがって、画像I1が3人の人を示す場合には、画像I1は、組Sのs,s,sに寄与する。画像I2が2人の人を示す場合には、画像I2は、組Sのs,sに寄与し、以下もまた同様である。ポイントs,s,…,sは、画像内で発見される人々のK個の同一性の内の1つにそれぞれ対応するK個のクラスタにクラスタリングされることになる。顔認識結果および/または服装認識結果から、2つのポイント間の類似性を類似性測定モジュール157によって計算することができる。これらの類似性測定値から、i≠jのときは各項Aijがsとsの間の類似性スコアとなり、対角項についてAij=0となる、N×Nの親和性行列(affinity matrix)Aが形成される。次いで、分類モジュール167は、Dを、それ自体のi番目の対角要素がAのi番目の行の合計となる対角行列として定義する。次いで、分類モジュール167は、行列L=D−1/2AD−1/2を構築し、LにおけるK個の最大固有ベクトルを発見し、それらの固有ベクトルを列にスタックすることによって行列Xを形成する。次いで、分類モジュール167は、Xの各行を単位長さに再び正規化することによって行列Yを形成する。Yの各行をポイントとして扱うことにより、分類モジュール167は、K平均アルゴリズムを使用して(S613)、または他のアルゴリズムを使用して(S605)Yの各行をクラスタリングする。最後に、分類モジュール167は、Yのi番目の行をクラスタjに割り当てる場合は、各ポイントsをクラスタjに割り当てる。
行列の固有値セットは、行列のスペクトルと呼ばれる。ステップS605およびS613に関して説明したアルゴリズムは、データの親和性行列における固有値と固有ベクトルとを利用するものであり、したがって、スペクトル・クラスタリング・アルゴリズムに該当する。このアルゴリズムは本質的に、新しい空間においてデータがより良い形でクラスタリングされるように、データを新しい空間に変換する。
参照により本明細書に組み込まれる刊行物であるStella X. Yuの博士論文“Computational Models of Perceptual Organization”Carnegie Mellon University(2003年:CMU-RI-TR-03-14)には、ポイント間の非類似性をモデル化するための相反性行列が紹介されている。かかるクラスタリング・アルゴリズムは、ステップS609で使用することができる。クラスタリングの目標は、クラスタ内の類似性とクラスタ間の非類似性とを最大化する一方で、それぞれの補数を最小化することとされている。ポイント・セットS={s,…,s}は、K個のクラスタにクラスタリングする必要があるものとし、ここで各ポイントsは、人物の画像である。Aを、類似性を定量化する行列(親和性行列)とし、Rを、非類似性を表す行列(相反性行列)とし、DおよびDをそれぞれ、AおよびRの行の合計に対応する対角行列とする。
Figure 2007272896
かつ
Figure 2007272896
と定義する。次いで、目標は、
Figure 2007272896
を最大化することができる区画行列Xを発見することとなる。連続最適解は、相反性行列が存在しない場合と同様の形式で、
Figure 2007272896
のK個の最大固有ベクトルを使用して発見することができる。
連続解は固有システムを解くことによって発見できるので、親和性行列と相反性行列とを使用する上記の方法は高速であり、連続領域のグローバル最適解を達成することができる。しかしながら、クラスタリングに関しては、連続解を離散化する必要がある。Stella X. Yuの博士論文“Computational Models of Perceptual Organization”Carnegie Mellon University(2003年:CMU-RI-TR-03-14)では、離散化は、
Figure 2007272896
を最小化することができるバイナリ区画行列
Figure 2007272896
を発見するまで繰り返され、上式で、‖M‖は行列Mのフロベニウス・ノルム
Figure 2007272896
であり、Oは任意の正規直交行列であり、
Figure 2007272896
は、連続最適解である。バイナリ区画行列
Figure 2007272896
を発見するために実施される離散化は、ステップS609で完了する。
分類モジュール167は、文脈情報を利用し、各人物の同一性に従って写真をクラスタリングすることもできる。2つのポイント(2人の人物の画像)間の類似性計算は、クラスタリング・プロセスで重要なものである。画像内の顔と服装に加えて、その手掛りを組み込み人間の認識力を高めるのに利用できる追加的な手掛りが存在する可能性もある。論理ベース制約条件は、画像内の人々を同一性に基づいてクラスタリングする際に役立つ可能性がある追加的な手掛りである。論理ベースの文脈および制約条件は、1枚の写真内の異なる顔は異なる個人に属するという制約条件や、夫婦は一緒に写真に写る可能性が高いという制約条件など、一般的な論理から得ることが可能な知識である。一部の論理ベース制約条件は、ハード制約条件である。例えば、1枚の写真内の異なる顔は異なる個人に属するという制約条件は、ネガティブ型のハード制約条件である。他の論理ベース制約条件は、夫婦は一緒に写真に写る可能性が高いという制約条件などのソフト制約条件である。別の有用なポジティブ型のソフト制約条件は、ある人物が一群の画像内に存在するという事前知識である。したがって、ある顔が人物Aに属するはずであるという制約条件は、ハード制約条件である。一方、ある顔が人物Aに属する確率が80%であるという事実は、ソフト制約条件である。
したがって、分類モジュール167は、ハード制約条件として表現できる論理ベースの文脈をクラスタリング方法に組み込み、より多くの文脈的手掛りを使用することによって、人間のクラスタリング結果を改善することができる。かかるハード制約条件を利用するために、ステップS605、S609、およびS613におけるクラスタリング手法は、ステップS607、S611、およびS615でハード制約条件を組み込むことによって変更される。
人間のクラスタリングを行う際は、かかるハード制約条件を強制できることが望ましい。しかしながら、プライアーズ(priors)(ハード制約条件など)を組み込んだ場合は、スペクトル・クラスタリング・アルゴリズムに支障が生じる。Stella X. Yuの博士論文“Computational Models of Perceptual Organization”Carnegie Mellon University(2003年:CMU-RI-TR-03-14)、ならびにS. X. YuおよびJ. Shiの“Grouping with Bias”NIPS(2001年)では、ポジティブ制約条件を課す(2つのポイントが同じクラスタに属していなければならない)方法が提案されているが、離散化ステップで制約条件の違反が起きる可能性がある故に、ポジティブ制約条件が尊重される保証はない。ステップS607で、分類モジュール167は、ポジティブ型のハード制約条件を伴う親和性行列を使用して、人物の画像のクラスタリングを実施することができる。ステップS607で、ネガティブ型のハード制約条件を親和性行列に組み込むこともできる。
ステップS611で、分類モジュール167は、ハード制約条件を伴う相反性行列を使用してクラスタリング手法を実施する。公式(9)、(10)、および(11)で記述されるクラスタリング方法で導入した表記法を使用して、S={s,…,s}を、画像セット中の全ての画像に由来する人物の画像に関連するポイント・セットとする。ポイントs,s,…,sは、画像内で発見される人々の合計K個の同一性の内の1つにそれぞれ対応するK個のクラスタにクラスタリングされることになる。2つのポイントsとsの間の1対の類似性は、顔および/または服装の認識スコアならびに他の文脈的手掛りから取得される。複数対の人物の画像に関する類似性の値は、類似性測定モジュール157によって、複数対の人々が同じ人物となる確率として計算された。分類モジュール167は、複数対の人物の画像に関連する類似性測定値を使用して、i≠jのときは各項Aijがsとsの間の確率類似性スコアとなり、i=jのときはAij=0となる、すなわち行列Aの対角項についてAij=0となる、N×Nの親和性行列Aを形成する。
およびsは、同じ写真内で発見される2人の人物の画像とする。この場合、2人の人物は典型的には、異なる人物であり(異なる同一性を有し)、したがって、分類モジュール167は、sおよびsを異なるクラスタ内に配置することになる。この制約条件を埋め込むために、sとsの間の類似性に対応する親和性行列A内の項Aijは、ゼロにセットされ、Aij=0となる。
ハード・ネガティブ制約条件を強化するために、2つのポイントsとsの非類似性の程度を記述する相反性行列Rが生成される。sおよびsが同じ写真内で発見される2人の人物の画像であり、したがって異なる人を表す場合は、項Rijは、1にセットされる。より一般的にいえば、項Rijは、sおよびsが同じクラスタ内に所在する可能性がない場合に1にセットされることになる。ポイントsとsの間の既知の制約条件が存在しない場合は、対応する項Rijは、ゼロにセットされる。次いで、分類モジュール167は、ハード制約条件を伴う相反性行列を用いたスペクトル・クラスタリングを実施する(S611)。ハード制約条件を伴う相反性行列を使用したステップS611のクラスタリング方法に関する詳細な説明は、参照によりその内容全体が本明細書に組み込まれる“Method and Apparatus for Performing Constrained Spectral Clustering of Digital Image Data”と題する相互参照の関連米国出願に記載されている。
分類モジュール167は、画像内の人々の同一性に基づいて画像をクラスタリングするためのハード制約条件を強制する、制約条件付きK平均クラスタリング(constrained K-means clustering)を用いた制約条件付きスペクトル・クラスタリングを使用して、人物の画像を分類することもできる(S615)。
スペクトル・クラスタリング法は、クラスタが凸領域に対応しないとき、K平均法が失敗しやすい可能性がある故にK平均法よりも有利であるが、スペクトル・クラスタリング法では、ハード制約条件を強制することが困難である。親和性行列Aおよび相反性行列Rにハード制約条件を導入した場合も、クラスタリング・ステップの間にハード制約条件が満足される保証がない故に、これらの制約条件を強制するには十分でない可能性がある。制約条件付きK平均クラスタリングは、ハード制約条件が満足されることを保証するために実施される。
K平均クラスタリングにハード制約条件を統合する制約条件付きK平均アルゴリズムは、参照により本明細書に組み込まれるK. Wagstaff、C. Cardie、S. Rogers、およびS. Schroedlの“Constrained K-Means Clustering with Background Knowledge”Proc. 18thInternational Conference on Machine Learning ICML(2001年)577〜584頁に提示されている。参照により本明細書に組み込まれるA. Y. Ng、M. I. Jordan、およびY. Weissの刊行物“On Spectral Clustering: Analysis and an Algorithm”NIPS 14(2002年)では、離散化ステップにおいてK平均法が使用されている。しかしながら、この刊行物では、相反性行列が使用されず、相反性行列を用いたK平均法の使用も正当化されず、制約条件付きK平均法の代わりに通常のK平均法が使用されており、したがって制約条件が何ら課されていない。
本願では、離散化ステップにおいて、画像内の人間のクラスタリングを行うハード制約条件を強制する制約条件付きK平均アルゴリズムが実施される。制約条件付きK平均アルゴリズムは、参照により本明細書に組み込まれる刊行物であるK. Wagstaff、C. Cardie、S. Rogers、およびS. Schroedlの“Constrained K-Means Clustering with Background Knowledge”Proc. 18th International Conference on Machine Learning ICML(2001年)577〜584頁に記載の方法を使用することができる。
S={s1,…,s}は、画像セット中の全ての画像に由来する人物の画像に関連するポイント・セットとする。ポイントs,s,…,sは、画像内で発見される人々の合計K個の同一性の内の1つにそれぞれ対応するK個のクラスタにクラスタリングされることになる。先述のように、親和性行列Aは、i≠jのときは各項Aijがsとsの間の確率類似性スコアとなり、i=jのときはAij=0となる、すなわち行列Aの対角項についてAij=0となるように生成される。分類モジュール167は、2つのポイントsとsの非類似性の程度を記述する相反性行列Rも生成する。
次に、分類モジュール167は、sとsが異なるクラスタに属する(異なる人となる)ことが分かったときにAij=0とすることにより、親和性行列Aにハード・ネガティブ制約条件を埋め込む。分類モジュール167はまた、ポジティブ制約条件が利用可能であれば、親和性行列Aにハード・ポジティブ制約条件を埋め込むこともできる。ポジティブ制約条件の一例は、ある人物が連続する写真に現れるという制約条件である。例えば、2つの画像内の2人の人物の画像sとsが同じ個人に属することが分かった場合は、上記のアルゴリズムは、親和性行列Aにおいて項Aij=1とセットし、相反性行列Rにおいて項Rij=0とセットすることにより、かかるポジティブ制約条件を強制することができる。かかるハード・ポジティブ制約条件は、ある人物の現れる複数の画像がアプリケーションで正確に示された旨の指示がユーザから受け取られるユーザ・フィードバックから利用可能になる可能性がある。sとsが同じクラスタ内に所在する可能性がない(異なる人を表す)場合は、ハード・ネガティブ制約条件を埋め込むために、項Rijは、1にセットされる。分類モジュール167は、ポジティブ制約条件が利用可能であれば、相反性行列Rにハード・ポジティブ制約条件を埋め込むこともできる。
次いで、分類モジュール167は、ハード制約条件を強制する制約条件付きK平均クラスタリングを使用した制約条件付きスペクトル・クラスタリングを実施する(S615)。ハード制約条件を強制する他の制約条件付きクラスタリング方法が使用されてもよい。ハード制約条件を強制するステップS615の制約条件付きスペクトル・クラスタリング方法に関する詳細な説明は、参照によりその内容全体が本明細書に組み込まれる“Method and Apparatus for Performing Constrained Spectral Clustering of Digital Image Data”と題する相互参照の関連米国出願に記載されている。
本願では、適応型文脈支援によって人間を識別および分類するための方法および装置が説明されている。この方法および装置は、顔情報と、服装情報と、他の利用可能な文脈情報(1枚の写真内の人々が異なる個人となる事実など)とを使用して画像内の人々の識別を実施するものである。本願に提示される方法および装置は、複数の結果を達成する。本願に提示される方法および装置は、顔と服装の類似性スコアの利用可能性に基づいて画像内の人々の間の類似性スコアを取得する公式選択方法を実施する。本願に提示される方法および装置は、顔情報および服装情報と、時間などの(暗黙的な)写真記録データと、1枚の写真に由来する複数の人物が異なるクラスタ内に存在する事実など他の文脈情報とを利用する。本願に提示される方法および装置は、顔または服装の情報が欠落している場合にも、適切な周辺確率を計算することによってこれに対処することができる。したがって、この方法および装置は、服装認識結果だけが利用可能なプロフィールの顔について、あるいは服装を遮るものが存在し顔情報だけが利用可能な場合についても、依然として有効なものである。本願の方法および装置は、同じ画像内で発見される異なる人が同じ(または同様の)服装をしている場合にも対処することができる。
本願に詳細に記載される諸実施形態は、顔情報および服装情報を使用した人間の認識および分類に関するものであるが、本発明の諸原理は、画像内の複数の特徴で記述できる他のタイプのオブジェクトに適用することもできる。
以上、本発明の詳細な諸実施形態および諸実装形態を説明してきたが、本発明の趣旨および範囲を逸脱しない様々な修正形態が可能であることは明らかである。
本発明の一実施形態によるデジタル画像データの適応型文脈支援による人間分類を行う画像処理ユニットを含むシステムを概略的に示すブロック図である。 本発明の一実施形態によるデジタル画像データの適応型文脈支援による人間分類を行う画像処理ユニットの諸態様をより詳細に示すブロック図である。 図2に示される本発明の一実施形態によるデジタル画像データの適応型文脈支援による人間分類を行う画像処理ユニットによって実施される処理を示す流れ図である。 本発明の一実施形態による服装認識を実施して、デジタル画像データ内の服装に関する服装認識結果を取得する技法を示す流れ図である。 本発明の一実施形態に従って顔と服装の認識結果を組み合わせ、顔認識結果と服装認識結果とを使用して、2人の人物の画像に関する類似性測定値を取得する技法を示す流れ図である。 顔認識結果または服装認識結果が欠落している場合に、本発明の一実施形態に従って2人の人物の画像に関する類似性測定値を取得する技法を示す流れ図である。 本発明の一実施形態による人々の間の類似性測定値を計算する際に使用されるパラメータを学習する技法を示す流れ図である。 本発明の一実施形態による人物の画像に関する類似性測定値を取得する公式選択技法を示す流れ図である。 人物の同一性に基づいて本発明の一実施形態による人物の画像の分類を実施する技法を示す流れ図である。
符号の説明
24…画像入力デバイス、34…画像処理ユニット、44…印刷ユニット、54…ユーザ入力ユニット、56…キーボード、57…マウス、62…画像出力ユニット、64…表示装置、127…画像データ・ユニット、137…服装認識モジュール、141…顔検出モジュール、142…頭部検出モジュール、147…顔認識モジュール、157…類似性測定モジュール、167…分類モジュール、177…公式選択モジュール

Claims (40)

  1. デジタル画像処理方法であって、
    複数の人物を含む複数のデジタル画像を表すデジタル・データにアクセスするステップと、
    顔認識を実施して前記複数の人物の顔間の類似性に関係する第1のスコアを判定するステップと、
    服装認識を実施して前記複数の人物の服装間の類似性に関係する第2のスコアを判定するステップと、
    前記顔中の顔と前記服装中の服装とが前記複数の人物中の人物に属する確率を推定する複数の公式であって、
    その内の少なくとも1つの公式が、第1のスコアと第2のスコアとを利用し、
    その内の少なくとも1つの公式が、第1のスコアと第2のスコアとの内の一方だけを利用する、
    複数の公式を提供するステップと、
    前記第1のスコア中の、前記複数の人物中の2人の人物に関する第1のスコアの利用可能性と、前記第2のスコア中の、前記2人の人物に関する第2のスコアの利用可能性とに基づいて、前記2人の人物の同一性の類似性に関する確率を推定する公式を、前記複数の公式から選択するステップと、
    を含むデジタル画像処理方法。
  2. 前記複数の人物の前記服装は、衣服、靴、腕時計、および眼鏡の内の少なくとも1つを含む、請求項1に記載のデジタル画像処理方法。
  3. 前記選択するステップは、前記2人の人物に関連するデジタル画像が撮影された時間に基づいて、前記複数の公式から公式を選択するステップを含む、請求項1に記載のデジタル画像処理方法。
  4. 前記選択するステップは、前記2人の人物に関連するデジタル画像が撮影された場所に基づいて前記複数の公式から公式を選択するステップを含む、請求項1に記載のデジタル画像処理方法。
  5. 前記選択するステップは、前記2人の人物が前記複数のデジタル画像中の同じ画像に関連付けられるかどうか、および前記2人の人物が同様の服装をしているかどうかに基づいて、前記複数の公式から公式を選択するステップを含む、請求項1に記載のデジタル画像処理方法。
  6. 前記選択するステップは、前記2人の人物に関する第1のスコアが利用可能でないときに前記複数の公式から公式を選択するステップを含む、請求項1に記載のデジタル画像処理方法。
  7. 前記選択するステップは、前記2人の人物に関する第1のスコアと第2のスコアとが利用可能であるときに前記複数の公式から公式を選択するステップを含む、請求項1に記載のデジタル画像処理方法。
  8. 前記複数の公式は、ロジスティック回帰を使用して導出される、請求項1に記載のデジタル画像処理方法。
  9. 複数の公式を提供する前記ステップは、ロジスティック回帰を使用して前記複数の公式に関するパラメータを学習するステップを含む、請求項8に記載のデジタル画像処理方法。
  10. 前記服装認識を実施するステップは、
    前記複数の人物の顔の下の服装領域を検出するステップと、
    前記服装領域間の差を最大化することにより、服装領域をセグメント化して服装領域を判定するステップと、
    前記服装領域に属さないクラッタを除去するステップとを含む、
    請求項1に記載のデジタル画像処理方法。
  11. 前記服装認識を実施するステップは、
    前記服装領域から代表的な画像パッチを抽出し、
    ベクトル量子化を使用し、前記代表的な画像パッチを量子化して、パッチ・ベクトルを取得し、
    前記パッチ・ベクトルをクラスタリングして、パッチ・クラスタおよび前記パッチ・クラスタの中心としてコード・ワードを取得し、
    前記服装領域内に現れる前記コード・ワードの周波数のコード・ワード特徴ベクトルを用いて前記服装領域を表現することによって、前記服装領域に関する服装の特徴抽出を実施するステップをさらに含む、
    請求項10に記載のデジタル画像処理方法。
  12. 前記服装認識を実施するステップは、
    より出現頻度の低いコード・ワードにより高い優先順位が与えられるように、前記コード・ワード特徴ベクトルに重み付けするステップと、
    前記服装領域中の服装領域対に関して重み付けされた前記コード・ワード特徴ベクトルのスカラ積として、前記第2のスコアを計算するステップとをさらに含む、
    請求項11に記載のデジタル画像処理方法。
  13. 前記選択するステップは、前記複数の人物中の複数対の人物に関して、前記複数対の人物の同一性の類似性に関係する複数の確率を推定するために実施される、請求項1に記載のデジタル画像処理方法。
  14. 前記複数の確率を使用し、前記複数の人物をクラスタリングして、前記複数の人物中の人物の同一性に関係するクラスタを取得するステップをさらに含む、請求項13に記載のデジタル画像処理方法。
  15. 前記複数の確率の配列から得られる固有ベクトル結果を取得するためのスペクトル分析を実施するステップと、
    前記固有ベクトル結果をクラスタリングし、前記固有ベクトル結果の離散化を実施して、前記複数の人物中の人物の同一性に関係するクラスタを取得するステップと
    をさらに含む、請求項13に記載のデジタル画像処理方法。
  16. 前記複数の確率の配列に、前記複数の人物中の人物に関係する少なくとも1つのハード制約条件を組み込んで、制約条件付き相関データ結果を取得するステップと、
    前記制約条件付き相関データ結果から固有ベクトル結果を取得するためのスペクトル分析を実施するステップと、
    前記固有ベクトル結果をクラスタリングし、前記固有ベクトル結果の離散化を実施して、前記複数の人物中の人物の同一性に関係するクラスタを取得するステップと
    をさらに含む、請求項13に記載のデジタル画像処理方法。
  17. 前記複数の確率の配列に、前記複数の人物中の人物に関係する少なくとも1つのハード制約条件を組み込んで、制約条件付き相関データ結果を取得するステップと、
    前記制約条件付き相関データ結果から固有ベクトル結果を取得するためのスペクトル分析を実施するステップと、
    前記少なくとも1つのハード制約条件を強制する基準を用いた制約条件付きクラスタリングを使用し、前記固有ベクトル結果の離散化を実施して、前記複数の人物中の人物の同一性に関係するクラスタを取得するステップと
    をさらに含む、請求項13に記載のデジタル画像処理方法。
  18. 離散化を実施する前記サブ・ステップは、制約条件付きK平均クラスタリングを使用する、請求項17に記載のデジタル画像処理方法。
  19. 前記少なくとも1つのハード制約条件は、前記複数のデジタル画像中の同じ画像内で発見される2人の人物が異なる同一性を有するハード・ネガティブ制約条件を含む、請求項18に記載のデジタル画像処理方法。
  20. 前記少なくとも1つのハード制約条件は、前記複数のデジタル画像中の異なる画像内で発見される2人の人物が同じ人物となる所定の知識に基づくポジティブ制約条件を含む、請求項18に記載のデジタル画像処理方法。
  21. デジタル画像処理装置であって、
    複数の人物を含む複数のデジタル画像を表すデジタル・データを提供する画像データ・ユニットと、
    前記複数の人物の顔間の類似性に関係する第1のスコアを判定する顔認識ユニットと、
    前記複数の人物の服装間の類似性に関係する第2のスコアを判定する服装認識ユニットと、
    公式選択ユニットであって、
    前記顔中の顔と前記服装中の服装とが前記複数の人物中の人物に属する確率を推定する複数の公式であって、その内の少なくとも1つの公式が、第1のスコアと第2のスコアとを利用し、その内の少なくとも1つの公式が、第1のスコアと第2のスコアの内の一方だけを利用する、複数の公式を提供し、
    前記第1のスコア中の、前記複数の人物中の2人の人物に関する第1のスコアの利用可能性と、前記第2のスコア中の、前記2人の人物に関する第2のスコアの利用可能性とに基づいて、前記2人の人物の同一性の類似性に関する確率を推定する公式を、前記複数の公式から選択する、
    公式選択ユニットと
    を備えるデジタル画像処理装置。
  22. 前記複数の人物の前記服装は、衣服、靴、腕時計、および眼鏡の内の少なくとも1つを含む、請求項21に記載の装置。
  23. 前記公式選択ユニットは、前記2人の人物に関連するデジタル画像が撮影された時間に基づいて、前記複数の公式から公式を選択する、請求項21に記載の装置。
  24. 前記公式選択ユニットは、前記2人の人物に関連するデジタル画像が撮影された場所に基づいて、前記複数の公式から公式を選択する、請求項21に記載の装置。
  25. 前記公式選択ユニットは、前記2人の人物が前記複数のデジタル画像中の同じ画像に関連付けられるかどうか、および前記2人の人物が同様の服装をしているかどうかに基づいて、前記複数の公式から公式を選択する、請求項21に記載の装置。
  26. 前記公式選択ユニットは、前記2人の人物に関する第1のスコアが利用可能でないときに前記複数の公式から公式を選択する、請求項21に記載の装置。
  27. 前記公式選択ユニットは、前記2人の人物に関する第1のスコアと第2のスコアとが利用可能であるときに前記複数の公式から公式を選択する、請求項21に記載の装置。
  28. 前記複数の公式は、ロジスティック回帰を使用して導出される、請求項21に記載の装置。
  29. ロジスティック回帰を使用して前記複数の公式に関するパラメータを学習する類似性測定ユニット
    をさらに備える、請求項28に記載の装置。
  30. 前記服装認識ユニットは、
    前記複数の人物の顔の下の服装領域を検出し、
    前記服装領域間の差を最大化することにより、服装領域をセグメント化して服装領域を判定し、
    前記服装領域に属さないクラッタを除去することによって、服装認識を実施する、
    請求項21に記載の装置。
  31. 前記服装認識ユニットは、
    前記服装領域から代表的な画像パッチを抽出し、
    ベクトル量子化を使用し、前記代表的な画像パッチを量子化して、パッチ・ベクトルを取得し、
    前記パッチ・ベクトルをクラスタリングして、パッチ・クラスタおよび前記パッチ・クラスタの中心としてコード・ワードを取得し、
    前記服装領域内に現れる前記コード・ワードの周波数のコード・ワード特徴ベクトルを用いて前記服装領域を表現することによって、前記服装領域に関する服装の特徴抽出を実施する、
    請求項30に記載の装置。
  32. 前記服装認識ユニットは、
    より出現頻度の低いコード・ワードにより高い優先順位が与えられるように、前記コード・ワード特徴ベクトルに重み付けし、
    前記服装領域中の服装領域対に関して重み付けされた前記コード・ワード特徴ベクトルのスカラ積として、前記第2のスコアを計算することによって、前記第2のスコアを判定する、
    請求項31に記載の装置。
  33. 類似性測定ユニットをさらに含み、
    前記公式選択ユニットは、前記複数の人物中の複数対の人物に関する公式を前記複数の公式から選択し、
    前記類似性測定ユニットは、前記複数対の人物の同一性の類似性に関係する複数の確率を推定する、
    請求項21に記載の装置。
  34. 前記複数の確率を使用し、前記複数の人物をクラスタリングして、前記複数の人物中の人物の同一性に関係するクラスタを取得する分類ユニット
    をさらに備える、請求項33に記載の装置。
  35. 前記複数の確率の配列から得られる固有ベクトル結果を取得するためのスペクトル分析を実施し、
    前記固有ベクトル結果をクラスタリングし、前記固有ベクトル結果の離散化を実施して、前記複数の人物中の人物の同一性に関係するクラスタを取得する分類ユニット
    をさらに備える、請求項33に記載の装置。
  36. 前記複数の確率の配列に、前記複数の人物中の人物に関係する少なくとも1つのハード制約条件を組み込んで、制約条件付き相関データ結果を取得し、
    前記制約条件付き相関データ結果から固有ベクトル結果を取得するためのスペクトル分析を実施し、
    前記固有ベクトル結果をクラスタリングし、前記固有ベクトル結果の離散化を実施して、前記複数の人物中の人物の同一性に関係するクラスタを取得する分類ユニット
    をさらに備える、請求項33に記載の装置。
  37. 前記複数の確率の配列に、前記複数の人物中の人物に関係する少なくとも1つのハード制約条件を組み込んで、制約条件付き相関データ結果を取得し、
    前記制約条件付き相関データ結果から固有ベクトル結果を取得するためのスペクトル分析を実施し、
    前記少なくとも1つのハード制約条件を強制する基準を用いた制約条件付きクラスタリングを使用し、前記固有ベクトル結果の離散化を実施して、前記複数の人物中の人物の同一性に関係するクラスタを取得する分類ユニット
    をさらに備える、請求項33に記載の装置。
  38. 前記分類ユニットは、制約条件付きK平均クラスタリングを使用して離散化を実施する、請求項37に記載の装置。
  39. 前記少なくとも1つのハード制約条件は、前記複数のデジタル画像中の同じ画像内で発見される2人の人物が異なる同一性を有するハード・ネガティブ制約条件を含む、請求項38に記載の装置。
  40. 前記少なくとも1つのハード制約条件は、前記複数のデジタル画像中の異なる画像内で発見される2人の人物が同じ人物となる所定の知識に基づくポジティブ制約条件を含む、請求項38に記載の装置。
JP2007088639A 2006-03-31 2007-03-29 適応型文脈支援による人間分類を行うためのデジタル画像処理方法および装置 Pending JP2007272896A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/393,661 US7864989B2 (en) 2006-03-31 2006-03-31 Method and apparatus for adaptive context-aided human classification

Publications (1)

Publication Number Publication Date
JP2007272896A true JP2007272896A (ja) 2007-10-18

Family

ID=38575298

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007088639A Pending JP2007272896A (ja) 2006-03-31 2007-03-29 適応型文脈支援による人間分類を行うためのデジタル画像処理方法および装置

Country Status (2)

Country Link
US (1) US7864989B2 (ja)
JP (1) JP2007272896A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011514575A (ja) * 2008-01-25 2011-05-06 イーストマン コダック カンパニー 個人的写真集合からの社会的関係の割出し
WO2011152844A1 (en) * 2010-06-01 2011-12-08 Hewlett-Packard Development Company, L.P. Image clustering using a personal clothing model
JP2012520492A (ja) * 2009-06-24 2012-09-06 シャープ株式会社 手書き文字認識方法および手書き文字認識装置
JP2013140574A (ja) * 2011-12-07 2013-07-18 Nikon Corp 電子機器、情報処理方法およびプログラム
JP2014016968A (ja) * 2012-07-11 2014-01-30 Toshiba Corp 人物検索装置及びデータ収集装置
JP2015099563A (ja) * 2013-11-20 2015-05-28 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
US9292752B2 (en) 2012-08-24 2016-03-22 Fujitsu Limited Image processing device and image processing method

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7606417B2 (en) * 2004-08-16 2009-10-20 Fotonation Vision Limited Foreground/background segmentation in digital images with differential exposure calculations
US7692696B2 (en) * 2005-12-27 2010-04-06 Fotonation Vision Limited Digital image acquisition system with portrait mode
JP4970468B2 (ja) * 2006-02-14 2012-07-04 デジタルオプティックス・コーポレイション・ヨーロッパ・リミテッド 画像ぼかし処理
IES20060558A2 (en) 2006-02-14 2006-11-01 Fotonation Vision Ltd Image blurring
US7864989B2 (en) 2006-03-31 2011-01-04 Fujifilm Corporation Method and apparatus for adaptive context-aided human classification
US7920745B2 (en) * 2006-03-31 2011-04-05 Fujifilm Corporation Method and apparatus for performing constrained spectral clustering of digital image data
IES20060564A2 (en) * 2006-05-03 2006-11-01 Fotonation Vision Ltd Improved foreground / background separation
US8467570B2 (en) * 2006-06-14 2013-06-18 Honeywell International Inc. Tracking system with fused motion and object detection
US8494310B2 (en) * 2006-11-10 2013-07-23 National University Corporation Toyohashi University Of Technology Three-dimensional model search method, computer program, and three-dimensional model search system
FR2913510B1 (fr) * 2007-03-07 2009-07-03 Eastman Kodak Co Procede pour determiner automatiquement une probabilite de saisie d'images avec un terminal a partir de donnees contextuelles
GB2447876B (en) * 2007-03-29 2009-07-08 Sony Uk Ltd Recording apparatus
WO2009116049A2 (en) * 2008-03-20 2009-09-24 Vizi Labs Relationship mapping employing multi-dimensional context including facial recognition
US9143573B2 (en) 2008-03-20 2015-09-22 Facebook, Inc. Tag suggestions for images on online social networks
US8311292B2 (en) * 2009-02-09 2012-11-13 Cisco Technology, Inc. Context aware, multiple target image recognition
EP2490171B1 (en) * 2009-10-16 2020-11-25 Nec Corporation Person image search starting from clothing query text.
US9465993B2 (en) * 2010-03-01 2016-10-11 Microsoft Technology Licensing, Llc Ranking clusters based on facial image analysis
WO2011152843A1 (en) * 2010-06-01 2011-12-08 Hewlett-Packard Development Company, L.P. Clothing-based image clustering based on cluster ensemble sets
US9122955B2 (en) * 2010-06-28 2015-09-01 Ramot At Tel-Aviv University Ltd. Method and system of classifying medical images
US8532390B2 (en) 2010-07-28 2013-09-10 International Business Machines Corporation Semantic parsing of objects in video
US10424342B2 (en) 2010-07-28 2019-09-24 International Business Machines Corporation Facilitating people search in video surveillance
US8515127B2 (en) 2010-07-28 2013-08-20 International Business Machines Corporation Multispectral detection of personal attributes for video surveillance
US9134399B2 (en) 2010-07-28 2015-09-15 International Business Machines Corporation Attribute-based person tracking across multiple cameras
KR20120064581A (ko) * 2010-12-09 2012-06-19 한국전자통신연구원 영상 분류 방법 및 이를 위한 장치
US20120155717A1 (en) * 2010-12-16 2012-06-21 Microsoft Corporation Image search including facial image
CA2826177C (en) * 2011-02-03 2017-08-08 Facebook, Inc. Systems and methods for image-to-text and text-to-image association
US8798362B2 (en) 2011-08-15 2014-08-05 Hewlett-Packard Development Company, L.P. Clothing search in images
US8693739B2 (en) * 2011-08-24 2014-04-08 Cyberlink Corp. Systems and methods for performing facial detection
EP2734931A4 (en) 2011-09-27 2015-04-01 Hewlett Packard Development Co POLLING VISUAL MEDIA
KR102222318B1 (ko) * 2014-03-18 2021-03-03 삼성전자주식회사 사용자 인식 방법 및 장치
CN105631455B (zh) * 2014-10-27 2019-07-05 阿里巴巴集团控股有限公司 一种图像主体提取方法及系统
US11115698B2 (en) * 2015-08-31 2021-09-07 Orcam Technologies Ltd. Systems and methods for providing recommendations based on a level of light
CN105224849B (zh) * 2015-10-20 2019-01-01 广州广电运通金融电子股份有限公司 一种多生物特征融合身份鉴别方法以及装置
US10068129B2 (en) 2015-11-18 2018-09-04 Adobe Systems Incorporated Recognizing unknown person instances in an image gallery
US10891509B2 (en) * 2017-10-27 2021-01-12 Avigilon Corporation Method and system for facilitating identification of an object-of-interest
US12223722B2 (en) 2018-05-25 2025-02-11 Koninklijke Philips N.V. Person identification systems and methods
EP4172847A4 (en) * 2020-06-24 2024-01-10 INTEL Corporation OBJECT IDENTIFICATION BASED ON ADAPTIVE LEARNING

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2921936B2 (ja) 1990-07-13 1999-07-19 株式会社東芝 画像監視装置
US5550928A (en) 1992-12-15 1996-08-27 A.C. Nielsen Company Audience measurement system and method
US6819783B2 (en) 1996-09-04 2004-11-16 Centerframe, Llc Obtaining person-specific images in a public venue
US6246412B1 (en) 1998-06-18 2001-06-12 Microsoft Corporation Interactive construction and refinement of 3D models from multiple panoramic images
KR100636910B1 (ko) 1998-07-28 2007-01-31 엘지전자 주식회사 동영상검색시스템
JP3617373B2 (ja) 1999-06-03 2005-02-02 オムロン株式会社 ゲート装置
US20020046100A1 (en) 2000-04-18 2002-04-18 Naoto Kinjo Image display method
EP1384155A4 (en) 2001-03-01 2007-02-28 Health Discovery Corp SPECTRAL KNIVES FOR LEARNING MACHINES
JP4486596B2 (ja) * 2002-11-07 2010-06-23 本田技研工業株式会社 変化する照明条件下での物体の外観のクラスタリング
US7272246B2 (en) 2003-05-22 2007-09-18 Motorola, Inc. Personal identification method and apparatus
US7469073B2 (en) * 2004-05-24 2008-12-23 Siemens Medical Solutions Usa, Inc. Image-based method for detection and removal of small fragments in segmented three-dimensional volumes
US20060018516A1 (en) 2004-07-22 2006-01-26 Masoud Osama T Monitoring activity using video information
US7634113B2 (en) 2004-12-07 2009-12-15 Electronics And Telecommunications Research Institute User authentication system and method thereof
US7519200B2 (en) 2005-05-09 2009-04-14 Like.Com System and method for enabling the use of captured images through recognition
US7809192B2 (en) * 2005-05-09 2010-10-05 Like.Com System and method for recognizing objects from images and identifying relevancy amongst images and information
US7864989B2 (en) 2006-03-31 2011-01-04 Fujifilm Corporation Method and apparatus for adaptive context-aided human classification

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011514575A (ja) * 2008-01-25 2011-05-06 イーストマン コダック カンパニー 個人的写真集合からの社会的関係の割出し
JP2012520492A (ja) * 2009-06-24 2012-09-06 シャープ株式会社 手書き文字認識方法および手書き文字認識装置
WO2011152844A1 (en) * 2010-06-01 2011-12-08 Hewlett-Packard Development Company, L.P. Image clustering using a personal clothing model
US9025864B2 (en) 2010-06-01 2015-05-05 Hewlett-Packard Development Company, L.P. Image clustering using a personal clothing model
JP2013140574A (ja) * 2011-12-07 2013-07-18 Nikon Corp 電子機器、情報処理方法およびプログラム
JP2014016968A (ja) * 2012-07-11 2014-01-30 Toshiba Corp 人物検索装置及びデータ収集装置
US9292752B2 (en) 2012-08-24 2016-03-22 Fujitsu Limited Image processing device and image processing method
JP2015099563A (ja) * 2013-11-20 2015-05-28 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム

Also Published As

Publication number Publication date
US20070237355A1 (en) 2007-10-11
US7864989B2 (en) 2011-01-04

Similar Documents

Publication Publication Date Title
JP2007272896A (ja) 適応型文脈支援による人間分類を行うためのデジタル画像処理方法および装置
US7920745B2 (en) Method and apparatus for performing constrained spectral clustering of digital image data
US20070237364A1 (en) Method and apparatus for context-aided human identification
CN109117808B (zh) 面部识别方法、装置、电子设备及计算机可读介质
Zhang et al. Probabilistic graphlet transfer for photo cropping
US7522773B2 (en) Using time in recognizing persons in images
US9542419B1 (en) Computer-implemented method for performing similarity searches
WO2020114118A1 (zh) 面部属性识别方法、装置、存储介质及处理器
JP5123288B2 (ja) 画像コレクション間の接続の形成
US9025864B2 (en) Image clustering using a personal clothing model
US9317783B2 (en) Clustering images
US8861873B2 (en) Image clustering a personal clothing model
JP2004005456A (ja) 構成成分基盤pca/icaを利用した顔認識方法及びその装置
JP2868078B2 (ja) パターン認識方法
JP2006172437A (ja) データのストリームにおけるセグメント境界の位置の決定方法、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法、コンピュータによって実行可能な命令のプログラム、ならびにデータのストリームにおける境界及び非境界を識別するシステム又は装置
JP2008152789A (ja) 顔映像の類似度の算出方法及び装置とこれを利用した顔映像の検索方法及び装置、並びに顔合成方法
CN112925938B (zh) 一种图像标注方法、装置、电子设备及存储介质
CN111597894A (zh) 一种基于人脸检测技术的人脸库更新方法
Kapoor et al. Which faces to tag: Adding prior constraints into active learning
JP2007213581A (ja) 特徴量分析を使用してデジタル画像データ内のオブジェクト・パーツの位置を推定する方法および装置
Marqués et al. Face segmentation and tracking based on connected operators and partition projection
WO2020232697A1 (zh) 一种在线人脸聚类的方法及系统
Deselaers Image retrieval, object recognition, and discriminative models
Frikha et al. Semantic attributes for people’s appearance description: an appearance modality for video surveillance applications
Freitas et al. A cnn-based multi-level face alignment approach for mitigating demographic bias in clinical populations