JP2004536367A

JP2004536367A - コンピュータ利用画像分析

Info

Publication number: JP2004536367A
Application number: JP2002560082A
Authority: JP
Inventors: ギャリーカールズ、; シエラグバーマン、; ホンザング、
Original assignee: バイオウルフテクノロジーズエルエルスィー
Priority date: 2001-01-23
Filing date: 2002-01-23
Publication date: 2004-12-02
Anticipated expiration: 2022-01-23
Also published as: ES2337556T3; CA2435290C; JP3947109B2; EP1356421B1; DE60234571D1; AU2002243783B2; WO2002059828A2; EP1356421A2; CA2435290A1; WO2002059828A3; ATE450834T1

Abstract

デジタル化画像データをプロセッサに入力する。このプロセッサにおいて、検出部は、前記画像中に注目領域（対象）を特定し区切ることによって、それら対象を背景から分離する。特徴抽出部は、前記区切った対象から、分類タスクに関係する数値を作成する。これら前処理分析ステップの結果は、教育した学習マシン分類器に入力する。この分類器が提供する出力は、２つの可能な診断を区別するインデックスから成るか、所望出力フォーマットにおける他の出力である。一実施例において、デジタル化画像データを複数のサブシステムに入力する。各サブシステムは、１つ以上のサポートベクトルマシンを有する。前処理は、有用データの抽出を補助する既知の変換を使用しても良い。各サブシステムは、前記画像中に異なる特性または特徴を見つけ、それに関係するデータを分析する。各サブシステムがその分析および分類を完了すると、全サブシステムの出力を全体サポートベクトルマシン分析器に入力し、それらデータを結合し、前記画像から取得した知識を利用して診断、決定、あるいは他の動作を行う。
【選択図】図１１

Description

【技術分野】
【０００１】
関連出願
本出願は、２００１年１月２３日付け米国仮出願第６０／２６３，３８１号の優先権利益を主張する。本出願はまた、２０００年８月７日付け出願第０９／６３３，４１０号の一部継続出願であり、当該第０９／６３３，４１０号出願は２０００年５月２４日付け出願第０９／５７８，０１１号の一部継続出願であり、当該第０９／５７８，０１１号出願は２０００年５月９日付け出願第０９／５６８，３０１号の一部継続出願であり、当該第０９／５６８，３０１号出願は現在特許第＿＿＿＿＿＿＿＿号として発行されていて１９９９年５月１日付け出願第０９／３０３，３８７号の継続出願であり、当該第０９／３０３，３８７号出願は現在特許第６，１２８，６０８号として発行されていて１９９８年５月１日付け米国仮特許出願第６０／０８３，９６１号の優先権を主張している。本出願は、２０００年８月７日付け同時継続出願第０９／６３３，６１５号、第０９／６３３，６１６号、および第０９／６３３，８５０号に関係し、これら出願はまた出願第０９／５７８，０１１号の一部継続出願である。本出願はさらに、１９９９年５月１日付け出願第０９／３０３，３８６号および第０９／３０５，３４５号に関係し、後者は現在特許第６，１５７，９２１号として発行されており、さらに本出願は２０００年１１月１４日付け出願第０９／７１５，８３２号にも関係しており、これら全ては仮出願第６０／０８３，９６１号への優先権を主張する。
【０００２】
技術分野
本発明は、広く画像のコンピュータ利用分析に関し、詳しくはサポートベクトルマシンを使用するコンピュータ利用画像分析に関する。
【０００３】
背景技術
電子画像信号が含むデータを最適に抽出するには、その信号の重要要素を特定する機能が必要であり、信号源および信号検出に使用する機器のノイズおよび制限の中でそれを行わねばならない。データの最適抽出および再構築が必要な主分野は画像分析分野であり、この分野におけるノイズ等の発生源は、画像から効率的にデータを抽出する機能に悪影響を与え、画像処理の本来の利用効果を悪化させる。画像分析に問題をはらんでいる分野は、例えば天文観測および惑星探査であり、この分野での発信源は微弱で、大気干渉によるノイズおよびひずみがある。また例えば軍事および防衛偵察の分野では、光が弱く、目標の動きが早いため、コントラストが低く、不鮮明である。また例えば医療画像分野では、コントラストが低く、不鮮明およびゆがみを伴うことが多いが、これらは信号源および機器の限界によるものである。画像分析の困難さに加え、デジタル化画像は大量のデータを含んでいるため、所定データ点の値を確立するには、全画像を処理しなければならない。
【０００４】
デジタル画像の自動分析方法の発展は、過去数十年間に渡って多大の関心を集めており、注目分野の１つは医療分野である。応用例としては、病理画像の分析がある。病理画像は、可視、超音波、エックス線、陽電子放射、磁気共鳴等の描画方法によって作成する。医療画像を人が解釈する場合のように、自動画像分析装置は、画像中の不鮮明な特徴を認識し分類できねばならない。これは、領域間のかすかな境界であってわずか数レベルの階調または色の濃淡でしか区別できないような境界を見分けることを必要とする。
【０００５】
近年、画像分析用のマシン学習方法がパターン認識に広く研究されてきた。これは、画像内の無関係な背景詳細から意味のある特徴を抽出することを可能にする。学習マシンを構成するアルゴリズムは、既知結果を有するデータを使い、一般化の教育を行える。教育した学習マシンアルゴリズムは、未知の結果を予測することに応用できる。マシン学習方法は、神経回路網、隠れマルコフモデル、信念ネットワーク、およびサポートベクトルマシンを含み、理想的な応用分野は、大量データの存在、ノイズを含むパターンの存在、および一般理論の欠如によって特徴付けられる分野である。このような方法のうち特に注目すべきは、人工神経回路網を生物医学画像分析に応用することであり、その応用結果は、神経回路網を細胞試料および乳房エックス線写真の視覚画像分析に利用して乳癌を診断すること、糖尿病患者の網膜画像の分類、染色体分析（染色体画像の視覚分析）による遺伝子異常の特定、および超音波画像における腫瘍検出等に報告されている。
【０００６】
画像分析に適用されている学習マシンの大多数は、逆行性伝搬を用いて教育した神経回路網である。これは勾配法であり、教育データの分類における誤りを回路網を逆行して伝搬することにより回路網要素のバイアス重みを調整し、これを平均２乗誤差が最小になるまで行う。逆行性伝搬神経回路網の大きな欠点は、経験リスク関数が多くの局所的最小を持ちうるため、発見からの最適解があいまいになりやすいことである。逆行性伝搬神経回路網が使用する標準最適化手順は、最小に収束するであろうが、この神経回路網法は、局所的最小を得たとしても、必要とする全域的最小を保証できない。神経回路網から得る解の品質は、多くの因子に依存する。特にその神経回路網を実施する実施者の熟練度が最終結果を決定する。しかしながら、初期重みの任意選択など問題ないと思える因子も、不良結果を招くことがある。さらに神経回路網学習に使用する勾配法の収束は、本質的に遅い。別の欠点は、シグモイド関数がスケーリング因子を有するため、近似品質に影響することである。知識発見に関して神経回路網の最も大きな制限要素は、「次元の弊害」であろう。これは、教育データ中の各追加特徴または次元に必要な計算時間および性能における不均衡成長に関係する。
【０００７】
神経回路網の欠点は、別タイプの学習マシンであるサポートベクトルマシンを使うことにより克服できる。一般にサポートベクトルマシンは、演繹的に選んだ非線形マッピング関数を介して高次元特徴空間に入力ベクトルをマップする。この高次元特徴空間において、最適分離超平面を構築する。次にこの最適超平面を用いて分類、回帰適合、密度予測等の実行動作を決定する。
【０００８】
サポートベクトルマシン内において、特徴空間の次元数は極めて高いと思われる。例えば４次多項式マッピング関数は２００次元入力空間を発生し、これを１６億次元特徴空間にマップしなければならない。カーネル技術およびバプニク・チェルボネンキス（ＶＣ）次元により、サポートベクトルマシンは「次元の弊害」を避けられる。この「次元の弊害」は一般に他の方法を制限するので、それを避けることにより、前記極めて高次の特徴空間から一般化可能解を効果的に得ることができる。
【０００９】
最適超平面（または一般化した最適超平面）によって教育ベクトルを分離すれば、テスト例のエラー発生確率の期待値は、教育セット例によって拘束できる。この拘束は、特徴空間の次元数に依存せず、係数ベクトルの基準にも依存せず、入力ベクトル数の制限にも依存しない。従って、最適超平面を教育セットサイズに比べて少数のサポートベクトルから構築できれば、一般化能力は無限次元空間においても高くなる。
【００１０】
このようにサポートベクトルマシンは、大量の入力データからデジタル画像を分析する問題に対し、好ましい解を提供する。しかしながらサポートベクトルマシンがデータセットからデジタル化画像を分析する能力は、教育データセットが含む情報に比例して制限される。従って求められるのは、データを前処理し、教育データを強化し、サポートベクトルマシンによる画像のコンピュータ分析を最大にするようなシステムおよび方法である。
【００１１】
発明の開示
デジタル化画像を分析するためのシステムおよび方法は、広く学習マシンを使用し、さらに詳しくはサポートベクトルマシンを使用する。既知の結果を有する生物学あるいは医学対象を画像化したデジタル画像データから教育データセットを構成し、それを前処理することによって学習マシンの適用を最も有効にする。本発明の目的のため、画像は生体外で取得しても良い。例えば顕微鏡を通して観察した組織試料でも良い。あるいは生体内で取得しても良い。例えばエックス線投影画像である。各教育データ点は、１つ以上の座標を有するベクトルから成る。教育データセットの前処理は、失われたまたは誤ったデータ点を特定し、適切なステップを実行してその欠陥データを修正し、あるいは必要に応じて問題範囲から観察フィールドまたは全フィールドを削除する。教育データセットの前処理はまた、各教育データ点に次元を追加するため、前記ベクトルに１つ以上の新しい座標を追加する。前記ベクトルに追加した新しい座標は、１つ以上の元座標に変換を施すことによって得ることができる。この変換は、専門知識に基づくか計算によって行える。教育データセットが連続変数から成る場合、前記変換は教育データセットの連続変数を最適分類することから成ることができる。
【００１２】
サポートベクトルマシンは、前処理した教育データセットを用いて教育する。この方法において、前処理が提供する教育データの追加表現は、そのデータを分析する学習マシンの能力を強化する。サポートベクトルマシンの特定状況において、教育セットの次元数が大きいほど、そこから得られる一般化品質が高くなる。そのデータから実行する分析が回帰または密度予測に関係する場合、あるいは教育出力が連続変数から成る場合、教育出力は、その教育出力を最適分類することによって後処理し、前記連続変数をカテゴリ化できる。
【００１３】
テストデータセットは、教育データセットと同様の方法で前処理する。次に、教育した学習マシンは、前処理したテストデータセットを用いてテストする。教育した学習マシンのテスト出力は、後処理し、そのテスト出力が最適解であるかを決定する。テスト出力の後処理は、前記テスト出力をフォーマットに翻訳し、そのフォーマットをテストデータセットと比較しても良い。あるいは後処理ステップは、出力データの追加処理として、人による解釈性または人への適切性を強化しても良い。
【００１４】
サポートベクトルマシンの関係において、サポートベクトルマシンを教育する前に、カーネルを選択する方法を提供する。カーネル選択は、処理しようとする特定問題のあらかじめの知識、または学習マシンと共に使用する利用可能データの特性分析に基づくことができ、一般に前記データに対して行う分析の性質に依存する。最適には、後処理した教育出力またはテスト出力を比較する繰り返し処理を適用し、どの構成が最適解を提供するかの決定を行う。テスト出力が最適解でなければ、カーネル選択を調整し、サポートベクトルマシンを再教育および再テストする。最適解を特定したことが判明すれば、実データセット、すなわち結果が未知のデータセットを収集し、教育データセットと同様の方法で前処理する。前処理した実データセットは、学習マシンに入力して処理する。学習マシンの実出力は、後処理のため、計算で得た英数字分類子に翻訳する。
【００１５】
一実施例において、画像データのデジタル化画像をサポートベクトルマシンによって分析するシステムを提供する。この実施例システムは、データベースを格納する記憶装置を備える。このデータベースは、教育データセットとテストデータセットとを含む。これらデータセットの各々は、画像データから成る。前記システムはさらに１つ以上のサポートベクトルマシンを実行するためのプロセッサを備える。このプロセッサは、前記データベースから前記教育データセットを収集し、前記教育データセットを前処理して複数の教育データ点の各々を強化し、前記前処理した教育データセットを用いて前記サポートベクトルマシンを教育し、前記データベースから前記テストデータセットを収集し、前記教育データセットと同じ方法で前記テストデータセットを前処理し、前記前処理したテストデータセットを用いて前記教育したサポートベクトルマシンをテストし、前記教育したサポートベクトルマシンのテスト出力を受け取り、当該テスト出力を後処理してそのテスト出力が最適解であるかを決定する。一実施例システムはまた、通信装置を備え、前記テストデータセットと教育データセットとを遠隔ソースから受け取ることができる。この場合、前記プロセッサは、前記教育データセットを前記記憶装置に格納して前処理に備え、前記テストデータセットを前記記憶装置に格納して前処理に備える。前記一実施例のシステムはまた、前記後処理したテストデータを表示するための表示装置を備える。前記一実施例システムのプロセッサは、前記追加機能の各々を実行するように動作する。前記通信装置はさらに、計算によって得られる英数字分類子を遠隔ソースへ送るように動作することもできる。
【００１６】
カーネルに基づく学習マシン、特にサポートベクトルマシンを使用した画像分析手順の一実施例において、デジタル化画像データを前記プロセッサに入力し、検出部は当該画像内に注目領域（対象）を特定し区切ることによって、それら対象を背景から分離する。特徴抽出部は、前記区切った対象から分類タスクに関係する数値を作成する。前の分析ステップの結果は、サポートベクトルマシン識別器に入力し、この識別器の生成する出力は２つの可能な診断を区別するインデックスから成るか、あるいは所望の出力フォーマットにおける出力である。追加のサポートベクトルマシンを含めることにより、区切り部または特徴抽出部を支援できる。
【００１７】
一好適実施例において、デジタル化画像データを複数のサブシステムに入力する。各サブシステムは、１つ以上のカーネルに基づく学習マシンを有する。各サブシステムは、画像内に発見する異なる特徴または特性に関するデータを分析する。例えば乳房エックス線写真分析の場合、あるサブシステムは石灰沈着に注目して分類し、他のサブシステムは塊に注目して分類し、第３のサブシステムは構造的変形に注目して分類する。各サブシステムがその分析および分類を完了すると、全サブシステムの出力はカーネル利用全体分析器、例えばサポートベクトルマシン利用全体分析器へ入力する。この全体分析器は、データを結合して診断、決定等の動作を行う。この動作は、画像から得た知識を利用する。
【００１８】
データの前処理およびサポートベクトルマシンの教育のための特定手順は、米国特許第６，１５７，９２１号および第６，１２８，６０８号が説明しており、これらの全てを参照によりここに組み込む。画像データ処理に関し、前処理は、有用データの抽出を助けるため、既知の変換を利用することを含む。この変換は、フーリエ変換、ウエーブレット変換、ラドン変換、ハフ変換を含むことができるが、これらに限定するものではない。
【００１９】
発明を実施するための最良の形態
以下の詳細説明は、多くの頭字語を使用するが、これらは当業者に広く知られているものである。それらの定義は代表的に各頭字語が最初に現れた時に提供するものの、便宜を図るため、以下の表１に、ここで使用する頭字語および略語とそれらの定義とを一覧にして提供する
【表１】

本発明は、学習マシンを使用して画像を分析する改良された方法を提供する。ここで使用する「画像」という用語は、あらゆる撮影法の生成物を意味し、従来の例えば写真撮影等の視覚方法によって得られる画像、あるいは例えば赤外線検出器への赤外線放射等、記録媒体または装置への電磁気信号放射を検出する方法によって得られる画像等を含む。ここに説明する各例において特に注目するのは、医療撮影法であり、エックス線、ＰＥＴ（陽電子放射断層撮影法）、ＭＲＩ（磁気共鳴映像法）、ＣＴ（コンピュータ断層撮影法）、ＳＰＥＣＴ（単光子放射型コンピュータ断層撮影法）、ガンマカメラ、共焦点顕微鏡法（「視覚」とも呼ぶ）、電気インピーダンス撮影法、超音波等を含むが、これらに限定するものではない。本発明の目的に関し、画像は生体外から得ても良い。例えば顕微鏡で見た組織試料である。あるいは生体内から得ても良い。例えばエックス線投影画像である。アナログ出力を発生する撮影法に関しては、アナログ出力をデジタル化する。これは、デジタル走査によりまたはアナログ信号をデジタル信号に変換することにより、本発明に基づき分析する入力画像をデジタル形式にする。
【００２０】
学習マシンにはいくつかの例が存在し、この分野における発展が期待されている。本発明の実施例は、サポートベクトルマシンに焦点を当てる。
【００２１】
本発明の第１態様は、データを任意に前処理し、前処理したデータを使って学習マシンを教育し、そして／または任意に学習マシンからの出力を後処理することによる画像分析を提供する。広義に述べると、データの前処理は、データを再フォーマットまたは拡張し、学習マシンへの適用を最も好適にすることを含む。例えば画像内の１つ以上の重要特徴を評価する場合、元のグレースケール画像を前処理してビットマップを作成し、あるいは各種サイズの特徴を変換、すなわち正規化して固定次元形式にしてから処理することにより、輪郭、形状、密度等の品質を比較できるようにする必要がある。
【００２２】
前処理と同様の方法で、後処理は、学習マシンの出力を翻訳し、意味のある特徴を発見する必要がある。前記出力からの意味のある特徴は、問題あるいはデータに固有であろう。後処理は、出力を翻訳して例えば人間の観察者に理解可能なあるいは有用な形式にするか、出力を変換して容易に他の保管装置または送信装置が受け取れるような形式にすることを含む。
【００２３】
図１は、学習マシンを使用してデータを分析するための一般方法１００を示すフローチャートである。方法１００は、開始ブロック１０１で始まり、ステップ１０２へ進む。このステップにおいて、特定問題を定式化し、マシン学習を通した分析を適用できるようにする。特に重要なことは、学習マシンの所望出力の適切な定式化である。例えば、個別出資契約または市場インデックスの将来の動向を予測する場合、学習マシンは、将来の価格レベルを予測するよりも、将来の変化を予測する方がより良い動作をする。将来の価格予測は、後処理段階において得ることが可能であり、これについては後述する。
【００２４】
問題の定式化後、ステップ１０３は教育データ収集を行う。教育データは、既知の特徴を持ったデータ点セットから成る。教育データは、１つ以上の局所および／または遠隔ソースから収集できる。教育データの収集は、手動で行うか、または既知の電子データ転送方法等の自動処理方法で行える。従って本発明に関連して使用する学習マシンの実施例は、ネットワーク化したコンピュータ環境において実施できる。学習マシンの各種実施例の動作環境例は、図１０および図１１に関連して詳細に説明する。
【００２５】
ステップ１０４において、収集した教育データを任意に前処理し、学習マシンへの適用を最適にし、教育データに固有の知識を抽出できるようにする。この前処理段階中、教育データは、そのレコード内における個別または複数の測定値を変換、組合せ、操作することにより、任意に拡張できる。ここで使用する「データ拡張」とは、各入力点の決定に利用可能な観測数を変化することによって入力データの次元数を変えることを意味する（あるいはデータベーステーブル内の列を追加あるいは削除すること、と説明できる）。例えばデータ点が座標（１，４，９）から成るとすれば、このデータ点の拡張版は座標（１，１，４，２，９，３）である。この例において、拡張データ点に追加した座標は、元座標の平方根変換に基づくことが分かるであろう。データ点に次元を追加することにより、この拡張データ点は、入力データの変更表現であり、学習マシンによる分析にとってより意味がある可能性が高い。このようなデータ拡張は、学習マシンにとって、未拡張教育データには容易に現れないデータを分析する機会を与える。
【００２６】
データ拡張は、何らかの意味ある変換をデータに適用することであり、かかる変換を元データに加えることである。変換が有意義であるかを決定するための基準は、入力データ自体および／またはそのデータから得られる知識のタイプに依存するであろう。データ変換の例は、専門情報の追加；ラベリング；ビットマップ等の２値変換；フーリエ、ウエーブレット、ラドン、主成分分析およびカーネル主成分分析、クラスタリング等の変換；スケーリング；正規化；確率的および統計的分析；意味テスト；強度テスト；２次元規則性の探索；隠れマルコフモデリング；等価関係の特定；分割表の適用；グラフ理論原理の適用；ベクトルマップの作成；加算、減算、乗算、除算、多項式の適用、その他代数的変換；比例関係の特定；識別力の決定等である。医療データの範囲において、潜在的意味のある変換は、既知の標準医療参照範囲との連係；生理学的切断；生理学的結合；生化学的結合；発見的規則の適用；診断基準決定；臨床的重み付けシステム；診断的変換；臨床的変換；専門知識の適用；ラベリング技術；他領域の知識の応用；ベイズのネットワーク知識等を含む。特に医療映像に関して、変換は区切り技術を含み、画像中に均一領域を認識し、それを別個の異なる対象に属するものとして認識する。画像区切り技術は、ヒストグラム閾値処理、エッジに基づく区切り、ツリー／グラフに基づく方法、領域成長、塊収縮、クラスタリング、確率またはベイズの方法、区切りのための神経回路網等を含む。これらおよびその他変換は、それらの組合せも含め、当業者には明らかであろう。
【００２７】
さらに当業者には明らかな通り、データ変換は、データ点に次元を追加することなく行っても良い。例えば、１つのデータ点は、座標（Ａ，Ｂ，Ｃ）から成ることができる。このデータ点の変換形は、座標（１，２，３）という結果でも良い。ここで座標「１」は座標「Ａ」とのある既知の関係を有し、座標「２」は座標「Ｂ」とのある既知の関係を有し、座標「３」は座標「Ｃ」とのある既知の関係を有する。文字から数字への変換が必要になる場合もあろう。これは例えば学習マシンが文字を理解しない場合である。他のタイプの変換もデータ点に次元を追加することなく可能であり、これは元データが数字形式の場合もそうである。さらにデータを前処理してそこに意味を付加することは、不完全データ、破損データ、または「汚れた」データを分析することも含む。学習マシンは「汚れた」データを意味のある方法で処理できない。そのため前処理ステップは、データセットをクリーニングまたはフィルタリングし、汚れたデータ点を除去、補修、または置換する。
【００２８】
図１に戻り、方法例１００は次にステップ１０６へ進み、前記前処理したデータを使って学習マシンを教育する。当業者には明らかな通り、学習マシンの教育は、その動作パラメータを調整し、要求教育出力を実現する。教育出力が要求したものであるかの決定は、手動または自動で教育出力と前記教育データの既知特徴とを比較することによって行う。学習マシンは、その教育出力が教育データの既知特徴から所定誤差閾値内にある時、教育されたと見なす。ある状況においては、ステップ１０７において学習マシンの教育出力を後処理することが好ましいが、これは必ずしも必要ではない。前記した通り、学習マシンの出力を後処理することは、その出力を意味のある形式に翻訳することを含む。回帰問題に関しては、例えば学習マシンの出力の範囲カテゴリ化を決定し、入力データ点が正しくカテゴリ化されたかを決定する必要がある。パターン認識問題の例では、学習マシンの教育結果を後処理する必要がないことが多い。
【００２９】
ステップ１０８において、テストデータを任意に収集し、教育した学習マシンのテスト準備をする。テストデータは、１つ以上の局所および／または遠隔ソースから収集できる。実際の場合、テストデータおよび教育データは、同一ソースから同時に収集すればよい。従ってテストデータおよび教育データセットは、共通データセットから分割し、局所記憶媒体に格納し、学習マシン用の異なる入力データセットとして使用できる。テストデータをどのように集めるかにかかわらず、使用するテストデータはいずれもステップ１１０において、教育データと同じ方法で前処理する必要がある。当業者には明らかな通り、学習の適切なテストは、教育データと同一フォーマットのテストデータを使用してのみ行える。次にステップ１１２において、前処理したテストデータがあればそれを使って学習マシンをテストする。学習マシンのテスト出力は、ステップ１１４において任意に後処理し、結果が好ましいものであるかを決定する。ここでも後処理ステップは、テスト出力を意味のある形式に翻訳することを含む。この意味のある形式とは、人が容易に理解できるものか、あるいは他のプロセッサと互換性のあるものである。それとは無関係に、テスト出力は後処理によってテストデータと比較できる形式にし、結果が好ましいものであるかを決定する必要がある。後処理ステップは、例えば次のようなものを含むが、これらに限定するものではない。すなわち最適カテゴリ化決定、スケーリング技術（線形および非線形）、変換（線形および非線形）、確率予測である。方法１００は、ステップ１１６で終了する。
【００３０】
図２は、知識を強化するための方法例２００を示すフローチャートである。この知識は、サポートベクトルマシン（ＳＶＭ）として知られている特定タイプの学習マシンを用いてデータから発見したもので良い。ＳＶＭは、一般化を提供するために特化したアルゴリズムを実行し、限られた収集データから複次元関数を予測する。ＳＶＭが特に有用であるのは、依存性予測問題を解決することである。さらに詳しくは、ＳＶＭを使用することにより、インジケータ関数（例えばパターン認識問題）および実数値関数（例えば関数近似問題、回帰予測問題、密度予測問題、および反転問題解決）を正確に予測できる。ＳＶＭを最初に開発したのはウラジミル・エヌ・バプニクである。ＳＶＭの基本概念の詳細は、彼の書籍「統計的学習理論」（ジョン・ウイリー・アンド・サンズ社、１９９８年）に説明されており、その全てを参照によりここに組み込む。従ってＳＶＭの知識およびそれに関する用語の知識は、本明細書を通して前提となる。
【００３１】
方法例２００は、開始ブロック２０１で始まり、ステップ２０２へ進んで問題を定式化する。次にステップ２０３において教育データセットを収集する。図１に関連して説明した通り、教育データは１つ以上の局所および／または遠隔ソースから手動または自動処理を介して収集できる。ステップ２０４において教育データを任意で前処理する。ここでもデータの前処理は、当該教育データをクリーニングすることによってそのデータ内の意味を鮮明にすること、データを変換および／または拡張することを含む。当業者には明らかな通り、ＳＶＭは極めて大きな次元数を有する入力データを処理できる。実際、入力データの次元数が大きいほど、ＳＶＭが計算できる一般化は良好になる。従って、教育データを拡張しない教育データ変換も可能であるが、ＳＶＭの特定状況においては意味のある情報を追加することによって教育データを拡張することが好ましい。
【００３２】
ステップ２０６においてＳＶＭ用カーネルを選択する。当業者には明らかな通り、カーネルを異ならせれば、ＳＶＭは所定入力データセットに対し、異なる品質の出力を生成する。従って適切なカーネルを選択することは、ＳＶＭの出力を要求品質にするために重要である。学習マシンの一実施例において、カーネルの選択は、以前の性能知識に基づいて行うことができる。当業者には明らかな通り、カーネルの例として、多項式カーネル、ラジアルベース識別子カーネル、線形カーネル等がある。別の実施例において、特定問題または特定タイプのデータセットに特化した専用カーネルを作成しても良い。さらに別の実施例において、各々が異なるカーネルを使う複数のＳＶＭを同時に教育しテストしても良い。同時に教育しテストしたＳＶＭの各出力の品質は、様々な選択可能測定基準または重み付けした測定基準を用いて比較し（ステップ２２２参照）、最も好ましいカーネルを決定する。画像処理の好適実施例は、フーリエカーネルを選択し、幾何学形状認識問題を解く。このフーリエカーネルは、詳細を後述するように、平行移動および回転において不変である。
【００３３】
次にステップ２０８において、前処理した教育データをＳＶＭに入力する。ステップ２１０において、前処理した教育データを用いてＳＶＭを教育し、最適超平面を発生する。オプションとしてＳＶＭの教育出力は、ステップ２１１において後処理しても良い。ここでも、この時点における教育出力の後処理は、好ましいあるいは必要でさえある。これは出力の範囲またはカテゴリを適切に計算するためである。ステップ２１２において、前記データ収集と同様に、テストデータを収集する。このテストデータは、ステップ２１４において、前記教育データと同様の方法で前処理する。次にステップ２１６において、前処理したテストデータをＳＶＭに入力して処理し、ＳＶＭが好ましい方法で教育されたかを決定する。ステップ２１８においてＳＶＭからテスト出力を受け取り、ステップ２２０において任意に後処理する。
【００３４】
後処理したテスト出力に基づきステップ２２２は、ＳＶＭが最適最小値を実現したかを決定する。当業者には明らかな通り、ＳＶＭは大域的最小誤差を有する出力を確認するように動作する。しかしながら前記した通り、所定データセットに関するＳＶＭ出力結果は、一般にカーネル選択により変化する。従って所定データセットに関してＳＶＭが確認する大域的最小値は、実際には複数存在する。ここで使用する「最適最小値」または「最適解」の用語は、ＳＶＭが確認した他の大域的最小値との比較において、最適であるとして選択した大域的最小値（例えば問題に固有であってあらかじめ確立した基準の所定セットに対する最適解）を意味する。従ってステップ２２２において、最適最小値を確認したかを決定することは、ＳＶＭの出力とこれまでの値あるいは所定値とを比較することを含む。このような所定値は、テストデータセットに依存する。例えばパターン認識問題に関しては、ＳＶＭによるデータ点分類は、ある特徴を持っているかあるいはそれを持っていないかであるため、５０％の大域的最小誤差は最適ではない。この例における５０％の大域的最小値は、コインを投げてデータ点が当該特徴を持っているかを決定する時の結果と同じである。別の例として、複数のＳＶＭを異なるカーネルによって同時に教育およびテストする場合、各ＳＶＭの出力を互いに比較し、その特定セットのカーネルに関する実際的最適解を決定する。最適解を確認したかの決定は、手動または自動の比較処理によって行うことができる。
【００３５】
教育したＳＶＭが最適最小値を実現していないと決定されれば、ステップ２２４へ進み、カーネル選択を調整する。カーネル選択の調整は、１つ以上の新しいカーネルを選択すること、またはカーネルパラメータを調整することから成る。さらに、複数のＳＶＭを同時に教育しテストした場合は、選択カーネルを交換または変更すると共に、他のカーネルを制御目的に再使用しても良い。カーネル選択を調整した後、方法２００をステップ２０８から繰り返し、前処理した教育データをＳＶＭに入力して教育する。ステップ２２２において最適最小値が実現したと決定した場合、方法はステップ２２６へ進み、前記したように実データを収集する。当然ながら実データはまだ評価されていないため、教育データおよびテストデータにおいて既知であった所望の出力特徴は、未知である。
【００３６】
ステップ２２８において、教育データおよびテストデータと同様の方法で、実データを前処理する。ステップ２３０において、前処理した実データをＳＶＭに入力して処理する。ＳＶＭの実出力をステップ２３２において受け取り、それをステップ２３４において後処理する。学習マシンの一実施例において、後処理は、前記ＳＶＭの出力を計算によって得られる英数字識別子に変換し、人またはコンピュータが解釈できるようにすることから成る。前記英数字識別子は、人またはコンピュータが容易に理解できる単一値から成ることが好ましい。方法２００は、ステップ２３６で終了する。
【００３７】
図３は、最適カテゴリ化方法の一例３００を示すフローチャートである。この方法３００は、データの前処理、または学習マシンからの出力の後処理に使用できる。また後述するように、本例の最適カテゴリ化方法は、学習マシンから離れ、スタンドアロンカテゴリ化技術として使用しても良い。最適カテゴリ化方法例３００は、開始ブロック３０１で始まり、ステップ３０２へ進んで入力データセットを受け取る。この入力データセットは、連続変数からの一連のデータサンプルから成る。このデータサンプルは、２つ以上の分類カテゴリに入る。次にステップ３０４において、ビン変数およびクラス追跡変数を初期化する。当業者には明らかな通り、ビン変数は解像度に関係し、クラス追跡変数はデータセット内の分類数に関係する。ビン変数およびクラス追跡変数の初期値を決定することは、手動であるい自動処理で実行できる。この自動処理は、例えば入力データセットを分析するためのコンピュータプログラムである。ステップ３０６において、各ビン用のデータエントロピを計算する。エントロピは数学的量であり、無作為分布の不確実さを測定するものである。方法例３００において、エントロピを使用して入力変数の傾斜を測定し、最大分類能力を実現する。
【００３８】
方法３００は、連続変数上に一連の「切れ目」を作成し、連続変数を独立したカテゴリに分割する。方法例３００が選択する切れ目は、結果としての各独立カテゴリの平均エントロピが最小になることにおいて最適である。ステップ３０８において、連続変数から成る入力データセットに全ての切れ目を配置したかを決定する。全ての切れ目が置かれていなければ、ステップ３１０において、順次ビン組合せを切断決定に関してテストする。方法例３００は、ステップ３１０からステップ３０６を経由してステップ３０８へ戻り、連続変数から成る入力データセット内に全ての切れ目が置かれたかを再び決定する。全切れ目が置かれていれば、システム全体のエントロピをステップ３０９において評価し、より多くのまたはより少ない切れ目をテストした以前の結果と比較する。最小エントロピ状態が決定されたと結論できなければ、別の可能な切れ目選択を評価する必要があり、方法はステップ３１１へ進む。ステップ３１１から、まだテストしていない切れ目を選択し、ステップ３０４からの前記処理を繰り返す。ビン幅によって決まる解像度限界までテストを行うか、あるいは最小解への収束を確認すれば、ステップ３１２において最適分類基準を出力し、ステップ３１４において最適カテゴリ化方法例３００を終了する。
【００３９】
最適カテゴリ化方法３００は、ダイナミックプログラミング技術を利用する。当業者には明らかな通り、ダイナミックプログラミング技術を使用することにより、複雑問題の解決効率を著しく向上できる。これは慎重にアルゴリズムを構成して冗長計算を減らすことにより実現する。最適カテゴリ化問題において、直接的な方法により多大な努力で可能な切れ目の全てを連続変数中に探すことは、アルゴリズムを指数関数的に複雑にし、中程度サイズの入力に対してさえ問題を追跡不能にする恐れがある。目的関数の追加特性、すなわち本問題における平均エントロピを利用することにより、問題を一連のサブ問題に分割できる。各サブ問題を解決するためのアルゴリズム的サブ構造を適切に構築し、サブ問題の解を格納すれば、極めて多量の冗長計算を特定しそれを避けることができる。ダイナミックプログラミング方法を使用する結果、最適カテゴリ化方法例３００は、１つの多項式の複雑さを有するアルゴリズムとして実現でき、これを使用して大型サイズの問題を解決できる。
【００４０】
前記した通り、最適カテゴリ化方法例３００を使用してデータの前処理および／または学習マシン出力の後処理を行える。例えば、前処理変換ステップとして最適カテゴリ化方法例３００を使用し、実データから分類情報を抽出できる。後処理技術として最適カテゴリ化方法例３００を使用し、データに客観的に基づいたマーカ用最適カットオフ値を決定できる。これを特別な方法に頼らずに行える。明らかな通り、最適カテゴリ化方法例３００は、パターン認識、分類、回帰問題等に応用できる。最適カテゴリ化方法例３００はまた、スタンドアロンカテゴリ化技術として、ＳＶＭや他の学習マシンから独立して使用できる。最適カテゴリ化方法３００のスタンドアロン提供の例は、図７を参照して説明する。
【００４１】
画像分析に使用するデータの前処理例において、画像区切ることは、背景から対象を分離し、元画像の顕著な特徴を強調する手段を提供する。医療分野においては特に頻繁であるが、２つ以上の対象が重なりあるいは群れていることがある。例えば２次元ゲル画像分析において、いくつかの点が群れていることがある。細胞画像において、各細胞が重なっていることがある。乳房エックス線写真において、石灰沈着および塊が重なることがある。このような場合、対象物の分離は効果的な分析システムにとって重要である。
【００４２】
図５ａを参照すると、２つの部分的に重なった塊５０２および５０４がグレイスケール画像として示されている。一実施例において、「重力」モデルを反復的にそのグレイスケール画像に適用し、前記塊を収縮する。デジタル画像においては、画素値は「塊」値と見なし、塊中の重力を収縮動作に使用する。この処理は、星および惑星形成過程に似ている。最初広く拡散している塊５０２および５０４は、重力モデルの下で収縮し、それぞれの質量中心へ向かい、２つの密集し良好に形成した物体を図５ｂの５０２’および５０４’のように形成する。この方法は、画像自体における自然パターンによって実行する。画像の特徴に関する事前情報は必要ない。重力モデルは、ノイズおよび異常値の影響を受けない。しかも汎用的であり、画素動作に関する閾値を調整するだけで、異なるタイプの画像に適用できる。一般原理において、重力モデルは、画像区切りにおいて知られている領域成長アルゴリズムの反転と考えても良い。すなわち、「種」から拡張する代わりに、対象物を「種」へと収縮し、はっきりした種を特定できる。あるいは他の既知の画像区切りアルゴリズムを使用し、画像データを前処理し、画像分析処理を強化しても良い。
【００４３】
図４は、未拡張データセット４００の一例を示す。このデータセットは、サポートベクトルマシンの入力として使用できる。このデータセット４００を「未拡張」と呼ぶ理由は、そこに何の追加情報も加えていないからである。図示の通り、この未拡張データセットは、教育データセット４０２と、テストデータセット４０４とから成る。未拡張教育データセット４０２と未拡張テストデータセット４０４とは、共に例えばデータ点４０６等のデータ点からなり、医療被験者からの臨床履歴データに関係している。本例において、データセット４００を使用し、ＳＶＭを教育し、乳癌患者が再発を経験するか否かを決定する。
【００４４】
各データ点は、４０６ａ〜ｆで示す通り、５つの入力座標または次元と、出力分類とを含む。これらは、各患者について集めた医療データである。特に第１座標４０６ａは「年齢」を表し、第２座標４０６ｂは「エストロゲンレセプタレベル」を表し、第３座標４０６ｃは「プロゲステロンレセプタレベル」を表し、第４座標４０６ｄは「総抽出リンパ節」を表し、第５座標４０６ｅは「陽性（癌性）抽出リンパ節」を表し、出力分類４０６ｆは「再発分類」を表す。データ４００の重要既知特徴は、出力分類４０６ｆ（再発分類）であり、本例においては、医療被験者が治療に対して肯定的に応答し癌の再発が無かった（−１）か、あるいは否定的に応答し癌の再発があった（１）かを示す。この既知特徴は、教育データを処理しながらのＳＶＭ学習に使われ、ＳＶＭにテストデータを入力して評価する「ブラインド」テストに使われ、医療患者の実データにおいては明らかに未知である。
【００４５】
表２は、図４に示した未拡張教育データセット４０２によって教育し未拡張データセット４０４によってテストしたＳＶＭのテスト出力例を示す。
【表２】

テスト出力は後処理し、人またはコンピュータが理解できるようにした。この表に依れば、テスト出力が示していることは、ＳＶＭによって合計２４サンプル（データ点）を検査し、ＳＶＭは８の陽性サンプルの内４（５０％）を不正確に識別した。すなわち陽性サンプルを陰性と認めた。そして１６の陰性サンプルの内６（３７．５％）を不正確に識別した。すなわち陰性サンプルを陽性と認めた。
【００４６】
図６は、拡張データセット例６００を示す。これはサポートベクトルマシンの入力として使用できる。このデータセット６００を「拡張」と呼ぶ理由は、追加情報がそこに加わっているからである。追加情報を別にすれば、拡張データセット６００は図４に示した未拡張データセット４００と同一である。拡張データセットに加えた追加情報は、図３に関連して説明した最適カテゴリ化方法例３００を用いて供給した。図示のように、拡張データセットは教育データセット６０２とテストデータセット６０４とを備える。拡張教育データセット６０２と拡張テストデータセット６０４とは共に、例えばデータ点６０６のようなデータ点からなり、医療被験者の履歴データに関係する。ここにおいてもデータセット６００を使用してＳＶＭを教育し、乳癌患者が疾病の再発を経験するかを学習させる。
【００４７】
最適カテゴリ化方法例３００の適用において、各拡張データ点は、２０の座標（または次元）６０６ａ１〜３から６０６ｅ１〜３までと出力分類６０６ｆとを含み、これらは包括的に各患者の医療データとそのカテゴリ化変換を表す。特に第１座標６０６ａは「年齢」を表し、第２座標から第４座標６０６ａ１〜６０６ａ３は変数であり、その組み合わせによって年齢のカテゴリを表す。例えば、年齢範囲のカテゴリ化は「若年」、「中年」、および「老年」のカテゴリであり、データ中の年齢範囲に対応している。図示のように、変数列「０」（６０６ａ１）、「０」（６０６ａ２）、「１」（６０６ａ３）を使って、ある年齢の値が「老年」にカテゴリ化されることを示す。同様に変数列「０」（６０６ａ１）、「１」（６０６ａ２）、「０」（６０６ａ３）を使って、ある年齢の値が「中年」にカテゴリ化されることを示す。また変数列「１」（６０６ａ１）、「０」（６０６ａ２）、「０」（６０６ａ３）を使って、ある年齢の値が「若年」にカテゴリ化されることを示す。図６を調べると、６０６ａの「年齢」範囲の値の最適カテゴリ化は、方法例３００を使用すると、３１〜３３＝「若年」、３４＝「中年」、３５〜４９＝「老年」と決定したことが分かる。他の座標、すなわち座標６０６ｂ「エストロゲンレセプタレベル」、座標６０６ｃ「プロゲステロンレセプタレベル」、座標６０６ｄ「総抽出リンパ節」、座標６０６ｅ「陽性（癌性）抽出リンパ節」も、各々同様の方法で最適にカテゴリ化する。
【００４８】
表３は、図６の拡張教育データセット６０２で教育し拡張データセット６０４でテストしたＳＶＭからの拡張テスト出力例を示す。
【表３】

テスト出力は後処理し、人またはコンピュータが理解できるようにした。ここに示す通り、拡張テスト出力が示していることは、ＳＶＭによって合計２４サンプル（データ点）を検査し、ＳＶＭは８の陽性サンプルの内４（５０％）を不正確に識別し、１６の陰性サンプルの内４（２５％）を不正確に識別した。従って、この拡張テスト出力と表２の未拡張テスト出力とを比較すれば、データ点の拡張は結果を向上させる（すなわち大域的最小誤差が低くなる）ことが分かる。特に不必要に継続癌治療を受ける患者の事例を減らせる。
【００４９】
図７は、図３で説明した最適カテゴリ化方法３００のスタンドアロンアプリケーションに対する入力例および出力例を示す。図８の例において、入力データセット８０１は、「陽性リンパ節数」８０２と対応する「再発分類」８０４とから成る。この例において、最適カテゴリ化方法３００を入力データセット８０１に適用し、最適カットオフ点の位置を決め、癌再発用治療を決定する。これは術後組織サンプルから集めた陽性リンパ節数のみに基づいて行う。良く知られている臨床基準は、少なくとも３つの陽性節を持つ全ての患者に対し治療を処方することである。しかしながら最適カテゴリ化方法３００は、入力データ８０１に基づく最適カットオフが、表４に示すように、より高い値の５．５個のリンパ節であるべきことを示す。この数字は、少なくとも６個の陽性リンパ節を有する患者に追跡治療を処方する臨床規則に対応する。
【表４】

下記の表５に示す通り、臨床カットオフ点（≧３．０）を受け入れた従来技術は、正しく分類した再発４７％、正しく分類した非再発７１％であった。
【表５】

すなわち、再発の５３％を間違って分類し（さらなる治療を不適切に推奨しなかった）、非再発の２９％を間違って分類した（さらなる治療を誤って推奨した）。これに反し、最適カテゴリ化方法３００が決定したカットオフ点（≧５．５）は、正しく分類した再発３３％、正しく分類した非再発９７％であった。すなわち、再発の６７％を誤って分類し（さらなる治療を不適切に推奨しなかった）、非再発の３％を誤って分類した（さらなる治療を誤って推奨した）。
【００５０】
この例が示すように、最適カテゴリ化方法例３００を使うことにより、術後癌治療法を避けることができる患者を正しく特定する事例を高くできるであろう。最適カテゴリ化方法３００が決定したカットオフ点は、再発について誤って分類したパーセントがやや高いものの、誤って非再発に分類したパーセントが極めて低い。相殺して考えれば、また最適化問題の目標は不必要な治療を避けることであることを考えれば、最適カテゴリ化方法３００が決定したカットオフ点の結果は、従来技術の臨床カットオフ点よりも数学的に優れている。この種の情報は、化学療法等の治療を行うか、あるいは乳癌再発の危険を犯すかを選択する患者に対し、追加の識見を与える上で極めて有用である。
【００５１】
表６は、線形カーネルから成る第１サポートベクトルマシンと多項式カーネルから成る第２サポートベクトルマシンとからの後処理出力例を比較して示す。
【表６】

表６は、カーネル選択における変動がＳＶＭ出力の品質レベルに影響を与えることを示している。ここに示す通り、第１ＳＶＭの後処理出力（列Ｉ）は、線形内積カーネルから成り、２４サンプルの所定テストセットについて、８の陽性サンプル中６を誤って識別し、１６の陰性サンプル中３を誤って識別した。これと比較し第２ＳＶＭの後処理出力（列ＩＩ）は、多項式カーネルから成り、同一テストセットについて、８の陽性サンプル中わずか２を誤って識別し、１６の陰性サンプル中４を誤って識別した。この比較によれば、多項式カーネルは、陽性サンプルの識別に関して極めて向上した結果を提供し、陰性サンプルの識別においてわずかに悪い結果を提供した。このように、当業者には明らかな通り、このデータセットについては、多項式カーネルに関する大域的最小誤差は線形カーネルに関する大域的最小誤差よりも低い。
【００５２】
図８および以下の説明は、本発明のコンピュータ利用画像分析を実施するための適切なコンピューティング環境を簡単に全体的に示す。図８に示すシステムは、従来のパーソナルコンピュータ１０００であるが、当業者には明らかな通り、本発明は他のタイプのコンピュータシステム構成を用いても実施できる。コンピュータ１０００は、中央処理装置１０２２と、システムメモリ１０２０と、入出力（Ｉ／Ｏ）バス１０２６とを含む。システムバス１０２１は、中央処理装置１０２２をシステムメモリ１０２０へ接続する。バスコントローラ１０２３は、Ｉ／Ｏバス１０２６上のデータフローと、中央処理装置１０２２と各種内部および外部Ｉ／Ｏ装置との間のデータフローとを制御する。Ｉ／Ｏバス１０２６に接続したＩ／Ｏ装置は、ダイレクトメモリアクセス（ＤＭＡ）コントローラ１０２４を用いて、システムメモリ１０２０への直接アクセスを有しても良い。
【００５３】
Ｉ／Ｏ装置は、装置インタフェースセットを介してＩ／Ｏバス１０２６に接続する。この装置インタフェースは、ハードウエア部品とソフトウエア部品とを共に含むことができる。例えばハードディスク装置１０３０や、取り出し可能媒体１０５０を読み書きするためのフロッピーディスク装置１０３２を、ディスク装置コントローラ１０４０を介してＩ／Ｏバス１０２６に接続しても良い。光学媒体１０５２を読み書きするための光学ディスク装置１０３４を小型コンピュータシステムインタフェース（ＳＣＳＩ）１０４１を用いてＩ／Ｏバス１０２６に接続しても良い。あるいはＩＤＥ（インテグレーテッド・ドライブ・エレクトロニクス、すなわちＰＣ用ハードディスク装置インタフェース）、ＡＴＡＰＩ（アタッチメント・パケット・インタフェース、すなわちＣＤ−ＲＯＭおよびテープ装置インタフェース）、またはＥＩＤＥ（強化ＩＤＥ）インタフェースを、例えばＣＤ−ＲＯＭ装置等の光学装置に関連させても良い。これら装置および関係するコンピュータ読み取り可能媒体は、コンピュータ１０００に不揮発性記憶を提供する。前記したコンピュータ読み取り可能媒体に加え、例えばＺＩＰ装置等の他のタイプのコンピュータ読み取り可能媒体を使用することもできる。
【００５４】
表示装置１０５３は、例えばモニタであり、ビデオアダプタ１０４２等の他のインタフェースを介してＩ／Ｏバス１０２６に接続する。パラレルインタフェース１０４３は、レーザプリンタ１０５６等の同期周辺装置をＩ／Ｏバス１０２６に接続する。シリアルインタフェース１０４４は、通信装置をＩ／Ｏバス１０２６に接続する。ユーザは、コンピュータ１０００にコマンドや情報を入力する際、シリアルインタフェース１０４４を経由するか、キーボード１０３８、マウス１０３６、モデム１０５７等の入力装置を使用する。他の周辺装置（図示せず）、例えば音声入出力装置や画像キャプチャ装置をコンピュータ１０００に接続することもできる。
【００５５】
多数のプログラムモジュールを前記装置やシステムメモリ１０２０に格納できる。システムメモリ１０２０は、ランダムアクセスメモリ（ＲＡＭ）およびリードオンリメモリ（ＲＯＭ）を含むことができる。プログラムモジュールは、コンピュータ１０００の機能方法、ユーザ、Ｉ／Ｏ装置、または他のコンピュータとの相互作用方法を制御する。プログラムモジュールは、ルーチン、オペレーティングシステム１０６５、アプリケーションプログラム、データ構造、および他のソフトウエアまたはファームウエア部品を含む。一実施例において、学習マシンは１つ以上の前処理プログラムモジュール１０７５Ａ、１つ以上の後処理プログラムモジュール１０７５Ｂ、および／または１つ以上の最適カテゴリ化プログラムモジュール１０７７および１つ以上のＳＶＭプログラムモジュール１０７０から成ることができ、これらは駆動装置またはコンピュータ１０００のシステムメモリ１０２０に格納する。特に前処理プログラムモジュール１０７５Ａ、後処理プログラムモジュール１０７５Ｂ、ＳＶＭプログラムモジュール１０７０は、コンピュータ実行可能命令から成ることができ、データを前処理し、学習マシンからの出力を後処理し、図１および２を参照して説明した方法例に基づく学習アルゴリズムを実行する。さらに最適カテゴリ化プログラムモジュール１０７７は、コンピュータ実行可能命令から成ることができ、図３を参照して説明した方法例に基づいてデータセットを最適にカテゴリ化する。
【００５６】
コンピュータ１０００は、遠隔コンピュータ１０６０等の１つ以上の遠隔コンピュータへの論理接続を使用するネットワーク環境で動作できる。遠隔コンピュータ１０６０は、サーバ、ルータ、ピア装置、あるいは他の共通ネットワークノードで良く、代表的にコンピュータ１０００に関連して説明した要素の多くまたは全てを含む。ネットワーク環境において、プログラムモジュールおよびデータは、遠隔コンピュータ１０６０に格納しても良い。図８に示す論理接続は、ローカルエリアネットワーク（ＬＡＮ）１０５４およびワイドエリアネットワーク（ＷＡＮ）１０５５を含む。ＬＡＮ環境において、ネットワークインタフェース１０４５は、例えばイーサネットアダプタカードであり、コンピュータ１０００を遠隔コンピュータ１０６０に接続するために使える。ＷＡＮ環境において、コンピュータ１０００は、モデム１０５７等の電話通信装置を用いて接続を確立できる。明らかな通り、図示のネットワーク接続は一例であり、他の装置を使ってコンピュータ間の通信リンクを確立しても良い。
【００５７】
他の実施例において、複数のＳＶＭを使い、複数のデータセットを階層的に平行または順次処理するように構成しても良い。特に１つ以上の第１レベルＳＶＭを教育およびテストして第１タイプのデータを処理し、１つ以上の第１レベルＳＶＭを教育およびテストして第２タイプのデータを処理することができる。さらに別のタイプのデータを他の第１レベルＳＶＭで処理することもできる。これら第１レベルＳＶＭのいくつかあるいは全ての出力は、論理方法において結合し、１つ以上の第２レベルＳＶＭ用入力データセットを作成する。同様の方法において、複数の第２レベルＳＶＭの出力は、論理方法において結合し、１つ以上の第３レベルＳＶＭ用入力データを作成する。ＳＶＭの階層は、適切な範囲においていかなる数のレベルにでも拡張できる。このように、低階層レベルＳＶＭを使用して高レベルＳＶＭへ入力するデータを前処理する。また高階層レベルＳＶＭを使用して、低階層レベルＳＶＭからの出力データを後処理する。
【００５８】
階層内の各ＳＶＭあるいはＳＶＭの各階層レベルは、別個のカーネルで構成しても良い。例えば第１タイプのデータを処理するためのＳＶＭは、第１タイプのカーネルで構成し、第２タイプのデータを処理するためのＳＶＭは第２の別タイプのカーネルを使用しても良い。さらに同一または異なる階層レベル内の複数のＳＶＭは、別個のカーネルを使って同一タイプのデータを処理するように構成しても良い。
【００５９】
図９は、ＳＶＭの階層システムの例を示す。図示のように、１つ以上の第１レベルＳＶＭ１３０２ａおよび１３０２ｂを教育およびテストして第１タイプの入力データ１３０４ａを処理する。このデータは、例えば乳房エックス線写真データであり医療被験者に関係する。１つ以上のこれらＳＶＭは、別個のカーネルから成り、カーネル１およびカーネル２と示す。また１つ以上の追加の第１レベルＳＶＭ１３０２ｃおよび１３０２ｄを教育およびテストして第２タイプのデータ１３０４ｂを処理する。このデータは、例えば細胞学試料のゲノムデータまたは画像であり、同一または異なる医療被験者のものである。またこれら１つ以上の追加ＳＶＭは、個別カーネルから成り、カーネル１およびカーネル３と示す。各第１レベルＳＶＭからの出力は、互いに比較する。例えば１３０６ａと１３０６ｂを比較し、１３０６ｃと１３０６ｄを比較し、最適出力１３０８ａおよび１３０８ｂを決定する。次に２グループの第１レベルＳＶＭからの最適出力１３０８ａおよび１３０８ｂを結合し、新しい多次元入力データセット１３１０を形成する。これは例えば乳房エックス線写真とゲノムデータに関係する。新しいデータセットは、１つ以上の適切に教育しテストした第２レベルＳＶＭ１３１２ａおよび１３１２ｂによって処理する。第２レベルＳＶＭ１３１２ａおよび１３１２ｂからの結果出力を比較し、最適出力１３１６を決定する。最適出力１３１６は、乳房エックス線写真とゲノムデータ点間の原因関係を識別するであろう。当業者には明らかな通り、他の組合せの階層ＳＶＭを使用し、データ分析を必要とする分野あるいは業界における異なるタイプのデータを平行にあるいは連続に処理することもできる。
【００６０】
画像分析への応用において、複数ＳＶＭを使用し、デジタル化画像から抽出する異なるタイプのデータを処理する。異なるタイプのデータは、画像から見つかる対象の異なる特徴あるいは品質であり、例えばサイズ、形状、密度、量、方位等である。以下の例は、複数ＳＶＭを画像分析、特に乳房エックス線写真を分析して乳癌を診断する応用例である。
【００６１】
乳房組織における石灰沈着は懸念材料である。なぜならそれは、ある構成において癌腫に関係するからである。乳房エックス線写真によって識別した微小石灰沈着のコンピュータ利用検出および分類は、画像分析分野において重要な関心領域である。（例えばＩＷＤＭ２０００、第５回デジタル乳房エックス線写真国際研究会の概要参照）。乳房エックス線写真の通常選別では、かなりのパーセントにおいて何らかの石灰沈着を示すので、全ての石灰沈着を単に検出することはほとんど利益がない。なぜなら全てのタイプの石灰沈着が同一の臨床的意味を持っているわけではないからである。一般に、微小石灰沈着は悪性経過に関係し、巨大石灰沈着は良性経過に関係している。しかしながら石灰沈着の他の特徴は、良性または悪性の形状、数、および分布等に関係していることを示すことがある。従って、良性石灰沈着と癌に関係するものとを区別する性能は、乳房エックス線写真のコンピュータ利用画像分析において成功の鍵である。
【００６２】
疑わしい異常に関する２つの追加カテゴリは塊と構造的変形とであり、これらが乳房エックス線写真に見られた場合、悪性腫瘍の存在の可能性がある。塊は、３次元病変であり、癌の局所的指標である。塊は、その位置、サイズ、形状、縁特徴、エックス線減衰（放射線濃度）、周囲組織への影響によって説明する。構造的変形は、通常組織パターンの病巣崩壊である。放射線写真において、崩壊は、周囲組織が病巣中心内へ「内側に引っ張られる」ように現れる。
【００６３】
図１０は、本発明に基づくＳＶＭを使った乳房エックス線写真分析用基本分析手順を示すフローチャートである。デジタル化した乳房エックス線写真画像１１０２をプロセッサに入力し、検出部１１０４は画像１１０２内の注目領域（対象）を発見し、区切ることによってこれら対象を背景から分離する。特徴抽出部１１０６は、区切った対象から、分類タスクに関係する数値を作成する。ＳＶＭ分類器１１０８は、良性と悪性とを区別するインデックスを作成する。
【００６４】
乳房エックス線写真に関する本発明の画像分析システムおよび方法の実施例の実行は、３つのＳＶＭ利用検出サブシステムを石灰沈着１２０２、塊１２０４，および構造的変形１２０６に使用する。これらの各々は、図１１に示すように、デジタル化した乳房エックス線写真画像１２０１を入力として受け取る。３つのサブシステムの各々は別々に開発するが、各サブシステムの基本構造は同様である。３つのサブシステムの出力は、別のＳＶＭ１２５０に入力し、全体分析を行い、最終出力を提供する。この最終出力は、本例の場合、悪性腫瘍の存在あるいは不在を示す診断である。
【００６５】
３つのサブシステムの各々において、検出部は画像中に注目領域を発見し、対象を背景から分離する。特徴抽出部は、区切った対象から分類タスクに関係する数値を作成する。ＳＶＭ分類器は、良性と悪性とを区別するインデックスを作成する。
【００６６】
各部はモジュール構造であるため、平行して開発できる。（例えば図８のモジュール１０７０参照）。例えば、石灰沈着区切り部１２０２を開発する場合、広範囲の画像を代表する悪性、良性、および通常状態の選択セットを使い、設計を行い、テストし、汎用で堅固正確なアルゴリズムを作成する。同時に、ＳＶＭ分類器１２４２は、手動で準備した入力データによって開発およびテストする。３００画像（良性１５０、悪性１５０）のセットを使ってＳＶＭを教育した。３２８画像の独立セットを使ってテストした。高次元入力特徴を用い、自動抽出した特徴について十分な性能を確認した。各部は、統合し調整して最適性能を出すようにする。
【００６７】
石灰沈着検出サブシステム１２０２において、石灰沈着を発見する第１ステップは、画像データを処理し、乳房エックス線写真上に輝点を見つけることである。すなわち石灰沈着を区切ることである（ステップ１２１２）。好適実施例において、この方法は２次元離散関数Ｆ（ｘ，ｙ）の極値を見つけることを含む。乳房エックス線写真がグレイスケール画像から成るとすれば、問題は画像中の白点と黒点とを区別することを含む。この問題を解決する従来方法は、各点（ｘ，ｙ）例えばピクセルに関して、ある点の値Ｆ（ｘ，ｙ）が全ての隣接点における値より低くないかを決定することである。コンピュータ内の画像は、各点（ピクセル）について８個の隣接点を有する。極小および極大を特定するための他の従来方法は、関数Ｆ（ｘ，ｙ）が決定した全点（ｘ，ｙ）にガウスフィルタを適用することを含む。本問題を解決する他の方法は、極値を見つけることを含むが、既知方法の全ては、１）各点において多くの計算を行うことを求め、２）画像中の全点（ピクセル）に適用しなければならない。その結果、これらアルゴリズムは、非常に時間が掛かる。
【００６８】
本発明の一態様において、２次元離散関数の極値を見つける方法は、全点（ｘ，ｙ）の検査を避けることにより、処理時間を劇的に減らす。特に極大および極小は、画像中の点を用いて決定し、輝度のピクセル毎の評価を行わない。画像中の点は、一連の輝度閾値と比較し、複数のビットマップを発生する。この方法のグレイスケール画像の一例を図１２に示す。当然ながら、コンピュータ内の画像の輝度Ｆ（ｘｉ，ｙｊ）は、離散関数である。輝度は、輝度のレベル数をＮ（例えばＮ＝３２または１６または他の値）に減少することによりさらに区別できる。次にグレイ画像をＮ個の２値（黒（１）および白（０））画像（ビットマップ）のセットに変換する。ビットマップＬ（Ｌ＝１，２，．．．Ｎ）において、ピクセルは、初期画像Ｆの対応するピクセルの輝度がＦＬより大きければ、黒である。ここでＦＬ＝（Ｌ−１）・（Ｆｍａｘ−Ｆｍｉｎ）／Ｎである。そうでなければピクセルは白である。図１２を参照すると、右の画像の黒い中心は、最高レベルビットマップ（レベルＮ）にマップされ、極大に対応する。次に低いレベルのビットマップ（レベルＮ−１）は、別の閾値を定義し、レベルＮ−１を越える曲線上の値は、Ｎ−１レベルビットマップに関して黒である。この結果、２タイプの点が識別される。これら点は、レベルＮを越える値を持つものと、レベルＮ−１を越える値を持つものである。レベルＮを越える輝度レベルを持つ点は、レベルＮ−１ビットマップにも含まれることになる。これら点を区別するため、２つのビットマップ（レベルＮとレベルＮ−１）を重ねる。第１タイプの点はレベルＮ−１上の点であり、「ボトム点」と呼ぶ。レベルＮ−１ビットマップ上の残りの点は、図１２に示す通り、「トップ点」を表す。ボトム点は、トップ点の極大の曲線の傾斜を表す。この処理は、レベルＮ−２からのビットマップとレベルＮ−１からのビットマップとを重ねることによって繰り返し、これらレベルにおいて新しいトップ点とボトム点、例えば（Ｎ−１）トップ点と（Ｎ−２）ボトム点を識別する。この処理をさらに繰り返し、全極大すなわちトップ点と、ボトム点とをＮレベルの各々について見つける。これによって画像のピクセル毎の分析を実行する必要がなくなる。
【００６９】
石灰沈着は、輝点の幾何学的配置を説明することによって分類できる。点の幾何学的配置を分析する方法は、連続特徴の高速計算について説明した前記ビットマップに基づく。例えば、点に対応する傾斜を分析し、ある背景特徴を区別できる。低傾斜を有する点は、血管の交点または接続する組織によって生成されることが分かっている。一方、極めて急な傾斜を有する点は、主に人工物（エマルジョンの障害）によって発生する。傾斜を予測するため、極大に対応する点の境界または外周、すなわち「上縁」を使用する。そして傾斜を表す点の境界または外周、すなわち「下縁」を使用する。上縁と下縁との間の輝度差は分かっている（（Ｆｍａｘ−Ｆｍｉｎ）／Ｎ）ため、これら縁間の距離（例えばピクセル数）は、傾斜の値に比例する。このため、傾斜の決定は、極めて低い計算コストで行える。なぜなら、輝点（極大）を探すための前記ステップにおいて既に準備した２値ビットマップを使うからであり、追加で必要となるのは、境界間のピクセル数を数えることだけである。ここで注意すべきは、点は非対称であって形状が不規則であることが多いため（特に悪性腫瘍に関係しているものは）、この距離は方向が異なると異なる。従って傾斜は、方向毎に異なることがある。
【００７０】
石灰沈着検出サブシステム１２０２の他の側面は、各点を石灰沈着あるいは非石灰沈着に分類することである。この目的のため、点のいくつかの特徴を計算する。例えば、１）トップ点の面積、２）ボトム点の面積、３）上縁の長さ、４）下縁の長さ、５）トップ点に関する面積対境界比率、６）ボトム点に関する面積対境界比率である。ただしこれらに限定するものではない。石灰沈着を他の輝点から分けるため、ＳＶＭマシンに基づくパターン認識技術を使用する。
【００７１】
画像解釈のほとんどの問題において、画像の各部の状況を考慮する必要がある。これは、乳房エックス線写真中に石灰沈着を識別する問題においても当てはまる。与えられたレベルＬの輝点の周囲領域の少なくとも３つの特徴を考慮しなければならない。すなわち１）トップ点を中心として半径ＲＩの円に入るレベルＬ−１の点の合計面積、２）石灰沈着のより明白な特徴と他の対象との近接性、３）その点は血管上に位置しているか、である。（血管石灰沈着は、血管に沿って走る平行軌跡または線形管状石灰沈着として見ることができ、代表的に良性と分類される）。このような非局所的方法の結果、次のような石灰沈着探索手順を使用する。
【００７２】
Ａ．輝点を探す。
【００７３】
Ｂ．幾何学的特徴を計算する。
【００７４】
Ｃ．ＳＶＭを使って顕著な石灰沈着を認識する。
【００７５】
Ｄ．石灰沈着認識用基準を緩和し、これら基準を顕著な石灰沈着の近辺に適用する。
【００７６】
Ｅ．「石灰沈着」が血管上に位置しているかを決定し、そうであればそれを削除する。
【００７７】
以下は、ステップＥにおいて血管を識別するための方法を提供する。この目的のため、各２値ビットマップ上の各点を次のように分析する。
【００７８】
Ｅ１境界ピクセルを探す。
【００７９】
Ｅ２対向する境界（左右境界、または上下境界）に共通なカーネルピクセルを保持する。
【００８０】
Ｅ３上境界に属するカーネルピクセルを削除する。
【００８１】
Ｅ４境界ピクセルを探す。
【００８２】
Ｅ５右境界に属する境界ピクセルを削除する。
【００８３】
Ｅ６境界ピクセルを探す。
【００８４】
Ｅ７下境界に属する境界ピクセルを削除する。
【００８５】
Ｅ８境界ピクセルを探す。
【００８６】
Ｅ９左境界に属する境界ピクセルを削除する。
【００８７】
Ｅ１０Ｅ１に戻って全ステップを繰り返すことにより、ビットマップ上の全ピクセルをカーネルピクセルにする。
【００８８】
ステップＥ１〜Ｅ１０の手順は、血管を識別するものであり、全体に帯状の各点、すなわち血管のように長い点を、中心線（接続したピクセルのセット）に見えるように変換する。すなわち図１３の上図に示すように、帯の「骨格」のようにする。帯状でない点については、すなわち血管でないものについては、ステップＥ１〜Ｅ１０に基づいて決定したカーネルピクセルのセットが適切な長さの接続線を形成しないので、そのような点は血管ではないことを示す。例えば図１３の下図である。
【００８９】
微小石灰沈着の群れは、比較的小サイズであり高密度であるという特徴がある。アルゴリズムは、回帰ピーク探索技術と形態的動作とを組合せ、極めて正確な石灰沈着検出と区切りとを実現する。
【００９０】
好適実施例に基づく区切りは、重なったあるいは接近した対象を区別するために行うもので、図５を参照して説明した通りであるため、説明を繰り返さない。しかしながら簡単に説明すれば、重なった石灰沈着を特定した場合、重力モデルを適用し、それら対象を縮小し、判別できるようにする。
【００９１】
石灰沈着の区切り（ステップ１２１２）の後、局所ＳＶＭ分析器１２２２は、区切りアルゴリズムが検出した各石灰沈着の特徴を分析する。石灰沈着が悪性腫瘍に関係しているかを定量的に測定することは、ＳＶＭが行う。第１段階局所ＳＶＭ分析器１２２２からの全評価を第２段階ＳＶＭ１２４２が使用し、より大域的な群れの評価を行う。
【００９２】
あるＳＶＭに関して、入力データは同一次元数を有さねばならない。区切った石灰沈着はサイズが異なるため、適切な変換を行って様々なサイズの画像部分を固定次元形式に変換する必要があり、これを重要情報を失わずに行わねばならない。以下の変換手順は、石灰沈着の輪郭を固定次元ベクトルに変換する。これを図１４に示す。
【００９３】
１．石灰沈着９００の質量中心９０２を計算する。
【００９４】
２．質量中心９０２を極座標系の原点として使用し、石灰沈着の輪郭をｎ個の等間隔角度でサンプル抽出する。これにより、ｎ個の半径測定９０４が得られ、これらはｎ個の次元ベクトル［ｒ１，ｒ２，Ｋ，ｒｎ］を形成する。
【００９５】
３．ステップ２で得たベクトルに離散フーリエ変換を適用する。その結果としてのｎ次元複素ベクトルをＳＶＭへの入力として使用する。
【００９６】
ｎは、半径線をサンプルする所定数であるため、結果ベクトルの次元数は、入力石灰沈着サイズにかかわらず固定である。この方法は、不自然な再サンプリングまたは穴埋めを回避する。フーリエ変換は、サンプリング構成の周期的性質を利用し、回転不変式等の基本特徴を強化する。
【００９７】
図１１に戻り、局所ＳＶＭ分析ステップ１２２２の結果を処理し、特徴抽出（ステップ１２３２）を行う。悪性および良性の石灰沈着を区別することに関係することが知られている特徴を抽出し、その結果を大域ＳＶＭ分類器１２４２へ送る。有用な特徴は、石灰沈着数、面積、外周、位置、方位、および石灰沈着の偏心を含む。
【００９８】
ＳＶＭは、一般化を犠牲にすることなく高次元入力データを処理する能力を持つため、多数の特徴を入力に追加できる。分類器に対する各特徴の貢献は小さいものの、特徴の全セットは、集合的にＳＶＭに十分な情報を提供し、適切な分類を遂行できる。
【００９９】
ＳＶＭまたは他のカーネル利用方法において重要な構成部品は、特徴空間において内積を定義するために使用するカーネルである。このカーネルは、入力ベクトル間の類似性を非線形方法で記述する。カーネル利用システムの性能は、与えられた問題の基本特徴を把握するカーネルを適切に設計することに掛かっている。好適実施例において、幾何学的形状認識および分類問題を特に処理するためのフーリエカーネルを使用する。明らかに必要なことは、カーネルが平行移動および回転の変換において不変なことである。画像から検出した輪郭は、サイズも異なる。カーネルは、広範囲の形状パターンを扱えるように堅固でなければならず、同時に分類のための重要情報を維持できるように繊細でなければならない。輪郭が与えられると、フーリエカーネルを次のように計算する。
【０１００】
１．平面におけるジョルダン（単純連続閉じた）曲線である輪郭が与えられると、その輪郭を複素数値関数ｚ（ｓ）、０≦ｓ≦１として表す。輪郭の質量中心を複素平面の原点と見なし、輪郭上の点を前記関数の複素数に関連付ける。
【０１０１】
２．ｚ（ｓ）のフーリエ係数を次数Ｎまで計算する。
【数１】

３．フーリエ係数ｆｎおよびｇｎを有する２つの輪郭ｚ（ｓ）およびｗ（ｓ）について次のようにカーネルを定義する。
【数２】

フーリエカーネルは、他のカーネルに比べ、形状分類問題を扱う上で多くの利点を持っている。すなわち、１）フーリエカーネルは、平行移動および回転に不変である。平行移動あるいは回転した形状は、元の形状と正確に同じであるとカーネルは見なす。この不変性は、カーネル設計において完全に自動的におよび透明に実現する。コストのかかる整列や探索を必要としない。２）フーリエカーネルは、形状分類に関する重要情報を忠実に保持する。フーリエ級数は、元の輪郭の正確な代表である。有限な項目数により、オリジナルの正確な近似である。回転特徴は、自然的な方法で除去され、他の基本特徴に影響を与えない。３）フーリエカーネルは、計算効率が良い。少数の項目（例えばＮ＝１０）があれば、一般にほとんどの実際的適用に十分である。また高速フーリエ変換（ＦＦＴ）等の既存高速アルゴリズムを利用し、さらに効率を高められる。
【０１０２】
当業界で良く知られている他のタイプの変換を使用しても、画像データを直接分析せずに、元の画像データから有用なデータを抽出できよう。そのような変換の１つは「ウエーブレット変換」であり、画像の多重解像度分析用の強力なツールを提供する。ウエーブレット変換は、空間およびスケーリングの両方において関数を局所化する。ウエーブレット変換における係数は、あるスケールにおける特徴としてＳＶＭ分類器用に使用できる。
【０１０３】
他のタイプの変換である「ラドン変換」は、空間ドメイン中の画像点をラドン変換ドメイン中の正弦曲線にマップし、当該点が存在するであろう全可能曲線のパラメータを提供する。ラドン変換の重要な特性は、極めてノイズの多い画像から線（曲線）を抽出することである。２次元ラドン変換は、対象の形状および裂片の数に関する多くの有用な特徴の数値表現を発生できる。対象の形状は、凸状、延伸状、および角度状を含む。（形状分析のための２次元ラドン変換の使用については、リーバース・ブイ・エフによる「２次元ラドン変換を使用した研磨粉末粒子の特徴決定用形状分類発生」電気電子学会、パターン分析および機械知能会報、第２２巻、第２３号、２０００年１２月を参照でき、それを参照によりここに組み込む）。ハフ変換は、ラドン変換の特別な場合であり、画像分析における標準的ツールであり、変換したパラメータ空間における局所パターン（理想的には点）の認識によって、画像空間における大域パターン認識を可能とする。これが特に有用であるのは、探索するパターンがまばらにデジタル化されていたり、穴を持っていたり、画像にノイズが多い場合である。（市販のマトラブ（登録商標）ソフトウエア（マサチューセッツ州ナティックのマスワークス社）の画像処理ツールボックスにおいて利用可能なラドン関数も、ハフ変換の実行に使用できる）。
【０１０４】
大域ＳＶＭ分類器１２４２内のＳＶＭを教育し、選択した特徴および局所ＳＶＭ分析器１２２２の結果に基づき、悪性と良性の石灰沈着を分類する。ほぼ同数の良性および癌性石灰沈着の教育データセットを使用し、大域ＳＶＭ分析器１２４２を教育する。その結果のＳＶＭを独立したテストデータセットでテストし、その性能および一般化能力を評価する。この教育課程を繰り返し、ＳＶＭ用の最適カーネルおよび構造を選択する。図９に示した例のような複数ＳＶＭ構成を使用し、複数のＳＶＭによって同一教育およびテストデータセットを処理し、実データを処理するために最適の出力を提供するＳＶＭを選択しても良い。
【０１０５】
ソフトマージンＳＶＭの強化版を大域ＳＶＭ分類器１２４２の好適実施例に使用する。従来のソフトマージンＳＶＭは、次の汎関数を最大にすることによって構成する。
【数３】

次の制限を課す。
【数４】

定数Ｃは、誤分類した点にペナルティを課すために選択する。
【０１０６】
強化ソフトマージンＳＶＭにおいて、定数Ｃは、全入力ベクトルについて必ずしも同一でなくて良い。特に、良性および悪性に異なるＣを選択し、見過ごした癌および偽警告に異なるペナルティを関連付けても良い。強化ＳＶＭは、次の汎関数を最大にして構成する。
【数５】

次の制限を課す。
【数６】

塊検出サブシステム１２０４は、石灰沈着サブシステム１２０２と類似である。しかしながら、石灰沈着に代えて、サブシステム１２０４の前処理ステップは、塊を検出して区切り、その塊に関する特徴を抽出するように特に設計する。ＳＶＭ教育手順は、石灰沈着サブシステム１２０２と同じである。
【０１０７】
異常を示す重要な指標となるのは、左右画像間の非対称密度パターンと、異なる時間において撮影した乳房エックス線写真画像における変化とである。非対称密度領域を検出することは、全システムの性能を著しく向上できる。対称においてさえ完全な一致を期待するのは現実的でないため、非対称検出（ステップ１２１４）に使用する一致および位置合わせアルゴリズムは、密度パターンにおける通常の小さな変動を許容する。このアルゴリズムの主眼は、２つの画像間における比較的高密度の領域における位相幾何学的差異である。非対称検出１２１４の手順は次の通りである。
【０１０８】
１．比較対象の２つの画像における密度の高い領域を代表する２つのグラフを形成する。
【０１０９】
２．２つのグラフの頂点間の最適一致を探す。
【０１１０】
３．一致しない頂点を評価し、許容変動内において隣接頂点に融合できる頂点を削除する。
【０１１１】
４．残る不一致頂点は、非対称密度を表す。
【０１１２】
乳房エックス線写真画像における塊の外見は、一般に石灰沈着よりもかなり微妙である。塊区切りステップ１２２４において、幾何学的変換技術を使用し、不明確な境界を検出する。ハフ変換は、前記した通り、線または円等の特定形状を画像内に検出するために適用できる。ラドン変換は、不規則形状を扱う上で有用である。
【０１１３】
特徴抽出ステップ１２３４は、石灰沈着サブシステム１２０２の特徴抽出ステップ１２３２と同様の方法で実行する。抽出すべき重要な特徴は、位置、サイズ、形状、縁、およびエックス線減衰である。塊領域のテクスチャ等の追加品質の評価も、塊検出サブシステム１２０４における特徴抽出に有用である。
【０１１４】
ＳＶＭ分類器１２４４は、石灰沈着サブシステムにおける大域ＳＶＭ分類器１２４２と同様の手順を用いて教育およびテストする。ＳＶＭ分類器１２４４は、１つ以上のＳＶＭから成り、特徴抽出ステップ１２３４の出力を受け取り、そのデータを各抽出した特徴の適切なカテゴリに分類する。例えば、塊形状は、次の特徴の１つを有するであろう。丸、楕円、裂片、あるいは不規則である。ＳＶＭ分類器１２４４は、データを形状特徴の４つのカテゴリの１つに分配する。同様に、５タイプの縁がある。すなわち、外接、不明瞭、極小裂片、あいまい、針状である。ＳＶＭ分類器は、この５つの縁カテゴリの１つにデータを分配する。悪性腫瘍の診断に関係する多くの異なる塊の特徴を考えた場合、ＳＶＭ分類器１２４４を階層構成にし、各特徴に少なくとも１レベルのＳＶＭを割り当て、最適出力を結合し、より高いレベルのＳＶＭに処理させ、最終的に１つの出力をＳＶＭ分類器１２４４から発生するようにすることが好ましい。この出力は、全体ＳＶＭ分析器１２５０への入力とし、この全体分析器は塊検出結果と石灰沈着および構造変形サブシステムの結果とを結合し、診断を作成する。
【０１１５】
構造変形検出サブシステム１２０６は、石灰沈着サブシステム１２０２に似る。前処理ステップ、針状縁検出器１２１６、および特徴抽出１２２６は、疑わしい領域を検出し、構造変形に関する特徴を抽出すべく特別設計である。針状縁は、放射線として代表的に現れ、あるいは「日輪」パターンとして現れ、浸潤する腫瘍の可能性と関連する線維形成過程を表しうる。一方、以前の生体検査からの術後傷跡、放射傷跡、外傷、感染も、針状縁を有する病変を生成する。従って他の検出サブシステムの結果に関連して針状縁が存在することは、良好な診断ツールを提供する。ＳＶＭ分類器１２３６用ＳＶＭ教育手順は、他の検出サブシステムについて既に説明した分類器と同一である。ＳＶＭ分類器１２３６の出力は、代表的に針状変形の存在または不在を示す出力を提供する。この出力は、他の検出サブシステムの出力と結合し、全体ＳＶＭ分析器１２５０への入力とし、悪性腫瘍の存在あるいは不在の診断に使用する。
【０１１６】
先の例は、乳房エックス線写真を分析して乳癌を診断する手順を説明したが、本発明に基づくコンピュータ利用画像分析の適用は、それに限定するものではなく、デジタル映像自体の適用と同じように広範囲である。一般に、デジタル画像を分析して決定を補助する例えば医療、工業、地質学、宇宙探索、空中または宇宙偵察等の状況において、あるいは単純に画像の主対象に関する情報を提供することにおいて、画像が多くのデータ点を含み多くの解釈を伴う場合、本発明に基づく画像分析を使用することで利益を得られる。
【０１１７】
本発明の他の実施例は、当業者には明らかであろう。このような他の実施例も、本発明の要旨び範囲に入ると考える。従って、本発明の範囲は、請求の範囲によって明らかにするものであり、前記説明によって補助するものである。
【図面の簡単な説明】
【０１１８】
本発明の実施例を以下に列挙する図面を参照して説明する。これら図面において、同一番号は同等要素を示す。
【図１】学習マシンを使用してデータ分析を行うための一般方法の一例を示すフローチャートである。
【図２】サポートベクトルマシンを使用してデータを分析するための方法の一例を示すフローチャートである。
【図３】スタンドアロン構成、あるいは前処理または後処理技術用学習マシンとの連係で使用できる最適カテゴリ化方法の一例を示すフローチャートである。
【図４】サポートベクトルマシンへ入力可能な非拡張データセットの一例を示す図である。
【図５ａ．５ｂ】画像における階調特性を示す図であり、図５ａは未処理画像を示し、図５ｂは区切り前処理を行った後の画像を示す。
【図６】サポートベクトルマシンへ入力可能な拡張データセットの一例を示す図である。
【図７】図３の最適カテゴリ化方法のスタンドアロン適用における入力および出力の一例を示す図である。
【図８】本発明の一実施例の動作環境の一例を示す機能ブロック図である。
【図９】複数のサポートベクトルマシンの階層システムを示す機能ブロック図である。
【図１０】サポートベクトルマシンを使用した画像分析の基本処理流れを示す機能ブロック図である。
【図１１】乳房エックス線写真の分析に使用する複数の検出サブシステムを有する画像分析システムの一例を示す機能ブロック図である。
【図１２】階調から階調曲線へのマッピングを示す結合曲線とビットマップ画像とを示す図である。
【図１３】乳房エックス線写真に含まれる石灰沈着画像の特徴抽出処理後のビットマップ画像を示す図である。
【図１４】画像セグメントを固定次元形式に変換するための前処理変換を示す図である。

Claims

（ａ）教育用画像データセットとテスト用画像セットとをプロセッサに入力し、
（ｂ）各画像データセットを前処理することにより、当該画像データから少なくとも１つの注目特徴の存在を検出し抽出できるようにし、
（ｃ）前記前処理した画像データセットを使用して、少なくとも１つのカーネルを有する少なくとも１つの学習マシンを教育してテストすることにより、少なくとも１つの注目特徴を複数の推定し得る特性クラスの少なくとも１つに分類し、
（ｄ）前記テスト用画像データセットから分類した特徴と前記テスト用画像データセットの既知結果とを比較し、最適解が得られたか決定し、
（ｅ）最適解が得られなければステップ（ｃ）および（ｄ）を繰り返し、
（ｆ）最適解が得られれば、実画像データセットを前記プロセッサに入力し、
（ｇ）前記実画像データセットを前処理することにより、当該画像データから注目特徴の存在を抽出できるようにし、
（ｈ）前記少なくとも１つの特徴を分類し、
（ｉ）前記実画像データセットから分類した少なくとも１つの注目特徴から成る出力を発生する、デジタル化した画像を分析するためのコンピュータ実行方法。
ステップ（ａ）および（ｆ）はさらに、前記教育用、テスト用、および実データセットの各々を複数の検出サブシステムの各々に入力し、各検出サブシステムは複数の注目特徴の１つを検出し分類すべく適応しており、各注目特徴は複数の推定し得る特性を持っており、各サブシステムは対応する注目特徴についての出力を発生する、請求項１の方法。
さらに（ｊ）複数のサブシステム各々からの出力を結合し、
（ｋ）少なくとも１つのカーネルを有する少なくとも１つの全体学習マシンに前記結合した出力を入力し、
（ｌ）前記デジタル化画像の分類から成る全体出力を発生する、請求項２の方法。
前記全体学習マシンは、ソフトマージンサポートベクトルマシンである、請求項３の方法。
前記ソフトマージンサポートベクトルマシンは、分類誤りに対する可変ペナルティを適用して強化する、請求項４の方法。
前記デジタル化画像は乳房エックス線写真から成り、前記複数のサブシステムは石灰沈着検出サブシステムと塊検出サブシステムと構造変形サブシステムとから成る、請求項３の方法。
前処理ステップ（ｂ）および（ｇ）は、注目特徴を区切って当該注目特徴を背景から分離し、区切った注目特徴に関する数値を発生する、請求項１の方法。
区切ることは、前記画像データにおいて各区切った注目特徴に対応する極値を特定することから成る、請求項７の方法。
前記注目特徴は輝度を有する点から成り、極値を特定することは前記点の輝度を複数の輝度レベルの１つ以上に分類することから成る、請求項８の方法。
幾何学的配置は１つの推定し得る特性であり、幾何学的配置は２つの異なる輝度レベルにおける点の境界間の傾斜変化を測定して決定する、請求項９の方法。
前処理ステップ（ｂ）および（ｇ）は、注目特徴を区切り、区切った特徴を固定次元ベクトルに変換することから成る、請求項１の方法。
変換することは、
注目特徴の質量中心を計算し、
前記質量中心に原点を有する極座標系を用いて注目特徴の輪郭をサンプリングし、複数の半径測定を提供し、
前記複数の半径測定を用いてベクトルを形成し、
前記ベクトルにフーリエ変換を適用して固定次元ベクトルを提供することから成る、請求項１１の方法。
前記少なくとも１つの注目特徴は複数の注目特徴から成り、前記前処理ステップ（ｂ）および（ｇ）は、各注目特徴に重力モデルを適用して各特徴を別体に収縮することにより、第１の注目特徴を少なくとも部分的に重なっている第２の注目特徴から区分することから成る、請求項１の方法。
前処理ステップ（ｂ）および（ｇ）は前記画像データに変換を適用し、当該変換は、ウエーブレット変換とラドン変換とハフ変換とからなるグループから選択する、請求項１の方法。
前記少なくとも１つのカーネルはフーリエカーネルである、請求項１の方法。
（ａ）教育用画像データセットとテスト用画像セットとを複数の処理モジュールから成るプロセッサに入力し、
（ｂ）各注目特徴に１つの処理モジュールを割り当て、
（ｃ）各注目特徴について、各画像データセットを前処理することにより、当該画像データから前記注目特徴の存在を検出し抽出できるようにし、
（ｄ）各注目特徴について、前記前処理した画像データセットを使用して少なくとも１つの第１レベルサポートベクトルマシンを教育してテストすることにより、前記対応する注目特徴を複数の推定し得る特性の少なくとも１つに分類し、
（ｅ）前記テスト用画像データセットから分類した特徴と前記テスト用画像データセットの既知結果とを比較し、最適解が得られたか決定し、
（ｆ）最適解が得られなければステップ（ｄ）および（ｅ）を繰り返し、
（ｇ）最適解が得られれば、実画像データセットを前記プロセッサに入力し、
（ｈ）前記実画像データセットを前処理することにより、当該画像データから注目特徴の存在を検出し抽出できるようにし、
（ｉ）各注目特徴をその推定し得る特性に基づいて分類して出力を発生し、
（ｊ）前記複数の注目特徴についての出力を結合し、
（ｋ）前記結合した出力を少なくとも１つの第２レベルサポートベクトルマシンに入力し、
（ｌ）前記デジタル化画像の分類から成る全体出力を発生する、複数の注目特徴を有するデジタル化画像のコンピュータ利用分析を行う方法。
前記第２レベルサポートベクトルマシンは、ソフトマージンサポートベクトルマシンである、請求項１６の方法。
前記ソフトマージンサポートベクトルマシンは、分類誤りに対する可変ペナルティを適用して強化する、請求項１７の方法。
各第１レベルサポートベクトルマシンは、フーリエカーネルを使用する、請求項１６の方法。
前記デジタル化画像は乳房エックス線写真から成り、前記複数の処理モジュールは石灰沈着検出サブシステムと塊検出サブシステムと構造変形サブシステムとから成る、請求項１６の方法。
前処理ステップ（ｃ）および（ｈ）は、注目特徴を区切って当該注目特徴を背景から分離し、区切った注目特徴に関する数値を発生する、請求項１６の方法。
区切ることは、前記画像データにおいて各区切った注目特徴に対応する極値を特定することから成る、請求項２１の方法。
前記注目特徴は輝度を有する点から成り、極値を特定することは前記点の輝度を複数の輝度レベルの１つ以上に分類することから成る、請求項２２の方法。
幾何学的配置は１つの推定し得る特性であり、幾何学的配置は２つの異なる輝度レベルにおける点の境界間の傾斜変化を測定して決定する、請求項２３の方法。
前処理ステップ（ｃ）および（ｈ）は、注目特徴を区切り、区切った特徴を固定次元ベクトルに変換することから成る、請求項１６の方法。
変換することは、
注目特徴の質量中心を計算し、
前記質量中心に原点を有する極座標系を用いて注目特徴の輪郭をサンプリングし、複数の半径測定を提供し、
前記複数の半径測定を用いてベクトルを形成し、
前記ベクトルにフーリエ変換を適用して固定次元ベクトルを提供することから成る、請求項２５の方法。
各デジタル化画像は複数の単一注目特徴を含み、前処理ステップ（ｃ）および（ｈ）は、各注目特徴に重力モデルを適用して各特徴を別体に収縮することにより、第１の注目特徴を少なくとも部分的に重なっている第２の注目特徴から区分することから成る、請求項１６の方法。
前処理ステップ（ｃ）および（ｈ）は前記画像データに変換を適用し、当該変換は、ウエーブレット変換とラドン変換とハフ変換とからなるグループから選択する、請求項１６の方法。
（ａ）教育用乳房エックス線写真データセットとテスト用乳房エックス線写真セットとを複数の検出サブシステムから成るプロセッサに入力し、各検出サブシステムは複数の注目特徴の１つを分析し、
（ｂ）複数の検出サブシステムの各々に１つの処理モジュールを割り当て、
（ｃ）各検出サブシステムにおいて、各乳房エックス線写真データセットを前処理することにより、当該検出サブシステムに対応する注目特徴の存在を検出し抽出できるようにし、
（ｄ）各検出サブシステムにおいて、前記前処理した乳房エックス線写真データセットを使用して少なくとも１つの第１レベルサポートベクトルマシンを教育しテストすることにより、前記対応する注目特徴を複数の推定し得る特性の少なくとも１つに分類し、
（ｅ）前記テスト用乳房エックス線写真データセットから分類した特徴と前記テスト用乳房エックス線写真データセットの既知分析とを比較し、最適解が得られたか決定し、
（ｆ）最適解が得られなければステップ（ｄ）および（ｅ）を繰り返し、
（ｇ）最適解が得られれば、乳房エックス線写真実データセットを前記プロセッサに入力し、
（ｈ）前記乳房エックス線写真実データセットを前処理することにより、当該乳房エックス線写真データから注目特徴の存在を検出し抽出できるようにし、
（ｉ）各注目特徴をその推定し得る特性に基づいて分類して出力を発生し、
（ｊ）前記複数の注目特徴についての出力を結合し、
（ｋ）前記結合した出力を少なくとも１つの第２レベルサポートベクトルマシンに入力し、
（ｌ）デジタル化乳房エックス線写真の分析から成る全体出力を発生する、デジタル化乳房エックス線写真のコンピュータ利用分析を行う方法。
前記注目特徴は、石灰沈着と塊と構造変形とである、請求項２９の方法。
前記第２レベルサポートベクトルマシンは、ソフトマージンサポートベクトルマシンである、請求項２９の方法。
前記ソフトマージンサポートベクトルマシンは、分類誤りに対する可変ペナルティを適用して強化する、請求項３１の方法。
各第１レベルサポートベクトルマシンは、フーリエカーネルを使用する、請求項２９の方法。
前処理ステップ（ｃ）および（ｈ）は、注目特徴を区切って当該注目特徴を背景から分離し、区切った注目特徴に関する数値を発生する、請求項２９の方法。
区切ることは、前記画像データにおいて各区切った注目特徴に対応する極値を特定することから成る、請求項３４の方法。
前記注目特徴は輝度を有する点から成り、極値を特定することは前記点の輝度を複数の輝度レベルの１つ以上に分類することから成る、請求項３５の方法。
幾何学的配置は１つの推定し得る特性であり、幾何学的配置は２つの異なる輝度レベルにおける点の境界間の傾斜変化を測定して決定する、請求項３６の方法。
前処理ステップ（ｃ）および（ｈ）は、注目特徴を区切り、区切った特徴を固定次元ベクトルに変換することから成る、請求項２９の方法。
変換することは、
注目特徴の質量中心を計算し、
前記質量中心に原点を有する極座標系を用いて注目特徴の輪郭をサンプリングし、複数の半径測定を提供し、
前記複数の半径測定を用いてベクトルを形成し、
前記ベクトルにフーリエ変換を適用して固定次元ベクトルを提供することから成る、請求項３８の方法。
各デジタル化画像は複数の単一注目特徴を含み、前処理ステップ（ｃ）および（ｈ）は、各注目特徴に重力モデルを適用して各特徴を別体に収縮することにより、第１の注目特徴を少なくとも部分的に重なっている第２の注目特徴から区分することから成る、請求項２９の方法。
前処理ステップ（ｃ）および（ｈ）は前記画像データに変換を適用し、当該変換は、ウエーブレット変換とラドン変換とハフ変換とからなるグループから選択する、請求項２９の方法。
プロセッサと、
処理すべき画像データを受け取る入力装置と、
前記プロセッサと通信するメモリ装置と、前記プロセッサは複数の検出サブシステムを格納し、当該複数の検出サブシステムの各々は、
前記画像データ中の注目特徴の１つを検出して抽出する前処理部と、
前記注目特徴を複数の推定し得る特性の少なくとも１つに分類する少なくとも１つの第１レベルサポートベクトルマシンから成る分類部と、
前記分類した注目特徴を出力する出力部とを備え、
第２レベルサポートベクトルマシンを有し、前記複数の検出サブシステムの出力を結合して前記デジタル化画像の分析を発生する全体分析装置とを備える、複数の注目特徴を有するデジタル化画像の分析を行うコンピュータシステム。
前記少なくとも１つの第１レベルサポートベクトルマシンは、フーリエカーネルを使用する、請求項４２のコンピュータシステム。
前記第２レベルサポートベクトルマシンは、ソフトマージンサポートベクトルマシンである、請求項４２のコンピュータシステム。
前記ソフトマージンサポートベクトルマシンは、分類誤りに対する可変ペナルティを適用して強化する、請求項４４のコンピュータシステム。
前記デジタル化画像は乳房エックス線写真から成り、前記複数の検出サブシステムは石灰沈着検出サブシステムと塊検出サブシステムと構造変形サブシステムとから成る、請求項４２のコンピュータシステム。
前処理部は、注目特徴を背景から分離する区切りルーチンを適用し、当該区切った注目特徴に関する数値を発生する、請求項４２のコンピュータシステム。
区切りルーチンは、前記画像データにおいて各区切った注目特徴に対応する極値を特定する、請求項４７のコンピュータシステム。
前記注目特徴は輝度を有する点から成り、極値は前記点の輝度を複数の輝度レベルの１つ以上に分類することによって特定する、請求項４８のコンピュータシステム。
幾何学的配置は１つの推定し得る特性であり、幾何学的配置は２つの異なる輝度レベルにおける点の境界間の傾斜変化を測定して決定する、請求項４９のコンピュータシステム。
前記前処理部は、注目特徴を区切り、当該区切った特徴に固定次元ベクトルへの変換を適用する、請求項４２のコンピュータシステム。
変換は、
注目特徴の質量中心を計算し、
前記質量中心に原点を有する極座標系を用いて注目特徴の輪郭をサンプリングし、複数の半径測定を提供し、
前記複数の半径測定を用いてベクトルを形成し、
前記ベクトルにフーリエ変換を適用して固定次元ベクトルを提供することから成る、請求項５１のコンピュータシステム。
各デジタル化画像は複数の単一注目特徴を含み、前記前処理部は、各注目特徴に重力モデルを適用して各特徴を別体に収縮することにより、第１の注目特徴を少なくとも部分的に重なっている第２の注目特徴から区分する、請求項４２のコンピュータシステム。
前記前処理部は前記画像データに変換を適用し、当該変換は、ウエーブレット変換とラドン変換とハフ変換とからなるグループから選択する、請求項４２のコンピュータシステム。