JP5063682B2

JP5063682B2 - 文書データベースにおける文書の領域識別のための方法

Info

Publication number: JP5063682B2
Application number: JP2009509727A
Authority: JP
Inventors: エムネッパー，マーガレット; リーフォックス，ケヴィン; フリーダー，オファー
Original assignee: Harris Corp
Current assignee: Harris Corp
Priority date: 2006-05-05
Filing date: 2007-05-03
Publication date: 2012-10-31
Anticipated expiration: 2027-05-03
Also published as: US20060206483A1; TW200817998A; CN101438285B; WO2007130544A3; CN101438285A; EP2024883A2; KR20090007626A; US7814105B2; EP2024883A4; WO2007130544A2; IL195064A0; TWI341489B; CA2651217A1; JP2009536401A; KR101118454B1

Description

本願発明は、情報取得の分野に関する。より詳細には、本願発明は、文書データベースにおいて文書を範疇分けする方法に関する。

情報取得システム及び関連する方法は、利用者の検索問い合わせに応えて、情報を検索して取得する。どんな問い合わせでも、結果として大量のデータを取得してしまう可能性がある。取得したデータが含みうるのは、構造化及び非構造化データ、様式の無いテキスト、タグ付きデータ、メタデータ、音声ファイル、動画像ファイルなど多様である。これらは例にすぎない。問題を複雑にするのは、情報取得システムが検索すべき情報の分量は、毎年より大きくなっていることである。米国カリフォルニア大学バークリー校の調査によれば、１９９９年と２００２年の間で、新しい情報が生成される量は２倍にも近づいたと結論付けている。

情報取得システムが問い合わせに応えて検索を行うと、利用者はその結果に圧倒されるかもしれない。例えば、普通の検索でも、何百、何千という項目を返してくる。取得した情報には、適切なものも不適切なものも含まれる。そこで利用者は、不適切な情報から適切な情報を選り分けないといけない。これは大仕事である。

この問題に対する１つの解決方法は、分類体系を作ることである。分類体系とは、広い話題を数多くの既定の範疇に分ける、整理された分類の枠組みのことである。ここで範疇を下位の範疇に分けることもできる。これにより、利用者は、利用できるデータの中を見ながら進み、適切な情報を見つけることができる。また同時に、検索すべき文書を限定することもできる。しかし、分類体系を作り、正しい分類で文書を識別するには、たいへん時間がかかる。さらに、分類体系は、新しい情報が出てくるたびに、それを範疇分けするという、終わりの無い保守を必要とする。特許文献１は、多重継承型の符号付けを含む分類体系を開示している。この開示は、複数の上位符号を、同一位又は下位の符号に適用して用いることを含む。多重継承型の符号付けが意味するのは、例えば、あるデータに対して、下位の符号を１つ入力するだけで、上位の多重継承元の複数の符号も自動的に適用されるということである。

先の問題に対する別の解決方法は、利用者を助けるために、検索結果をまとめる情報取得システムを用いることである。例えば、米国ペンシルベニア州ピッツバーグのＶｉｖｉｓｉｍｏ社製のＶｉｖｉｓｉｍｏＣｌｕｓｔｅｒｉｎｇＥｎｇｉｎｅ（商標）は、自動的に検索結果を組織化して、意味のある階層にその場で保存してくれる。情報を取得する度に、情報を範疇にまとめる。範疇は、その検索結果の情報に含まれる語や句から、知的に選ばれる。特徴的なのは、ＶｉｖｉｓｉｍｏＣｌｕｓｔｅｒｉｎｇＥｎｇｉｎｅ（商標）は、それぞれの検索結果について、返ってきた表題及び要約のみを用いるということである。文書と文書の間の類似度は、この素材（即ち、検索結果である、読める文章のこと。文書の全体ではない。）のみに基づき、他は考慮しない。次に文書を、文章の類似度に基づいてまとめる。それに加えて、この素材の類似度を、人間の知識によって補強する。即ち、まとめられた文書を利用者が調べるときに、何を見ることを望んでいるかという知識である。この結果として、範疇は、そこに含まれる内容と同じく、最新で新鮮なものであり続けることになる。

検索結果を視覚的に操作する方法が、特許文献２及び特許文献３に開示されている。特許文献２及び特許文献３の内容を参照により本願に援用する。発明者であるＦｏｘらが開示しているのは、情報取得及び視覚化システムである。このシステムは、複数の検索機関を用いて、文書データベースから、利用者が入力した問い合わせに基づき、文書を取得する。各検索機関は、共通の数学的な表記法で、取得した各文書を記述する。次に、取得した文書を組み合わせて順位付ける。それぞれの文書についての数学的な表記を、表示画面に写像する。表示される情報は、利用者が入力した問い合わせからの検索語の３次元表示を含む。この情報取得及び視覚化システムにおける、３次元の視覚化の能力は、情報の数学的な表記に基づいている。この視覚化により、利用者は、検索結果を直感的に理解できる。適切度の評価結果を利用者がシステムに返したり、問い合わせを詳細化したりする技法により、システムをよりよく利用できる。これにより、より高い精度の情報取得を行うことができる。

検索機関と結果の視覚化技法は、継続的に開発が進められている。それにもかかわらず、文書データベースにおいて、似た文書を素早く効率的に一緒に集団化したいという要求には、根強いものがある。これにより、検索結果を利用者に意味のあるやり方で示すためである。
Ｃｏｏｋｅらに付与された米国特許番号第６，９３８，０４６号Ｆｏｘらに付与された米国特許番号第６，５７４，６３２号Ｆｏｘらに付与された米国特許番号第６，７０１，３１８号

前述の背景を鑑みるに、従って、本願発明の１つの目的は、文書データベースにおいて利用者が文書を範疇分けすることを助けることである。

本願発明による、この目的及び他の目的、特徴、並びに利点は、プロセッサ及び該プロセッサに実行可能なように接続されたディスプレイを有する、計算機により実装されるシステムを用いて文書データベースにおいて複数の文書を処理するための方法によって提供される。この方法は、複数の文書の各々についての語彙に含まれる語（以下「語彙語」という。）を決定すること、及び、複数の文書における語彙語の出現に基づいて、各語彙語について、それぞれの適切度を決定することを、事前計算の必要なく実行するために前記プロセッサを動作させる段階を含む。この方法は、語彙語と語彙語のそれぞれの適切度とに基づいて、複数の文書の間の類否を決定することを、事前計算の必要なく実行するために前記プロセッサを動作させる段階を更に含む。決定した類否に基づいて、前記語彙語の前記複数の上位セット（superset）について複数の領域識別を決定する。

複数の文書の間の類否を決定することは、語彙語の複数の上位セットを定義するために、語彙語のそれぞれの適切度に基づいて、語彙語の部分を選択することを含んでもよい。ここで語彙語の複数の上位セットは、複数の文書の間の類似性を示すために用いられる。
また、この方法は、決定された語彙語の複数の上位セットを表示させるために前記ディスプレイを動作させる段階であって、前記複数の文書の中の前記語彙語の出現に基づいた、適切及び不適切なものとしての前記語彙語の数値による表示を含み、前記語彙語の前記複数の上位セットは、前記語彙語の数値による表示に基づいて、ユーザ又は前記プロセッサにより、異なる領域識別へとグループ分けされることができる、段階を含む。

この方法は、全体的な領域識別を、下位の領域識別に分割することを更に含んでもよい。この場合、下位の領域識別の各々に関連する語彙語を選択することに基づいてもよい。その結果、下位の領域識別の各々に関連する語彙語の適切度は、下位の領域識別の各々について、類似する文書が共に集団化するように変化することになる。

語彙語の適切度の各々を決定することは、複数の文書において各語彙語が何回用いられているかを数えること、及び、複数の文書のうちの何個が、語彙語の各々を用いているかを数えることを含んでもよい。この方法は、この数えた結果に基づいて、語彙語の各々について、文書あたりの語の比率を生成することを含んでもよい。また、文書あたりの語の比率がある閾値より低い場合には、複数の文書の間の類似度を決定するときに、その語の適切度を用いない。代わりに、この方法は、少なくとも１つの語彙語について、それぞれの適切度を設定することを、利用者に許可することを含んでもよい。各語彙語についてのそれぞれの適切度は、適切度の評価結果因子に更に基づいてもよい。適切度の評価結果因子は、例えば、利用者の検索の問い合わせ、又は、算法に基づいてもよい。

文書と文書の間の類似度を、語彙語における語の並びを識別することに基づいて決定してもよい。語の並びは、例えば、ｎ語から成る句（ｎ＞＝２）を含んでもよい。言い換えれば、類似する文書についての領域識別を、計算機が、重なり合う語彙語に基づいて決定してもよい。

加えて、この方法は、既定の領域識別に対応する語彙語を決定することを更に含んでもよい。類似度を、複数の文書についての語彙語同士の間で決定してもよい。ここで語彙語は既定の領域識別に対応しているものである。この既定の領域識別を、従って、決定した類似度に基づいて、１つ以上の文書に割り当ててもよい。

文書は、ウェブサイトの文書、電子メールの通信、及び、文章以外の文書であって関連するメタデータを有するものを含んでもよい。文章以外の文書は、動画像ファイル、静止画像ファイル、及び音声ファイルを含んでもよい。

本発明の別の観点は、計算機可読媒体に向けられている。この媒体は、計算機が実行可能な命令を有する。この命令により、計算機に、文書データベースにおいて文書を前述のように処理させる。

本発明の更に別の観点は、プロセッサ及び該プロセッサに実行可能なように接続されたディスプレイを有する、計算機により実装されるシステムに向けられている。このシステムは、文書データベースにおいて文書を前述のように処理するためのものである。

本願発明を、以下に、添付の図面を参照してより詳しく記述する。ここで本願発明の好適な実施例を示す。本発明を、しかしながら、多くの異なる形態で実施してもよい。本発明を、本願に記載の実施例に限定されるものとして解釈してはならない。そうではなく、これらの実施例を提供しているのは、本開示を徹底かつ完全なものにするためであり、本開示が本発明の範囲を当業者に完全に伝えるためである。図面を通して、同様の参照番号は同様の要素を参照する。プライム符号を用いて、異なる実施例における類似の要素を示す。

図１をまず参照する。本願発明は、文書データベースにおいて文書を処理するための、計算機が実装する方法に向けられている。この方法は、区画２０から始まる。この方法は、情報取得システムを用いて、かつ、利用者の検索問い合わせに基づき、取得した文書の最初の順位付けを生成することを含む。これが区画２２である。次に、取得した文書の少なくとも部分における語彙語の出現に基づいて、複数の語彙語を生成する。これが区画２４である。次に、語彙語の出現及び利用者の検索問い合わせに基づき、語彙語のそれぞれの適切度を生成する。これが区画２６である。語彙語の適切度に基づき、取得した文書の再度の順位付けを生成する。これが区画２８である。この方法は、再度の順位付けをした後に、取得した文書を表示することを更に含む。これが区画３０である。この方法は、区画３２で終わる。

文書データベースにおいて文書を処理するための、計算機が実装するこの方法により、有利には、利用者は、情報取得システムを用いて文書を取得した後に、適切な文書を選り分け、不適切な文書を捨てることができる。ここで利用者とは、人間の利用者でもよいし、計算機が実装する利用者でもよい。利用者が、計算機による実装である場合には、適切な文書を選り分け、不適切な文書を捨てることは、自律的に行われる。情報取得システムは、利用者からの検索の問い合わせを受け取るための、入力インターフェースを含む。情報取得システムはまた、文書データベースから文書を選択的に取得するための、検索機関を含む。

検索機関は、いかなる特定の検索機関にも限らない。検索機関の例は、イリノイ工科大学（ＩＩＴ）の情報取得研究所で開発した、先進的情報取得機関（ＡｄｖａｎｃｅｄＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌＥｎｇｉｎｅ。以下「ＡＩＲＥ」という。）である。ＡＩＲＥは可搬な情報取得機関であり、Ｊａｖａ（登録商標）で書いてある。ＡＩＲＥは、新しい情報取得技術を探求するための基礎を提供している。ＡＩＲＥは、文章取得会議（ＴｅｘｔＲＥｔｒｉｅｖａｌＣｏｎｆｅｒｅｎｃｅ。以下「ＴＲＥＣ」という。）でいつも用いられている。ＴＲＥＣとは、毎年開催される一連の研究会である。ＴＲＥＣは、大量の文章から情報を取得する応用の研究を促進することを目的としている。これは、大量の文章の集積、一様な得点付けの手続き、及び、結果を比較することに興味のある人々や組織のための場を提供することによる。

ＴＲＥＣでは、既知の結果を有するデータの集合を用いる。従って、これにより、本願発明の評価を容易に行うことができる。ＴＲＥＣによる、検索の題目の１例は「PIRACY」（海賊行為）という語である。この語を用いて本願発明を例示し評価する。ＡＩＲＥは、利用者からの「PIRACY」という検索の問い合わせに基づいて、取得した文書の最初の順位付けを提供する。最初の順位付けにおける、適切な文書の数及び／又は順序が、基準線即ち参照点となる。この基準線又は参照点を、再度の順位付けをした文書における、適切な文書の数と比べる。

以下に更に詳述する通り、語及び文書の適切度の選択肢は、様々なものが利用者に与えられている。個別に又は組み合わせて、これらの選択肢は、利用者からの検索の問い合わせの結果を取得する精度を上げる。本願発明の実装は、利用者からの入力を必要とする算法の形を取る。この入力は、ＡＩＲＥに付属するＧＵＩを経由して提供される。

図２を参照する。図２は、ＡＩＲＥの最初の問い合わせ画面である。これにより、利用者を助けて、取得した文書を、再度順位付けするための、利用者による適切な評価結果を提供することもできる。「PIRACY」という、利用者の検索問い合わせを入力しているのが、区画４０である。この利用者は、区画４２で、新しい語彙を立ち上げるか（START A NEW VOCABULARY）、又は、既存の語彙を用いるか（USE EXISTING VOCABULARY）かの選択肢がある。この場合では、新しい語彙を立ち上げる（START A NEW VOCABULARY）ことを選んでいる。

興味のある話題の記述が提供されているのが、区画４４である。ここでは興味は、「古き良き流儀の海賊行為、即ち船舶に乗り込み乗っ取ることについて、現代ではどのような事例があるか？」（WHAT MODERN INSTANCES HAVE THERE BEEN OF GOOD OLD-FASHIONED PIRACY, THE BOARDING OR TAKING CONTROL OF BOATS?）に向けられている。この記述について、より詳しい情報を提供している説明があるのが、区画４６である。この場合、この説明は次のように述べている。「水上のいかなる対象についても、海賊行為について議論している文書は、適切である。船舶又はその積み荷の、国家権力による合法的な拿捕について議論している文書は、適切ではない。操業中の漁船同士が衝突したことについて議論している文書は、適切ではない。ただし、一方の漁船に乗り込まれた場合を除く。」（DOCUMENTS DISCUSSING PIRACY ON ANY BODY OF WATER ARE RELEVANT, DOCUMENTS DISCUSSING THE LEGAL TAKING OF SHIPS OR THEIR CONTENTS BY A NATIONAL AUTHORITY ARE NON-RELEVANT, AND CLASHES BETWEEN FISHING BOATS OVER FISHING ARE NOT RELEVANT UNLESS ONE VESSEL IS BOARDED.）区画４４の記述及び区画４６の説明に含まれる語は、利用者の検索問い合わせの部分としては、含まれていない。しかし、利用者には、区画４４の記述及び区画４６の説明に含まれる語を、利用者の検索問い合わせの部分にする選択肢もある。そうするには、これらの区画を、区画４０と共に、選べばよい。

図３ａを参照する。利用者が図２の区画４２で新しい語彙を立ち上げることを選んだ場合、新しい語彙の画面が現れる。これを図３ａに示す。ここで、利用者は新しい語彙の名前を区画５０に入力する。図示の例の場合は「PIRACY」である。この場合、この新しい語彙の題名も、利用者の検索問い合わせとなる。

図３ｂを参照する。代わりに、利用者が、図２の区画４２で既存の語彙を用いることを選んでいた場合、既存の語彙の画面が現れる。これを図３ｂに示す。興味のある話題の１つが、２つの異なる語彙に重なってもよい。これにより、好適な語彙を選ぶことが楽になる。例の図に示す通り、ここでの海賊行為は、海事のものを指し、映画や音楽を不法に複写するという意味ではない。従って、既存の語彙である、例えば「MARITIME」（海事）を区画５２で選んでもよい。「MARITIME」語彙は、適切な文書の中に見つかると思われる適切な語を既に含んでいる。実際、既存の語彙の中の語彙語は、好適な文書の中の語から採ったものでもよい。好適な文書とは、利用者の検索要求に適切なものであると、既に判っている文書である。好適な文書は、取得した文書の部分であってもよいし、そうでなくてもよい。

図２に戻る。取得した文書の最初の順位付けの結果、「PIRACY」について、非常に多い数の文書が返ってきた。この文書は、適切な文書も不適切な文書も含んでいる。新しい語彙を生成する前に、利用者は、上位のＮ個の順位の文書を、図２の区画４８で選ぶ。図示する例では、再度の順位付けを行うことになる、上位のＮ個の順位の文書の数（Ｎ）は、１００である。

新しい語彙を作るために、算法は、取得した文書の上位の１００個の中で用いられている語の出現回数を数える。語は、語幹に正規化して数えてもよい。しかし絶対にそうする必要も無い。領域の語彙を、適切な文書の一覧を提供することによって作ることもできる。各文書において各語について集めた情報とは、その文書においてその語が用いられている回数、及び、上位の１００文書に順位づけられた文書のうち、その語を用いている文書の数である。

次に、文書の統計情報を計算する。これにより、上位のＮ個に順位づけられた文書にとって、それぞれの語がどのくらい有用であるかを決定する。無用な語は、その文書についての情報を計算するためには用いない。無用な語とは、特段の意味を与えない語である。例えば、英語の「am」、「are」、「we」といった、いわゆる停止語である。さらに、無用な語とは、ある領域において、特段の意味を与えずに、停止語のように扱われる語である。例えば、計算機科学の文献において、「計算機」という語は、自明であり特段の意味を与えない。ある語が無用な語だと決定するために用いる統計規則は次を含んでもよいが、これらに限定されない：
ａ）語数／文書数（即ち、文書あたりの語の比率）＜＝１（語が有用な語であるためには、１つの文書に１回より多く出現する必要がある。）；
ｂ）語数／文書数＞２０（意味がある上限の閾値を定める。単一の閾値ではなく、閾値の範囲を用いてもよい。）；及び
ｃ）文書数＝１（有用な語であるためには、その語が出現する文書は１つより多い必要がある。）
このａ）〜ｃ）の基準に基づけば、語彙は従って、有用な語の各々について、次を含むことになる：単一の文書のみにおいて、その語を用いた回数（従来の語頻度）；その語を用いた文書の数（従来の文書頻度）；及び、語数／文書数（文書あたりの語の比率）。

上位の１００個に順位づけられた文書と、利用者の検索問い合わせ（即ち「PIRACY」）とによって提供された語彙語の一覧を編集し終えたら、語彙語の適切度を設定する。ある語彙語は、別の語彙語よりも、適切であるかもしれないし、不適切であるかもしれない。語の適切度は、話題によって設定する。この場合は、話題とは「MARITIME」（海事）に関する「PIRACY」（海賊行為）である。適切な語とは、有用な語であり、話題「PIRACY」を記述する語である。不適切な語とは、この話題を記述しない語である。不適切な語は不適切な文書であることの指標である。

利用者が入力した問い合わせの語については、適切度の値を１に設定する。語彙語の適切度の値は、その語が適切であった回数及びその語が不適切であった回数に基づく。語の適切度の値を次のように書くことができる：適切度の値＝（適切であった回数 − 不適切であった回数）／（適切であった回数＋不適切であった回数）。語を適切であると判断できるのは、例えば、適切度の値＞０．５の場合とする。語を不適切であると判断できるのは、例えば、適切度の値＜ ―０．５の場合とする。この０．５及びー０．５という値は、例の値であり、他の値にしてもよい。これは当業者が容易に思いつくことである。加えて、単一の閾値ではなく、閾値の範囲を用いてもよい。

文書の統計値を計算するためには、上位のＮ個に位置づけられた文書の中の語に基づいて、情報を計算する。１つの文書は語の集合を含む。１つの語は１つの文書に１回以上現れることができる。各文書は本質的に非構造化文章である。語は、新しい語か、有用な語か、又は、無用な語として、特徴づけることができる。新しい語とは、その語彙にそれまで無かった語である。訓練の期間では、新しい空の語彙から始めることになるので、全ての語はその語彙において新しい語である。無用な語は、文書の計算においては用いない。前述の通り、無用な語は特段の意味をもたらさない。無用な語とは、例えば、英語の「am」、「are」、「we」といった、いわゆる停止語である。さらに、無用な語とは、ある領域において、特段の意味を与えずに、停止語のように扱われる語である。例えば、計算機科学の文献において、「計算機」という語は、自明であり特段の意味を与えない。有用な語とは、文書の統計に用いられることになる語である。

有用な語を、更に、適切な語、不適切な語、中立な語に区分できる。これらの区分の名称が示す通り、適切な語とは、その話題に重要な語である。不適切な語とは、その話題に役立たない語であり、普通は、悪い文書であることの指標である。中立な語とは、その語のその話題に関する状態が、まだ決定されていない語である。

取得した文書の、再度の順位付けを計算するために、算法の手法を用いて、文書に点数を付ける。この算法の手法では、前述の適切度の情報を用いる。ＡＩＲＥによる、最初の文書の順位付けの出力は、１番〜１００番に順位付けられた、文書の一覧である。ここで１００個という数は、利用者が選んだものである。順番が若いほど、点数が高いことを示す。逆に、順番の数が大きいほど、点数が高くてもよい。

３つの異なる適切度の値を用いて、文書を再度順位付けする。第１の適切度の値は、次の式に基づく：
一意な適切な語の数 − 一意な不適切な語の数 −＞ＵｎｉｑｕｅＲｅｌ（１）
この式（１）の意味は次の通りである。まず、文書中の一意な適切な語の数を数える。次に、文書中の一意な不適切な語の数を数える。不適切な語の数の総計を、適切な語の数の総計から引く。この値を、ＵｎｉｑｕｅＲｅｌと呼ぶ。所見としては、この計算がより有用になるのは、個別の語のみを識別している場合である。即ち、諸文書の全体を、適切／不適切として、識別していない場合である。

第２の適切度の値は、次の式に基づく：
語が適切な回数 − 語が不適切な回数 −＞ＲｅｌＮＯＦｒｅｑ（２）
この式（２）では、文書における、一意な適切な語の重要度及び一意な不適切な語の重要度を決定する。即ち、語彙におけるその語が不適切である回数の合計を、語彙におけるその語が適切である回数の合計から引く。この値を、ＲｅｌＮＯＦｒｅｑと呼ぶ。語彙でより多く現れる語が、ただ２〜３回だけ現れる語よりも、高い重みを持つことになる。所見としては、この値は、（１）のＵｎｉｑｕｅＲｅｌの値と密に関係している。とりわけ、全ての値が正である場合はそうである。

第３の適切度の値は、次の式に基づく：
適切度の頻度の合計 − 不適切度の頻度の合計 −＞ＲｅｌＦｒｅｑ（３）
この式（３）では、文書における、一意な適切な語及び一意な不適切な語の、重要度、及び、それらの語の頻度を決定する。まず、語彙におけるその語が適切である回数の合計を、その語がその文書で用いられている回数と乗算する。この値を、適切度の頻度の合計と呼ぶ。次に、語彙におけるその語が不適切である回数の合計を、その語がその文書で用いられている回数と乗算する。この値を、不適切度の頻度の合計と呼ぶ。そして、不適切度の頻度の合計を、適切度の頻度の合計から引く。この値を、ＲｅｌＦｒｅｑと呼ぶ。語彙でより多く現れる語が、ただ２〜３回だけ現れる語よりも、高い重みを持つことになる。所見としては、この値がより有用であるのは、適切な文書／不適切な文書の例を十分に学習したシステムの場合である。

悪い文書を識別するには、２つの技法がある。１つめの技法は、特定の語を過度に用いていることに基づく。２つめの技法は、式（１）に定義したＵｎｉｑｕｅＲｅｌの値が低いことに基づく。特定の語を過度に用いていることについては、１つの語が１つの文書の中で例えば１００回より多く現れる文書を、悪い文書であると識別する。また、少数の文書において極めて頻繁に用いられる語については、その語の有用度は０であると決定する。利用者は、語が何回１つの文書に現れれば、悪い値であると解釈されるかの、回数を設定する選択肢を持つ。

最初の順位付けである、取得した文書の上位のＮ個の順位付けを、最も高い適切度の値から、最も低い適切度の値への順で、（１）ＵｎｉｑｕｅＲｅｌ、（２）ＲｅｌＮＯＦｒｅｑ、及び（３）ＲｅｌＦｒｅｑの値のそれぞれによって、再度の順位付けを行う。次に、再度の順位付けを行った各文書の、この３つの値について、平均を取る。これにより、取得した文書の、最終の再度の順位付けを得る。それぞれの文書の順位付けの各々において、悪い文書は、文書の一覧の一番下に送られる。２つの異なる技法を用いて、悪い文書を一番下に送ってもよい。１つめの技法は、飛ぶ順番の番号付けである。即ち、かけ離れて大きな値を悪い文書の順位付けに割り当てれば、その文書は一番下に沈むことになる。２つめの技法は、連続する順番の番号付けである。即ち、他の文書と連続する、より大きな順位付けの番号を、悪い文書に割り当てる。

文書について得たＵｎｉｑｕｅＲｅｌの値に関しては、次のような処理を行う。まず、ＵｎｉｑｕｅＲｅｌの値が最も小さな文書を全て、悪い文書であると識別する。最も小さなＵｎｉｑｕｅＲｅｌの値を持つ文書の数と、２番目に最も小さなＵｎｉｑｕｅＲｅｌの値を持つ文書の数との合計の値が、例えば、全体の数の３０％よりも小さければ、２番目に最も小さなＵｎｉｑｕｅＲｅｌの値を持つ文書もまた、悪い文書であるとして特徴づける。その次に最も小さなＵｎｉｑｕｅＲｅｌの値を持つ文書についても同じことを行って、悪い文書を蓄積し、悪い文書の合計数が全体の文書の数の３０％を超えない範囲で、これを繰り返す。言い換えれば、ＵｎｉｑｕｅＲｅｌの値が下位にある文書を悪い文書であるとした場合、悪い文書の割合が、全体の３０％を超えないようにする。利用者は、この閾値を３０％以外の値に設定する選択肢も有する。これは当業者が容易に思いつく通りである。

取得した文書の上位のＮ個に順位付けられたものを、再度順位付けするにあたっては、文書の出処に基づいて、文書に優先度を割り当てることもできる。例えば、National Scientific社（医療機器関連の優良企業）からの文書は、The National Enquirer（米国屈指のゴシップ新聞）からの文書よりも、大きな重みづけを有してもよい。

図４〜図７に示す、利用者の表示画面を参照して、データの管理について説明する。データを、２つの段階で扱う。１つめの段階は語彙であり、２つめの段階は話題である。語彙を用いて領域を定義する。語彙は、各語について、各文書においてその語が用いられた回数と、その語が現れる文書の数とを含む。１つの語彙を、複数の話題で用いることができる。例えば、既定の語彙のかたちで、複数の話題で用いる。しかし、同一の文書を用いて複数回の訓練を行うことは、好適には避ける。データを話題によって管理することに関しては、語及び文書の、適切度及び不適切度を用いる。同様に問い合わせの検索語も用いる。

データの管理の大部分は、利用者インターフェースを用いる。利用者は、いかなる文書でも見ることができ、その文書に関する語の情報も、見ることができる。利用者は、適切な文書及び不適切な文書を識別でき、訓練のために用いる語を識別できる。訓練とは即ち、語彙を鍛えることである。利用者は、将来のＡＩＲＥの問い合わせのために、語を識別できる。利用者は、ＡＩＲＥの新しい問い合わせを行える。利用者は、システムに提供される情報に基づいて、現在のデータに対して、本願発明による順位付けの算法を再実行できる。

図４を参照する。「PIRACY」語彙を用いて取得した文書の、最初の順位付けを、図４に示す。列６０は、文書の題名を、順位が高い方から低い方へと並べている。ＡＩＲＥの適切度を、列６２に示す。取得した文書を「PIRACY」語彙を考慮に入れつつ再順位付けし終えた後に、この再順位付けを、ＡＩＲＥによる列６２に示す最初の順位付けと、平均を取る。この２つの順位付けの組み合わせの結果を、列６４に示す。例えば、列６２で最も高く順位付けられた文書は、列６４では、４番目に順位づけられている。

列６０に並んでいる題名のどの１つでも選ぶと、その文書の語を表示する。各文書に対する語彙の適切度は、列６６に表示される。各文書について、次のように印付けてもよい：適切である（列６８）；やや適切である（列７０）；又は、話題から外れている（列７２）。加えて、各文書の総語数を列７４に表示する。どの文書についても、付随する注釈を付けてもよい。付随する注釈を読むためには、列７６のアイコンを選べばよい。

利用者が文書の全文を読みたければ、利用者は、読みたい文書の題名の左にある、列７８のアイコンを選べばよい。各文書についての内容情報は、それぞれのファイルに納められている。このファイルを列８０に示す。利用者を更に助けるために、文書が適切であると印付けられると（列６８）、その適切な文書に関する行を強調表示する。ただし図４では強調表示は図示していない。

図５を参照する。図４で特定の文書の題名（列６０）を選ぶと、その文書の中の語を、図５の列８１に表示する。この表示の順序は、その文書の中で何回その語が用いられているかに基づく。この画面はまた、それぞれの語が適切度の観点でどのように設定されているかも示す。文書の中で各語彙語が用いられている回数を、列８２に示す。その語を用いている文書の数を列８４に示す。文書あたりの語の比率を列８６に示す。最初に利用者が適切であると印付けた語彙語を、列８８で数値１、列９２で数値１．００と示している。語彙語が不適切であれば、列９０に、数値―１を表示することになる。

区画を強調表示して、適切な語を示す。ただし図５では強調表示は図示していない。この画面では適切な語とされているが、実際は、「COPYRIGHT」（著作権）及び「SOFTWARE」（ソフトウェア）は、話題「PIRACY」（即ち、海上の海賊行為）には適切でないことに注意。この画面に留まりながら、利用者は、適切度及び有用／無用によって、語の並び替えを行うことができる。この並び替えは、次のように、その語に見合う特性を選ぶことによって行う：適切な語であれば、列１００（Ｒ）を選ぶ；不適切な語であれば、列１０２（Ｉ）を選ぶ（図５では隠れているので図６を参照）；中立な語であれば、列１０４（Ｎ）を選ぶ（図５では隠れているので図６を参照）；及び、無用な語であれば、列１０６（Ｕ）を選ぶ。ある適切な語がすでに適切であると印付けられていれば、その語については特に行うべきことは無い。

図６を参照する。この表示画面では、いくつかの語彙語は、列１０２が選択されており、不適切な語であることが示されている。

図７を参照する。図５の画面及び図６の画面の代わりに、図７の画面を用いて、特定の文書の中の語を見ることもできる。この特定の画面では、利用者には、区画１１０’の中の選択肢もある。この選択肢は、この文書は適切である（RELEVANT）か、やや適切である（MILDLY RELEVANT）か、又は、話題から外れている（OFF TOPIC）かを選ぶ。利用者にはまた、区画１１２’の中の選択肢もある。この選択肢により、新しい語を語彙に追加する。

図５及び図６に戻る。利用者はまた、好みによって、複数の視点を選ぶ選択肢も持つ。例えば、見出し１２０を選ぶと、１つの文書の中の全ての語彙語を表示してもよい。見出し１２２を選ぶと、全ての語彙語をアルファベット順に表示してもよい。見出し１２４を選ぶと、適切であると印付けられた語彙語を表示してもよい。見出し１２６を選ぶと、不適切であると印付けられた語彙語を表示してもよい。見出し１２８を選ぶと、新しいと印付けられた語彙語を表示してもよい。見出し１３０を選ぶと、語彙語の統計情報を表示してもよい。

図７では、利用者には、選択した文書における、適切な語、不適切な語、中立な語、及び無用な語についての見出しを選ぶ選択肢がある。見出し１４０’を選ぶと、その文書における適切な語を表示してもよい。見出し１４２’を選ぶと、その文書における不適切な語を表示してもよい。見出し１４４’を選ぶと、その文書における中立な語を表示してもよい。見出し１４６’を選ぶと、その文書における無用な語を表示してもよい。

図４及び図８〜図１１を参照する。本願発明による、文書データベースにおいて文書を処理するための方法を計算機で実装して、文書を順位付けした様々な結果を、ＡＩＲＥが提供する、基準の結果（即ち、取得した文書の最初の順位付け）と比べる。図４を参照すると、列６０に題名を示している文書は、取得した文書の最初の順位付け（列６２）で、１番〜２０番になったものである。図８を参照すると、列６０に題名を示している文書は、「PIRACY」語彙の順位付け（列６６）で、１番〜２０番になったものである。図４に示す基準の順位付けの結果の文書と、図８に示す最適な「PIRACY」語彙語により提供された順位付けの結果の文書との間の関係を、目で見て比べることができる。

図９を参照する。ＡＩＲＥによる順位付けと、「PIRACY」語彙による順位付けを結合して、新しい順位付けを得る。これが図９の列６４に示す１番〜２０番の順位付けである。対応する文書の題名を、列６０に示す。

図１０を参照する。前述のように新しい語彙を作るのではなく、既存の語彙を用いてもよい。例えば、既定の「MARITIME」語彙による結果を、ＡＩＲＥによる結果と結合した。この再度の順位付けによる結果が、図１０の列６４に示す、１番〜２０番の順位付けである。対応する文書の題名を、列６０に示す。

図１１を参照する。更にまた別の比較として、列６６に示すのは、「MARITIME」語彙のみによる、１番〜２０番の順位付けである。対応する文書の題名を、列６０に示す。同様に、図４に示すＡＩＲＥによる基準の順位付けの結果の文書と、図１１に示す最適な「MARITIME」語彙語により提供された順位付けの結果の文書との間の関係を、目で見て比べることができる。

図１２を参照する。取得した文書を再度順位付けするための、前述の様々な方法の結果について、考察を行う。この考察は、順位づけられた又は再度順位づけられた文書の、上位の５、１０、１５、２０及び３０個の中に、適切な文書が何個あるかに基づく。図１２の棒グラフで、横軸の１は、図４の列６０及び列６２に示す、基準となるＡＩＲＥによる順位付けに対応する。上位の５個に順位づけられた文書のうち、適切な文書は１個であった。上位の１０個に順位づけられた文書のうち、適切な文書は２個であった。上位の１５個に順位づけられた文書のうち、適切な文書は４個であった。上位の２０個に順位づけられた文書のうち、適切な文書は５個であった。上位の３０個に順位づけられた文書のうち、適切な文書は６個であった。

図１２の棒グラフで、横軸の２は、ＡＩＲＥによる順位付けを、図９の列６０及び列６４に示す、「PIRACY」語彙による順位付けと、結合した場合である。見て取れる通り、この再度の順位付けを行った結果、基準と比べて、適切な文書の数は減ってしまった。これに対して、基準と比べて、適切な文書の数が増えたのは、ＡＩＲＥによる順位付けを、不適切な語の識別を用いる「PIRACY」語彙による順位付けと、結合した場合である。この結果を棒グラフの横軸の３に示す。

棒グラフの横軸の４は、ＡＩＲＥによる順位付けを、図１０の列６０及び列６４に示す、「MARITIME」語彙による順位付けと、結合した場合である。ここでは、再度の順位付けをした文書の中の適切な文書の数が、より増えている。

再度の順位付けをした文書の中の適切な文書の数が、更に増えているのは、図１１の列６０及び列６６に示す、「MARITIME」語彙のみによる順位付けに基づく、横軸の５である。上位の５個に順位づけられた文書のうち、適切な文書は５個であった。上位の１０個に順位づけられた文書のうち、適切な文書は１０個であった。上位の１５個に順位づけられた文書のうち、適切な文書は１２個であった。上位の２０個に順位づけられた文書のうち、適切な文書は１２個であった。上位の３０個に順位づけられた文書のうち、適切な文書は１３個であった。

図１２に最良に示している通り、本願発明により、有利には、利用者は、文書データベースから取得した文書を再度順位付けして、上位に再度位置付けられた文書のうち、より多くのものが、適切な文書であるようにできる。語彙を利用者の検索問い合わせに基づいて作るか、既存の語彙を選ぶかする。新しく作った語彙を分析することにより、個々の語の重要度を識別し、かつ、問題のある語も識別する。適切な語及び不適切な語を識別するのは、利用者の検索問い合わせ、適用できる算法、及び、利用者からの入力に基づく。加えて、語の適切度に基づいて、適切な文書及び不適切な文書を識別する。不適切な文書を、順位付けの最下位に落とす。

図１３を参照する。本願による方法を、計算機に基づくシステム１５０によって実装してもよい。これにより、文書データベースの文書を処理する。図１３に示す、計算機に基づくシステム１５０は、第１の区画１５２、第２の区画１５４、第３の区画１５６、及び第４の区画１５８を含む。第１の区画１５２は、情報取得システムを用いて、かつ、利用者の検索問い合わせに基づき、取得した文書の最初の順位付けを生成する。第２の区画１５４は、取得した文書の少なくとも部分における語彙語の出現に基づき、複数の語彙語を生成する。第３の区画１５６は、語彙語の出現及び利用者の検索問い合わせに基づき、語彙語のそれぞれの適切度を生成する。第４の区画１５８は、語彙語の適切度に基づき、取得した文書の再度の順位付けを生成する。表示器１６０が計算機に基づくシステム１５０に接続する。これにより、再度の順位付けを行った文書を表示する。

本願発明の別の観点は、利用者が、文書データベースにおいて文書を範疇分けすることを助けるための方法に向けられている。この文書とは、情報取得システムが動作して、利用者の検索問い合わせに応答した結果でもよい。代わりに、この文書は、選択したウェブサイトの文書を観察することに応じて集めた文書でもよく、会話（即ち音声ファイル）、電子メールの通信、及びニューズグループのやり取り等を観察することに応じて集めた文書でもよい。これらは例である。どのように文書が利用者にもたらされたかには関係なく、これらの文書が文書データベースを形成する。

図１４を参照する。ここでは、文書データベースにおける複数の文書について、領域識別を決定するための方法について説明する。この方法は、区画２００から始まる。まず、各文書について、語彙語を決定する。これが区画２０２である。

各文書について、語彙語を決定するには、いくつかの方法がありうる。１つのやり方は、単純に、各文書の中の全ての語を用いることである。別のやり方は、特定の意味の語を選ぶ単語抽出器を用いることである。

更にまた別のやり方は、語彙をその場で作ることである。例えば、Ｍ個の文書の中から、Ｎ個の文書を選ぶとする。当然、Ｍ＞＝Ｎである。このＮ個の文書が、文書データベースを形成する。代わりに、語彙を特定の文書から作る。例えば、利用者が、適切な文書の一覧を指定する。適切な文書のこの一覧を、前述の計算機が実装する方法に与える。これにより、文書の処理を行って、この文書の一覧から、語彙を作る。利用者が適切な文書を指定する度に、その文書の中の語が語彙に加えられる。比べると、特定の文書から語彙を作るほうが、語彙をその場で作るよりも、よりよい文書の順位付けにつながる。

各文書について語彙語を決定したら、複数の文書において、各語彙語の出現に基づき、各語彙語のそれぞれについての適切度を決定する。これが区画２０４である。

前述の通り、語彙語のそれぞれの適切度を、統計に基づいて決めてもよい。例えば、語彙語の適切度は、複数の文書において、各語彙語が何回使われているかに基づいてもよい。また、語彙語の適切度は、複数の文書のうちの何個が、語彙語の各々を用いているかに基づいてもよい。別の統計は、語を数えた結果に基づいて、語彙語の各々について、文書あたりの語の比率を生成することに基づく。また、文書あたりの語の比率がある閾値より低い場合には、複数の文書の間の類似度を決定するときに、その語の適切度を用いない。

特定の語彙語の適切度を判断するためのまた別のやり方は、利用者が決めてもよい。代わりに、適切度の評価結果因子を決めてもよい。そして、各語彙語の適切度のそれぞれは、この適切度の評価結果因子に更に基づいてもよい。適切度の評価結果因子は、例えば、利用者の検索の問い合わせに基づいてもよく、又は、算法に基づいてもよい。

区画２０６で、複数の文書の間の類似度を、語彙語と語彙語のそれぞれの適切度とに基づいて、決定する。１つのやり方では、このことは、語彙語の上位セットを定義するために、語彙語のそれぞれの適切度に基づいて、語彙語の少なくとも部分を選択することを含む。ここで語彙語の上位セットは、複数の文書の間の類似度をよりよく示す。言い換えれば、文書データベースにおける文書からの、適切度の順序で上位のＸ個の語を選んで、語彙語の上位セットを定義する。ここで例えば、Ｘを１００とする。

類似度は、上位の１００語の中で、適切度が高い単語を識別することに基づいてもよい。加えて、類似度は、上位の１００個の語彙語における語の並びに基づいてもよい。語の並びは、ｎ個の単語の句（ｎ＞＝２）を含む。例えば、「ＮｅｗＹｏｒｋＣｉｔｙ」（ニュー・ヨーク市）という句は、３個の単語の句である。

類似する文書について、少なくとも１つの領域識別を決定する。これが区画２０８である。領域識別を決定するために、数多くの方法を用いることができる。１つのやり方は、領域識別を利用者に決定させることである。別のやり方は、計算機が、重なり合う語彙語に基づいて、領域識別を決定することである。

領域識別を決定するための、また別のやり方は、既定の領域識別に対応する語彙語を決定し、次に、文書についての語彙語（例えば上位の１００語）と、この既定の領域識別に対応する語彙語との間の類似度を決定することである。既定の領域識別は、既定の領域識別に対応する語彙語に類似している語彙語を持つ文書に割り当てられる。既定の領域識別に対応する語彙語は、例えば、利用者が定義するものでもよく、又は、既定のものでもよい。この方法は区画２１０で終わる。

図１５及び図１６を参照する。例示の目的のために、「CANCER」に向けられた利用者の問い合わせに基づいて、文書データベースの例を作ってもよい。集めた文書は、様々な「CANCER」についての問い合わせの結果によるものである。文書を集め終わったら、集めた文書の各々からの語彙語を決定する。また、各語彙語の適切度のそれぞれを、文書の集積における語彙語の出現に基づいて、決定する。語彙語と、語彙語の各々の適切度とを、共に決定し終わったら、その上位の語を用いて、「CANCER」に向けられた語彙語の上位セットを定義する。この様子を図１５の画面及び図１６の画面に示す。

「CANCER」を記述する語を、例えば、語彙の上位１００語に限ってもよい。言い換えれば、選択した文書からのみ構成される「CANCER」語彙を定義する。各語彙語の重要性（適切度等）も、図１５の画面及び図１６の画面に示している。

図１５の画面及び図１６の画面は、上位の語（１８１の列）が、適切度の観点でどのように設定されているかを示す。この文書において各語彙語１８１が使われている回数を、列１８２に示す。その語を使っている文書の数を、列１８４に示す。文書あたりの語の比率を列１８６に示す。

ところで、ここで大切なのは、語１８１の適切度を決定することである。適切である度合いを示しているのが列１８８である。不適切である度合いを示しているのが列１９０である。列１９２では、総合的な適切度を、数値―１から１までの範囲で決定している。適切度が利用者によく判るために、閾値を決めてもよい。例えば、適切度が０．５以上である語を、強調表示してもよい。ただしこれは図示していない。勿論、利用者には、この閾値を変える選択肢があり、必要に応じて「CANCER」語彙に語を追加したり、「CANCER」語彙から語を削除したりする選択肢もある。適切度の値が０以下である語を、「CANCER」語彙から削除してもよい。

図１５の画面及び図１６の画面に部分的に示している「CANCER」語彙語に基づいて、「CANCER」に関する文書を、異なる範疇、即ち、異なる領域識別に、分離してもよく、又は、集団化してもよい。

図１７〜図１９に示す画面を参照する。３つの範疇を作った。即ち、図１７は、「SKIN CANCER」の範疇を示す。図１８は、「BRAIN CANCER」の範疇を示す。図１９は、「BREAST CANCER」の範疇を示す。この３つの範疇の各々は、「CANCER」語彙を用いている。例示している語、及び、従ってこれらの語に関連する文書は、これらの範疇の各々についての「CANCER」語彙の問い合わせのそれぞれに基づいている。それぞれの問い合わせの結果として、適切である度合いを示している列１８８、不適切である度合いを示している列１９０、及び総合的な適切度を示している列１９２の値は、それぞれの範疇で異なっている。図１７〜図１９に示す画面における語彙語に基づいて、これらの語に関連する文書には、それぞれの領域識別が与えられる。

前述の通り、文書は、ウェブサイトの文書、電子メールの通信、及び、文章以外の文書であって関連するメタデータを有するものを含んでもよい。文章以外の文書は、動画像ファイル、静止画像ファイル、及び音声ファイルを含んでもよい。例えば、選んだ期間に渡って集めた新聞記事を範疇分けしてもよい。しかし、記事の多くは画像だけかもしれない。そのような場合は、画像に付随するメタデータを用いて、領域識別のために必要な語彙語を集めてもよい。同様に、動画に付随するメタデータを用いて、領域識別のために必要な語彙語を集めてもよい。静止画像のファイルは、例えばＪＰＥＧ形式であってもよい。動画像のファイルは、例えばＭＰＥＧ形式であってもよい。音声のファイルは、例えば次の形式であってもよい：マイクロソフト（登録商標）波形形式（ＷＡＶ）；音声交換ファイル形式（ＡＩＦＦ）；及び、資源交換ファイル形式（ＲＩＦF）。

本発明の別の観点は、計算機可読媒体に向けられている。この計算機可読媒体は、前述の通り定義した、文書データベースにおいて文書を処理することを、計算機に行わせるための、計算機が実行できる命令を含む。本発明のまた別の観点は、前述の通り定義した、文書データベースにおいて文書を処理するための、計算機が実装するシステムに向けられている。

本願発明による、文書データベースにおいて文書を処理するための流れ図である。本願発明による、最初の問い合わせ表示画面である。本願発明による、新しい語彙を立ち上げるための表示画面である。本願発明による、既存の語彙を用いるための表示画面である。本願発明による、語彙「PIRACY」を用いる問い合わせ結果を示す表示画面である。本願発明による、選んだ文書からの語の一覧を示す表示画面である。本願発明による、選んだ文書からの語の一覧を示す表示画面である。本願発明による、選んだ文書からの語の一覧の別の版を示す表示画面である。本願発明による、異なる順位付けパラメーターについての文書の順位付けを示す表示画面である。本願発明による、異なる順位付けパラメーターについての文書の順位付けを示す表示画面である。本願発明による、異なる順位付けパラメーターについての文書の順位付けを示す表示画面である。本願発明による、異なる順位付けパラメーターについての文書の順位付けを示す表示画面である。本願発明による、異なる順位付けパラメーターによって提供される、取得した文書における適切な文書の数を示す棒グラフである。本願発明による、文書データベースにおいて文書を処理するための、計算機に基づくシステムの区画図である。本願発明による、文書データベースにおいて文書を範疇分けするための流れ図である。本願発明による、文書データベースにおける文書からの語彙語を示す表示画面である。この語彙語を用いて、文書を範疇分けする。本願発明による、文書データベースにおける文書からの語彙語を示す表示画面である。この語彙語を用いて、文書を範疇分けする。本願発明による、文書データベースにおける文書からの語彙語を示す表示画面である。この語彙語を用いて、文書を範疇分けする。本願発明による、文書データベースにおける文書からの語彙語を示す表示画面である。この語彙語を用いて、文書を範疇分けする。本願発明による、文書データベースにおける文書からの語彙語を示す表示画面である。この語彙語を用いて、文書を範疇分けする。

Claims

プロセッサ及び該プロセッサに実行可能なように接続されたディスプレイを有する、計算機により実装されるシステムを用いて文書データベースにおいて複数の文書を処理するための方法であって、
前記複数の文書の、文書の各々について、語彙語を決定すること；
前記複数の文書において、前記語彙語の出現に基づいて、前記語彙語の各々について、それぞれの適切度を決定すること；
前記語彙語の複数の上位セットを定義するために、前記語彙語のそれぞれの前記適切度に基づいて、前記語彙語の部分を選択することにより、前記語彙語と前記語彙語のそれぞれの前記適切度とに基づいて、前記複数の文書の間の類否を決定すること、ここで、前記語彙語の前記複数の上位セットは、前記複数の文書の間の類似性を示すために用いられる；及び
前記決定した類否に基づいて、前記語彙語の前記複数の上位セットについて複数の領域識別を決定すること；
を実行するように、事前計算の必要なく、前記プロセッサを動作させる段階、並びに
決定された前記語彙語の前記複数の上位セットを表示させるように前記ディスプレイを動作させる段階であって、前記複数の文書の中の前記語彙語の出現に基づいた、適切及び不適切なものとしての前記語彙語の数値による表示を含み、前記語彙語の前記複数の上位セットは、前記語彙語の数値による表示に基づいて、ユーザ又は前記プロセッサにより、異なる領域識別へとグループ分けされることができる、段階
を含む方法。
前記全体的な領域識別を、下位の領域識別に、前記下位の領域識別の各々に関連する語彙語を選択することに基づいて、分割するように前記プロセッサを動作させる段階を更に含み、前記下位の領域識別の各々に関連する前記語彙語の前記適切度は、前記下位の領域識別の各々について、類似する文書が共に集団化するように変化する、請求項１による方法。
前記語彙語の各々について、それぞれの適切度を前記決定することは：
前記複数の文書において、前記語彙語の各々が何回用いられているかを計数すること；及び
前記複数の文書のうちの何個が、前記語彙語の各々を用いているかを計数すること；
を含む、請求項１による方法。
前記計数に基づいて、前記語彙語の各々について、文書あたりの語の比率を生成するように前記プロセッサを動作させる段階を更に含み、文書あたりの語の前記比率が閾値より低い場合には、前記複数の文書の間の前記類否を前記決定する場合に、前記語彙語の前記適切度を用いない、請求項３の方法。
文書データベースにおいて複数の文書を処理するための、プロセッサ及び該プロセッサに実行可能なように接続されたディスプレイを有する、計算機により実装されるシステムであって、
前記プロセッサは複数の区画を有し、該複数の区画は：
前記複数の文書の、文書の各々について、事前計算の必要なく、語彙語を決定できる第１の区画；
前記複数の文書において、前記語彙語の出現に基づいて、前記語彙語の各々について、事前計算の必要なく、それぞれの適切度を決定できる第２の区画；
前記語彙語の複数の上位セットを定義するために、前記語彙語のそれぞれの前記適切度に基づいて、前記語彙語の部分を選択することにより、前記語彙語と前記語彙語のそれぞれの前記適切度とに基づいて、事前計算の必要なく、前記複数の文書の間の類否を決定できる第３の区画、ここで、前記語彙語の前記複数の上位セットは、前記複数の文書の間の類似性を示すために用いられ、前記語彙語の前記複数の上位セットは、前記語彙語の前記複数の上位セットに関連する全体的な領域識別を有する；及び
前記決定した類否に基づいて、事前計算の必要なく、前記語彙語の前記複数の上位セットについて複数の領域識別を決定できる第４の区画；
を有し、
前記ディスプレイは、前記複数の文書の中の前記語彙語の出現に基づいた、適切及び不適切なものとしての前記語彙語の数値による表示を含む、決定された前記語彙語の前記複数の上位セットを表示でき、前記語彙語の前記複数の上位セットは、前記語彙語の数値による表示に基づいて、ユーザ又は前記プロセッサにより、異なる領域識別へとグループ分けされることができる、
システム。
前記プロセッサは、前記全体的な領域識別を、下位の領域識別に、前記下位の領域識別の各々に関連する語彙語を選択することに基づいて、分割できる第５の区画を更に含み、前記下位の領域識別の各々に関連する前記語彙語の前記適切度は、前記下位の領域識別の各々について、類似する文書が共に集団化するように変化する、請求項５による、計算機により実装されるシステム。
前記語彙語の各々について、それぞれの適切度を決定するための前記第２の区画は：
前記複数の文書において、前記語彙語の各々が何回用いられているかを計数すること；及び
前記複数の文書のうちの何個が、前記語彙語の各々を用いているかを計数すること；
を含む、請求項５による、計算機により実装されるシステム。
前記第２の区画は、前記計数に基づいて、前記語彙語の各々について、文書あたりの語の比率をさらに生成でき、文書あたりの語の前記比率が閾値より低い場合には、前記複数の文書の間の前記類否を前記決定する場合に、前記語彙語の前記適切度を用いない、請求項７による、計算機により実装されるシステム。