Nothing Special   »   [go: up one dir, main page]

JP2004534324A - 索引付きの拡張可能な対話的文書検索システム - Google Patents

索引付きの拡張可能な対話的文書検索システム Download PDF

Info

Publication number
JP2004534324A
JP2004534324A JP2003511133A JP2003511133A JP2004534324A JP 2004534324 A JP2004534324 A JP 2004534324A JP 2003511133 A JP2003511133 A JP 2003511133A JP 2003511133 A JP2003511133 A JP 2003511133A JP 2004534324 A JP2004534324 A JP 2004534324A
Authority
JP
Japan
Prior art keywords
document
documents
search
word
interactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003511133A
Other languages
English (en)
Inventor
フランク・マイク
ミヒャエル・ヴィールシュ
Original Assignee
コギズム・インターメディア・アーゲー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コギズム・インターメディア・アーゲー filed Critical コギズム・インターメディア・アーゲー
Publication of JP2004534324A publication Critical patent/JP2004534324A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

統合された、自動的かつ開かれた情報検索システム(100)は、自動テキストカテゴリ化のための言語的および数学的手法に基づいたハイブリッド方法を備える。このシステムは、自動コンテンツ認識技術を索引付きカテゴリの自己学習階層方式と組み合わせることによって、従来のシステムの問題を解決する。リクエスタによって提出された単語に応答して、前記システム(100)は、その単語を含む文書を検索し、この文書を解析してそれらの単語対パターンを決定し、この文書のパターンを、トピックに関係付けられるデータベースのパターンと突き合わせ、それによりトピックを各文書に割り当てる。検索された文書が複数のトピックに割り当てられる場合、文書のトピックのリストがリクエスタに提示され、リクエスタは関連トピックを指定する。次いで、リクエスタに、関連トピックに割り当てられた文書のみへのアクセスが認可される。サーチ語を文書へ、かつ文書をトピックへリンクさせる知識データベース(1408)が確立され、将来のサーチの速度を増すために保守される。加えて、変更されるウェブサイトの異なる更新頻度に対処するための新しい方法が提示される。

Description

【技術分野】
【0001】
本発明は一般に、高速アクセスを有する情報検索(IR)システムの分野に関し、特に、自動テキストカテゴリ化技術を使用してアクセス可能な文書を検索して、高速ネットワーク環境内のサーチ問合せ結果の提示をサポートするための、インターネットおよび/または企業イントラネットドメインに適用されたサーチエンジンに関する。
【背景技術】
【0002】
複数の企業ネットワークを用いて、また特にインターネットを介してアクセスすることができる公開情報の量が増加し続けるにつれて、人々によるこれらのリソースのよりよい発見、フィルタリングおよび管理を助けることへの関心が高まりつつある。前記ネットワークは若く、動的でまだそれほど標準化されていない市場に相当するため、大量の非構造化文書およびテキスト素材を含んでいる。特に、インターネットは開かれた媒体として誰もが自由にアクセス可能であり、大部分はまだ使用されていない巨大な知識ベースに相当し、これは、記憶された情報の検索のための構文規則がまったくないからである。
【0003】
インターネット(および他のネットワーク)の不十分な情報構造は、しばしば批判されている。さらに、サーチエンジンはしばしば範囲において失敗し、あるいは公開物へのリンク切れを提示する。ユーザが実際に発見したいものを見つけることができないか、あるいはユーザは、入力したサーチ問合せの結果を受信するとき、多数の不適当なマッチによって負担を受ける。所望の情報は場合によってはこれらのネットワーク内で入手可能であるが、容易に得ることはできない。同時に、適格な情報の可用性への需要が、商用および個人的分野において急速に増している。したがって、デジタル媒体の効率的な索引付け、検索および管理は、インターネットおよび複数のイントラネットドメイン内で入手可能な莫大な量のデジタル情報のために、ますます重要になりつつある。
【0004】
テキスト文書の手動索引付け
図書館員および他のトレーニングを受けたプロは何年間も新しい項目の手動索引付けに取り組んできており、これにはMedical Subject Headings(MeSH)、デューイ10進法、Yahoo!またはCyberPatrolの範囲内など、管理された語彙を使用している。たとえば、Yahoo!は現在、人間の専門家を使用してその文書を手動でカテゴリ化している。同様に、West Groupなど、法的な出版社では、法的文書が人間の専門家によって手動で索引付けされている。このプロセスは非常に時間およびコストがかかり、したがってその適用可能性が制限される。したがって、自動テキストカテゴリ化のための技術の開発への関心が高まっている。エキスパートシステムで使用されるものに類似したルールベースの手法は一般的であるが(1990年のHayesおよびWeinsteinの、ニュース記事分類用のCONSTRUEシステムを参照)、これらは一般にルールの手動構築を必要とし、カテゴリメンバーシップについての厳格な二分決定を行い、通常は修正が困難である。
【0005】
自動テキストカテゴリ化
異なる分野の知識において入手可能な情報の増加量により、上述のプロセスの部分を自動化する必要性が生じる。自然言語の統計パターンに基づいた自動索引付けアルゴリズムは、1960年代および1970年代中に現れた。1980年代中に、いくつかのシステムがコンピュータ支援索引付けのために作成された。1980年代後期中に、いくつかのエキスパートシステムが適用されて知識ベースの索引付けシステムが作成され、これはたとえば、National Library of MedicineでのMedIndeEx System(Humphrey、1988年)である。1990年代は、ワールドワイドウェブ(WWW)の出現によって特徴付けることができ、これにより潜在的に有用な大量の情報が入手可能になっている。WWWによって生じた情報過多は、ユーザが大量の文書をフィルタリングする助けとなる可能性のある、信頼性のある自動索引付け方法の作成を促している。今日、世界中の何人かの研究者は、自動テキストカテゴリ化の問題を、2つの主要な手法を使用することによって解決しようと試みている。すなわち第1に、人間のコミュニケーションにおいて使用されるルールを取り込んでシステムに適用すること、および第2に、すでにカテゴリ化済のテキスト素材のトレーニングセットから、カテゴリ化ルールを自動的にトレーニングするための方法を使用することである。以前の類似の作業は主に音声認識、たとえば、自動電話サービスの範囲内に関係していた。このために、いくつかのトピックが事前定義され、認識システムがトピックを入力テキストから検出しようと試みる。トピックが検出された後、テキストのための統計モデルが適用されて、音声認識のプロセスが支援される。
【0006】
一般に、自動分類方式は本質的に、カテゴリ化のプロセスを容易にすることができる。自動テキストカテゴリ化のプロセス、すなわち、電子的にアクセス可能な自然言語テキスト文書のアルゴリズム的解析、および、前記文書のコンテンツを簡潔に述べる、事前に指定されたトピックのセット(カテゴリまたは索引語)への自動割り当ては、複数の情報編成および管理タスクにおける重要なコンポーネントである。現在までのその最も広く行き渡った適用は、主題カテゴリを入力文書に割り当てるためのテキスト検索、ルーティングおよびフィルタリングのサポートである。自動テキストカテゴリ化は、幅広い範囲のより柔軟性のある、動的でパーソナライズされた情報管理タスクにおいても、重要な役割を果たすことができる。
【0007】
これらのタスクには、以下が含まれる。
-電子メールまたは他のテキストファイルを、事前定義されたフォルダ階層にリアルタイムでソートすること、
-トピック特有の処理オペレーションをサポートするためのテーマ識別、
-サーチおよび/またはブラウジング技術の構築、および
-静的な長期の関心またはより動的なタスクベースの関心を参照する文書を発見すること。
【0008】
いずれの場合も、分類技術は、デューイ10進法または米国議会図書館分類システム、Medical Subject Headings(MeSH)またはYahoo!のトピック階層のように、非常に一般的で、一般に受け入れられ、比較的静的であるカテゴリ構造、ならびに、より動的で個別の関心またはタスクに合わせてカスタマイズされるカテゴリ構造をサポートすることができるべきである。
【0009】
現況技術の簡単な説明
現況技術によれば、自動テキストカテゴリ化の問題への異なる解決法がすでに入手可能であり、それぞれが特定の適用環境に合わせて最適化されている。これらの解決法は言語的および/または数学的手法に基づいている。これらの解決法を前記標準に関して説明するために、情報検索、手動索引付けおよび自動テキストカテゴリ化の最も重要な従来の技術を簡単に説明することが必要である。
【0010】
最も初期の情報検索システムは、何千もの文書の全文を含むメインフレームコンピュータであった。これらには、タイムシェアリング端末からアクセスすることができた。1960年代初期に開発された、このタイプの最も初期のシステムは、単語のリストを取り、指定された単語を含む文書について、文書のテープライブラリ中を線形サーチした。
【0011】
1960年代中期から後期までに、より高度なシステムが最初に、文書のセット内でのサーチ可能な単語の単語索引または用語索引を開発した(「of」、「the」および「and」など、サーチ不可能な単語を除く)。用語索引は各単語について、その単語を含むすべての文書の文書番号を含んでいた。いくつかのシステムではこの文書番号に、その単語が対応する文書内で現れた回数が付けられて、各単語の各文書への関連性の大雑把な尺度としての機能を果たした。このようなシステムは単にリクエスタに単語のリストを入力することを要求し、次いでシステムが各文書への関連性を計算し、割り当て、文書を検索し、リクエスタに関連性の順序で表示した。このようなシステムの一例は、カナダのQueens UniversityのHugh Lawfordによって開発されたQuicLawシステムであった。そのシステムにおける句のサーチは、文書を検査し、文書が検索された後に句について走査することによって行われ、したがってこれらの句のサーチは低速であった。
【0012】
Jerome RubinおよびEdward Gotsman他によって開発されたMead Data CentralのLEXISシステムなど、他のシステムは、その用語索引に各単語についてのエントリを含め、これは(その単語を含む文書の)文書番号と共に、その単語が現れる文書の文節を識別する文書文節番号、および、文節内でその単語が他の単語に対して現れた所を識別する単語位置番号をも含んだ。
【0013】
West GroupのWESTLAWシステムは、数年後にWilliam Voedisch他によって開発され、各単語についての用語索引エントリに以下を含めることによってこれを改良した。
-段落番号(単語が文節内で現れた所を示す)、
-文番号(単語が段落内で現れた所を示す)、および
-単語位置番号(単語が文内で現れた所を示す)。
【0014】
これらの2つのシステムは今日でもなお使用されており、論理結合子または演算子のAND、OR、AND NOT、w/seg(同一文節内)、w/p(同一段落内)、w/s(同一文内)、w/4(互いの4単語内)、およびpre/4(4単語だけ先行)を、形式的で複雑なサーチ要求を書くために使用することを許可している。丸括弧により、これらの論理演算の実行の順序を制御することができる。
【0015】
別のクラスのシステム、特に今日でもなお使用されている対話システムは、初期のNASA RECONシステムから生じており、このシステムは、以前に実行されたサーチに名前を割り当て、これらのサーチを、後に実行されるサーチに参照により組み込むことができるようにした。
【0016】
プロの図書館員および法的研究者はこれらの3つのシステムをすべて正規に使用する。しかし、これらの専門家は何週間、何ヶ月もトレーニングして、丸括弧および論理演算子を含む複雑な問合せを公式化する方法を学習しなければならない。一般のサーチ者はこれらの強力なシステムを使用して同じ度合いの成功を得ることはできず、これは彼らが演算子および丸括弧の適切な使用のトレーニングを受けておらず、サーチ問合せを公式化する方法を知らないからである。これらのシステムはまた、他の望ましくない特性も有する。ORによって結合された多数の単語および句についてサーチするように求められるとき、これらのシステムはあまりにも多数の望ましくない文書を再現する傾向があり、これらの精度は不十分である。AND演算子および単語の近接演算子をサーチ要求に追加することによって精度を改善することができるが、次いで関連文書を逃す傾向があり、したがってこれらのシステムの再現率が損なわれる。トレーニングを受けていないサーチ者がこれらのシステムを使用できるようにするために、さまざまな人工知能方式が開発されており、これらは初期のQuicLawシステムのように、単にリクエスタに単語のリストまたは文を入力することを許可し、次いで文書のあるランキングおよび作成物を作成する。これらのシステムはさまざまな結果を生じ、特に信頼性があるものではない。いくつかのシステムはリクエスタに、特に関連する文書を選択するように求め、次いで、その文書が含む単語を使用して、これらのシステムは類似の文書を発見しようと試み、これもまたむしろ混合された結果を生じる。
【0017】
WESTLAWシステムはまた、その文書のいくつかの形式的な索引付けをも含み、各文書をトピックに割り当て、各トピック内で、トピックの概要内の位置に対応するキー番号に割り当てる。しかし、この索引付けは、熟練したインデクサによって各文書が手動で索引付けされているときにのみ使用することができる。WESTLAWシステムに追加された新しい文書もまた、手動で索引付けされなければならない。他のシステムは各文書に、その文書を識別および特徴付ける助けとなる単語および/または句を含む文節またはフィールドを提供するが、この索引付けも手動で行われなければならず、検索システムはこれらの単語および句を、この文書内の他の単語および句に行うものと同じ方法で処理する。インターネットの発達により、ウェブクローラーが開発されており、これはウェブをサーチして、合計で何千ものウェブページの用語索引に達するものを作成し、文書をそれらのURL(ユニフォームリソースロケータまたはウェブアドレス)によって、ならびに、文書が含む単語および句によって、かつ文書の作者によって各文書の特殊フィールドにオプショナルで入れられた索引語によっても索引付けする。
【0018】
機械学習技術の理論的背景
機械学習アルゴリズムは、多数の問題の解決において大変成功することが判明しており、たとえば、音声認識における最良結果がこのようなアルゴリズムで得られている。これらのアルゴリズムは、解決するべき問題の空間においてサーチを実行することによって学習する。2種類の機械学習アルゴリズムが開発されており、すなわち、教師あり学習および教師なし学習である。教師あり学習アルゴリズムは、トレーニング例のセットから目的の機能を学習し、次いで学習した機能を目標セットに適用することによって動作する。教師なし学習は、目標セットの複数の要素の間で有用な関係を発見しようと試みることによって動作する。
【0019】
自動テキストカテゴリ化を、教師あり学習問題として特徴付けることができる。まず、例示的文書のセットを人間のインデクサによって正確にカテゴリ化しなければならない。次いで、このセットが使用されて、機械学習アルゴリズムに基づいて分類子がトレーニングされる。前記トレーニングを受けた分類子を後に、目標セットをカテゴリ化するために使用することができる。
【0020】
従来の文書カテゴリ化技術は、異なる手法に従事する。一般に、2つの異なる手法のアルゴリズムを区別することができる。一方では、自動文書カテゴリ化についての多数の解決の試みは、むしろ言語的手法に基づいている。他方では、数学的および統計的手法の提案者は、これらの手法もまたよい結果を生じると主張している。
【0021】
判断ツリー(Moulinier、1997年)、ニューラルネットワーク(Weiner他、1995年)、線形分類子(Lewis他、1996年)、k-最近傍アルゴリズム(Yang、1999年)、サポートベクトルマシン(Joachims、1997年)、およびナイーブベイズ分類子(LewisおよびRinguette、1994年、McCallum他、1998年)など、異なる機械学習アルゴリズムが、テキストカテゴリ化システムを構築するために探究された。これらの研究の大部分は、索引付け語彙の階層構造に関して分類子を構築する。最近、何人かの作者(KollerおよびSahami、1997年、McCallum他、1998年、Mladenic、1998年)は、索引付け語彙の階層構造の探究および使用を開始している。
【0022】
文法構造を用いた自動コンテンツ認識(言語的手法)
テキストカテゴリ化システムは通常、文法構造の認識を用いて、解析されるべき文書のコンテンツを抽出しようと試み、これは文またはその部分を意味する(たとえば、加えて、判断ツリー、最大エントロピーモデリング、または、ニューラルネットワークのパーセプトロンモデルのような数学的手法を適用することによる)。それにより、文の個々の部分が分離され、最終的に文のコアステートメントが決定される。文書のすべての文のコアステートメントがうまく決定された場合、文書のコンテンツを、高い確率で認識することができ、特定のカテゴリに割り当てることができる。
【0023】
このような手順をうまく使用できるようになる前に、これらの手順の発明者およびプログラマは、どの単語の組合せが特定のトピックを指すかについて考えておかなければならない。これは主として言語学者のタスクであるため、これらの手順は言語的なベースの手順と呼ばれる。これらは通常、非常に複雑なアルゴリズムを使用し、技術的リソース(たとえば、プロセッサのパフォーマンスおよび記憶容量に関するもの)を高く要求する傾向がある。それにもかかわらず、文書のコンテンツ関係のカテゴリ化、および、それによりカテゴリへの割り当てをうまく処理しても、平均的な成功しか得られない。
【0024】
統計的技術を用いた自動コンテンツ認識(数学的手法)
自動認識問題を解決するための数学的手法は通常、統計的技術およびモデル(たとえば、ベイズモデル、ニューラルネットワーク)を適用する。これらは、「文字列」と呼ばれる、英数字および/またはその組合せの確率の統計的評価に依拠する。理論上、特定のトピックを参照する文書を、特定の文字列の存在を決定することによって区別することができると仮定される。どの文字列が特定のトピックとの関連において頻繁に発生するかを調べた後、どのトピックが特定の文書内で扱われるかを認識することができる。しかし、前記統計的手法は、どの文字列が特定のトピックを頻繁に参照するかが、あらかじめ認識されていることを必要とする。したがって、この手法では、解析および評価されなければならない多数の文書が必要とされる。あらかじめ、解析されなければならない各文書は、1つまたは複数のトピックに明らかに割り当てられていなければならない(たとえば、アーカイビストまたは他の権威者による)。次いで、これらの文書の特定の特徴(特定の英数字の組合せの頻度を意味する)が解析され、格納される。その後、所望の各カテゴリについて、いわゆる「抽出物」が作成され、永続的にデータベース内に格納される。システムが、特定の英数字の組合せが高い確率で特定のトピックに属することを学習しているとき、新しい文書を前記抽出物と比較することができる。新しい文書が、格納済の抽出物のうち1つとの類似性(すなわち、特定の文字列の類似の頻度分布)を示す場合、この新しい文書が同じカテゴリに属する確率は高い。
【0025】
ラベル付きトレーニングデータを使用する、分類子を自動的に作成するための帰納的学習技術を適用する上述の方法は、頻繁に適用される。テキスト分類は帰納的学習方法についての多数の課題をもたらし、これは、何百万もの単語の特徴が存在する可能性があるからである。しかし、結果として生じる分類子には多数の利点がある。すなわち、これらの分類子の構築および更新がしやすく、提供しやすい情報にのみ依存し(カテゴリ内または外である項目の例を意味する)、個人が関心を有する特定のカテゴリに合わせてカスタマイズすることができ、ユーザが円滑に精度および再現をそれらのタスクに応じて評価することができる。ますます多くの統計的分類および機械学習技術がテキストカテゴリ化に適用されており、これには、多変数回帰モデル(Fuhr他、1991年、YangおよびChute、1994年、Schutze他、1995年)、k-最近傍分類子(Yang、1994年)、確率的ベイズモデル(LewisおよびRinguette、1994年)、判断ツリー(LewisおよびRinguette、1994年)、ニューラルネットワーク(Wiener他、1995年、Schutze他、1995年)、および記号規則学習(Apte他、1994年、CohenおよびSinger、1996年)が含まれる。より最近では、Joachims(1998年)がサポートベクトルマシン(SVM)をテキスト分類のために探究しており、有望な結果を出している。
【0026】
分類子は、入力特徴ベクトルx:=(x1,...,xn)T∈IRnを確信fk(x)にマップする機能であり、そこから、入力特徴ベクトルxが、K個のクラスからなる集合C:={ck|k=1,...,K}の特定のクラスckに属するかどうかを導出することができる。テキスト分類の場合、これらの特徴は文書内の単語であり、クラスはテキストカテゴリに対応する。判断ツリーおよびベイズネットワークの場合、使用された分類子は、fk(x)が確率分布であるという意味で確率的である。
【0027】
基本的には多数の技術で、既知の(すでにテーマ的にカテゴリ化されていることを意味する)文書から特徴を抽出することによって、カテゴリ化が最初に学習されなければならないことが必要である。それにより、各場合において、どの特徴が好ましいとされるか、および、類似性計算がどのように実行されるかについて異なる。一般に、文書のプレクラスタリングおよびk-最近傍(k-NN)分類がこのために実行される。文字通り、自動テキストカテゴリ化作業の大部分は、いくつかの有名なテキストデータセットに基づいており、これらはOHSUMEDデータセット、REUTERS-21578データセット、およびTREC-APデータセットなどである。これらのデータセットでは、トレーニングを受けた専門家によってテキスト単位にトピックまたはカテゴリによるラベルが付けられ、したがってカテゴリ化設計が固定される。主要な研究は、異なる分類マシンを比較するために行われる。たとえば、異なる分類マシンを同じトレーニングおよびテストセットにおいてトレーニングおよびテストすることによって、これらのマシンを比較することができる。
【0028】
従来の分類方式の主な目的は、使用される分類子を、判断ツリー、ベイズネットワーク、およびサポートベクトルマシン(SVM)のような帰納的学習方法を用いてトレーニングすることである。これらを使用して、幅広いタスクにおいて柔軟性のある、動的な、パーソナライズされた情報アクセスおよび管理をサポートすることができる。線形SVMは特に有望であり、これは、線形SVMが大変正確かつ高速であるためである。これらのすべての方法では、少量のラベル付きトレーニングデータ(各カテゴリにおける項目の例を意味する)のみが入力として必要とされる。このトレーニングデータが、分類モデルのパラメータを「トレーニング」するために使用される。テストまたは評価段階では、モデルの有効性が、以前に見られていない事例においてテストされる。帰納的にトレーニングされた分類子は構築および更新しやすく、カテゴリ定義のカスタマイズを容易にし、これはいくつかの適用例では重要である。
【0029】
各文書は特徴ベクトルの形式x:=(x1,...,xn)T∈IRnにおいて表され、前記特徴ベクトルの成分xi(1≦i≦n)は前記文書の単語を表し、これは通常、情報検索のためのよく知られているベクトル表現において行われる(SaltonおよびMcGill、1983年)。前記学習アルゴリズムでは、特徴空間が実質的に減らされ、2項素性値のみが使用され、これは、単語が文書内で発生するか、発生しないかを意味する。効率および効果の理由で、機械学習方法をテキストカテゴリ化に適用するとき、特徴選択が幅広く使用される。特徴の数を減らすため、特定のカテゴリへのそれらの所属に基づいた少数の特徴が選択される。YangおよびPedersen(1997年)は、特徴選択のためのいくつかの方法を比較する。これらの特徴は、前述のようなさまざまな帰納的学習アルゴリズムへの入力として使用される。
【0030】
効率的な特徴選択を実行するための従来の手法
自動テキストカテゴリ化は主に2つの面としてカテゴリ設計および分類子設計を含み、これらが緊密に関連付けられる。一般に、統計的分類子のパフォーマンスは、マシン自体の固有の容量、ならびに、定義されたカテゴリの特徴選択および特徴ベクトル分布によって決まる。すなわち、各カテゴリ内で特徴ベクトルのより一貫した分布を、カテゴリ化設計を用いて達成することができる場合、単純な分類子が満足のいく分類精度を得ることははるかに容易である。
【0031】
上述のように、自動テキストカテゴリ化は主に分類問題である。文書セットにおいて発生する単語および/または単語の組合せは、分類問題についての変数または特徴となる。比較的中程度のサイズを有する複数の文書からなるセットは、何万という別個の単語の語彙を容易に有する可能性がある。文書特徴ベクトルxのサイズは通常大きすぎるので、機械学習アルゴリズムをトレーニングするために有用ではない。多数の既存のアルゴリズムは単に、この莫大な数の属性と共に機能しなくなる。したがって、文書の頻度、相互情報量または情報獲得に基づいた効率的な特徴選択方法が、単語の数を減らすために使用されなければならない。しかし、考慮される単語の数があまりにも減らされている場合、カテゴリ化のタスクのための決定的な情報が失われる可能性がある。標準的に、特徴選択の後の単語の数はなお、数千語の範囲内である可能性がある。テキストカテゴリ化のために潜在的に使用することができる、いくつかの分類方式がある。しかし、これらの既存の方式の多数は、上述の問題のためにテキストカテゴリ化のタスクにおいてうまく機能しない。
【0032】
多数の機械学習アルゴリズムのパフォーマンスおよびトレーニング時間は、問題を表すために使用される特徴の質に密接に関係付けられる。以前の作業(RuizおよびSrinivasan、1998年)では、頻度ベースの方法が、語の数を減らすために使用される。語または特徴の数は、大部分の機械学習アルゴリズムの収束およびトレーニング時間に影響を及ぼす重要な要素である。このため、語のセットを、最良のパフォーマンスを達成する最適なサブセットに減らすことが重要である。
【0033】
特徴選択のための2つの手法である、フィルタ手法およびラッパー手法(LiuおよびMotoda、1998年)が文献で紹介されている。ラッパー手法は、特定のアルゴリズムと共に使用するために最良の特徴サブセットを識別しようと試みる。たとえば、ニューラルネットワークでは、ラッパー手法は最初のサブセットを選択し、ネットワークのパフォーマンスを測定し、次いで、「改良された特徴のセット」を生成し、このセットを使用したネットワークのパフォーマンスを測定する。このプロセスは、終了状態(改良が所定の値より低いか、あるいはプロセスが事前定義された反復数に渡って繰り返されている)に達するまで繰り返される。次いで、特徴の最終セットが「最良セット」として選択される。フィルタ手法はより一般に使用されており、特定の学習アルゴリズムにかかわらず、データのみから特徴セットのメリットを査定しようと試みる。フィルタリング手法は、ランキング基準を使用して、トレーニングデータに基づいて特徴のセットを選択する。
【0034】
トレーニングセットのための特徴セットが識別された後、トレーニングプロセスが、(その特徴のセットによって表現された)各例を提示すること、および、トレーニングセットに含まれた知識のその内部表現をアルゴリズムに調整させることによって行われる。エポックと呼ばれる、トレーニングセット全体のパスの後、アルゴリズムは、そのトレーニング目標に達しているかどうかをチェックする。ベイズ学習アルゴリズムなど、いくつかのアルゴリズムは、単一のエポックのみを必要とし、ニューラルネットワークなど、他のアルゴリズムは、変換するための多数のエポックを必要とする。
【0035】
トレーニングされた分類子はこのとき、新しい文書をカテゴリ化するために使用される準備ができている。分類子は通常、トレーニングセットとは別個である文書のセットにおいてテストされる。
【0036】
以下では、自動テキストカテゴリ化によって与えられるような分類問題を解決するための、最も頻繁に使用される数学的手法を、典型的に要約するものとする。
【0037】
-パーセプトロンモデル:パーセプトロンは、あるタイプのニューラルネットワークであり、実数値の入力の特徴ベクトルx:=(x1,...,xn)T∈IRnを取り、これらの入力の線形結合を計算し、単一の出力値f(x)を生じる。この出力f(x)は、以下の形式の内積として計算される。
【0038】
【数1】
Figure 2004534324
【0039】
ただし、w:=(w1,...,wn)T∈IRnは実数値の重みベクトルであり、θは、f(x)を1に設定するために入力の重み結合によって超えられなければならないしきい値である。それにより、パーセプトロンモデルはトレーニングされたシステムに相当し、これは、入力パターンが2つのクラスのうち一方に属するかどうかを判断する。パーセプトロンモデルの学習プロセスは、wi(1≦i≦nについて)およびθの最良値を、トレーニング例の基礎的なセットに基づいて選択することを含む。幾何学的に言うと、2次元では、これらの2つのクラスを直線によって分離することができる。したがって、パーセプトロンは、直線的に分離可能である分類問題についてしかトレーニングすることができないという制限を有する。現代のニューラルネットワークは、1950年代および1960年代のパーセプトロンモデルおよび最小2乗平均(LMS)学習システムの派生物である。パーセプトロンモデルおよびそのトレーニング手順は、Rosemblatt(1962年)によって初めて紹介され、現在のバージョンのLMSはWidrowおよびHoff(1960年)による。MinskyおよびPapert(1969年)は、多数の問題が直線的に分離可能ではないこと、および、その結果、パーセプトロンおよび線形判別方法がこれらの問題を解決することができないことを証明した。この作業は、ニューラルネットワークにおける研究を阻むことにおいて著しい影響を与えた。たとえば、Rumelhart、HintonおよびWilliams(1986年)は、多層ニューラルネットワークを使用したバックプロパゲーション学習手順を紹介した。
【0040】
-判断ツリー分類:判断ツリーは、木を根ノードからある葉ノードまで下って事例をソートすることによって、事例を分類するために使用され、事例の分類を提供する。木における各ノードは、事例のいくつかの属性のテストを指定し、そのノードから降りる各枝は、この属性についての可能な値のうち1つに対応する。事例は、判断ツリーの根ノードで開始し、このノードによって指定された属性をテストし、次いで木を下ってこの属性の値に対応する枝に移動することによって、分類される。次いで、このプロセスがこの枝におけるノードで繰り返され、葉ノードに達するまでそのように行われる。C4.5のような幅広く使用されている判断ツリー帰納アルゴリズム、または、C4.5rulesおよびRIPPERなどのルール帰納アルゴリズムは、再帰的な分割アルゴリズムを用いて得ることができる判断ツリーを使用し、他と区別する特徴の数が多い場合にうまく機能しない。
【0041】
-ナイーブベイズ分類:ナイーブベイズ分類子は、分類エラーを最小限にするために使用されるメカニズムである。新しい文書特徴ベクトルxの文書特徴値xi(ただし1≦i≦n)が与えられると、トレーニングデータを使用して、各カテゴリck(1≦k≦Kについて)の確率を推定することによって、ナイーブベイズ分類子を作成することができる。このために、ベイズの定理が、以下によって与えられる所望のアポステリオリ(条件付き)確率P(ck|x)を推定するために適用される。
【0042】
【数2】
Figure 2004534324
【0043】
P(ck|x)はしばしば計算するには現実的でないので、特徴値xiは条件付きで独立していると、ほぼ仮定することができる。これにより計算が単純化され、以下を生じる。
【0044】
【数3】
Figure 2004534324
【0045】
ただし、上の公式で使用された変数は、以下のように定義される。
ck:参照ベクトルのセットによって表現された、事前定義されたクラスまたはカテゴリであり、その平均ベクトルm kおよびその共分散行列C k(ただしk∈{1,...,K})によって特徴付けることができる、
x:特定の文書についての特徴ベクトル(x∈IRn)、
xi:特徴ベクトルxのi番目の成分(1≦i≦n)、
P(x):特徴ベクトルxについてのアプリオリ(無条件)確率、
P(xi):特徴ベクトルxのi番目の成分についてのアプリオリ(無条件)確率、
P(ck):クラスckについてのアプリオリ(無条件)確率、
P(x|ck):特徴ベクトルxについてのアポステリオリ(条件付き)確率、前記特徴ベクトルxをクラスckに割り当てることができるという条件による、
P(xi|ck):特徴ベクトルxのi番目の成分についてのアポステリオリ(条件付き)確率、前記成分xiをクラスckに割り当てることができるという条件による、および
P(ck|x):クラスckについてのアポステリオリ(条件付き)確率、特徴ベクトルxを前記クラスckに割り当てることができるという条件による。
【0046】
Rainbowなど、ナイーブベイズ分類技術は一般にテキストカテゴリ化で使用されているにもかかわらず、前記独立性の仮定はそれらの適用可能性を大幅に制限する。次いで、K個のクラスの集合C:={ck|k=1,...,K}では、分類のために必要とされる決定則が以下によって与えられる。
【0047】
【数4】
Figure 2004534324
【0048】
ただし、特徴ベクトルxがクラスckに割り当てられ、最大のアポステリオリ(条件付き)確率P(ck|x)による。
【0049】
-最近傍分類:単一の参照ベクトルz kが各文書クラスck(1≦k≦Kについて)について適用される場合、特定の文書クラスckを表現するデータの分布を正確に述べることはできない。異なるクラス内のデータ分布のよりよい表現は、既知のクラス所属を有する多数の事前指定された参照ベクトルz r,k(1≦r≦Rかつ1≦k≦Kについて)が使用可能である場合、達成することができる。この場合、格納された参照ベクトルz r,kの間で最近傍についてサーチすることによって、未知の特徴ベクトルxを分類することができ、この最近傍は、未知の特徴ベクトルxまで最小の距離を有する特定の参照ベクトルz r,kを意味する。K個のクラスの集合C:={ck|k=1,...,K}では、分類のために必要とされる決定則が以下によって与えられる。
【0050】
【数5】
Figure 2004534324
【0051】
ただし、以下の通りである。
【0052】
【数6】
Figure 2004534324
【0053】
上記は、クラスckのすべての参照ベクトルz r,kへのユークリッド平方距離である。この距離尺度は区分的な線形分離関数につながり、それによりn次元データ空間の複雑な分割を達成することができる。
【0054】
-k-最近傍分類:さまざまな問題領域について大変効果的であるように見えている事例ベースの学習アルゴリズムは、k-最近傍(k-NN)分類である。このアルゴリズムはまた、テキスト分類でも使用されている。この方式の重要な要素は、特定の文書の近傍を識別することができる類似性尺度の可用性である。k-NNで使用される類似性尺度の主な欠点は、それが距離の計算においてすべての特徴を使用することである。多数の文書データセットでは、合計の語彙のうち少数のみが文書のカテゴリ化において有用である可能性がある。この問題を克服するための可能な手法は、異なる特徴(または、文書データセット内の単語)について重みを適合させることである。この手法では、各特徴が、それに関連付けられた重みを有する。特徴についてのより高い重みは、この特徴が分類タスクにおいてより重要であることを含意する。重みが0または1であるとき、この手法は特徴選択と同じものになる。
【0055】
Modified Value Difference Metric(MVDM)を使用して、カテゴリ的特徴の重要性を決定するk-NN分類アルゴリズムは、PEBLSである。これにおいて、複数の異なるデータポイントの間の距離はMVDMによって決定される。それらの特徴ベクトルx iおよびx j(ただし、i≠j)によって表現された2つの文書の間の距離は、これらの特徴ベクトルのクラス分布に従って測定される。MVDMによれば、x iおよびx jの間の距離は、これらが多数の異なるクラスにおいて類似の相対頻度で発生する場合、小さい。これらが多数の異なるクラスにおいて異なる相対頻度で発生する場合、この距離は大きい。2つの特徴ベクトルの間の距離は、MVDMによって決定された個々の特徴値距離の平方和によって計算される。文書において存在または不在となる各単語を考慮することによって、PEBLSを文書データセットにおいて使用することができる。PEBLSの主な問題は、特徴の重要性を、他のすべての特徴と無関係に計算することである。よって、ナイーブベイズ分類技術のように、異なる特徴の間の相互作用を考慮に入れることが不可能である。VSMはもう1つのk-NN分類アルゴリズムであり、共役勾配最適化を使用して特徴の重みを学習する。PEBLSとは異なり、VSMは最適化関数に従って、各反復において重みを改善する。このアルゴリズムは特にユークリッド距離尺度を適用するために開発されている。この手法の潜在的な問題は、k-最近傍分類問題が線形ではない(その最適化関数は二次関数ではないことを意味する)という事実によって引き起こされる。よって、このタイプの問題における共役勾配最適化は、最適化関数が多数の極小値を有する場合、必ずしも最小値に収束するとは限らない。
【0056】
k-NN分類のパラダイムに基づくもう1つの分類アルゴリズムは、Weight Adjusted k-Nearest Neighbor(WAKNN)分類である。WAKNNでは、特徴の重みが、反復的アルゴリズムを使用してトレーニングされる。重み調整ステップでは、各特徴の重みが小さいステップにおいて混乱されて、その変化が分類目的関数を改善するかどうかが確かめられる。目的関数において最も改善を有する特徴が識別され、対応する重みが更新される。特徴の重みは類似性尺度計算において使用され、重要な特徴が類似性尺度においてより寄与するようにされる。いくつかの現実の文書データセットにおける試みは、WAKNNが有望であることを示し、これはWAKNNが、C4.5、RIPPER、Rainbow、PEBLSおよびVSMなど、現況技術による従来の分類アルゴリズムのパフォーマンスに勝るからである。
【0057】
階層モデル
MeSHなどの語彙は、親子関係またはより狭い語の関係を使用して階層構造において語彙を編成する、関連付けられた関係を有する。これらの関係が語彙において構築されて、その編成が容易になり、インデクサの助けとなる。少数の作業を除いて、自動テキストカテゴリ化における大部分の研究者は、これらの関係を無視している。階層ツリーにおける語の配列はドメインの概念構造を反映するので、機械学習アルゴリズムはこれを活かして、それらのパフォーマンスを改善することができる。
【0058】
文書の索引付けは、多数のカテゴリが単一の文書に割り当てられるタスクである。人間のインデクサはこれにおいて効果的であるが、これは機械学習アルゴリズムにとってかなり困難である。いくつかのアルゴリズムは、カテゴリ化タスクが二分であり、文書が2つ以上のカテゴリに属することはできないという、単純化の仮定さえ行う。たとえば、ナイーブベイズ学習手法は、文書が単一のカテゴリに属すると仮定する。この問題を、各カテゴリについて単一の分類子を構築することによって解決することができ、これは、学習アルゴリズムが、特定の語(カテゴリ)が文書に割り当てられるべきであるかどうかを認識することを学習するような方法で行う。これは多数のカテゴリ割り当て問題を、多数の二分決定問題に変える。
【0059】
現況技術の既知の解決法の欠陥および欠点
上述のように、適用された各情報検索技術は特定の目的に合わせて最適化されており、したがってある制限を含む。
【0060】
従来のサーチエンジンは、単語または句を含む何千もの文書を検索し、取り込まれるすべての文書中でソートすることにおいてリクエスタを支援しない。すなわち、それらの精度は不十分である。また、AND演算子をこれらのシステムに導入することにより、それらの再現が損なわれるようになる。これらのシステムのすべてが、さらにより基本的な欠陥により損なわれる。すなわち、これらのシステムは、リクエスタがブラウズ中に新しい単語および句に偶然に出会う程度以外のサーチ方法を、リクエスタに教示しない。これらのシステムはまた、索引付けが使用可能である程度までの索引付けの適用および使用を示唆せず、その自動化も行わない。これらのシステムはリクエスタに問合せを行わず、リクエスタに先へ進む代替方法を提供しない。これらのシステムは、以前に手動で索引付けされていない新しい文書を自動的に索引付けしない。
【0061】
従来の情報検索システムの適用された分類方式は一様ではないので、この欠損はこのようにリクエスタの情報ニーズの不十分な満足に通じる。テーマベースのニュースの検索に関連する主な問題を、以下のように特定することができる。
【0062】
-ウェブニュースのコーパスは、高速更新頻度または一時的な性質など、特定の制約による害を受け、これはニュース情報が「短命」であるためである。一般に、ニュース記事は、発行者のサイトにおいて短期間にのみ入手可能である。したがって、参照のデータベースは容易に無効となる。結果として、従来の情報検索(IR)システムは、このような制約に対処するように最適化されない。
【0063】
-多数のウェブサイトは動的に構築され、しばしば同じURLにおいて経時的に異なる情報コンテンツを示す。これにより、これらのウェブサイトからそれらのアドレスに基づいてニュースを増分的に収集するためのいかなる方法も無効となる。
【0064】
-各公開物はそれ自体のトピックの方式を有するので、各公開物によって定義された分類トピックを合致させることも困難である。
【0065】
-一般的な統計的学習方法を自動テキスト分類に直接適用することにより、ニュース記事の非排他的な分類の問題が引き起こされる。各記事を正確にいくつかのカテゴリに分類し、その異質の性質を反映させることができる。しかし、従来の分類子は、正および負の例のセットによりトレーニングされ、通常は記事と多数のカテゴリの間の基礎的な関係を無視して2値を生じる。
【0066】
-ニュースのクラスタリングは、同じコンテンツについての異なる公開物からの記事への容易なアクセスを提供し、重要な改良となる可能性がある。記事を同じトピックに自動的にグループ化するには非常に高い確信が必要とされ、これは、ミスが読者に明白になりすぎるからである。
【0067】
上に示した問題に対処するために、専用検索メカニズムおよび多数のカテゴリ分類フレームワークをグローバルなアーキテクチャに統合し、情報についてのデータモデル、および、分類確信しきい値を備えることが必要である。
【発明の開示】
【発明が解決しようとする課題】
【0068】
上述の説明に鑑みて、本発明の第1の目的は、高速アクセスを有し、インターネットまたはいずれかの高速企業ネットワークドメイン内で索引付けされた文書をサーチするために適切な情報検索(IR)システムのための、自動テキストカテゴリ化技術を使用した新規なサーチを提案することであり、これにより、前記環境内でサーチ問合せ結果の提示を改善することができる。必要とされる情報検索(IR)システムは、以下の特徴を備えるべきである。
【0069】
-情報検索(IR)システムは、いかなる追加の手動索引付けも必要とすることなく拡張可能であるべきである。
【0070】
-幅広く公式化された問合せをリクエスタから受け入れることができなければならない。
【0071】
-サーチ問合せが開始された後、サーチの精度を相当に改善するために、リクエスタとの対話に入り、正確な索引付けを使用してサーチを精練化し、これに焦点を合わせ、それにより、関連文書再現率において対応する低減を受けることなく、ブラウズ時間および誤ったヒットを最小限にするべきである。
【0072】
この目的は、独立特許請求項の特徴を用いて達成される。有利な特徴は、従属特許請求項において定義される。本発明のさらなる目的および利点は、以下に続く詳細な説明において明らかである。
【課題を解決するための手段】
【0073】
基本的発明による情報検索システムは基本的に、自動文書および/またはテキストカテゴリ化技術の考えのために設けられ、どのように任意のテキスト(電子的形態における文書のコンテンツ)を自動的に認識し、事前定義されたカテゴリに割り当てることができるかについての問題に関係する。この基本的な技術を複数の製品に、複数の異なる環境内で適用することができる。いずれの場合も、複数のこの中に含まれた文書のために非常に時間のかかる手順である、インターネットを介してアクセスすることができる文書を選択的にサーチするための頻繁に発生するタスクを容易にするため、また、このタスクをバックグラウンドで自動的に実行するための考えは、基本的な適用例およびその環境にかかわらず、同じである。
【0074】
基本的発明により提案された解決法はしたがって、共通のカテゴリ方式において編成された、インターネットおよび/または企業ネットワークドメインからの文書を検索、フィルタリングおよびカテゴリ化するための、サービスを定義するためのフレームワークの作成を含む。これを達成するため、専用の情報検索およびテキスト分類ツールが必要とされる。
【0075】
簡単に要約すると、本発明は、リクエスタからのサーチ問合せを受信した後に文書をサーチするように設計される、対話的文書検索システムである。このシステムは、文書の単語パターンをトピックに割り当てる少なくとも1つのデータ構造を含む知識データベースを含む。この知識データベースを、文書の索引付きの集まりから導出することができる。基本的発明は問合せプロセッサを利用し、これはリクエスタからのサーチ問合せの受信に応答して、サーチ問合せに関係付けられる少なくとも1つの語を含む文書をサーチし、取り込むように試みる。いずれかの文書が取り込まれる場合、プロセッサは、取り込まれた文書を解析してそれらの単語パターンを決定し、次いで、各文書の単語パターンをデータベース内の単語パターンと比較することによって、取り込まれた文書をカテゴリ化する。文書の単語パターンがデータベース内の単語パターンに類似するとき、プロセッサは類似の単語パターンの関連トピックをその文書に割り当てる。この方法で、各文書が1つまたはいくつかのトピックに割り当てられる。次に、カテゴリ化された文書に割り当てられたトピックのリストがリクエスタに提示され、リクエスタは、少なくとも1つのトピックをそのリストから、リクエスタのサーチに関連するトピックとして指定するように求められる。最後にリクエスタは、リクエスタによって指定されたトピックがそれに割り当てられている、取り込まれ、カテゴリ化された文書のサブセットへのアクセスを認可される。このシステムは、インターネットまたはイントラネットに接続されたサーバに依拠することができ、リクエスタはシステムに、ウェブブラウザを装備したパーソナルコンピュータからアクセスすることができる。
【0076】
時間を節約するため、一度処理された問合せが、それらの問合せによって検索された文書、および、それらが割り当てられるトピックのリストと共に保存される。周期的な更新および保守サーチが実行されて、システムが最新に保たれ、更新および保守中に実行された解析およびカテゴリ化が保存されて、後のサーチのパフォーマンスの速度が増す。システムを最初にセットアップし、ならびに、手動で索引付けされている文書のセットをシステムに解析させ、これらの文書の単語パターンのレコードを知識データベース内の単語組合せテーブルに保存し、これらの単語パターンを各文書に割り当てられたトピックに関係付けることによって、システムをトレーニングすることができる。これらの単語パターンを、サーチ可能な単語(冠詞、前置詞、接続詞など、サーチ不可能な単語を含まない)の隣接した対にすることができ、このような各ペアリングにおける単語の少なくとも1つは文書内で頻繁に発生する。
【0077】
基本的発明による概念の主な考えは、インターネットの文書、および、その中に含まれた情報を、従来の自然言語ベースのアーカイブ構造を用いて処理することである。リクエスタはもはや多数の不適切な結果によって負担を受けないようにするべきである。その代わりに、リクエスタは対話形式で、広く適用可能な、あるいは個別に定義されたアーカイブ構造を用いて、適切な結果のセットの方に導かれるべきである。フォアグラウンドにおいて、最小限の技術的支出による容易かつ高速な操作性がある。
【0078】
この目的は、以下の2つの必須の機能を使用することによってのみ、達成することができる。
【0079】
1.文書のコンテンツが自動的に解析され、カテゴリ化され、アーカイブ構造に挿入されなければならない。
【0080】
2.ユーザは、新規なユーザ面によって実行された対話的問合せシステムを用いて、結果のセットの方へ直観的に導かれなければならない。
【0081】
基本的発明によって提案された解決法は、自動テキストカテゴリ化のための言語的および数学的手法に基づいたハイブリッド方法を備える、統合された、自動的かつ開かれた情報検索システムに相当する。
【0082】
一方では、所望の情報を高速、簡単かつ正確な方法で提供する、基本的発明の好ましい実施形態による新規なインターネットアーカイブを用いて、すべてのインターネットユーザの要件を満たすことが可能である。他方では、個々の会社内のデータ管理について、著しい利点が生じる。
【0083】
新たに開発された解析ツールおよびカテゴリ化技術は、実体化された言語規則のフレームワークからなるシステムアーキテクチャの基礎を形成する。これにより、いかなるサイズの任意のデータ供給をも自動的に解析、構築および管理することができる。
【0084】
提案されたシステムは、自動コンテンツ認識技術を索引付きカテゴリの自己学習階層方式と組み合わせることによって、従来のシステムの問題を解決する。それにもかかわらず、このシステムはなお高速に動作する。大雑把な意味的全文調査を実行するのではなく、すべての入手可能な文書を文脈依存の賢明な方法でテーマ的に解析するために、このシステムを使用することができる。
【0085】
階層構造トピックサーチは、これまでは容量の理由で企業ネットワークのドメイン内でのみ実行することができたが、ここではインターネットドメインに拡張することができる。このように、異なるイントラネットおよびインターネットは共に、同質の構造を有する共同データ空間に向かって成長することができる。
【0086】
基本的発明の好ましい実施形態による情報検索システムを、個々の会社のアーカイブ構造およびデータ管理に柔軟に適合させることができる。すでに入手可能な階層構造を組み込み、それにより新しい情報に関連付けられることによって、入手可能な情報供給を読み込むことができる。垂直に編成された情報連鎖はこのように、必要とされたデータ供給および文書における永続的で分散されたアクセスを許可する、水平に編成されたアーカイブ構造によって再構築される。
【0087】
したがって、個々の企業の情報および知識供給の仮想アーカイブが与えられ、これを完全にいつでも更新することができ、これは、基本的発明の好ましい実施形態による情報検索システムがまた、企業ネットワークドメインとインターネットの間のインターフェイスとしての機能も果たすからである。個々の会社の内部アーカイブ構造を、追加の支出を必要とすることなく、インターネット内に格納されたすべての文書に適用することができる。これにより、このシステムは両方のドメインにおけるサーチの単一化を可能にする。
【0088】
特許請求の範囲の簡単な説明
対話的文書検索システムは、サーチ問合せをリクエスタから受信した後に文書をサーチするように設計される。それにより、前記システムは、単語パターンをトピックに関係付ける少なくとも1つのデータ構造を含む知識データベース、および問合せプロセッサを備え、問合せプロセッサはリクエスタからのサーチ問合せの受信に応答して、
-サーチ問合せに関係付けられる少なくとも1つの語を含む文書をサーチし、取り込むように試みるステップと、いずれかの文書が取り込まれる場合、
-取り込まれた文書を解析してそれらの単語パターンを決定するステップと、
-各文書の単語パターンを知識データベース内の単語パターンと比較することによって、取り込まれた文書をカテゴリ化するステップと、
-文書の単語パターンが知識データベース内の単語パターンに類似する場合、その文書に類似の単語パターンの関連トピックを割り当てるステップと、
-カテゴリ化された文書に割り当てられたトピックの少なくとも1つのリストをリクエスタに提示するステップと、
-リクエスタに、少なくとも1つのトピックをそのリストから、リクエスタのサーチに関連するトピックとして指定するように求めるステップと、
-リクエスタに、リクエスタによって指定されたトピックがそれに割り当てられている、取り込まれ、カテゴリ化された文書のサブセットへのアクセスを認可するステップとを実行する。
【0089】
このために、自動コンテンツ認識技術を索引付きカテゴリの自己学習階層方式と共に用いる、自動テキストカテゴリ化のための言語的および数学的手法に基づいたハイブリッド方法を適用することができる。
【0090】
基本的発明のさらなる利点および適合性は、従属請求項、ならびに、以下の図面において示す本発明の2つの好ましい実施形態の以下の説明の結果として生じる。
【発明を実施するための最良の形態】
【0091】
基本的発明による解決法は、上述の技術の最も有効な要素を使用し、その最適化された合成に相当する。再設計されたカテゴリ化アルゴリズムは、従来のあるいは個々のアーカイブ構造に基づく言語的な文書およびデータ管理モデルと協調して、数学的および統計的基礎に基づいて、テキストを解析およびカテゴリ化することができる。
【0092】
最近の経験により、多数の言語的詳細を、統計的方法を用いて補償することができるが、基礎的な言語の詳細な知識がなければ、文書のコンテンツを十分に決定することができない。したがって、基本的発明の好ましい実施形態による手法は、それ自体を統合された手法として理解する。この手法は、入手可能な文書のコンテンツ関連の文脈解析を実行し、これらの文書を、以前に定義されたカテゴリへテーマ的に割り当てる。
【0093】
サーチエンジン
基本的発明の好ましい実施形態による情報検索システムの中心のコンポーネントである、新規なサーチエンジンは、上述の文書カテゴリ化を実行する。ここでは、すべてのステップが文書のコンテンツ関連の分類およびカテゴリ化のために実行され、このカテゴリ化の結果(いわゆる「抽出物」)が永続的にデータベースに格納される。
【0094】
1.第1のステップである学習または開始ステップ(セットアップモード)で、所望のカテゴリが、新規なサーチエンジンを用いて学習されなければならない。これは、すでにテーマ的に1つまたはいくつかのカテゴリに割り当てられている文書を読みとり、解析することによって行われる。これにより、文書の割り当てを、個々の会社によって(たとえば、アーカイブ構造がすでに使用可能である場合)、あるいはトレーニングを受けたアーカイビストによって実行することができる。前記解析の結果、すなわち特定のカテゴリの文書に含まれた特徴が、永続的にデータベースに格納される。これらをいつでも読み出すことができ、したがって、特定の会社のデータセキュリティ構造に容易に含めることができる。
【0095】
2.この第1のステップの後、認識または作成段階(ライブモード)が開始される。このとき、基本的発明の好ましい実施形態による新規なサーチエンジンに供給される文書、たとえば、テキストファイル、電子メールなどの形態におけるものが、次いで、データベースに格納された、すでにカテゴリ化された情報(抽出物)と比較される。新しい文書が、抽出物のカテゴリ化された情報との類似性を示す場合、前記文書のコンテンツを前記抽出物によって表現されたカテゴリに割り当てることができる可能性が非常に高いと見なすことができる。
【0096】
この場合、実際には、すでに知られている文書(たとえば、UNC、URLなどを含むアドレス)への参照のみが格納され、文書のコンテンツは格納されないことに留意されたい。これにより、必要とされたメモリ空間を相当に最小化することができる。平均で、各文書について、カテゴリ化のために必要とされた150バイトの情報がデータベースに格納される。約600万もの文書を有する会社のネットワークでは、約860Mバイトの追加のメモリが、基本的発明の好ましい実施形態による新規なサーチエンジンのために必要となる。これは、3kバイトの平均文書サイズに基づいて、文書によって占有されたメモリ空間全体のわずか一部分(約5%)である。さらに、この手法により、ユーザが自分の文書を、通常格納される所に格納し続けることができる。よって、会社および/または個々の顧客の通常の作業の流れは損なわれない。
【0097】
文書の事前カテゴリ化
基本的発明の好ましい実施形態による新規なサーチエンジンを用いて、文書を大変高速に解析することができるが、特定の文書の事前カテゴリ化が、反応時間をさらに改善するために実行される。システムが知り、特定のカテゴリにソートするべきである各文書は、以前に読み取られ、解析され、事前カテゴリ化されなければならない。次いで、文書の二方向唯一性の識別がデータベース内に、前記文書の割り当てられたカテゴリと共にファイルされる。
【0098】
文書のサイズおよび数に応じて、事前カテゴリ化のための時間が変わる。それにもかかわらず、おおよその標準的な値を提示することができる。平均的なパフォーマンスを有し、オペレーティングシステムのLinuxにより実行するパーソナルコンピュータでは、1日につき約500,000もの文書をカテゴリ化することができる。より効率的なコンピュータ(たとえば、マルチプロセッサシステムを有するもの)では、この数の2倍または3倍さえ達成することができる。
【0099】
加えて、文書へのアクセスを、前記文書を読み取る目的で実現できることが重要であることは言うまでもない。これにより、使用可能で十分に証明されたセキュリティ構造を変更する必要はなく、これらの文書のみが新規なサーチエンジンに格納され、その中に格納することができる。
【0100】
連続的更新
文書のカテゴリ化されたインベントリのトピック性が、新たに設計された更新アルゴリズムによって保証される。前記更新アルゴリズムは、毎日発生する数の100万もの文書の修正およびそれ以上の処理に寄与し、また本質的に最新であるために寄与する。
【0101】
更新アルゴリズムは永続的にバックグラウンドで実行する。文書の修正がテストされ、必要であればさらなる解析が開始されて、カテゴリ化が常に本質的に最新であるようにされる。これにより、普通の作業の流れの障害を回避することができると考慮された。
【0102】
さらに、更新アルゴリズムは、スケーリングを容易に実行できるように設計される。修正の頻度が単一のコンピュータによって、そのパフォーマンスが制限されているためにそれ以上管理可能ではない場合、追加のコンピュータを、更新プロセスの部分を引き継ぐために使用することができる。
【0103】
他のシステムとの差別化
基本的発明の好ましい実施形態による文書検索システムは、市場で入手可能な製品とは、以下のいくつかの面において異なる。
【0104】
-カテゴリの定義を容易かつ高速に、特に個々の顧客について実行することができる。事前カテゴリ化は、数日以内で終了させることができるタスクである。さらに、さまざまなトピックの強調およびコンテンツ関連の整列を有する、異なる例示的アーカイブを用意する可能性がある。
【0105】
-オンラインテキストカテゴリ化は自動的に実行され、これを保守する必要はない。カテゴリ化の監視のための解析ツールは、結果の入手可能な品質がなお顧客の要件および現在の事実に対応するかどうかについて通知する。カテゴリ化システムのデフォルトパラメータの修正は、費用をほとんどかけずに低い支出で可能である。このコンポーネントの後のバージョンでは、カスタマイズ機能が統合され、これにより顧客は個別に、基本的発明の好ましい実施形態による新規なサーチエンジンを特定の要件に適合させることができる。
【0106】
-既存のカテゴリ化は、特定の会社の企業ネットワークにおいて、かつインターネット全体において、同時に影響を及ぼすことができる。インターネットからの各文書が、個々の会社において適用されるアーカイブ構造の観点から分類され、カテゴリ化される。このように、両方のドメインの文書の比較可能性がはるかにより簡単になる。
【0107】
-他の技術と比較して、基本的発明の好ましい実施形態による新規なサーチエンジンを用いた、さらなる言語への適合には、著しくより低い支出が必要である。
【0108】
-会社のドメイン内の、基本的発明の好ましい実施形態による新規なサーチエンジンの使用のための技術的支出は非常に低い。多数の場合、すでに使用可能なシステムを、情報のカテゴリ化および格納の追加のタスクに適用することができる。
【0109】
-基本的発明の好ましい実施形態による情報検索システムを用いて、幅広い範囲のオペレーティングシステムおよびデータベースをサポートすることができる。これによって、アーカイブされた柔軟性により、多数の会社が、提供された機能性を有益に使用することが容易になる。
【0110】
基本的発明の好ましい実施形態による情報検索システムの適用例
基本的発明の好ましい実施形態による情報検索システムは、その中心である新規なサーチエンジンを有し、個々の会社のドメインにおける、あるいは同様にインターネットのドメインにおける、異なる場所で容易に使用することができる。以下では、これらの2つの重要な適用分野を簡単に説明する。
【0111】
1.応用分野、インターネット
基本的発明の好ましい実施形態による新規なサーチエンジンの、解析中の高いパフォーマンス(1日につき数百万もの文書)、および比較的小さいメモリ要件により、新規なサーチエンジンは、インターネットからの情報の構築のための理想的な基礎である。
【0112】
1つの可能な適用分野は、基本的発明の好ましい実施形態によるインターネットアーカイブである。たとえば、インターネットを介してアクセス可能な6000万ものドイツ語の文書がカテゴリ化され、それらのカテゴリ情報と共に格納され、それにより、専用に設計された新規なサーチエンジンを使用する。
【0113】
それにより、顧客はサーチキーを、新規な対話的ユーザインターフェイスを用いて入力することができる。インターネットからの、所望のサーチキーを含む各文書が、従来の方法でサーチされる。しかし、以前の手法とは対照的に、数千もの無関係のサーチヒットがそれ以上連続して表示されない。その代わりに、すべてのサーチヒットが、事前定義されて一般に承認されているアーカイブ構造を用いて解析される。相応して、最初にこれらのカテゴリが表示され、ここで、入力されたサーチキーを含む文書を検索することができる。したがって、リクエスタは多数の結果による負担を受けないが、提供されたカテゴリ内で、自分が実際にサーチ中である文書を容易に選択することができる。
【0114】
上述の適用分野は、基本的発明の好ましい実施形態による前記インターネットアーカイブの以下の特徴を用いて可能にされる。
【0115】
-新規なサーチ技術:基本的発明の好ましい実施形態による前記情報検索システム内で、従来のサーチマシン機能を備える、新規な、高いパフォーマンスの「クローリングおよび構文解析」技術が使用される。この適用分野は、事前カテゴリ化のために提供されたテキスト素材が特に、品質および速度の面に関するカテゴリ化システムのニーズに合わせて最適化されるような方法で、設計される。
【0116】
-更新:インターネットにおける多数のウェブサイトにより、日々変化するウェブサイトの数は大変多い。これにより、1日につき最大200万もの変更されたウェブサイトを考慮しなければならない。この莫大な量のデータに対処するために、専用に開発された更新機能が、ウェブサイトをそれらの個々の修正サイクルに応じて訪れてウェブサイトをさらなる解析のために提供するために、使用される。このように実施された更新機能は1日24時間実行し、インターネットアーカイブの最大トピック性を保証する。
【0117】
-スケーリング:使用されたシステムの、全体のパフォーマンスおよびインターネットへのアクセス可能率に関するアーキテクチャを、適用されたハードウェアおよびソフトウェアにそれぞれ関して、またインターネットへの同時アクセスにおける高い需要にも対応して、容易にスケーリングすることができる。すべての使用されたコンポーネントの拡張可能性を、高速かつ容易に実現することができる。
【0118】
基本的発明の好ましい実施形態によるインターネットアーカイブは、孤立した製品ではない。その機能をむしろ、個々の会社の特有のニーズに適合させることができる。前記適合は特に、個別に適合されたカテゴリの定義、およびアーカイブ構造へのソートに基づいて実行される。たとえば、ある会社は、すでに使用可能なそれ自体のアーカイブ構造を、基本的発明の好ましい実施形態による新規なサーチエンジン内に格納することができ、後に、前記アーカイブ構造を用いてインターネットをサーチすることができる。この場合、基本的発明の好ましい実施形態によるインターネットアーカイブのサーチ機能性が使用され、それにより、最適なアクセス率および結果の処理を保証することができる。
【0119】
個々の会社の従業員に、カテゴリ化された文書を通常通りに前記会社のドメイン内で提供することができる。オプショナルで、特定のカテゴリの文書をマスクオフし、他のカテゴリを強調させることができる(ランキング)。
【0120】
2.適用分野、企業ネットワーク
基本的発明の好ましい実施形態による新規なサーチエンジンの容量をまた、個々の会社の企業ネットワークまたは企業イントラネット内で使用することもできる。これにより、システムのパフォーマンスは、文書のコンテンツ関連解析を可能にする同じコア技術に基づく。
【0121】
インターネットと比較して、企業ネットワークでは、基本的発明の好ましい実施形態による新規なサーチエンジンに文書が供給される方法のみが異なる。ここでは、インターネットドメインで使用される従来のサーチ機能を通常は使用することができず、これは、記憶タイプおよびファイルフォーマットが、インターネットで入手可能な文書のものとは相当に異なるからである。たとえば、処理されなければならないテキストを、ここではHTMLファイルのフォーマットにおいてのみ発見できるのではなく、Microsoft Word、Microsoft PowerPoint、Microsoft RTF、Lotus Ami ProおよびWordPerfectのようなフォーマットにおいてもそれぞれ発見することができる。加えて、以下においてもテキストを発見することができる。
-ORACLE、Microsoft SQL Server、IBM DB/2などのようなデータベース内、
-メールまたはメッセージングサーバ内(たとえば、Lotus Notes、Microsoft Exchangeなど)、
-UNIX(登録商標)システムにより実行するネットワークディスクドライブ内、または
-メインフレームコンピュータの記憶パーティション内。
【0122】
これにより、企業ネットワークのドメイン内のオペレーションがはるかにより困難となる。それにもかかわらず、基本的発明の好ましい実施形態による新規なサーチエンジンのモジュラーアーキテクチャは、この適用分野において使用されるために専用に装備される。図12からわかるように、解析されるべき各文書が最初にいわゆるフィルタリングモジュールに提出される。ここで、実際のテキストが文書から抽出され、解析モジュールに供給される。この技術により、文書の特定のタイプ(Microsoft Word、Microsoft PowerPoint、Microsoft RTF、Lotus Ami ProまたはWordPerfect)を決定し、関連付けられたフィルタリングモジュールを開始することが可能となる。このために、新規なサーチエンジンへの供給方法のみが、特定の会社の使用可能なネットワークインフラストラクチャに適合されなければならない。いくつかの場合、最も重要かつ最も頻繁に要求される文書が、中央ファイルサーバ内に格納され、これをユーザからネットワークディスクドライブを介して適用することができる(Windows(登録商標)では「シェア」とよばれ、UNIX(登録商標)では「エクスポートされたファイルシステム」と呼ばれる)。他の場合、重要なデータはデータベース内に格納され、かつ/または、文書管理システムによって管理される。
【0123】
物理的メモリおよび特定のファイルフォーマットの特定の位置に関係なく、関連テキストを抽出して、基本的発明の好ましい実施形態による新規なサーチエンジンに渡す可能性がある。
【0124】
企業ネットワークのドメインでは、サーチ問合せの得られた結果の表現が極度に変わる可能性がある。インターネットの解決法である、基本的発明の好ましい実施形態によるインターネットアーカイブでは、新規なユーザインターフェイスが設計され、開発された。上述のユーザインターフェイスのための得られた結果のセットへの容易なアクセスを実施することが非常に慎重に考慮されたとしても、この形態の表現がすべての会社について有効である必要はない。
【0125】
それにもかかわらず、新規なサーチエンジンのデータベース内に格納された情報を、特定の会社の要件に従って特定の方法で読み出し、かつ/または提示しなければならない、特定の状況がある。これらの状況では、単純なアプリケーションプログラミングインターフェイス(API)が定義され、それにより、任意のアプリケーションからの、基本的発明の好ましい実施形態による新規なサーチエンジンへの容易なアクセスが可能となる。
【0126】
システムアーキテクチャ
基本的発明の好ましい実施形態による情報検索システムは、多数のモジュールを備えることができる。3つのコアモジュールが共に、新規なサーチエンジンを形成する。さらに、顧客および適用分野に従って異なるように構成することができる追加のオプショナルのモジュールを、使用することができる。
【0127】
コアモジュールのパフォーマンス
前のセクションからわかるように、すべての中心のモジュールは、基本的発明の好ましい実施形態による新規なサーチエンジン内で結合される。新規なサーチエンジンは、適切に定義されたインターフェイスによって互いに分離されると同時にスケーリングのために設計された、3つの異なるモジュールを備えており、すなわち、フィルタリングモジュール、解析モジュール、および知識データベースである。
【0128】
フィルタリングモジュール
フィルタリングモジュールは、テキストフィルタの適用のためのフレームに相当し、それにより関連テキストを、特定の内部構造を有する文書から抽出することができる。たとえば、HTMLフィルタが適用される場合、すべてのフォーマット命令(HTMLタグ)が拒否され、検索された文書の純粋なテキスト部分が分離される。多数の状況では、加えて、これらのテキスト部分のどれがリクエスタにとって関連があるかが識別されなければならず、これは多数のHTMLウェブサイトが多くの無関係の追加の情報を含んでおり、これらが前記ウェブサイトの実際のコンテンツを指すものではないからである。
【0129】
他の文書タイプ(たとえば、Microsoft Word)の使用にも、フォーマット情報を除去することが必要である。このようなファイル構造の関連コンテンツを容易に得ることはできるが、実際には、その解析がより広範囲に渡るバイナリファイルの問題である。
【0130】
フィルタリングモジュールは、パフォーマンスのいかなる損失もなしに最大限の移植性を可能にするために、プログラミング言語C++を用いて実施することができる。たとえば、プログラムを異なるコンピュータ上で実行しなければならない場合、可能な限りソースコードの再配列を回避するために、基本的なオペレーティングシステムに依存する要素が、分離されたクラスにシフトされた。
【0131】
さらに、複数のモジュールの間の通信メカニズムが使用され、これらはほぼすべてのオペレーティングシステムによって、スケーリングを容易にするために同じ形式で使用される。したがって、フィルタリングモジュールを第1のコンピュータ上で開始するが、新規なサーチエンジンの他のモジュールは他のコンピュータ上で実行中であるということが可能である。
【0132】
これにより、基本的発明の好ましい実施形態による新規なサーチエンジンを、ユーザの要件に容易に適合させることができる。最初は、サーチエンジン全体を単一のコンピュータ上で実行させることができる。このコンピュータのパフォーマンスがそれ以上十分でない場合、検索された文書の高いパフォーマンスのフィルタリングを実行するために、独立したコンピュータをただフィルタリングモジュールのためにのみ容易に使用することができる。
【0133】
解析モジュール
同様に、パフォーマンスのいかなる損失もない最大限の移植性が、解析モジュールのために考慮された。解析モジュールのすべてのコンポーネントはプログラミング言語C++で書かれており、それにより、実際の認識アルゴリズムは基本的なオペレーティングシステムとは完全に無関係である。
【0134】
他のモジュールとの通信を維持するプログラムの各部分が、異なるクラスを用いて分離された。このように、従来の通信メカニズムを使用するのではなく、プロセス間通信(IPC)を容易に使用することができる。IPCの実施のための支出は最小限である。
【0135】
さらに、基本的発明の好ましい実施形態による知識データベースへのアクセスが、内部的に定義されたインターフェイスを用いて解析モジュールから適切に分離された。解析モジュールのタスクについては、基本的なデータベースのバージョンは無関係である。それにより、従来のデータベースを用いて容易に満たすことができる最小限の要求のみが行われた。
【0136】
知識データベース
コアモジュールの最後のものである知識データベースは、カテゴリ情報の永続的格納、および、それに必要とされた内包を含む、すでに(トピックが)知られており、解析されている文書への参照のために使用される。前記知識データベースは、多数のデータベースシステム内に格納することができる論理データモデルである。
【0137】
基本的発明の好ましい実施形態によるインターネットアーカイブでは、たとえばデータベースシステムのORACLE(バージョン8.1.6)を使用することができ、これはORACLEが、処理されるデータの量および場合によっては多数のアクセスに適したプラットフォームに相当するためである。さらに、データベースシステムのORACLEは、スケーリングを大いに可能にする多数のメカニズムを装備している。加えて、ORACLEは、互いに通信してデータを交換することができる多数のオペレーティングシステム(たとえば、SunSoft Solaris、HP-UX、AIX、Linux、Microsoft Windows(登録商標) NT/2000、Novell NetWareなど)について提供されている。
【0138】
基本的発明の好ましい実施形態による知識データベースのためのデータモデルの設計では、すでに会社内で使用されているデータベースも使用できることが、意識的に考慮される。たとえば、データモデルをMicrosoft SQL Server(バージョン7およびそれ以上のバージョンを推奨)内に、大きな支出もなく格納することも可能である。別法として、InformixまたはDB/2(IBMにより開発)および他のデータベースの適用も考慮に入れることができる。
【0139】
オプショナルのモジュール
基本的発明の好ましい実施形態による新規なサーチエンジンのこれらのコアモジュールの他に、複数のオプショナルのモジュールが提供される。
【0140】
新規なサーチエンジンの各適用分野によって、解析される文書が検索されてユーザに供給される方法が大変異なる。インターネットの範囲における適用では、使用可能な従来のサーチ技術と、基本的発明の好ましい実施形態による解決法とを組み合わせたものが推奨される。別法として、ユーザ特有のサーチ技術も使用することができる。
【0141】
企業ネットワークの範囲におけるサーチでは、エージェント技術または専用に適合されたサーチ技術が提案される。同じことは、結果の提示に当てはまる。
【0142】
カスタマイズされたユーザインターフェイス
基本的発明の好ましい実施形態による情報検索システムの実施中に追求されたモジュラー概念はまた、他のコンポーネントについても達成される。このように、基本的発明の好ましい実施形態による新規なサーチエンジンの中心のコンポーネントの他に、さらにオプショナルのモジュールが作成された。これはたとえば、顧客の個々の要件に容易に適合させることができる、ユーザインターフェイスである。
【0143】
新規のユーザインターフェイスは、インターネットアプリケーションのために設計された。サーチキーがユーザによって入力された後、前記アプリケーションはコントロールを引き継ぎ、顧客を所望の結果へルーティングし、この結果は従来のサーチエンジンのものよりはるかによい品質のものであり、これはユーザにとって関連のある文書のみが表示されるからである。加えて、得られた結果がカテゴリ化される。基本的な実施態様を用いて、選択されたカテゴリの各文書が、その起源(公共の場、メディアおよび/または百科事典、企業または他のソース)に従って分類される。このように、他のいずれのアプリケーションにおいても達成されない差別化が提供される。
【0144】
基本的発明の好ましい実施形態による知識データベースにおけるアクセスが、固定インターフェイス(PL/SQLパケットまたはC++クラスとしてそれぞれ定義することができる)を用いて実行されるので、これらのデータを異なる形式で表示することは、考えられる限りでは簡単である。理論上、クライアント/サーバアーキテクチャに基づいた他のアクセスも考えられる。この場合、データベースからの情報をMicrosoft Access内で、あるいは、プログラミング言語のVisual Basicを用いて検索することもできる。
【0145】
加えて、会社内ですでに使用可能なユーザインターフェイスへの実施が可能である。このように、基本的発明の好ましい実施形態による知識データベースのデータに、企業の個々のポータルからアクセスすることもできる。これにより、このポータルをプログラミング言語のJava(登録商標)(たとえば、JServlets)で操作できるか、VBScript(たとえば、Active Server Pages)で操作できるか、PHP(Apache Webサーバ内)で操作できるかどうかは、無関係である。いずれの場合も、データを容易に検索することができる。
【0146】
文書のサーチおよび監視
インターネットドメインでは、文書のサーチおよび/または文書変更の監視がすでに大いに開発されているのに対して、しかし、イントラネットドメインでは、これらの技術が不十分である可能性があると言わなければならない。
【0147】
この場合、「不十分」という語は、ネットワーク内の中央の場所での文書のファイリングに基づいているインターネットドメインについての、すべての従来の手法に言及している。これにより、これらの文書をはるかにより容易な方法で管理することができるが、これは、これらの文書をサーチ中の顧客にとって、追加の作業および柔軟性の不足を意味する。これらの手法に基づいたシステムは作業の流れにおいて大幅に介在し、多数の適合を必要とする。これは、たとえば、使用可能な文書管理ソフトウェアが場合によっては、使用されているメッセージソフトウェア(Lotus Notes、Microsoft Exchangeなど)と協調せず、したがって両方のシステムにおける文書の一様なサーチがまったく可能でないことを意味する。
【0148】
しばしばサーチ要求の失敗の原因であるさらなる問題は、ファイルを格納するための非常にさまざまな位置およびタイプである。サーチを成功させるためには、異質環境内でもサーチを可能とする一様なメカニズムが使用可能でなければならない。
【0149】
したがって、基本的発明のさらなる目的は、ユーザに、会社内で使用可能なすべての文書およびテキストを提供して(このデータを格納するための位置またはタイプにかかわらず)、ユーザが、どこで文書を発見することができるかを厳密に知る必要がないようにすることである。前記文書が知識データベース内に格納される限り、顧客がそのために作業中である個々の会社のセキュリティ対策によって承認されるという条件で、この文書を容易に検索して顧客に供給することができる。
【0150】
基本的発明の好ましい実施形態による新規なサーチエンジンへの、適切に定義されたインターフェイスによって、異なるプラットフォーム上の最も異なるタイプの文書のサーチを、高速かつ容易に実現することができる。このための基礎は、インターフェイスおよびコンポーネントのいわゆるフレームワークであり、それにより新しいコンポーネントを容易に統合することができる。
【0151】
インターネットへのインターフェイス
前のセクションで導入した、統合されたサーチ技術は、オプショナルのモジュールとして使用可能であり、これを用いて、その何百万もの自由にアクセス可能な文書を有するインターネットを、容易にユーザの焦点に移動させることができる。このために、基本的発明の好ましい実施形態によるインターネットアーカイブですでに使用されているこれらの技術が使用される。他方では、これは、完全にプログラムおよびテストされたバージョンにおいてすでに使用可能であるコンポーネント、および他方では、基本的発明に適用されたソフトウェアの一体化特性を明確にするコンポーネントに関係する。
【0152】
ある会社がすでにそれ自体のアーカイブ構造を有しているという条件で、基本的発明の好ましい実施形態による新規なサーチエンジンに格納された構造を、追加のプログラミングを必要とすることなく、インターネットドメインからの文書まで拡張することができる。会社がそれ自体のアーカイブ構造をまだ有していない場合、これを容易にインストールすることができる。
【0153】
このように、すべてのアクセス可能な文書への一様なアクセスを、これらの文書が各会社のイントラネットドメインから来るのか、インターネットから来るのかにかかわらず、達成することができる。
【0154】
専門データベースへのインターフェイス
インターネットから自由に入手可能な文書およびテキストは、適切に解析およびカテゴリ化されるという条件でよりよい配列による著しい利点に相当するが、この他に、テキストを専門データベースから受信することもでき、これは有料のサービスである。顧客によってサーチ問合せを入力する場合、これらのデータベース内に格納された文書への参照を、イントラネットまたはいずれかの企業ネットワークから検索された文書とは別に、表示することができる。
【0155】
このために、文書サーチのフレームワークにリンクさせて、専門データベースから検索された文書の自由にアクセス可能な要約を読み出し、カテゴリ化することができる、インターフェイスが設計されている。この方法を用いて、専門データベースからのテキストの不要な抽出物(企業にとっては非常に高価となる可能性がある)を回避することができ、これは、基本的なアーカイブ構造により、発見された文書が適切であるかどうかが、顧客にとって即時に理解可能となるからである。前記システムの管理のための支出は最小限である。
【0156】
以下の適用もまた可能である。
【0157】
-多言語使用:多言語使用は、大規模で世界的に活動する企業の範囲において、システムの適用を成功させるための基礎である。
【0158】
-企業ネットワークのドメイン内での文書サーチ:上述のように、企業ネットワークのドメイン内での文書サーチは、インターネットのドメイン内よりもはるかにより困難である。したがって、異なるオペレーティングシステム、ネットワークおよびデータベースのためのアナログサーチ技術が必要である。
【0159】
-さらなるデータソースを読むためのフィルタリング手段:企業ネットワークのドメイン内での文書の適切な処理のために、さらなるデータソースを読むための追加のデータフィルタが必要とされる。また、フィルタリングモジュールに統合することができるフィルタの必要もある(たとえば、Microsoft ExchangeまたはLotus Notesにおけるアクセスを可能にするため)。
【0160】
カスタマイズされた製品適合
-カスタマイズ:ユーザの特定の要件に従って、カスタマイズされたアプリケーションを開発および設計しなければならない。たとえば、標準化された方法で可能である限り、これらのアプリケーションによりサーチエンジンを顧客の特定の要件に個別に適合させることができる。
【0161】
-セキュリティ構造:通常、各企業はその文書のためのそれ自体のセキュリティ構造を有する。それにより、このシステムを既存のセキュリティ構造に統合することが目的である。また、たとえばMicrosoft Active Directory、Novell NDSおよび他のX.500ベースのサービスのような、既存のサービスとの協調も大変重要である。
【0162】
-論理データ空間の概念:文書および/またはデータソース特定の特徴、ならびにそれらのセキュリティ要件が、論理データ空間の概念によって合理的に要約される。データ空間は、論理的に接続された文書のセットである。それにより、ユーザには複数のこのようなデータ空間が提供されるべきである。次いで、管理者はこれらのデータ空間を個別に開くかあるいは閉じる可能性を有する。このために、前記データ空間の概念は、完全に開発および実施されなければならない。
【0163】
-例示的アーカイブ:複数の顧客はそれ自体のアーカイブをまだ有していないので、事前定義された例示的アーカイブにアクセスすることは大変重要となる。それにより、高い実施コストを顧客のために節約することができる。それにもかかわらず、顧客は、個々の適合を自分自身で実行できるべきである。
【0164】
一連の補足的な製品を開発および製作することができる。基本的発明による新規なサーチエンジンの能力をユーザに、多数の媒体を介して提供すると同時に、任意の形式のテキストにおいて同質に構築されたアクセスを可能にすることが目的である。
【0165】
-モバイルアプリケーション:基本的発明の好ましい実施形態によるインターネットアーカイブの機能を、モバイルアプリケーションに容易に統合することができる。それにより、サーチキーの入力、およびサーチ結果の表示も、携帯電話デバイスおよび携帯情報端末(PDA)について使用可能にすることが計画される。これは、WAP規格を適用することができるマンマシンインターフェイスを開発しなければならないことを意味する。同様に、UMTS規格に従ったモバイルアプリケーションを使用した顧客の入力が受信されなければならず、対応する回答が戻されなければならない。UMTSによって供給される広帯域によって、グラフィカルユーザインターフェイスを適用することができる。
【0166】
-パーソナライゼーション:ユーザインターフェイス、および、情報検索システムのさらなる要素も、さらに顧客の要件に適合されるべきである。このように、特定の分野からのサーチ結果における強調は、ユーザインターフェイスの特定の設計とは別に考えられる。各顧客は、情報検索システムを特定の要件に適合させて、このシステムでよりよい識別の効果を達成する可能性を有するべきである。このように、システムのより高い受け入れを達成することができる。
【0167】
-自動音声認識:今後数年以内に、音声データ入力を用いたプログラムコントロールのための需要が高まるであろう。したがって、自動的に認識および解釈されなければならない音声コマンドを用いたサーチ問合せを開始することが必要である。加えて、サーチ結果もまた、音声データ出力を用いて提示されるべきである。基本的発明の好ましい実施形態による新規なサーチエンジンは次いで、自動音声認識アプリケーションを用いてコントロールされる。
【0168】
-エージェント技術:さらなるカスタマイズと共に、新しいサーチ技術がユーザに提供されるべきである。たとえば、サーチ問合せがプログラム(「エージェント」と呼ばれる)に渡され、このプログラムが連続的にサーチ問合せをバックグラウンドで処理するべきである。これらのプログラムは、得られた結果を、サーチが終了されて初めて提示する。別法として、インターネットおよび/または企業ネットワーク内の特定のイベントの発生に反応するプログラムを開発することができる。
【0169】
好ましい実施形態の詳細な説明
本発明の基礎となる基本的概念は、リクエスタが機械ではなく別の人間と話しているかのように機能させることである。リクエスタは、サーチ語を入力することによって質問を尋ねる。次いで、検索システムが、人間が行うかのように、それ自体の質問により応答し、この質問がリクエスタに、いくつかの提案されたトピック(または、主題もしくはテーマ)から1つを選択してサーチを狭めて焦点を合わせるように促し、再現における相応の下落なしにサーチ精度を改善する。1つまたは複数のこのような質問および回答を通じて、リクエスタはサーチの範囲を、リクエスタが提供したサーチ語を含むすべての文書の小さい索引付きのサブセットに狭めることができる。
【0170】
したがって、このシステムは、対話を通じて、かつ、文書の索引付けの使用を通じて、サーチを狭めることによって、意味的曖昧性をなくすように試みる。索引付けは比較的正確であり、リクエスタが意図したものとは意味的に異なる方法でサーチ語を使用する文書の検索をブロックすることによって、精度を大幅に改善する。しかし、サーチ語の意味的に異なる意味を含む文書のみが検索からブロックされるので、システムの再現パフォーマンスは比較的損なわれないままで残る。
【0171】
一例として、リクエスタがサーチ語「ゴルフ」をシステムに入力する場合、リクエスタには、異なる方法でサーチ語「ゴルフ」に関係付けられるトピックのリスト(たとえば、「車」、「スポーツ」、「地形」など)が提示される。リクエスタがトピック「車」を選択する場合、リクエスタにはサブトピックのリスト(たとえば、「車の売買」、「技術仕様書」、「車の修理」など)が提示され、リクエスタはサブトピックを別に選択しなければならない。最後に、リクエスタには、選択されたトピックならびにサーチ語に密接に関係付けられる文書のセットが提示される。
【0172】
この手法の中心は、好ましくは前もって、あらゆる文書をトピックまたは索引カテゴリの階層方式に解析およびカテゴリ化させる概念である。システムが最初にセットアップされるとき、および、新しい文書が発見されカテゴリ化されるときは常に再度、トピックがシステムに組み込まれる。文書をトピックに割り当てるこのプロセスは、知識開発と呼ばれる。これは一度手動で、システムセットアップ活動として行われなければならない。経時的に、サーチ語が、それらがリンクされる先の文書と共に保存され、これらの文書の索引付けを示すテーブルが構築される。まったく新しいサーチ語がリクエスタによって供給されるときは常に、インターネットまたはイントラネットのドメイン内の索引付きでないサーチが実行され、発見された新しい文書が次いで自動的に単語および句のコンテンツについて解析され、すでにシステム内に存在する索引付き文書の単語および句のコンテンツと比較され(カテゴリ化)、次いで、将来の参照のために索引付きデータベースに組み込まれる。システムはこのように、新しい質問を受信して新しい文書に出会うときに学習する。これにより、システムはその索引付きの知識ベースを経時的に拡張し、システムが使われるときに改善されたパフォーマンスを与える。
【0173】
図11を参照して、本発明のための典型的なハードウェア環境を開示する。このシステムはリクエスタのPC1102によってアクセスされ、PC1102はブラウザ1104を装備し、リクエスタの以前のサーチ活動に関する状況情報1106を含み、これについては以下で説明する。PC1102はインターネットまたはイントラネット106を介して、かつ、ファイアウォール1110およびルータ1112を通じて、いくつかのウェブサーバ1114、1116、1118および1120のうち1つと通信し、このウェブサーバは、図1の概要において示す対話的検索システム手順100を含む。
【0174】
ルータ1112は、多数のリクエスタのPCから入ってくる問合せを、使用可能であるウェブサーバのすべてに一様にルーティングする。したがって、リクエスタはどのウェブサーバに自分がアクセスするかを知らず、リクエスタは通常、自分がサーチ語を提出するか、あるいはシステムによって提示された質問に答えるたびに、異なるウェブサーバにアクセスするようになる。したがって、各ウェブサーバ1114、1116、1118および1120は、図1に示す同じ等しい処理手順を含むが、リクエスタのPC1102に依拠して、状況情報1106を、提出された各サーチ語、または、システムによって提示された質問に対して提出された回答の各々と共に提出し、それによりウェブサーバ114(その他)に、どこでリクエスタが所与の文書検索オペレーションおよび対話を完了するプロセスを進めているかについてアドバイスする。
【0175】
ウェブサーバ1114(その他)はデータベースエンジン1124に、ローカルエリアネットワークすなわちLAN1122を介してアクセスする。データベースエンジン1124は知識データベース200を保守し、その詳細を図2に示す。この知識データベースは、以前に使用された問合せ語のリスト214、ならびに、これらの問合せ語を含む文書の索引付けのレコード216および218も含み、これらは手動または自動の索引付けによって決定され、これについては以下で説明する。データベースエンジン1124はまたオプショナルで、リクエスタプロファイル情報、および、リクエスタが関心を有する情報のタイプも含むことができる。これをさまざまな目的に使用することができ、この目的には、リクエスタのPC1102上でサーチと共に提示するための広告を選択して、広告がリクエスタの関心に対応するようにすることが含まれる。
【0176】
ウェブサーバ、たとえば1114が、まだデータベース200内にない新しいサーチ語に出会うとき、ウェブサーチャー1114がサーチエンジン1128に、インターネットまたはイントラネットの新しいサーチを、その特定のサーチ語を含む文書について行うように求める。サーチエンジン1128によって戻された結果が次いでウェブサーバ1114によって、以下で説明する方法で処理されて、サーチ語(図2では問合せ単語と呼ばれる)、いずれかの新たに発見された文書(図2ではURLと呼ばれる)、およびこれらの文書の索引付け(図2ではトピックと呼ばれる)が知識データベース200に、将来のサーチの実施および高速化において使用するために記録される。
【0177】
周期的に、ウェブサーバ1114その他はサーチエンジン1128に、以前に発見された文書を再検査してデータベース200を更新および保守するように、かつ、システム全体を十分に動作可能かつ最新に保つように求める。
【0178】
このとき図1を参照して、対話的検索システム100を備える手順を、ブロック図の概要で例示する。リクエスタまたはユーザインターフェイス手順102は、HTMLおよび/またはJava(登録商標)コマンドなどを含むダウンロード可能なウェブページの形態において、各ウェブサーバ1114(その他)上でいかなるリクエスタも(NetscapeのNavigatorまたはMicrosoft Explorerなどのブラウザ1104を使用して)アクセスすることができるウェブアドレスに確立され、それにより、サーチ問合せフォームをウェブサーバ1114(その他)の1つからダウンロードさせ、リクエスタのPC1102のディスプレイ(図示せず)の表面においてペイントさせる。本発明の好ましい実施形態では、この表示は、リクエスタが仮定上で通信中である相手の女性の絵を提示し、それにより人間味を対話的問合せプロセスに追加し、初心者へのこのシステムの導入を簡単にする。可能な広告に加えて、この初期表示は通常、あるウィンドウを含み、この中でリクエスタがサーチ語をタイプすることができ、次いでエンターキーを打つか、あるいはGOまたはSUBMITというラベルの付いたボタンをクリックすることによって、インターネットまたはイントラネットを介してウェブサーバ1114(その他)の1つにサーチ語を戻すように移送させることができる。サーチ語は通常、単一の単語であるが、いくつかの単語または句であってもよい。
【0179】
ウェブサーバ1114その他の上にインストールされた検索システムソフトウェアの中心は問合せ処理手順400であり、その詳細を図4に示す。リクエスタが、システムが前に出会っているサーチ語を問合せ処理プログラム400に供給するとき、問合せ処理プログラムは知識データベース200と直接対話して、リクエスタのための質問を生成し、この質問がリクエスタまたはユーザに、ユーザインターフェイス手順102によって表示され、これは、供給されたサーチ語を含む文書へテーブルによってリンクされるトピックのリストである。最終的に、1つまたは複数のこのような質問を尋ね、応答を受信した後、システムは文書のウェブアドレスまたはURL(「ユニフォームリソースロケータ」)のリストを検索して、リクエスタのインターフェイス102において文書タイトルと共にリクエスタに表示し、リクエスタがこれらの文書中でブラウズできるようにする。以前に出会っているサーチ語の場合、このすべてが、図1に示す残りのソフトウェア要素の支援なしに行われる。
【0180】
以前に処理されていないサーチ語が受信されるとき、上述のように進行する前に、問合せ処理手順400がその語のライブサーチをインターネットまたはイントラネット上で、ライブサーチ手順500を使用して開始し、その詳細を図5に示す。このライブサーチによって取り込まれた文書が次いで解析プログラム700によって、それらの単語および句のコンテンツについて解析され、次いでカテゴリ化手順1000によって索引トピックが割り当てられる(あるいはカテゴリ化される)。次いで、知識データベース200が、新しい文書URLにこれらの文書の索引付けを加えたもの、ならびに新しいサーチ語(または問合せ単語)により更新され、次いで問合せ処理400が、上で簡単に述べたような標準の方法で進行する。
【0181】
周期的に、文書を再チェックして、それらがなおウェブ上に存在するかどうかを確かめ、それらのいずれかが変更されているかどうかを確かめることが必要である。タイマ104は周期的に更新および保守手順600をトリガして、これらの機能を、解析手順700およびカテゴリ化手順1000を使用して実行して、変更されている文書を再索引付けし、また、知識データベース200への変更により、もし問合せ語に将来出会ったときにその同じ問合せ語のサーチをライブサーチとして再実行させることが必要となるとき、問合せ語をデータベース200から除去する。
【0182】
システムは小さい初期データベースを使用したトレーニングを通じて初期化され、このデータベースは、トレーニングデータベース内の各文書が手動で1つまたは複数の索引語もしくはカテゴリもしくはトピックに割り当てられるように、手動で索引付けされている。これは、説明したように、ライブサーチの結果を解析して更新および保守活動を実行するために使用されるものと同じ解析ソフトウェア700と共に、セットアップ手順300によって行われる。
【0183】
有効な対話的検索システム100を確立する最初のステップは、セットアップ手順300を使うことであり、その詳細を図3に示す。この手順300を、図2に示す知識データベース内のあるテーブルの説明と共に説明する。
【0184】
検索システムをセットアップするプロセスは、トピックを文書に割り当てることによって手動で索引付けされているデータベースの組み立てによって、開始する。索引付きデータベースは市販されている。たとえば、新聞は通常、その公開された記事のすべての階層索引を有し、記事自体も全文機械可読形式でコンピュータ上に格納されている。このような既存のデータベースはすでにステップ302の要件を満たすようになり、それは図2に示すトピックテーブル208に含めるためのトピックを定義することである。
【0185】
目標は、トピックを文書に手動で割り当てることになるとき、極度に狭いトピックを定義することではなく、このようなトピックは次いで非常に限られた数の文書に割り当てられ、その場合には文書を読む複数の個人は、各文書が割り当てられる先の狭いトピックの細分に関して互いに同意しない可能性がある。これとは反対に、トピックは好ましくは幅広く正確なカテゴリ化であり、これにより文書の割り当てについて同意しない者はほとんどいなくなるものである。したがって、ニュース文書を、スポーツ、政治、ビジネス、および他のこのような幅広いカテゴリ化など、幅広いトピックに従って分類することができる。この考えは、文書に割り当てることが容易であるトピックであって、さらに、データベースを正確にスライスし、適切な文書の再現をいずれかの著しい程度まで低下させることなくサーチの精度を改善するために、文書を別々のカテゴリに正確に分割するトピックを定義することである。
【0186】
ステップ304はテーブル212に入力するためのトピック組合せの開発であり、現在は、検索システムのパフォーマンスを改善するように意図された手動オペレーションである。本発明のテキストサーチおよびテキスト比較の態様は時として、文書が比較的等しく2つの異なるトピックに関係付けられるように決定される結果となることが判明している。これらのトピックがトピック組合せテーブル212内で現れた場合、テーブルは、文書が割り当てられるべき第3のメイントピックを示す。この第3のトピックは、2つのトピックのうちいずれか1つである可能性があり、あるいはある異なるトピックである可能性がある。トピック組合せテーブルは有用であると判明しており、これは、その単語および句のコンテンツを用いて文書をトピックにカテゴリ化することが、以下に説明するように、時として曖昧な結果を生じるようになり、これをこの介在によって克服することができるからである。
【0187】
図3のステップ306は、各トピックについて文書のセットを発見することを要する。事前に存在する索引付き新聞データベースなどの場合、これはすでに行われており、文書およびそれらの索引割り当てを読み込むことができるフォーマット変換ソフトウェアを生成すること、およびこれらの文書から単語テーブル202、トピックテーブル208および単語組合せテーブル210を構築することのみが必要である。
【0188】
これらのテーブルを構築するプロセス全体は、解析手順700による文書のセットの解析により開始し、この手順を図7、8および9で詳細に説明し、この手順はシステムのセットアップにのみ使用されるのではなく、図5のように実行されたライブサーチの結果として発見された文書にトピックを割り当てるためにも使用される。解析プログラム700を後に説明する。今のところ、解析プログラム700は各索引付き文書中を通過し、これらの文書から、各文書においてサーチ可能な最も一般に発生する単語、すなわち、ある文書を別の文書から区別するために有用である単語を抽出する(冠詞、前置詞、接続詞など、有用でなくサーチ不可能な単語を除く)と言えば十分であろう。次いで、これらの単語が、図2のような単語テーブル202に入力され、単語番号がこれらの各単語に割り当てられるようになる。
【0189】
次に、解析手順700は、同じ文書内でこれらの同じ単語、および隣接または近傍するサーチ可能な単語をサーチし、各文書から、最も頻繁に発生する単語対を選択する。次いで、これらのサーチ可能な単語対における単語は、現在は単語テーブル202内ではない範囲であり、これに単語テーブル202内でエントリが割り当てられ、したがって単語番号も割り当てられる。
【0190】
その後、単語組合せテーブル210が組み立てられる。すべてのトピック名が最初にトピックテーブル208に入力され、したがってこれらにトピック番号が割り当てられる。文書はすべてトピックに割り当てられているので、各文書に関連付けられた単語対を次いで、対応する文書に割り当てられている同じトピック番号に割り当てることができる。したがって、すべての単語対が単語組合せテーブル210に、その中で各単語対が現れる文書に割り当てられるトピック番号と共に入力される。加えて、単語組合せテーブル210は、発見された単語対の品質の指示を含む。この簡単な方法では、セットアップ手順が単語組合せテーブルを作成し、これが単語対をトピックに関連付ける。トピック名はトピックテーブル内に現れ、単語自体は単語テーブル内に現れる。単語組合せテーブルは、ただ他の2つのテーブルへの参照である番号のみを含み、これを図2の矢印によって示す。本質的に、単語組合せテーブルは文書の単語パターンをトピックに関係付ける。このテーブルが後に、ライブサーチ中に発見された文書にトピックを割り当てるために使用され、この文書は手動で索引付けされていないものである。
【0191】
次に、必要な範囲内で、トピック組合せテーブル212が確立されて、多数のトピックが割り当てられるように見える文書を、これらの2つのトピックのうち一方または他方に、あるいは、文書を単一のトピックに割り当てることが曖昧である場合は第3のトピックに割り当てることができる。トピック組合せテーブルはまた、各テーブルエントリの一部として係数エントリをも含む。トピック組合せテーブルが適用されてメイントピックの代替選択がトリガされる前に、単一の文書内で2つの異なるトピックを示唆する単語対の発生の数はほぼ同じであることが必要とされ、係数の量のみによって変わることが必要である。テーブル212に示す例では、係数は0.2であり、これは、あるトピックを示唆する単語対が文書内で、トピック組合せテーブルが使用される前の、他のトピックを示す単語対の発生数の0.8(1.0から0.2を引いたもの)倍と1.2(1.0に0.2を加えたもの)倍の間である量で現れなければならないことを意味する。異なる係数値を異なる単語対に割り当てて、検索システムのパフォーマンスを最適化することができ、他の類似の技術を使用することができる。単語組合せテーブル210の場合のように、トピック組合せテーブル212は、トピックの実際の名前を含むトピックテーブル208に戻るように参照する、トピック番号のみを含む。
【0192】
これで検索システム100をセットアップするプロセスが完了する。望むなら、また、単語組合せテーブル210内にエントリを作成するために使用された文書がインターネット上またはイントラネット上で入手可能であり、したがってそれらにURLアドレスが割り当てられている場合、これらの文書および最大4つの関連トピック番号を、これらの同じ文書が後に検索されると予想して、URLテーブル218に入力することができ、これはこれらの文書がリクエスタのサーチ語を含むからである。しかし、このステップはオプショナルである。対話的検索システムを使用することにより、普通ならば、最終的に、問合せサーチ語またはリクエスタの関心を含むすべての文書が発見され、後にURLテーブル218に入力されるようになる。セットアップ手順中にこれらの文書をURLテーブル218に入力する1つの利点は、手動で割り当てられたトピックが次いでこれらの文書に割り当てられるようになり、自動トピック割り当て手順(後に説明する)が、手動で行われたものとはわずかに異なるトピック割り当てを生じる可能性がないことである。しかし、セットアップ手順の主な目的は、URLテーブル218に文書をロードすることではなく、単語組合せテーブル210に、特定のトピックに関係付けられる文書を示す単語のパターンをロードすることである。以下に続く考察では、リクエスタは普通、サーチを実行させることを望む人間のユーザである。また、リクエスタは、本発明をリソースとして利用してそれ自体の価値をプロセスに付加する、ある他のコンピュータシステムであることも可能である。
【0193】
図4は、本発明によって実行される問合せ処理手順400の詳細なブロック図を示す。このプロセスはステップ402で開始し、このときリクエスタがサーチ語を供給するように促され、これは通常は単語であるが、場合によってはいくつかの単語もしくは句、または論理結合子を有する単語および句でもある。そのとき、あるいは場合によるとより早い段階で、ステップ404で、リクエスタにサーチの範囲を制限する方法について問合せることができる。たとえば、リクエスタは、政府によって法令、規制または他の発表において公開されたものなど、非常に権威ある文書のみをサーチすることを望むことができる。リクエスタは、新聞および雑誌の記事など、それほど権威はないがなお一般に信頼できるソースを含めるように望むことができる。あるいは、サーチをさらに広げて、大学および科学財団の学術的公開物をさらに含めることができる。さらに広いサーチは、企業の公開物という、より偏りがありそれほど信頼できないがなお権威のある可能性がある文書を含むことができる。最後に、リクエスタは、上記ソースだけでなく、その信頼性は必ずしも高くない、個人によって個人的なウェブサイトで供給された文書をもサーチすることを望むことができる。このような文書はなお有用である可能性がある。テーブルをリクエスタに表示して、リクエスタが、自分が見ることを望む情報のさまざまなタイプまたはクラスのボックスをチェックできるようにすることができる。別法として、リクエスタに単に、表示されるべき文書の権威のレベルを決定するように求めることができ、このレベルは、政府および公式公開物のみ、政府の公開物に加えて新聞記事、政府の公開物および新聞記事に加えて大学および科学的文書、これらのソースに加えて企業情報、ならびに、個人的なウェブサイトで発見された情報を含むすべての情報のソースである。
【0194】
ステップ406で、サーチ語が解析される。部分的には、この解析は、サーチ語を綴りおよび屈折などのものに関して標準化すること、名詞の格および動詞の時制を標準化すること、ならびに、性による区別を標準化することも含む。この多くは言語に特有である可能性がある。ドイツ語では、「β」という文字を「ss」に変換することができ、逆もまた同様である。屈折をサーチおよび比較の目的で標準化することもでき、これはウムラウト付き母音(「aウムラウト」、「oウムラウト」および「uウムラウト」)または他の言語特有のアクセント記号の追加または除去を通じて行われる。
【0195】
次に206で、類義語辞書がチェックされて、類義語がサーチ語について存在するかどうかが確かめられ、したがって、サーチを、同じ意味を有する多数の語を包含するように拡張して、サーチ問合せ単語を含まないが関連する類義語を含む文書もまたサーチの範囲内に含まれるようにすることができる。
【0196】
多数のサーチ語が供給されている可能性があるが、以下に続く考察では、簡単にするために、処理する必要のあるただ1つの語のみが生じていると仮定する。しかし、多数のサーチ語を処理する必要がある場合、以下で説明するステップが単に各語について繰り返されて、取り込まれ、解析され、カテゴリ化される文書の数が増すようになる。同様に、論理結合子の使用により、解析およびカテゴリ化される文書の数が増減される可能性があり、あるいはそれらの適用がプロセスの後の段階まで延期される可能性がある。
【0197】
ステップ408で、サーチ語がすでに問合せ単語テーブル214内に存在するかどうかを調べるためのチェックが行われる。説明のため、新しいサーチ語がリクエスタによって提出されるたびに、サーチ語が問合せ単語テーブル214に新しいエントリとして追加され、次いでライブのインターネットまたはイントラネットサーチが、図5に記載するように実行される。しかし、このようなライブのインターネットサーチが行われた後、取り込まれた文書の解析およびカテゴリ化と共に、関連情報がURLテーブル218内および問合せ連結テーブル216内に保持され、したがって、その同じサーチ語についてのさらなるライブサーチは、システムが更新されて文書のいくつかが変更または削除されていることが判明するまで、必要とされない。したがって、問合せ単語がすでに問合せ単語テーブル214内に存在すると判明した場合、ライブサーチ手順500をバイパスすることができ、処理が、図2のような知識データベースを使用するステップ412に進む。その場合、ライブのインターネットまたはイントラネットサーチは必要にならない。しかし、問合せサーチ語が問合せ単語テーブル214内で発見されなかった場合、ステップ500で、ライブサーチが、図5で説明するように実行される。410で問合せ語を含む文書が発見された場合、処理がステップ412に進む。そうでない場合、ステップ411でサーチプロセスが停止され、提出されたサーチ語を含む文書が発見されなかったというレポートがリクエスタに与えられる。
【0198】
ステップ412で、ライブサーチがすでにサーチ語について実行されており、この語を含む文書のセットがすでに解析およびカテゴリ化されていると推測され、これを以下で図5の説明と共に説明する。サーチ語を含むすべての文書がこのようにURLテーブル218内に、各文書が関係付けられる最大4つのトピックと共にリストされる。加えて、テーブル218は、その情報が入手可能である場合、各文書のタイプの指示(政府の公開物、新聞記事、大学または科学的公開物、その他)を含む。
【0199】
サーチ語が問合せ単語テーブル214内でルックアップされ、次いで問合せ単語番号が問合せ連結テーブル216内でサーチされる。サーチ語に関連付けられたすべてのURL番号が、問合せ連結テーブル216から検索される。類義語の場合、すべての類義語についてのすべてのURLエントリが、問合せ連結テーブル216から検索される。
【0200】
次に、URLテーブル218がチェックされ、取り込まれた各URLについて、4つのトピック番号のうち最初のものが検索される。ステップ414で、ただ1つのトピックがすべての文書に割り当てられる場合、サーチが行われ、ステップ419で、文書のURLアドレスおよびタイトルのリストがリクエスタに表示される。次いでステップ420で、リクエスタがこれらのURL中でブラウズし、これらの文書中で表示およびブラウズすることができる。
【0201】
複数のトピックが文書に割り当てられることが判明した場合、ステップ415で、各文書についてのテーブル218内の最初のトピックのリストがリクエスタに表示され、リクエスタが、トピックのうち1つを選択してそれによりサーチの範囲を、そのように索引付けされた文書のセットまで狭めるように促される。
【0202】
ステップ416で、リクエスタがトピックのうち1つを選択し、この情報が、リクエスタのサーチの現在の状態をシステム100に定義するために十分な他の情報と共に、システム100へ搬送され、ウェブサーバ1114(その他)が、いかなる所与のリクエスタおよびいかなる所与のサーチの状況についてのいかなる情報も保持する必要がないようにする。この情報は、状況情報1106の一部としてリクエスタのPC内で維持される。
【0203】
選択されたトピックはサーチの範囲を、URLテーブル218内の選択されたトピックの番号を含む一部のURLまで狭める。ステップ418で、システムは次に、URLテーブル内の選択されたトピック番号を含んだ文書についての4つのトピック番号のうち2番目(テーブル218の関連トピック#s列内の左から2番目の57)へ進み、異なる第2のレベルのトピックのリストを組み立てる。ここでも、第2のレベルのトピックが1つしかない場合、あるいはそのトピックがない場合、ステップ419で、文書のURLおよび名前のリストがリクエスタに表示され、リクエスタがこれらの中でブラウズすることができる。しかし、第2のレベルのトピックがいくつかある場合、ステップ415で、第2のレベルのトピックのリストがリクエスタに表示され、ステップ416で、リクエスタが再度1つのトピックを選択するように求められる。
【0204】
トピックのリストをリクエスタに表示し、リクエスタにトピックまたはサブトピックを選択させるこのプロセスは、最大4回発生し、これは各文書について最大4つのトピック番号がURLテーブル218内でリストされているからである。したがって、ゼロから4つのこのような対話のどこでも、システムがリクエスタにトピックのリストから選択するように求めることができ、リクエスタが単一のトピックを指定することによって応答してサーチの焦点を狭め、それにより、関連文書の再現の減少を受けることなくサーチの精度を実質的に改善することができる。
【0205】
ライブサーチを実行するための手順を図5に示す。リクエスタによって供給された単語が問合せ単語テーブル214内で発見されないときは常に、その単語はシステム100にとって新しい単語であり、システムはその知識データベースに、この単語を含む文書を追加するための処置を取らなければならない。システムはまた、これらの文書を解析し、カテゴリ化して、文書をトピックに割り当てなければならない。ステップ502で、システムは従来のインターネットまたはイントラネットサーチエンジン1128に、その単語を含む文書のURLについて、インターネットまたはイントラネットをサーチするように命令する。システム100のこの好ましい実施形態では、システムは最大1000の文書しか取り込まない。これは、人間のリクエスタが、本発明を使用することなく、インターネットまたはイントラネットの従来のサーチを行うときに、普通にブラウズすることを望むよりもはるかに多い文書である。したがって、このシステムは、標準のインターネットまたはイントラネットシステムを使用して達成可能であるより高い再現率を達成することができる。再現率は高いが、この段階で取り込まれた文書の多数、場合によっては大部分がリクエスタの意図とは無関係となることが予想され、したがってこの段階でサーチの精度は大変低い。
【0206】
次にステップ700で、システムは、検索された文書のセットを解析し、これについては以下で説明する。簡単に要約すると、システムは、各文書内で最も一般に発生するサーチ可能な単語を決定し、次いで、これらの単語と他の隣接するサーチ可能な単語とのペアリングを識別し、したがって単語ペアリングのセットを各文書に関連付ける。この単語ペアリングのセットは単語パターンを構成し、単語パターンは各文書を特徴付け、これを使用してある文書を他の索引付き文書と突き合わせることができ、したがって後のカテゴリ化ステップで1つまたは複数のトピックを各文書に割り当てることができる。
【0207】
ステップ1000で、文書がカテゴリ化され、これについては以下で説明する。簡単に要約すると、各文書を特徴付ける単語対が、単語組合せテーブル210内の単語対に対して突き合わせられ、これをテーブルがトピックに関係付け、それにより最大4つのトピックを各文書に割り当てることができる。
【0208】
最後にステップ504で、問合せ単語が問合せ単語テーブル214に追加され、文書がURLテーブル218に、それらの関連付けられたトピック番号およびURL識別子と共に入力される。次いで、問合せ連結テーブル216が調整されて、テーブル218に入力されてそれらのURL番号によって識別されたすべての文書が、テーブル216によって、問合せ単語テーブル214内でその文書が含む問合せ単語にリンクされる。この方法で、サーチ単語を含む1000の文書が検索され、解析され、自動的な方法で、それらの単語パターンが、手動で索引付けされた文書の単語パターンに類似する程度まで、カテゴリ化される。問合せ単語、文書および文書の索引付けがこのように知識データベースに入力され、これはこのサーチの処理だけでなく、同じ単語についての後続のサーチの処理の速度を大幅に増すことにおいても使用するために行われる。言うまでもなく、以前のサーチで出会った文書はすでに索引付けされ、カテゴリ化され、テーブル218に入力されている。問合せ連結テーブル216を、このような文書を新しい問合せ単語にリンクさせるように調整することのみが必要である。
【0209】
周期的に、知識データベースを調べて保守および更新して、これがインターネットまたはイントラネット内の文書の現在の状況を反映するようにすることが必要である。図6で、更新および保守手順600を示す。この手順600は、ステップ602に示すように、ある形態のタイマ104(図1)によって周期的に実行される。しかし、いくつかのトピックに関係する文書は比較的安定して不変である可能性があるが、現在のニュースイベントなどのものに関係する他の文書は毎日、あるいはさらに頻繁に変化する可能性がある。したがって、システム設計者は、あるタイプの文書およびあるトピックに関係する文書を、他の文書よりもはるかに頻繁に更新させることができる。
【0210】
更新手順は、URLテーブル218に含まれたURLアドレスのリストを取り、このリストをサーチエンジン1128(図1)に提示して、文書のうちどれが削除されており、どれが更新または修正されているかを発見することによって開始する。これを容易にするため、文書のURLに好ましくは、文書がインターネットから検索された日付が添付されて、文書が修正されているかどうかをウェブクローラーが決定することを容易にするべきである。ステップ606で、ウェブクローラーまたはサーチエンジン1128が、これらのURLのうち、削除または更新されているURL、および(オプショナルで)、そこでシステムがすべての文書をその特定のノードからプレロードするほどに文書が重要であるノードに、新たに追加されているURLのリストを戻す。
【0211】
ステップ608で、リストされた各文書が検査され、文書がシステムから削除されているか、置換により更新されているか、システムが新しいエントリの存在についてテストするノードに追加された新しい文書であるかに応じて、異なるステップが実行される。
【0212】
610で、文書が削除または更新されている場合、知識データベースから除去されなければならない。このような各文書について、文書のURL番号のすべてのエントリが問合せ連結テーブルから削除される。加えて、削除されたURLに関連付けられた問合せ単語もまた、問合せ単語テーブル214から除去される。したがって、将来にこれらの問合せ単語のいずれかが再度提出される場合、システムは強制的に、これらの問合せ単語を含む文書のすべてを新たに検索し、再び解析し、これらの文書を再カテゴリ化して、これらをURLテーブル218に再入力するようにさせられる。
【0213】
オプショナルで、ステップ612で、文書が更新されている場合、これを700で解析して1000でカテゴリ化することができ、URLテーブル内のそのエントリを更新して、この文書がこのとき含むトピックを反映させることができる。これらの処置が取られる場合、将来に、問合せ単語テーブル内に存在しないサーチ単語によりライブサーチが実行される場合、かつ、このような文書がライブサーチの一部として取り込まれる場合、システムは文書を解析およびカテゴリ化する必要がなくなり、これは、解析およびカテゴリ化がすでにURLテーブル218内に存在するからである。システムは単にサーチ単語を問合せ単語テーブル214に入力し、文書のURL番号を、その問合せ単語にリンクされた他の文書のURL番号と共に、問合せ連結テーブル216に追加する。
【0214】
システムが、新しい文書を特定のノードで検出するように設計される場合、これらの新しい文書もまた700で解析し、1000でカテゴリ化して、これらの文書が発見されるより前にURLテーブル218に入力できるようにすることもでき、これは、これらの文書が特定のサーチ単語を含むからである。再度、これらの文書が含むサーチ単語についての後のサーチは、ライブサーチに続いてより高速に進行するようになり、これは、文書解析およびカテゴリ化のステップがすでに完了しているようになり、このような文書のURLテーブル218がすでに更新されているようになるからである。
【0215】
図7、8および9は、キーワードおよびキーワードの対を文書内で識別し、それによりその文書の情報コンテンツを特徴付ける単語パターンを識別する、解析手順700のブロック図を示す。
【0216】
解析は、文書がどのフォーマットであれ、通常はHTMLであり場合によってはJava(登録商標)スクリプトが存在するが、これを、プログラミング命令、スタイルの命令、および、文書の意味的な情報コンテンツに基づいた検索に関連しない他のものがまったくない、純粋なASCII文書に変換することによって開始する。
【0217】
ステップ704で、すべての句読点および他の特殊文字が取り除かれ、空白文字など、ある区切り文字によって分離された単語のみが残される。ステップ706で、屈折における語尾変化によって、類義語によって、発音区別符の変わりやすい使用によって、また他のこのような言語特有の問題によって、引き起こされた単語の曖昧性が対処される。たとえば、ドイツ語の「β」を「ss」により置き換えることができ、ウムラウト付き母音(「aウムラウト」、「oウムラウト」および「uウムラウト」)を追加または除去することができ、不規則な綴りを調整することができ、類義語と相互交換可能なある単語を、単語の突き合わせにおける一貫性のために1つの特定の単語に減らすことができる。
【0218】
次に、ステップ708で、システムがテキストから、「the」、「of」、「and」、「perhaps」などの一般的なサーチ不可能な単語、一般に発生するが、ある文書を別の文書から区別することにおいてほとんどあるいはまったく意義のない単語および句を取り除く。本発明の異なる実施は、これらのタイプの問題を対処する方法において幅広く変わると予想することができる。
【0219】
ステップ710で、システムは、残りの各単語が各文書内で使用される回数をカウントする。
【0220】
図8および9で、ステップ712は、ステップ714〜724が、解析されるべき個々の各文書に関して実行されることを示す。
【0221】
ステップ714で、文書内の単語が、文書内のそれらの発生の頻度による順番で配列され、最も頻繁に発生する単語がリストの最上部になるようにする。ステップ716で、文書内の単語の第1の連結が文書の単語順で形成される。次いでステップ718で、最も頻繁に使用される単語の第2の連結が形成され、これはステップ714で準備されたソートリストの最上部に現れる。
【0222】
各文書内で解析に含まれる単語の数に制限が課せられる。本発明の好ましい実施形態では、ライブサーチの場合、システムは単に、第3に最も頻繁に使用される単語を第2の連結内で保持する。
【0223】
サーチがライブサーチでないが、最初のシステムセットアップ(図3)中、またはシステムの更新および保守(図6)中に実行されるものである場合、第2の連結内で保持される単語の数が、文書のサイズに比例して調整される。本発明の好ましい実施形態で使用されたテストは、特定の単語の発生の頻度を文書サイズ(kバイトで測定)によって除算したものが、0.001以上である場合、その単語が保持されるものである。そうでない場合、その単語は廃棄される。
【0224】
次に、最も頻繁に発生する単語の第2の連結内の単語の、文書内の各発生について、システムが(文書の順番で配列された単語の)第1の連結を走査し、第2の連結内の各単語のすべての発生を発見し、次いで、第2の連結からの単語の第1の連結内の各発生に隣接または近傍する第1の連結内の単語を識別する。この方法で、システムは、各文書内で最も頻繁に使用される単語と、それらにすぐ隣接したサーチ可能な近傍とのペアリングを識別する。
【0225】
ステップ722で、各文書について、2つのこのような単語の各一意のペアリングが各文書内で発生する回数のカウントが行われる。
【0226】
ステップ724で、これらの2つの単語のペアリングの最も頻繁に発生するもののみが保持される。本発明の好ましい実施形態では、2つの単語のペアリングが保持されるのは、そのペアリングの発生の数を、文書内で最も頻繁に発生する単語の中にあった対内の単語の発生の数によって除算し、すべてに1000を掛けたものが、0.001のしきい値より大きい場合である。そうでない場合、このペアリングが廃棄される。
【0227】
最後に726で、各文書について、保持された単語ペアリング、および、各単語ペアリングの発生の量のリストが形成される。これで文書解析手順が完了する。
【0228】
カテゴリ化手順1000を図10のブロック図の形式で示す。ステップ1002に示すように、残りのステップ1004ないし1010が、各文書について別々に実行される。
【0229】
カテゴリ化は、(解析を通じて作成された)文書についてそれぞれ保持された単語のペアリングを取り、このペアリングを知識データベースの単語組合せテーブル210内でルックアップすることによって、開始する。ペアリングのうちいくつかは、単語組合せテーブル210内で発見されない可能性があり、これらのペアリングが廃棄される。残りのペアリングについては、合致するエントリがテーブル210内で発見され、これらがテーブル210によって、合致するエントリにリンクされるトピックに割り当てられる。
【0230】
ステップ1006で、各トピックに割り当てられた単語ペアリングの数が合計され、文書内で最も高い数のペアリングに割り当てられた4つのトピックが次いで選択され、文書のトピックコンテンツを特徴付ける4つのトピックとして保持される。これらの4つのトピックが、それぞれが割り当てられるペアリングの数による順番で配列され、最も多いペアリングを有するトピックが最初になり、次に最も多いペアリングを有するトピックが2番目となる。
【0231】
ステップ1008で、トピック組合せテーブル212がチェックされる。文書内の2つのトピックが、これらの2つのトピックについてのトピック組合せテーブル内の係数エントリによって指示された制限内で、ほぼ同じ数のペアリングに関連付けられる場合、トピック組合せテーブル212によって指示されたメイントピック番号が選択され、文書を特徴付けるためにこれらのトピックの両方の代わりに使用される。
【0232】
最後に、各文書についてのURLがURLテーブル218へ、文書タイプを識別する番号と共に入力される。それらの番号によって識別される、4つの選択されたトピックもまた、テーブル218に入力される。これで、文書カテゴリ化プロセスが完了する。
【0233】
システムがどのように動作するかをより詳細に例示するため、いくつかの典型的だが簡略化されたシステムオペレーションの実施例を以下に示す。
【0234】
システムの知識データベース200は、以下の情報を含むと仮定される。
【0235】
トピックテーブル208は以下を含む。
【0236】
【表1】
Figure 2004534324
【0237】
単語組合せテーブル210は以下を含む。
【0238】
【表2】
Figure 2004534324
【0239】
トピック組合せテーブル212は以下を含む。
【0240】
【表3】
Figure 2004534324
【0241】
問合せ単語テーブル214は以下を含む。
【0242】
【表4】
Figure 2004534324
【0243】
問合せ連結テーブル216は以下を含む。
【0244】
【表5】
Figure 2004534324
【0245】
文書URLテーブル218は以下を含む。
【0246】
【表6】
Figure 2004534324
【実施例1】
【0247】
多数の階層レベル中でサーチする。
【0248】
リクエスタが「頭痛」というサーチ語を入力する場合、システムはこの単語を辞書204内でルックアップして、正しい綴りを保証し、屈折などの問題にも対処する。次に、システムは類義語のリスト206中をチェックし、いずれかが発見された場合、システムはサーチを両方の語についてのサーチに拡張する。これらの予備的なステップのすべてが完了しているとき、システムは問合せ単語テーブル214で「頭痛」という単語をルックアップして、この語が以前にサーチされているかどうかを確かめる。この場合、この語は以前にサーチされており、したがって「頭痛」は、テーブル214が2の問合せ単語番号を割り当てる問合せ単語として現れる。
【0249】
単語を識別し、これが以前にサーチされていることを発見した後、システムはこのとき問合せ連結テーブル216をサーチし、そのテーブルから、その単語を含むすべての文書のURLテーブル218の番号を検索する。この場合、URL番号17および19が問合せ連結テーブル216内で発見される。
【0250】
したがって、システムは次にURLテーブル218の、URL番号17および19を割り当てられた文書についてのエントリをチェックし、2つの文書17および19に割り当てられたトピック番号を検査する。表を見るとわかるように、文書17がトピック番号2、9および13に割り当てられており、文書19がトピック番号2、8および33に割り当てられている。これらのトピックの一番左(2および2)がトピックの階層内でより高くランク付けされ、これは上で説明したように、一番左のトピックが、他のトピックよりも文書内でより多くの単語ペアリングに関連付けられるからである。したがって、両方の文書が最も強くトピック番号2にリンクされ、これについてトピックテーブル208が示すものは「薬」である。
【0251】
このときシステムはリクエスタに「薬」という単語、および、入力されたサーチ語に関係付けられている文書の番号を示す番号2を表示することができる。言うまでもなくリクエスタはこのトピックを選択する。(いくつかの実施態様では、単一のトピックの表示を不要としてバイパスすることができる。)次いでシステムは、階層の第2のレベルでリストされたすべてのトピックを表示することによって応答し、この場合は8および9と付番されたトピックを表示する(これらのトピックの名前は例示的トピックテーブルに含まれていない)。次いで、これらの2つのトピックがリクエスタに表示され、各々の後に1という、各トピックに関係する文書の番号が続き、リクエスタは、一方または他方を選択するように促される。リクエスタがトピック番号8を選択すると仮定すると、次いでシステムはリクエスタに、URLテーブル218内のURL番号19が割り当てられた文書に対応するURLアドレスおよび文書名を表示する。
【0252】
第3の階層のトピック33はリクエスタに表示されない。これは残されたただ1つのトピックなので、これを表示する理由はない。
【実施例2】
【0253】
ただ1つの階層レベル中でサーチする。
【0254】
このとき、リクエスタが「Alka-Seltzer」というサーチ語を入力すると仮定すると、システムは最初にこの単語を、実施例1で説明した辞書204および類義語206のテーブルに対してチェックし、屈折および他の問題に対処する。すべての必要なチェックが完了された後、システムは問合せ単語テーブルに行き、「Alka-Seltzer」が以前にサーチされていて問合せ単語番号に割り当てられていることを学習する。したがって、システムは次いでこの単語番号を問合せ連結テーブル216内でルックアップし、URL番号20に割り当てられた単一文書のみがその単語を含むことを学習する。URLテーブル218を参照すると、文書20は1つのトピック番号2にのみ割り当てられている。したがって、リクエスタと対話する必要はない。単一の文書のURLアドレスおよび文書タイトルがリクエスタに表示されて、リクエスタはその文書中でブラウズするかどうかを判断することができる。
【実施例3】
【0255】
サーチ語が問合せ単語テーブル内に現れない。
【0256】
リクエスタが「心臓の痛み」という単語を入力し、このサーチは以前に実行されたことがないので、システムがこれを問合せ単語テーブル214内で発見できないと仮定する。綴り、屈折および類義語の問題に対処した後、システムはライブサーチ(図5)を開始し、「心臓の痛み」を含むいくつかの文書を取り込む。
【0257】
解析700(図7、8および9)およびカテゴリ化1000(図10)のプロセスを通じて、システムは、すべての取り込まれた文書、および、関連する割り当てられたトピックを、URLテーブル218に追加する。このプロセスは、各文書内で隣接する単語ペアリングを発見すること、これらを単語組合せテーブル210内でルックアップすること、関連付けられたトピック番号をテーブル210から検索すること、および、次いで各文書について最大4つの最も関連するトピックを選択して、これらの4つのトピックのトピック番号を各文書のURLアドレスと共にURLテーブル218に入れる上述のプロセスを完了することを含む。次いで、問合せ連結テーブルが調整されて、問合せ単語テーブル内の「心臓の痛み」を、発見された文書にリンクするようにする。
【0258】
これらのステップを完了した後、システムは、上の実施例1で説明したように継続してサーチを完了する。
【実施例4】
【0259】
言語特有の問題に対処する。
【0260】
口語のドイツ語では、名詞の格(主格、所有格、与格または対格)の間で綴りに違いがある。したがって、ドイツ語の名詞「Kopfschmerz」を以下のように格変化させることができる。
【0261】
【表7】
Figure 2004534324
【0262】
この文書はまた、「Kopfschmerz」複数形も含む可能性があり、これは「die Kopfschmerzen」である。次いで、前記名詞が以下のように格変化される。
【0263】
【表8】
Figure 2004534324
【0264】
サーチおよび比較のために、これらのすべての異なる形の屈折が、名詞の同じ基本形に下方変換される。
【0265】
同様に、システムはまた、動詞の異なる屈折にも対処しなければならない。たとえば、ドイツ語の動詞「laufen」は以下のように活用変化される(現在時制を使用する)。
【0266】
【表9】
Figure 2004534324
【0267】
解析中に、これらのすべての異なる動詞の形を基本形に単調化して、解析しなければならない単語の数を減らし、システムの意味的パフォーマンスを改善するようにしなければならない。
【0268】
本発明の好ましい実施形態を説明したが、多数の修正および変更は、本発明の真の精神および範囲内に入る検索システム設計の当業者には想起されるであろうことを理解されたい。したがって、本明細書に付属し、その一部を形成する特許請求の範囲は、本発明およびその範囲を正確な表現において定義するように意図される。
【0269】
図12からわかるように、基本的発明の好ましい実施形態による新規なサーチエンジン1204の中心要素は、フィルタリングモジュール1204a(たとえば、HTML、XML、WinWord、PDFおよび他のデータフォーマット)、解析モジュール1204b、および新たに開発された知識データベース1204cである。加えて、オプショナルのモジュール1202および/または1206を使用することができる。詳細には、これらのオプショナルのモジュールには以下が含まれる。
【0270】
-カスタマイズされたユーザインターフェイス1206、
-文書についての全文サーチ1202、ならびに分散文書監視、
-従来のサーチエンジンおよび/または新たに開発されたサーチ方法を使用した、インターネットへのインターフェイス、
-専門データベースへのインターフェイス、
-さらなる顧客アプリケーションへのインターフェイス。
【0271】
図13は、基本的発明の好ましい実施形態によるインターネットアーカイブ1300のために使用されるコンポーネントのシステムアーキテクチャおよび協調の概要を示す。コンポーネント1308aおよび1308bはサーチエンジン1308を形成し、これは前記インターネットアーカイブ1300の中心である。このアーキテクチャは、基本的発明によるサーチ技術1310、更新機能1312およびウェブサイトメモリ1314によって補足される。さらに、新規なユーザインターフェイス1306が提示され、これはインターネットポータル1306aおよび対話コントロール1306bからなる。
【0272】
これにより、サーチ問合せが以下の方式に従って処理される。すなわち、顧客が、基本的発明の好ましい実施形態によるインターネットアーカイブを、インターネットを介して、自分のウェブブラウザを用いて調べる。顧客が入力したサーチ問合せが対話コントロールモジュールによって受信される。関連付けられた文書がユーザに、そのデータベースから提示され、このデータベースの中にはすでに解析された文書(ウェブサイト)についてのカテゴリ情報が格納されている。
【0273】
その間に、更新機能が連続的にバックグラウンドで実行して、知識データベース内に格納された情報を最新に保つ。これにより、修正された新しい文書が、基本的発明によるサーチエンジンによって、それらのコンテンツについて解析される。対応するカテゴリ情報が前記知識データベースに格納される。
【0274】
基本的発明の好ましい実施形態による、図14に示すインターネットアーカイブ1400の作業の流れは、以下のコンポーネントに基づいている。
【0275】
-インターネットに適用された従来のサーチエンジン1406、
-新たに設計されたサーチエンジン1204(図12を参照)、
-HTMLテキストを生成するためのPHPプログラムを含むインターネットのための専用に設計された提示プログラム1402、ならびに、従来のサーチエンジン1406および新たに設計されたサーチエンジン1204(図12を参照)の統合のためのいわゆる「発見マシン」1404、
-約50カテゴリおよび関連付けられた開始文書を有する、広く適用可能なシソーラス。
【0276】
サーチ問合せが、ユーザインターフェイス1402を用いて入力されているとき、前記サーチ問合せは、発見マシン1404によって従来のサーチエンジン1406に渡される。結果として、ユーザは、サーチされた語を含む文書に関係付けられるいくつかの参照(DocIDs)を受信する。発見マシン1404は、基本的発明の好ましい実施形態による知識データベース1408内に格納された文書への、得られた参照が、すでに既知であるかどうかのテストを開始する。次いで、既知の、およびすでに入手可能な各参照が、その関連付けられたカテゴリと共に、発見マシン1404に結果として戻される。未知である参照がリストに転送され、それにより、これらの文書をインターネットから取り出してフィルタリングおよび解析し、前記解析の結果を知識データベースに格納するように要求する。更新アルゴリズムとして実現された個々のプロセスは、上述のリストが更新されているかどうかを継続的にチェックし、すべての必要なステップを実行する。最後に、発見マシン1404は、入力されたサーチ語に対応する、得られた結果を提示する。
【0277】
図1から14の参照符号により指定された記号の意味を、付属の参照記号の表から得ることができる。
【0278】
【表10A】
Figure 2004534324
【0279】
【表10B】
Figure 2004534324
【0280】
【表10C】
Figure 2004534324
【0281】
【表10D】
Figure 2004534324
【0282】
【表10E】
Figure 2004534324

【図面の簡単な説明】
【0283】
【図1】基本的発明の原理によって設計された、索引付きの拡張可能な対話的検索システムの概要ブロック図である。
【図2】検索システムのオペレーションをサポートするデータベースを例示する図である。
【図3】検索システムのためのセットアップ手順の流れ図である。
【図4】システムのための問合せ処理手順の流れ図である。
【図5】新しい問合せ語に出会うとき、問合せ処理手順によって実行されるライブサーチ手順の流れ図である。
【図6】システムのための更新および保守手順の流れ図である。
【図7】文書解析手順の流れ図を形成する図である。
【図8】文書解析手順の流れ図を形成する図である。
【図9】文書解析手順の流れ図を形成する図である。
【図10】文書カテゴリ化手順の流れ図である。
【図11】システムハードウェアの概要ブロック図を示す図である。
【図12】基本的発明の好ましい実施形態による、新規なサーチエンジンの概要ブロック図を示す図である。
【図13】基本的発明の好ましい実施形態によるインターネットアーカイブのシステムアーキテクチャ、およびその中で適用されるコンポーネントの協調を示す図である。
【図14】基本的発明の好ましい実施形態によるインターネットアーカイブの作業の流れを例示する図である。
【符号の説明】
【0284】
100 対話的検索システム
102 ユーザインターフェイス手順
104 タイマ
106 インターネットまたはイントラネット
200 知識データベース
202 単語テーブル
208 トピックテーブル
210 単語組合せテーブル
212 トピック組合せテーブル
214 問合せ単語テーブル
216 問合せ連結テーブル
218 URLテーブル
300 セットアップ手順
400 問合せ処理手順
500 ライブサーチ手順
600 更新および保守手順
700 解析手順
1000 カテゴリ化手順

Claims (80)

  1. サーチ問合せをリクエスタから受信した後に文書をサーチするように設計された対話的文書検索システム(100)であって、前記システムは、テキストパターンをトピックに関係付ける少なくとも1つのデータ構造(202、208、210、212、214、216および/または218)を含む知識データベース(200)、および問合せプロセッサ(400)を備え、問合せプロセッサはリクエスタからのサーチ問合せの前記受信に応答して、
    -前記サーチ問合せに関係付けられる少なくとも1つの語を含む文書をサーチし、取り込むように試みるステップと、いずれかの文書が取り込まれる場合、
    -前記取り込まれた文書を解析してそれらのテキストパターンを決定するステップと、
    -各文書のテキストパターンを前記知識データベース(200)内の前記テキストパターンと比較することによって、前記取り込まれた文書をカテゴリ化するステップと、
    -文書のテキストパターンが前記知識データベース(200)内のテキストパターンに類似する場合、その文書に類似の単語パターンの関連トピックを割り当てるステップと、
    -前記カテゴリ化された文書に割り当てられた前記トピックの少なくとも1つのリストを前記リクエスタに提示するステップと、
    -前記リクエスタに、少なくとも1つのトピックを前記リストから、前記リクエスタのサーチに関連するトピックとして指定するように求めるステップと、
    -前記リクエスタに、前記リクエスタによって指定されたトピックがそれに割り当てられている、取り込まれ、カテゴリ化された文書のサブセットへのアクセスを認可するステップとを実行する、対話的文書検索システム。
  2. 前記問合せプロセッサは、自動テキストカテゴリ化のための言語的および数学的手法に基づいたハイブリッド方法を使用して解析するステップを実行することを特徴とする、請求項1に記載の対話的文書検索システム。
  3. 前記解析によって決定されたテキストパターンは、一般に発生するサーチ可能な句である、請求項1または2に記載の対話的文書検索システム(100)。
  4. 前記解析によって決定されたテキストパターンは、単語のペアリングであり、各ペアリングは2つのサーチ可能な単語を備える、請求項1または2に記載の対話的文書検索システム(100)。
  5. 各ペアリングにおける一方の単語は前記文書内で頻繁に発生し、各ペアリングにおける他方の単語は、前記文書内で頻繁に前記一方の単語の付近で発生する、請求項4に記載の対話的文書検索システム(100)。
  6. トピックが以前にそれに割り当てられている索引付き文書を解析し、それにより前記索引付き文書の単語パターンを決定し、次いで前記知識データベース(200)に、前記索引付き文書についてのこれらの単語パターンおよびこれらの文書に割り当てられた前記トピックを格納し、次いで索引付き文書の前記単語パターンを、その同じ索引付き文書に割り当てられた前記トピックに関係付けることによって、前記知識ベース(200)が最初に構築される、前記請求項のいずれか一項に記載の対話的文書検索システム(100)。
  7. 前記サーチ問合せは句を含み、前記サーチされた語はその句である、前記請求項のいずれか一項に記載の対話的文書検索システム(100)。
  8. 前記サーチ問合せは少なくとも1つの単語を含み、前記サーチされた語は、前記サーチ問合せから取られた少なくとも1つのサーチ可能な単語である、請求項1から6のいずれか一項に記載の対話的文書検索システム(100)。
  9. 前記サーチ問合せはいくつかの単語を含み、前記サーチされた語は、前記サーチ問合せから取られたサーチ可能な単語であり、前記サーチ問合せにおけるいくつかの単語が別々のサーチにおいてサーチされる、請求項1から6のいずれか一項に記載の対話的文書検索システム(100)。
  10. 前記サーチ問合せは少なくとも1つの演算子および少なくとも1つの単語を含み、前記リクエスタへの文書の前記提示の範囲は、前記サーチ問合せによって制限される、請求項1から6のいずれか一項に記載の対話的文書検索システム(100)。
  11. 前記知識データベース(200)は、以前にサーチされた単語のレコード、このような以前のサーチによって取り込まれた前記文書、および前記取り込まれた文書に割り当てられた索引語を保持し、前記知識データベース(200)はまた、前記以前にサーチされた単語と、このような以前に行われたサーチによって取り込まれた前記文書の間の連結も保持して、以前にサーチされた単語に後のサーチ問合せで出会うとき、前記サーチ、解析およびカテゴリ化するステップをバイパスできるようにする、前記請求項のいずれか一項に記載の対話的文書検索システム(100)。
  12. トピックが以前にそれに割り当てられている索引付き文書を解析し、それにより前記索引付き文書の単語パターンを決定し、次いで前記知識データベース(200)に、前記索引付き文書についてのこれらの単語パターンおよびこれらの文書に割り当てられた前記トピックを格納し、次いで索引付き文書の前記単語パターンを、その同じ索引付き文書に割り当てられた前記トピックに関係付けることによって、前記知識データベース(200)が最初に構築される、請求項11に記載の対話的文書検索システム(100)。
  13. 前記知識データベース(200)に入力された文書がサーチ可能な文書の母集団から変更または削除されているかどうかを確かめるために周期的にチェックし、そうであった場合、このような文書へのすべての参照、ならびに、それらの取り込みを引き起こした前記サーチされた単語を、前記知識データベース(200)から削除し、それにより、このような文書を取り込む可能性の高いこのような単語のすべてのサーチを、これに後のサーチ問合せで出会った場合に強制的に新たに繰り返させることによって、前記知識データベース(200)が保守される、請求項11に記載の対話的文書検索システム(100)。
  14. 前記知識データベース(200)に入力された文書が変更されているかどうかを確かめるために周期的にチェックし、そうであった場合、このような文書を再解析および再カテゴリ化し、前記知識データベース(200)から、もはや含まれていない、このような文書と単語の間の連結も除去することによって、前記知識データベース(200)が保守される、請求項11に記載の対話的文書検索システム(100)。
  15. 前記サーチ可能な文書の母集団内のいくつかの位置で新しい文書を周期的にチェックし、このような文書がサーチによって取り込まれるより前にこれらの文書を解析およびカテゴリ化することによって、前記知識データベース(200)が更新される、前記請求項のいずれか一項に記載の対話的文書検索システム(100)。
  16. 前記知識データベース(200)はトピック組合せテーブル(212)を含み、トピック組合せテーブル(212)は、取り込まれた文書内で現れる可能性があり、かつ、カテゴリ化を改善するために他のトピックのための置換としてこのような文書に割り当てられる、前記他のトピックのある組合せのための置換トピックを含む、前記請求項のいずれか一項に記載の対話的文書検索システム(100)。
  17. カテゴリ化中に複数のトピックが少なくともいくつかの文書に割り当てられ、階層的に配列され、前記知識データベース(200)内の前記少なくともいくつかの文書にリンクされ、前記カテゴリ化された文書に関連付けられた階層トピックが存在するのと同数のトピックのリストが前記リクエスタに順々に提示され、前記リクエスタが多数のトピックおよびサブトピックを指定するようにし、前記リクエスタの指定したトピックに無関係の文書を、前記リクエスタがアクセスを認可されるものから除くことによって、サーチ精度が改善されるようにする、前記請求項のいずれか一項に記載の対話的文書検索システム(100)。
  18. 前記リクエスタへのいずれかの所与の階層レベルでのトピックの前記提示が、すべての前記文書がそのレベルの同じトピックに関連付けられるとき、抑制される、請求項17に記載の対話的文書検索システム(100)。
  19. 解析は、前記文書データを単語のリストまで減らすステップと、屈折および類義語の問題に対処するステップと、サーチ不可能な単語を除くステップと、最も頻繁に発生する単語を選択するステップと、前記文書内でこれらの単語と隣接した単語との頻繁に発生するペアリングを選択するステップとを含む、前記請求項のいずれか一項に記載の対話的文書検索システム(100)。
  20. 事前定義された数までの、前記最も頻繁に発生する単語が選択される、請求項19に記載の対話的文書検索システム(100)。
  21. 単語が文書内で現れる回数を前記文書の全体の単語の含有量によって除算したものが所定の値を越える場合、単語が頻繁に発生する、請求項19に記載の対話的文書検索システム(100)。
  22. 所与の文書内の所与のペアリングの発生の数を、前記文書内の前記ペアリングの前記頻繁に発生する隣接した単語の発生の数によって除算したものが所定の値より大きい場合、ペアリングが頻繁に発生する、前記請求項のいずれか一項に記載の対話的文書検索システム(100)。
  23. -前記問合せプロセッサ(400)が、インターネットまたはイントラネットに接続する少なくとも1つのウェブサーバにインストールされ、
    -前記知識データベース(200)が、前記ウェブサーバにアクセス可能なデータベースエンジン(1124)上にインストールされ、
    -前記リクエスタは前記ウェブサーバ(1114、1116、1118または1120)と、同じくインターネットおよび同じイントラネットに接続するブラウザ(1104)を有するコンピュータ(1102)を使用して通信し、
    -前記ウェブサーバ(1114、1116、1118または1120)にアクセス可能であり、インターネットまたは同じイントラネット上でサーチを行うサーチエンジン(1128)によって、サーチが実行される、前記請求項のいずれか一項に記載の対話的文書検索システム(100)。
  24. 前記所定の値は約0.0001である、請求項23に記載の対話的文書検索システム(100)。
  25. 多数のウェブサーバ(1114、1116、1118または1120)が使用され、これらがインターネットまたはイントラネットに、ルータ(1112)およびファイアウォール(1110)によって相互接続され、いずれかの所与のサーチ手順の状況が前記リクエスタのコンピュータ(1102)上で維持され、サーチ問合せまたは指定が前記リクエスタによって提出されるたびに、この状況が前記ウェブサーバ(1114、1116、1118または1120)の1つに再提出される、請求項23に記載の対話的文書検索システム(100)。
  26. 前記知識データベース(200)は、単語テーブル(202)、辞書(204)および類義語(206)、トピックテーブル(208)、単語組合せテーブル(210)、トピック組合せテーブル(212)、問合せ単語テーブル(214)、問合せ連結テーブル(216)、およびURLテーブル(218)を含む、前記請求項のいずれか一項に記載の対話的文書検索システム(100)。
  27. サーチ問合せをリクエスタから受信した後に文書をサーチおよび検索する対話的方法であって、
    -テキストパターンをトピックに関係付ける少なくとも1つのデータ構造(202、208、210、212、214、216および/または218)を含む知識データベース(200)を提供するステップと、
    -リクエスタからのサーチ問合せの前記受信に応答して、前記サーチ問合せに関係付けられる少なくとも1つの語を含む文書をサーチし、取り込むように試みるステップと、
    -いずれかの文書が取り込まれる場合、前記取り込まれた文書を解析してそれらのテキストパターンを決定するステップと、
    -各文書のテキストパターンを前記知識データベース(200)内の前記テキストパターンと比較することによって、前記取り込まれた文書をカテゴリ化するステップと、
    -文書の単語パターンが前記知識データベース(200)内のテキストパターンに類似するとき、その文書に類似のテキストパターンの関連トピックを割り当てるステップと、
    -前記カテゴリ化された文書に割り当てられた前記トピックの少なくとも1つのリストを前記リクエスタに提示し、前記リクエスタに、少なくとも1つのトピックを前記リストから、前記リクエスタのサーチに関連するトピックとして指定するように求めるステップと、
    -前記リクエスタに、前記リクエスタによって指定されたトピックがそれに割り当てられている、取り込まれ、カテゴリ化された文書のサブセットへのアクセスを認可するステップとを備える、対話的方法。
  28. 前記解析するステップは、自動テキストカテゴリ化のための言語的および数学的手法に基づいたハイブリッド方法を使用して実行される、請求項27に記載の対話的方法。
  29. 前記解析によって決定されたテキストパターンは、一般に発生するサーチ可能な句である、請求項27または28に記載のサーチする対話的方法。
  30. 2つのサーチ可能な単語を含む少なくともいくつかの単語パターンを決定するステップをさらに含む、請求項27または28に記載のサーチする対話的方法。
  31. 少なくともいくつかの単語パターンに、前記文書内で頻繁に発生する1つの単語、および、前記文書内で前記1つの単語の付近で頻繁に発生するもう1つの単語を含めさせるステップをさらに含む、請求項30に記載のサーチする対話的方法。
  32. トピックが以前にそれに割り当てられている索引付き文書を解析し、それにより前記索引付き文書の単語パターンを決定し、次いで前記知識データベース(200)に、前記索引付き文書についてのこれらの単語パターンおよびこれらの文書に割り当てられた前記トピックを格納し、次いで索引付き文書の前記単語パターンを、その同じ索引付き文書に割り当てられた前記トピックに関係付けることによって、前記知識ベース(200)を構築するステップをさらに含む、請求項27から31のいずれか一項に記載のサーチする対話的方法。
  33. 句を含み、前記句をサーチする、サーチ問合せを受け入れる、請求項27から31のいずれか一項に記載のサーチする対話的方法。
  34. 少なくとも1つの単語を含み、前記単語をサーチする、サーチ問合せを受け入れる、請求項27から32のいずれか一項に記載のサーチする対話的方法。
  35. いくつかの単語を含み、各単語を別々のサーチにおいてサーチする、サーチ問合せを受け入れる、請求項27から32のいずれか一項に記載のサーチする対話的方法。
  36. 少なくとも1つの演算子および少なくとも1つの単語を含み、前記単語をサーチして後に前記演算子を使用して、前記リクエスタに提示された前記文書の範囲を制限する、少なくともいくつかのサーチ問合せを受け入れる、請求項27から32のいずれか一項に記載のサーチする対話的方法。
  37. 前記知識データベース(200)において、以前にサーチされた単語のレコード、このような以前のサーチによって取り込まれた前記文書、および前記取り込まれた文書に割り当てられた索引語を保持するステップ、ならびに、前記知識データベース(200)内で、前記以前にサーチされた単語と、このような以前に行われたサーチによって取り込まれた前記文書の間の連結を保持して、以前にサーチされた単語に後のサーチ問合せで出会うとき、前記サーチ、解析およびカテゴリ化するステップをバイパスできるようにするステップをさらに含む、請求項27から32のいずれか一項に記載のサーチする対話的方法。
  38. トピックが以前にそれに割り当てられている索引付き文書を解析し、それにより前記索引付き文書の単語パターンを決定し、次いで前記知識データベース(200)に、前記索引付き文書についてのこれらの単語パターンおよびこれらの文書に割り当てられた前記トピックを格納し、次いで索引付き文書の前記単語パターンを、その同じ索引付き文書に割り当てられた前記トピックに関係付けることによって、前記知識データベース(200)を最初に構築するステップをさらに含む、請求項37に記載のサーチする対話的方法。
  39. 前記知識データベース(200)に入力された文書がサーチ可能な文書の母集団から変更または削除されているかどうかを確かめるために周期的にチェックし、そうであった場合、このような文書へのすべての参照、ならびに、それらの取り込みを引き起こした前記サーチされた単語を、前記知識データベース(200)から削除し、それにより、このような文書を取り込む可能性の高いこのような単語のすべてのサーチを、これに後のサーチ問合せで出会った場合に強制的に新たに繰り返させることによって、前記知識データベース(200)を保守するステップをさらに含む、請求項37に記載のサーチする対話的方法。
  40. 前記知識データベース(200)に入力された文書が変更されているかどうかを確かめるために周期的にチェックし、そうであった場合、このような文書を再解析および再カテゴリ化し、前記知識データベース(200)から、もはや含まれていない、このような文書と単語の間の連結も除去することによって、前記知識データベース(200)を保守するステップをさらに含む、請求項37に記載のサーチする対話的方法。
  41. 前記サーチ可能な文書の母集団内のいくつかの位置で新しい文書を周期的にチェックし、このような文書がサーチによって取り込まれるより前にこれらの文書を解析およびカテゴリ化することによって、前記知識データベース(200)を更新するステップをさらに含む、請求項27から40のいずれか一項に記載のサーチする対話的方法。
  42. 前記知識データベース(200)に、取り込まれた文書内で現れる可能性がある他のトピックのある組合せのための置換トピックを含む、トピック組合せテーブル(212)を含めるステップ、および、カテゴリ化を改善するために前記他のトピックのための置換としてこのような文書に置換トピックを割り当てるステップをさらに含む、請求項27から41のいずれか一項に記載のサーチする対話的方法。
  43. カテゴリ化中に複数のトピックを少なくともいくつかの文書に割り当て、階層的に配列し、前記知識データベース(200)内の前記少なくともいくつかの文書にリンクさせるステップ、および、前記カテゴリ化された文書に関連付けられた階層トピックが存在するのと同数のトピックのリストを前記リクエスタに階層順に提示し、前記リクエスタが多数のトピックおよびサブトピックを指定するようにし、前記リクエスタの指定したトピックに無関係の文書を、前記リクエスタがアクセスを認可されるものから除くことによって、サーチ精度が改善されるようにするステップをさらに含む、請求項27から42のいずれか一項に記載のサーチする対話的方法。
  44. 前記リクエスタへのいずれかの所与の階層レベルでのトピックの前記提示を、すべての前記文書がそのレベルの同じトピックに関連付けられるとき、抑制するステップをさらに含む、請求項43に記載のサーチする対話的方法。
  45. 前記文書データを単語のリストまで減らすステップと、屈折および類義語の問題に対処するステップと、サーチ不可能な単語を除くステップと、最も頻繁に発生する単語を選択するステップと、前記文書内でこれらの単語と隣接した単語との頻繁に発生するペアリングを選択するステップとをさらに含む、請求項27から44のいずれか一項に記載のサーチする対話的方法。
  46. 事前定義された数までの、前記最も頻繁に発生する単語を選択するステップをさらに含む、請求項45に記載のサーチする対話的方法。
  47. 単語が頻繁に発生するかどうかを、前記単語が文書内で現れる回数を前記文書の全体の単語の含有量によって除算したものが所定の値を越えるかどうかを判断することによって、判断するステップをさらに含む、請求項45に記載のサーチする対話的方法。
  48. ペアリングが頻繁に発生するかどうかを、所与の文書内の所与のペアリングの発生の数を、前記文書内の前記ペアリングの前記隣接した単語の発生の数によって除算したものが所定の値より大きいかどうかを判断することによって、判断するステップをさらに含む、請求項45に記載のサーチする対話的方法。
  49. インターネットプロトコルを使用して前記リクエスタとの通信の手配をするステップをさらに含む、請求項27から48のいずれか一項に記載のサーチする対話的方法。
  50. 前記リクエスタによるいずれかの所与のサーチ手順の状況を維持するステップをさらに含む、請求項49に記載のサーチする対話的方法。
  51. 前記知識データベース(200)に、単語テーブル(202)、辞書(204)および類義語(206)、トピックテーブル(208)、単語組合せテーブル(210)、トピック組合せテーブル(212)、問合せ単語テーブル(214)、問合せ連結テーブル(216)、およびURLテーブル(218)を構築するステップをさらに含む、請求項27から50のいずれか一項に記載のサーチする対話的方法。
  52. コンピューティングデバイス上で実行されるとき、請求項27から51のいずれか一項に記載の方法を実施する、コンピュータソフトウェアプログラム。
  53. 専用に設計されたユーザインターフェイス(1402)がユーザに、すべてのアクセス可能な文書への一様なアクセスを提示し、それにより、文書がいずれかの企業ネットワークのドメインから検索されるかインターネットから検索されるかにかかわらず、文書のファイルフォーマットに無関係に、異質環境におけるサーチを可能にすることを特徴とする、請求項1から26のいずれか一項に記載の対話的文書検索システム(100)。
  54. 専用に開発された更新機能(1312)が、ウェブサイトをそれらの個々の修正サイクルに応じて訪れてウェブサイトをさらなる解析のために提供するために、使用されることを特徴とする、請求項1から26、または53のいずれか一項に記載の対話的文書検索システム(100)。
  55. 電子的に格納されたデータを保護するために個々の会社のドメインにおいて使用された既存のセキュリティ構造を認識し、それにより前記対話的文書検索システム(100)を前記セキュリティ構造に、それらを変更することなく統合することを可能にする手段を備える、請求項1から26、または52から54のいずれか一項に記載の対話的文書検索システム(100)。
  56. 異なるオペレーティングシステム環境への前記対話的文書検索システム(100)の移植性がサポートされる、請求項1から26および/または52から55のいずれか一項に記載の対話的文書検索システム(100)。
  57. 前記ユーザにデータ空間のセットが提供され、各々はテーマ的に接続された文書のセットを備える、請求項1から26および/または52から56のいずれか一項に記載の対話的文書検索システム(100)。
  58. インターネットから検索された文書の前記提示に適した、適切にフォーマットされたテキストを生成するための提示プログラムを備える、専用に設計されたユーザインターフェイス(1402)が適用される、請求項1から26および/または52から57のいずれか一項に記載の対話的文書検索システム(100)。
  59. エージェントプログラムが適用され、これは、入力されたサーチ問合せをバックグラウンドで連続的に処理する、請求項1から26および/または52から58のいずれか一項に記載の対話的文書検索システム(100)。
  60. 選択されたカテゴリの各文書が、公共の場、メディアおよび/または百科事典、企業または他のソースなど、その起源に従って分類される、請求項1から26および/または52から59のいずれか一項に記載の対話的文書検索システム(100)。
  61. 異なるカテゴリ、および関連付けられた開始文書を有する、広く適用可能なシソーラスが適用される、請求項1から26および/または52から60のいずれか一項に記載の対話的文書検索システム(100)。
  62. ユーザインターフェイスが適用され、これは、自動的に認識され、基礎的な自動音声認識アプリケーションを用いて解釈される音声コマンドを用いて、サーチ問合せを入力する手段を備える、請求項1から26および/または52から61のいずれか一項に記載の対話的文書検索システム(100)。
  63. サーチ結果が、音声データ出力を用いて提示される、請求項1から26および/または52から62のいずれか一項に記載の対話的文書検索システム(100)。
  64. 前記対話的文書検索システム(100)の多言語オペレーションが可能にされる、請求項1から27および/または52から63のいずれか一項に記載の対話的文書検索システム(100)。
  65. ユーザに、すべてのアクセス可能な文書への一様なアクセスが提示され、それにより、文書がいずれかの企業ネットワークのドメインから検索されるかインターネットから検索されるかにかかわらず、文書のファイルフォーマットに無関係に、異質環境におけるサーチを可能にする、請求項27から51のいずれか一項に記載のサーチする対話的方法。
  66. 事前定義された例示的アーカイブが使用され、これは、新しいアーカイブ構造がインストールされなければならない場合に生じるであろう実施コストを節約するために、事前にカテゴリ化された文書のセットについてのカテゴリ情報を備える、請求項27から51、または65のいずれか一項に記載のサーチする対話的方法。
  67. 専用に開発された更新機能(1312)が、ウェブサイトをそれらの個々の修正サイクルに応じて訪れてウェブサイトをさらなる解析のために提供するために使用され、それにより、使用されたインターネットアーカイブ構造の最大トピック性を保証する、請求項27から51、65または66のいずれか一項に記載のサーチする対話的方法。
  68. 電子的に格納されたデータを保護するために個々の会社のドメインにおいて使用された既存のセキュリティ構造を認識し、それにより対話的文書検索システム(100)を前記セキュリティ構造に、それらを変更することなく統合することを可能にする手段を備える、請求項27から51および/または65から67のいずれか一項に記載のサーチする対話的方法。
  69. 異なるオペレーティングシステム環境への前記対話的文書検索システム(100)の移植性がサポートされる、請求項27から51および/または65から68のいずれか一項に記載のサーチする対話的方法。
  70. 前記ユーザにデータ空間のセットが提供され、各々はテーマ的に接続された文書のセットを備える、請求項27から51および/または65から69のいずれか一項に記載のサーチする対話的方法。
  71. インターネットから検索された文書の前記提示に適した、適切にフォーマットされたテキストを生成するための提示プログラムを備える、専用に設計されたユーザインターフェイス(1402)が適用される、請求項27から51および/または65から70のいずれか一項に記載のサーチする対話的方法。
  72. エージェントプログラムが適用され、これは、入力されたサーチ問合せをバックグラウンドで連続的に処理する、請求項27から51および/または65から71のいずれか一項に記載のサーチする対話的方法。
  73. 選択されたカテゴリの各文書が、公共の場、メディアおよび/または百科事典、企業または他のソースなど、その起源に従って分類される、請求項27から51および/または65から72のいずれか一項に記載のサーチする対話的方法。
  74. 異なるカテゴリ、および関連付けられた開始文書を有する、広く適用可能なシソーラスが適用される、請求項27から51および/または65から73のいずれか一項に記載のサーチする対話的方法。
  75. ユーザインターフェイスが適用され、これは、自動的に認識され、基礎的な自動音声認識アプリケーションを用いて解釈される音声コマンドを用いて、サーチ問合せを入力する手段を備える、請求項27から51および/または65から74のいずれか一項に記載のサーチする対話的方法。
  76. サーチ結果が、音声データ出力を用いて提示される、請求項27から51および/または65から75のいずれか一項に記載のサーチする対話的方法。
  77. 前記対話的文書検索システム(100)の多言語オペレーションが可能にされる、請求項27から51および/または65から76のいずれか一項に記載のサーチする対話的方法。
  78. モバイルコンピューティングおよび/または遠隔通信デバイスであって、インターネットおよび/またはいずれかの企業ネットワークからの文書にアクセスするためのWAP規格を適用することができる、グラフィカルユーザインターフェイスを備え、
    請求項1から27および/または52から57のいずれか一項に記載の対話的文書検索システム(100)を特徴とする、モバイルコンピューティングおよび/または遠隔通信デバイス。
  79. 対話的文書検索システムであって、
    -解析された文書の識別をトピックに関係付けるための知識データベース(1408)と、
    -サーチ問合せを入力するためのユーザインターフェイス(1402)と、
    -入力サーチ問合せに本質的に合致する文書について、リソースをサーチするため、かつ、文書の識別をサーチ結果として出力するためのサーチエンジン(1406)と、
    -前記サーチエンジン(1406)の前記サーチ結果が供給される発見マシン(1404)であって、
    -前記知識データベース(1408)にアクセスして、前記サーチ結果において識別された文書が前にすでに解析されているかどうかをチェックすること、
    -前記文書がすでに解析されており、その識別がその関連トピックと共に前記知識データベース(1408)に格納されている場合、文書の前記識別を、前記知識データベース(1408)から検索されたその関連トピックと共に前記ユーザインターフェイス(1402)に転送すること、および
    -前記文書がまだ解析されていない場合、前記識別された文書を解析して、トピックを前記文書の前記識別に関係付け、前記文書の前記識別をその関連トピックと共に前記ユーザインターフェイス(1402)に転送することを行うための発見マシン(1404)とを備える、対話的文書検索システム。
  80. 対話的文書検索方法であって、
    -解析された文書の識別をデータベースにおけるトピックに関係付けるステップ(1408)と、
    -ユーザインターフェイスを用いてサーチ問合せを入力するステップ(1402)と、
    -入力サーチ問合せに本質的に合致する文書について、リソースをサーチし(1406)、文書の識別をサーチ結果として出力するステップと、
    -前記データベース(1408)にアクセスして、前記サーチ結果において識別された文書が前にすでに解析されているかどうかをチェックするステップと、
    -前記文書がすでに解析されており、その識別がその関連トピックと共に前記知識データベース(1408)に格納されている場合、文書の前記識別を、前記知識データベース(1408)から検索されたその関連トピックと共に前記ユーザインターフェイス(1402)に転送するステップと、
    -前記文書がまだ解析されていない場合、前記識別された文書を解析して、トピックを前記文書の前記識別に関係付け、前記文書の前記識別をその関連トピックと共に前記ユーザインターフェイス(1402)に転送するステップとを備える、対話的文書検索方法。
JP2003511133A 2001-07-04 2001-07-04 索引付きの拡張可能な対話的文書検索システム Withdrawn JP2004534324A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2001/007649 WO2003005235A1 (en) 2001-07-04 2001-07-04 Category based, extensible and interactive system for document retrieval

Publications (1)

Publication Number Publication Date
JP2004534324A true JP2004534324A (ja) 2004-11-11

Family

ID=8164488

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003511133A Withdrawn JP2004534324A (ja) 2001-07-04 2001-07-04 索引付きの拡張可能な対話的文書検索システム

Country Status (6)

Country Link
US (1) US20050108200A1 (ja)
EP (1) EP1402408A1 (ja)
JP (1) JP2004534324A (ja)
KR (1) KR20040013097A (ja)
CN (1) CN1535433A (ja)
WO (1) WO2003005235A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015523659A (ja) * 2012-06-13 2015-08-13 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 多言語混合検索方法およびシステム

Families Citing this family (230)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7284191B2 (en) 2001-08-13 2007-10-16 Xerox Corporation Meta-document management system with document identifiers
US7133862B2 (en) 2001-08-13 2006-11-07 Xerox Corporation System with user directed enrichment and import/export control
GB2383153A (en) * 2001-12-17 2003-06-18 Hemera Technologies Inc Search engine for computer graphic images
US20030115191A1 (en) * 2001-12-17 2003-06-19 Max Copperman Efficient and cost-effective content provider for customer relationship management (CRM) or other applications
JP3791908B2 (ja) * 2002-02-22 2006-06-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索システム、システム、検索方法およびプログラム
JP2003330948A (ja) 2002-03-06 2003-11-21 Fujitsu Ltd ウェブページを評価する装置および方法
US7139750B2 (en) * 2002-03-13 2006-11-21 Agile Software Corporation System and method for where-used searches for data stored in a multi-level hierarchical structure
US7203909B1 (en) * 2002-04-04 2007-04-10 Microsoft Corporation System and methods for constructing personalized context-sensitive portal pages or views by analyzing patterns of users' information access activities
US20030204522A1 (en) * 2002-04-23 2003-10-30 International Business Machines Corporation Autofoldering process in content management
US7266559B2 (en) * 2002-12-05 2007-09-04 Microsoft Corporation Method and apparatus for adapting a search classifier based on user queries
US7111000B2 (en) * 2003-01-06 2006-09-19 Microsoft Corporation Retrieval of structured documents
US20040148170A1 (en) * 2003-01-23 2004-07-29 Alejandro Acero Statistical classifiers for spoken language understanding and command/control scenarios
US8335683B2 (en) * 2003-01-23 2012-12-18 Microsoft Corporation System for using statistical classifiers for spoken language understanding
US20040193596A1 (en) * 2003-02-21 2004-09-30 Rudy Defelice Multiparameter indexing and searching for documents
JP3944102B2 (ja) * 2003-03-13 2007-07-11 株式会社日立製作所 語義関連ネットワークを用いた文書検索システム
US20040260677A1 (en) * 2003-06-17 2004-12-23 Radhika Malpani Search query categorization for business listings search
CA2536271A1 (en) * 2003-08-21 2005-03-03 Idilia Inc. System and method for associating documents with contextual advertisements
US7383269B2 (en) * 2003-09-12 2008-06-03 Accenture Global Services Gmbh Navigating a software project repository
CN1629838A (zh) 2003-12-17 2005-06-22 国际商业机器公司 电子文档的处理、浏览以及信息提取的方法、装置及系统
CN1629835A (zh) * 2003-12-17 2005-06-22 国际商业机器公司 电子文档的计算机辅助写作和浏览的方法及装置
US7346613B2 (en) * 2004-01-26 2008-03-18 Microsoft Corporation System and method for a unified and blended search
JP2005242904A (ja) * 2004-02-27 2005-09-08 Ricoh Co Ltd 文書群分析装置、文書群分析方法、文書群分析システム、プログラムおよび記録媒体
US7343378B2 (en) * 2004-03-29 2008-03-11 Microsoft Corporation Generation of meaningful names in flattened hierarchical structures
US20050235011A1 (en) * 2004-04-15 2005-10-20 Microsoft Corporation Distributed object classification
JP4251634B2 (ja) * 2004-06-30 2009-04-08 株式会社東芝 マルチメディアデータ再生装置およびマルチメディアデータ再生方法
US7617176B2 (en) * 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping
JP4189369B2 (ja) * 2004-09-24 2008-12-03 株式会社東芝 構造化文書検索装置及び構造化文書検索方法
US7496567B1 (en) * 2004-10-01 2009-02-24 Terril John Steichen System and method for document categorization
US20060117252A1 (en) * 2004-11-29 2006-06-01 Joseph Du Systems and methods for document analysis
KR100703697B1 (ko) * 2005-02-02 2007-04-05 삼성전자주식회사 어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치
GB0502259D0 (en) * 2005-02-03 2005-03-09 British Telecomm Document searching tool and method
US8660977B2 (en) * 2005-02-04 2014-02-25 Accenture Global Services Limited Knowledge discovery tool relationship generation
US20060179026A1 (en) * 2005-02-04 2006-08-10 Bechtel Michael E Knowledge discovery tool extraction and integration
US7904411B2 (en) * 2005-02-04 2011-03-08 Accenture Global Services Limited Knowledge discovery tool relationship generation
US7392253B2 (en) * 2005-03-03 2008-06-24 Microsoft Corporation System and method for secure full-text indexing
US8468445B2 (en) * 2005-03-30 2013-06-18 The Trustees Of Columbia University In The City Of New York Systems and methods for content extraction
US8412698B1 (en) * 2005-04-07 2013-04-02 Yahoo! Inc. Customizable filters for personalized search
US8782050B2 (en) * 2005-05-06 2014-07-15 Nelson Information Systems, Inc. Database and index organization for enhanced document retrieval
US7548917B2 (en) 2005-05-06 2009-06-16 Nelson Information Systems, Inc. Database and index organization for enhanced document retrieval
EP1889181A4 (en) * 2005-05-16 2009-12-02 Ebay Inc METHOD AND SYSTEM FOR SEARCHING SEARCH
US20060288015A1 (en) * 2005-06-15 2006-12-21 Schirripa Steven R Electronic content classification
US20070011020A1 (en) * 2005-07-05 2007-01-11 Martin Anthony G Categorization of locations and documents in a computer network
US20070067403A1 (en) * 2005-07-20 2007-03-22 Grant Holmes Data Delivery System
US7739218B2 (en) * 2005-08-16 2010-06-15 International Business Machines Corporation Systems and methods for building and implementing ontology-based information resources
US20070067268A1 (en) * 2005-09-22 2007-03-22 Microsoft Corporation Navigation of structured data
WO2007038713A2 (en) * 2005-09-28 2007-04-05 Epacris Inc. Search engine determining results based on probabilistic scoring of relevance
US7797282B1 (en) * 2005-09-29 2010-09-14 Hewlett-Packard Development Company, L.P. System and method for modifying a training set
US7917519B2 (en) * 2005-10-26 2011-03-29 Sizatola, Llc Categorized document bases
US7627548B2 (en) * 2005-11-22 2009-12-01 Google Inc. Inferring search category synonyms from user logs
US7529761B2 (en) * 2005-12-14 2009-05-05 Microsoft Corporation Two-dimensional conditional random fields for web extraction
US8073929B2 (en) * 2005-12-29 2011-12-06 Panasonic Electric Works Co., Ltd. Systems and methods for managing a provider's online status in a distributed network
US7644373B2 (en) 2006-01-23 2010-01-05 Microsoft Corporation User interface for viewing clusters of images
US7836050B2 (en) * 2006-01-25 2010-11-16 Microsoft Corporation Ranking content based on relevance and quality
CN100410945C (zh) * 2006-01-26 2008-08-13 腾讯科技(深圳)有限公司 一种实现论坛的方法及系统
US7814040B1 (en) 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
US7894677B2 (en) * 2006-02-09 2011-02-22 Microsoft Corporation Reducing human overhead in text categorization
US8195683B2 (en) * 2006-02-28 2012-06-05 Ebay Inc. Expansion of database search queries
EP1835418A1 (en) * 2006-03-14 2007-09-19 Hewlett-Packard Development Company, L.P. Improvements in or relating to document retrieval
US8131747B2 (en) * 2006-03-15 2012-03-06 The Invention Science Fund I, Llc Live search with use restriction
US20070239704A1 (en) * 2006-03-31 2007-10-11 Microsoft Corporation Aggregating citation information from disparate documents
US8255376B2 (en) * 2006-04-19 2012-08-28 Google Inc. Augmenting queries with synonyms from synonyms map
US8762358B2 (en) * 2006-04-19 2014-06-24 Google Inc. Query language determination using query terms and interface language
US8380488B1 (en) 2006-04-19 2013-02-19 Google Inc. Identifying a property of a document
US8442965B2 (en) * 2006-04-19 2013-05-14 Google Inc. Query language identification
US9529903B2 (en) 2006-04-26 2016-12-27 The Bureau Of National Affairs, Inc. System and method for topical document searching
US20090055373A1 (en) * 2006-05-09 2009-02-26 Irit Haviv-Segal System and method for refining search terms
US7885947B2 (en) * 2006-05-31 2011-02-08 International Business Machines Corporation Method, system and computer program for discovering inventory information with dynamic selection of available providers
US7483894B2 (en) * 2006-06-07 2009-01-27 Platformation Technologies, Inc Methods and apparatus for entity search
US7769776B2 (en) * 2006-06-16 2010-08-03 Sybase, Inc. System and methodology providing improved information retrieval
US20080005095A1 (en) * 2006-06-28 2008-01-03 Microsoft Corporation Validation of computer responses
US8788517B2 (en) * 2006-06-28 2014-07-22 Microsoft Corporation Intelligently guiding search based on user dialog
CN100504868C (zh) * 2006-06-30 2009-06-24 西门子(中国)有限公司 一种具有多行内容节点的树形结构列表显示方法及其装置
WO2008091282A2 (en) * 2006-07-11 2008-07-31 Carnegie Mellon University Apparatuses, systems, and methods to automate procedural tasks
US8266131B2 (en) * 2006-07-25 2012-09-11 Pankaj Jain Method and a system for searching information using information device
US8001130B2 (en) * 2006-07-25 2011-08-16 Microsoft Corporation Web object retrieval based on a language model
US7720830B2 (en) * 2006-07-31 2010-05-18 Microsoft Corporation Hierarchical conditional random fields for web extraction
US7921106B2 (en) * 2006-08-03 2011-04-05 Microsoft Corporation Group-by attribute value in search results
CN101122909B (zh) * 2006-08-10 2010-06-16 株式会社日立制作所 文本信息检索装置以及文本信息检索方法
KR100882349B1 (ko) * 2006-09-29 2009-02-12 한국전자통신연구원 기밀문서 유출 방지 방법 및 장치
US7707208B2 (en) * 2006-10-10 2010-04-27 Microsoft Corporation Identifying sight for a location
US7765176B2 (en) * 2006-11-13 2010-07-27 Accenture Global Services Gmbh Knowledge discovery system with user interactive analysis view for analyzing and generating relationships
US20080154896A1 (en) * 2006-11-17 2008-06-26 Ebay Inc. Processing unstructured information
US7496568B2 (en) * 2006-11-30 2009-02-24 International Business Machines Corporation Efficient multifaceted search in information retrieval systems
US7788265B2 (en) * 2006-12-21 2010-08-31 Finebrain.Com Ag Taxonomy-based object classification
US8631005B2 (en) 2006-12-28 2014-01-14 Ebay Inc. Header-token driven automatic text segmentation
CN100446003C (zh) * 2007-01-11 2008-12-24 上海交通大学 意向驱动的博客搜索以及浏览系统
US20080294701A1 (en) * 2007-05-21 2008-11-27 Microsoft Corporation Item-set knowledge for partial replica synchronization
EP2158540A4 (en) * 2007-06-18 2010-10-20 Geographic Services Inc NAME SYSTEM FOR SELECTING GEOGRAPHICAL CHARACTERISTICS
US8505065B2 (en) * 2007-06-20 2013-08-06 Microsoft Corporation Access control policy in a weakly-coherent distributed collection
US7685185B2 (en) * 2007-06-29 2010-03-23 Microsoft Corporation Move-in/move-out notification for partial replica synchronization
US20090006489A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Hierarchical synchronization of replicas
US8856123B1 (en) * 2007-07-20 2014-10-07 Hewlett-Packard Development Company, L.P. Document classification
JP4992592B2 (ja) * 2007-07-26 2012-08-08 ソニー株式会社 情報処理装置及び情報処理方法、並びにプログラム
US20090055242A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content identification and classification apparatus, systems, and methods
US20090055368A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content classification and extraction apparatus, systems, and methods
CN101118554A (zh) * 2007-09-14 2008-02-06 中兴通讯股份有限公司 智能交互式问答系统及其处理方法
US7716228B2 (en) * 2007-09-25 2010-05-11 Firstrain, Inc. Content quality apparatus, systems, and methods
KR20090033728A (ko) * 2007-10-01 2009-04-06 삼성전자주식회사 컨텐트 요약 정보 제공 방법 및 그 장치
US7949657B2 (en) * 2007-12-11 2011-05-24 Microsoft Corporation Detecting zero-result search queries
US8001122B2 (en) * 2007-12-12 2011-08-16 Sun Microsystems, Inc. Relating similar terms for information retrieval
EP2240873A1 (en) * 2007-12-31 2010-10-20 Thomson Reuters Global Resources Systems, methods and sofstware for evaluating user queries
KR100930617B1 (ko) * 2008-04-08 2009-12-09 한국과학기술정보연구원 다중 개체 중심적 통합 검색 시스템 및 방법
US8577884B2 (en) * 2008-05-13 2013-11-05 The Boeing Company Automated analysis and summarization of comments in survey response data
US8712926B2 (en) * 2008-05-23 2014-04-29 International Business Machines Corporation Using rule induction to identify emerging trends in unstructured text streams
US8682819B2 (en) * 2008-06-19 2014-03-25 Microsoft Corporation Machine-based learning for automatically categorizing data on per-user basis
US8832098B2 (en) 2008-07-29 2014-09-09 Yahoo! Inc. Research tool access based on research session detection
CA2638558C (en) * 2008-08-08 2013-03-05 Bloorview Kids Rehab Topic word generation method and system
US8285719B1 (en) 2008-08-08 2012-10-09 The Research Foundation Of State University Of New York System and method for probabilistic relational clustering
US8965881B2 (en) * 2008-08-15 2015-02-24 Athena A. Smyros Systems and methods for searching an index
US7882143B2 (en) * 2008-08-15 2011-02-01 Athena Ann Smyros Systems and methods for indexing information for a search engine
US7996383B2 (en) * 2008-08-15 2011-08-09 Athena A. Smyros Systems and methods for a search engine having runtime components
US20100042589A1 (en) * 2008-08-15 2010-02-18 Smyros Athena A Systems and methods for topical searching
US9424339B2 (en) 2008-08-15 2016-08-23 Athena A. Smyros Systems and methods utilizing a search engine
US20100049761A1 (en) * 2008-08-21 2010-02-25 Bijal Mehta Search engine method and system utilizing multiple contexts
GB2463669A (en) * 2008-09-19 2010-03-24 Motorola Inc Using a semantic graph to expand characterising terms of a content item and achieve targeted selection of associated content items
CN101727454A (zh) * 2008-10-30 2010-06-09 日电(中国)有限公司 用于对象自动分类的方法和系统
WO2010067142A1 (en) * 2008-12-08 2010-06-17 Pantanelli Georges P A method using contextual analysis, semantic analysis and artificial intelligence in text search engines
CN102460430B (zh) * 2009-04-29 2014-02-19 谷歌公司 简短兴趣点标题生成
US20100299132A1 (en) * 2009-05-22 2010-11-25 Microsoft Corporation Mining phrase pairs from an unstructured resource
US8103650B1 (en) * 2009-06-29 2012-01-24 Adchemy, Inc. Generating targeted paid search campaigns
EP2629211A1 (en) * 2009-08-21 2013-08-21 Mikko Kalervo Väänänen Method and means for data searching and language translation
US9405841B2 (en) 2009-10-15 2016-08-02 A9.Com, Inc. Dynamic search suggestion and category specific completion
JP2011108117A (ja) * 2009-11-19 2011-06-02 Sony Corp 話題特定システム、話題特定装置、クライアント端末、プログラム、話題特定方法、および情報処理方法
US8756215B2 (en) * 2009-12-02 2014-06-17 International Business Machines Corporation Indexing documents
KR100969929B1 (ko) * 2009-12-02 2010-07-14 (주)해밀 감속수단을 구비한 피난갱문
US8983989B2 (en) 2010-02-05 2015-03-17 Microsoft Technology Licensing, Llc Contextual queries
US8903794B2 (en) 2010-02-05 2014-12-02 Microsoft Corporation Generating and presenting lateral concepts
US8150859B2 (en) * 2010-02-05 2012-04-03 Microsoft Corporation Semantic table of contents for search results
US8339094B2 (en) * 2010-03-11 2012-12-25 GM Global Technology Operations LLC Methods, systems and apparatus for overmodulation of a five-phase machine
US10643227B1 (en) 2010-03-23 2020-05-05 Aurea Software, Inc. Business lines
US8805840B1 (en) 2010-03-23 2014-08-12 Firstrain, Inc. Classification of documents
US10546311B1 (en) 2010-03-23 2020-01-28 Aurea Software, Inc. Identifying competitors of companies
US8463789B1 (en) 2010-03-23 2013-06-11 Firstrain, Inc. Event detection
KR101482151B1 (ko) * 2010-05-11 2015-01-14 에스케이플래닛 주식회사 웹 어플리케이션 실행 장치 및 방법
US9268878B2 (en) * 2010-06-22 2016-02-23 Microsoft Technology Licensing, Llc Entity category extraction for an entity that is the subject of pre-labeled data
US20120016863A1 (en) * 2010-07-16 2012-01-19 Microsoft Corporation Enriching metadata of categorized documents for search
US8775426B2 (en) * 2010-09-14 2014-07-08 Microsoft Corporation Interface to navigate and search a concept hierarchy
US9594845B2 (en) 2010-09-24 2017-03-14 International Business Machines Corporation Automating web tasks based on web browsing histories and user actions
US9069843B2 (en) * 2010-09-30 2015-06-30 International Business Machines Corporation Iterative refinement of search results based on user feedback
CA2718701A1 (en) * 2010-10-29 2011-01-10 Ibm Canada Limited - Ibm Canada Limitee Using organizational awareness in locating business intelligence
CN102063497B (zh) * 2010-12-31 2013-07-10 百度在线网络技术(北京)有限公司 一种开放式知识共享平台及其词条处理方法
US8412696B2 (en) 2011-01-31 2013-04-02 Splunk Inc. Real time searching and reporting
US8589375B2 (en) 2011-01-31 2013-11-19 Splunk Inc. Real time searching and reporting
US8868567B2 (en) * 2011-02-02 2014-10-21 Microsoft Corporation Information retrieval using subject-aware document ranker
EP2503477B1 (en) * 2011-03-21 2017-08-30 Tata Consultancy Services Limited A system and method for contextual resume search and retrieval based on information derived from the resume repository
US20120310954A1 (en) * 2011-06-03 2012-12-06 Ebay Inc. Method and system to narrow generic searches using related search terms
WO2012174640A1 (en) * 2011-06-22 2012-12-27 Rogers Communications Inc. Systems and methods for creating an interest profile for a user
CN102982034B (zh) * 2011-09-05 2017-06-23 腾讯科技(深圳)有限公司 互联网站内信息的搜索方法和搜索系统
US9208236B2 (en) 2011-10-13 2015-12-08 Microsoft Technology Licensing, Llc Presenting search results based upon subject-versions
US8782042B1 (en) 2011-10-14 2014-07-15 Firstrain, Inc. Method and system for identifying entities
CN102411611B (zh) * 2011-10-15 2013-01-02 西安交通大学 一种面向即时交互文本的事件识别与跟踪方法
US8768921B2 (en) * 2011-10-20 2014-07-01 International Business Machines Corporation Computer-implemented information reuse
US20130166563A1 (en) * 2011-12-21 2013-06-27 Sap Ag Integration of Text Analysis and Search Functionality
US8954519B2 (en) * 2012-01-25 2015-02-10 Bitdefender IPR Management Ltd. Systems and methods for spam detection using character histograms
US9130778B2 (en) 2012-01-25 2015-09-08 Bitdefender IPR Management Ltd. Systems and methods for spam detection using frequency spectra of character strings
US9292505B1 (en) 2012-06-12 2016-03-22 Firstrain, Inc. Graphical user interface for recurring searches
CN102760166B (zh) * 2012-06-12 2014-07-09 北大方正集团有限公司 一种支持多语言的xml数据库全文检索方法
CN103514170B (zh) * 2012-06-20 2017-03-29 中国移动通信集团安徽有限公司 一种语音识别的文本分类方法和装置
US9400639B2 (en) * 2012-06-22 2016-07-26 Microsoft Technology Licensing, Llc Generating programs using context-free compositions and probability of determined transformation rules
US9015190B2 (en) 2012-06-29 2015-04-21 Longsand Limited Graphically representing an input query
CN103593365A (zh) * 2012-08-16 2014-02-19 江苏新瑞峰信息科技有限公司 一种基于互联网的实时更新专利数据库装置
US10592480B1 (en) 2012-12-30 2020-03-17 Aurea Software, Inc. Affinity scoring
IL224482B (en) 2013-01-29 2018-08-30 Verint Systems Ltd System and method for keyword spotting using representative dictionary
KR101320509B1 (ko) * 2013-03-13 2013-10-23 국방과학연구소 개체 정보 전달 필터링 방법
US10075384B2 (en) 2013-03-15 2018-09-11 Advanced Elemental Technologies, Inc. Purposeful computing
US11928606B2 (en) 2013-03-15 2024-03-12 TSG Technologies, LLC Systems and methods for classifying electronic documents
US9721086B2 (en) 2013-03-15 2017-08-01 Advanced Elemental Technologies, Inc. Methods and systems for secure and reliable identity-based computing
US9378065B2 (en) * 2013-03-15 2016-06-28 Advanced Elemental Technologies, Inc. Purposeful computing
US9298814B2 (en) 2013-03-15 2016-03-29 Maritz Holdings Inc. Systems and methods for classifying electronic documents
IL226056A (en) * 2013-04-28 2017-06-29 Verint Systems Ltd Keyword Finding Systems and Methods by Adaptive Management of Multiple Template Matching Algorithms
US9405822B2 (en) 2013-06-06 2016-08-02 Sheer Data, LLC Queries of a topic-based-source-specific search system
US9152694B1 (en) * 2013-06-17 2015-10-06 Appthority, Inc. Automated classification of applications for mobile devices
CN104636334A (zh) * 2013-11-06 2015-05-20 阿里巴巴集团控股有限公司 一种关键词推荐方法和装置
CN103678513B (zh) * 2013-11-26 2016-08-31 科大讯飞股份有限公司 一种交互式的检索式生成方法及系统
WO2015102124A1 (ko) * 2013-12-31 2015-07-09 엘지전자 주식회사 대화 서비스 제공 장치 및 방법
CN103823879B (zh) * 2014-02-28 2017-06-16 中国科学院计算技术研究所 面向在线百科的知识库自动更新方法及系统
US20150254211A1 (en) * 2014-03-08 2015-09-10 Microsoft Technology Licensing, Llc Interactive data manipulation using examples and natural language
US9275132B2 (en) 2014-05-12 2016-03-01 Diffeo, Inc. Entity-centric knowledge discovery
US9959364B2 (en) * 2014-05-22 2018-05-01 Oath Inc. Content recommendations
CN105095320B (zh) * 2014-05-23 2019-04-19 邓寅生 基于关系叠加组合的文档的标识、关联、搜索及展现的系统
CN104166644A (zh) * 2014-07-09 2014-11-26 苏州市职业大学 一种基于云计算的术语译文挖掘方法
US10255646B2 (en) * 2014-08-14 2019-04-09 Thomson Reuters Global Resources (Trgr) System and method for implementation and operation of strategic linkages
CN104199970B (zh) * 2014-09-22 2017-11-14 北京国双科技有限公司 网页数据更新处理方法及装置
CN104391835B (zh) * 2014-09-30 2017-09-29 中南大学 文本中特征词选择方法及装置
US9424298B2 (en) * 2014-10-07 2016-08-23 International Business Machines Corporation Preserving conceptual distance within unstructured documents
US20160171122A1 (en) * 2014-12-10 2016-06-16 Ford Global Technologies, Llc Multimodal search response
CN107368506B (zh) * 2015-05-11 2020-11-06 斯图飞腾公司 非结构化数据分析系统和方法
CN106326224B (zh) * 2015-06-16 2019-12-27 珠海金山办公软件有限公司 一种文件查找方法及装置
US11281639B2 (en) * 2015-06-23 2022-03-22 Microsoft Technology Licensing, Llc Match fix-up to remove matching documents
US11392568B2 (en) 2015-06-23 2022-07-19 Microsoft Technology Licensing, Llc Reducing matching documents for a search query
US10776421B2 (en) * 2015-08-21 2020-09-15 Demucoyan, Inc. Music search system, music search method, server device, and program
IL242218B (en) 2015-10-22 2020-11-30 Verint Systems Ltd A system and method for maintaining a dynamic dictionary
IL242219B (en) 2015-10-22 2020-11-30 Verint Systems Ltd System and method for keyword searching using both static and dynamic dictionaries
CN105528437B (zh) * 2015-12-17 2018-11-23 浙江大学 一种基于结构化文本知识提取的问答系统构建方法
US20170185989A1 (en) * 2015-12-28 2017-06-29 Paypal, Inc. Split group payments through a sharable uniform resource locator address for a group
US10078632B2 (en) * 2016-03-12 2018-09-18 International Business Machines Corporation Collecting training data using anomaly detection
CN108463795B (zh) * 2016-04-05 2022-03-08 金融及风险组织有限公司 自助分类系统
CN108108346B (zh) * 2016-11-25 2021-12-24 广东亿迅科技有限公司 文档的主题特征词抽取方法及装置
US10671759B2 (en) * 2017-06-02 2020-06-02 Apple Inc. Anonymizing user data provided for server-side operations
US11106741B2 (en) 2017-06-06 2021-08-31 Salesforce.Com, Inc. Knowledge operating system
CN107391718A (zh) * 2017-07-31 2017-11-24 安徽云软信息科技有限公司 一种进出口实时分类方法
US10699062B2 (en) 2017-08-01 2020-06-30 Samsung Electronics Co., Ltd. Apparatus and method for providing summarized information using an artificial intelligence model
DE102017215829A1 (de) * 2017-09-07 2018-12-06 Siemens Healthcare Gmbh Verfahren und Datenverarbeitungseinheit zum Ermitteln von Klassifikationsdaten für eine Adaption eines Untersuchungsprotokolls
KR102060176B1 (ko) * 2017-09-12 2019-12-27 네이버 주식회사 문서의 카테고리 분류를 위한 딥러닝 학습 방법 및 그 시스템
CA3081609C (en) * 2017-11-07 2023-12-05 Thomson Reuters Enterprise Centre Gmbh System and methods for concept aware searching
CN110020153B (zh) * 2017-11-30 2022-02-25 北京搜狗科技发展有限公司 一种搜索方法及装置
CN108182182B (zh) * 2017-12-27 2021-09-10 传神语联网网络科技股份有限公司 翻译数据库中文档匹配方法、装置及计算机可读存储介质
US10593423B2 (en) * 2017-12-28 2020-03-17 International Business Machines Corporation Classifying medically relevant phrases from a patient's electronic medical records into relevant categories
US10783176B2 (en) * 2018-03-27 2020-09-22 Pearson Education, Inc. Enhanced item development using automated knowledgebase search
US11227231B2 (en) * 2018-05-04 2022-01-18 International Business Machines Corporation Computational efficiency in symbolic sequence analytics using random sequence embeddings
US10585922B2 (en) * 2018-05-23 2020-03-10 International Business Machines Corporation Finding a resource in response to a query including unknown words
CN109189818B (zh) * 2018-07-05 2022-06-14 四川省烟草公司成都市公司 一种增值服务环境下的烟草数据粒度划分的方法
KR102149917B1 (ko) * 2018-12-13 2020-08-31 줌인터넷 주식회사 스팸 문구가 포함된 스팸뉴스 탐지를 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
US11170017B2 (en) 2019-02-22 2021-11-09 Robert Michael DESSAU Method of facilitating queries of a topic-based-source-specific search system using entity mention filters and search tools
CN110321406A (zh) * 2019-05-20 2019-10-11 四川轻化工大学 一种基于VBScript的酒类语料检索方法
US20210134290A1 (en) * 2019-10-30 2021-05-06 The Seelig Group LLC Voice-driven navigation of dynamic audio files
US11481417B2 (en) * 2019-11-06 2022-10-25 Servicenow, Inc. Generation and utilization of vector indexes for data processing systems and methods
US11455357B2 (en) 2019-11-06 2022-09-27 Servicenow, Inc. Data processing systems and methods
US11468238B2 (en) 2019-11-06 2022-10-11 ServiceNow Inc. Data processing systems and methods
CN111104510B (zh) * 2019-11-15 2023-05-09 南京中新赛克科技有限责任公司 一种基于词嵌入的文本分类训练样本扩充方法
WO2021097515A1 (en) * 2019-11-20 2021-05-27 Canva Pty Ltd Systems and methods for generating document score adjustments
CN111339268B (zh) * 2020-02-19 2023-08-15 北京百度网讯科技有限公司 实体词识别方法和装置
EP4127957A4 (en) * 2020-03-28 2023-12-27 Telefonaktiebolaget LM ERICSSON (PUBL) METHODS AND SYSTEMS FOR SEARCHING AND RETRIEVING INFORMATION
CN111831910A (zh) * 2020-07-14 2020-10-27 西北工业大学 一种基于异构网络的引文推荐算法
CN112417256B (zh) * 2020-10-20 2024-05-24 中国环境科学研究院 一种基于互联网的自然保护地认知评价系统及方法
CN112763550B (zh) * 2020-12-29 2022-10-28 中国科学技术大学 一种具有气味识别功能的集成式气体检测系统
CN114386078B (zh) * 2022-03-22 2022-06-03 武汉汇德立科技有限公司 一种基于bim的建设项目电子档案管理方法及装置
KR102712771B1 (ko) * 2022-04-24 2024-10-04 박종배 지식교차와 지식연결을 통한 연결지식 생성 방법 및 시스템
US12111902B2 (en) 2022-05-20 2024-10-08 Advanced Elemental Technologies, Inc. Systems and methods for a connected computing resource and event/activity identification information infrastructure using near existential or existential biometric identification of humans
US12045576B1 (en) * 2023-10-24 2024-07-23 Nlp Logix, Llc Systems and methods for processing data

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5278980A (en) * 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US5873076A (en) * 1995-09-15 1999-02-16 Infonautics Corporation Architecture for processing search queries, retrieving documents identified thereby, and method for using same
US5987460A (en) * 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
US5924090A (en) * 1997-05-01 1999-07-13 Northern Light Technology Llc Method and apparatus for searching a database of records
US6088594A (en) * 1997-11-26 2000-07-11 Ericsson Inc. System and method for positioning a mobile terminal using a terminal based browser
US6304864B1 (en) * 1999-04-20 2001-10-16 Textwise Llc System for retrieving multimedia information from the internet using multiple evolving intelligent agents
US6389398B1 (en) * 1999-06-23 2002-05-14 Lucent Technologies Inc. System and method for storing and executing network queries used in interactive voice response systems
US6678694B1 (en) * 2000-11-08 2004-01-13 Frank Meik Indexed, extensible, interactive document retrieval system
US6907423B2 (en) * 2001-01-04 2005-06-14 Sun Microsystems, Inc. Search engine interface and method of controlling client searches

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015523659A (ja) * 2012-06-13 2015-08-13 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 多言語混合検索方法およびシステム

Also Published As

Publication number Publication date
US20050108200A1 (en) 2005-05-19
EP1402408A1 (en) 2004-03-31
WO2003005235A1 (en) 2003-01-16
CN1535433A (zh) 2004-10-06
KR20040013097A (ko) 2004-02-11

Similar Documents

Publication Publication Date Title
JP2004534324A (ja) 索引付きの拡張可能な対話的文書検索システム
Sarkar et al. A new approach to keyphrase extraction using neural networks
US20060248076A1 (en) Automatic expert identification, ranking and literature search based on authorship in large document collections
Kowalski Information retrieval architecture and algorithms
Lin et al. ACIRD: intelligent Internet document organization and retrieval
Kozlowski et al. Clustering of semantically enriched short texts
Devi et al. A hybrid document features extraction with clustering based classification framework on large document sets
KR100378240B1 (ko) 엔트로피와 사용자 프로파일을 적용한 문서순위 조정방법
Afuan et al. A study: query expansion methods in information retrieval
Mahalleh et al. An automatic text summarization based on valuable sentences selection
Al-Betar et al. Optimization of scientific publications clustering with ensemble approach for topic extraction
Kerremans et al. Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler
Sathya et al. A review on text mining techniques
Abimbola et al. A noun-centric keyphrase extraction model: Graph-based approach
Freeman et al. Tree view self-organisation of web content
Husain Critical concepts and techniques for information retrieval system
Kanavos et al. Employing query disambiguation using clustering techniques
Xie et al. Personalized query recommendation using semantic factor model
Agbele Context-awareness for adaptive information retrieval systems
Srivastava et al. Redundancy and coverage aware enriched dragonfly-FL single document summarization
Ababneh et al. An efficient framework of utilizing the latent semantic analysis in text extraction
Hynek Document classification in a digital library: technical report no. DCSE/TR-2002-04
Shah Review of indexing techniques applied in information retrieval
Sharma et al. Improved stemming approach used for text processing in information retrieval system
Forno et al. Can data mining techniques ease the semantic tagging burden?

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20081007