Nothing Special   »   [go: up one dir, main page]

JP2003330958A - 情報検索装置、情報検索方法、プログラムおよび記憶媒体 - Google Patents

情報検索装置、情報検索方法、プログラムおよび記憶媒体

Info

Publication number
JP2003330958A
JP2003330958A JP2002133906A JP2002133906A JP2003330958A JP 2003330958 A JP2003330958 A JP 2003330958A JP 2002133906 A JP2002133906 A JP 2002133906A JP 2002133906 A JP2002133906 A JP 2002133906A JP 2003330958 A JP2003330958 A JP 2003330958A
Authority
JP
Japan
Prior art keywords
search
query
information
analysis
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002133906A
Other languages
English (en)
Inventor
Tomonori Kudou
朋紀 工藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2002133906A priority Critical patent/JP2003330958A/ja
Publication of JP2003330958A publication Critical patent/JP2003330958A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ユーザの意図に応じた検索結果を高い精度で
かつ効率良く得ることができる情報検索装置を提供す
る。 【解決手段】 情報検索装置においては、まずステップ
S51において、入力装置3を介して入力されたクエリ
ーを取得し、続くステップS52で、上記ステップS5
1で取得したクエリーに対し言語解析を行う。そして、
ステップS53において、上記ステップS52でのクエ
リーの言語解析結果に基づきいずれの検索モードを適用
するかを判別する。ここでは、クエリー単語数が1であ
るときには、全文検索を適用するとし、クエリー単語数
が1より大きく所定数以下であるときには、フレーズ検
索を適用し、クエリー単語数が上記所定数を超えている
ときには、概念検索を適用するとする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、方式がそれぞれ異
なる複数の検索手段を有する情報検索装置、情報検索方
法、プログラムおよび記憶媒体に関する。
【0002】
【従来の技術】近年、大量の文書データを扱う機会が増
加してきており、所望の文書データを検索する方法とし
て、多種多様の方法が用いられている。これは、単純な
キーワード検索(キーワードを指示し、それが出現する
か否かで検索を行う)だけでは、ユーザの要求を十分に
満たすことができないためである。そこで、キーワード
間の関係や構文情報の類似度による方法や文書の内容を
特徴付ける文書ベクトルを用いて検索を行う方法が出現
している。また、内容を特徴付ける意味、分野、単語そ
のものを次元とし、その特徴量を値とすることによって
ベクトル表現し、文書ベクトル間の内積等の値を用いて
文書間の類似度を求める方法も考案されている。このよ
うに各種検索方法があるが、ユーザは検索目的や検索状
況によって、どの検索方法で検索するかを決定し、検索
を行う必要がある。
【0003】次に、ユーザの検索目的や検索状況に応じ
て複数の検索方法のうち、いずれの検索方法を用いて検
索するかを決定し、決定された検索方法で検索する手順
について図18および図19を参照しながら説明する。
図18は従来の検索方法の手順を示すフローチャート、
図19は従来の検索方法における操作画面例を示す図で
ある。
【0004】ここでは、全文検索、フレーズ検索、概念
検索の3種類の検索モードがあり、これらの検索モード
から、使用する検索モードを決定し、決定された検索モ
ードで検索を行う場合を説明する。
【0005】検索を行う場合、図18に示すように、ま
ずステップS41において、ユーザにより入力されたク
エリーを取得し、続くステップS42で、ユーザにより
指定された検索モードを取得する。そして、ステップS
43において、上記ステップS41で取得したクエリー
を解析する。
【0006】次いで、ステップS44において、取得し
たユーザ指定の検索モードが全文検索、フレーズ検索、
概念検索のいずれであるか否かを判別する。ここで、ユ
ーザ指定の検索モードが全文検索である場合、ステップ
S45において、クエリーの解析結果に基づき記憶装置
に格納されている情報に対し全文検索を行い、続くステ
ップS48で、全文検索による検索結果を表示する。そ
して、本処理を終了する。ユーザ指定の検索モードがフ
レーズ検索である場合、ステップS46において、クエ
リーの解析結果に基づき記憶装置に格納されている情報
に対しフレーズ検索を行い、続くステップS48で、フ
レーズ検索による検索結果を表示する。そして、本処理
を終了する。ユーザ指定の検索モードが概念検索である
場合、ステップS47において、クエリーの解析結果に
基づき、記憶装置に格納されている情報に対し概念検索
を行い、続くステップS48で、概念検索による検索結
果を表示する。そして、本処理を終了する。
【0007】検索を行う際には、例えば図19に示すよ
うな操作画面が表示され、この操作画面上でクエリーが
入力される。ここでは、クエリーとして「川崎」が入力
されたとする。次いで、上記操作画面上で、ユーザによ
り検索モードが選択される。ここでは、ユーザの判断に
より、上記クリエートして入力された「川崎」という単
語を含んだ文書あるいは画像などを検索したいという意
図で検索を行う場合に最適な検索モードとして全文検索
が選択されたとする。そして、この全文検索により、記
憶装置に格納されている文書などの中から、「川崎」と
いう単語を含む文書または画像が抽出され、その抽出さ
れた文書または画像の一覧が検索結果として表示され
る。この検索結果の表示の際には、抽出された文書など
を検索順または一致度が高いものから順に一覧表示す
る。
【0008】
【発明が解決しようとする課題】上述した従来の検索方
法では、ユーザ自身が意図に応じた最適な検索モードを
選択、決定する必要があるので、意図する検索結果を短
時間で得るためには、ユーザに対し、検索する意図に対
してどのような検索モードが適しているかを判断するた
めの知識または経験が要求される。しかしながら、各検
索モードの特徴に対する知識が不足しているなどの場
合、ユーザにより、意図に応じた検索モードとは異なる
検索モードが選択されることがある。このような場合、
意図に応じた検索結果を得ることができず、他の検索方
法を選択して検索をやり直す必要があるなど、検索に余
分な時間が掛かることがある。
【0009】本発明の目的は、ユーザの意図に応じた検
索結果を高い精度でかつ効率良く得ることができる情報
検索装置、情報検索方法、プログラムおよび記憶媒体を
提供することにある。
【0010】
【課題を解決するための手段】本発明は、上記目的を達
成するため、方式がそれぞれ異なる複数の検索手段と、
クエリーを入力する入力手段と、前記入力されたクエリ
ーを解析するクエリー解析手段と、検索適用条件に応じ
て前記複数の検索手段の中から、検索に適用する少なく
とも1つ以上の検索手段を決定する決定手段と、前記決
定された少なくとも1つ以上の検索手段により前記入力
されたクエリーに対する解析結果を用いた検索を実行す
る検索実行手段と、前記実行された少なくとも1つ以上
の検索手段による検索結果を表示する表示手段とを備え
ることを特徴とする。
【0011】また、上記情報検索装置において、前記検
索適用条件は、前記入力されたクエリーに対する解析結
果であることを特徴とする。
【0012】また、上記情報検索装置において、前記ク
エリー解析手段は、前記入力されたクエリーに対して異
なる解析をそれぞれ行う複数の解析手段を含むことを特
徴とする。
【0013】また、上記情報検索装置において、前記複
数の解析手段は、前記入力されたクエリーに対する形態
素解析手段、構文解析手段および意味解析手段を含むこ
とを特徴とする。
【0014】また、上記情報検索装置において、前記複
数の検索手段は、少なくとも、全文検索手段、フレーズ
検索手段、概念検索手段のいずれか1つを含むことを特
徴とする。
【0015】また、上記情報検索装置において、サーバ
/クライアントシステムにおけるクライアントに組み込
まれていることを特徴とする。
【0016】また、上記情報検索装置において、前記検
索適用条件は、前記サーバと接続状態にあるクライアン
ト数であることを特徴とする。
【0017】また、上記情報検索装置において、前記検
索適用条件は、前記サーバと接続状態にあるクライアン
ト数と前記入力されたクエリーに対する解析結果である
ことを特徴とする。
【0018】また、上記情報検索装置において、通信網
に接続可能な端末に組み込まれていることを特徴とす
る。
【0019】また、本発明は、上記目的を達成するた
め、クエリーを入力する入力工程と、前記入力されたク
エリーを解析するクエリー解析工程と、検索適用条件に
応じて、方式がそれぞれ異なる複数の検索手段の中か
ら、検索に適用する少なくとも1つ以上の検索手段を決
定する決定工程と、前記決定された少なくとも1つ以上
の検索手段により前記入力されたクエリーに対する解析
結果を用いた検索を実行する検索実行工程と、前記実行
された少なくとも1つ以上の検索手段による検索結果を
表示手段に表示する表示工程とを備えることを特徴とす
る。
【0020】また、本発明は、情報検索を行うためのコ
ンピュータにより実行可能なプログラムであって、クエ
リーを入力する入力ステップと、前記入力されたクエリ
ーを解析するクエリー解析ステップと、検索適用条件に
応じて、方式がそれぞれ異なる複数の検索モジュールの
中から、検索に適用する少なくとも1つ以上の検索モジ
ュールを決定する決定ステップと、前記決定された少な
くとも1つ以上の検索モジュールにより前記入力された
クエリーに対する解析結果を用いた検索を実行する検索
実行ステップと、前記実行された少なくとも1つ以上の
検索モジュールによる検索結果を表示手段に表示する表
示ステップとを備えることを特徴とする。
【0021】また、本発明は、上記プログラムをコンピ
ュータ読取り可能に格納したことを特徴とする。
【0022】
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照しながら説明する。
【0023】(第1の実施形態)図1は本発明の第1の
実施形態に係る情報検索装置の構成を示すブロック図、
図2は図1の情報検索装置がサーバ/クライアントシス
テムに組み込まれている例を示す図、図3は図1の情報
検索装置をインターネット接続端末に組み込まれている
例を示す図である。
【0024】情報検索装置は、図1に示すように、記憶
装置2に格納されているプログラムに従って処理を実行
する中央処理装置1と、処理を操作するキーボード、マ
ウスなどの入力装置3と、情報検索結果などを表示する
表示装置4と、FD(フロッピー(R)ディスク)、CD
−ROM、磁気テープなどの記憶媒体に記憶されたプロ
グラム、データなどを読み取る記憶媒体読取装置5とを
備える。また、記憶装置2には、検索対象となる文書な
どのデータが格納されており、本情報検索装置は、記憶
装置2に格納されている文書などのデータを、方式がそ
れぞれ異なる複数の検索方法を用いて検索することが可
能である。
【0025】また、本情報検索装置は、図2に示すよう
に、サーバ/クライアントシステムにおけるネットワー
ク11を介して接続されているサーバ12a,12bま
たはクライアント13a,13b,13c,13dに組
み込むができ、これにより、例えば各クライアン13
a,13b,13c,13dからサーバ12a,12b
が保持する文書、画像などのデータを検索することが可
能になる。さらに、本情報検索装置は、図3に示すよう
に、インターネット22に接続可能な端末21にも適用
することができ、これにより、この端末21からWEB
の検索などを行うことが可能になる。
【0026】まず、本情報検索装置において、記録装置
2に検索対象となる文書などのデータを登録する処理に
ついて図4および図5を参照しながら説明する。図4は
検索対象となる文書などのデータを登録するときの処理
手順を示すフローチャート、図5は図4のステップS9
4の概念検索登録処理の詳細な手順を示すフローチャー
トである。
【0027】文書などのデータを登録する際には、図4
に示すように、まずステップS91において、登録デー
タ(文書など)を言語解析する。ここでは、具体的に
は、単語辞書などを参照しながら形態素解析を行い、必
要に応じて構文解析や意味解析などを行い、これらの解
析結果から全文検索インデックス情報、フレーズ検索イ
ンデックス情報、概念検索インデックス情報などを作成
する。
【0028】次いで、ステップS92において、上記ス
テップS91で得られた登録データや解析結果から作成
された全文検索インデックス情報などを記憶装置2のデ
ータベースなどに格納し、続くステップS93で、上記
ステップS91で得られた登録データや解析結果から作
成されたフレーズ検索インデックス情報などを記憶装置
2のデータベースなどに格納する。そして、ステップS
94において、上記ステップS91で得られた登録デー
タや解析結果から作成された概念検索インデックス情報
などを記憶装置2のデータベースなどに格納し、本処理
を終了する。
【0029】ここで、上記単語辞書としては、例えば表
1に示すような辞書が用いられ、表1に示す辞書には、
表記、読み、品詞、分類(意味)などが対応付けて格納
されている。また、例えば、「画像データベースの動向
画像データベースの動向 1997-08-28 報告書 技術課
川崎 憲二郎」という文書を登録する際には、この文
書に対する言語解析により、表2に示すような結果が得
られる。そして、この解析結果に作成されたインデック
情報を含むデータ(表記、読み、品詞、文書名、出現位
置、関係ID)が、表3に示すようなデータベースとし
て記憶装置2に格納される。
【0030】
【表1】
【0031】
【表2】
【0032】
【表3】
【0033】次に、上記ステップS94の概念検索登録
処理を詳細に説明すると、図5に示すように、まずステ
ップS101において、登録文書の言語解析結果を取得
し、続くステップS102で、上記ステップS101で
抽出された単語から辞書を検索し、単語毎の次元別の特
徴量を得て、その総和から文書ベクトルを生成する。そ
して、ステップS103において、上記ステップS10
2で得られた文書ベクトルを登録文書の内容または文書
識別子とともに記憶装置2に登録する。
【0034】ここでは、情報検索装置において、記憶装
置2に検索対象となる文書などのデータを登録する手順
を示したが、検索対象となる文書などのデータを保持す
るサーバなどの情報管理装置においても、上記手順と同
様の手順で文書などのデータが登録される。
【0035】次に、上記概念検索登録処理(ステップS
94)の具体例について表4および表5を参照しながら
説明する。
【0036】概念検索登録時、まず文書が登録される段
階で、言語解析結果取得ステップ(ステップS101)
で、登録文書に含まれる単語が取得される。そして、文
書ベクトル生成ステップ(ステップ102)で、文書内
に出現する単語から基本ベクトル辞書を用いて文書ベク
トルが算出される。ここで、基本ベクトル辞書は、表4
に示すように、単語毎にベクトル表現時のそれぞれの次
元(Dim.)に応対した特徴量が格納されている。次元とし
ては、その単語本来の意味によって分類された基準や、
その単語の使用分野に応じて分類された基準などが採用
される。例えば表4中の単語1のDim.1の特徴量は0で
あり、Dim.2の特徴量は23であることがわかる。この
ように基本ベクトル辞書から一つの単語におけるそれぞ
れの次元(Dim.)の特徴量を得ることが可能となる。特徴
量はその単語が使用されることにより、その文書がその
分類基準(=次元)をどの程度特徴付ける可能性がある
かを示す値であると解釈することが可能である。文書を
構成する全ての単語から得られた分類基準別(次元別)
の特徴量から、文書全体の特徴量を、分類基準を次元と
するベクトルで表現する。得られたベクトルは、ノルム
=1で正規化され、その値は文書ベクトルとして格納さ
れる。
【0037】次いで、インデックス登録処理(ステップ
103)において、文書ベクトルが表5のようなインデ
ックスに対応付けて格納される。例えば、表5中の文書
ID=6947の文書に関しては、文書ベクトルのDim.
1の特徴量が0.183であり、Dim.2の特徴量は0.2
14であることがわかる。
【0038】
【表4】
【0039】
【表5】
【0040】本実施形態では、入力されたクエリーの解
析結果に基づき、全文検索、フレーズ検索、概念検索の
3つの検索方法の中から、適切な検索モードを決定す
る。
【0041】まず、本情報検索装置の検索処理の手順に
ついて図6を参照しながら説明する。図6は図1の情報
検索装置による検索処理の手順を示すフローチャートで
ある。
【0042】検索時、図6に示すように、まずステップ
S51において、入力装置3を介して入力されたクエリ
ーを取得し、続くステップS52で、上記ステップS5
1で取得したクエリーに対し言語解析を行う。そして、
ステップS53において、上記ステップS52でのクエ
リーの言語解析結果に基づきいずれの検索モードを適用
するかを判別する。ここでは、いずれの検索モードを適
用するかを決定するための検索適用条件として、クエリ
ー単語数を設定し、クエリー単語数に応じて適用する検
索方法を決定する。例えば、クエリー単語数が1である
ときには、全文検索を適用するとし、クエリー単語数が
1より大きく所定数以下であるときには、フレーズ検索
を適用し、クエリー単語数が上記所定数を超えていると
きには、概念検索を適用するとする。
【0043】ここで、全文検索を適用する場合、ステッ
プS54において、全文検索を行い、続くステップS5
7で、全文検索の検索結果リストを表示装置4に表示す
る。ここでは、検索結果を一致度が高い順に一覧表示す
る。そして、本処理を終了する。上記ステップS53で
フレーズ検索を適用すると判別された場合、ステップ5
5において、フレーズ検索を行い、続くステップS57
で、フレーズ検索の検索リストを表示装置4に表示す
る。ここでも、同様に、検索結果を一致度が高い順に一
覧表示する。そして、本処理を終了する。上記ステップ
S53で概念検索を適用すると判別された場合、ステッ
プ56において、概念検索を行い、続くステップS57
で、概念検索の検索リストを表示装置4に表示する。こ
こでも、同様に、検索結果を一致度が高い順に一覧表示
する。そして、本処理を終了する。
【0044】次に、上記ステップS52における入力さ
れたクエリーの言語解析について図7を参照しながら説
明する。図7は図6のステップS52におけるクエリー
の言語解析の詳細な手順を示すフローチャートである。
【0045】上記入力されたクエリーの言語解析では、
図7に示すように、まずステップS71において、上記
入力されたクエリーの文字列に対して、単語辞書(表
1)を参照しながら形態素解析を行い、続くステップS
72で、必要に応じて、入力されたクエリーを構文解析
し、係り受け解析などの構文情報を作成する。そして、
ステップS73において、入力されたクエリーの意味情
報などから意味解析を行い、本処理を終了する。
【0046】次に、上記ステップS55のフレーズ検索
の詳細について図8を参照しながら説明する。図8は図
6のステップS55におけるフレーズ検索の詳細な手順
を示すフローチャートである。
【0047】フレーズ検索では、図8に示すように、ま
ずステップS81において、上記ステップS52での形
態素解析結果からクエリー単語を取得し、続くステップ
S82で、上記ステップS52での形態素解析結果から
クエリー単語の構文情報を取得する。そして、ステップ
S83において、上記ステップS81とステップS82
で取得したクエリー単語とクエリー単語間の関係と文書
単語と文書単語間の関係を比較して類似度を算出し、本
処理を終了する。
【0048】次に、上記ステップS56の概念検索処理
の詳細について図9を参照しながら説明する。図9は図
6のステップS56における概念検索処理の詳細な手順
を示すフローチャートである。
【0049】概念検索処理では、図9に示すように、ま
ずステップS111において、上記ステップ52で生成
したクエリー言語解析結果を取得し、続くステップS1
12において、上記ステップ111で取得した解析結果
からクエリーベクトルを生成する。そして、ステップS
113において、上記ステップS112で得られたクエ
リーベクトルと登録時に記憶装置2に格納された文書毎
の文書ベクトル(表5)とを比較して類似度を算出し、
この類似度を検索結果としてリストアップし、本処理を
終了する。
【0050】次に、本情報検索装置による検索例につい
て図10および図11を参照しながら説明する。図10
は図1の情報検索装置により表示されるクエリー入力画
面の一例を示す図、図11は図1の情報検索装置により
表示される検索結果一覧表示画面の一例を示す図であ
る。
【0051】検索を行う際には、例えば図10に示すク
エリー入力画面が表示され、この画面上で、入力装置3
を介してクエリーとして入力された入力文字列が表示さ
れる。ここでは、入力文字列として「川崎」が入力され
た場合を示す。この入力されたクエリーは、記憶装置2
に格納される(図6のステップS51)。そして、入力
されたクエリーに対する言語解析が行われる(ステップ
S52)。この言語解析においては、まず、形態素解析
により、記憶装置2に格納された単語辞書(表3に示
す)が検索され、言語解析し、単語「川崎」が作成され
る。
【0052】検索方法選択ステップ(ステップS53)
では、上記ステップS52での言語解析結果に基づき適
用する検索方法の選択を行う。ここでは、クエリーの単
語数が1つ(1つの単語「川崎」)であるため、全文検
索を適用すると判定する。全文検索ステップ(ステップ
S54)では、図4に示す登録フローチャートで記憶装
置2に格納された文書または画像のアノテーションなど
の情報と全文検索インデックスから文字列「川崎」を検
索する。そして、この検索による検索結果が図11に示
すように、表示装置4に一致度が高い順に一覧表示され
る(ステップS57)。また、必要に応じて上記検索結
果リストは記憶装置2に格納される。
【0053】次に、フレーズ検索ステップ(ステップS
55)について図12を参照しながら詳細に説明する。
図12はフレーズ検索のデータ例を示す図である。
【0054】例えば図12(a)に示すように、クエリ
ーとして「画像を印刷する」が入力されると、上記入力
されたクエリーに対する解析から、「画像」、「を」、
「印刷する」がクエリー単語として抽出されるので、こ
のクエリー単語数から、適用する検索方法としてフレー
ズ検索が選択される。そして、フレーズ検索(ステップ
S55)が実行される。このフレーズ検索ステップにお
いては、クエリー単語取得ステップ(ステップS81)
で、上記入力されたクエリーから、「画像」、「を」、
「印刷する」がクエリー単語として取得される。ここ
で、このクエリー単語数から、適用する検索方法として
フレーズ検索が選択される。
【0055】次いで、単語間関係取得ステップ(ステッ
プS82)において、「「画像」が「印刷する」に係っ
ている」が取得される。そして、類似度算出ステップ
(ステップS83)で、単語と単語間の関係が類似して
いる度合いが算出される。ここで例えば図12(b)に
示すように、文書1には単語「画像」と単語「印刷す
る」が含まれるとすると、「「画像」が「印刷する」に
係っている」と「「高速」が「印刷する」に係ってい
る」があり、「「画像」が「印刷する」に係っている」
が類似しているので、文書1は類似したフレーズを含ん
でいる類似度=1−単語による減点(0)−関係による
減点(単語間距離1単語なので0.1)=0.9とな
る。これに対し、図12(c)に示す文書2の場合、同
様の算式により、類似度=1−単語による減点(0)−
関係による減点(係り先が違う0.5)=0.5とな
る。
【0056】次に、概念検索ステップ(ステップS5
6)の詳細について説明する。
【0057】概念検索時、まずクエリー言語処理結果取
得ステップ(ステップS111)において、クエリーに
含まれる単語が取得される。次いで、クエリーベクトル
生成ステップ(ステップS112)で、文書ベクトル生
成と同様に基本ベクトル辞書を参照してクエリーのベク
トルが生成される。そして、類似度算出ステップ(ステ
ップS113)で、クエリーの特徴ベクトルとそれぞれ
の文書ベクトルの類似度が実際に算出される。
【0058】このように、本実施の形態では、入力され
たクエリーの解析結果から得られたクエリー単語数に応
じて適用する検索方法を決定するので、ユーザの意図に
応じた検索結果を高い精度でかつ効率良く得ることがで
きる。
【0059】(第2の実施形態)次に、本発明の第2の
実施形態について図13ないし図16を参照しながら説
明する。図13は本発明の第2の実施形態に係る情報検
索装置の検索手順を示すフローチャート、図14は本発
明の第2の実施形態に係る情報検索装置におけるクエリ
ーの入力画面例を示す図、図15は本発明の第2の実施
形態に係る情報検索装置における検索結果の表示画面例
を示す図、図16は本発明の第2の実施形態に係る情報
検索装置における異なるクエリーを入力した際の入力画
面例を示す図である。
【0060】本実施形態は、適用する検索方法を1つの
みとする第1の実施形態に対し、1つ以上の検索方法を
適用することが可能である点で異なる。
【0061】具体的には、図13に示すように、クエリ
ーが入力されると、まずステップS61において、入力
されたクエリーを取得して記憶装置2に格納し、続くス
テップS62で、取得したクエリーを入力とし、クエリ
ー言語解析を行う。そして、ステップS63において、
上記ステップS63でのクエリー解析に基づき適用する
検索方法として1つ以上の検索方法を決定する。本実施
形態では、検索適用条件として、未知語がなければ全文
検索を、自立語の個数が8個以下ならフレーズ検索を、
自立語が3個以上なら概念検索を適用するという条件を
設定し、この条件に応じて適用する検索方法を決定す
る。
【0062】次いで、ステップS64において、ステッ
プS63の判定結果に基づき全文検索を適用するか否か
を判定する。全文検索を適用する場合は、ステップS6
5において、全文検索を行い、ステップS66に進む。
これに対し、全文検索が適用されない場合、ステップS
65をスキップしてステップS66に進む。
【0063】ステップS66では、フレーズ検索を適用
するか否かを判定する。ここで、フレーズ検索を適用す
る場合は、ステップS67において、フレーズ検索を行
い、ステップS68に進む。これに対し、フレーズ検索
が適用されない場合、上記ステップS67をスキップし
てステップS68に進む。
【0064】ステップS68では、概念検索を適用する
か否かを判定する。ここで、概念検索を適用する場合、
ステップS69において、概念検索を行い、ステップS
70に進む。これに対し、概念検索が適用されない場合
は、ステップS69をスキップしてステップS70に進
む。
【0065】ステップS70では、適用された検索方法
により得られた検索結果をマージして表示装置4に一致
度が高いに順に表示し、また必要に応じて検索結果リス
トを記憶装置2に格納する。そして、本処理を終了す
る。
【0066】例えば図14に示すように、入力装置3よ
りクエリーとして、入力文字列「日本の経済における金
利の影響について」が入力されると、クエリー言語解析
(ステップS62)で、クエリー単語として、「日
本」、「の」、「経済」、「における」、「金利」、
「の」、「影響」、「について」が獲得される。この場
合、自立語の個数は4個であり、未知語はなしである。
よって、上記入力されたクエリーに対しては、フレーズ
検索、概念検索を適用すると決定され(ステップS6
3)、フレーズ検索および概念検索が行われる(ステッ
プS67およびステップS69)。そして、フレーズ検
索および概念検索による検索結果が、図15に示すよう
に、表示装置4に一致度が高いに順に表示される(ステ
ップS70)。
【0067】また、図16に示すように、クエリーとし
て入力文字列「ジュビロのハジェヴスキーについて」が
入力された場合、クエリー言語処理ステップ(ステップ
S62)で、クエリー単語として「ジュビロ」、
「の」、「ハジェヴスキー」、「について」が獲得され
る。この場合、検索決定ステップ(ステップS63)に
より、自立語の個数が2個、未知語が2個、未知語以外
の自立語はなしと判定される。ここで、検索方法の適用
条件として、例えば、未知語がなければ全文検索を行わ
ない、未知語以外の自立語の個数が2個以上8個以下な
らフレーズ検索を行う、自立語が3個以上なら概念検索
を行うとした場合は、上記クエリーに対しては、全文検
索を適用すると決定され(ステップS63)、全文検索
が行われる(ステップS65)。そして、全文検索によ
る検索結果が、表示装置4に一致度が高いに順に表示さ
れる(ステップS70)。
【0068】このように、複数の検索方法を適用するこ
とによって、ユーザの意図に応じたより高い精度の検索
結果を得ることができる。
【0069】(第3の実施形態)次に、本発明の第3の
実施形態について図17を参照しながら説明する。図1
7は本発明の第3の実施形態に係る情報検索装置におけ
る検索手順を示すフローチャートである。
【0070】本実施形態は、上述の第1および第2の実
施形態に対し、検索対象となる情報数に応じてどの検索
方法を適用するかを決定する点で異なる。
【0071】具体的には、図17に示すように、クエリ
ーが入力されると、まずステップS201において、入
力されたクエリーを取得して記憶装置2に格納し、続く
ステップS202で、取得したクエリーを入力とし、ク
エリー言語解析を行う。そして、ステップS203にお
いて、クエリー言語解析により得られたクエリー単語の
うち、自立語数(検索対象となる情報数)に応じて、全
文検索、フレーズ検索、概念検索の少なくとも1つを適
用する検索方法として決定する。ここでは、検索対象と
なる情報数が所定数以上であれば全文検索のみ、情報数
が所定数より少なければ全ての検索方法を適用するとす
る。
【0072】次いで、ステップS204において、上記
ステップS203の判定結果に基づき全文検索を適用す
るか否かを判定する。全文検索を適用する場合は、ステ
ップS205において、全文検索を行い、ステップS2
06に進む。これに対し、全文検索が適用されない場
合、上記ステップS205をスキップしてステップS2
06に進む。
【0073】ステップS206では、フレーズ検索を適
用するか否かを判定する。ここで、フレーズ検索を適用
する場合は、ステップS207において、フレーズ検索
を行い、ステップS208に進む。これに対し、フレー
ズ検索が適用されない場合、上記ステップS207をス
キップしてステップS208に進む。
【0074】ステップS208では、概念検索を適用す
るか否かを判定する。ここで、概念検索を適用する場
合、ステップS209において、概念検索を行い、ステ
ップS210に進む。これに対し、概念検索が適用され
ない場合は、上記ステップS209をスキップしてステ
ップS210に進む。
【0075】ステップS210では、適用された検索方
法により得られた検索をマージして、検索結果リストを
表示装置4に一致度が高いに順に表示し、また必要に応
じて検索結果リストを記憶装置2に格納する。そして、
本処理を終了する。
【0076】このように、本実施形態では、検索対象情
報数が増加した場合でも、プログラム変更なしで一定の
検索時間で検索を行うことができる。
【0077】また逆に、検索対象となる情報数が少ない
場合は、高速な検索方法で、検索対象となる情報数が多
ければ高度な検索方法(全ての検索方法)を適用するとし
た場合、検索対象情報数が少ない場合より検索時間が短
くなり、検索対象情報数が多くなると、より高精度な検
索で確実に検索を行うことができる。
【0078】なお、上記各実施形態で用いた適用する検
索方法を決定するための検索適用条件(クエリー単語
数、自立語数、未知語数および未知語以外の自立語数の
組み合わせ、自立語数(検索対象情報数))の他に、ク
エリーの文字数、バイト数、単語数、単語頻度の累計、
最大頻度単語、最小頻度単語、単語長、単語長の累計、
最大単語長、最小単語長、自立語頻度、自立語、自立語
頻度の累計、最大頻度自立語、最小頻度自立語、最大自
立語長、最小自立語長、付属語の有無、付属語数、未知
語数、未知語の有無、未知語以外の自立語数、形態素解
析処理のエラーの有無、構文解析処理のエラーの有無、
意味解析処理のエラーの有無、またはそれらを組み合わ
せたものなどを検索適用条件として用いることもでき
る。
【0079】また、クライアントの接続数に応じて、適
用する検索方法を決定するようにしてもよい。例えば、
接続クライアント数が5までは全ての検索方法を適用
し、未知語以外の自立語が5つ以上で接続クライアント
数が100以下であれば概念検索を適用し、クライアン
ト数が50以下ならフレーズ検索は適用するという条件
を設定し、クライアント数が100を超えると全文検索
のみを適用するという条件を設定し、この条件に従い適
用する検索方法を決定するようにしてもよい。
【0080】また、適用条件として、接続クライアント
数のほか、最大接続クライアント数などを用いることも
でき、この最大接続クライアント数に応じて適用するク
ライアントを決定するようにしてもよい。
【0081】さらに、検索方法適用判定条件として、言
語解析結果、ハードウェア処理能力、接続クライアント
数などを組み合わせたものを用いることもできる。
【0082】なお、本発明は、複数の機器から構成され
るシステムに適用しても、一つの機器からなる装置に適
用してもよい。
【0083】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体(または記録媒体)を、システムあるい
は装置に供給し、そのシステムあるいは装置のコンピュ
ータ(またはCPUやMPU)が記憶媒体に格納された
プログラムコードを読み出し実行することによっても、
達成されることはいうまでもない。この場合、記憶媒体
から読み出されたプログラムコード自体が前述した実施
形態の機能を実現することになり、そのプログラムコー
ドを記憶した記憶媒体は本発明を構成することになる。
また、コンピュータが読み出したプログラムコードを実
行することにより、前述した実施形態の機能が実現され
るだけでなく、そのプログラムコードの指示に基づき、
コンピュータ上で稼働しているオペレーティングシステ
ム(OS)などが実際の処理の一部または全部を行い、
その処理によって前述した実施形態の機能が実現される
場合も含まれることはいうまでもない。
【0084】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張カー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書込まれた後、そのプログラムコードの指示
に基づき、その機能拡張カードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行い、
その処理によって前述した実施形態の機能が実現される
場合も含まれることはうまでもない。
【0085】
【発明の効果】以上説明したように、本発明によれば、
検索適用条件に応じてそれぞれ異なる複数の検索手段の
中から、検索に適用する少なくとも1つ以上の検索手段
を決定するので、ユーザの意図に応じた検索結果を高い
精度でかつ効率良く得ることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る情報検索装置の
構成を示すブロック図である。
【図2】図1の情報検索装置がサーバ/クライアントシ
ステムに組み込まれている例を示す図である。
【図3】図1の情報検索装置をインターネット接続端末
に組み込まれている例を示す図である。
【図4】検索対象となる文書などのデータを登録すると
きの処理手順を示すフローチャートである。
【図5】図4のステップS94の概念検索登録処理の詳
細な手順を示すフローチャートである。
【図6】図1の情報検索装置による検索処理の手順を示
すフローチャートである。
【図7】図6のステップS52におけるクエリーの言語
解析の詳細な手順を示すフローチャートである。
【図8】図6のステップS55におけるフレーズ検索の
詳細な手順を示すフローチャートである。
【図9】図6のステップS56における概念検索処理の
詳細な手順を示すフローチャートである。
【図10】図1の情報検索装置により表示されるクエリ
ー入力画面の一例を示す図である。
【図11】図1の情報検索装置により表示される検索結
果一覧表示画面の一例を示す図である。
【図12】フレーズ検索のデータ例を示す図である。
【図13】本発明の第2の実施形態に係る情報検索装置
の検索手順を示すフローチャートである。
【図14】本発明の第2の実施形態に係る情報検索装置
におけるクエリーの入力画面例を示す図である。
【図15】本発明の第2の実施形態に係る情報検索装置
における検索結果の表示画面例を示す図である。
【図16】本発明の第2の実施形態に係る情報検索装置
における異なるクエリーを入力した際の入力画面例を示
す図である。
【図17】本発明の第3の実施形態に係る情報検索装置
における検索手順を示すフローチャートである。
【図18】従来の検索方法の手順を示すフローチャート
である。
【図19】従来の検索方法における操作画面例を示す図
である。
【符号の説明】
1 中央処理装置 2 記憶装置 3 入力装置 4 表示装置 5 記憶媒体読取装置

Claims (28)

    【特許請求の範囲】
  1. 【請求項1】 方式がそれぞれ異なる複数の検索手段
    と、 クエリーを入力する入力手段と、 前記入力されたクエリーを解析するクエリー解析手段
    と、 検索適用条件に応じて前記複数の検索手段の中から、検
    索に適用する少なくとも1つ以上の検索手段を決定する
    決定手段と、 前記決定された少なくとも1つ以上の検索手段により前
    記入力されたクエリーに対する解析結果を用いた検索を
    実行する検索実行手段と、 前記実行された少なくとも1つ以上の検索手段による検
    索結果を表示する表示手段とを備えることを特徴とする
    情報検索装置。
  2. 【請求項2】 前記検索適用条件は、前記入力されたク
    エリーに対する解析結果であることを特徴とする請求項
    1記載の情報検索装置。
  3. 【請求項3】 前記クエリー解析手段は、前記入力され
    たクエリーに対して異なる解析をそれぞれ行う複数の解
    析手段を含むことを特徴とする請求項1または2記載の
    情報検索装置。
  4. 【請求項4】 前記複数の解析手段は、前記入力された
    クエリーに対する形態素解析手段、構文解析手段および
    意味解析手段を含むことを特徴とする請求項3記載の情
    報検索装置。
  5. 【請求項5】 前記複数の検索手段は、少なくとも、全
    文検索手段、フレーズ検索手段、概念検索手段のいずれ
    か1つを含むことを特徴とする請求項1または2記載の
    情報検索装置。
  6. 【請求項6】 サーバ/クライアントシステムにおける
    クライアントに組み込まれていることを特徴とする請求
    項1記載の情報検索装置。
  7. 【請求項7】 前記検索適用条件は、前記サーバと接続
    状態にあるクライアント数であることを特徴とする請求
    項6記載の情報検索装置。
  8. 【請求項8】 前記検索適用条件は、前記サーバと接続
    状態にあるクライアント数と前記入力されたクエリーに
    対する解析結果であることを特徴とする請求項6記載の
    情報検索装置。
  9. 【請求項9】 通信網に接続可能な端末に組み込まれて
    いることを特徴とする請求項1記載の情報検索装置。
  10. 【請求項10】 クエリーを入力する入力工程と、 前記入力されたクエリーを解析するクエリー解析工程
    と、 検索適用条件に応じて、方式がそれぞれ異なる複数の検
    索手段の中から、検索に適用する少なくとも1つ以上の
    検索手段を決定する決定工程と、 前記決定された少なくとも1つ以上の検索手段により前
    記入力されたクエリーに対する解析結果を用いた検索を
    実行する検索実行工程と、 前記実行された少なくとも1つ以上の検索手段による検
    索結果を表示手段に表示する表示工程とを備えることを
    特徴とする情報検索方法。
  11. 【請求項11】 前記検索適用条件は、前記入力された
    クエリーに対する解析結果であることを特徴とする請求
    項10記載の情報検索方法。
  12. 【請求項12】 前記クエリー解析工程では、前記入力
    されたクエリーに対して複数の解析をそれぞれ行うこと
    を特徴とする請求項10または11記載の情報検索方
    法。
  13. 【請求項13】 前記複数の解析は、前記入力されたク
    エリーに対する形態素解析、構文解析および意味解析を
    含むことを特徴とする請求項12記載の情報検索方法。
  14. 【請求項14】 前記複数の検索手段は、少なくとも、
    全文検索手段、フレーズ検索手段、概念検索手段のいず
    れか1つを含むことを特徴とする請求項10または11
    記載の情報検索方法。
  15. 【請求項15】 サーバ/クライアントシステムにおけ
    るクライアント上に用いられることを特徴とする請求項
    10記載の情報検索方法。
  16. 【請求項16】 前記検索適用条件は、前記サーバと接
    続状態にあるクライアント数であることを特徴とする請
    求項15記載の情報検索方法。
  17. 【請求項17】 前記検索適用条件は、前記サーバと接
    続状態にあるクライアント数と前記入力されたクエリー
    に対する解析結果であることを特徴とする請求項15記
    載の情報検索方法。
  18. 【請求項18】 通信網に接続可能な端末に用いられる
    ことを特徴とする請求項10記載の情報検索方法。
  19. 【請求項19】 情報検索を行うためのコンピュータに
    より実行可能なプログラムであって、 クエリーを入力する入力ステップと、 前記入力されたクエリーを解析するクエリー解析ステッ
    プと、 検索適用条件に応じて、方式がそれぞれ異なる複数の検
    索モジュールの中から、検索に適用する少なくとも1つ
    以上の検索モジュールを決定する決定ステップと、 前記決定された少なくとも1つ以上の検索モジュールに
    より前記入力されたクエリーに対する解析結果を用いた
    検索を実行する検索実行ステップと、 前記実行された少なくとも1つ以上の検索モジュールに
    よる検索結果を表示手段に表示する表示ステップとを備
    えることを特徴とするプログラム。
  20. 【請求項20】 前記検索適用条件は、前記入力された
    クエリーに対する解析結果であることを特徴とする請求
    項19記載のプログラム。
  21. 【請求項21】 前記クエリー解析ステップでは、前記
    入力されたクエリーに対して複数の解析をそれぞれ行う
    ことを特徴とする請求項19または20記載のプログラ
    ム。
  22. 【請求項22】 前記複数の解析は、前記入力されたク
    エリーに対する形態素解析、構文解析および意味解析を
    含むことを特徴とする請求項21記載のプログラム。
  23. 【請求項23】 前記複数の検索モジュールは、少なく
    とも、全文検索モジュール、フレーズ検索モジュール、
    概念検索モジュールのいずれか1つを含むことを特徴と
    する請求項19または20記載のプログラム。
  24. 【請求項24】 サーバ/クライアントシステムにおけ
    るクライアント上で実行されることを特徴とする請求項
    19記載のプログラム。
  25. 【請求項25】 前記検索適用条件は、前記サーバと接
    続状態にあるクライアント数であることを特徴とする請
    求項24記載のプログラム。
  26. 【請求項26】 前記検索適用条件は、前記サーバと接
    続状態にあるクライアント数と前記入力されたクエリー
    に対する解析結果であることを特徴とする請求項24記
    載のプログラム。
  27. 【請求項27】 通信網に接続可能な端末上で実行され
    ることを特徴とする請求項19記載のプログラム。
  28. 【請求項28】 請求項19記載のプログラムをコンピ
    ュータ読取り可能に格納したことを特徴とする記憶媒
    体。
JP2002133906A 2002-05-09 2002-05-09 情報検索装置、情報検索方法、プログラムおよび記憶媒体 Pending JP2003330958A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002133906A JP2003330958A (ja) 2002-05-09 2002-05-09 情報検索装置、情報検索方法、プログラムおよび記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002133906A JP2003330958A (ja) 2002-05-09 2002-05-09 情報検索装置、情報検索方法、プログラムおよび記憶媒体

Publications (1)

Publication Number Publication Date
JP2003330958A true JP2003330958A (ja) 2003-11-21

Family

ID=29696720

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002133906A Pending JP2003330958A (ja) 2002-05-09 2002-05-09 情報検索装置、情報検索方法、プログラムおよび記憶媒体

Country Status (1)

Country Link
JP (1) JP2003330958A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092136A (ja) * 2004-09-22 2006-04-06 Fuji Xerox Co Ltd 文書検索装置および方法
JP2006120000A (ja) * 2004-10-22 2006-05-11 Sony Corp 情報処理装置および方法、並びにプログラム
WO2014136173A1 (ja) * 2013-03-04 2014-09-12 三菱電機株式会社 検索装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092136A (ja) * 2004-09-22 2006-04-06 Fuji Xerox Co Ltd 文書検索装置および方法
JP4534690B2 (ja) * 2004-09-22 2010-09-01 富士ゼロックス株式会社 文書検索装置および方法
JP2006120000A (ja) * 2004-10-22 2006-05-11 Sony Corp 情報処理装置および方法、並びにプログラム
WO2014136173A1 (ja) * 2013-03-04 2014-09-12 三菱電機株式会社 検索装置
JP5951105B2 (ja) * 2013-03-04 2016-07-13 三菱電機株式会社 検索装置

Similar Documents

Publication Publication Date Title
US9817920B1 (en) Locating meaningful stopwords or stop-phrases in keyword-based retrieval systems
KR100962923B1 (ko) 텍스트에서 키워드를 효율적으로 검색하는 시스템 및 이의방법
CN111046221A (zh) 歌曲推荐方法、装置、终端设备以及存储介质
US20160292153A1 (en) Identification of examples in documents
US9798776B2 (en) Systems and methods for parsing search queries
US20180004838A1 (en) System and method for language sensitive contextual searching
JP2013516022A (ja) 検索提案のクラスタ化及び提示
JP7451747B2 (ja) コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
US20120317125A1 (en) Method and apparatus for identifier retrieval
US20090327877A1 (en) System and method for disambiguating text labeling content objects
US20230409624A1 (en) Multi-modal hierarchical semantic search engine
CN111460177A (zh) 影视类表情搜索方法、装置、存储介质、计算机设备
CN110688559A (zh) 一种检索方法及装置
JP2003330958A (ja) 情報検索装置、情報検索方法、プログラムおよび記憶媒体
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
CN111368036B (zh) 用于搜索信息的方法和装置
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP4217410B2 (ja) 情報検索装置及びその制御方法、並びにプログラム
JP2006227823A (ja) 情報処理装置及びその制御方法
KR100795930B1 (ko) 검색용 색인 기반 질의어 추천 방법 및 그 시스템
JP2004318381A (ja) 類義性計算方法、類義性計算プログラム、類義性計算プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004240769A (ja) 情報検索装置
CN113515940B (zh) 一种用于文本搜索的方法及设备
CN112860940B (zh) 基于描述逻辑知识库上有序概念空间的音乐资源检索方法
WO2001024053A2 (en) System and method for automatic context creation for electronic documents