Nothing Special   »   [go: up one dir, main page]

JPH01234930A - 文字列検索方法および装置 - Google Patents

文字列検索方法および装置

Info

Publication number
JPH01234930A
JPH01234930A JP63060372A JP6037288A JPH01234930A JP H01234930 A JPH01234930 A JP H01234930A JP 63060372 A JP63060372 A JP 63060372A JP 6037288 A JP6037288 A JP 6037288A JP H01234930 A JPH01234930 A JP H01234930A
Authority
JP
Japan
Prior art keywords
code
character string
conversion
character
string search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63060372A
Other languages
English (en)
Other versions
JP2713962B2 (ja
Inventor
Tadashi Osone
匡 大曽根
Hiroyuki Kitajima
北嶋 弘行
Yasuhiro Imai
康裕 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP63060372A priority Critical patent/JP2713962B2/ja
Priority to DE3817139A priority patent/DE3817139A1/de
Publication of JPH01234930A publication Critical patent/JPH01234930A/ja
Application granted granted Critical
Publication of JP2713962B2 publication Critical patent/JP2713962B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、データベースの検索方法に係り、特に、長大
な文字列の中から指定された文字列を検索するのに好適
な文字列検索方法および装置に関する。
〔従来の技術〕
オフィス・オートメーション化に伴って、文書情報のデ
ータベース化が急速に進んでおり、そのデータベースの
規模も大規模化してきている。このような状況の中で、
文書情報検索の高速化が強く望まれている。なかでも、
テキストと呼ばれる文字列の中から、パターンまたはキ
ーワードと呼ばれる指定された特定の文字列を探し出す
文字列検索処理は、使用頻度も高く、処理負荷も極めて
大きいので、高速化のニーズが特に望まれている。
このようなニーズにこたえるために、文字列検索をハー
ドウェア化して処理する方法がいくつか提案されている
。例えば、[ハードウェア・システムズ・フォア・テキ
スト・インフオメイション・リトリーバルJ (Hol
laar、 L、A、 : HardwareSyst
ems for Text Information 
Retrieval、ACMSIGIRConf、 J
une 1983)や「ザ・デザイン・オブ・スペシャ
ルバーボス・ブイエルニスアイ・チップスJ (Fos
ter、M、J、and Kung、 H,T、 : 
The Desi、gnof 5pecial−Pur
pose VLSI Chips、Computer、
Vol。
13、Nα1.1980)ではセルラ・アレイ法による
文字列検索方法について論じられている。これは、第4
図に示すように、テキストの入力文字コード103を文
字列検索装置101に入れ、そのセル内でパターンレジ
スタ110のパターンの1文字とテキストの入力文字1
文字とを比較器111により比較し、その結果に応じて
制御情報を発生させ、それをとなりのセルに伝達しなが
ら文字列検索を実行する方法である。これらの方法はい
ずれも、テキストの入力文字をそのまま文字列検索装置
に入力する方法となっていた。
〔発明が解決しようとする課題〕
上記のように従来技術はテキストの入力文字をそのまま
文字列検索装置に入力させていたので、文字列検索装置
のハードウェア量が大きくなるという問題があった0例
えば第4図の場合、文字列検索装置101内には、パタ
ーン1文字を格納するための8ビツトのパターンレジス
タ110とパターン1文字とテキストの入力文字とを比
較するための8ビツトの比較器110がパターン要分だ
け必要であった。
本発明の目的は、ハードウェア量を削減することが可能
な文字列検索方法および装置を提供することにある。
〔課題を解決するための手段〕
上記目的を達成するために1本発明は、入力文字コード
を入力文字コード長より短かいコードに変換するコード
変換機構を設けることに特徴がある。
〔作用〕
本発明によれば、コード変換機構は入力文字を入力文字
コード長より短かいコードに変換するので、その変換コ
ードを文字列検索装置の入力とすれば1文字列検索装置
内のレジスタや比較器は変換コード長のレジスタや比較
器で済ませることができ、ハードウェア量を削減できる
〔実施例〕
以下1本発明の実施例を図面により説明する。
まず1本発明の第一の実施例を第1図と第2図により説
明する。第1図は本発明の全体構成図である。5はテキ
ストを記憶している記憶装置、3はテキストの入力文字
格納する入力文字コードレジスタ、2は入力文字コード
を変換コードに変換するコード変換機構、4は変換され
たコードを格納する変換コードレジスタ、1は文字列検
索装置である。本発明では、テキストが1文字ずつ記憶
装置5から入力文字コードレジスタ3を経てコード変換
機構2に入力され、入力文字コード長より短かい変換コ
ードに変換され、変換コードレジスタ4を経て文字列検
索装置1に入力され1文字列検索が実行される。したが
って、文字列検索装置1内のレジスタや比較器は変換コ
ード長に対応したもので十分である。第2図は第1図の
文字列検索装置の一例の構成を示す。第2図により、例
を用いて詳しく説明する。パターンの例として「ABC
Jを考える。この場合、文字列検索装置1は、入力コー
ドがrAJかrBJかrCJかその他の文字かを判別で
きれば、検索の機能を果たすのに十分である。すなわち
、文字列検索装置への入力コードとして4種類の変換コ
ードを用意すれば良い、これは2ビツトの情報で可能で
ある0本実施例ではコード変換機構2の実現形態として
コード変換テーブル20を用い、rAJを表現する8ビ
ツトのコードXIC1マに2ビツトのコードrBJマ0
1マを、「B」を表現するコードXIC2マにBマ10
マを、rCJを表現するコードXIC1マにBマ11マ
を対応させ、その他の文字を表現する8ビツトのコード
に対しては全てに2ビツトのコードBマOoマを対応さ
せる。
まず2ビツトの変換コードに変換されたパターンを予め
文字列検索装置1内のレジスタ10にセットする。テキ
ストは1文字ずつ8ビツトのコードとして入力文字コー
ドレジスタ3に入力される。
この入力文字コードをアドレスとしてコード変換テーブ
ル2によりコード変換し、変換コードを2ビツトの変換
コードレジスタ4に入力する。さらに、この変換コード
を文字列検索装置1の入力コードとして入力する。文字
列検索装置1内の各セルでは、入力された変換コードと
パターンレジスタ10のパターンとを比較器11で比較
し、その結果に応じて制御情報を発生させ、シフトレジ
スタ等の伝達機構12により、隣りのセルに伝達しなが
ら文字列検索を実行する。したがって1文字列検索装置
1内のパターンレジスタ10や比較器11は2ビツトの
もので十分である。これにより。
文字列検索装置1内のハードウェア量を大幅に削減する
ことができる。
次に本発明の第二の実施例を用いて、変換コード長が2
ビツトでも4文字以上のパターン長のパターンの検索が
可能であることを示す。パターンの例としてパターン長
が6であるパターンrABCDEFJを考える。この場
合の本発明の構成図を第3図に示す。ここでは、パター
ンの3文字毎にコード変換テーブル20を用いている。
コード変換テーブル20−1はパターンの前半の3文字
1’AJ(XTCIり、rBJ(XTC2り、rCJ(
XTC3?)をそれぞれ2ビツトのコードBマ01マ、
Bマ10マ。
Bマ11マに変換し、その他の文字はBマOOマに変換
する。第2のコード変換テーブル20−2はパターンノ
後半の3文字rDJ (XIC4T)、rEJ(XTC
5D 、rFJ  (XIC6?)をそれぞれ2ビツト
のコードBマ01マ、Bマ16マ、Bマ11マに変換し
、その他の文字はBマOOマに変換する。そして、この
2つの変換コードがそれぞれパターンの前半のrABc
J文字列検索を実行する文字列検索装置1−1と後半の
rDEFJの文字列検索を実行する文字列検索装置1−
2に入力される。
このようにして、変換コード長が2ビツトであっても、
4文字以上のパターン長のパターンを検索すことが複数
のコード変換テーブルを用いることにより可能になる。
コード変換テーブル20−1と20−2は1つのテーブ
ルとして表現し、1つのRAMを用いて実行してもよい
、このようにして、変換コード長に応じて複数のコード
変換テーブルを用いることにより、パターン長が長くて
も。
パターン数が多くても、文字列検索が実行できる。
本発明の実施例では、文字列検索装置としてセルラ・ア
レイ法を用いた場合について説明したが、本発明はセル
ラ・アレイ法に限定せず、その他の方式でも有効である
。例えば、有限オートマトンを利用した方法でも1本発
明を用いてコード長の短かい変換コードに変換すれば、
利用する状態遷移テーブルの大きさを少なくできる効果
がある。
〔発明の効果〕
セルラ・アレイ法を用いた文字列検索装置内のハードウ
ェア量はレジスタや比較器の幅と個数によってほぼ決定
される。従来方式では、8ビット幅のレジスタや比較器
を必要としたので、極めて大きなハードウェア量となっ
ていた。本発明では、変換コード長をにビットとすると
、kピット幅のレジスタや比較器で済むので、ハードウ
ェア量をに/8化することができる。本発明では、コー
ド変換を実現するコード変換テーブルを必要とするが、
これはRAMで実現でき、レジスタや比較器などのハー
ドウェアに比べて極めて安価であるので経済性において
も効果がある。
【図面の簡単な説明】
第1図は本発明の全体構成図、第2図と第3図は本発明
のそれぞれの実施例の説明図、第4図は従来技術の説明
図である。 1・・・文字列検索装置、2・・・コード変換機構、3
・・・入力文字コードレジスタ、4・・・変換コードレ
ジス茅 IT2] tl−化ベーム +)−yべμ

Claims (1)

  1. 【特許請求の範囲】 1、テキストと呼ばれる文字列の中からパターンと呼ば
    れる特定の文字列を探し出す文字列検索方法において、
    テキストの入力文字コードをそのコード長より短かいコ
    ード長のコードに変換し、該変換コード列に対して文字
    列検索を行うことを特徴とする文字列検索方法。 2、パターンを形成している文字の種類とその他の文字
    だけを判別できるようにすることにより変換コードの種
    類を減らし変換コード長を短かくすることを特徴とする
    請求項1項記載の文字列検索方法。 3、多種のコードから成つている検索すべき原データを
    、少なくも検索するのに必要な種類のコードだけからな
    るデータに変換することを特徴とする請求項1項記載の
    文字列検索方法。 4、変換されるデータのコード長は、変換される前の原
    データのコード長より短かくすることを特徴とする請求
    項1項記載の文字列検索方法。 5、テキストと呼ばれる文字列の中からパターンと呼ば
    れる特定の文字列を探し出す文字列検索方法において、
    テキストの入力文字コードをそのコード長より短かいコ
    ード長のコードに変換する変換手段を設け、該変換コー
    ド列に対して文字列検索を行うことを特徴とする文字列
    検索装置。 6、パターンを形成している文字の種類とその他の文字
    だけを判別できるようにすることにより変換コードの種
    類を減らし変換コード長を短かくすることを特徴とする
    請求項5項記載の文字列検索装置。 7、上記変換手段は、多種のコードから成つている検索
    すべき原データを、少なくも検索するのに必要な種類の
    コードだけからなるデータに変換する手段からなること
    を特徴とする請求項5項記載の文字列検索装置。
JP63060372A 1987-05-20 1988-03-16 文字列検索方法および装置 Expired - Fee Related JP2713962B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP63060372A JP2713962B2 (ja) 1988-03-16 1988-03-16 文字列検索方法および装置
DE3817139A DE3817139A1 (de) 1987-05-20 1988-05-19 Verfahren und vorrichtung zum suchen einer zeichenfolge

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63060372A JP2713962B2 (ja) 1988-03-16 1988-03-16 文字列検索方法および装置

Publications (2)

Publication Number Publication Date
JPH01234930A true JPH01234930A (ja) 1989-09-20
JP2713962B2 JP2713962B2 (ja) 1998-02-16

Family

ID=13140238

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63060372A Expired - Fee Related JP2713962B2 (ja) 1987-05-20 1988-03-16 文字列検索方法および装置

Country Status (1)

Country Link
JP (1) JP2713962B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04348469A (ja) * 1990-07-23 1992-12-03 Hitachi Ltd 文字列検索装置およびその方法
JP2006505043A (ja) * 2002-10-29 2006-02-09 ロッキード・マーチン・コーポレイション ハードウェアパーサアクセラレータ

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04348469A (ja) * 1990-07-23 1992-12-03 Hitachi Ltd 文字列検索装置およびその方法
JP2006505043A (ja) * 2002-10-29 2006-02-09 ロッキード・マーチン・コーポレイション ハードウェアパーサアクセラレータ

Also Published As

Publication number Publication date
JP2713962B2 (ja) 1998-02-16

Similar Documents

Publication Publication Date Title
US4959785A (en) Character processing system with spelling check function that utilizes condensed word storage and indexed retrieval
US5621908A (en) Parallel sorting system to reduce the amount of communication between processing devices
US4514826A (en) Relational algebra engine
EP0688105B1 (en) A bit string compressor with boolean operation processing capability
JPS60134945A (ja) データベース処理方法
US5502832A (en) Associative memory architecture
JPH01234930A (ja) 文字列検索方法および装置
Nagumo et al. Parallel algorithms for the static dictionary compression
JPS583033A (ja) 木構造検索処理装置
US6532468B2 (en) Binary data search method for selecting from among candidate data, and apparatus therefor
JP3062119B2 (ja) 文字列探索用テーブル、その作成方法及び文字列探索方法
JP2540899B2 (ja) ソ―タ記憶管理方式
EP0649106A1 (en) Compactly stored word groups
JPH10177582A (ja) 最長一致検索方法及び装置
JPH03211627A (ja) データ型変換方式
JPS60254254A (ja) ハツシユテ−ブル
JPS6373422A (ja) 情報検索装置
JPS6393033A (ja) デ−タ検索方式
JPH0226257B2 (ja)
JPS6295628A (ja) インデクスキ−管理方式
JPH0668145A (ja) 探索方法
JPH07182386A (ja) 集積回路設計データの階層展開方法
JPS5995641A (ja) 文字変換装置
JPH0531790B2 (ja)
JPS5854443A (ja) ハツシユ変換装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees