Nothing Special   »   [go: up one dir, main page]

JP2005190398A - Information retrieval system - Google Patents

Information retrieval system Download PDF

Info

Publication number
JP2005190398A
JP2005190398A JP2003434120A JP2003434120A JP2005190398A JP 2005190398 A JP2005190398 A JP 2005190398A JP 2003434120 A JP2003434120 A JP 2003434120A JP 2003434120 A JP2003434120 A JP 2003434120A JP 2005190398 A JP2005190398 A JP 2005190398A
Authority
JP
Japan
Prior art keywords
character string
search
document information
keyword
contained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003434120A
Other languages
Japanese (ja)
Inventor
Shinya Yamashita
真也 山下
Kojiro Ono
宏二郎 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toppan Edge Inc
Original Assignee
Toppan Forms Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toppan Forms Co Ltd filed Critical Toppan Forms Co Ltd
Priority to JP2003434120A priority Critical patent/JP2005190398A/en
Publication of JP2005190398A publication Critical patent/JP2005190398A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To retrieve document information on the basis of a designated retrieval keyword even in the case that a character string which is not included in document information to be retrieved is designated as the retrieval keyword. <P>SOLUTION: Included character strings which are included in document information registered in a document information database 70 and similar word character strings resembling the included character strings are managed in a keyword management part 20 by associating with each other, and a keyword setting part 30 sets an included character string as a retrieval keyword in the case that a designated retrieval keyword is managed as the included character string by the keyword management part 20, and the keyword setting part 30 sets an included character string managed by associating with a similar word character string, as a retrieval keyword in the case that a designated retrieval keyword is managed as the similar word character string by the keyword management part 20. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、指定された検索キーワードから所望の文書ファイル等の電子化された文書情報を検索する情報検索システムに関する。   The present invention relates to an information search system for searching digitized document information such as a desired document file from a specified search keyword.

近年、情報化社会の進展に伴い、様々な文書情報が電子化されて保存されるようになっている。このように、文書情報を電子化して保存しておく場合、電子化された文書情報のそれぞれにファイル名等の識別情報を付与しておき、その後、保存された文書情報を利用する場合、所望の文書情報に付与された識別情報を指定することにより、保存された文書情報の中から所望の文書情報が抽出されることになる。   In recent years, with the progress of the information society, various document information has been digitized and stored. As described above, when the document information is digitized and stored, identification information such as a file name is given to each digitized document information, and then the stored document information is used when desired. By specifying the identification information given to the document information, desired document information is extracted from the stored document information.

また、所望の文書情報に含まれると思われる文字列を検索キーワードとして指定することによって、文書情報に付与された識別情報を指定することなく所望の文書情報を検索することも行われている。   In addition, by specifying a character string that is supposed to be included in the desired document information as a search keyword, the desired document information is also searched without specifying the identification information given to the document information.

ここで、このような検索キーワードを用いた文書情報検索においては、所望の文書情報を効率よく検索するために、検索キーワードが指定された場合に、その検索キーワードの類似語も検索キーワードに設定し、これら指定された検索キーワードとその類似語を用いて所望の文書情報を検索する技術が考えられている(例えば、特許文献1参照。)。この技術においては、文書情報を検索するための検索キーワードが指定された場合、類似語データベースが参照され、指定された検索キーワードの類似語が検索され、検索された類似語が指定された検索キーワードとともに検索キーワードとして設定され、文書情報が検索されることになる。
特開平7−141397号公報
Here, in document information search using such a search keyword, in order to efficiently search for desired document information, when a search keyword is specified, similar words of the search keyword are also set as the search keyword. A technique for searching for desired document information using these designated search keywords and similar words has been considered (see, for example, Patent Document 1). In this technique, when a search keyword for searching document information is specified, the similar word database is referred to, the similar word of the specified search keyword is searched, and the searched similar word is specified. At the same time, it is set as a search keyword, and the document information is searched.
Japanese Patent Laid-Open No. 7-141397

しかしながら、上述したような、指定された検索キーワードとその類似語を検索キーワードとして文書情報を検索するものにおいては、検索キーワードが指定された場合に、類似語データベースが参照され、指定された検索キーワードの類似語が検索され、検索された類似語と指定された検索キーワードとが、文書情報を検索するための検索キーワードとして設定されることになるため、指定された検索キーワードやこの検索キーワードの類似語が、検索対象となる全ての文書情報の中に全く含まれていない可能性があり、その場合、類似語を用いて検索の範囲を広げたにも関わらず、所望の文書情報を検索することができないという問題点がある。   However, in the above-described search for document information using the specified search keyword and its similar terms as the search keyword, the similar term database is referred to when the search keyword is specified, and the specified search keyword is specified. Similar words are searched, and the searched similar word and the specified search keyword are set as the search keywords for searching the document information, so the specified search keyword and the similarity of this search keyword There is a possibility that the word is not included in all the document information to be searched, and in this case, the desired document information is searched even though the search range is expanded using similar words. There is a problem that can not be.

本発明は、上述したような従来の技術が有する問題点に鑑みてなされたものであって、検索対象となる全ての文書情報の中に全く含まれていない文字列が検索キーワードとして指定された場合であっても、指定された検索キーワードに基づいて文書情報を検索することができる情報検索システムを提供することを目的とする。   The present invention has been made in view of the problems of the conventional techniques as described above, and a character string that is not included in all document information to be searched is designated as a search keyword. Even if it is a case, it aims at providing the information search system which can search document information based on the designated search keyword.

上記目的を達成するために本発明は、
複数の文書情報からなる文書情報群の中から、指定された検索文字列に応じた文書情報を検索する情報検索システムであって、
前記文書情報群に含まれる含有文字列と、該含有文字列に類似する類似語文字列とを互いに対応づけて管理する文字列管理手段と、
前記指定された検索文字列が、前記文字列管理手段にて含有文字列として管理されている文字列である場合、当該含有文字列を検索文字列に設定し、また、前記指定された検索文字列が、前記文字列管理手段にて類似語文字列として管理されている文字列である場合、前記文字列管理手段にて当該類似語文字列と対応づけられて管理された含有文字列を検索文字列に設定する検索文字列設定手段と、
前記検索文字列設定手段にて設定された検索文字列に基づいて文書情報を検索する文書情報検索手段とを有する。
In order to achieve the above object, the present invention provides:
An information search system for searching for document information corresponding to a specified search character string from a document information group consisting of a plurality of document information,
A character string management means for managing a contained character string included in the document information group and a similar word character string similar to the contained character string in association with each other;
When the specified search character string is a character string managed as a contained character string by the character string management means, the contained character string is set as a search character string, and the designated search character When the string is a character string managed as a similar word character string by the character string managing means, the contained character string managed in association with the similar word character string by the character string managing means is searched. Search string setting means to set in the string,
Document information search means for searching for document information based on the search character string set by the search character string setting means.

また、前記検索文字列設定手段は、検索文字列として設定した含有文字列が複数存在し、かつ、該複数の含有文字列の中から少なくとも1つの含有文字列が指定された場合、指定された含有文字列のみを検索文字列として設定することを特徴とする。   Further, the search character string setting means is specified when there are a plurality of contained character strings set as the search character string and at least one contained character string is designated from the plurality of contained character strings. Only the contained character string is set as a search character string.

また、前記文書情報検索手段は、前記検索文字列の文書情報中における出現率が指定された場合、前記検索文字列設定手段にて設定された検索文字列が、指定された出現率を有して含まれる文書情報を検索することを特徴とする。   Further, when the appearance rate in the document information of the search character string is specified, the document information search unit has the specified appearance rate as the search character string set by the search character string setting unit. The document information included is searched for.

また、前記検索文字列及び前記出現率、並びに前記文書情報検索手段にて検索される文書情報の数を指定するための画面を表示し、前記文書情報検索手段にて検索された文書情報の数が前記指定された数を超えた場合、少なくとも前記出現率及び前記文書情報検索手段にて検索される文書情報の数を変更するための画面を表示する表示手段を有することを特徴とする。   Further, a screen for designating the search character string, the appearance rate, and the number of document information searched by the document information search means is displayed, and the number of document information searched by the document information search means When the number exceeds the specified number, the display unit displays a screen for changing at least the appearance rate and the number of document information retrieved by the document information retrieval unit.

上記のように構成された本発明においては、複数の文書情報からなる文書情報群に含まれる含有文字列と、この含有文字列に類似する類似語文字列とが文字列管理手段にて互いに対応づけて管理されており、文書情報を検索するために検索文字列が指定されると、検索文字列設定手段において、指定された検索文字列が、文字列管理手段にて含有文字列として管理されている文字列である場合、その含有文字列が検索文字列に設定され、また、指定された検索文字列が、文字列管理手段にて類似語文字列として管理されている文字列である場合、文字列管理手段にてその類似語文字列と対応づけられて管理された含有文字列が検索文字列に設定され、その後、文書情報検索手段において、検索文字列設定手段にて設定された検索文字列に基づいて文書情報が検索される。   In the present invention configured as described above, the character string management means corresponds to the contained character string included in the document information group including a plurality of document information and the similar word character string similar to the contained character string. If a search character string is specified to search for document information, the search character string setting unit manages the specified search character string as a contained character string. The contained character string is set as the search character string, and the specified search character string is a character string managed as a similar word character string by the character string management means The contained character string managed in association with the similar word character string by the character string managing means is set as the search character string, and then the search set by the search character string setting means in the document information searching means Based on string Document information Te is searched.

このように、文書情報を検索するための検索文字列が指定された場合、この検索文字列に応じて、検索対象となる文書情報群に含まれる含有文字列が検索文字列に設定されて文書情報が検索されることになるので、検索対象となる全ての文書情報の中に全く含まれていない文字列が検索文字列として指定された場合であっても、指定された検索文字列に基づいて文書情報を検索することができる。   As described above, when a search character string for searching for document information is designated, the contained character string included in the document information group to be searched is set as the search character string in accordance with the search character string. Since information is searched, even if a character string that is not included in all document information to be searched is specified as a search character string, it is based on the specified search character string. Document information.

また、検索文字列設定手段において、検索文字列として設定した含有文字列が複数存在し、かつ、該複数の含有文字列の中から少なくとも1つの含有文字列が指定された場合、指定された含有文字列のみを検索文字列として設定すれば、検索文字列として複数の含有文字列が設定された後に、検索される文書情報を絞り込むことができる。   Further, in the search character string setting means, when there are a plurality of contained character strings set as the search character string and at least one contained character string is designated from the plurality of contained character strings, the designated contained character string If only the character string is set as the search character string, the document information to be searched can be narrowed down after a plurality of contained character strings are set as the search character string.

また、文書情報検索手段において、検索文字列の文書情報中における出現率が指定された場合、検索文字列設定手段にて設定された検索文字列が、指定された出現率を有して含まれる文書情報を検索すれば、検索文字列が所望の出現率で含まれる文書情報を検索することができる。   Further, when the appearance rate in the document information of the search character string is specified in the document information search means, the search character string set by the search character string setting means is included with the specified appearance rate. If the document information is searched, it is possible to search for document information that includes the search character string at a desired appearance rate.

また、検索文字列及び出現率、並びに文書情報検索手段にて検索される文書情報の数を指定するための画面を表示する表示手段において、文書情報検索手段にて検索された文書情報の数が指定された数を超えた場合、少なくとも出現率及び文書情報検索手段にて検索される文書情報の数を変更するための画面を表示すれば、検索結果に応じて検索範囲を任意に変えることができる。   In the display means for displaying a screen for designating the search character string and the appearance rate, and the number of document information searched by the document information search means, the number of document information searched by the document information search means is When the specified number is exceeded, the search range can be arbitrarily changed according to the search result by displaying a screen for changing at least the appearance rate and the number of document information searched by the document information search means. it can.

以上説明したように本発明においては、文書情報を検索するための検索文字列が指定された場合、この検索文字列に応じて、検索対象となる文書情報群に含まれる含有文字列が検索文字列に設定されて文書情報が検索される構成としたため、検索対象となる全ての文書情報の中に全く含まれていない文字列が検索文字列として指定された場合であっても、指定された検索文字列に基づいて文書情報を検索することができる。   As described above, in the present invention, when a search character string for searching for document information is designated, the contained character string included in the document information group to be searched is searched according to the search character string. Since the document information is searched by being set in the column, even if a character string that is not included in all the document information to be searched is specified as the search character string, it is specified. Document information can be searched based on the search character string.

また、検索文字列設定手段において、検索文字列として設定した含有文字列が複数存在し、かつ、該複数の含有文字列の中から少なくとも1つの含有文字列が指定された場合、指定された含有文字列のみを検索文字列として設定する構成としたものにおいては、検索文字列として複数の含有文字列が設定された後に、検索される文書情報を絞り込むことができる。   Further, in the search character string setting means, when there are a plurality of contained character strings set as the search character string and at least one contained character string is designated from the plurality of contained character strings, the designated contained character string In the configuration in which only the character string is set as the search character string, the document information to be searched can be narrowed down after a plurality of contained character strings are set as the search character string.

また、文書情報検索手段において、検索文字列の文書情報中における出現率が指定された場合、検索文字列設定手段にて設定された検索文字列が、指定された出現率を有して含まれる文書情報を検索する構成としたものにおいては、検索文字列が所望の出現率で含まれる文書情報を検索することができる。   Further, when the appearance rate in the document information of the search character string is specified in the document information search means, the search character string set by the search character string setting means is included with the specified appearance rate. In a configuration in which document information is searched, it is possible to search for document information including a search character string with a desired appearance rate.

また、検索文字列及び出現率、並びに文書情報検索手段にて検索される文書情報の数を指定するための画面を表示する表示手段において、文書情報検索手段にて検索された文書情報の数が指定された数を超えた場合、少なくとも出現率及び文書情報検索手段にて検索される文書情報の数を変更するための画面を表示する構成としたものにおいては、検索結果に応じて検索範囲を任意に変えることができる。   In the display means for displaying a screen for designating the search character string and the appearance rate, and the number of document information searched by the document information search means, the number of document information searched by the document information search means is When the number exceeds the specified number, at least the appearance rate and the screen for changing the number of document information searched by the document information search means are displayed. It can be changed arbitrarily.

以下に、本発明の実施の形態について図面を参照して説明する。   Embodiments of the present invention will be described below with reference to the drawings.

図1は、本発明の情報検索システムの実施の一形態を示す図である。   FIG. 1 is a diagram showing an embodiment of an information search system of the present invention.

本形態は図1に示すように、類似語データベース60及び文書情報データベース70を用いて検索キーワードを予め管理しておき、その後、検索キーワードが指定された場合、予め管理されている検索キーワードに基づいて文書情報データベース70から文書情報を検索するものであって、入力部10と、文字列管理手段であるキーワード管理部20と、検索文字列設定手段であるキーワード設定部30と、文書情報検索部40と、表示部50とから構成されている。   In this embodiment, as shown in FIG. 1, search keywords are managed in advance using a similar word database 60 and a document information database 70, and thereafter, when a search keyword is designated, based on the search keyword managed in advance. Document information is searched from the document information database 70, and includes an input unit 10, a keyword management unit 20 that is a character string management unit, a keyword setting unit 30 that is a search character string setting unit, and a document information search unit. 40 and a display unit 50.

入力部10は、文書情報データベース70に登録された文書情報を検索するための検索文字列となる検索キーワードや、表示部50に表示される画面に対して、検索条件が入力される。   In the input unit 10, a search condition is input to a search keyword that is a search character string for searching for document information registered in the document information database 70 and a screen displayed on the display unit 50.

キーワード管理部20は、文書情報データベース70に登録された文書情報群を構成する複数の文書情報にそれぞれ含まれる含有文字列となる文字列を管理し、また、類似語データベース60を参照し、文書情報データベース70に登録された文書情報にそれぞれ含まれる含有文字列に類似する類似語文字列を管理する。なお、含有文字列とこの含有文字列に類似する類似語文字列とは、互いに対応づけて管理される。   The keyword management unit 20 manages character strings that are contained character strings included in a plurality of pieces of document information constituting the document information group registered in the document information database 70, and refers to the similar word database 60 to The similar word character string similar to the contained character string included in the document information registered in the information database 70 is managed. The contained character string and the similar word character string similar to the contained character string are managed in association with each other.

キーワード設定部30は、入力部10を介して入力された検索キーワードが、キーワード管理部20にて文書情報に含まれる文字列として管理されている文字列である場合、その文字列を検索キーワードに設定し、また、入力部10を介して入力された検索キーワードが、キーワード管理部20にて類似語文字列として管理されている文字列である場合、キーワード管理部20にてその類似語文字列と対応づけられて管理されている文字列を検索キーワードに設定する。   When the search keyword input via the input unit 10 is a character string managed as a character string included in the document information by the keyword management unit 20, the keyword setting unit 30 uses the character string as a search keyword. When the search keyword set and input via the input unit 10 is a character string managed as a similar word character string by the keyword management unit 20, the keyword management unit 20 uses the similar word character string. A character string managed in association with is set as a search keyword.

文書情報検索部40は、キーワード設定部30にて設定された検索キーワードを用いて文書情報データベース70から文書情報を検索する。   The document information search unit 40 searches the document information database 70 for document information using the search keyword set by the keyword setting unit 30.

表示部50は、文書情報検索部40にて検索された文書情報や、文書情報の検索条件を指定するための画面が表示される。   The display unit 50 displays a screen for designating document information searched by the document information search unit 40 and a search condition for the document information.

以下に、上記のように構成された情報検索システムにおける情報検索方法について説明する。   Below, the information search method in the information search system comprised as mentioned above is demonstrated.

まず、キーワード管理部20における検索キーワードの管理方法について説明する。   First, a search keyword management method in the keyword management unit 20 will be described.

図2は、図1に示した情報検索システムにおいてキーワード管理部20における検索キーワードの管理方法を説明するためのフローチャートである。   FIG. 2 is a flowchart for explaining a search keyword management method in the keyword management unit 20 in the information search system shown in FIG.

文書情報が作成され、作成された文書情報が文書情報データベース70に登録されると(ステップS1)、まず、キーワード管理部20において、文書情報データベース70に登録された文書情報に含まれる文字列が抽出される(ステップS2)。なお、キーワード管理部20にて文書情報から抽出される文字列においては、例えば、文書情報を構成する名詞句や文節等が考えられる。   When the document information is created and the created document information is registered in the document information database 70 (step S1), first, in the keyword management unit 20, a character string included in the document information registered in the document information database 70 is displayed. Extracted (step S2). Note that in the character string extracted from the document information by the keyword management unit 20, for example, a noun phrase or a phrase constituting the document information can be considered.

次に、キーワード管理部20においては、文書情報から抽出された文字列のそれぞれについて、後述するキーワード管理部20のテーブルに含有文字列として既に登録されて管理されているものであるかどうかが判断され(ステップS3)、まだ登録されていないものである場合は、文書情報から抽出された文字列が文書情報に含まれる含有文字列としてキーワード管理部20のテーブルに登録されて管理される(ステップS4)。   Next, the keyword management unit 20 determines whether each character string extracted from the document information is already registered and managed as a contained character string in a table of the keyword management unit 20 described later. (Step S3) If the character string is not yet registered, the character string extracted from the document information is registered and managed in the table of the keyword management unit 20 as a contained character string included in the document information (Step S3). S4).

次に、キーワード管理部20において、類似語データベース60が参照され、文書情報から抽出され、含有文字列としてキーワード管理分20のテーブルに登録された文字列のそれぞれについて、類似する類似語文字列が検索される(ステップS5)。なお、類似語データベース60は、一般に用いられている類似語データベースである。   Next, the keyword management unit 20 refers to the similar word database 60, extracts similar word strings for each character string extracted from the document information and registered in the keyword management table 20 as a contained character string. Search is performed (step S5). The similar term database 60 is a similar term database that is generally used.

その後、キーワード管理部20において、ステップS5にて類似語データベース60から検索された類似語文字列が、ステップS4にて含有文字列としてテーブルに登録された文字列と対応づけられてキーワード管理部20のテーブルに登録されて管理される(ステップS6)。   Thereafter, the keyword management unit 20 associates the similar word character string retrieved from the similar word database 60 in step S5 with the character string registered in the table as the contained character string in step S4, and then manages the keyword management unit 20. Are registered and managed in the table (step S6).

図3は、図1に示したキーワード管理部20に設けられたテーブルの構成例を示す図である。   FIG. 3 is a diagram illustrating a configuration example of a table provided in the keyword management unit 20 illustrated in FIG.

図3に示すように、キーワード管理部20に設けられたテーブルには、ステップS2にて文書情報から抽出された含有文字列と、この含有文字列に類似する文字列としてステップS5にて類似語データベース60から検索された類似語文字列とが互いに対応づけて登録されている。なお、ステップS2にて文書情報から抽出された文字列によっては、同一な類似語文字列が対応づけられているものもある。例えば、図3に示した例においては、類似語aは、文字列1と文字列3とに類似する類似語文字列として登録されている。   As shown in FIG. 3, the table provided in the keyword management unit 20 includes a contained character string extracted from the document information in step S2 and a similar word in step S5 as a character string similar to the contained character string. Similar word character strings retrieved from the database 60 are registered in association with each other. Some character strings extracted from the document information in step S2 are associated with the same similar word string. For example, in the example shown in FIG. 3, the similar word a is registered as a similar word character string similar to the character string 1 and the character string 3.

次に、上述したように文書情報データベース70に登録された文書情報に含まれる含有文字列及びこの含有文字列に類似する類似語文字列がキーワード管理部20に登録された後に、文書情報データベース70に登録された文書情報を検索する際の処理について説明する。   Next, as described above, after the contained character string included in the document information registered in the document information database 70 and the similar word character string similar to the contained character string are registered in the keyword management unit 20, the document information database 70. A process for retrieving the document information registered in the above will be described.

図4は、図1に示した情報検索システムにおいて、文書情報データベース70に登録された文書情報を検索する際の処理を説明するためのフローチャートである。   FIG. 4 is a flowchart for explaining processing when searching for document information registered in the document information database 70 in the information search system shown in FIG.

図1に示した情報検索システムにおいて文書情報データベース70に登録された文書情報を検索する場合、文書情報の検索条件を指定するための検索条件指定画面が表示部50にて表示される(ステップS11)。   When searching for document information registered in the document information database 70 in the information search system shown in FIG. 1, a search condition specifying screen for specifying a search condition for document information is displayed on the display unit 50 (step S11). ).

図5は、図1に示した情報検索システムにて表示部50にて表示される検索条件指定画面の一例を示す図である。   FIG. 5 is a diagram showing an example of a search condition designation screen displayed on the display unit 50 in the information search system shown in FIG.

図5に示すように、表示部50にて表示される検索条件指定画面には、文書情報検索部40にて文書情報データベース70から検索される文書情報の最大数を指定するための領域1と、文書情報を検索するための検索キーワードを指定するための領域2と、キーワード設定部30にて領域2に入力された検索キーワードに応じて設定される検索キーワードの文書情報中における出現率を指定するための領域3とが設けられている。   As shown in FIG. 5, the search condition designation screen displayed on the display unit 50 includes an area 1 for designating the maximum number of document information searched from the document information database 70 by the document information search unit 40. Specify the appearance rate in the document information of the area 2 for specifying the search keyword for searching the document information and the search keyword set according to the search keyword input to the area 2 by the keyword setting unit 30 A region 3 is provided.

図5に示したような検索条件指定画面に対して、文書情報検索部40にて文書情報データベース70から検索される文書情報の最大数が領域1に入力され、また、文書情報を検索するための検索キーワードが領域2に入力され、また、キーワード設定部30にて領域2に入力された検索キーワードに応じて設定される検索キーワードの文書情報中における出現率が領域3に入力されることにより、検索条件が指定されると(ステップS12)、まず、キーワード設定部30において、領域2に入力された検索キーワードが、キーワード管理部22にて文書情報に含まれる含有文字列として管理されているものであるかどうかが判断される。キーワード管理部22においては、図3に示したように、文書情報データベース70に登録された文書情報に含まれる含有文字列と、この含有文字列に類似する類似語文字列とが互いに対応づけて登録されており、まず、領域2に入力された検索キーワードが、文書情報データベース70に登録された文書情報に含まれる含有文字列かどうかが判断されることになる。   In the search condition designation screen as shown in FIG. 5, the maximum number of document information searched from the document information database 70 by the document information search unit 40 is input to the area 1, and the document information is searched. And the appearance rate in the document information of the search keyword set according to the search keyword input to the area 2 by the keyword setting unit 30 is input to the area 3. When the search condition is specified (step S12), first, the keyword setting unit 30 manages the search keyword input in the area 2 as a contained character string included in the document information by the keyword management unit 22. It is judged whether it is a thing. In the keyword management unit 22, as shown in FIG. 3, the contained character string included in the document information registered in the document information database 70 and the similar word character string similar to the contained character string are associated with each other. First, it is determined whether or not the search keyword input in the area 2 is a contained character string included in the document information registered in the document information database 70.

領域2に入力された検索キーワードが、キーワード管理部22にて文書情報に含まれる含有文字列として管理されているものである場合は、キーワード設定部30において、領域2に入力された検索キーワードが、文書情報を検索するための検索キーワードとして設定される。   When the search keyword input to the area 2 is managed as a contained character string included in the document information by the keyword management unit 22, the search keyword input to the area 2 is Are set as search keywords for searching document information.

一方、領域2に入力された検索キーワードが、キーワード管理部22にて文書情報に含まれる含有文字列として管理されているものではない場合は、キーワード設定部30において、キーワード管理部22にて管理されている類似語文字列の中から、領域2に入力された検索キーワードを検索し、その類似語文字列と対応づけられた含有文字列が抽出され、この含有文字列が、文書情報を検索するための検索キーワードとして設定される。例えば、図3に示したテーブルに登録された類似語文字列のうち、類似語aが検索キーワードとして領域2に入力されると、文書情報データベース70に登録された文書情報に含まれる含有文字列として登録された文字列1〜nのうち、類似語aに対応づけて登録された文字列1,3が抽出され、検索キーワードとして設定される。   On the other hand, if the search keyword input to the area 2 is not managed as a contained character string included in the document information by the keyword management unit 22, the keyword management unit 22 manages the search keyword. The search keyword input in the area 2 is searched from the similar word character strings that are stored, and the contained character string that is associated with the similar word character string is extracted, and the contained character string searches the document information. Is set as a search keyword. For example, among the similar word character strings registered in the table shown in FIG. 3, when the similar word a is input to the region 2 as a search keyword, the contained character string included in the document information registered in the document information database 70. Among the character strings 1 to n registered as “”, character strings 1 and 3 registered in association with the similar word “a” are extracted and set as search keywords.

このように、入力部10を介して入力された検索キーワードが文書情報データベース70に登録された複数の文書情報からなる文書情報群に含まれているか否かに関わらず、キーワード設定部30において、文書情報データベース70に登録された文書情報に含まれる文字列が検索キーワードとして設定されることになる(ステップS13)。   Thus, regardless of whether or not the search keyword input through the input unit 10 is included in the document information group including a plurality of document information registered in the document information database 70, the keyword setting unit 30 A character string included in the document information registered in the document information database 70 is set as a search keyword (step S13).

キーワード設定部30にて検索キーワードが設定されると、文書情報検索部40において、キーワード設定部30にて設定された検索キーワードを用いて文書情報データベース70から文書情報が検索される(ステップS14)。なお、この際、文書情報検索部40においては、キーワード設定部30にて設定されたキーワードが、図5に示した検索条件指定画面にて領域3にて指定された出現率を有してなる文書情報が検索されることになる。   When the search keyword is set by the keyword setting unit 30, the document information search unit 40 searches for document information from the document information database 70 using the search keyword set by the keyword setting unit 30 (step S14). . At this time, in the document information search unit 40, the keyword set by the keyword setting unit 30 has the appearance rate specified in the area 3 on the search condition specification screen shown in FIG. Document information is retrieved.

その後、文書情報検索部40にて文書情報データベース70から検索された文書情報の数が、図5に示した領域1にて指定された数以下である場合(ステップS15)、文書情報データベース70から検索された文書情報が表示部50にて表示される(ステップS16)。なお、表示部50における文書情報の表示においては、文書情報データベース70から検索された文書情報そのものを表示することに限らず、文書情報の題名や件名等、文書情報を識別可能な情報を表示すること等が考えられる。   Thereafter, when the number of document information retrieved from the document information database 70 by the document information retrieval unit 40 is equal to or less than the number designated in the area 1 shown in FIG. 5 (step S15), from the document information database 70. The retrieved document information is displayed on the display unit 50 (step S16). The display of the document information on the display unit 50 is not limited to displaying the document information itself retrieved from the document information database 70, but displays information that can identify the document information such as the title and subject of the document information. It is conceivable.

一方、文書情報検索部40にて文書情報データベース70から検索された文書情報の数が、図5に示した領域1にて指定された数を超えている場合は、キーワード設定部30にて設定された検索キーワードが表示部50にて表示される(ステップS17)。ここで、キーワード設定部30にて設定される検索キーワードにおいては、1つの場合もあれば複数の場合もあり、複数の場合は、これら複数の検索キーワードの少なくともいずれか一方が含まれる文書情報が文書情報データベース70から検索されることになる。   On the other hand, if the number of document information retrieved from the document information database 70 by the document information retrieval unit 40 exceeds the number specified in the area 1 shown in FIG. The retrieved search keyword is displayed on the display unit 50 (step S17). Here, the search keyword set by the keyword setting unit 30 may be one or a plurality of search keywords. In a plurality of search keywords, document information including at least one of the plurality of search keywords is included. The document information database 70 is searched.

表示部50にて複数の検索キーワードが表示された場合であって(ステップS18)、その後、複数の検索キーワードのうち少なくとも1つの検索キーワードが指定されることにより検索キーワードが絞り込まれると(ステップS19)、キーワード設定部30において、絞り込まれた検索キーワードが、文書情報を検索するための検索キーワードとして設定され、その後、文書情報検索部40において、この検索キーワードを用いて文書情報データベース70から文書情報が検索される(ステップS20)。なお、この際においても、文書情報検索部40においては、キーワード設定部30にて設定されたキーワードが、図5に示した検索条件指定画面にて領域3にて指定された出現率を有してなる文書情報が検索されることになる。   This is a case where a plurality of search keywords are displayed on the display unit 50 (step S18). Thereafter, when the search keywords are narrowed down by specifying at least one search keyword among the plurality of search keywords (step S19). ) In the keyword setting unit 30, the narrowed search keyword is set as a search keyword for searching for document information. Thereafter, the document information search unit 40 uses the search keyword to retrieve document information from the document information database 70. Is searched (step S20). Also in this case, in the document information search unit 40, the keyword set in the keyword setting unit 30 has the appearance rate specified in the area 3 on the search condition specification screen shown in FIG. The document information is retrieved.

その後、文書情報検索部40にて文書情報データベース70から検索された文書情報の数が、図5に示した領域1にて指定された数以下である場合(ステップS21)、文書情報データベース70から検索された文書情報が表示部50にて表示される。   Thereafter, when the number of document information retrieved from the document information database 70 by the document information retrieval unit 40 is equal to or less than the number designated in the area 1 shown in FIG. 5 (step S21), from the document information database 70. The retrieved document information is displayed on the display unit 50.

また、表示部50にて1つの検索キーワードしか表示されない場合や、表示部50にて複数のキーワードが表示された場合であっても検索キーワードが絞り込まれなかった場合や、文書情報検索部40にて文書情報データベース70から検索された文書情報の数が、図5に示した領域1にて指定された数を超える場合は、ステップS12にて指定された検索条件を変更するための検索条件変更画面が表示部50にて表示される(ステップS22)。表示部50にて表示される検索条件変更画面においては、図5に示した検索条件指定画面に対して、指定された文書情報の数が領域1に掲載され、指定された検索キーワードが領域2に掲載され、指定された文字列の出現率が領域3に掲載されており、この領域1〜3に掲載された条件を変更することになる(ステップS23)。なお、表示部50にて表示される検索条件変更画面においては、指定された検索キーワードを必ずしも掲載しておく必要はなく、検索される文書情報の数を変更するための領域と、文字列の文書情報中における出現率を変更するための領域とが少なくとも設けられていればよい。   Further, when only one search keyword is displayed on the display unit 50, when a plurality of keywords are displayed on the display unit 50, the search keyword is not narrowed down, or the document information search unit 40 is displayed. If the number of document information retrieved from the document information database 70 exceeds the number specified in the area 1 shown in FIG. 5, the search condition change for changing the search condition specified in step S12 A screen is displayed on the display unit 50 (step S22). In the search condition change screen displayed on the display unit 50, the number of designated document information is posted in the area 1 and the designated search keyword is displayed in the area 2 with respect to the search condition designation screen shown in FIG. The appearance rate of the designated character string is posted in the area 3, and the conditions posted in the areas 1 to 3 are changed (step S23). In the search condition change screen displayed on the display unit 50, it is not always necessary to post the designated search keyword. An area for changing the number of document information to be searched and a character string It is sufficient that at least an area for changing the appearance rate in the document information is provided.

その後、ステップS14における処理に戻り、文書情報検索部40において、キーワード設定部30にて設定された検索キーワード、並びにステップS23にて変更された出現率を用いて文書情報データベース70から文書情報が検索されることになる。また、その後のステップS15,S21における処理においては、ステップS23にて変更された文書情報の数を用いて行うことになる。   Thereafter, the process returns to step S14, and the document information search unit 40 searches the document information database 70 for document information using the search keyword set in the keyword setting unit 30 and the appearance rate changed in step S23. Will be. In the subsequent processes in steps S15 and S21, the number of document information changed in step S23 is used.

本発明の情報検索システムの実施の一形態を示す図である。It is a figure which shows one Embodiment of the information search system of this invention. 図1に示した情報検索システムにおいてキーワード管理部における検索キーワードの管理方法を説明するためのフローチャートである。3 is a flowchart for explaining a search keyword management method in a keyword management unit in the information search system shown in FIG. 1. 図1に示したキーワード管理部に設けられたテーブルの構成例を示す図である。It is a figure which shows the structural example of the table provided in the keyword management part shown in FIG. 図1に示した情報検索システムにおいて、文書情報データベースに登録された文書情報を検索する際の処理を説明するためのフローチャートである。4 is a flowchart for explaining processing when searching for document information registered in a document information database in the information search system shown in FIG. 図1に示した情報検索システムにて表示部にて表示される検索条件指定画面の一例を示す図である。It is a figure which shows an example of the search condition designation | designated screen displayed on a display part in the information search system shown in FIG.

符号の説明Explanation of symbols

10 入力部
20 キーワード管理部
30 キーワード設定部
40 文書情報検索部
50 表示部
60 類似語データベース
70 文書情報データベース
DESCRIPTION OF SYMBOLS 10 Input part 20 Keyword management part 30 Keyword setting part 40 Document information search part 50 Display part 60 Similar word database 70 Document information database

Claims (4)

複数の文書情報からなる文書情報群の中から、指定された検索文字列に応じた文書情報を検索する情報検索システムであって、
前記文書情報群に含まれる含有文字列と、該含有文字列に類似する類似語文字列とを互いに対応づけて管理する文字列管理手段と、
前記指定された検索文字列が、前記文字列管理手段にて含有文字列として管理されている文字列である場合、当該含有文字列を検索文字列に設定し、また、前記指定された検索文字列が、前記文字列管理手段にて類似語文字列として管理されている文字列である場合、前記文字列管理手段にて当該類似語文字列と対応づけられて管理された含有文字列を検索文字列に設定する検索文字列設定手段と、
前記検索文字列設定手段にて設定された検索文字列に基づいて文書情報を検索する文書情報検索手段とを有する情報検索システム。
An information search system for searching for document information corresponding to a specified search character string from a document information group consisting of a plurality of document information,
A character string management means for managing a contained character string included in the document information group and a similar word character string similar to the contained character string in association with each other;
When the specified search character string is a character string managed as a contained character string by the character string management means, the contained character string is set as a search character string, and the designated search character When the string is a character string managed as a similar word character string by the character string managing means, the contained character string managed in association with the similar word character string by the character string managing means is searched. Search string setting means to set in the string,
An information search system comprising: document information search means for searching for document information based on the search character string set by the search character string setting means.
請求項1に記載の情報検索システムにおいて、
前記検索文字列設定手段は、検索文字列として設定した含有文字列が複数存在し、かつ、該複数の含有文字列の中から少なくとも1つの含有文字列が指定された場合、指定された含有文字列のみを検索文字列として設定することを特徴とする情報検索システム。
The information search system according to claim 1,
The search character string setting means, when there are a plurality of contained character strings set as the search character string, and at least one contained character string is designated from the plurality of contained character strings, the designated contained character string An information search system characterized in that only a column is set as a search character string.
請求項1または請求項2に記載の情報検索システムにおいて、
前記文書情報検索手段は、前記検索文字列の文書情報中における出現率が指定された場合、前記検索文字列設定手段にて設定された検索文字列が、指定された出現率を有して含まれる文書情報を検索することを特徴とする情報検索システム。
In the information search system according to claim 1 or 2,
When the appearance rate in the document information of the search character string is specified, the document information search unit includes the search character string set by the search character string setting unit with the specified appearance rate Information retrieval system characterized by retrieving document information to be retrieved.
請求項3に記載の情報検索システムにおいて、
前記検索文字列及び前記出現率、並びに前記文書情報検索手段にて検索される文書情報の数を指定するための画面を表示し、前記文書情報検索手段にて検索された文書情報の数が前記指定された数を超えた場合、少なくとも前記出現率及び前記文書情報検索手段にて検索される文書情報の数を変更するための画面を表示する表示手段を有することを特徴とする情報検索システム。
In the information search system according to claim 3,
A screen for designating the search character string and the appearance rate, and the number of document information searched by the document information search means is displayed, and the number of document information searched by the document information search means is An information search system comprising display means for displaying a screen for changing at least the appearance rate and the number of document information searched by the document information search means when a specified number is exceeded.
JP2003434120A 2003-12-26 2003-12-26 Information retrieval system Pending JP2005190398A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003434120A JP2005190398A (en) 2003-12-26 2003-12-26 Information retrieval system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003434120A JP2005190398A (en) 2003-12-26 2003-12-26 Information retrieval system

Publications (1)

Publication Number Publication Date
JP2005190398A true JP2005190398A (en) 2005-07-14

Family

ID=34791276

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003434120A Pending JP2005190398A (en) 2003-12-26 2003-12-26 Information retrieval system

Country Status (1)

Country Link
JP (1) JP2005190398A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015022568A (en) * 2013-07-19 2015-02-02 富士通株式会社 Information processing program, apparatus, and method
JP2017016355A (en) * 2015-06-30 2017-01-19 株式会社インタラクティブソリューションズ Search information management apparatus, search information management method, and search information management program
JP2021044006A (en) * 2020-11-27 2021-03-18 株式会社インタラクティブソリューションズ Search information management device, search information management method and search information management program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015022568A (en) * 2013-07-19 2015-02-02 富士通株式会社 Information processing program, apparatus, and method
JP2017016355A (en) * 2015-06-30 2017-01-19 株式会社インタラクティブソリューションズ Search information management apparatus, search information management method, and search information management program
JP2021044006A (en) * 2020-11-27 2021-03-18 株式会社インタラクティブソリューションズ Search information management device, search information management method and search information management program
JP7228167B2 (en) 2020-11-27 2023-02-24 株式会社インタラクティブソリューションズ Searched Information Management Device, Searched Information Management Method, and Searched Information Management Program

Similar Documents

Publication Publication Date Title
JP4904255B2 (en) Image processing system and method
JP2007066331A (en) System and method for displaying search result
JP2002073677A (en) Device for collecting personal preference information on reader and information reading support device using the information collecting device
JP2001117937A (en) Method and device for retrieving document
JP2010061587A (en) Similar document determination device, similarity determination method and program therefor
JP2014044484A (en) Information retrieval program, and information retrieval device
JP2007257369A (en) Information retrieval device
JP2005190398A (en) Information retrieval system
JP2000132560A (en) Chinese teletext processing method and processor therefor
JP2005107931A (en) Image search apparatus
WO2018084226A1 (en) Document search method and device
JP2003308314A (en) Device for supporting document preparation
US20030014429A1 (en) Method of storing, retrieving and viewing data
CN104765830B (en) A kind of information search method and device
JP2006092251A (en) Keyword addition support device, method, and program
JP2009098829A (en) Frame retrieval device for cartoon
JP2006164045A (en) Cooccurrence graph creation method, device, program, and storage medium storing program
JPH07262222A (en) Information integrating device
JP2000348059A (en) Method for retrieving document
JPH06348756A (en) Index preparing device and index utilizing device
JP2005056154A (en) Document retrieving system
JP2004258912A (en) Document retrieval device, method and program
JP2006350655A (en) Method, device and program for classifying and presenting result of web image search, and storage medium with the program stored therein
CN105005631A (en) High-precision searching method
JP2006190060A (en) Database retieval method, database retieval program, and original processor

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090722

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091118