JP2012027841A - Retrieval program, retrieval device, retrieval system, retrieval method, and recording medium - Google Patents
Retrieval program, retrieval device, retrieval system, retrieval method, and recording medium Download PDFInfo
- Publication number
- JP2012027841A JP2012027841A JP2010168285A JP2010168285A JP2012027841A JP 2012027841 A JP2012027841 A JP 2012027841A JP 2010168285 A JP2010168285 A JP 2010168285A JP 2010168285 A JP2010168285 A JP 2010168285A JP 2012027841 A JP2012027841 A JP 2012027841A
- Authority
- JP
- Japan
- Prior art keywords
- document
- word
- search
- information
- acquired
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、検索プログラム、検索装置、検索システム、検索方法及び記録媒体に関し、特に、情報検索における検索対象情報の記憶容量の削減に関する。 The present invention relates to a search program, a search device, a search system, a search method, and a recording medium, and more particularly, to a reduction in storage capacity of search target information in information search.
電子データに対する検索技術、あるいは検索結果の表示技術は、検索対象の情報量の増大による検索結果数の増大のため、ますます重要な技術となっている。なぜなら、求める情報が大量の検索結果に埋もれてしまい、見つけることが困難になっているからである。このような検索技術として、例えば、入力された検索要求の解析により設定された検索条件に基づいて検索を実行し、その検索結果を所定のスコア算出手段により順序付けするランキング検索技術が提案されている。 Search technology for electronic data or search result display technology has become an increasingly important technology because of the increase in the number of search results due to an increase in the amount of information to be searched. This is because the information that is sought is buried in a large amount of search results, making it difficult to find. As such a search technique, for example, a ranking search technique is proposed in which a search is executed based on a search condition set by analyzing an input search request, and the search results are ordered by a predetermined score calculation means. .
スコア算出手段においては、指定された検索条件に含まれる検索語等が夫々の文書において出現する若しくは用いられている回数であるTF(Term Frequency)及び上記検索語等を含む文書の数であるDF(Document Frequency)が用いられる。そして、検索のインタラクティブ性を向上するため、検索語とDFとが関連付けられた情報及び夫々の文書毎に検索語とTFとが関連付けられた情報を含む索引が生成されることが一般的である。 In the score calculation means, TF (Term Frequency), which is the number of times a search word included in a specified search condition appears or is used in each document, and the number of documents including the search word, etc. (Document Frequency) is used. In order to improve search interactivity, it is common to generate an index including information associated with a search term and DF and information associated with a search term and TF for each document. .
このような検索技術においては、複数の索引を用いながら正しい検索結果を取得するために、複数の索引ごとの検索結果をマージして最終的な検索結果を生成する方法が提案されている(例えば、特許文献1参照)。 In such a search technique, in order to obtain a correct search result using a plurality of indexes, a method of generating a final search result by merging the search results for each of the plurality of indexes has been proposed (for example, , See Patent Document 1).
ここで、情報検索における検索対象の情報はウェブサイトや電子化された文書等であるが、例えば電子化された文書であれば、“タイトル”、“要約”、“本文”等、複数の項目に分割されている場合があり得る。そして、検索条件として、キーワードを指定するだけでなく、そのキーワードが、上記“タイトル”、“要約”、“本文”のいずれに含まれるかをも指定する場合がある。 Here, the information to be searched in the information search is a website, an electronic document, etc. For example, if it is an electronic document, a plurality of items such as “title”, “summary”, “text”, etc. It may be divided into two. In addition to specifying a keyword as a search condition, it may be specified whether the keyword is included in the “title”, “summary”, or “text”.
従って、上述した索引は、文書毎に生成されるのみでなく、文書の項目毎にも生成する必要があり、索引を2重に生成することになる。更に、検索条件としてのキーワードが含まれる範囲が、“タイトル”及び“要約”等のように複数の項目にわたって指定される場合等も考慮すると、項目の組み合わせの全ての場合について索引を生成する必要があり、検索対象の情報の容量が膨大になってしまう。 Therefore, the index described above needs to be generated not only for each document but also for each item of the document, and the index is generated twice. Furthermore, considering the case where the range including keywords as search conditions is specified across multiple items such as “Title” and “Summary”, it is necessary to generate an index for all combinations of items. There is a huge amount of information to be searched.
本発明は、上記課題を解決するためになされたものであり、検索精度及び検索の利便性を維持したまま、検索対象の情報量を低減することを目的とする。 The present invention has been made to solve the above problems, and an object of the present invention is to reduce the amount of information to be searched while maintaining search accuracy and convenience of search.
上記課題を解決するために、本発明の一態様は、予め格納されている複数の文書を表示する順序を、指定された条件に対する適合度に基づいて決定する検索プログラムであって、前記指定された条件となる単語を取得して記憶媒体に記憶させるステップと、前記記憶された単語に基づいて、前記文書を構成する複数の項目毎に前記文書に含まれる単語とその出現数とが関連付けられた検索対象情報を参照するステップと、前記検索対象情報において前記記憶された単語に関連付けられた出現数を前記夫々の項目毎に取得して記憶媒体に記憶させるステップと、前記夫々の項目毎に取得した出現数を前記文書毎に加算した値及び前記記憶された単語を含む文書の数に基づき、前記文書毎の前記指定された条件に対する適合度を算出して記憶媒体に記憶させるステップとを情報処理装置に実行させることを特徴とする。 In order to solve the above-described problem, one aspect of the present invention is a search program that determines the order in which a plurality of previously stored documents are displayed based on the degree of conformity to a specified condition. Acquiring a word serving as a condition and storing it in a storage medium, and based on the stored word, the word included in the document and the number of occurrences thereof are associated for each of a plurality of items constituting the document. A step of referring to the search target information, a step of acquiring the number of occurrences associated with the stored word in the search target information for each of the items, and storing the number of occurrences in a storage medium, and for each of the items Based on the value obtained by adding the number of appearances obtained for each document and the number of documents including the stored word, the degree of conformity with respect to the specified condition for each document is calculated, and the storage medium And a step to be stored, characterized in that to be executed by the information processing apparatus.
また、前記適合度を算出して記憶媒体に記憶させるステップにおいて、前記夫々の項目毎に取得した出現数に前記複数の項目毎の重要度を示す係数を乗じた上で前記文書毎に加算することが好ましい。 In addition, in the step of calculating the fitness and storing it in a storage medium, the number of appearances acquired for each item is multiplied by a coefficient indicating the importance for each of the plurality of items, and then added for each document. It is preferable.
また、前記記憶された単語を含む文書の数は、前記夫々の項目において前記記憶された単語を含む文書の数の論理和とすることができる。 Further, the number of documents including the stored word may be a logical sum of the number of documents including the stored word in each item.
また、前記記憶された単語を含む文書の数は、前記複数の項目のいずれかに前記記憶された単語を含む文書の数とすることができる。 Further, the number of documents including the stored word may be the number of documents including the stored word in any of the plurality of items.
また、前記適合度を算出して記憶媒体に記憶させるステップにおいて、前記夫々の項目毎に取得した出現数を前記文書毎に加算した値を、前記文書の長さの値を用いて調整することが好ましい。 Further, in the step of calculating the fitness and storing it in a storage medium, a value obtained by adding the number of appearances acquired for each item for each document is adjusted using the length value of the document. Is preferred.
他方、本発明の他の態様は、予め格納されている複数の文書を表示する順序を、指定された条件に対する適合度に基づいて決定する検索装置であって、前記文書を構成する複数の項目毎に前記文書に含まれる単語とその出現数とが関連付けられた検索対象情報を記憶している検索対象情報記憶部と、前記指定された条件となる単語を取得する条件取得部と、前記指定された条件として取得された単語に関連付けられた出現数を、前記検索対象情報から前記夫々の項目毎に取得し、前記夫々の項目毎に取得した出現数を前記文書毎に加算した値及び前記取得された単語を含む文書の数に基づき、前記文書毎の前記指定された条件に対する適合度を算出する適合度算出部とを含むことを特徴とする。 On the other hand, according to another aspect of the present invention, there is provided a search device that determines the order in which a plurality of prestored documents are displayed based on the degree of conformity with a specified condition, and the plurality of items constituting the document A search target information storage unit that stores search target information in which a word included in the document and the number of occurrences thereof are associated with each other, a condition acquisition unit that acquires a word that is the specified condition, and the designation The number of occurrences associated with the word obtained as a condition obtained is obtained for each of the items from the search target information, and the value obtained by adding the number of occurrences obtained for each of the items for each document and A fitness level calculation unit that calculates a fitness level for the specified condition for each document based on the number of documents including the acquired word.
ここで、前記適合度算出部は、前記夫々の項目毎に取得した出現数に前記複数の項目毎の重要度を示す係数を乗じた上で前記文書毎に加算することが好ましい。 Here, it is preferable that the fitness level calculation unit multiplies the number of appearances acquired for each item by a coefficient indicating the importance level for each of the plurality of items and adds the result for each document.
また、本発明の更に他の態様は、予め格納されている複数の文書を表示する順序を、指定された条件に対する適合度に基づいて決定する検索システムであって、前記文書を構成する複数の項目毎に前記文書に含まれる単語とその出現数とが関連付けられた検索対象情報を記憶している検索対象情報記憶部と、画像処理装置において入力された前記指定された条件となる単語をネットワークを介して取得する条件取得部と、指定された条件として取得された単語に関連付けられた出現数を、前記検索対象情報から前記夫々の項目毎に取得し、前記夫々の項目毎に取得した出現数を前記文書毎に加算した値及び前記取得された単語を含む文書の数に基づき、前記文書毎の前記指定された条件に対する適合度を算出する適合度算出部とを含むことを特徴とする。 According to still another aspect of the present invention, there is provided a search system that determines a display order of a plurality of prestored documents based on a degree of conformity with a specified condition, the plurality of documents constituting the document A search target information storage unit storing search target information in which a word included in the document and the number of occurrences thereof are associated for each item, and a word that is the specified condition input in the image processing apparatus A condition acquisition unit that acquires the number of occurrences associated with a word acquired as a specified condition for each of the items from the search target information, and the appearance acquired for each of the items A fitness calculation unit that calculates a fitness for the specified condition for each document based on a value obtained by adding a number for each document and the number of documents including the acquired word. And butterflies.
ここで、前記適合度算出部は、前記夫々の項目毎に取得した出現数に前記複数の項目毎の重要度を示す係数を乗じた上で前記文書毎に加算することが好ましい。 Here, it is preferable that the fitness level calculation unit multiplies the number of appearances acquired for each item by a coefficient indicating the importance level for each of the plurality of items and adds the result for each document.
また、本発明の更に他の態様は、予め格納されている複数の文書を表示する順序を、指定された条件に対する適合度に基づいて決定する検索方法であって、前記指定された条件となる単語を取得して記憶媒体に記憶させ、前記記憶された単語に基づいて、前記文書を構成する複数の項目毎に前記文書に含まれる単語とその出現数とが関連付けられた検索対象情報を参照し、前記検索対象情報において前記記憶された単語に関連付けられた出現数を前記夫々の項目毎に取得して記憶媒体に記憶させ、前記夫々の項目毎に取得した出現数を前記文書毎に加算した値及び前記記憶された単語を含む文書の数に基づき、前記文書毎の前記指定された条件に対する適合度を算出して記憶媒体に記憶させることを特徴とする。 According to still another aspect of the present invention, there is provided a search method for determining a display order of a plurality of prestored documents based on a degree of conformity with a specified condition, which is the specified condition. A word is acquired and stored in a storage medium, and based on the stored word, reference is made to search target information in which a word included in the document and the number of occurrences thereof are associated for each of a plurality of items constituting the document Then, the number of occurrences associated with the stored word in the search target information is acquired for each item and stored in a storage medium, and the number of occurrences acquired for each item is added for each document. Based on the calculated value and the number of documents including the stored word, the degree of conformity with respect to the specified condition for each document is calculated and stored in a storage medium.
また、本発明の更に他の態様は、記録媒体であって、上記検索プログラムを情報処理装置によって読み取り可能な形式で記録したしたことを特徴とする。 Yet another aspect of the present invention is a recording medium, wherein the search program is recorded in a format readable by an information processing apparatus.
本発明によれば、検索精度及び検索の利便性を維持したまま、検索対象の情報量を低減することができる。 According to the present invention, it is possible to reduce the amount of information to be searched while maintaining search accuracy and convenience of search.
以下、図面を参照して、本発明の実施形態を詳細に説明する。本実施形態においては、複数の項目を含む電子文書を検索する情報検索システムにおいて、検索対象の情報である索引の情報が、文書の項目毎にのみ生成されて記憶されているシステムを例として説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In the present embodiment, an information retrieval system that retrieves an electronic document including a plurality of items will be described by taking as an example a system in which index information that is information to be retrieved is generated and stored only for each item of the document. To do.
図1は、本実施の形態に係る情報検索システムの運用形態の例を示す図である。図1に示すように、本実施形態に係る情報検索システムは、情報検索装置1、クライアント装置2及び対象情報DB200を含む。クライアント装置2は、PC(Personal Computer)等の一般的な情報処理装置によって構成される。情報検索装置1は、ネットワークを介してクライアント装置2と接続されており、クライアント装置2からの検索要求を受けて対象情報DB200に格納されている文書情報を検索するサーバとして運用される。
FIG. 1 is a diagram illustrating an example of an operation mode of the information search system according to the present embodiment. As illustrated in FIG. 1, the information search system according to the present embodiment includes an
対象情報DB200は、検索対象の情報である電子文書の情報に加えて、電子文書に基づいて生成された索引の情報を記憶している。本実施形態に係る情報検索装置1は、この索引の情報を参照し、与えられた検索条件に対する電子文書毎の適合度を算出する、対象情報DB200が記憶している索引の情報について、後に詳述する。尚、図1に示すように、本実施形態においては、対象情報DB200が情報検索装置1とは別に設けられている例を説明するが、対象情報DB200を情報検索装置1内部に構成することも可能である。対象情報DB200は、HDD等の不揮発性記憶媒体によって構成される。
The
次に、本実施形態に係る情報検索装置1及びクライアント装置2のハードウェア構成について説明する。図2は、本実施形態に係る情報検索装置1のハードウェア構成を示すブロック図である。図2においては、情報検索装置1のハードウェア構成について説明するが、クライアント装置2についても同様である。
Next, the hardware configuration of the
図2に示すように、本実施形態に係る情報検索装置1は、一般的なサーバやPC(Personal Computer)等の情報処理端末と同様の構成を有する。即ち、本実施形態に係る情報検索装置1は、CPU(Central Processing Unit)10、RAM(Random Access Memory)20、ROM(Read Only Memory)30、HDD(Hard Disk Drive)40及びI/F50がバス80を介して接続されている。また、I/F50にはLCD(Liquid Crystal Display)60及び操作部70が接続されている。
As shown in FIG. 2, the
CPU10は演算手段であり、情報検索装置1全体の動作を制御する。RAM20は、情報の高速な読み書きが可能な揮発性の記憶媒体であり、CPU10が情報を処理する際の作業領域として用いられる。ROM30は、読み出し専用の不揮発性記憶媒体であり、ファームウェア等のプログラムが格納されている。HDD40は、情報の読み書きが可能な不揮発性の記憶媒体であり、OS(Operating System)や各種の制御プログラム、アプリケーション・プログラム等が格納される。
The
I/F50は、バス80と各種のハードウェアやネットワーク等を接続し制御する。LCD60は、ユーザが情報検索装置1の状態を確認するための視覚的ユーザインタフェースである。操作部70は、キーボードやマウス等、ユーザが情報検索装置1に情報を入力するためのユーザインタフェースである。尚、図1において説明したように、本実施形態に係る情報検索装置1は、サーバとして運用される。従って、LCD60及び操作部70等のユーザインタフェースは省略可能である。
The I /
このようなハードウェア構成において、ROM30やHDD40若しくは図示しない光学ディスク等の記憶媒体に格納されたプログラムがRAM20に読み出され、そのプログラムに従ってCPU10が演算を行う事により、ソフトウェア制御部が構成される。このようにして構成されたソフトウェア制御部と、ハードウェアとの組み合わせによって、本実施形態に係る情報検索装置1の機能を実現する機能ブロックが構成される。
In such a hardware configuration, a program stored in a storage medium such as the
次に、本実施形態に係る情報検索装置1の機能ブロックについて、図3を参照して説明する。図3は、本実施形態に係る情報検索装置1の機能ブロック及び情報検索装置1が検索する対象の電子文書の情報を格納している対象情報DB200を示すブロック図である。図3に示すように、本実施形態に係る情報検索装置1は、検索制御部100、情報入力部110、ネットワークI/F120及び表示部130を有する。
Next, functional blocks of the
情報入力部110は、ユーザが情報検索装置1を操作して検索制御部100に情報を入力するための構成であり、図2に示すI/F50及び操作部70によって実現される。ネットワークI/F120は、情報検索装置1がネットワークを介して情報を取得し、若しくはネットワークを介して情報を送信するためのインタフェースであり、図2に示すI/F50によって実現され、具体的には、例えばEthernet(登録商標)接続のインタフェースや、USB(Universal Serial Bus)接続のインタフェースによって実現される。
The information input unit 110 is configured to allow a user to operate the
表示部130は、情報検索装置1の動作状態や、検索結果等が表示される構成であり、図2に示すI/F50及びLCD60によって実現される。尚、上述したように、情報入力部110及び表示部130は省略可能である。検索制御部100は、本実施形態に係る情報検索装置1の検索機能を担う構成であり、指定条件情報取得部101、適合度算出部102及び算出結果処理部103を有する。検索制御部100は、図2に示すRAM20にロードされたプログラムに従ってCPU10が演算を行うことにより構成される。
The
指定条件情報取得部101は、ユーザによって情報入力部110を介して入力された検索条件の情報若しくはネットワークI/F120を介してネットワーク経由で入力された検索条件の情報を指定条件情報として取得する。指定条件情報とは、所望の文書を抽出するための条件として、ユーザによって指定される条件であり、検索対象の電子文書が含むべき単語を指定するキーワードの情報や、検索対象の電子文書において、そのキーワードが含まれるべき項目を指定する情報である。
The specified condition
図4(a)〜(c)を参照して、指定条件情報取得部101が取得する指定条件情報の例について説明する。図4(a)は、指定条件情報の例として、“システム”及び“データベース”というキーワードが指定され、キーワードが含まれるべき項目として“タイトル”が指定される場合を示す図である。この場合、“システム”及び“データベース”というキーワードが電子文書の“タイトル”という項目に含まれる文書が検索により抽出され、適合度の算出対象となる。
An example of the specified condition information acquired by the specified condition
図4(b)は、“システム”というキーワードが指定され、キーワードが含まれるべき項目として“タイトル”及び“要約”が指定される場合を示す図である。この場合、上記キーワードが電子文書の“タイトル”及び“要約”という項目に含まれる文書が検索により抽出され、適合度の算出対象となる。 FIG. 4B is a diagram showing a case where the keyword “system” is designated, and “title” and “summary” are designated as items that should contain the keyword. In this case, a document in which the keyword is included in the items “title” and “summary” of the electronic document is extracted by the search, and becomes a calculation target of the fitness.
図4(c)は、“システム”及び“データベース”というキーワードが指定され、キーワードが含まれるべき項目として“全文”が指定される場合を示す図である。この場合、上記キーワードが電子文書の項目を問わずに含まれる文書が検索により抽出され、適合度の算出対象となる。v FIG. 4C is a diagram illustrating a case where the keywords “system” and “database” are specified, and “full text” is specified as an item that should include the keyword. In this case, a document in which the keyword is included regardless of the item of the electronic document is extracted by the search, and becomes a calculation target of the fitness. v
適合度算出部102は、指定条件情報取得部101から入力された指定条件情報に基づき、対象情報DB200に格納されている各文書の項目毎の索引を参照し、各文書の検索条件に対する適合度を算出する、対象情報DB200において文書中の項目毎に記憶されている複数の索引に基づく文書毎の適合度の算出方法が本実施形態の要旨の1つとなる。適合度算出部102による具体的な適合度の算出方法については、後に詳述する。
The fitness
算出結果処理部103は、適合度算出部102によって算出された文書毎の適合度の一覧を、表示部130若しくはクライアント装置2の表示部に表示するための表示情報を生成して、出力する。対象情報DB200は、図3に示すように、“タイトル”、“要約”、“本文”等の電子文書の項目毎に、“タイトル索引”、“要約索引”、“本文索引”といった形で索引の情報を記憶している。また、対象情報DB200は、検索対象である文書の一覧としてレコード情報を記憶している。
The calculation
図5(a)、(b)及び図6を参照して、本実施形態に係る対象情報DB200が記憶している情報の例を示す。図5(a)は、タイトル索引の情報の例を示す図であり、図5(b)は、本文索引の情報の例を示す図である。図5(a)、(b)に示すように、各索引情報には、先ず、検索対象として管理されている文書に含まれている単語にDF(Document Frequency:文書頻度)が関連付けられた情報が含まれている。 そして、夫々の単語毎について、夫々の文書を識別する文書IDとTF(Term Frequency:文書内頻度)とが関連付けられている。
An example of information stored in the
ここで、DFとは、検索対象として管理されている文書のうち、その単語を含む文書の数を示す情報である。本実施形態において図5(a)、(b)に示すDFは、夫々の項目において、その単語を含む文書の数である。例えば、図5(a)の場合、文書のタイトルに“システム”という単語を含む文書が3つであることを示している。また、TFとは、夫々の文書内において、その単語が含まれている数を示す情報である。例えば、図5(b)において、“システム”という単語を本文に含む文書は、文書ID“1”〜“5”の5つの文書であり、文書ID“1”の文書において、“システム”という単語は10個含まれている。 Here, the DF is information indicating the number of documents including the word among documents managed as search targets. In the present embodiment, DF shown in FIGS. 5A and 5B is the number of documents including the word in each item. For example, FIG. 5A shows that there are three documents including the word “system” in the document title. TF is information indicating the number of words included in each document. For example, in FIG. 5B, documents including the word “system” in the body are five documents with document IDs “1” to “5”, and “document” is the document with document ID “1”. Ten words are included.
更に、図5(a)、(b)に示すように、夫々の索引情報には、夫々の文書の長さである文書長を示す情報も含まれる。本実施形態に係る文書長の情報は、その文書の文字数である。図5(a)、(b)において、文書ID“1”のタイトルの文書長は“12”であり、本文の文書長は“100”である。 Further, as shown in FIGS. 5A and 5B, each index information includes information indicating the document length which is the length of each document. The document length information according to the present embodiment is the number of characters of the document. 5A and 5B, the document length of the title with the document ID “1” is “12”, and the document length of the text is “100”.
図6は、レコード情報の例を示す図である。図6に示すように、本実施形態に係るレコード情報においては、文書IDと、その文書のタイトルと、その文書の作成者とが関連付けられている。このレコード情報は、算出結果処理部103が、適合度算出部102による適合度の算出結果に従って一覧を生成する際に参照する情報である。
FIG. 6 is a diagram illustrating an example of record information. As shown in FIG. 6, in the record information according to the present embodiment, a document ID, a title of the document, and a creator of the document are associated with each other. This record information is information that the calculation
次に、本実施形態に係る情報検索システムの動作について図を参照して説明する。図7は、本実施形態に係る情報検索システムにおける情報検索動作を示すシーケンス図である。図7に示すように、文書情報DB200に登録されている電子文書を検索する際、先ず、ユーザはクライアント装置2を操作して検索条件を指定するための検索条件指定画面を表示するための情報を情報検索装置1から取得し、検索条件指定画面を表示する(S701)。以下、本実施形態の説明においては、ユーザがクライアント装置2を操作して情報検索装置1の機能を利用する場合を例として説明する。
Next, the operation of the information search system according to the present embodiment will be described with reference to the drawings. FIG. 7 is a sequence diagram showing an information search operation in the information search system according to the present embodiment. As shown in FIG. 7, when searching for an electronic document registered in the
本実施形態においては、図4(b)において説明した検索条件がユーザによって指定された場合を例として説明する。ユーザは、クライアント装置2の操作部を操作することにより、図4(b)に示すような検索条件を入力し、情報検索装置1に対して指定条件情報として送信する(S702)。
In the present embodiment, a case where the search condition described in FIG. 4B is specified by the user will be described as an example. The user operates the operation unit of the
情報検索装置1に送信された指定条件情報は、ネットワークI/F120から情報検索装置1に入力され、検索制御部100の指定条件情報取得部101が取得する(S703)。S703の処理は、具体的には、プログラムに従って演算を行うことにより指定条件情報取得部101として機能するCPU10が、指定条件情報取得部101の一部として機能するRAM20の記憶領域に指定条件情報を格納する処理である。即ち、指定条件情報取得部101が、条件取得部として機能する。
The specified condition information transmitted to the
適合度算出部102は、指定条件情報取得部101から指定条件情報を取得すると、指定された項目及びキーワードに応じて、対象情報DB200に格納されている索引情報を検索する(S704)。即ち、適合度算出部102は、S704において、対象情報DB200に格納されている索引情報を参照し、指定条件情報としてのキーワードに関連付けられた情報を抽出する。図7の例においては、図4(b)に示すように、“タイトル”及び“本文”が項目として指定されているため、適合度算出部102は、タイトル索引及び本文索引を検索する。
When the matching
S704において、適合度算出部102は、図5(a)、(b)において説明したタイトル索引及び本文索引を検索し、“システム”というキーワードについて、“タイトル”及び“本文”夫々の項目毎にTFを取得する。また、適合度算出部120は、S704において、夫々の項目毎に“システム”というキーワードについてのDFを取得する。この処理は、具体的には、適合度算出部102として機能するCPU10が、RAM20の記憶領域に上記TF及びDFの値を格納する処理である。
In step S <b> 704, the fitness
S704の処理が完了すると、適合度算出部102は、S704において夫々の項目毎に取得したTF及びDFの値に基づき、夫々の文書毎のTF及びDFの値を生成する(S705)。S705において、適合度算出部102は、一の文書の夫々の項目について取得されたTFの値を合計することにより、その文書についてのTFの値を生成する。
When the processing of S704 is completed, the fitness
また、適合度算出部102は、S705において、検索対象の項目において“システム”というキーワードを含む文書の数について、検索対象である項目の論理和をとることにより、その文書についてのDF値を生成する。尚、DF値の生成について、本実施形態に係る適合度算出部102は、図5(a)、(b)の中央のテーブル、即ち、文書IDとTF値とが関連付けられたテーブルにおいて、共通している文書IDの数を、夫々の項目におけるDF値の合計から引くことにより、論理和をとってDF値を求める。S705の処理は、適合度算出部102として機能するCPU10が、RAM20の記憶領域に、上記生成したTF及びDFの値を格納する処理である。S705の処理により生成されたTF値の例を、図8に示す。
In step S <b> 705, the fitness
S705の処理が完了すると、適合度算出部102は、対象情報DB200に格納されている夫々の文書について、上記生成したTF及びDFの値に基づき適合度を算出する(S706)。S706の処理は、適合度算出部102として機能するCPU10が、RAM20の記憶領域に、上記算出した適合度を格納する処理である。ここで、S706における適合度の算出態様について説明する。文書jのキーワードiについての適合度Scorei,jは、以下の式(1)によって求められる。
When the processing of S705 is completed, the fitness
ここで、式(1)に示す“N”は、対象情報DB200に格納されている全文書の数である。また、“tfij”は、上記生成されたTF値であり、“dfi”は、上記生成されたDF値である。
Here, “N” shown in Expression (1) is the number of all documents stored in the
上記式(1)において、適合度Scorei,jはDFの値が小さい程大きくなる。これは、その単語を含む文書の数が少ない程、即ちDFの値が小さい程、特徴的な単語であるという考え方に基づく。また、適合度Scorei,jは、TFの値が大きい程大きくなる。これは、その単語を多く含む文書である程、即ち、TFの値が大きい程、条件に合致した文書であるという考え方に基づく。 In the above equation (1), the fitness score Scorei, j increases as the value of DF decreases. This is based on the idea that the smaller the number of documents containing the word, that is, the smaller the DF value, the more characteristic the word. Also, the fitness score Scorei, j increases as the value of TF increases. This is based on the idea that a document that contains more words, that is, a document that matches the condition, the greater the value of TF.
適合度算出部102は、上記式(1)を用いて、対象情報DB200に格納されている全文書に対して、S705において生成したTF及びDFの値を用いて適合度を算出する。図9に、S706における適合度の算出結果を示す。図9に示すように、対象情報DB200に格納されている夫々の文書について適合度が算出される。
The goodness-of-
適合度算出部102は、図9に示すように適合度を算出すると、算出された適合度に基づいて文書の並び順をソートしてランキング結果情報を生成する。そして、適合度算出部102は、ランキング結果情報を算出結果処理部103に入力する。適合度算出部102からランキング結果情報を受信した抽出結果処理部103は、ランキング検索結果を表示するための表示情報を生成し、クライアント装置2に対して送信する(S707)。
When the fitness level is calculated as shown in FIG. 9, the fitness
S707において、抽出結果処理部103は、ソートされた文書IDに基づき、対象情報DB200に格納されているレコード情報から、夫々の文書IDに関連付けられたタイトルを取得し、タイトルがソートされて表示される画面を生成する。表示情報を受信したクライアント装置2は、表示部にランキング検索結果を表示し(S708)、処理を終了する。
In S707, the extraction
このように、本実施形態に係る情報検索システムにおいては、検索対象の情報である電子文書に含まれる複数の項目夫々について、別個にTF値及びDF値を示す索引情報が記憶されている。そして、複数の項目が検索条件において指定された場合、指定された項目夫々からTF値及びDF値を取得し、取得したTF値及びDF値に基づいて電子文書毎のTF値及びDF値を生成した上で、適合度を算出する。これにより、夫々の項目の組み合わせ毎に索引情報が記憶されるような場合に比べて、索引情報の情報容量を削減しながらも、算出される適合度の精度、即ち検索精度を維持することができる。 As described above, in the information search system according to the present embodiment, index information indicating the TF value and the DF value is stored separately for each of a plurality of items included in the electronic document that is the search target information. When a plurality of items are specified in the search condition, a TF value and a DF value are acquired from each specified item, and a TF value and a DF value for each electronic document are generated based on the acquired TF value and DF value. After that, the fitness is calculated. As a result, compared to the case where index information is stored for each combination of items, the accuracy of the calculated fitness, that is, the search accuracy can be maintained while reducing the information capacity of the index information. it can.
また、検索条件としてキーワードを指定する際、そのキーワードが含まれるか否かを検索する検索対象を、夫々の項目毎や文書全体に限定されることなく、任意の項目の組み合わせも指定可能であるため、検索の利便性も維持することができる。 In addition, when a keyword is specified as a search condition, a search target for searching whether or not the keyword is included is not limited to each item or the entire document, and any combination of items can be specified. Therefore, the convenience of search can be maintained.
尚、上記実施形態においては、電子文書の項目毎の索引情報におけるDFは、夫々の項目において、その単語を含む文書の数である。しかしながら、上述したように、DFの意義とは、その単語を含む文書の数が少ない程、即ちDFの値が小さい程、特徴的な単語であるという考え方を具現化するためのものであるため、項目によらず一定値としても良い。この場合、DF値は、文書全体において、その単語を含む文書の数を用いることが好ましい。そして、項目によらず一定のDF値を用いる場合、図7のS705においては、DF値は一定であるため、TF値のみを生成すれば良い。 In the above embodiment, the DF in the index information for each item of the electronic document is the number of documents including the word in each item. However, as described above, the significance of DF is to realize the idea that the smaller the number of documents containing the word, that is, the smaller the DF value, the more characteristic the word. A constant value may be used regardless of the item. In this case, the DF value is preferably the number of documents including the word in the entire document. When a constant DF value is used regardless of the item, the DF value is constant in S705 of FIG. 7, and therefore only the TF value needs to be generated.
また、上記実施形態においては、適合度の算出に際して、式(1)を用いる場合を例として説明した。一般的に、長い文書の方がそれだけ多くの単語を含んでいるため、式(1)の計算方法を用いると、長い文書の方が高い適合度が算出される傾向となる。これに対して、式(1)の計算を基本として更に文書長を考慮することにより、文書長の違いによる適合度の誤差を補正する方法がある。文書長を考慮する場合、適合度Scorei,jは、以下の式(2)によって求められる。
Moreover, in the said embodiment, the case where Formula (1) was used was demonstrated as an example in the calculation of a fitness. In general, since a longer document includes more words, using the calculation method of Equation (1) tends to calculate a higher degree of fitness for a longer document. On the other hand, there is a method of correcting the error of the fitness due to the difference in the document length by further considering the document length based on the calculation of Expression (1). When considering the document length, the fitness score Score i, j is obtained by the following equation (2).
ここで、式(2)に示す“lj”は、文書jの文書長である。ここで、図5(a)、(b)において説明したように、本実施形態に係る索引情報においては、夫々の項目毎に文書長が記憶されている。従って、適合度算出部102は、図7のS704において、夫々の項目毎に文書長を取得し、S706において、上記取得した文書長を、電子文書毎に合計することによって、文書毎の文書長“lj”を生成する。
Here, “lj” shown in Expression (2) is the document length of the document j. Here, as described in FIGS. 5A and 5B, in the index information according to the present embodiment, the document length is stored for each item. Accordingly, the
また、式(2)に示す“L”は、対象情報DB200に格納されている全電子文書の文書長の平均値、即ち、平均文書長である。式(2)の意義は、適合度を算出する基となるTF及びDFの値のうち、TFの値を、夫々の文書の文書長に基づいて調整する事により、文字数が多いために多くの単語が含まれ、その結果TF値が大きくなる文書の方が適合度が高く算出される傾向を是正することにある。このような計算により、長い文書程高い適合度が算出されてしまうような課題を解決することができる。
Further, “L” shown in Expression (2) is an average value of document lengths of all electronic documents stored in the
また、上記実施形態においては、図7のS705において、文書毎のTF値を求める際、一の文書の夫々の項目について取得されたTF値を合計する場合を例として説明した。この場合、キーワードがタイトルに現れた場合も、要約に現れた場合も、本文に現れた場合も、全て均等に“1”としてカウントされる。しかしながら、そのキーワードがタイトルや要約に現れる文書の方が、本文に現れる文書よりも、よりそのキーワードに関連する文書であると考えられる。従って、そのキーワードがタイトルに1回現れた文書について、本文に1回現れた文書よりも高い適合度が算出されることが好ましい。 In the above embodiment, the case where the TF values acquired for the respective items of one document are summed up when obtaining the TF value for each document in S705 of FIG. 7 has been described as an example. In this case, whether the keyword appears in the title, in the summary, or in the text, all counts equally as “1”. However, a document in which the keyword appears in the title or summary is considered to be a document related to the keyword more than a document that appears in the text. Therefore, it is preferable that a higher relevance degree is calculated for a document in which the keyword appears once in the title than in a document that appears once in the text.
このような態様は、項目夫々について取得されたTF値を合計する際に、項目に応じた重み付けをした上で合計することにより実現することができる。例えば、図10に示すように、タイトル、要約、本文といった夫々の項目に対して、重要度を示す係数を設定した情報を適合度算出部102に記憶させておき、適合度算出部102が、S705において項目毎のTF値を合計する際、夫々の項目毎のTF値に図10に示す係数を乗じた上で合計する。図10の例においては、タイトルは本文よりも10倍重要であり、要約は本文よりも5倍重要であるように重みづけがされている。このような態様により、検索精度を更に向上することが可能である。
Such an aspect can be realized by summing up the TF values acquired for each item after weighting according to the item. For example, as shown in FIG. 10, for each item such as a title, summary, and body, information in which a coefficient indicating importance is set is stored in the
また、上記実施形態においては、ユーザが、一般的なPC等によって構成されるクライアント装置2を操作して検索条件の情報を入力する場合を例として説明した。この他、例えば、図11に示すように、プリンタ、スキャナ及びコピー機若しくはそれらの機能を複合的に有する複合機のディスプレイパネル等の操作部を、検索条件の情報を入力するインタフェースとして用いることも可能である。図11の例においては、クライアント装置2ではなく複合機3が、ユーザが検索条件の情報を入力するための端末として用いられている。
Further, in the above-described embodiment, the case where the user operates the
1 検索装置
2 クライアント装置
3 複合機
10 CPU
20 RAM
30 ROM
0 HDD
50 I/F
60 LCD
70 操作部
80 バス
100 検索制御部
101 指定条件情報取得部
102 適合度算出部
103 算出結果処理部
110 情報入力部
120 ネットワークI/F
130 表示部
200 対象情報DB
DESCRIPTION OF
20 RAM
30 ROM
0 HDD
50 I / F
60 LCD
70
130
Claims (11)
前記指定された条件となる単語を取得して記憶媒体に記憶させるステップと、
前記記憶された単語に基づいて、前記文書を構成する複数の項目毎に前記文書に含まれる単語とその出現数とが関連付けられた検索対象情報を参照するステップと、
前記検索対象情報において前記記憶された単語に関連付けられた出現数を前記夫々の項目毎に取得して記憶媒体に記憶させるステップと、
前記夫々の項目毎に取得した出現数を前記文書毎に加算した値及び前記記憶された単語を含む文書の数に基づき、前記文書毎の前記指定された条件に対する適合度を算出して記憶媒体に記憶させるステップとを情報処理装置に実行させることを特徴とする検索プログラム。 A search program for determining an order of displaying a plurality of documents stored in advance based on a degree of conformity to a specified condition,
Acquiring a word as the specified condition and storing it in a storage medium;
Referring to search target information in which a word included in the document and the number of occurrences thereof are associated with each other for each of a plurality of items constituting the document, based on the stored word;
Obtaining the number of occurrences associated with the stored word in the search target information for each of the items and storing it in a storage medium;
Based on a value obtained by adding the number of appearances acquired for each item for each document and the number of documents including the stored word, a fitness for the specified condition for each document is calculated, and a storage medium And a step of causing the information processing apparatus to execute the step of storing the information in the information processing apparatus.
前記記憶された単語を含む文書の数は、前記指定された項目のいずれかに前記記憶された単語を含む文書の数であることを特徴とする請求項1または2に記載の検索プログラム。 In the step of acquiring a word that is the specified condition and storing it in a storage medium, also acquiring information specifying an item that should contain the word among a plurality of items constituting the document,
The search program according to claim 1 or 2, wherein the number of documents including the stored word is the number of documents including the stored word in any of the designated items.
前記文書を構成する複数の項目毎に前記文書に含まれる単語とその出現数とが関連付けられた検索対象情報を記憶している検索対象情報記憶部と、
前記指定された条件となる単語を取得する条件取得部と、
前記指定された条件として取得された単語に関連付けられた出現数を、前記検索対象情報から前記夫々の項目毎に取得し、前記夫々の項目毎に取得した出現数を前記文書毎に加算した値及び前記取得された単語を含む文書の数に基づき、前記文書毎の前記指定された条件に対する適合度を算出する適合度算出部とを含むことを特徴とする検索装置。 A search device for determining an order of displaying a plurality of documents stored in advance based on a degree of conformity to a specified condition,
A search target information storage unit storing search target information in which a word included in the document and the number of appearances thereof are associated for each of a plurality of items constituting the document;
A condition acquisition unit for acquiring a word that is the specified condition;
A value obtained by acquiring the number of appearances associated with the word acquired as the specified condition for each item from the search target information, and adding the number of appearances acquired for each item for each document. And a fitness calculation unit that calculates a fitness for the specified condition for each document based on the number of documents including the acquired word.
前記文書を構成する複数の項目毎に前記文書に含まれる単語とその出現数とが関連付けられた検索対象情報を記憶している検索対象情報記憶部と、
画像処理装置において入力された前記指定された条件となる単語をネットワークを介して取得する条件取得部と、
指定された条件として取得された単語に関連付けられた出現数を、前記検索対象情報から前記夫々の項目毎に取得し、前記夫々の項目毎に取得した出現数を前記文書毎に加算した値及び前記取得された単語を含む文書の数に基づき、前記文書毎の前記指定された条件に対する適合度を算出する適合度算出部とを含むことを特徴とする検索システム。 A search system that determines an order of displaying a plurality of prestored documents based on a degree of conformity to a specified condition,
A search target information storage unit storing search target information in which a word included in the document and the number of appearances thereof are associated for each of a plurality of items constituting the document;
A condition acquisition unit that acquires a word that is the specified condition input in the image processing apparatus via a network;
The number of appearances associated with the word acquired as the specified condition is acquired for each of the items from the search target information, and the value obtained by adding the number of appearances acquired for each of the items for each document and A search system, comprising: a fitness calculation unit that calculates a fitness for the specified condition for each document based on the number of documents including the acquired word.
前記指定された条件となる単語を取得して記憶媒体に記憶させ、
前記記憶された単語に基づいて、前記文書を構成する複数の項目毎に前記文書に含まれる単語とその出現数とが関連付けられた検索対象情報を参照し、
前記検索対象情報において前記記憶された単語に関連付けられた出現数を前記夫々の項目毎に取得して記憶媒体に記憶させ、
前記夫々の項目毎に取得した出現数を前記文書毎に加算した値及び前記記憶された単語を含む文書の数に基づき、前記文書毎の前記指定された条件に対する適合度を算出して記憶媒体に記憶させることを特徴とする検索方法。 A search method for determining an order of displaying a plurality of prestored documents based on a degree of conformity to a specified condition,
Acquire a word as the specified condition and store it in a storage medium,
Based on the stored word, refer to the search target information in which the word included in the document and the number of occurrences thereof are associated for each of a plurality of items constituting the document,
The number of occurrences associated with the stored word in the search target information is acquired for each of the items and stored in a storage medium,
Based on a value obtained by adding the number of appearances acquired for each item for each document and the number of documents including the stored word, a fitness for the specified condition for each document is calculated, and a storage medium A search method characterized by storing the data in a memory.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010168285A JP2012027841A (en) | 2010-07-27 | 2010-07-27 | Retrieval program, retrieval device, retrieval system, retrieval method, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010168285A JP2012027841A (en) | 2010-07-27 | 2010-07-27 | Retrieval program, retrieval device, retrieval system, retrieval method, and recording medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012027841A true JP2012027841A (en) | 2012-02-09 |
Family
ID=45780667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010168285A Pending JP2012027841A (en) | 2010-07-27 | 2010-07-27 | Retrieval program, retrieval device, retrieval system, retrieval method, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012027841A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5559911B1 (en) * | 2013-06-17 | 2014-07-23 | ソフトバンクモバイル株式会社 | Information retrieval apparatus and program |
JP2019079131A (en) * | 2017-10-20 | 2019-05-23 | ヤフー株式会社 | Information processing apparatus, information processing method, and information processing program |
JP2019153024A (en) * | 2018-03-02 | 2019-09-12 | ヤフー株式会社 | Information processing device, information processing method, and program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03294963A (en) * | 1990-04-12 | 1991-12-26 | Ricoh Co Ltd | Document retrieving device |
JPH1185765A (en) * | 1997-09-08 | 1999-03-30 | Toshiba Corp | Retrieval system for document with tag |
JP2008217240A (en) * | 2007-03-01 | 2008-09-18 | Ricoh Co Ltd | Document search apparatus, method, and program |
JP2010055169A (en) * | 2008-08-26 | 2010-03-11 | Ricoh Co Ltd | Information processor, information processing method, information processing program, and recording medium |
-
2010
- 2010-07-27 JP JP2010168285A patent/JP2012027841A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03294963A (en) * | 1990-04-12 | 1991-12-26 | Ricoh Co Ltd | Document retrieving device |
JPH1185765A (en) * | 1997-09-08 | 1999-03-30 | Toshiba Corp | Retrieval system for document with tag |
JP2008217240A (en) * | 2007-03-01 | 2008-09-18 | Ricoh Co Ltd | Document search apparatus, method, and program |
JP2010055169A (en) * | 2008-08-26 | 2010-03-11 | Ricoh Co Ltd | Information processor, information processing method, information processing program, and recording medium |
Non-Patent Citations (2)
Title |
---|
CSNG200000016006; 三池 誠司 外2名: '"文書の構造解析に基づく文書情報検索"' 情報処理学会研究報告 第93巻,第78号, 19930914, p.39-46, 社団法人情報処理学会 * |
JPN6014001401; 三池 誠司 外2名: '"文書の構造解析に基づく文書情報検索"' 情報処理学会研究報告 第93巻,第78号, 19930914, p.39-46, 社団法人情報処理学会 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5559911B1 (en) * | 2013-06-17 | 2014-07-23 | ソフトバンクモバイル株式会社 | Information retrieval apparatus and program |
JP2019079131A (en) * | 2017-10-20 | 2019-05-23 | ヤフー株式会社 | Information processing apparatus, information processing method, and information processing program |
JP7088656B2 (en) | 2017-10-20 | 2022-06-21 | ヤフー株式会社 | Information processing equipment, information processing methods and information processing programs |
JP2019153024A (en) * | 2018-03-02 | 2019-09-12 | ヤフー株式会社 | Information processing device, information processing method, and program |
JP7088693B2 (en) | 2018-03-02 | 2022-06-21 | ヤフー株式会社 | Information processing equipment, information processing methods, and programs |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7769771B2 (en) | Searching a document using relevance feedback | |
JP6266080B2 (en) | Method and system for evaluating matching between content item and image based on similarity score | |
KR102046096B1 (en) | Resource efficient document search | |
CN102132273B (en) | Annotating webpage content | |
CN104123332B (en) | The display methods and device of search result | |
US8332426B2 (en) | Indentifying referring expressions for concepts | |
US20130110839A1 (en) | Constructing an analysis of a document | |
US7865516B2 (en) | Associative temporal search of electronic files | |
KR20160138440A (en) | Adjusting serp presentation based on query intent | |
JP6390139B2 (en) | Document search device, document search method, program, and document search system | |
JPWO2014050002A1 (en) | Query similarity evaluation system, evaluation method, and program | |
JP6442918B2 (en) | Expert search device, expert search method and expert search program | |
CN105069175A (en) | Information retrieval method and server based on version control system | |
JP2015076064A (en) | Information processing device, information processing method, program, and storage medium | |
JP5367632B2 (en) | Knowledge amount estimation apparatus and program | |
JP2009271659A (en) | Information processing apparatus, information processing method, information processing program and recording medium | |
JP2011203776A (en) | Similar image retrieval device, method, and program | |
JP2012027841A (en) | Retrieval program, retrieval device, retrieval system, retrieval method, and recording medium | |
CN105243073A (en) | Bookmark access method and device and terminal | |
JP5127553B2 (en) | Information processing apparatus, information processing method, program, and recording medium | |
JP2012043258A (en) | Retrieval system, retrieval device, retrieval program, recording medium and retrieval method | |
CN103902687A (en) | Search result generating method and search result generating device | |
JP2009146013A (en) | Content retrieval method, its device, and program | |
JP5358481B2 (en) | Document search apparatus, document search method, and document search program | |
JP5505207B2 (en) | Information search apparatus, information search method, and information search program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130523 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140121 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140324 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20140324 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140610 |