JP2007279978A - Document retrieval device and document retrieval method - Google Patents
Document retrieval device and document retrieval method Download PDFInfo
- Publication number
- JP2007279978A JP2007279978A JP2006104476A JP2006104476A JP2007279978A JP 2007279978 A JP2007279978 A JP 2007279978A JP 2006104476 A JP2006104476 A JP 2006104476A JP 2006104476 A JP2006104476 A JP 2006104476A JP 2007279978 A JP2007279978 A JP 2007279978A
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- format information
- input
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、計算機を用いて文書類を検索する文書検索装置及び文書検索方法に関する。 The present invention relates to a document search apparatus and a document search method for searching for documents using a computer.
計算機を用いた文書類の検索方式として、検索条件として入力された文書またはキーワード等を基に、検索対象である文書群に対して構文解析、語句の頻出度などを使って類似度を求めて検索する方法がある。従来の検索方式では、検索条件や検索対象文書から抽出したキーワードに出現頻度などを基に算出した重みを付与し、その重みから類似度を定量化し、類似度の高い文書を検索結果として出力する。 As a document search method using a computer, based on the documents or keywords entered as search conditions, the similarity of the search target document group is determined using syntax analysis, phrase frequency, etc. There is a way to search. In the conventional search method, a weight calculated based on the appearance frequency or the like is assigned to a keyword extracted from a search condition or a search target document, the similarity is quantified from the weight, and a document having a high similarity is output as a search result. .
特許文献1には、尺度表現語に着目してキーワードの抽出及びキーワードの重み付与を行う類義文書検索方法の例についての開示がある。 Patent Document 1 discloses an example of a similar document search method that performs keyword extraction and keyword weighting by paying attention to a scale expression word.
文書検索時において、文書の意味的な情報は重要な要素であるが、過去に作成または閲覧した文書のスタイルが記憶にあり、それに基づいて検索したい場合がある。例えば、過去に他人が作成した報告書の書式を雛形にして新規に文書を作成する場合、過去の報告書の内容には依存せず、文書のスタイルによって検索を行いたいという場合である。ところが、従来の検索方式では、文書の内容を解釈して意味的に類似性を評価しようとするものであるため、文書の書式的情報を基に類似文書を検索することはできない。一方、CADデータ等に関しては、検索対象を「形」として認識し、幾何学的な形状特徴データに基づいて類似度を算出する検索方法などがあるが、文書の検索には適用できない。 At the time of document retrieval, the semantic information of the document is an important element, but there is a case where the style of the document created or browsed in the past is stored in the memory, and it is desired to search based on it. For example, when a new document is created using a report format created by another person in the past as a model, it is desired to perform a search according to the document style without depending on the contents of the past report. However, in the conventional search method, the content of the document is interpreted and the similarity is evaluated semantically. Therefore, it is not possible to search for a similar document based on the format information of the document. On the other hand, for CAD data and the like, there is a search method for recognizing a search target as “shape” and calculating similarity based on geometric shape feature data, but it is not applicable to document search.
本発明はかかる点に鑑みてなされたものであり、文書の書式的な情報、即ち、その文書が用いているテンプレート、設定されているプロパティ、文書の種類、ファイル名、ヘッダとフッタ、枠と罫線のパターン、用紙サイズ、段組の形態、レイアウト、ページ数の情報などの一致、不一致を検査して類似性を評価し、書式が類似する文書を検索できるようにすることを目的とする。 The present invention has been made in view of such a point, and format information of a document, that is, a template used by the document, a set property, a document type, a file name, a header and a footer, a frame, and the like. An object of the present invention is to search for documents having similar formats by inspecting matching and mismatching of ruled line patterns, paper sizes, columnar forms, layouts, page number information, and the like to evaluate similarities.
本発明は、計算機を用いた文書類の検索装置において、ディスプレイ、キーボード、マウスなどの入出力装置と、文書を蓄積しておくデータベースと、文書の書式情報を抽出する文書書式情報抽出部と、検索したい文書または使用者が指定した検索条件の書式と類似する文書をデータベースから検索する類似構成文書検索部と、検索結果を入出力装置へ出力する検索結果表示部とを備えるようにした。更に、各書式情報に重み付けを行う手段と、文書の類似の度合いを示す類似度を算出する手段を設け、類似度の大きさの順に検索結果を表示するようにした。 The present invention relates to a document search apparatus using a computer, an input / output device such as a display, a keyboard, and a mouse, a database that stores documents, a document format information extraction unit that extracts document format information, A similar-structured document search unit that searches the database for a document to be searched or a document similar to the search condition format specified by the user, and a search result display unit that outputs the search result to the input / output device are provided. Furthermore, a means for weighting each format information and a means for calculating a similarity indicating the degree of similarity between documents are provided, and the search results are displayed in order of the degree of similarity.
このように構成することにより、入力された文書と類似の文書を検索する際に、入力された文書の書式的情報、即ち、その文書が用いているテンプレート、設定されているプロパティ、文書の種類、ファイル名、ヘッダとフッタ、枠と罫線のパターン、用紙サイズ、段組の形態、レイアウト、ページ数の情報などを入力された文書から抽出し、文書類のデータベースから、入力された文書と書式が類似の文書、即ち、複数の書式的情報の中の幾つかの書式情報が一致している文書を検索することが可能になる。 With this configuration, when searching for a document similar to the input document, the format information of the input document, that is, the template used by the document, the set property, and the document type , File name, header and footer, frame and ruled line pattern, paper size, columnar form, layout, page number information, etc. are extracted from the input document, and the input document and format from the document database It is possible to search for documents that are similar to each other, that is, documents in which some format information among a plurality of format information matches.
本発明によると、文書の書式的情報を基に類似文書を検索することが可能になるため、過去に作成した文書の参照、再利用などのために、書式的に類似した文書を探し出すことができる。 According to the present invention, it is possible to search for similar documents based on the format information of the documents. Therefore, it is possible to search for documents that are similar in form in order to refer to or reuse documents created in the past. it can.
以下、本発明の一実施の形態を、添付図面を参照して説明する。本例においては、例えば電子計算機に該当する処理を行うプログラムを実装し、その電子計算機が備える演算処理機能や記憶機能などを利用して実現したものである。 Hereinafter, an embodiment of the present invention will be described with reference to the accompanying drawings. In this example, for example, a program for performing processing corresponding to an electronic computer is installed and realized by using an arithmetic processing function, a storage function, and the like included in the electronic computer.
図1は、本例を電子計算機により実現した場合のシステム構成例を示すブロック図である。図1を参照して本例の一実施の形態による全体構成について説明する。 FIG. 1 is a block diagram showing a system configuration example when this example is realized by an electronic computer. An overall configuration according to an embodiment of the present example will be described with reference to FIG.
本例は、本装置の使用者が入出力操作を行うための表示装置101、キーボード102、マウス103などの入出力装置と、文書の検索処理を実行する演算部104と、文書データを蓄積しておく文書データベース105から構成する。演算部104には、本装置の使用者が検索対象として入力した入力文書106の書式情報を抽出する文書書式情報抽出部107と、抽出された文書書式情報110を基に入力された文書と書式が類似する文書を検索する類似構成文書検索部108と、検索された検索結果データ111を編集して表示する検索結果表示部109から構成する。
In this example, an input / output device such as a
次に、本例の各部の処理について説明する。 Next, processing of each part of this example will be described.
まず、使用者は、入出力装置を用いて検索対象とする入力文書106を入力する。入力文書は、使用者がキーボード102から入力してもよく、また、他の装置で作成された文書データを記憶媒体を介して入力したり、ネットワークを介して入力してもよい。また、文書データベース105に登録されている文書データの中から選択する方法でもよい。
First, the user inputs an
文書書式情報抽出部107では、使用者により入力された入力文書106を解析し、その文書の書式的情報、即ち、その文書が用いているテンプレート、設定されているプロパティ、文書の種類、ファイル名、ヘッダとフッタ、枠と罫線のパターン、文書レイアウト、用紙サイズ、段組の形態、ページ数などの情報を、文書に埋め込まれた情報から取り出し、文書書式情報110として保存する。文書に設定されているプロパティの情報とは、文書に付けられたタイトルやサブタイトル、文書の分類、文書の作成者、文書のサイズ、文書の作成日時、更新日時などである。文書の種類は、プロパティの情報として取得できるが、計算機で文書を扱う際に文書に付ける名称の拡張子でも判断できる。例えば、文書に付ける名称の拡張子が“txt”であれば、その文書の種類はプレーンテキストファイルと判断する。枠と罫線のパターンおよび文書レイアウトは、入力された文書に含まれる枠や罫線、画像などを解析し、それらが配置されている場所で判断する。
The document format
類似構成文書検索部108では、文書書式情報抽出部107にて抽出した文書書式情報110を基に、文書データベース105に蓄積された文書データを参照して一致する度合いを評価する。例えば、入力文書106に罫線が複数存在する場合に、文書データベース105内の文書において、罫線の存在しない文書の一致の度合いは0%、複数の罫線が存在している文書のうち、罫線の位置が一致している部分が半数あれば一致の度合いは50%、全ての部分で罫線の位置が一致していれば一致の度合いは100%となる。文書書式情報のレイアウトについては、例えば入力された文書に画像がある場合に、文書データベース105内の文書において、画像の存在しない文書の一致の度合いは0%、画像が存在している文書で、画像の位置が一致している箇所が半数あれば一致の度合いは50%、全ての位置で一致していれば一致の度合いは100%となる。このように、抽出した文書書式情報について文書データベース105に蓄積された文書と一致する度合いを評価し、少なくともひとつの書式情報について一致する文書を検索結果データ111として保存する。
The similar configuration
検索結果表示部109は、類似構成文書検索部108にて検索した文書を検索結果データ111から取り出し、表示装置101に表示する。検索結果の表示方法としては、一致する書式情報の種類の多いものから順に表示したり、書式情報毎にそれぞれの一致の度合いの高いものを表示するなどの方法があり、使用者が必要とする情報を容易に得られるように編集すればよい。
The search
図2は、本発明の他の実施の形態によるシステム構成例を示すブロック図である。本例においては、本装置の使用者が入出力操作を行うための表示装置101、キーボード102、マウス103などの入出力装置と、文書データを蓄積しておく文書データベース105は、上記第一の実施の形態にて説明した構成と同様である。文書の検索処理を実行する演算部201は、文書の書式情報を検索条件として入力する検索条件入力部202と、入力された検索条件203と合致する文書を検索する類似構成文書検索部108と、検索結果データ111を編集して表示する検索結果表示部109から構成する。
FIG. 2 is a block diagram showing a system configuration example according to another embodiment of the present invention. In this example, an input / output device such as a
本例では、検索条件入力部202により、検索条件を設定するための操作画面を表示装置101に表示し、使用者は、表示された操作画面を用いて検索条件とする書式情報を設定する。検索条件入力部202では、設定された書式情報を検索条件データ203に保存する。類似構成文書検索部108では、検索条件入力部202にて設定した検索条件データ203を基に、文書データベース105に蓄積された文書データを参照して一致する度合いを評価する。検索結果表示部109は、類似構成文書検索部108にて検索した文書を検索結果データ111から取り出し、表示装置101に表示する。なお、類似構成文書検索部108及び検索結果表示部109の処理は、上記第一の実施の形態による処理と同等である。
In this example, the search
このように、本例では、類似文書を検索するための条件として入力する文書がない場合でも、使用者が検索したい文書の書式的な特徴を検索条件として設定することで、設定された検索条件に類似する文書を検索することができる。 In this way, in this example, even if there is no document to be input as a condition for searching for similar documents, the search condition that has been set is set by setting the formal characteristics of the document that the user wants to search as the search condition. Documents similar to can be searched.
図3に文書データベース105の一例を示す。文書データベース105には、登録されている文書のインデックス301を作成し、文書データ302とともに保存しておく。類似文書の検索処理において、目的文書の検索の度に文書データベースに登録されている全文書から書式情報を抽出すると多くの時間が掛かるため、文書データベースに文書を登録する際に、予め書式情報を抽出して文書書式のインデックス301として登録しておく。インデックスとしては、登録されている文書の書式的情報のうち、その文書が用いているテンプレート、設定されているプロパティ、文書の種類、ファイル名、ヘッダとフッタ、用紙サイズ、段組の形態、ページ数等の情報を用い、これらの情報を抽出してインデックスとして表形式で保持する。このように文書データベースに書式情報のインデックスを登録いておくことで、類似構成文書検索部108では、入力文書106から抽出した文書書式情報110または検索条件として設定された検索条件データ203を基に、文書データベース105の文書書式のインデックス301を参照することにより、検索条件と一致する文書を容易に検索することができる。
FIG. 3 shows an example of the
図8は、本例の処理の流れを表すフローチャートである。図8を参照して本例の全体処理概要について説明する。まず、検索方法として、検索条件となる入力文書を入力するのか、検索条件とする書式情報を入力するのかを判定する(ステップS801)。例えば、最初に検索方法を選択するための操作画面を表示装置101に表示し、本装置の使用者がどちらの方法で検索するかを選択するように実現してもよい。検索方法として入力文書を入力する場合、使用者が入力した入力文書を解析し、文書書式情報を抽出して文書書式情報110として保存する(ステップS802)。検索方法として検索条件を入力する場合、検索条件を設定するための操作画面を表示装置101に表示し、使用者が操作画面を用いて検索条件とする書式情報を設定する。そして、設定された書式情報を取り込み、検索条件データ203に保存する(ステップS803)。次に、検索条件として入力文書から抽出した文書書式情報110または、使用者が設定した検索条件データ203を取り出し、文書データベースに登録されている文書書式のインデックス301を参照し、類似構成文書を検索し、検索結果データ111に保存する(ステップS804)。最後に、検索結果データ111から文書データを取り出し、検索結果として編集して表示装置101に表示する(ステップS805)。
FIG. 8 is a flowchart showing the processing flow of this example. With reference to FIG. 8, the outline of the overall processing of this example will be described. First, as a search method, it is determined whether to input an input document as a search condition or format information as a search condition (step S801). For example, an operation screen for selecting a search method may be displayed on the
図9は、類似構成文書検索処理の詳細を表すフローチャートである。図9を参照して類似構成文書検索部108の処理例について説明する。まず、検索方法に応じて入力文書の文書書式情報110または検索条件データ203を取り出す(ステップS901)。次に文書データベース105の文書書式のインデックス301を参照し、文書書式情報110または検索条件データ203に登録されている書式情報と一致する文書を検索し、抽出する(ステップS902)。次に、検索された結果に対して、書式情報に付加した重み値を加味して総合的な類似度を評価するために、書式情報に設定された重み値を取り出す(ステップS903)。取り出した重み値を基に類似度を算出するため、まず、検索結果から文書データを1件取り出す(ステップS904)。取り出した検索結果の文書データがあるかを判断し(ステップS905)、検索結果があれば書式情報の重み値を基に類似度を算出する(ステップS906)。取り出した検索結果がなければ、すべての検索結果に対する類似度の算出が終了したことになるため、検索した文書データと算出した類似度を組み合わせて検索結果データ111へ保存する(ステップS907)。
FIG. 9 is a flowchart showing details of the similar configuration document search process. With reference to FIG. 9, a processing example of the similar component
類似構成文書検索処理における類似度算出処理について、更に説明する。類似度算出処理は、類似構成文書検索処理にて検索した結果に対して、書式情報に付加した重み値を加味して総合的な類似度を評価するものである。図4に書式情報に付加した重み値の一例を示す。本例では、検索条件として用いる文書の書式情報の種類毎に、予め重み値を設定しておく。図4では、書式情報の種類401に対して、それぞれの重み値402を数値で表している。この重み値は、類似度算出処理に用いるデータとして予め計算機内の記憶装置などに登録しておく。また、各書式情報に重み付けを行う手段を設け、本装置の使用者が重み値を変更できるようにしてもよい。
The similarity calculation process in the similar configuration document search process will be further described. In the similarity calculation process, the total similarity is evaluated by adding the weight value added to the format information to the search result in the similar configuration document search process. FIG. 4 shows an example of the weight value added to the format information. In this example, a weight value is set in advance for each type of document format information used as a search condition. In FIG. 4, each
類似構成文書検索処理における類似度算出処理では、この書式情報の重み値を用いて、検索された文書についてそれぞれの類似度を算出する。類似度とは、文書の類似の度合いを示す変数であり、類似の度合いが高い程、値が大きくなるように設定する。類似度算出処理では、まず、各文書の類似度の初期値を、例えば0として設定する。次に、検索された文書の書式情報について、検索条件である書式情報のうち、どの項目が一致しているかを判定する。そして、一致している書式情報に設定された重み値をすべて類似度に加算していく。このように、検索結果の文書のそれぞれについて類似度を算出する。 In the similarity calculation process in the similar configuration document search process, the similarity of each searched document is calculated using the weight value of the format information. The similarity is a variable indicating the degree of similarity of documents, and is set so that the value increases as the degree of similarity increases. In the similarity calculation process, first, the initial value of the similarity of each document is set to 0, for example. Next, with respect to the format information of the retrieved document, it is determined which item of the format information that is the search condition matches. Then, all the weight values set in the matching format information are added to the similarity. In this way, the similarity is calculated for each of the search result documents.
例えば、検索条件の書式情報のうち、「使用しているテンプレート」が一致している場合には、その書式情報に設定された重み値である“10”を当該文書の類似度に加算する。同様に、「使用しているテンプレート(重み値は10)」と「設定されているプロパティ(重み値は5)」と「文書の種類(重み値は20)」の3種類の書式情報が一致している場合は、対応する重み値を全て加算し、類似度は35ポイントとなる。また、「ファイル名(重み値は10)」と「ヘッダとフッタ(重み値は5)」、「枠と罫線のパターン(重み値は5)」、「用紙サイズ(重み値は10)」の4種類の書式情報が一致している文書の場合は、対応する重み値を全て加算し、類似度は30ポイントとなる。これらの例の場合、特に「文書の種類」に対する重み値が相対的に高いので、3種類の書式情報と一致している前者の方が、4種類の書式情報と一致している後者よりも類似度が大きくなる。 For example, if the “used template” in the format information of the search condition matches, “10” that is the weight value set in the format information is added to the similarity of the document. Similarly, there are three types of format information: “used template (weight value is 10)”, “set property (weight value is 5)”, and “document type (weight value is 20)”. If so, all the corresponding weight values are added and the similarity is 35 points. Also, “file name (weight value is 10)”, “header and footer (weight value is 5)”, “frame and ruled line pattern (weight value is 5)”, and “paper size (weight value is 10)”. In the case of a document in which the four types of format information match, all corresponding weight values are added, and the similarity is 30 points. In these examples, since the weight value for “document type” is relatively high, the former that matches three types of format information is more than the latter that matches four types of format information. Similarity increases.
このように、類似構成文書検索部108において、文書データベースから書式情報を基に類似文書を検索し、その検索結果を類似度とともに検索結果データ111に保存する。検索結果表示部109では、検索結果データ111を参照し、類似度を基に検索結果の表示画面を編集することができるため、類似度の高い文書をより上位に表示させることができる。これにより、単に一致している書式情報の個数だけではなく、検索条件に優先度を付けることができ、探したい文書を容易に得ることが可能となる。
As described above, the similar
図5は、検索条件入力部202における、検索条件を設定するための操作画面の一例である。検索方法として検索条件を入力する方法を選択した場合、検索条件入力部202では、検索条件を設定するための操作画面を表示装置101に表示し、使用者は、表示された操作画面を用いて検索条件とする書式情報を設定する。ここでは、図5を参照して検索条件入力部202の処理について説明する。
FIG. 5 is an example of an operation screen for setting search conditions in the search
図5の操作画面は、検索する書式の選択、除外を設定する書式条件選択部501と、選択した書式条件に関するキーワードを指定する検索キーワード指定部502から構成する。書式条件選択部501は、各書式名の横にあるスイッチをマウスなどの入力装置で押下することにより選択/除外を切替ることができ、その書式情報を検索対象として選択するか、検索対象から除外するかを指定する。検索キーワード指定部502は、書式条件選択部501で選択した書式について、目的の文書を検索するための、書式の内容をキーボードなどから入力する。例えば、書式条件として「使用テンプレート」を選択した場合は、検索キーワードとして使用しているテンプレート名「スタイル.dot」を入力する。また、「文書の種類」を選択した場合は、検索キーワードとして「PowerPoint」と入力する。検索条件入力部202は、本操作画面によって選択された書式条件と検索キーワードを検索条件データ203に保存し、類似構成文書検索部108では、検索条件データ203を参照して、選択された書式条件についてのみ、文書データベース105の検索対象文書について一致の有無を調べる。
The operation screen of FIG. 5 includes a format
文書の検索においては、過去に自分で作成あるいは閲覧した文書のスタイルが記憶にあり、それに基づいて検索条件を対話的に入力して検索したいことがあるが、本例では、検索条件となる書式の条件を検索キーワードとして入力することにより、記憶にある文書スタイルによる検索が可能となる。 When searching for a document, you may want to search by entering the search conditions interactively based on the styles of documents that you have created or viewed in the past. In this example, the search condition format By inputting the above condition as a search keyword, it becomes possible to perform a search using a document style stored in memory.
また、検索方法として検索条件となる入力文書を入力する方法を選択した場合においても、入力文書から抽出した書式情報をそのまま検索条件として用いるだけでなく、抽出した書式情報に対して検索条件を選択/除外したり、書式情報の内容を追加、修正したい場合がある。本例では、入力文書から抽出した書式情報を基に、検索条件を設定するための処理を行う検索条件設定部を設けることにより、検索条件を任意に設定できるようにすることができる。 In addition, even when a method for inputting an input document serving as a search condition is selected as a search method, not only the format information extracted from the input document is used as it is but also the search condition is selected for the extracted format information. / You may want to exclude or add / modify the format information. In this example, it is possible to arbitrarily set the search condition by providing a search condition setting unit that performs processing for setting the search condition based on the format information extracted from the input document.
図7に検索条件設定部を設けた場合の構成例を示す。本例においては、本装置の使用者が入出力操作を行うための表示装置101、キーボード102、マウス103などの入出力装置と、文書データを蓄積しておく文書データベース105は、既に説明した実施の形態によるものと同様である。文書の検索処理を実行する演算部701は、本装置の使用者が検索対象として入力した入力文書106の書式情報を抽出し、文書書式情報110として保存する文書書式情報抽出部107と、文書書式情報110を基に検索条件を設定し、検索条件データ203として保存する検索条件設定部702と、設定された検索条件203と合致する文書を文書データベース105から検索し、検索結果データ111へ保存する類似構成文書検索部108と、検索結果111を編集して表示する検索結果表示部109から構成する。本構成のうち、文書書式情報抽出部107と、類似構成文書検索部108と、検索結果表示部109は、既に説明した実施の形態によるものと同様である。
FIG. 7 shows a configuration example when a search condition setting unit is provided. In this example, an input / output device such as a
図6は、検索条件設定部702において、入力文書から抽出した書式情報を基に検索条件を設定するための操作画面の一例である。図6を参照して検索条件設定部702における検索条件の設定処理について説明する。
FIG. 6 is an example of an operation screen for setting the search condition based on the format information extracted from the input document in the search
検索方法として検索条件となる入力文書を入力する方法を選択した場合、文書書式情報抽出部107では入力文書から書式情報を抽出するが、そのまま検索条件として用いるのではなく、検索条件設定部702により、抽出した書式情報を用いて検索条件を設定する。検索条件設定部702は、図6に示すような検索条件を設定するための操作画面を表示する。図6の操作画面は、検索する書式の選択、除外を設定する書式条件選択部601と、入力文書から抽出した書式情報を表示する書式情報表示部602と、書式条件に関するキーワードを指定する検索キーワード指定部603から構成する。文書書式情報抽出部107で抽出した入力文書の書式情報は、入力文書の書式情報表示部602へ表示する。本装置の使用者は、表示された書式情報を参照し、その書式を検索対象として選択するか、検索対象から除外するかを書式条件選択部601を用いて指定する。選択/除外の指定方法は、上記図5の書式条件選択部501と同様である。例えば、文書が使用しているテンプレートを検索対象にしないときは、「使用テンプレート」の横にあるスイッチを除外状態(図中の選択スイッチを白色)にして、その他の書式情報の「プロパティ」、「文書の種類」、「ファイル名」、「ヘッダ」などのスイッチは選択状態(図中の選択スイッチを黒色)にする。
When a method for inputting an input document serving as a search condition is selected as a search method, the document format
また、使用者が抽出された書式情報とは異なる条件で検索したい場合は、検索キーワード指定部603に検索したいキーワードを指定する。検索キーワードを指定した場合、入力文書から抽出した書式情報を使わない代わりに、ここで指定した書式の内容を検索条件として用いる。例えば、入力文書から抽出されたプロパティの情報のうち、文書の作成者が“XXX”であるときに、実際に検索したい文書の作成者が“YYY”のときには、プロパティの欄の検索キーワードの部分に“YYY”を入力する。また、入力文書からヘッダの情報が抽出されなかった場合に、実際に検索したい文書のヘッダが“特許”のときには、ヘッダの欄の検索キーワードの部分に“特許”を入力する。このように、検索キーワード指定部603にキーワードの指定がある場合は、当該検索条件に関してはキーワードに指定した内容で、その他の検索条件に関しては入力文書と同じ内容で検索することができる。
If the user wants to search under conditions different from the format information extracted, the keyword to be searched is specified in the search
検索条件設定部702は、本操作画面によって設定された書式条件と検索キーワードを検索条件データ203として保存し、類似構成文書検索部108では、文書書式情報抽出部107で抽出した書式情報ではなく、使用者が設定した検索条件データ203を参照して、文書データベース105の文書について一致の有無を調べる。
The search
このように、検索条件設定部702を設けることにより、入力文書から抽出した書式情報をそのまま検索条件として用いるだけでなく、抽出した書式情報に対して検索条件を任意に変更することができるため、特定の文書のスタイルを参考にしながら、使用者の記憶にある文書スタイルによる検索が可能となる。また、検索条件の設定において、入力文書から抽出した書式条件を事前に確認した上で、変更することなく検索することもできるため、入力文書による検索においても、使用者にとってはより確実に検索作業を行うことができる。
Thus, by providing the search
次に、本発明の更に他の実施の形態について説明する。図10は、入力された文書の書式情報をカテゴリとしてデータベースに文書を登録し、それを検索するように構成した例である。本例は、文書登録を行う演算部10と、文書検索を行う演算部20と、文書データベース30から構成する。文書登録演算部10は、データベースへ登録する文書の書式情報を抽出する文書書式情報抽出部107と、抽出された書式情報を基に文書を分類してデータベースへ登録する文書登録部11から構成する。文書検索演算部20は、検索対象の文書カテゴリを指定する文書カテゴリ入力部21と、検索条件とする入力文書の書式情報を抽出する文書書式情報抽出部107と、指定されたカテゴリの文書を対象に書式が類似する文書を検索する類似構成文書検索部22と、検索結果を編集して表示する検索結果表示部109から構成する。図10では、本装置の使用者が入出力操作を行うための表示装置、キーボード、マウスなどの入出力装置は図示しないが、他の実施の形態と同様に構成してある。また、本例において、文書書式情報抽出部107と検索結果表示部109の処理は、既に説明した実施の形態によるものと同様である。
Next, still another embodiment of the present invention will be described. FIG. 10 shows an example in which a document is registered in the database with the format information of the input document as a category and is searched. This example includes a
まず、文書登録演算部10の処理について説明する。文書データベースへ新たに文書を登録する場合には、まず、登録する文書40を入力する。登録する文書40は、使用者がキーボードから入力してもよく、また、他の装置で作成された文書データを記憶媒体を介して入力したり、ネットワークを介して入力してもよい。次に、文書書式情報抽出部107により、入力された登録文書40の書式情報を文書データベース30へ登録すめためのカテゴリとして抽出する。カテゴリとして使用できる書式情報は、文書が用いているテンプレート、設定されているプロパティ、文書の種類、ファイル名、ヘッダとフッタ、用紙サイズ、段組の形態、ページ数などである。ここでは、文書のプロパティを例にして説明する。文書に設定されているプロパティの情報とは、文書に付けられたタイトルやサブタイトル、文書の分類、文書の作成者、文書のサイズ、文書の作成日時、更新日時などである。文書書式情報抽出部107では、入力された登録文書40に設定されているプロパティを抽出する。ここでは、プロパティにおける文書の分類(文書を保存する際に作成者が入力した文書の分類)を例に説明する。プロパティにおける文書の分類として、例えば、「報告書」、「技術資料」、「XX依頼書」などのような分類があったとする。文書書式情報抽出部107では、登録文書40から文書分類を抽出し、文書登録部11は、当該文書から抽出した分類を基に、「報告書」、「技術資料」、「XX依頼書」などのいずれかに分類分けをして登録文書40をデータベースに登録する。例えば、登録文書40の文書の分類が「報告書」だった場合、文書登録部11では、登録文書40を文書データベースの「報告書」のカテゴリに登録する。これにより、使用者が文書分類を意識してフォルダに振り分けるといった対話的な操作が不要になる。
First, the processing of the document
次に、このようにカテゴリに分類して登録した文書データベースから文書を検索する際には、文書検索演算部20の文書カテゴリ入力部21にて、まず使用者が文書カテゴリを入力する。次に、検索条件を設定する。ここでは、検索方法として検索条件とする入力文書を入力する場合を例に説明するが、他の検索条件の設定方法でもよい。検索条件として入力文書を入力した場合、文書書式情報抽出部107により入力文書の書式情報を抽出する。そして、抽出された書式情報をもとに、類似構成文書検索部22により文書データベース30から類似の文書を検索する。ここで、類似構成文書検索部22では、まず、カテゴリ入力部21にて入力されたカテゴリを基に文書データベース30の検索対象を絞り込む。そして、絞り込んだ範囲の文書を対象に類似文書を検索し、検索結果を検索結果表示部109が編集し、表示する。例えば、使用者が検索したい文書カテゴリとして、プロパティにおける文書の分類「技術資料」を指定した場合、類似構成文書検索部22では、文書データベース30の「技術資料」のカテゴリに登録されている文書データを対象に類似構成文書を検索する。
Next, when a document is searched from the document database classified and registered in this way, the user first inputs the document category at the document
このように文書の書式情報をカテゴリとしてデータベースに文書を登録することにより、目的とする文書の検索を迅速に行うことができる。また、カテゴリを用いて検索対象を絞り込むことにより、検索結果に不要な文書が含まれることを防ぎ、文書の検索精度を向上させることができるため、結果的に使用者が文書を探す時間を短縮するとともに、検索の労力を軽減することができる。 In this way, by registering a document in the database with the format information of the document as a category, the target document can be searched quickly. In addition, by narrowing down the search target using categories, it is possible to prevent unnecessary documents from being included in the search results and improve the document search accuracy, resulting in shortening the time for users to search for documents. In addition, the search effort can be reduced.
101…表示装置、102…キーボード、103…マウス、104…演算部、105…文書データベース、106…入力文書、107…文書書式情報抽出部、108…類似構成文書検索部、109…検索結果表示部、110…文書書式情報、111…検索結果データ、201…演算部、202…検索条件入力部、203…検索条件データ、301…文書書式のインデックス、302…文書データ、401…書式情報の種類、402…重み値、701…演算部、702…検索条件設定部、10…文書登録演算部、20…文書検索演算部、30…文書データベース、40…登録文書、11…文書登録部、21…文書カテゴリ入力部、22…類似構成文書検索部
DESCRIPTION OF
Claims (10)
前記演算部が、文書の書式情報を抽出する文書書式情報抽出部と、
文書書式情報抽出部により抽出された書式情報と類似する文書を、記憶装置に蓄積した文書データベースから検索する類似構成文書検索部と、
検索結果を入出力装置へ出力する検索結果表示部とを備える文書検索装置。 In a document search apparatus using a computer including an input / output device, a calculation unit that performs processing, and a storage device that stores data,
A document format information extraction unit for extracting the format information of the document;
A similar configuration document search unit that searches a document database stored in a storage device for documents similar to the format information extracted by the document format information extraction unit;
A document search device comprising a search result display unit for outputting a search result to an input / output device.
前記演算部が、検索条件として文書の書式情報を入力する検索条件入力部と、
検索条件入力部により入力された書式情報と類似する文書を、記憶装置に蓄積した文書データベースから検索する類似構成文書検索部と、
検索結果を入出力装置へ出力する検索結果表示部とを備える文書検索装置。 In a document search apparatus using a computer including an input / output device, a calculation unit that performs processing, and a storage device that stores data,
A search condition input unit for inputting document format information as a search condition;
A similar document search unit that searches a document database stored in the storage device for documents similar to the format information input by the search condition input unit;
A document search device comprising a search result display unit for outputting a search result to an input / output device.
書式情報に重み値を付加する手段と、
文書書式情報抽出部により抽出された書式情報と文書データベースに格納されている文書の書式情報が一致した場合に、当該書式情報に付加されている重み値を文書の類似度に加算することで文書の類似度を算出する手段を設け、
類似度の大きさに応じて検索結果を表示する、文書検索装置。 The document search apparatus according to claim 1, wherein
Means for adding weight values to the format information;
When the format information extracted by the document format information extraction unit and the format information of the document stored in the document database match, the weight value added to the format information is added to the similarity of the document. Means for calculating the similarity of
A document search apparatus that displays search results according to the degree of similarity.
書式情報に重み値を付加する手段と、
検索条件入力部により入力された書式情報と文書データベースに格納されている文書の書式情報が一致した場合に、当該書式情報に付加されている重み値を文書の類似度に加算することで文書の類似度を算出する手段を設け、
類似度の大きさに応じて検索結果を表示する、文書検索装置。 The document search device according to claim 2, wherein
Means for adding weight values to the format information;
When the format information input by the search condition input unit matches the format information of the document stored in the document database, the weight value added to the format information is added to the similarity of the document to Provide a means to calculate the similarity,
A document search apparatus that displays search results according to the degree of similarity.
文書書式情報抽出部により抽出された書式情報を基に、検索する書式の選択、除外を設定する手段と、
抽出された書式情報の内容を変更し、検索する書式条件に関するキーワードを指定する手段とを設け、
検索条件を任意に設定できるように構成した、文書検索装置。 The document search apparatus according to claim 1, wherein
Based on the format information extracted by the document format information extraction unit, means for selecting and excluding the format to be searched,
A means for changing the contents of the extracted format information and specifying a keyword related to the format condition to be searched;
A document search device configured so that search conditions can be arbitrarily set.
文書を文書データベースに登録する際に、文書の書式情報を抽出し、抽出した書式情報をカテゴリとして文書データベースへ分類して登録する文書登録処理部を設け、
文書検索においては、検索対象の文書カテゴリを指定する手段を設け、文書データベースの検索範囲を絞り込むことを特徴とする、文書検索装置。 The document search device according to any one of claims 1 to 5,
When registering a document in the document database, a document registration processing unit is provided for extracting the format information of the document, classifying the extracted format information into a document database as a category, and registering it.
In document search, a document search apparatus characterized by providing means for specifying a document category to be searched and narrowing down a search range of a document database.
入力された文書を解析し、文書の書式情報を抽出する文書書式情報抽出処理と、
抽出された書式情報を基に文書データベースを参照して、抽出された書式情報と一致する書式情報を持つ文書を検索する類似構成文書検索処理と、
検索した文書を編集して出力する検索結果表示処理とを備える文書検索方法。 In a document search method for searching a document from a document database based on a document input by a user,
A document format information extraction process for analyzing the input document and extracting the format information of the document;
Similar document search processing for searching a document having format information that matches the extracted format information with reference to the document database based on the extracted format information;
A document search method comprising: a search result display process for editing and outputting a searched document.
使用者が文書の書式情報を検索条件として設定するための検索条件入力処理と、
入力された書式情報を基に文書データベースを参照して、入力された書式情報と一致する書式情報を持つ文書を検索する類似構成文書検索処理と、
検索した文書を編集して出力する検索結果表示処理とを備える文書検索方法。 In a document retrieval method for retrieving a document from a document database,
Search condition input processing for the user to set document format information as a search condition;
Similar document search processing for searching a document having format information that matches the input format information with reference to the document database based on the input format information;
A document search method comprising: a search result display process for editing and outputting a searched document.
書式情報に重み値を付加する処理を設け、
類似構成文書検索処理によって検索された文書について、文書書式情報抽出処理により抽出された書式情報と文書データベースに格納されている文書の書式情報が一致した場合に、当該書式情報に付加されている重み値を文書の類似度に加算することで類似度を算出する処理を設け、
類似度の大きさに応じて検索結果を表示する、文書検索方法。 The document search method according to claim 7, wherein
Provide a process to add weight values to the format information,
For the document searched by the similar document search process, when the format information extracted by the document format information extraction process matches the format information of the document stored in the document database, the weight added to the format information Provide a process to calculate the similarity by adding the value to the similarity of the document,
A document search method that displays search results according to the degree of similarity.
書式情報に重み値を付加する処理を設け、
類似構成文書検索処理によって検索された文書について、検索条件入力処理により入力された書式情報と文書データベースに格納されている文書の書式情報が一致した場合に、当該書式情報に付加されている重み値を文書の類似度に加算することで類似度を算出する処理を設け、
類似度の大きさに応じて検索結果を表示する、文書検索方法。 The document search method according to claim 8.
Provide a process to add weight values to the format information,
For documents searched by similar-structured document search processing, if the format information input by the search condition input processing matches the format information of the document stored in the document database, the weight value added to the format information To calculate the similarity by adding to the similarity of the document,
A document search method that displays search results according to the degree of similarity.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006104476A JP2007279978A (en) | 2006-04-05 | 2006-04-05 | Document retrieval device and document retrieval method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006104476A JP2007279978A (en) | 2006-04-05 | 2006-04-05 | Document retrieval device and document retrieval method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007279978A true JP2007279978A (en) | 2007-10-25 |
Family
ID=38681373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006104476A Pending JP2007279978A (en) | 2006-04-05 | 2006-04-05 | Document retrieval device and document retrieval method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007279978A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009282937A (en) * | 2008-05-26 | 2009-12-03 | Nippon Telegr & Teleph Corp <Ntt> | Automatic information organization presentation device and automatic information organization presentation processing program |
JP2010231271A (en) * | 2009-03-25 | 2010-10-14 | Toshiba Corp | Content retrieval device, content retrieval method and content retrieval program |
JP2011022630A (en) * | 2009-07-13 | 2011-02-03 | Fuji Xerox Co Ltd | Information processor and information processing program |
JP2017091000A (en) * | 2015-11-04 | 2017-05-25 | 株式会社東芝 | Document processing apparatus, method, and program |
CN115617957A (en) * | 2022-12-19 | 2023-01-17 | 铭台(北京)科技有限公司 | Intelligent document retrieval method based on big data |
US12072935B2 (en) | 2021-09-08 | 2024-08-27 | Microsoft Technology Licensing, Llc | Machine-learning of document portion layout |
-
2006
- 2006-04-05 JP JP2006104476A patent/JP2007279978A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009282937A (en) * | 2008-05-26 | 2009-12-03 | Nippon Telegr & Teleph Corp <Ntt> | Automatic information organization presentation device and automatic information organization presentation processing program |
JP2010231271A (en) * | 2009-03-25 | 2010-10-14 | Toshiba Corp | Content retrieval device, content retrieval method and content retrieval program |
JP2011022630A (en) * | 2009-07-13 | 2011-02-03 | Fuji Xerox Co Ltd | Information processor and information processing program |
JP2017091000A (en) * | 2015-11-04 | 2017-05-25 | 株式会社東芝 | Document processing apparatus, method, and program |
US12072935B2 (en) | 2021-09-08 | 2024-08-27 | Microsoft Technology Licensing, Llc | Machine-learning of document portion layout |
CN115617957A (en) * | 2022-12-19 | 2023-01-17 | 铭台(北京)科技有限公司 | Intelligent document retrieval method based on big data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20150026159A1 (en) | Digital Resource Set Integration Methods, Interfaces and Outputs | |
US7853595B2 (en) | Method and apparatus for creating a tool for generating an index for a document | |
JP7171100B1 (en) | A patent document creation support device, a patent document creation support method, and a patent document creation support program. | |
Praczyk et al. | Automatic extraction of figures from scientific publications in high-energy physics | |
JP2011248596A (en) | Searching system and searching method for picture-containing documents | |
JP2020113129A (en) | Document evaluation device, document evaluation method, and program | |
JP2007279978A (en) | Document retrieval device and document retrieval method | |
JP2011076396A (en) | Metadata setting method, metadata setting system and program | |
JP4787955B2 (en) | Method, system, and program for extracting keywords from target document | |
JP2006072744A (en) | Document processor, control method therefor, program and storage medium | |
JP4959603B2 (en) | Program, apparatus and method for analyzing document | |
JP5056133B2 (en) | Information extraction system, information extraction method, and information extraction program | |
JP4904920B2 (en) | Template document creation program, template document creation method, and template document creation device | |
JP6529698B2 (en) | Data analyzer and data analysis method | |
JP2004348771A (en) | Technical document retrieval device | |
JP2010272075A (en) | Emotional information extraction device, emotion retrieval device, method thereof, and program | |
CN111694930A (en) | Dynamic knowledge hotspot evolution and trend analysis method | |
JP5311488B2 (en) | KANSEI information extraction device, KANSEI search device, method and program thereof | |
JP2014102625A (en) | Information retrieval system, program, and method | |
JP2005107931A (en) | Image search apparatus | |
JP5326781B2 (en) | Extraction rule creation system, extraction rule creation method, and extraction rule creation program | |
JP2009134378A (en) | Document group presentation device and document group presentation program | |
KR101667918B1 (en) | Methodand device of providing query-adaptive smart search service | |
JP2019061522A (en) | Document recommendation system, document recommendation method and document recommendation program | |
JP4813312B2 (en) | Electronic document search method, electronic document search apparatus and program |