Nothing Special   »   [go: up one dir, main page]

JP2007279978A - Document retrieval device and document retrieval method - Google Patents

Document retrieval device and document retrieval method Download PDF

Info

Publication number
JP2007279978A
JP2007279978A JP2006104476A JP2006104476A JP2007279978A JP 2007279978 A JP2007279978 A JP 2007279978A JP 2006104476 A JP2006104476 A JP 2006104476A JP 2006104476 A JP2006104476 A JP 2006104476A JP 2007279978 A JP2007279978 A JP 2007279978A
Authority
JP
Japan
Prior art keywords
document
search
format information
input
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006104476A
Other languages
Japanese (ja)
Inventor
Takashi Yokohari
孝志 横張
Ichiro Nishigaki
一朗 西垣
Yoshimitsu Ko
喜充 廣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2006104476A priority Critical patent/JP2007279978A/en
Publication of JP2007279978A publication Critical patent/JP2007279978A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To retrieve documents having similar formats by checking the matching of the format information of the documents and evaluating similarity. <P>SOLUTION: The document retrieval device comprises an input/output device, a document database 105 for storing the documents, a document format information extraction part 107 for extracting the format information of the documents, a similarly configured document retrieval part 108 for retrieving the documents similar to the format of the document desired to be retrieved or a retrieval condition specified by a user, and a retrieved result display part 109 for outputting retrieved results to the input/output device. A means for calculating a similarity degree indicating the degree of the similarity of the document on the basis of a weight value attached to each format information is provided and the retrieved result is displayed by the level of the similarity degree. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、計算機を用いて文書類を検索する文書検索装置及び文書検索方法に関する。   The present invention relates to a document search apparatus and a document search method for searching for documents using a computer.

計算機を用いた文書類の検索方式として、検索条件として入力された文書またはキーワード等を基に、検索対象である文書群に対して構文解析、語句の頻出度などを使って類似度を求めて検索する方法がある。従来の検索方式では、検索条件や検索対象文書から抽出したキーワードに出現頻度などを基に算出した重みを付与し、その重みから類似度を定量化し、類似度の高い文書を検索結果として出力する。   As a document search method using a computer, based on the documents or keywords entered as search conditions, the similarity of the search target document group is determined using syntax analysis, phrase frequency, etc. There is a way to search. In the conventional search method, a weight calculated based on the appearance frequency or the like is assigned to a keyword extracted from a search condition or a search target document, the similarity is quantified from the weight, and a document having a high similarity is output as a search result. .

特許文献1には、尺度表現語に着目してキーワードの抽出及びキーワードの重み付与を行う類義文書検索方法の例についての開示がある。   Patent Document 1 discloses an example of a similar document search method that performs keyword extraction and keyword weighting by paying attention to a scale expression word.

特開2005−301855号公報JP 2005-301855 A

文書検索時において、文書の意味的な情報は重要な要素であるが、過去に作成または閲覧した文書のスタイルが記憶にあり、それに基づいて検索したい場合がある。例えば、過去に他人が作成した報告書の書式を雛形にして新規に文書を作成する場合、過去の報告書の内容には依存せず、文書のスタイルによって検索を行いたいという場合である。ところが、従来の検索方式では、文書の内容を解釈して意味的に類似性を評価しようとするものであるため、文書の書式的情報を基に類似文書を検索することはできない。一方、CADデータ等に関しては、検索対象を「形」として認識し、幾何学的な形状特徴データに基づいて類似度を算出する検索方法などがあるが、文書の検索には適用できない。   At the time of document retrieval, the semantic information of the document is an important element, but there is a case where the style of the document created or browsed in the past is stored in the memory, and it is desired to search based on it. For example, when a new document is created using a report format created by another person in the past as a model, it is desired to perform a search according to the document style without depending on the contents of the past report. However, in the conventional search method, the content of the document is interpreted and the similarity is evaluated semantically. Therefore, it is not possible to search for a similar document based on the format information of the document. On the other hand, for CAD data and the like, there is a search method for recognizing a search target as “shape” and calculating similarity based on geometric shape feature data, but it is not applicable to document search.

本発明はかかる点に鑑みてなされたものであり、文書の書式的な情報、即ち、その文書が用いているテンプレート、設定されているプロパティ、文書の種類、ファイル名、ヘッダとフッタ、枠と罫線のパターン、用紙サイズ、段組の形態、レイアウト、ページ数の情報などの一致、不一致を検査して類似性を評価し、書式が類似する文書を検索できるようにすることを目的とする。   The present invention has been made in view of such a point, and format information of a document, that is, a template used by the document, a set property, a document type, a file name, a header and a footer, a frame, and the like. An object of the present invention is to search for documents having similar formats by inspecting matching and mismatching of ruled line patterns, paper sizes, columnar forms, layouts, page number information, and the like to evaluate similarities.

本発明は、計算機を用いた文書類の検索装置において、ディスプレイ、キーボード、マウスなどの入出力装置と、文書を蓄積しておくデータベースと、文書の書式情報を抽出する文書書式情報抽出部と、検索したい文書または使用者が指定した検索条件の書式と類似する文書をデータベースから検索する類似構成文書検索部と、検索結果を入出力装置へ出力する検索結果表示部とを備えるようにした。更に、各書式情報に重み付けを行う手段と、文書の類似の度合いを示す類似度を算出する手段を設け、類似度の大きさの順に検索結果を表示するようにした。   The present invention relates to a document search apparatus using a computer, an input / output device such as a display, a keyboard, and a mouse, a database that stores documents, a document format information extraction unit that extracts document format information, A similar-structured document search unit that searches the database for a document to be searched or a document similar to the search condition format specified by the user, and a search result display unit that outputs the search result to the input / output device are provided. Furthermore, a means for weighting each format information and a means for calculating a similarity indicating the degree of similarity between documents are provided, and the search results are displayed in order of the degree of similarity.

このように構成することにより、入力された文書と類似の文書を検索する際に、入力された文書の書式的情報、即ち、その文書が用いているテンプレート、設定されているプロパティ、文書の種類、ファイル名、ヘッダとフッタ、枠と罫線のパターン、用紙サイズ、段組の形態、レイアウト、ページ数の情報などを入力された文書から抽出し、文書類のデータベースから、入力された文書と書式が類似の文書、即ち、複数の書式的情報の中の幾つかの書式情報が一致している文書を検索することが可能になる。   With this configuration, when searching for a document similar to the input document, the format information of the input document, that is, the template used by the document, the set property, and the document type , File name, header and footer, frame and ruled line pattern, paper size, columnar form, layout, page number information, etc. are extracted from the input document, and the input document and format from the document database It is possible to search for documents that are similar to each other, that is, documents in which some format information among a plurality of format information matches.

本発明によると、文書の書式的情報を基に類似文書を検索することが可能になるため、過去に作成した文書の参照、再利用などのために、書式的に類似した文書を探し出すことができる。   According to the present invention, it is possible to search for similar documents based on the format information of the documents. Therefore, it is possible to search for documents that are similar in form in order to refer to or reuse documents created in the past. it can.

以下、本発明の一実施の形態を、添付図面を参照して説明する。本例においては、例えば電子計算機に該当する処理を行うプログラムを実装し、その電子計算機が備える演算処理機能や記憶機能などを利用して実現したものである。   Hereinafter, an embodiment of the present invention will be described with reference to the accompanying drawings. In this example, for example, a program for performing processing corresponding to an electronic computer is installed and realized by using an arithmetic processing function, a storage function, and the like included in the electronic computer.

図1は、本例を電子計算機により実現した場合のシステム構成例を示すブロック図である。図1を参照して本例の一実施の形態による全体構成について説明する。   FIG. 1 is a block diagram showing a system configuration example when this example is realized by an electronic computer. An overall configuration according to an embodiment of the present example will be described with reference to FIG.

本例は、本装置の使用者が入出力操作を行うための表示装置101、キーボード102、マウス103などの入出力装置と、文書の検索処理を実行する演算部104と、文書データを蓄積しておく文書データベース105から構成する。演算部104には、本装置の使用者が検索対象として入力した入力文書106の書式情報を抽出する文書書式情報抽出部107と、抽出された文書書式情報110を基に入力された文書と書式が類似する文書を検索する類似構成文書検索部108と、検索された検索結果データ111を編集して表示する検索結果表示部109から構成する。   In this example, an input / output device such as a display device 101, a keyboard 102, and a mouse 103 for a user of the device to perform input / output operations, a calculation unit 104 that executes document search processing, and document data are stored. The document database 105 is stored. The calculation unit 104 includes a document format information extraction unit 107 that extracts format information of the input document 106 input by the user of the apparatus as a search target, and a document and format input based on the extracted document format information 110. A similar-structured document search unit 108 that searches for similar documents, and a search result display unit 109 that edits and displays the searched search result data 111.

次に、本例の各部の処理について説明する。   Next, processing of each part of this example will be described.

まず、使用者は、入出力装置を用いて検索対象とする入力文書106を入力する。入力文書は、使用者がキーボード102から入力してもよく、また、他の装置で作成された文書データを記憶媒体を介して入力したり、ネットワークを介して入力してもよい。また、文書データベース105に登録されている文書データの中から選択する方法でもよい。   First, the user inputs an input document 106 to be searched using an input / output device. The input document may be input by the user from the keyboard 102, or document data created by another device may be input via a storage medium or may be input via a network. Alternatively, a method of selecting from document data registered in the document database 105 may be used.

文書書式情報抽出部107では、使用者により入力された入力文書106を解析し、その文書の書式的情報、即ち、その文書が用いているテンプレート、設定されているプロパティ、文書の種類、ファイル名、ヘッダとフッタ、枠と罫線のパターン、文書レイアウト、用紙サイズ、段組の形態、ページ数などの情報を、文書に埋め込まれた情報から取り出し、文書書式情報110として保存する。文書に設定されているプロパティの情報とは、文書に付けられたタイトルやサブタイトル、文書の分類、文書の作成者、文書のサイズ、文書の作成日時、更新日時などである。文書の種類は、プロパティの情報として取得できるが、計算機で文書を扱う際に文書に付ける名称の拡張子でも判断できる。例えば、文書に付ける名称の拡張子が“txt”であれば、その文書の種類はプレーンテキストファイルと判断する。枠と罫線のパターンおよび文書レイアウトは、入力された文書に含まれる枠や罫線、画像などを解析し、それらが配置されている場所で判断する。   The document format information extraction unit 107 analyzes the input document 106 input by the user, and format information of the document, that is, a template used by the document, set properties, document type, and file name. Information such as header and footer, frame and ruled line pattern, document layout, paper size, columnar form, and number of pages is extracted from the information embedded in the document and stored as document format information 110. The property information set in the document includes the title and subtitle attached to the document, the document classification, the document creator, the document size, the document creation date and the update date, and the like. The document type can be acquired as property information, but can also be determined by the extension of the name given to the document when the computer handles the document. For example, if the extension of the name given to the document is “txt”, it is determined that the type of the document is a plain text file. The frame and ruled line pattern and the document layout are determined by analyzing the frame, ruled line, image, and the like included in the input document.

類似構成文書検索部108では、文書書式情報抽出部107にて抽出した文書書式情報110を基に、文書データベース105に蓄積された文書データを参照して一致する度合いを評価する。例えば、入力文書106に罫線が複数存在する場合に、文書データベース105内の文書において、罫線の存在しない文書の一致の度合いは0%、複数の罫線が存在している文書のうち、罫線の位置が一致している部分が半数あれば一致の度合いは50%、全ての部分で罫線の位置が一致していれば一致の度合いは100%となる。文書書式情報のレイアウトについては、例えば入力された文書に画像がある場合に、文書データベース105内の文書において、画像の存在しない文書の一致の度合いは0%、画像が存在している文書で、画像の位置が一致している箇所が半数あれば一致の度合いは50%、全ての位置で一致していれば一致の度合いは100%となる。このように、抽出した文書書式情報について文書データベース105に蓄積された文書と一致する度合いを評価し、少なくともひとつの書式情報について一致する文書を検索結果データ111として保存する。   The similar configuration document search unit 108 evaluates the degree of matching by referring to the document data stored in the document database 105 based on the document format information 110 extracted by the document format information extraction unit 107. For example, when there are a plurality of ruled lines in the input document 106, the degree of matching of the documents in the document database 105 where the ruled lines do not exist is 0%. If half of the parts match, the degree of matching is 50%, and if the positions of the ruled lines match in all parts, the degree of matching is 100%. With regard to the layout of the document format information, for example, when an input document has an image, the document in the document database 105 has a matching degree of a document having no image of 0%, and a document having an image. The degree of matching is 50% if the number of locations where the positions of the images match is 50%, and the degree of matching is 100% if they match at all positions. In this way, the degree to which the extracted document format information matches the document stored in the document database 105 is evaluated, and a document that matches at least one format information is stored as the search result data 111.

検索結果表示部109は、類似構成文書検索部108にて検索した文書を検索結果データ111から取り出し、表示装置101に表示する。検索結果の表示方法としては、一致する書式情報の種類の多いものから順に表示したり、書式情報毎にそれぞれの一致の度合いの高いものを表示するなどの方法があり、使用者が必要とする情報を容易に得られるように編集すればよい。   The search result display unit 109 extracts the document searched by the similar configuration document search unit 108 from the search result data 111 and displays it on the display device 101. There are methods for displaying search results, such as displaying in order from the most common types of format information, or displaying the format with the highest degree of match for each format information, which is required by the user. What is necessary is just to edit so that information can be obtained easily.

図2は、本発明の他の実施の形態によるシステム構成例を示すブロック図である。本例においては、本装置の使用者が入出力操作を行うための表示装置101、キーボード102、マウス103などの入出力装置と、文書データを蓄積しておく文書データベース105は、上記第一の実施の形態にて説明した構成と同様である。文書の検索処理を実行する演算部201は、文書の書式情報を検索条件として入力する検索条件入力部202と、入力された検索条件203と合致する文書を検索する類似構成文書検索部108と、検索結果データ111を編集して表示する検索結果表示部109から構成する。   FIG. 2 is a block diagram showing a system configuration example according to another embodiment of the present invention. In this example, an input / output device such as a display device 101, a keyboard 102, and a mouse 103 for a user of the device to perform input / output operations, and a document database 105 that stores document data are the first one described above. The configuration is the same as that described in the embodiment. A calculation unit 201 that executes document search processing includes a search condition input unit 202 that inputs document format information as a search condition, a similar configuration document search unit 108 that searches for a document that matches the input search condition 203, and the like. The search result display unit 109 is configured to edit and display the search result data 111.

本例では、検索条件入力部202により、検索条件を設定するための操作画面を表示装置101に表示し、使用者は、表示された操作画面を用いて検索条件とする書式情報を設定する。検索条件入力部202では、設定された書式情報を検索条件データ203に保存する。類似構成文書検索部108では、検索条件入力部202にて設定した検索条件データ203を基に、文書データベース105に蓄積された文書データを参照して一致する度合いを評価する。検索結果表示部109は、類似構成文書検索部108にて検索した文書を検索結果データ111から取り出し、表示装置101に表示する。なお、類似構成文書検索部108及び検索結果表示部109の処理は、上記第一の実施の形態による処理と同等である。   In this example, the search condition input unit 202 displays an operation screen for setting a search condition on the display device 101, and the user sets format information as a search condition using the displayed operation screen. The search condition input unit 202 stores the set format information in the search condition data 203. Based on the search condition data 203 set by the search condition input unit 202, the similar configuration document search unit 108 evaluates the degree of matching with reference to the document data stored in the document database 105. The search result display unit 109 extracts the document searched by the similar configuration document search unit 108 from the search result data 111 and displays it on the display device 101. Note that the processing of the similar configuration document search unit 108 and the search result display unit 109 is the same as the processing according to the first embodiment.

このように、本例では、類似文書を検索するための条件として入力する文書がない場合でも、使用者が検索したい文書の書式的な特徴を検索条件として設定することで、設定された検索条件に類似する文書を検索することができる。   In this way, in this example, even if there is no document to be input as a condition for searching for similar documents, the search condition that has been set is set by setting the formal characteristics of the document that the user wants to search as the search condition. Documents similar to can be searched.

図3に文書データベース105の一例を示す。文書データベース105には、登録されている文書のインデックス301を作成し、文書データ302とともに保存しておく。類似文書の検索処理において、目的文書の検索の度に文書データベースに登録されている全文書から書式情報を抽出すると多くの時間が掛かるため、文書データベースに文書を登録する際に、予め書式情報を抽出して文書書式のインデックス301として登録しておく。インデックスとしては、登録されている文書の書式的情報のうち、その文書が用いているテンプレート、設定されているプロパティ、文書の種類、ファイル名、ヘッダとフッタ、用紙サイズ、段組の形態、ページ数等の情報を用い、これらの情報を抽出してインデックスとして表形式で保持する。このように文書データベースに書式情報のインデックスを登録いておくことで、類似構成文書検索部108では、入力文書106から抽出した文書書式情報110または検索条件として設定された検索条件データ203を基に、文書データベース105の文書書式のインデックス301を参照することにより、検索条件と一致する文書を容易に検索することができる。   FIG. 3 shows an example of the document database 105. In the document database 105, an index 301 of a registered document is created and stored together with the document data 302. In the similar document search process, it takes a lot of time to extract format information from all documents registered in the document database each time the target document is searched. It is extracted and registered as the document format index 301. The index includes the registered document format information, the template used by the document, set properties, document type, file name, header and footer, paper size, column format, page Using information such as numbers, this information is extracted and stored as an index in a table format. By registering the format information index in the document database in this way, the similar configuration document search unit 108 uses the document format information 110 extracted from the input document 106 or the search condition data 203 set as a search condition. By referring to the document format index 301 of the document database 105, it is possible to easily search for a document that matches the search condition.

図8は、本例の処理の流れを表すフローチャートである。図8を参照して本例の全体処理概要について説明する。まず、検索方法として、検索条件となる入力文書を入力するのか、検索条件とする書式情報を入力するのかを判定する(ステップS801)。例えば、最初に検索方法を選択するための操作画面を表示装置101に表示し、本装置の使用者がどちらの方法で検索するかを選択するように実現してもよい。検索方法として入力文書を入力する場合、使用者が入力した入力文書を解析し、文書書式情報を抽出して文書書式情報110として保存する(ステップS802)。検索方法として検索条件を入力する場合、検索条件を設定するための操作画面を表示装置101に表示し、使用者が操作画面を用いて検索条件とする書式情報を設定する。そして、設定された書式情報を取り込み、検索条件データ203に保存する(ステップS803)。次に、検索条件として入力文書から抽出した文書書式情報110または、使用者が設定した検索条件データ203を取り出し、文書データベースに登録されている文書書式のインデックス301を参照し、類似構成文書を検索し、検索結果データ111に保存する(ステップS804)。最後に、検索結果データ111から文書データを取り出し、検索結果として編集して表示装置101に表示する(ステップS805)。   FIG. 8 is a flowchart showing the processing flow of this example. With reference to FIG. 8, the outline of the overall processing of this example will be described. First, as a search method, it is determined whether to input an input document as a search condition or format information as a search condition (step S801). For example, an operation screen for selecting a search method may be displayed on the display device 101 first, and the user of this device may select which method to search. When an input document is input as a search method, the input document input by the user is analyzed, the document format information is extracted and stored as the document format information 110 (step S802). When inputting a search condition as a search method, an operation screen for setting the search condition is displayed on the display device 101, and the user sets format information as a search condition using the operation screen. Then, the set format information is captured and stored in the search condition data 203 (step S803). Next, the document format information 110 extracted from the input document as the search condition or the search condition data 203 set by the user is retrieved, and a similar document is searched by referring to the document format index 301 registered in the document database. And stored in the search result data 111 (step S804). Finally, the document data is extracted from the search result data 111, edited as the search result, and displayed on the display device 101 (step S805).

図9は、類似構成文書検索処理の詳細を表すフローチャートである。図9を参照して類似構成文書検索部108の処理例について説明する。まず、検索方法に応じて入力文書の文書書式情報110または検索条件データ203を取り出す(ステップS901)。次に文書データベース105の文書書式のインデックス301を参照し、文書書式情報110または検索条件データ203に登録されている書式情報と一致する文書を検索し、抽出する(ステップS902)。次に、検索された結果に対して、書式情報に付加した重み値を加味して総合的な類似度を評価するために、書式情報に設定された重み値を取り出す(ステップS903)。取り出した重み値を基に類似度を算出するため、まず、検索結果から文書データを1件取り出す(ステップS904)。取り出した検索結果の文書データがあるかを判断し(ステップS905)、検索結果があれば書式情報の重み値を基に類似度を算出する(ステップS906)。取り出した検索結果がなければ、すべての検索結果に対する類似度の算出が終了したことになるため、検索した文書データと算出した類似度を組み合わせて検索結果データ111へ保存する(ステップS907)。   FIG. 9 is a flowchart showing details of the similar configuration document search process. With reference to FIG. 9, a processing example of the similar component document search unit 108 will be described. First, the document format information 110 or search condition data 203 of the input document is extracted according to the search method (step S901). Next, referring to the document format index 301 of the document database 105, a document that matches the format information registered in the document format information 110 or the search condition data 203 is searched and extracted (step S902). Next, the weight value set in the format information is taken out in order to evaluate the overall similarity by adding the weight value added to the format information to the retrieved result (step S903). In order to calculate the similarity based on the extracted weight value, first, one piece of document data is extracted from the search result (step S904). It is determined whether there is document data of the retrieved search result (step S905). If there is a search result, the similarity is calculated based on the weight value of the format information (step S906). If there is no retrieved search result, it means that the calculation of the similarity for all the search results has been completed. Therefore, the retrieved document data and the calculated similarity are combined and stored in the search result data 111 (step S907).

類似構成文書検索処理における類似度算出処理について、更に説明する。類似度算出処理は、類似構成文書検索処理にて検索した結果に対して、書式情報に付加した重み値を加味して総合的な類似度を評価するものである。図4に書式情報に付加した重み値の一例を示す。本例では、検索条件として用いる文書の書式情報の種類毎に、予め重み値を設定しておく。図4では、書式情報の種類401に対して、それぞれの重み値402を数値で表している。この重み値は、類似度算出処理に用いるデータとして予め計算機内の記憶装置などに登録しておく。また、各書式情報に重み付けを行う手段を設け、本装置の使用者が重み値を変更できるようにしてもよい。   The similarity calculation process in the similar configuration document search process will be further described. In the similarity calculation process, the total similarity is evaluated by adding the weight value added to the format information to the search result in the similar configuration document search process. FIG. 4 shows an example of the weight value added to the format information. In this example, a weight value is set in advance for each type of document format information used as a search condition. In FIG. 4, each weight value 402 is represented by a numerical value for the format information type 401. This weight value is registered in advance in a storage device in the computer as data used for the similarity calculation process. Further, a means for weighting each format information may be provided so that the user of this apparatus can change the weight value.

類似構成文書検索処理における類似度算出処理では、この書式情報の重み値を用いて、検索された文書についてそれぞれの類似度を算出する。類似度とは、文書の類似の度合いを示す変数であり、類似の度合いが高い程、値が大きくなるように設定する。類似度算出処理では、まず、各文書の類似度の初期値を、例えば0として設定する。次に、検索された文書の書式情報について、検索条件である書式情報のうち、どの項目が一致しているかを判定する。そして、一致している書式情報に設定された重み値をすべて類似度に加算していく。このように、検索結果の文書のそれぞれについて類似度を算出する。   In the similarity calculation process in the similar configuration document search process, the similarity of each searched document is calculated using the weight value of the format information. The similarity is a variable indicating the degree of similarity of documents, and is set so that the value increases as the degree of similarity increases. In the similarity calculation process, first, the initial value of the similarity of each document is set to 0, for example. Next, with respect to the format information of the retrieved document, it is determined which item of the format information that is the search condition matches. Then, all the weight values set in the matching format information are added to the similarity. In this way, the similarity is calculated for each of the search result documents.

例えば、検索条件の書式情報のうち、「使用しているテンプレート」が一致している場合には、その書式情報に設定された重み値である“10”を当該文書の類似度に加算する。同様に、「使用しているテンプレート(重み値は10)」と「設定されているプロパティ(重み値は5)」と「文書の種類(重み値は20)」の3種類の書式情報が一致している場合は、対応する重み値を全て加算し、類似度は35ポイントとなる。また、「ファイル名(重み値は10)」と「ヘッダとフッタ(重み値は5)」、「枠と罫線のパターン(重み値は5)」、「用紙サイズ(重み値は10)」の4種類の書式情報が一致している文書の場合は、対応する重み値を全て加算し、類似度は30ポイントとなる。これらの例の場合、特に「文書の種類」に対する重み値が相対的に高いので、3種類の書式情報と一致している前者の方が、4種類の書式情報と一致している後者よりも類似度が大きくなる。   For example, if the “used template” in the format information of the search condition matches, “10” that is the weight value set in the format information is added to the similarity of the document. Similarly, there are three types of format information: “used template (weight value is 10)”, “set property (weight value is 5)”, and “document type (weight value is 20)”. If so, all the corresponding weight values are added and the similarity is 35 points. Also, “file name (weight value is 10)”, “header and footer (weight value is 5)”, “frame and ruled line pattern (weight value is 5)”, and “paper size (weight value is 10)”. In the case of a document in which the four types of format information match, all corresponding weight values are added, and the similarity is 30 points. In these examples, since the weight value for “document type” is relatively high, the former that matches three types of format information is more than the latter that matches four types of format information. Similarity increases.

このように、類似構成文書検索部108において、文書データベースから書式情報を基に類似文書を検索し、その検索結果を類似度とともに検索結果データ111に保存する。検索結果表示部109では、検索結果データ111を参照し、類似度を基に検索結果の表示画面を編集することができるため、類似度の高い文書をより上位に表示させることができる。これにより、単に一致している書式情報の個数だけではなく、検索条件に優先度を付けることができ、探したい文書を容易に得ることが可能となる。   As described above, the similar document search unit 108 searches for a similar document from the document database based on the format information, and stores the search result in the search result data 111 together with the similarity. Since the search result display unit 109 can edit the search result display screen based on the similarity by referring to the search result data 111, a document having a high similarity can be displayed at a higher level. Thereby, not only the number of matching format information but also the priority can be given to the search condition, and the document to be searched can be easily obtained.

図5は、検索条件入力部202における、検索条件を設定するための操作画面の一例である。検索方法として検索条件を入力する方法を選択した場合、検索条件入力部202では、検索条件を設定するための操作画面を表示装置101に表示し、使用者は、表示された操作画面を用いて検索条件とする書式情報を設定する。ここでは、図5を参照して検索条件入力部202の処理について説明する。   FIG. 5 is an example of an operation screen for setting search conditions in the search condition input unit 202. When the method for inputting the search condition is selected as the search method, the search condition input unit 202 displays an operation screen for setting the search condition on the display device 101, and the user uses the displayed operation screen. Set format information as search condition. Here, the processing of the search condition input unit 202 will be described with reference to FIG.

図5の操作画面は、検索する書式の選択、除外を設定する書式条件選択部501と、選択した書式条件に関するキーワードを指定する検索キーワード指定部502から構成する。書式条件選択部501は、各書式名の横にあるスイッチをマウスなどの入力装置で押下することにより選択/除外を切替ることができ、その書式情報を検索対象として選択するか、検索対象から除外するかを指定する。検索キーワード指定部502は、書式条件選択部501で選択した書式について、目的の文書を検索するための、書式の内容をキーボードなどから入力する。例えば、書式条件として「使用テンプレート」を選択した場合は、検索キーワードとして使用しているテンプレート名「スタイル.dot」を入力する。また、「文書の種類」を選択した場合は、検索キーワードとして「PowerPoint」と入力する。検索条件入力部202は、本操作画面によって選択された書式条件と検索キーワードを検索条件データ203に保存し、類似構成文書検索部108では、検索条件データ203を参照して、選択された書式条件についてのみ、文書データベース105の検索対象文書について一致の有無を調べる。   The operation screen of FIG. 5 includes a format condition selection unit 501 for setting selection and exclusion of a format to be searched, and a search keyword specifying unit 502 for specifying a keyword related to the selected format condition. The format condition selection unit 501 can switch the selection / exclusion by pressing the switch next to each format name with an input device such as a mouse, and selects the format information as a search target or from the search target. Specify whether to exclude. The search keyword specifying unit 502 inputs the contents of the format for searching the target document for the format selected by the format condition selecting unit 501 from a keyboard or the like. For example, when “use template” is selected as the format condition, the template name “style.dot” used as the search keyword is input. If “document type” is selected, “PowerPoint” is input as a search keyword. The search condition input unit 202 stores the format condition and search keyword selected on the operation screen in the search condition data 203, and the similar configuration document search unit 108 refers to the search condition data 203 to select the selected format condition. Only for the search target document in the document database 105.

文書の検索においては、過去に自分で作成あるいは閲覧した文書のスタイルが記憶にあり、それに基づいて検索条件を対話的に入力して検索したいことがあるが、本例では、検索条件となる書式の条件を検索キーワードとして入力することにより、記憶にある文書スタイルによる検索が可能となる。   When searching for a document, you may want to search by entering the search conditions interactively based on the styles of documents that you have created or viewed in the past. In this example, the search condition format By inputting the above condition as a search keyword, it becomes possible to perform a search using a document style stored in memory.

また、検索方法として検索条件となる入力文書を入力する方法を選択した場合においても、入力文書から抽出した書式情報をそのまま検索条件として用いるだけでなく、抽出した書式情報に対して検索条件を選択/除外したり、書式情報の内容を追加、修正したい場合がある。本例では、入力文書から抽出した書式情報を基に、検索条件を設定するための処理を行う検索条件設定部を設けることにより、検索条件を任意に設定できるようにすることができる。   In addition, even when a method for inputting an input document serving as a search condition is selected as a search method, not only the format information extracted from the input document is used as it is but also the search condition is selected for the extracted format information. / You may want to exclude or add / modify the format information. In this example, it is possible to arbitrarily set the search condition by providing a search condition setting unit that performs processing for setting the search condition based on the format information extracted from the input document.

図7に検索条件設定部を設けた場合の構成例を示す。本例においては、本装置の使用者が入出力操作を行うための表示装置101、キーボード102、マウス103などの入出力装置と、文書データを蓄積しておく文書データベース105は、既に説明した実施の形態によるものと同様である。文書の検索処理を実行する演算部701は、本装置の使用者が検索対象として入力した入力文書106の書式情報を抽出し、文書書式情報110として保存する文書書式情報抽出部107と、文書書式情報110を基に検索条件を設定し、検索条件データ203として保存する検索条件設定部702と、設定された検索条件203と合致する文書を文書データベース105から検索し、検索結果データ111へ保存する類似構成文書検索部108と、検索結果111を編集して表示する検索結果表示部109から構成する。本構成のうち、文書書式情報抽出部107と、類似構成文書検索部108と、検索結果表示部109は、既に説明した実施の形態によるものと同様である。   FIG. 7 shows a configuration example when a search condition setting unit is provided. In this example, an input / output device such as a display device 101, a keyboard 102, and a mouse 103 for a user of the device to perform input / output operations, and a document database 105 for storing document data are described above. It is the same as that by the form of. A calculation unit 701 that executes document search processing extracts the format information of the input document 106 that is input as a search target by the user of the apparatus, and stores the document format information extraction unit 107 as document format information 110. A search condition is set based on the information 110, a search condition setting unit 702 that stores the search condition data 203, and a document that matches the set search condition 203 is searched from the document database 105 and stored in the search result data 111. It comprises a similar configuration document search unit 108 and a search result display unit 109 that edits and displays the search result 111. In this configuration, the document format information extraction unit 107, the similar configuration document search unit 108, and the search result display unit 109 are the same as those according to the above-described embodiment.

図6は、検索条件設定部702において、入力文書から抽出した書式情報を基に検索条件を設定するための操作画面の一例である。図6を参照して検索条件設定部702における検索条件の設定処理について説明する。   FIG. 6 is an example of an operation screen for setting the search condition based on the format information extracted from the input document in the search condition setting unit 702. The search condition setting process in the search condition setting unit 702 will be described with reference to FIG.

検索方法として検索条件となる入力文書を入力する方法を選択した場合、文書書式情報抽出部107では入力文書から書式情報を抽出するが、そのまま検索条件として用いるのではなく、検索条件設定部702により、抽出した書式情報を用いて検索条件を設定する。検索条件設定部702は、図6に示すような検索条件を設定するための操作画面を表示する。図6の操作画面は、検索する書式の選択、除外を設定する書式条件選択部601と、入力文書から抽出した書式情報を表示する書式情報表示部602と、書式条件に関するキーワードを指定する検索キーワード指定部603から構成する。文書書式情報抽出部107で抽出した入力文書の書式情報は、入力文書の書式情報表示部602へ表示する。本装置の使用者は、表示された書式情報を参照し、その書式を検索対象として選択するか、検索対象から除外するかを書式条件選択部601を用いて指定する。選択/除外の指定方法は、上記図5の書式条件選択部501と同様である。例えば、文書が使用しているテンプレートを検索対象にしないときは、「使用テンプレート」の横にあるスイッチを除外状態(図中の選択スイッチを白色)にして、その他の書式情報の「プロパティ」、「文書の種類」、「ファイル名」、「ヘッダ」などのスイッチは選択状態(図中の選択スイッチを黒色)にする。   When a method for inputting an input document serving as a search condition is selected as a search method, the document format information extraction unit 107 extracts format information from the input document. However, instead of using the format information as it is, the search condition setting unit 702 does not use it. The search condition is set using the extracted format information. The search condition setting unit 702 displays an operation screen for setting search conditions as shown in FIG. The operation screen in FIG. 6 includes a format condition selection unit 601 for setting selection and exclusion of a format to be searched, a format information display unit 602 for displaying format information extracted from the input document, and a search keyword for specifying a keyword related to the format condition. It consists of a designation unit 603. The format information of the input document extracted by the document format information extraction unit 107 is displayed on the format information display unit 602 of the input document. The user of this apparatus refers to the displayed format information and uses the format condition selection unit 601 to specify whether the format is selected as a search target or excluded from the search target. The selection / exclusion designation method is the same as that of the format condition selection unit 501 in FIG. For example, if you do not want to search for templates used in a document, set the switch next to “Use template” to the excluded state (the selection switch in the figure is white), and select “Property” Switches such as “document type”, “file name”, and “header” are selected (the selection switch in the figure is black).

また、使用者が抽出された書式情報とは異なる条件で検索したい場合は、検索キーワード指定部603に検索したいキーワードを指定する。検索キーワードを指定した場合、入力文書から抽出した書式情報を使わない代わりに、ここで指定した書式の内容を検索条件として用いる。例えば、入力文書から抽出されたプロパティの情報のうち、文書の作成者が“XXX”であるときに、実際に検索したい文書の作成者が“YYY”のときには、プロパティの欄の検索キーワードの部分に“YYY”を入力する。また、入力文書からヘッダの情報が抽出されなかった場合に、実際に検索したい文書のヘッダが“特許”のときには、ヘッダの欄の検索キーワードの部分に“特許”を入力する。このように、検索キーワード指定部603にキーワードの指定がある場合は、当該検索条件に関してはキーワードに指定した内容で、その他の検索条件に関しては入力文書と同じ内容で検索することができる。   If the user wants to search under conditions different from the format information extracted, the keyword to be searched is specified in the search keyword specifying unit 603. When a search keyword is specified, the content of the format specified here is used as a search condition instead of not using the format information extracted from the input document. For example, in the property information extracted from the input document, when the document creator is “XXX” and the document creator to be actually searched is “YYY”, the search keyword portion in the property column Enter "YYY" in If the header information is not extracted from the input document and the header of the document to be actually searched is “patent”, “patent” is input in the search keyword portion of the header column. As described above, when a keyword is specified in the search keyword specifying unit 603, the search condition can be searched with the content specified as the keyword, and the other search conditions can be searched with the same content as the input document.

検索条件設定部702は、本操作画面によって設定された書式条件と検索キーワードを検索条件データ203として保存し、類似構成文書検索部108では、文書書式情報抽出部107で抽出した書式情報ではなく、使用者が設定した検索条件データ203を参照して、文書データベース105の文書について一致の有無を調べる。   The search condition setting unit 702 stores the format conditions and search keywords set on this operation screen as the search condition data 203, and the similar configuration document search unit 108 does not use the format information extracted by the document format information extraction unit 107. With reference to the search condition data 203 set by the user, the document database 105 is checked for a match.

このように、検索条件設定部702を設けることにより、入力文書から抽出した書式情報をそのまま検索条件として用いるだけでなく、抽出した書式情報に対して検索条件を任意に変更することができるため、特定の文書のスタイルを参考にしながら、使用者の記憶にある文書スタイルによる検索が可能となる。また、検索条件の設定において、入力文書から抽出した書式条件を事前に確認した上で、変更することなく検索することもできるため、入力文書による検索においても、使用者にとってはより確実に検索作業を行うことができる。   Thus, by providing the search condition setting unit 702, the format information extracted from the input document can be used as the search condition as it is, and the search condition can be arbitrarily changed with respect to the extracted format information. It is possible to search by a document style stored in the user's memory while referring to the style of a specific document. Also, in setting search conditions, it is possible to search without changing the format conditions extracted from the input document in advance. It can be performed.

次に、本発明の更に他の実施の形態について説明する。図10は、入力された文書の書式情報をカテゴリとしてデータベースに文書を登録し、それを検索するように構成した例である。本例は、文書登録を行う演算部10と、文書検索を行う演算部20と、文書データベース30から構成する。文書登録演算部10は、データベースへ登録する文書の書式情報を抽出する文書書式情報抽出部107と、抽出された書式情報を基に文書を分類してデータベースへ登録する文書登録部11から構成する。文書検索演算部20は、検索対象の文書カテゴリを指定する文書カテゴリ入力部21と、検索条件とする入力文書の書式情報を抽出する文書書式情報抽出部107と、指定されたカテゴリの文書を対象に書式が類似する文書を検索する類似構成文書検索部22と、検索結果を編集して表示する検索結果表示部109から構成する。図10では、本装置の使用者が入出力操作を行うための表示装置、キーボード、マウスなどの入出力装置は図示しないが、他の実施の形態と同様に構成してある。また、本例において、文書書式情報抽出部107と検索結果表示部109の処理は、既に説明した実施の形態によるものと同様である。   Next, still another embodiment of the present invention will be described. FIG. 10 shows an example in which a document is registered in the database with the format information of the input document as a category and is searched. This example includes a calculation unit 10 that performs document registration, a calculation unit 20 that performs document search, and a document database 30. The document registration calculation unit 10 includes a document format information extraction unit 107 that extracts format information of a document to be registered in the database, and a document registration unit 11 that classifies the documents based on the extracted format information and registers them in the database. . The document search calculation unit 20 includes a document category input unit 21 that specifies a document category to be searched, a document format information extraction unit 107 that extracts format information of an input document as a search condition, and a document in a specified category. A similar document search unit 22 for searching for documents having similar formats, and a search result display unit 109 for editing and displaying the search results. In FIG. 10, a display device for a user of this apparatus to perform input / output operations, and an input / output device such as a keyboard and a mouse are not shown, but are configured in the same manner as in the other embodiments. In this example, the processing of the document format information extraction unit 107 and the search result display unit 109 is the same as that according to the embodiment described above.

まず、文書登録演算部10の処理について説明する。文書データベースへ新たに文書を登録する場合には、まず、登録する文書40を入力する。登録する文書40は、使用者がキーボードから入力してもよく、また、他の装置で作成された文書データを記憶媒体を介して入力したり、ネットワークを介して入力してもよい。次に、文書書式情報抽出部107により、入力された登録文書40の書式情報を文書データベース30へ登録すめためのカテゴリとして抽出する。カテゴリとして使用できる書式情報は、文書が用いているテンプレート、設定されているプロパティ、文書の種類、ファイル名、ヘッダとフッタ、用紙サイズ、段組の形態、ページ数などである。ここでは、文書のプロパティを例にして説明する。文書に設定されているプロパティの情報とは、文書に付けられたタイトルやサブタイトル、文書の分類、文書の作成者、文書のサイズ、文書の作成日時、更新日時などである。文書書式情報抽出部107では、入力された登録文書40に設定されているプロパティを抽出する。ここでは、プロパティにおける文書の分類(文書を保存する際に作成者が入力した文書の分類)を例に説明する。プロパティにおける文書の分類として、例えば、「報告書」、「技術資料」、「XX依頼書」などのような分類があったとする。文書書式情報抽出部107では、登録文書40から文書分類を抽出し、文書登録部11は、当該文書から抽出した分類を基に、「報告書」、「技術資料」、「XX依頼書」などのいずれかに分類分けをして登録文書40をデータベースに登録する。例えば、登録文書40の文書の分類が「報告書」だった場合、文書登録部11では、登録文書40を文書データベースの「報告書」のカテゴリに登録する。これにより、使用者が文書分類を意識してフォルダに振り分けるといった対話的な操作が不要になる。   First, the processing of the document registration calculation unit 10 will be described. When a new document is registered in the document database, first, the document 40 to be registered is input. The document 40 to be registered may be input by a user from a keyboard, or document data created by another device may be input via a storage medium or may be input via a network. Next, the document format information extraction unit 107 extracts the format information of the input registered document 40 as a category for registration in the document database 30. Format information that can be used as a category includes a template used by a document, set properties, document type, file name, header and footer, paper size, columnar form, number of pages, and the like. Here, the document properties will be described as an example. The property information set in the document includes the title and subtitle attached to the document, the document classification, the document creator, the document size, the document creation date and the update date, and the like. The document format information extraction unit 107 extracts properties set in the input registered document 40. Here, description will be made by taking as an example the document classification in the property (the document classification input by the creator when the document is stored). For example, it is assumed that there are classifications such as “report”, “technical document”, “XX request form”, etc. as the classification of documents in the property. The document format information extraction unit 107 extracts the document classification from the registered document 40, and the document registration unit 11 performs “report”, “technical document”, “XX request form”, etc. based on the classification extracted from the document. The registered document 40 is registered in the database after classification into any of the above. For example, when the document classification of the registered document 40 is “report”, the document registration unit 11 registers the registered document 40 in the “report” category of the document database. This eliminates the need for an interactive operation in which the user is conscious of document classification and assigns the folder.

次に、このようにカテゴリに分類して登録した文書データベースから文書を検索する際には、文書検索演算部20の文書カテゴリ入力部21にて、まず使用者が文書カテゴリを入力する。次に、検索条件を設定する。ここでは、検索方法として検索条件とする入力文書を入力する場合を例に説明するが、他の検索条件の設定方法でもよい。検索条件として入力文書を入力した場合、文書書式情報抽出部107により入力文書の書式情報を抽出する。そして、抽出された書式情報をもとに、類似構成文書検索部22により文書データベース30から類似の文書を検索する。ここで、類似構成文書検索部22では、まず、カテゴリ入力部21にて入力されたカテゴリを基に文書データベース30の検索対象を絞り込む。そして、絞り込んだ範囲の文書を対象に類似文書を検索し、検索結果を検索結果表示部109が編集し、表示する。例えば、使用者が検索したい文書カテゴリとして、プロパティにおける文書の分類「技術資料」を指定した場合、類似構成文書検索部22では、文書データベース30の「技術資料」のカテゴリに登録されている文書データを対象に類似構成文書を検索する。   Next, when a document is searched from the document database classified and registered in this way, the user first inputs the document category at the document category input unit 21 of the document search calculation unit 20. Next, search conditions are set. Here, a case where an input document as a search condition is input as a search method will be described as an example, but another search condition setting method may be used. When an input document is input as a search condition, the document format information extraction unit 107 extracts format information of the input document. Then, based on the extracted format information, the similar document search unit 22 searches for a similar document from the document database 30. Here, the similar configuration document search unit 22 first narrows down the search target of the document database 30 based on the category input by the category input unit 21. Then, similar documents are searched for the narrowed-down range of documents, and the search result display unit 109 edits and displays the search results. For example, when the user specifies the document classification “technical data” in the property as the document category to be searched, the similar-structured document search unit 22 stores the document data registered in the “technical data” category of the document database 30. Search for similar configuration documents.

このように文書の書式情報をカテゴリとしてデータベースに文書を登録することにより、目的とする文書の検索を迅速に行うことができる。また、カテゴリを用いて検索対象を絞り込むことにより、検索結果に不要な文書が含まれることを防ぎ、文書の検索精度を向上させることができるため、結果的に使用者が文書を探す時間を短縮するとともに、検索の労力を軽減することができる。   In this way, by registering a document in the database with the format information of the document as a category, the target document can be searched quickly. In addition, by narrowing down the search target using categories, it is possible to prevent unnecessary documents from being included in the search results and improve the document search accuracy, resulting in shortening the time for users to search for documents. In addition, the search effort can be reduced.

本発明の一実施の形態による構成例を示すブロック図である。It is a block diagram which shows the structural example by one embodiment of this invention. 本発明の他の実施の形態による構成例を示すブロック図である。It is a block diagram which shows the structural example by other embodiment of this invention. 本発明の一実施の形態による文書データベース例を示す説明図である。It is explanatory drawing which shows the example of a document database by one embodiment of this invention. 本発明の一実施の形態による書式情報の重み値の例を示す説明図である。It is explanatory drawing which shows the example of the weight value of the format information by one embodiment of this invention. 本発明の一実施の形態による操作画面例(1)を示す説明図である。It is explanatory drawing which shows the example of an operation screen (1) by one embodiment of this invention. 本発明の一実施の形態による操作画面例(2)を示す説明図である。It is explanatory drawing which shows the operation screen example (2) by one embodiment of this invention. 本発明の他の実施の形態による構成例を示すブロック図である。It is a block diagram which shows the structural example by other embodiment of this invention. 本発明の一実施の形態による検索処理例を示すフローチャートである。It is a flowchart which shows the example of a search process by one embodiment of this invention. 本発明の一実施の形態による類似構成文書検索処理例を示すフローチャートである。It is a flowchart which shows the similar structural document search processing example by one embodiment of this invention. 本発明の他の実施の形態による構成例を示すブロック図である。It is a block diagram which shows the structural example by other embodiment of this invention.

符号の説明Explanation of symbols

101…表示装置、102…キーボード、103…マウス、104…演算部、105…文書データベース、106…入力文書、107…文書書式情報抽出部、108…類似構成文書検索部、109…検索結果表示部、110…文書書式情報、111…検索結果データ、201…演算部、202…検索条件入力部、203…検索条件データ、301…文書書式のインデックス、302…文書データ、401…書式情報の種類、402…重み値、701…演算部、702…検索条件設定部、10…文書登録演算部、20…文書検索演算部、30…文書データベース、40…登録文書、11…文書登録部、21…文書カテゴリ入力部、22…類似構成文書検索部   DESCRIPTION OF SYMBOLS 101 ... Display apparatus, 102 ... Keyboard, 103 ... Mouse, 104 ... Operation part, 105 ... Document database, 106 ... Input document, 107 ... Document format information extraction part, 108 ... Similar structure document search part, 109 ... Search result display part 110 ... Document format information, 111 ... Search result data, 201 ... Calculation unit, 202 ... Search condition input unit, 203 ... Search condition data, 301 ... Document format index, 302 ... Document data, 401 ... Type of format information, 402 ... Weight value, 701 ... Calculation unit, 702 ... Search condition setting unit, 10 ... Document registration calculation unit, 20 ... Document search calculation unit, 30 ... Document database, 40 ... Registered document, 11 ... Document registration unit, 21 ... Document Category input part, 22 ... Similar composition document search part

Claims (10)

入出力装置と、処理を行う演算部と、データを蓄積しておく記憶装置とを備える計算機を用いた文書検索装置において、
前記演算部が、文書の書式情報を抽出する文書書式情報抽出部と、
文書書式情報抽出部により抽出された書式情報と類似する文書を、記憶装置に蓄積した文書データベースから検索する類似構成文書検索部と、
検索結果を入出力装置へ出力する検索結果表示部とを備える文書検索装置。
In a document search apparatus using a computer including an input / output device, a calculation unit that performs processing, and a storage device that stores data,
A document format information extraction unit for extracting the format information of the document;
A similar configuration document search unit that searches a document database stored in a storage device for documents similar to the format information extracted by the document format information extraction unit;
A document search device comprising a search result display unit for outputting a search result to an input / output device.
入出力装置と、処理を行う演算部と、データを蓄積しておく記憶装置とを備える計算機を用いた文書検索装置において、
前記演算部が、検索条件として文書の書式情報を入力する検索条件入力部と、
検索条件入力部により入力された書式情報と類似する文書を、記憶装置に蓄積した文書データベースから検索する類似構成文書検索部と、
検索結果を入出力装置へ出力する検索結果表示部とを備える文書検索装置。
In a document search apparatus using a computer including an input / output device, a calculation unit that performs processing, and a storage device that stores data,
A search condition input unit for inputting document format information as a search condition;
A similar document search unit that searches a document database stored in the storage device for documents similar to the format information input by the search condition input unit;
A document search device comprising a search result display unit for outputting a search result to an input / output device.
請求項1記載の文書検索装置において、
書式情報に重み値を付加する手段と、
文書書式情報抽出部により抽出された書式情報と文書データベースに格納されている文書の書式情報が一致した場合に、当該書式情報に付加されている重み値を文書の類似度に加算することで文書の類似度を算出する手段を設け、
類似度の大きさに応じて検索結果を表示する、文書検索装置。
The document search apparatus according to claim 1, wherein
Means for adding weight values to the format information;
When the format information extracted by the document format information extraction unit and the format information of the document stored in the document database match, the weight value added to the format information is added to the similarity of the document. Means for calculating the similarity of
A document search apparatus that displays search results according to the degree of similarity.
請求項2記載の文書検索装置において、
書式情報に重み値を付加する手段と、
検索条件入力部により入力された書式情報と文書データベースに格納されている文書の書式情報が一致した場合に、当該書式情報に付加されている重み値を文書の類似度に加算することで文書の類似度を算出する手段を設け、
類似度の大きさに応じて検索結果を表示する、文書検索装置。
The document search device according to claim 2, wherein
Means for adding weight values to the format information;
When the format information input by the search condition input unit matches the format information of the document stored in the document database, the weight value added to the format information is added to the similarity of the document to Provide a means to calculate the similarity,
A document search apparatus that displays search results according to the degree of similarity.
請求項1記載の文書検索装置において、
文書書式情報抽出部により抽出された書式情報を基に、検索する書式の選択、除外を設定する手段と、
抽出された書式情報の内容を変更し、検索する書式条件に関するキーワードを指定する手段とを設け、
検索条件を任意に設定できるように構成した、文書検索装置。
The document search apparatus according to claim 1, wherein
Based on the format information extracted by the document format information extraction unit, means for selecting and excluding the format to be searched,
A means for changing the contents of the extracted format information and specifying a keyword related to the format condition to be searched;
A document search device configured so that search conditions can be arbitrarily set.
請求項1から請求項5に記載の文書検索装置において、
文書を文書データベースに登録する際に、文書の書式情報を抽出し、抽出した書式情報をカテゴリとして文書データベースへ分類して登録する文書登録処理部を設け、
文書検索においては、検索対象の文書カテゴリを指定する手段を設け、文書データベースの検索範囲を絞り込むことを特徴とする、文書検索装置。
The document search device according to any one of claims 1 to 5,
When registering a document in the document database, a document registration processing unit is provided for extracting the format information of the document, classifying the extracted format information into a document database as a category, and registering it.
In document search, a document search apparatus characterized by providing means for specifying a document category to be searched and narrowing down a search range of a document database.
使用者によって入力された文書を基に、文書データベースから文書を検索する文書検索方法において、
入力された文書を解析し、文書の書式情報を抽出する文書書式情報抽出処理と、
抽出された書式情報を基に文書データベースを参照して、抽出された書式情報と一致する書式情報を持つ文書を検索する類似構成文書検索処理と、
検索した文書を編集して出力する検索結果表示処理とを備える文書検索方法。
In a document search method for searching a document from a document database based on a document input by a user,
A document format information extraction process for analyzing the input document and extracting the format information of the document;
Similar document search processing for searching a document having format information that matches the extracted format information with reference to the document database based on the extracted format information;
A document search method comprising: a search result display process for editing and outputting a searched document.
文書データベースから文書を検索する文書検索方法において、
使用者が文書の書式情報を検索条件として設定するための検索条件入力処理と、
入力された書式情報を基に文書データベースを参照して、入力された書式情報と一致する書式情報を持つ文書を検索する類似構成文書検索処理と、
検索した文書を編集して出力する検索結果表示処理とを備える文書検索方法。
In a document retrieval method for retrieving a document from a document database,
Search condition input processing for the user to set document format information as a search condition;
Similar document search processing for searching a document having format information that matches the input format information with reference to the document database based on the input format information;
A document search method comprising: a search result display process for editing and outputting a searched document.
請求項7記載の文書検索方法において、
書式情報に重み値を付加する処理を設け、
類似構成文書検索処理によって検索された文書について、文書書式情報抽出処理により抽出された書式情報と文書データベースに格納されている文書の書式情報が一致した場合に、当該書式情報に付加されている重み値を文書の類似度に加算することで類似度を算出する処理を設け、
類似度の大きさに応じて検索結果を表示する、文書検索方法。
The document search method according to claim 7, wherein
Provide a process to add weight values to the format information,
For the document searched by the similar document search process, when the format information extracted by the document format information extraction process matches the format information of the document stored in the document database, the weight added to the format information Provide a process to calculate the similarity by adding the value to the similarity of the document,
A document search method that displays search results according to the degree of similarity.
請求項8記載の文書検索方法において、
書式情報に重み値を付加する処理を設け、
類似構成文書検索処理によって検索された文書について、検索条件入力処理により入力された書式情報と文書データベースに格納されている文書の書式情報が一致した場合に、当該書式情報に付加されている重み値を文書の類似度に加算することで類似度を算出する処理を設け、
類似度の大きさに応じて検索結果を表示する、文書検索方法。
The document search method according to claim 8.
Provide a process to add weight values to the format information,
For documents searched by similar-structured document search processing, if the format information input by the search condition input processing matches the format information of the document stored in the document database, the weight value added to the format information To calculate the similarity by adding to the similarity of the document,
A document search method that displays search results according to the degree of similarity.
JP2006104476A 2006-04-05 2006-04-05 Document retrieval device and document retrieval method Pending JP2007279978A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006104476A JP2007279978A (en) 2006-04-05 2006-04-05 Document retrieval device and document retrieval method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006104476A JP2007279978A (en) 2006-04-05 2006-04-05 Document retrieval device and document retrieval method

Publications (1)

Publication Number Publication Date
JP2007279978A true JP2007279978A (en) 2007-10-25

Family

ID=38681373

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006104476A Pending JP2007279978A (en) 2006-04-05 2006-04-05 Document retrieval device and document retrieval method

Country Status (1)

Country Link
JP (1) JP2007279978A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282937A (en) * 2008-05-26 2009-12-03 Nippon Telegr & Teleph Corp <Ntt> Automatic information organization presentation device and automatic information organization presentation processing program
JP2010231271A (en) * 2009-03-25 2010-10-14 Toshiba Corp Content retrieval device, content retrieval method and content retrieval program
JP2011022630A (en) * 2009-07-13 2011-02-03 Fuji Xerox Co Ltd Information processor and information processing program
JP2017091000A (en) * 2015-11-04 2017-05-25 株式会社東芝 Document processing apparatus, method, and program
CN115617957A (en) * 2022-12-19 2023-01-17 铭台(北京)科技有限公司 Intelligent document retrieval method based on big data
US12072935B2 (en) 2021-09-08 2024-08-27 Microsoft Technology Licensing, Llc Machine-learning of document portion layout

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282937A (en) * 2008-05-26 2009-12-03 Nippon Telegr & Teleph Corp <Ntt> Automatic information organization presentation device and automatic information organization presentation processing program
JP2010231271A (en) * 2009-03-25 2010-10-14 Toshiba Corp Content retrieval device, content retrieval method and content retrieval program
JP2011022630A (en) * 2009-07-13 2011-02-03 Fuji Xerox Co Ltd Information processor and information processing program
JP2017091000A (en) * 2015-11-04 2017-05-25 株式会社東芝 Document processing apparatus, method, and program
US12072935B2 (en) 2021-09-08 2024-08-27 Microsoft Technology Licensing, Llc Machine-learning of document portion layout
CN115617957A (en) * 2022-12-19 2023-01-17 铭台(北京)科技有限公司 Intelligent document retrieval method based on big data

Similar Documents

Publication Publication Date Title
US20150026159A1 (en) Digital Resource Set Integration Methods, Interfaces and Outputs
US7853595B2 (en) Method and apparatus for creating a tool for generating an index for a document
JP7171100B1 (en) A patent document creation support device, a patent document creation support method, and a patent document creation support program.
Praczyk et al. Automatic extraction of figures from scientific publications in high-energy physics
JP2011248596A (en) Searching system and searching method for picture-containing documents
JP2020113129A (en) Document evaluation device, document evaluation method, and program
JP2007279978A (en) Document retrieval device and document retrieval method
JP2011076396A (en) Metadata setting method, metadata setting system and program
JP4787955B2 (en) Method, system, and program for extracting keywords from target document
JP2006072744A (en) Document processor, control method therefor, program and storage medium
JP4959603B2 (en) Program, apparatus and method for analyzing document
JP5056133B2 (en) Information extraction system, information extraction method, and information extraction program
JP4904920B2 (en) Template document creation program, template document creation method, and template document creation device
JP6529698B2 (en) Data analyzer and data analysis method
JP2004348771A (en) Technical document retrieval device
JP2010272075A (en) Emotional information extraction device, emotion retrieval device, method thereof, and program
CN111694930A (en) Dynamic knowledge hotspot evolution and trend analysis method
JP5311488B2 (en) KANSEI information extraction device, KANSEI search device, method and program thereof
JP2014102625A (en) Information retrieval system, program, and method
JP2005107931A (en) Image search apparatus
JP5326781B2 (en) Extraction rule creation system, extraction rule creation method, and extraction rule creation program
JP2009134378A (en) Document group presentation device and document group presentation program
KR101667918B1 (en) Methodand device of providing query-adaptive smart search service
JP2019061522A (en) Document recommendation system, document recommendation method and document recommendation program
JP4813312B2 (en) Electronic document search method, electronic document search apparatus and program