JP2007011683A - Document management support device - Google Patents
Document management support device Download PDFInfo
- Publication number
- JP2007011683A JP2007011683A JP2005191607A JP2005191607A JP2007011683A JP 2007011683 A JP2007011683 A JP 2007011683A JP 2005191607 A JP2005191607 A JP 2005191607A JP 2005191607 A JP2005191607 A JP 2005191607A JP 2007011683 A JP2007011683 A JP 2007011683A
- Authority
- JP
- Japan
- Prior art keywords
- image data
- document
- area
- character
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
- Processing Or Creating Images (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、手書きによるアノテーションが付加された文書の管理を支援する技術に関する。 The present invention relates to a technique for supporting management of a document to which handwritten annotation is added.
電子化した文書について行う全文検索は、予め作成されたインデックステーブルを元に行う。このとき電子化する文書には、手書きで記載されたアノテーションが付加されていることがある。このアノテーションは文章の重要点を示していたり、注意を喚起する内容であったり、重要な事項であることが多い。 The full text search performed on the digitized document is performed based on an index table created in advance. At this time, an annotation written by hand may be added to the document to be digitized. This annotation often indicates an important point of a sentence, a content that calls attention, or an important matter.
特許文献1には、蛍光ペンによって重要部分がマークされた紙文書を蓄積する際、該マーク箇所に文字認識処理を施し、インデックスに登録する技術が開示されている。
しかしながら、特許文献1に開示された技術においては、インデックスとして登録されるのは蛍光ペンでマークされた箇所の文字のみであるため、蛍光ペンでマークされていない箇所の文字についてはインデックスが作成されない。そのため、所望の文字を検索の対象とするには、いちいち蛍光ペンでマークしなければならない。一方、よく行われるアノテーション付加方法は、手書きによって文書の余白に文字を書き込む方法である。しかし、特許文献1に記載の発明においては、アノテーションを付加したとしても、その上にさらにマークをしなければならず面倒であった。
However, in the technique disclosed in
本発明はこのような事情に鑑みてなされたものであり、その目的は、紙文書に含まれる活字文字とアノテーションとして付加された手書文字とを認識し、それぞれの文字についてのインデックスを作成し、作成したインデックスを元に検索を行うことが出来る文書管理支援装置を提供することにある。 The present invention has been made in view of such circumstances, and its purpose is to recognize printed characters included in paper documents and handwritten characters added as annotations and create an index for each character. Another object of the present invention is to provide a document management support apparatus that can perform a search based on a created index.
上記課題を解決するために、本発明は、文書を走査し、前記文書の内容を表す文書画像データを取得する文書画像データ生成手段と、前記文書画像データ生成手段が生成した前記文書画像データを記憶する記憶手段と、前記文書画像データ生成手段が生成した前記文書画像データから、1又は複数の活字文字が記されている活字領域の画像データと、1又は複数の手書文字が記されている手書領域の画像データとを切り出す領域分離手段と、 前記活字領域の画像データと、前記手書領域の画像データのそれぞれに文字認識処理を施し、認識文字列を出力する文字認識処理手段と、前記記憶手段が記憶した各画像データの格納場所を示す格納場所識別子と、前記文字認識処理手段が出力した認識文字列と、前記認識文字列が手書領域の画像データを表す文字列であるか活字領域の画像データを表す文字列であるかを示す文字識別子とをそれぞれ関連づけて記憶するインデックス情報記憶手段とを具備する文書管理支援装置を提供する。 In order to solve the above problems, the present invention scans a document and obtains document image data representing the contents of the document, and the document image data generated by the document image data generation unit. From the storage means for storing and the document image data generated by the document image data generation means, the image data of the type region where one or more type characters are written, and one or more handwritten characters are written. Region separating means for cutting out image data of a handwritten area, character recognition processing means for performing character recognition processing on each of the image data of the printed area and the image data of the handwritten area, and outputting a recognized character string; A storage location identifier indicating a storage location of each image data stored in the storage unit, a recognized character string output from the character recognition processing unit, and an image data in the handwriting area. Providing document management support apparatus comprising an index information storage means for respectively associating and storing a character identifier indicating whether a character string representing the image data if it were a string print region representing the data.
この文書管理支援装置によれば、文書画像データから活字文字が記載されている活字領域と手書文字が記載されている手書領域とを分離し、それぞれの文字領域について文字認識を行いインデックスを作成するので、紙文書の余白等にメモとして手書きで記載されたアノテーションもインデックス作成対象とすることができる。従って、活字文字及び手書文字についてのインデックステーブルを作成することができる。また、インデックステーブルには、該インデックステーブルに格納された活字文字及び手書文字に関連づけてそれぞれの文字が含まれる文書画像データが格納されているアドレスも格納されるので、インデックステーブルを参照することにより、所定の文字の所在を特定することができる。 According to this document management support apparatus, a print area in which printed characters are written and a handwritten area in which handwritten characters are written are separated from document image data, character recognition is performed for each character area, and an index is set. Since it is created, an annotation written by hand as a memo in the margin of a paper document can also be set as an index creation target. Therefore, an index table for type characters and handwritten characters can be created. The index table also stores addresses at which document image data containing each character is stored in association with printed characters and handwritten characters stored in the index table. Refer to the index table. Thus, the location of the predetermined character can be specified.
本発明の好ましい態様において、前記領域分離手段は、前記文書画像データから、注目領域を特定する手段と、前記注目領域内において隣り合う2つの文字の間の距離を当該2つの文字列の組毎に求め、求めた各距離のばらつきの程度が所定の範囲を超えないときは前記注目領域が活字領域であると判断する一方で、当該ばらつきの程度が所定の範囲を超えるときは前記注目領域が手書き領域であることを判断する手段とを含むようにしてもよい。 In a preferred aspect of the present invention, the region separating unit determines, from the document image data, a unit for specifying a region of interest and a distance between two characters adjacent to each other in the region of interest for each set of the two character strings. When the degree of variation of each distance obtained does not exceed a predetermined range, it is determined that the region of interest is a type region, while when the amount of variation exceeds a predetermined range, the region of interest is And a means for determining that it is a handwritten area.
一般に、活字文字の隣り合う2つの文字の間隔は一定であるが、手書文字の隣り合う2つの文字の間隔は一定ではない。従って、領域分離手段によって抽出した領域内の文字列の文字の間隔が、所定の値を元に一定であるか否かを判定することにより、該領域が活字及び手書のいずれの文字列で表された画像データであるかを判断することができる。 In general, the interval between two adjacent characters in a printed character is constant, but the interval between two adjacent characters in a handwritten character is not constant. Therefore, by determining whether or not the character spacing of the character string in the region extracted by the region separation means is constant based on a predetermined value, the region can be any character string of type and handwriting. Whether the image data is represented can be determined.
また、検索キーとして入力された文字列と、前記インデックス情報記憶手段に記憶されている認識文字列とを照合することにより、前記インデックス情報記憶手段を検索する検索手段と、前記検索手段が検索した結果を表示する表示手段とを具備するようにしてもよい。これによれば、検索キーとなる文字列を元にインデックステーブルを検索し、検索結果を表示することができる。 Further, a search means for searching the index information storage means by comparing a character string input as a search key with a recognized character string stored in the index information storage means, and the search means You may make it comprise the display means which displays a result. According to this, it is possible to search the index table based on the character string serving as the search key and display the search result.
さらに、前記検索キーとなる文字列を前記手書領域及び前記活字領域のいずれの領域から検索するかを指定する指定手段を具備し、前記検索手段は、前記指定手段によって指定された領域について、前記検索を行うようにしてもよい。 Furthermore, it comprises designation means for designating from which area of the handwriting area and the type area the character string that serves as the search key, and the search means for the area designated by the designation means, The search may be performed.
以下、本発明の実施形態について図面を用いて詳細に説明する。
図1は、本発明に係る文書管理支援装置の1実施形態である文書管理支援システム1の構成例を示すブロック図である。図1の画像読取装置10は、例えばADF(Auto Document Feeder)などの自動給紙機構を備えたスキャナ装置であり、ADFにセットされた紙文書を1ページずつ光学的に読み取り、読み取った画像に対応する画像データを通信線12を介して文書管理支援装置20に転送するものである。通信線12はLAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどを用いることができるが、本実施形態においては、通信線12としてLANを用いている。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a block diagram showing a configuration example of a document
図2は、文書管理支援装置20のハードウェア構成を示すブロック図である。
制御部21は、例えばCPU(Central Processing Unit)であり、各種ソフトウェアを実行することによって、文書管理支援装置20の各部を制御する。通信インタフェス(以下「IF」と称す)部22は通信線12を介して画像読取装置10に接続されており、この通信線12を介して画像読取装置10から送信される画像データを受け取り、制御部21に転送する。
FIG. 2 is a block diagram illustrating a hardware configuration of the document
The
表示部23は、例えば液晶ディスプレイとその駆動回路であり、制御部21から転送されたデータに応じた画像を表示する。操作部24は、例えば、複数の操作子(図示省略)を備えたキーボードおよびマウス等であり、それら操作子の操作内容に応じたデータ(以下、操作内容データ)を制御部21へ出力する。
The
記憶部25は、揮発性記憶部25a、不揮発性記憶部25bを含んでいる。揮発性記憶部25aは、例えばRAM(Random Access Memory)であり、制御部21のワークエリアとして利用される。不揮発性記憶部25bは、例えばハードディスクであり、解析処理プログラムP1等のプログラム及びインデックステーブルT1が格納されている。
The
以下、制御部21が図3(a)乃至(c)に示した文書30乃至32に対して、画像データの解析処理を行う動作について説明する。
文書管理支援装置20の電源(図示略)が投入されると、制御部21は、不揮発性記憶部25bから解析処理プログラムP1を読み出し、図4に示すフローチャートの動作を実行する。
まず、ユーザが画像読取装置10のADFに文書30乃至32をセットし、所定の操作を行うと、文書30乃至32を表す画像が画像読取装置10によって順次読み取られ、その文書に対応する画像データが通信線12を介して画像読取装置10から文書管理支援装置20へ順次送られる。
Hereinafter, an operation in which the
When the power (not shown) of the document
First, when the user sets the
制御部21は、画像読取装置10から送られた画像データを通信IF部22を介して受け取ると(ステップSA10)、受け取った画像データを記憶部25に格納する(ステップSA12)。さらに、制御部21は文書30乃至32の画像データから文書画像データをそれぞれ生成する(ステップSA14)。次に、制御部21は、文書画像データから、活字文字が記されている活字領域の画像データ、及び手書文字が記されている手書領域の画像データをそれぞれ切り出す(ステップSA16)。
When the
活字領域及び手書領域の切出しは以下のように行なわれる。まず、文書画像データによって表される各画素を横方向に走査し、隣り合う2つの文字の間の距離、即ち、連続する白画素の並びの幅が、所定値Xよりも小さかったとき、それらの連続する白画素を黒画素に置き換える。この所定値Xは、隣りにある文字との距離として想定される値と概ね一致させる。同様に、各画素を縦方向にも走査し、連続する白画素の並びの幅が所定値Yよりも小さかったとき、それらの連続する白画素を黒画素に置き換える。この所定値Yは、文字行の間隔として想定される値と概ね一致させる。この結果、黒画素で塗り潰された領域が形成される。図5は、文書30の画像に上述の置き換え処理を施した状態を示すものである。この図では、黒画素で塗り潰された領域L1乃至L6が形成されている。なお、文書31及び32の画像についても同様の動作を行うため、以下の動作説明は、文書30の画像を対象として行う。
The type region and the handwriting region are cut out as follows. First, each pixel represented by the document image data is scanned in the horizontal direction, and when the distance between two adjacent characters, that is, the width of the arrangement of consecutive white pixels is smaller than a predetermined value X, Are replaced with black pixels. The predetermined value X is approximately matched with a value assumed as a distance from the adjacent character. Similarly, each pixel is also scanned in the vertical direction, and when the width of the arrangement of consecutive white pixels is smaller than a predetermined value Y, those consecutive white pixels are replaced with black pixels. This predetermined value Y is generally matched with a value assumed as a character line interval. As a result, a region filled with black pixels is formed. FIG. 5 shows a state in which the above-described replacement processing is performed on the image of the
黒画素で塗り潰された領域が形成されると、今度は、各領域が活字領域か手書領域かの判定に移る。この判定では、まず処理対象となる注目領域を特定し、特定された領域内において置き換えられていた黒画素を白画素に戻し、元の描画内容を復元する。そして、その領域内の画素を横方向に走査し、連続する白画素のピッチのばらつきの程度が所定値よりも小さいか否か判定する。一般に、活字文字が記された領域であれば隣り合う2つの文字の間隔は概ね一定となるため、連続する白画素のピッチのばらつきの程度が所定値よりも小さくなる。一方で、手書文字が記された領域であれば隣り合う文字2つの間隔は一定とならないため、連続する白画素のピッチのばらつきの程度が所定値よりも大きくなる。図5に示したL1乃至L6の領域についての判定の例では、L1乃至L5の領域は活字領域であるとの判定結果が下され、L6の領域は手書領域であるとの判定結果が下される。 When an area filled with black pixels is formed, it is now determined whether each area is a type area or a handwriting area. In this determination, first, an attention area to be processed is specified, black pixels replaced in the specified area are returned to white pixels, and the original drawing content is restored. Then, the pixels in the region are scanned in the horizontal direction, and it is determined whether or not the degree of variation in pitch of consecutive white pixels is smaller than a predetermined value. In general, since the interval between two adjacent characters is substantially constant in a region where printed characters are written, the degree of variation in the pitch of consecutive white pixels becomes smaller than a predetermined value. On the other hand, since an interval between two adjacent characters is not constant in a region where a handwritten character is written, the degree of variation in pitch between consecutive white pixels becomes larger than a predetermined value. In the example of the determination for the areas L1 to L6 shown in FIG. 5, the determination result that the areas L1 to L5 are type areas is given, and the determination result that the area L6 is a handwriting area is lower. Is done.
そして、それぞれの領域についてOCR処理を施し文字認識処理を行い、活字領域から活字文字テキストデータ、手書領域から手書文字テキストデータをそれぞれ生成する(ステップSA18)。続いて、生成したテキストデータについて形態素解析を施し、それぞれのテキストデータから名詞に該当するテキストデータを抽出し(ステップSA20)、インデックステーブルT1に格納する(ステップSA22)。 Then, an OCR process is performed on each area to perform a character recognition process to generate type character text data from the type area and hand letter text data from the hand area (step SA18). Subsequently, the generated text data is subjected to morphological analysis, and the text data corresponding to the noun is extracted from each text data (step SA20) and stored in the index table T1 (step SA22).
ここでインデックステーブルT1について図6を用いて説明する。インデックステーブルT1は図6に示すように、「文字列」、「画像データアドレス」及び「フラグ」フィールドによって構成されている。文字列フィールドには、ステップSA20によって抽出された名詞が格納される。画像データアドレスフィールドには、文書30の画像データの格納場所、つまり不揮発性記憶部25bにおける該画像データの格納場所を示す識別子が、画像データアドレスとして格納される。フラグフィールドには、該抽出されたテキストデータが活字文字テキストデータであるか手書文字テキストデータであるかを識別する識別子が格納される。本実施形態においてフラグフィールドには、活字文字テキストデータであれば「1」、手書文字テキストデータであれば「0」をそれぞれ格納する。
Here, the index table T1 will be described with reference to FIG. As shown in FIG. 6, the index table T1 includes “character string”, “image data address”, and “flag” fields. The noun extracted in step SA20 is stored in the character string field. In the image data address field, an identifier indicating the storage location of the image data of the
以上の結果「あいうえお」、「かきくけこ」等のテキストデータが文字列フィールドに格納される。また、これらのテキストデータに関連づけて、文書30の画像データの画像データアドレス「01」が、画像データアドレスフィールドに格納される。
さらに「あいうえお」、「かきくけこ」のテキストデータが含まれる領域は前述のステップSA16において活字領域(L1)であると判定されているので、活字テキストデータであることを示す「1」がそれぞれのテキストデータに関連づけてフラグフィールドに格納される。テキストデータ「いろは」についても同じように、テキストデータである「いろは」と、文書30の画像の格納場所を示す識別子「01」とが関連づけて格納される。該テキストデータは領域L6に含まれ、領域L6は前述のステップSA16において手書領域であると判定されているので、フラグフィールドには該テキストデータと関連づけて「0」が格納される。
As a result of the above, text data such as “Aiueo” and “Kakikukeko” is stored in the character string field. Further, in association with these text data, the image data address “01” of the image data of the
Furthermore, since the area including the text data of “Aiueo” and “Kakikukeko” is determined to be the type area (L1) in the above step SA16, “1” indicating the type text data is respectively set. Is stored in the flag field in association with the text data. Similarly, the text data “Iroha” is stored in association with the text data “Iroha” and the identifier “01” indicating the storage location of the image of the
次に、制御部21がキーワードを元にインデックステーブルT1を検索する検索動作について説明する。
図7は検索動作を示すフローチャートである。
まず、制御部21は、変数として、該当活字文字列数x、該当手書文字列数y及び該当画像データ数zを設定し、それぞれの変数に初期値を入力する(ステップSB10)。
Next, a search operation in which the
FIG. 7 is a flowchart showing the search operation.
First, the
続いて、図8に示したキーワード入力画面40を表示部23に表示し、ユーザにキーワードを入力させる(ステップSB12)。図8に示したように、キーワード入力画面40は入力ボックス41及び「決定」ボタンBT1により構成されている。このキーワード入力画面40を視認したユーザは、操作部24を操作し、決定ボタンBT1を押下することによって、キーワードを指定することができる。このとき、ユーザによって入力された文字列は「あいうえお」であったとする。操作部24は「あいうえお」を表す文字データを制御部21に供給する。
Subsequently, the
制御部21は、文字データを受け取ると、文字データの内容、すなわち「あいうえお」を元にインデックステーブルT1の文字列フィールドを検索する(ステップSB14)。このとき、インデックステーブルT1の文字列フィールドに、文字データ「あいうえお」と同一のテキストデータが格納されているレコードは3つある。
制御部21は、これらのレコード群を順次揮発性記憶部25bに読み出す(ステップSB16)。図9は読み出したレコード群の一例である。
When receiving the character data, the
The
続いて、制御部21は、抽出したレコード群のフラグフィールドにおいて「1」が格納されているレコードの数を該当活字文字列数xに、「0」が格納されているレコードの数を該当手書文字列数yに代入する(ステップSB18)。すなわち、抽出したレコード群のフラグフィールドにおいて「1」が格納されているレコード数は2つ、「0」が格納されているレコード数は1つであるので、制御部21は該当活字文字列数x=2、該当手書文字列数y=1とする。
Subsequently, the
次に制御部21は、抽出したレコード群のアドレスフィールドにおいて、異なるアドレスがいくつ記憶されているかを検出し、検出した個数を該当画像データ数zに代入する(ステップSB20)。このとき、異なるアドレスは、「01」、「03」の2個である。従って、制御部21は、z=2とする。
Next, the
続いて、制御部21は、抽出したレコード群のアドレスフィールドのうち、アドレスの若い順に画像データを読み出す(ステップSB22)。すなわち、一番若いアドレスは、「01」であるため、制御部21は、まず、アドレス01に格納されている画像データを読み出す。このとき、アドレス01に格納されている画像データは文書30の画像データであるので、制御部21によって、この文書30の画像データが読み出されることになる。
Subsequently, the
そして、制御部21は、文書30の画像データ、前述の該当活字文字列数x、該当手書文字列数y及び該当画像データ数zから生成した検索結果画面40を表示部23に表示する(ステップSB24)。
図10は検索結果画面40を示した図である。図に示したように、検索結果画面40は表示領域42、検索結果欄及び「次画像表示」ボタンBT2によって構成されている。表示領域42には、文書30を表す画像が表示されている。また、検索結果欄には該当活字文字列数x、該当手書文字列数y及び該当画像データ数zがそれぞれ表示されている。
Then, the
FIG. 10 shows the
検索結果画面40を視認したユーザにより、次画像表示ボタンBT2が押下されると、制御部21は、ステップSB16において抽出したレコード群のアドレスフィールドにおいて、2番目に若いアドレスに格納されている画像データを読み出し、読み出した画像データの画像を領域42に表示する。このとき、2番目に若いアドレスに格納されている画像は文書32の画像であるため、領域42には文書32の画像が表示される。このように制御部21は該当する画像を領域42に順次表示する。
When the user viewing the
以上説明したように、本実施形態においては、文書に手書で記載されたアノテーションについても文字認識を行い、インデックステーブルを作成するので、文書に記載されている活字文字のみならず、手書文字に対しても検索を行うことができる。従って、手書文字に重要な情報が含まれている場合や、他者に伝えたいコメントが含まれている場合等、それらの情報も検索結果としてユーザに提示することができる。 As described above, in the present embodiment, character recognition is also performed for annotations written in handwriting on a document and an index table is created, so that not only typed characters written in the document but also handwritten characters You can also search for. Therefore, such information can be presented to the user as a search result when important information is included in the handwritten character or when a comment desired to be communicated to others is included.
[変形例]
本発明は上述した実施形態以外に種々の形態で実施可能である。
(1)手書文字は人によって癖があるため、本来とは違う文字に認識する虞がある。従って、誤認識が起こりやすい文字、例えば「ツ」と「シ」や、「ソ」と「ン」等の文字について、それらを関連づけた類似文字辞書テーブルを不揮発性記憶部25bに記憶させておき、インデックステーブルT1にテキストデータを格納する際、類似文字辞書テーブルを元に作成したテキストデータも格納するようにしても良い。具体的には、ステップSA18(図4参照)における文字認識の結果、「ペーヅ」という文字列を取得した際、ステップSA22において、「ペーヅ」の文字列を示すテキストデータをインデックステーブルT1に格納すると共に、類似文字辞書テーブルを元に変換した「ページ」の文字列を示すテキストデータをインデックステーブルT1に格納する。このときのインデックステーブルT1を図11に例示する。このようにすることで、人の手書文字の癖によって、本来とは違う文字列を示すテキストデータがインデックステーブルT1に格納されていても、類似文字辞書テーブルによって変換されたテキストデータもインデックステーブルT1に格納されるため、検索動作において、本来は抽出されるべき画像データが、手書文字の癖の影響で抽出されないということを防ぐことができる。
[Modification]
The present invention can be implemented in various forms other than the above-described embodiments.
(1) Since handwritten characters are wrinkled by people, they may be recognized as characters different from the original. Therefore, the
(2)また、同義語を関連づけたテーブル(同義語テーブル)を不揮発性記憶部25bに格納しておき、この同義語テーブルを元に拡張したキーワードでインデックステーブルT1を検索するようにしても良い。例えば、同義語テーブルに「白黒」と「モノクロ」とが同義語として格納されており、前述のキーワード入力画面40(図8参照)において、ユーザが入力したキーワードが「白黒」であった場合、制御部21は「白黒」及び「モノクロ」を表すキーワードを元にインデックステーブルT1を検索するようにする。このようにすることで、拡張した条件で画像データを検索することができる。
(2) Further, a table (synonym table) in which synonyms are associated may be stored in the
(3)また、本実施形態においては、制御部21が検索動作を行う際、文字列データのみを用いて検索する場合について示したが、文字列データに加え、活字文字テキストデータ又は手書文字テキストデータのいずれから検索するかという指定を元に検索するようにしてもよい。この場合の一例として、制御部21は、前述のステップSB12において、図12に示したキーワード入力画面50を表示する。図に示したように、キーワード入力画面50はキーワード入力画面40(図8参照)に、活字文字チェックボックス51及び手書文字チェックボックス52によって構成されたチェックボックスが付加されている。制御部21はこれらのチェックボックスの内容に応じて検索する。例えば、ユーザによってキーワード入力画面50の入力ボックス41に入力された文字列が「あいうえお」であり、活字文字チェックボックス51がチェックされた場合、制御部21は、文字列フィールドに「あいうえお」のテキストデータが、フラグフィールドに「1」が格納されているレコードを検索する。
このようにすることで、ユーザの検索目的により合致した条件で検索をすることができる。
(3) In the present embodiment, the case where the
By doing in this way, it is possible to perform a search under conditions that match the search purpose of the user.
(4)また、本実施形態においては、活字文字と手書文字を同一のテーブル(インデックステーブルT1)内に格納する場合を示したが、それぞれを別のテーブルに格納するようにしてもよい。 (4) In the present embodiment, a case has been described in which type characters and handwritten characters are stored in the same table (index table T1), but each may be stored in a separate table.
(5)また、本実施形態においては、画像読取装置10と文書管理支援装置20とをそれぞれ個別のハードウェアとして構成する場合を示したが、両者を一体のハードウェアで構成するようにしてもよい。このとき、通信線12は、係るハードウェア内で画像読取装置10と文書管理支援装置20とを接続する内部バスとなる。
(5) In the present embodiment, the case where the
1・・・文書管理支援システム、10・・・画像読取装置、12・・・通信線、、20・・・文書管理支援装置、21・・・制御部、22・・・通信IF部、23・・・表示部、24・・・操作部、25・・・記憶部、25a・・・揮発性記憶部、25b・・・不揮発性記憶部、26・・・バス
DESCRIPTION OF
Claims (4)
前記文書画像データ生成手段が生成した前記文書画像データを記憶する記憶手段と、
前記文書画像データ生成手段が生成した前記文書画像データから、1又は複数の活字文字が記されている活字領域の画像データと、1又は複数の手書文字が記されている手書領域の画像データとを切り出す領域分離手段と、
前記活字領域の画像データと、前記手書領域の画像データとのそれぞれに文字認識処理を施し、認識文字列を出力する文字認識処理手段と、
前記記憶手段が記憶した各画像データの格納場所を示す格納場所識別子と、前記文字認識処理手段が出力した認識文字列と、前記認識文字列が手書領域の画像データを表す文字列であるか活字領域の画像データを表す文字列であるかを示す文字識別子とをそれぞれ関連づけて記憶するインデックス情報記憶手段と
を具備することを特徴とする文書管理支援装置。 Document image data generation means for scanning a document and obtaining document image data representing the content of the document;
Storage means for storing the document image data generated by the document image data generation means;
From the document image data generated by the document image data generation means, image data of a type region where one or more type characters are written, and an image of a handwritten region where one or more type characters are written Area separation means for cutting out data;
Character recognition processing means for performing character recognition processing on each of the image data of the type region and the image data of the handwriting region, and outputting a recognized character string,
A storage location identifier indicating the storage location of each image data stored in the storage means, a recognized character string output from the character recognition processing means, and whether the recognized character string is a character string representing image data in a handwriting area A document management support apparatus comprising: index information storage means for storing a character identifier indicating whether it is a character string representing image data in a print area in association with each other.
前記注目領域内において隣り合う2つの文字の間の距離を当該2つの文字列の組毎に求め、求めた各距離のばらつきの程度が所定の範囲を超えないときは前記注目領域が活字領域であると判断する一方で、当該ばらつきの程度が所定の範囲を超えるときは前記注目領域が手書き領域であることを判断する手段と
を含むことを特徴とする請求項1記載の文書管理支援装置。 The region separating means specifies a region of interest from the document image data;
A distance between two characters adjacent to each other in the attention area is obtained for each set of the two character strings, and when the degree of variation in the obtained distances does not exceed a predetermined range, the attention area is a type area. The document management support apparatus according to claim 1, further comprising: a unit that determines that the attention area is a handwritten area when the degree of variation exceeds a predetermined range.
前記検索手段が検索した結果を表示する表示手段と
を具備することを特徴とする請求項1又は2記載の文書管理支援装置。 Search means for searching index information by collating a character string input as a search key with a recognized character string stored in the index information storage means;
The document management support apparatus according to claim 1, further comprising: a display unit that displays a search result of the search unit.
前記検索手段は、前記指定手段によって指定された領域について、前記検索を行うことを特徴とする請求項3記載の文書管理支援装置。 Comprising designation means for designating from which of the handwriting area and the type area the character string to be the search key is searched;
4. The document management support apparatus according to claim 3, wherein the search means performs the search for the area designated by the designation means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005191607A JP2007011683A (en) | 2005-06-30 | 2005-06-30 | Document management support device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005191607A JP2007011683A (en) | 2005-06-30 | 2005-06-30 | Document management support device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007011683A true JP2007011683A (en) | 2007-01-18 |
Family
ID=37750096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005191607A Pending JP2007011683A (en) | 2005-06-30 | 2005-06-30 | Document management support device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007011683A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013246762A (en) * | 2012-05-29 | 2013-12-09 | Kddi Corp | Information display device |
JP2015032309A (en) * | 2013-07-31 | 2015-02-16 | 株式会社リコー | Cloud server and image file storage and retrieval system |
CN109145919A (en) * | 2018-08-20 | 2019-01-04 | 贵州宜行智通科技有限公司 | A kind of uncivil poster detection method and device |
JP2021174122A (en) * | 2020-04-21 | 2021-11-01 | 富士通クライアントコンピューティング株式会社 | Information processing device, information processing system, and information processing program |
-
2005
- 2005-06-30 JP JP2005191607A patent/JP2007011683A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013246762A (en) * | 2012-05-29 | 2013-12-09 | Kddi Corp | Information display device |
JP2015032309A (en) * | 2013-07-31 | 2015-02-16 | 株式会社リコー | Cloud server and image file storage and retrieval system |
CN109145919A (en) * | 2018-08-20 | 2019-01-04 | 贵州宜行智通科技有限公司 | A kind of uncivil poster detection method and device |
JP2021174122A (en) * | 2020-04-21 | 2021-11-01 | 富士通クライアントコンピューティング株式会社 | Information processing device, information processing system, and information processing program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4118349B2 (en) | Document selection method and document server | |
US20040139391A1 (en) | Integration of handwritten annotations into an electronic original | |
US8634100B2 (en) | Image forming apparatus for detecting index data of document data, and control method and program product for the same | |
US20060062453A1 (en) | Color highlighting document image processing | |
JP2001126026A (en) | Information input device | |
US20060285748A1 (en) | Document processing device | |
JP2011100356A (en) | Apparatus, method and computer program for creating document image | |
US8134739B2 (en) | Information processing device for outputting reduced-size pages | |
JP5033277B2 (en) | Image processing apparatus, image processing method, and computer-readable recording medium | |
US9881001B2 (en) | Image processing device, image processing method and non-transitory computer readable recording medium | |
JP2007004621A (en) | Document management supporting device, and document management supporting method and program | |
JP2006221569A (en) | Document processing system, document processing method, program, and storage medium | |
JP2007011683A (en) | Document management support device | |
JP2008129793A (en) | Document processing system, apparatus and method, and recording medium with program recorded thereon | |
JP4797507B2 (en) | Translation apparatus, translation system, and program | |
JP2007043662A (en) | Image forming apparatus and image processor | |
JP4747828B2 (en) | History management device | |
JP2010211470A (en) | Document data generation device and document data generation method | |
WO1997004409A1 (en) | File searching device | |
JP3841318B2 (en) | Icon generation method, document search method, and document server | |
US20050256868A1 (en) | Document search system | |
JP2012190357A (en) | Image processing device, image processing method and program | |
JP2010072850A (en) | Image processor | |
JP5445740B2 (en) | Image processing apparatus, image processing system, and processing program | |
Lins et al. | Content recognition and indexing in the LiveMemory platform |