JP2006091994A - 文書情報処理装置および方法、文書情報処理プログラム - Google Patents
文書情報処理装置および方法、文書情報処理プログラム Download PDFInfo
- Publication number
- JP2006091994A JP2006091994A JP2004273511A JP2004273511A JP2006091994A JP 2006091994 A JP2006091994 A JP 2006091994A JP 2004273511 A JP2004273511 A JP 2004273511A JP 2004273511 A JP2004273511 A JP 2004273511A JP 2006091994 A JP2006091994 A JP 2006091994A
- Authority
- JP
- Japan
- Prior art keywords
- information
- document
- analysis
- component
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/131—Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 意味解析手段103は、文書情報入力手段101から入力された文書情報を、文書解析するための文書解析知識を用いて文書解析する。部品化手段(104)は、文書情報入力手段101から入力された文書情報を、編集の単位である情報部品に分割する、インデクシング手段(105)は、意味解析手段103の文書解析結果に基づいて、前記部品化手段104により分割された情報部品にインデクス情報を付与する。情報部品蓄積手段(106)は、情報部品および当該情報部品に付与されたインデクス情報を組にして蓄積する。情報部品検索手段(107)は、前記情報部品を検索する。
【選択図】 図1
Description
また、本発明は、コンピュータに当該発明に相当する手順を実行させるための(或いはコンピュータを当該発明に相当する手段として機能させるための、或いはコンピュータに当該発明に相当する機能を実現させるための)プログラムとしても成立し、該プログラムを記録したコンピュータ読み取り可能な記録媒体としても成立する。
(第1の実施形態)
この第1の実施形態は、インターネット上のコンテンツや電子メール、或いはスキャナとOCRを用いて電子テキスト化された紙メディアコンテンツなど、利用者がPC上で閲覧したコンテンツを分割して部品化し、必要に応じて部品化された情報を検索して編集することができる文書情報処理装置について説明したものである。
図1において、文書情報処理装置100は、情報入力手段101,文書解析知識蓄積手段102,文書解析手段103,部品化手段104,インデクシング手段105,情報部品蓄積手段106,検索手段107から構成されている。
文書解析手段103は、文書解析知識蓄積手段102に蓄積された文書解析知識に基づいて、情報入力手段101に入力された文書情報を解析する。この解析としては、例えば意味解析する。
検索手段107は、情報部品蓄積手段106に蓄積された情報部品をインデクスに基づいて検索する。
編集手段108は、検索手段107によって検索された情報部品の少なくとも一つ以上を利用して、新たなコンテンツを編集する。編集手段108によって編集されたコンテンツは、インデクシング手段105に送られ、新たな情報部品としてインデクスが付与されて情報部品蓄積手段106に蓄積される。
以下、このように構成された文書情報処理装置100の動作について、具体的な情報を用いて説明する。
図2は、情報入力手段101に入力される情報の例を示す図である。
図2(a)〜(d)は、全て株式会社TSBの製品「GB G21」に関する情報である。
図2(a)は株式会社TSBによる製品発表文のウェブコンテンツ(HTML(Hyper Text Markup Language)形式で書かれたデータ)、図2(b)はインターネット上のニュースサイトに掲載された製品紹介記事のウェブコンテンツ(HTML)、図2(c)は販売店からの電子メールによるダイレクトメール(メールヘッダ付きテキスト)、図2(d)はカタログ(紙媒体に印刷されたカタログをスキャナで読み込んだデータ)である。
図4において、文書解析手段103は、情報入力手段101から入力された属性情報に従って文書構造の解析処理を切替える(ステップS401,ステップS404,ステップS406)。
ステップS401の判断がYesの場合、入力された情報はイメージスキャン画像であるので、まず文書解析手段103はOCR処理を施してテキスト化し(ステップS402)、続けてこのテキスト化したテキストに対して文書構造解析処理(a)を施す(ステップS403)。
文書解析手段103は文書構造解析処理(b)〜(d)の解析を行うため、文書解析知識蓄積手段102に蓄積された文書解析知識のうち文書構造解析に関する知識を参照する。
図5(a)はHTMLの文書構造を解析するための知識の例である。
図5(b)は電子メールやプレーンテキストの文書構造を解析するための知識の例である。電子メールやプレーンテキストの文書構造を解析するための知識としては、必ずしも同一のものとする必要はない。
本実施形態において文書構造解析処理(b)(または(c))と、(d)との差異は、それぞれ異なる文書解析知識を参照することによって実現する。つまり、文書構造解析処理(b)〜(d)は、図6に示す共通の処理フローに従い、それぞれ図5(a)〜(b)の知識を参照する。
まず、図3(a)に示したHTMLで記述された情報が入力された場合の文書構造解析処理(b)の動作について図6を用いて説明する。
図3(a)はHTMLで記述された情報であり、図5(a)の知識を参照する。
文書解析手段103は、解析対象データとして図3(a)の文書情報を読み込み、変数Dに代入する(ステップS601)。
次に、文書解析手段103は、パターンマッチの位置(改行文字を含む文書の頭からの文字の位置)を表す変数Iを0に初期化する(ステップS602)。
次に、文書解析手段103は、文書解析知識蓄積手段102に蓄積された文書構造解析知識から、解析知識を一つ取り出す(ステップS603)。ここでは図5(a)に例として示した解析知識501が取り出されたとする。
文書解析手段103は、ステップS606でYesの場合、パターン中に括弧があれば、変数T中の「$n(n=1,2,・・・)」を括弧に対応する文字列で置換する(ステップS607)。なお括弧が2個以上ある場合が上記変数T中の2以上のnに対応する。図3(a)の文書データの場合、3行目の「<TITLE>プレスリリース</TITLE>」がパターンにマッチし、文字列「プレスリリース」がパターン中の括弧に対応するため、変数Tの値が「<構造:タイトル>プレスリリース</構造:タイトル>」に変更される。このときの位置を表す変数Iの値は、改行文字も含め15である。即ち、“<HTML>[改行文字]<HEAD>[改行文字]”(この“[改行文字]”は、実際には1文字)の次の文字(先頭から15文字目)がパターンにマッチしている。
文書解析手段103は、ステップS607の次に、変数D中の「<TITLE>プレスリリース</TITLE>」の箇所を、変数Tの値「<構造:タイトル>プレスリリース</構造:タイトル>」に置換する(ステップS608)。
文書解析手段103は、ステップS610でYesの場合には同じ解析知識について再度ステップS604からステップS606でパターンのマッチがなくなるまで処理を繰り返し、ステップS610でNoの場合には、ステップS611へ進む。
具体的に処理を説明した図3(a)を入力とした場合の出力例は図7(a)である。図3(a)の入力情報はHTMLであるので、出力に「<HTML>」などの文書構造解析結果とは無関係なタグが残っているが、もしこれらのタグを除去する必要があれば既知の技術で容易に除去可能である。
なお、この機能的役割解析処理としては、例えば、次の文献に記載の技術を用いる。Masaru SUZUKI et al., "Customer Support Operation with a Knowledge Sharing System KIDS: An Approach based on Information Extraction and Text Structurization", Proceedings of World Multiconference on Systemics, Cybernetics and Informatics(SCI2001), Vol.7, pp.89-94(2001)。
発表:企業などからの報道発表文。
記事:事実を紹介した新聞や雑誌の記事。
コラム:意見を述べた記事。
##挨拶:電子メールなどでの挨拶文。
解説:用語などの説明文。
図9において、文書解析手段103は、文書構造解析処理および意味属性解析処理が施された解析対象データを読み込み、変数Dに代入する(ステップS901)。
次に、文書解析手段103は、変数Dの値を文書構造解析処理の結果に基づいて分割する。この分割された解析対象データの各部分をここでは単位文書と呼ぶことにする(ステップS902)。なお単位文書の分割の単位は各実施形態の利用目的によって異なってよい。この第1の実施形態では文書構造解析処理の結果を単位とした。しかし、発明はこれに限定されない。例えば文毎、段落毎、文書毎などを単位としてもよい。また、他の変形例としては、入力がHTMLである場合には文書構造解析処理結果のみならずHTMLタグを単位文書分割の区切りとしてもよい。
次に、文書解析手段103は、分割された単位文書を一つずつ取り出し(ステップS904)、更に文書解析知識蓄積手段102に蓄積された機能的役割解析知識を一つずつ取り出す(ステップS905)。
次に、文書解析手段103は、一つの単位文書に対して全ての機能的役割解析知識のパターンをマッチングさせた後(ステップS908のYes)、各作業用変数を比較し、値が最大となった作業用変数に対応する機能的役割を単位文書に割り当てる(ステップS909)。但し、値が最大となる作業用変数が複数ある場合は、複数の機能的役割を割り当てることにする。また、全ての作業用変数の値が0であった場合には特殊な機能的役割として「不定」を割り当てることにする。
単位文書801に対して、ステップS905で取り出した機能的役割解析知識のパターンと順にマッチングが行われる。例えばステップS904で取り出された単位文書801は、図10に示す知識1001のパターンとマッチするので(ステップS906のYes)、ステップS907へ進み、対応する機能的役割である「発表」の作業用変数に「+1」が加算される。単位文書801は、図10に示す他の機能的役割解析知識のパターンとはマッチしないので、ステップS909では単位文書310に対して「発表」が割り当てられる。
以上が、本実施例における文書解析手段103の3つの処理(文書構造解析処理,意味属性解析処理,機能的役割解析処理)の処理内容の説明である。
次に、図12のフローチャートを用いて図1の部品化手段104の処理の流れについて説明する。
部品化手段104は、まず、解析対象のデータを読み込み、書き換えに備えて変数Dに代入しておく(ステップS1201)。
次に、部品化手段104は、変数Dの中から任意の「<機能:*>」タグに囲まれた値を見つけ(ステップS1202)、「<部品>」および「</部品>」タグで囲む(ステップS1203)。このようなタグのサーチやタグの挿入などの処理は、既存のDOM(ドキュメントオブジェクトモデル)やXPathなど公知の技術で実現可能である。ステップS1202において、<機能:*>タグが複数個見つかった場合には、この複数個それぞれに対してステップS1203の処理を行う。ただし、<機能:*>タグが連続して入れ子になっている場合にはそれらのうち最も内側の<機能:*>タグの値のみを処理対象とする。
例えば図11(a)の文書データが入力された場合、ステップS1202において図11の符号1101,1102,1103に示した部分が見つかり、それぞれが<部品>タグによって囲われる。またステップS1204では図11(c)の符号1105,1106に示した部分が見つかり、ステップS1206では図11(b)の符号1104に示した部分が見つかる。
次に、図14のフローチャートを用いて図1のインデクシング手段105の処理の流れについて説明する。
インデクシング手段105は、詳細には図15に示したように、インデクシング戦略知識蓄積手段105aを含んでいる。
情報部品蓄積手段106は、詳細には図16に示したように、文書インデクス106a,部品インデクス106b,戦略インデクス106cから構成されている。
インデクシング手段105は、まず、インデクシングの対象となる文書データを読み込み、変数Dに代入する(ステップS1401)。
次に、インデクシング手段105は、部品化手段104によって部品化されたときの部品タグ(「<部品>」および「</部品>」タグ)によって、変数Dを部品データへと分割する(ステップS1402)。
次に、インデクシング手段105は、インデクシング手段105に入力された基のデータにおいて、ステップS1405で読み出した部品データの部品タグに到達するまでの文書構造タグのパス(階層)を求め、ベクトルv_1に変換する(ステップS1406)。ただし部品タグの内部に文書構造タグを含む場合はこれもv_1に含める。
ここで図17を用いてインデクシング戦略知識の一例を示す。インデクシング戦略知識は、図17に示すように文書構造ベクトル,機能的役割ベクトル,意味属性ベクトルの3つからなるインデクシング戦略選択ベクトルと、インデクシング戦略ベクトルとから構成される。
例えば、意味属性ベクトルにおいてCOMPANYのみが出現する状態は(1,0,0,0,0,0,0,0,0,0,0,0,0,0,0)と表現される。インデクシング戦略ベクトルも、インデクシング戦略選択ベクトルの意味属性ベクトルと同じ基底をとる。
インデクシング手段105は、ステップS1411で取り出したインデクシング戦略知識の各インデクシング戦略選択ベクトルと,ベクトルv_1,v_2,v_3の内積(ベクトルd_1,d_2,d_3)を計算し、これら計算した値を合計することにより部品データとインデクシング戦略選択ベクトルの類似度Sを計算する(ステップS1412)。
v_1=(0,0,1,0,0)
v_2=(1,0,0,0)
v_3=(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)
となる。意味属性ベクトルv_3には意味属性タグが一つもないためこの意味属性ベクトルv_3はヌルベクトルであり、図14のステップS1410でYesとなり、戦略インデクスへの登録は行われない。
v_1=(1,0,0,0,0)
v_2=(0,1,0,0)
v_3=(1,0,1,1,0,1,0,0,0,0,0,0,0,0,0)
となる。ベクトル中に同一の要素が複数ある場合でも、この第1の実施形態ではベクトルの各成分は0または1の値をとるものとしている。
符号901:
d_1=0
d_2=1
d_3=4
類似度S=5
d_1=0
d_2=0
d_3=4
類似度S=4
d_1=0
d_2=0
d_3=1
類似度S=1
即ち、ここでは、<意味:COMPANY>タグが付与された「TSB」,<意味:PRODUCT_CLASS>タグが付与された「デジタルオーディオプレイヤー」と「パソコン」,<意味:PRODUCT_NAME>タグが付与された「GB G21」の4つがそれぞれ重み1となり、<意味:DATE>タグが付与された「4月9日」は重みが0となって戦略インデクスから外されることになる。
このようにして、インデクシング手段105に入力された文書データが情報部品蓄積手段106に格納される。
検索手段107は、詳細には図19に示したように検索戦略知識蓄積手段107aを含んでいるものとする。
図18において、検索手段107は、検索要求の入力を受け付ける(ステップS1801)。
次に、検索手段107は、ステップS1801で受け付けた検索要求に対して、意味解析処理及び部品化処理が未処理であるか否かを判断する(ステップS1802)。
検索手段107は、部品タグの値で文書インデクスを検索し、この検索された各文書の検索スコアを記憶する(ステップS1816)。
次に、検索手段107は、ステップS1815で読み出された検索戦略知識ベクトルについて、各成分に対応する各意味タグに含まれる語の重みに、検索戦略知識ベクトルの成分を係数として掛けて部品インデクスを検索し、この検索された各部品の検索スコアを記憶する(ステップS1817)。
v_1=(0,0,1,0,0)
v_2=(1,0,0,0)
v_3=(0,0,1,1,0,0,1,0,0,0,0,0,0,0,0)
である。図20に示した検索戦略知識の各々の例との類似度を計算すると、
d_1=0
d_2=0
d_3=3
d_i=3
d_1=1
d_2=0
d_3=3
d_i=4
d_1=0
d_2=0
d_3=0
d_i=0
となる。よって、d_iが最大となる検索戦略知識は符号2002となる。
また検索要求中でCOUNTという意味タグが付与されている「5,000曲」は、対応する戦略ベクトルの成分が0であるため、ステップS1816では無視されることになる。
以下、図面を参照しながら本発明の第2の実施形態について説明する。この第2の実施形態では、ユーザはテンプレートを用いて容易に編集することができる。
なお、構成や動作等、第1の実施形態と同じものについては同一符号を付し、説明を省略する。
図21は、本発明の第2の実施形態に係る文書情報処理装置の構成を示す図である。
図21において、文書情報処理装置100は、図1と比較してテンプレート生成手段2101、テンプレート蓄積手段2102が新たに加わっている。
編集手段108は、検索手段107によって検索された情報部品の少なくとも一つ以上を利用して、新たなコンテンツを編集する。編集手段108は、編集したコンテンツをインデクシング手段105に送る。するとインデクシング手段は、新たな情報部品としてインデクスを付与して情報部品蓄積手段106に蓄積する。
図22は、編集手段108を用いた編集作業の画面の一例である。
符号2203は、編集作業のワークペースとなるスクラップブックを示す。符号2201は、図2(b)に含まれる部品を示す。符号2202は、図2(a)に含まれる部品を示す。
このような編集作業は、従来技術に記載した従来のソフトウェア製品にて実現されている。
図23にスクラップブックのデータ表現の一例を示す。
図23(a)は、部品を含まない状態でのスクラップブックのデータを示す。図23(b)は、スクラップブック2203の状態でのスクラップブックのデータを示す。図23(b)に含まれる各部品には、図14のフローチャートのステップS1403において付与された固有のIDが記載されているため、編集手段108において編集作業がなされた後にも各部品の識別が可能である。
テンプレート生成手段2101は、最初に、スクラップブックに含まれる部品を一つ取り出し(ステップS2401)、この取り出した部品に記述された部品IDを情報部品蓄積手段106から読み出す(ステップS2402)。
なお、ステップS2403,ステップS2404,ステップS2405は、具体的にはそれぞれ図14のフローにおけるステップS1406,ステップS1407,ステップS1410と同様に処理できる。
スクラップブック中の全ての部品について処理が完了すると(ステップS2408のYes)、従来から知られているGUI技術によってユーザにテンプレートの名称の入力を要求し(ステップS2409)、部品部分を置換されたスクラップブックをテンプレートとして、ステップS2409で入力されたテンプレートの名称を付与してテンプレート蓄積手段2102に蓄積する。
このようにしてテンプレート生成手段2101によって、図23(b)から変換されたテンプレートの一例を図25に示す。
次に、編集手段108がテンプレートに基づいて編集処理を行う場合の処理の流れを図26を用いて説明する。
この場合、ユーザは編集処理を行いたい複数の文書群を編集手段108に入力する。これらの文書群が意味解析処理と部品化を施されていない場合は、既に説明した文書解析手段103及び部品化手段104によってそれぞれ意味解析処理と部品化を施されるものとする。
次に、編集手段108は、先に図24で説明したようにテンプレート生成手段2101によって求められてテンプレートの各部品に記述された、文書構造ベクトル(v_1),機能的役割ベクトル(v_2),意味属性ベクトル(v_3)を、ステップS2603で取り出したテンプレートから読み出す(ステップS2604〜ステップS2606)。
次に、編集手段108は、S_maxが予め与えられた閾値(S_lim)未満なら(ステップS2616No)、バッファにコピーされたテンプレートの当該部品部分の値を削除する(ステップS2617)。反対に、編集手段108は、S_maxがS_lim以上であれば(ステップS2616のYes)、文書中の部品のうちS_iを最大にする部品を選択し(ステップS2618)、バッファにコピーされたテンプレートの当該部品部分の値を置換する(ステップS2619)。
図25のテンプレートの符号2501の部分について、
v_1=(1,0,0,0,0),
v_2=(0,1,0,0),
v_3=(1.0.1,1,0,1,0,0,0,0,0,0,0,0,0)
である。
符号2701:
v_1’=(0,0,1,0,0),
v_2’=(1,0,0,0),
v_3’=(0.0.0,0,0,0,0,0,0,0,0,0,0,0,0)
符号2702:
v_1’=(1,0,0,0,0),
v_2’=(0,1,0,0),
v_3’=(1.0.1,1,0,1,0,0,0,0,0,0,0,0,0)
符号2703:
v_1’=(1,0,0,0,0),
v_2’=(1,0,0,0),
v_3’=(0.0.0,0,0,0,0,0,0,0,0,0,0,0,1)
符号2704:
v_1’=(0,0,1,0,0),
v_2’=(1,0,0,0),
v_3’=(0.0.0,0,0,0,0,0,0,0,0,0,0,0,0)
符号2705:
v_1’=(1,0,0,0,0),
v_2’=(0,0,1,0),
v_3’=(1.0.1,1,0,1,0,0,0,0,0,0,0,0,0)
符号2706:
v_1’=(0,0,0,0,1),
v_2’=(0,0,0,0),
v_3’=(0.0.0,0,0,0,0,0,0,0,0,0,0,0,0)
となる。
符号2701:S_i=0
符号2702:S_i=6
符号2703:S_i=1
符号2704:S_i=0
符号2705:S_i=5
符号2706:S_i=0
となる。
v_1=(0,0,0,0,1)
v_2=(0,0,0,0)
v_3=(0.0.0,0,0,0,0,0,0,0,0,0,0,0,0)
との類似度は、
符号2701:S_i=0
符号2702:S_i=0
符号2703:S_i=0
符号2704:S_i=0
符号2705:S_i=0
符号2706:S_i=1
となる。
Claims (14)
- 文書情報を入力する文書情報入力手段と、
この文書情報入力手段から入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析する文書解析手段と、
前記文書情報入力手段から入力された文書情報を、編集の単位である情報部品に分割する部品化手段と、
前記文書解析手段の文書解析結果に基づいて前記情報部品にインデクス情報を付与するインデクシング手段と、
前記情報部品および当該情報部品に付与されたインデクス情報を組にして蓄積する情報部品蓄積手段とを備えたことを特徴とする文書情報処理装置。 - 文書情報を入力する文書情報入力手段と、
この文書情報入力手段から入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析する文書解析手段と、
前記文書情報入力手段から入力された文書情報を、編集の単位である情報部品に分割する部品化手段と、
この部品化手段によって分割された情報部品を利用者に選択させる情報部品選択手段と、
前記情報部品選択手段の選択結果に基づいて前記情報部品にインデクス情報を付与するインデクシング手段と、
前記情報部品および当該情報部品に付与されたインデクス情報を組にして蓄積する情報部品蓄積手段とを備えたことを特徴とする文書情報処理装置。 - 更に、前記情報部品蓄積装置から前記情報部品を検索する情報部品検索手段とを備えたことを特徴とする請求項1または2記載の文書情報処理装置。
- 前記文書解析手段は、(1)前記文書情報の文書構造,(2)前記文書情報に含まれる部分の機能的役割,(3)前記文書情報に含まれる語または文節または文の意味属性の内、少なくとも1つの文書解析をすることを特徴とする請求項1乃至3のいずれか1項に記載の文書情報処理装置。
- 前記文書解析手段は、文書情報を意味解析するための意味解析知識を用いて意味解析することを特徴とする請求項1乃至3のいずれか1項に記載の文書情報処理装置。
- 前記部品化手段は、前記文書解析手段の解析結果に基づいて前記文書情報を情報部品に分割することを特徴とする請求項1乃至5のいずれか1項に記載の文書情報処理装置。
- 更に、前記情報部品の編集に用いる編集テンプレートを蓄積する編集テンプレート蓄積手段と、
この編集テンプレート蓄積手段に蓄積されている編集テンプレート,前記文書解析手段の文書解析結果,前記部品化手段の分割結果の3つに基づいて前記情報部品を編集して、新たな文書情報を生成する編集手段とを備えたことを特徴とする請求項1乃至6のいずれか1項に記載の文書情報処理装置。 - 更に、前記文書解析手段による文書解析結果および前記編集手段による編集内容に基づいて前記編集テンプレートを生成する編集テンプレート生成手段を備えたことを特徴とする請求項7記載の文書情報処理装置。
- 前記テンプレート生成手段により生成されたテンプレートを、前記テンプレート蓄積手段に蓄積させる制御手段を備えたことを特徴とする請求項8記載の文書情報処理装置。
- 更に、前記文書解析知識を蓄積する文書解析知識蓄積手段を備えたことを特徴とする請求項1乃至10のいずれか1項に記載の文書情報処理装置。
- 文書情報を入力し、
この入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析し、
前記入力された文書情報を、編集の単位である情報部品に分割し、
前記文書解析結果に基づいて前記情報部品にインデクス情報を付与し、
前記情報部品および当該情報部品に付与されたインデクス情報を組にして蓄積する情報部品蓄積手段とを備えたことを特徴とする文書情報処理方法。 - 文書情報を入力し、
この入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析し、
前記入力された文書情報を、編集の単位である情報部品に分割し、
この分割された情報部品を利用者に選択させ、
この選択の結果に基づいて前記情報部品にインデクス情報を付与し、
前記情報部品および当該情報部品に付与されたインデクス情報を組にして情報部品蓄積手段に蓄積することを特徴とする文書情報処理方法。 - 文書情報処理装置としてコンピュータを機能させるためのプログラムにおいて、
前記プログラムは、前記コンピュータに、
文書情報を入力させ、
この入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析させ、
前記入力された文書情報を、編集の単位である情報部品に分割させ、
前記文書解析結果に基づいて前記情報部品にインデクス情報を付与させ、
前記情報部品および当該情報部品に付与されたインデクス情報を組にして情報部品蓄積手段に蓄積させることを特徴とする文書情報処理プログラム。 - 文書情報処理装置としてコンピュータを機能させるためのプログラムにおいて、
前記プログラムは、前記コンピュータに、
文書情報を入力させ、
この入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析させ、
前記入力された文書情報を、編集の単位である情報部品に分割させ、
この分割された情報部品を利用者に選択させ、
前記選択の結果に基づいて前記情報部品にインデクス情報を付与させ、
前記情報部品および当該情報部品に付与されたインデクス情報を組にして情報部品蓄積手段に蓄積させることを特徴とする文書情報処理プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004273511A JP2006091994A (ja) | 2004-09-21 | 2004-09-21 | 文書情報処理装置および方法、文書情報処理プログラム |
CNB2005100981319A CN100447779C (zh) | 2004-09-21 | 2005-09-07 | 文档信息处理设备及文档信息处理方法 |
US11/230,581 US20060080361A1 (en) | 2004-09-21 | 2005-09-21 | Document information processing apparatus, document information processing method, and document information processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004273511A JP2006091994A (ja) | 2004-09-21 | 2004-09-21 | 文書情報処理装置および方法、文書情報処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006091994A true JP2006091994A (ja) | 2006-04-06 |
Family
ID=36146658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004273511A Pending JP2006091994A (ja) | 2004-09-21 | 2004-09-21 | 文書情報処理装置および方法、文書情報処理プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20060080361A1 (ja) |
JP (1) | JP2006091994A (ja) |
CN (1) | CN100447779C (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009064080A (ja) * | 2007-09-04 | 2009-03-26 | Ricoh Co Ltd | 画像処理装置と画像処理方法とプログラム |
JP2010117764A (ja) * | 2008-11-11 | 2010-05-27 | Nippon Telegr & Teleph Corp <Ntt> | 単語間関連度判定装置、単語間関連度判定方法、プログラムおよび記録媒体 |
US10929446B2 (en) | 2015-03-20 | 2021-02-23 | Kabushiki Kaisha Toshiba | Document search apparatus and method |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006236140A (ja) * | 2005-02-25 | 2006-09-07 | Toshiba Corp | 情報管理装置、情報管理方法、及び情報管理プログラム |
US20070162481A1 (en) * | 2006-01-10 | 2007-07-12 | Millett Ronald P | Pattern index |
US8266152B2 (en) * | 2006-03-03 | 2012-09-11 | Perfect Search Corporation | Hashed indexing |
EP1999565A4 (en) * | 2006-03-03 | 2012-01-11 | Perfect Search Corp | HYPER SPACE INDEX |
US20070255694A1 (en) * | 2006-04-07 | 2007-11-01 | Jianqing Wu | Document-drafting system using document components |
US7689620B2 (en) * | 2006-05-24 | 2010-03-30 | Sizhe Tan | Efficiently and systematically searching stock, image, and other non-word-based documents |
US7774347B2 (en) * | 2007-08-30 | 2010-08-10 | Perfect Search Corporation | Vortex searching |
US7774353B2 (en) * | 2007-08-30 | 2010-08-10 | Perfect Search Corporation | Search templates |
US7912840B2 (en) * | 2007-08-30 | 2011-03-22 | Perfect Search Corporation | Indexing and filtering using composite data stores |
US8032495B2 (en) * | 2008-06-20 | 2011-10-04 | Perfect Search Corporation | Index compression |
US9922022B2 (en) * | 2016-02-01 | 2018-03-20 | Microsoft Technology Licensing, Llc. | Automatic template generation based on previous documents |
US10839149B2 (en) | 2016-02-01 | 2020-11-17 | Microsoft Technology Licensing, Llc. | Generating templates from user's past documents |
US11200217B2 (en) | 2016-05-26 | 2021-12-14 | Perfect Search Corporation | Structured document indexing and searching |
CN107563351A (zh) * | 2017-09-22 | 2018-01-09 | 杰峯信息科技(中山)有限公司 | 一种基于自然语言处理的图像识别方法 |
JP7092998B2 (ja) * | 2018-04-26 | 2022-06-29 | 富士通株式会社 | 分析プログラム及び分析方法 |
US10891321B2 (en) * | 2018-08-28 | 2021-01-12 | American Chemical Society | Systems and methods for performing a computer-implemented prior art search |
CN111026714A (zh) * | 2019-11-07 | 2020-04-17 | 维沃移动通信有限公司 | 一种重命名方法及电子设备 |
CN118277553A (zh) * | 2022-12-29 | 2024-07-02 | 上海智臻智能网络科技股份有限公司 | 文档表示模型训练方法和装置、文档表示方法和装置 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10755A (en) * | 1854-04-11 | Improvement in seed-planters | ||
US6928302B1 (en) * | 1993-04-27 | 2005-08-09 | Broadcom Corporation | Radio card having independent antenna interface supporting antenna diversity |
US5884262A (en) * | 1996-03-28 | 1999-03-16 | Bell Atlantic Network Services, Inc. | Computer network audio access and conversion system |
JP3597940B2 (ja) * | 1996-04-10 | 2004-12-08 | 日本電信電話株式会社 | Html文書本型整形方法及びその装置 |
US5961610A (en) * | 1996-08-13 | 1999-10-05 | General Electric Company | Systems, methods and apparatus for generating and controlling display of medical images |
US6233545B1 (en) * | 1997-05-01 | 2001-05-15 | William E. Datig | Universal machine translator of arbitrary languages utilizing epistemic moments |
US6266683B1 (en) * | 1997-07-24 | 2001-07-24 | The Chase Manhattan Bank | Computerized document management system |
US6192383B1 (en) * | 1998-09-10 | 2001-02-20 | International Business Machines Corporation | Method and system in a computer network for automatically adding synchronization points to network documents |
US6493711B1 (en) * | 1999-05-05 | 2002-12-10 | H5 Technologies, Inc. | Wide-spectrum information search engine |
US6990238B1 (en) * | 1999-09-30 | 2006-01-24 | Battelle Memorial Institute | Data processing, analysis, and visualization system for use with disparate data types |
US20020029207A1 (en) * | 2000-02-28 | 2002-03-07 | Hyperroll, Inc. | Data aggregation server for managing a multi-dimensional database and database management system having data aggregation server integrated therein |
US20020091991A1 (en) * | 2000-05-11 | 2002-07-11 | Castro Juan Carlos | Unified real-time microprocessor computer |
JP2002169834A (ja) * | 2000-11-20 | 2002-06-14 | Hewlett Packard Co <Hp> | 文書のベクトル解析を行うコンピュータおよび方法 |
US20020156756A1 (en) * | 2000-12-06 | 2002-10-24 | Biosentients, Inc. | Intelligent molecular object data structure and method for application in heterogeneous data environments with high data density and dynamic application needs |
US6538606B2 (en) * | 2001-01-26 | 2003-03-25 | Dell Products L.P. | Antenna module interface extension |
WO2003067471A1 (fr) * | 2002-02-04 | 2003-08-14 | Celestar Lexico-Sciences, Inc. | Appareil et procede permettant de traiter des connaissances dans des documents |
US6781052B2 (en) * | 2002-04-12 | 2004-08-24 | Nexpress Solutions, Inc. | High voltage cable EMI shield |
WO2003100659A1 (fr) * | 2002-05-28 | 2003-12-04 | Vladimir Vladimirovich Nasypny | Procede de synthese d'un systeme a auto-apprentissage d'extraction de connaissances a partir de documents textuels pour moteurs de recherche |
US8327442B2 (en) * | 2002-12-24 | 2012-12-04 | Herz Frederick S M | System and method for a distributed application and network security system (SDI-SCAM) |
-
2004
- 2004-09-21 JP JP2004273511A patent/JP2006091994A/ja active Pending
-
2005
- 2005-09-07 CN CNB2005100981319A patent/CN100447779C/zh not_active Expired - Fee Related
- 2005-09-21 US US11/230,581 patent/US20060080361A1/en not_active Abandoned
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009064080A (ja) * | 2007-09-04 | 2009-03-26 | Ricoh Co Ltd | 画像処理装置と画像処理方法とプログラム |
JP2010117764A (ja) * | 2008-11-11 | 2010-05-27 | Nippon Telegr & Teleph Corp <Ntt> | 単語間関連度判定装置、単語間関連度判定方法、プログラムおよび記録媒体 |
US10929446B2 (en) | 2015-03-20 | 2021-02-23 | Kabushiki Kaisha Toshiba | Document search apparatus and method |
Also Published As
Publication number | Publication date |
---|---|
CN1752963A (zh) | 2006-03-29 |
CN100447779C (zh) | 2008-12-31 |
US20060080361A1 (en) | 2006-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006091994A (ja) | 文書情報処理装置および方法、文書情報処理プログラム | |
JP5121146B2 (ja) | 構造化文書管理装置、構造化文書管理プログラムおよび構造化文書管理方法 | |
JPH08241332A (ja) | 全文登録語検索装置および方法 | |
KR20030004150A (ko) | 데이터처리방법 및 시스템 및 그 처리프로그램을 기록한계산기판독이 가능한 기록매체 | |
JP4129048B2 (ja) | 固有表現抽出装置、方法、及びプログラム | |
CN102591897A (zh) | 文件检索装置以及文件检索方法 | |
WO2008041367A1 (fr) | Dispositif de recherche de document, procédé de recherche de document et programme de recherche de document | |
JPH10275222A (ja) | 文書情報管理システム | |
CN101763424B (zh) | 根据文件内容确定特征词并用于检索的方法 | |
JP6868576B2 (ja) | 事象提示システムおよび事象提示装置 | |
JP2007279978A (ja) | 文書検索装置及び文書検索方法 | |
JP3632643B2 (ja) | 構造化文書管理装置 | |
JPH09245052A (ja) | 構造化文書処理装置 | |
JPH117452A (ja) | ネットワークを介した情報収集方法および装置と該方法を実施するプログラムを記録した記録媒体 | |
JP2000020549A (ja) | 文書データベースシステムへの入力支援装置 | |
JP2002169802A (ja) | 公共事業支援統合情報システムにおける電子納品データ作成支援システム及び記録媒体 | |
JP6028905B2 (ja) | 帳票管理装置及び帳票管理方法並びに帳票管理プログラム | |
JP4951407B2 (ja) | コンテンツ部品検索方法及び装置 | |
JP2021081933A (ja) | アーカイブ支援システム | |
JP2003167893A (ja) | 特許文献の理解支援システムおよび特許文献の理解支援プログラム | |
JP2016162040A (ja) | 文書データ処理方法およびシステム | |
JPH09282208A (ja) | テーブル生成方法 | |
EP1072986A2 (en) | System and method for extracting data from semi-structured text | |
JP7377565B2 (ja) | 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム | |
WO2024180608A1 (ja) | データ抽出装置、データ抽出方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090106 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090309 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090609 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091106 |