Nothing Special   »   [go: up one dir, main page]

JP2006091994A - 文書情報処理装置および方法、文書情報処理プログラム - Google Patents

文書情報処理装置および方法、文書情報処理プログラム Download PDF

Info

Publication number
JP2006091994A
JP2006091994A JP2004273511A JP2004273511A JP2006091994A JP 2006091994 A JP2006091994 A JP 2006091994A JP 2004273511 A JP2004273511 A JP 2004273511A JP 2004273511 A JP2004273511 A JP 2004273511A JP 2006091994 A JP2006091994 A JP 2006091994A
Authority
JP
Japan
Prior art keywords
information
document
analysis
component
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004273511A
Other languages
English (en)
Inventor
Masaru Suzuki
優 鈴木
Yasuto Ishitani
康人 石谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2004273511A priority Critical patent/JP2006091994A/ja
Priority to CNB2005100981319A priority patent/CN100447779C/zh
Priority to US11/230,581 priority patent/US20060080361A1/en
Publication of JP2006091994A publication Critical patent/JP2006091994A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 必要な情報を的確に得ることのできる文書情報処理装置を提供する。
【解決手段】 意味解析手段103は、文書情報入力手段101から入力された文書情報を、文書解析するための文書解析知識を用いて文書解析する。部品化手段(104)は、文書情報入力手段101から入力された文書情報を、編集の単位である情報部品に分割する、インデクシング手段(105)は、意味解析手段103の文書解析結果に基づいて、前記部品化手段104により分割された情報部品にインデクス情報を付与する。情報部品蓄積手段(106)は、情報部品および当該情報部品に付与されたインデクス情報を組にして蓄積する。情報部品検索手段(107)は、前記情報部品を検索する。
【選択図】 図1

Description

この発明は、インターネットコンテンツや電子メール等の電子的な情報、或いは紙等の印刷媒体からOCR等の技術によって電子化された情報を検索/編集する文書情報処理装置および方法、文書情報処理プログラムに係る。特に、電子的な情報を複数の部品に部品化する行為、部品化した情報を検索/収集する行為、或いは収集した部品を編集し新たなコンテンツを制作する行為を、支援または自動化する文書情報処理装置に関する。
インターネット利用の普及やデジタルカメラ/スキャナ等の性能向上と普及により、ビジネス/ホームユースの双方において一般の利用者がパーソナルコンピュータ上で多種多様かつ大量の情報を閲覧するようになってきた。これに伴い、閲覧した情報の中から利用者が有用と判断した情報または情報の一部をスクラップとして保存したいというニーズが高まっている。
このニーズに応える従来技術として、閲覧中のコンテンツを直接スクラップできるマイクロソフト株式会社製「OneNote」やユミルリンク株式会社製「紙copi」などのアプリケーションソフトウェアが市販されている。また部品構造が定義された構造化文書を編集する方法(例えば、特許文献1を参照)や、医療向けのイメージングシステムにおいて閲覧する情報のレイアウトをプログラマブルにテンプレート化する方法(例えば、特許文献2を参照)などが提案されている。
特開2002−200284公報 特開平09−217474号公報
これら従来技術では、スクラップの各部品に意味や文脈情報(例えばスクラップの元となった情報(源情報と呼ぶ)の形式、源情報におけるその部品の機能的役割、部品に含まれる各要素の意味属性など)を付与することができないため、スクラップ作業の効率化やスクラップ作業によって制作されるコンテンツ(以下、スクラップページと記す)の再利用については特段の支援を行なうことができない。即ち、ある目的に基づいて集められたスクラップページについて以降も同じ形式の源情報から同じ役割のスクラップを、手間を掛けずに収集したい場合や、スクラップした情報をあるフォーマットのスクラップページに整理した場合に、以降も同様のフォーマットでスクラップページを制作したいというニーズには対応できないという問題があった。
この発明は、必要な情報を的確に得ることのできる文書情報処理装置を提供することを目的とする。また、この発明は、制作されたスクラップページに追加するべきスクラップを容易に収集することができる文書情報処理装置を提供することを目的とする。また、この発明は、利用者が過去に作成したものと同様のスクラップページを制作する場合に、テンプレートに従って容易にスクラップページを制作することのできる文書情報処理装置を提供することを目的とする。
上記の目的を達成するために、この発明においては、文書情報を入力する文書情報入力手段と、この文書情報入力手段から入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析する文書解析手段と、前記文書情報入力手段から入力された文書情報を、編集の単位である情報部品に分割する部品化手段と、前記文書解析手段の文書解析結果に基づいて前記情報部品にインデクス情報を付与するインデクシング手段と、前記情報部品および当該情報部品に付与されたインデクス情報を組にして蓄積する情報部品蓄積手段とを備えたことを特徴とする文書情報処理装置を提供する。
また、上記の目的を達成するために、この発明においては、文書情報を入力する文書情報入力手段と、この文書情報入力手段から入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析する文書解析手段と、前記文書情報入力手段から入力された文書情報を、編集の単位である情報部品に分割する部品化手段と、この部品化手段によって分割された情報部品を利用者に選択させる情報部品選択手段と、前記情報部品選択手段の選択結果に基づいて前記情報部品にインデクス情報を付与するインデクシング手段と、前記情報部品および当該情報部品に付与されたインデクス情報を組にして蓄積する情報部品蓄積手段とを備えたことを特徴とする文書情報処理装置を提供する。
なお、本発明は方法に係る発明としても成立する。
また、本発明は、コンピュータに当該発明に相当する手順を実行させるための(或いはコンピュータを当該発明に相当する手段として機能させるための、或いはコンピュータに当該発明に相当する機能を実現させるための)プログラムとしても成立し、該プログラムを記録したコンピュータ読み取り可能な記録媒体としても成立する。
この発明によれば、文書データの文脈に依存した適切なインデクシングを行うことができる文書情報処理装置および方法、文書情報処理プログラムを提供することができる。
以下、図面を参照しながら本発明の実施形態について説明する。
(第1の実施形態)
この第1の実施形態は、インターネット上のコンテンツや電子メール、或いはスキャナとOCRを用いて電子テキスト化された紙メディアコンテンツなど、利用者がPC上で閲覧したコンテンツを分割して部品化し、必要に応じて部品化された情報を検索して編集することができる文書情報処理装置について説明したものである。
図1は、本発明の第1の実施形態に係る文書情報処理装置の構成を示す図である。
図1において、文書情報処理装置100は、情報入力手段101,文書解析知識蓄積手段102,文書解析手段103,部品化手段104,インデクシング手段105,情報部品蓄積手段106,検索手段107から構成されている。
情報入力手段101は、ユーザが閲覧している情報を読み出し、文書情報処理装置100への入力とする。この第1の実施形態では、読み出す対象の情報は、インターネット上のコンテンツ,電子メール,紙等に印刷された情報がスキャナによって読み込まれ、既存のOCR(Optical Character Reader)技術によって電子情報に変換された情報とする。即ち情報入力手段101は、ユーザがこれらの情報を閲覧しているアプリケーションソフトウェアと通信して情報を読み出す。この情報の読み出し元となるアプリケーションソフトウェアは、本実施形態のために専用に作成されたプログラムであってもよいし、既存のアプリケーションソフトウェアであってもよい。既存のアプリケーションソフトウェアの場合、既存のアプリケーションソフトウェア間の通信技術によって情報を読み出してもよい。
文書解析知識蓄積手段102は、情報入力手段101に入力された文書情報を解析するための文書解析知識を蓄積する。この文書解析としては、例えば意味解析するための意味解析知識を蓄積している。
文書解析手段103は、文書解析知識蓄積手段102に蓄積された文書解析知識に基づいて、情報入力手段101に入力された文書情報を解析する。この解析としては、例えば意味解析する。
部品化手段104は、文書解析手段103の文書解析結果に基づいて情報入力手段101に入力された情報を分割して部品化する。以下、この情報を分割し部品化されたものを情報部品と記す。
インデクシング手段105は、文書解析手段103の文書解析結果に基づいて、部品化手段104によって分割された各情報部品にインデクスを付与し、情報部品蓄積手段106へと蓄積する。
情報部品蓄積手段106は、インデクシング手段105によりインデクスを付与された情報部品を蓄積する。
検索手段107は、情報部品蓄積手段106に蓄積された情報部品をインデクスに基づいて検索する。
編集手段108は、検索手段107によって検索された情報部品の少なくとも一つ以上を利用して、新たなコンテンツを編集する。編集手段108によって編集されたコンテンツは、インデクシング手段105に送られ、新たな情報部品としてインデクスが付与されて情報部品蓄積手段106に蓄積される。
編集手段108による編集画面は、CRTや液晶ディスプレイ等の表示手段109に表示される。
以下、このように構成された文書情報処理装置100の動作について、具体的な情報を用いて説明する。
図2は、情報入力手段101に入力される情報の例を示す図である。
図2(a)〜(d)は、全て株式会社TSBの製品「GB G21」に関する情報である。
図2(a)は株式会社TSBによる製品発表文のウェブコンテンツ(HTML(Hyper Text Markup Language)形式で書かれたデータ)、図2(b)はインターネット上のニュースサイトに掲載された製品紹介記事のウェブコンテンツ(HTML)、図2(c)は販売店からの電子メールによるダイレクトメール(メールヘッダ付きテキスト)、図2(d)はカタログ(紙媒体に印刷されたカタログをスキャナで読み込んだデータ)である。
図2(a)および(b)に示した電子情報についてはインターネットのWebブラウザから情報入力手段101に入力される。図2(c)に示した電子情報については電子メールアプリケーションから情報入力手段101に入力される。図2(d)に示した電子情報についてはイメージスキャンデータのブラウザから情報入力手段101に入力される。
情報入力手段101は、文書情報処理装置100がWebブラウザや電子メールアプリケーションソフトウェアの機能をソフトウェアコンポーネントとして内部に組み込んだアプリケーションソフトウェアとして実現される場合、ソフトウェアコンポーネントのAPIを経由して情報の入力を受け付ける。また、情報入力手段101は、文書情報処理装置100が外部のWebブラウザや電子メールアプリケーションソフトウェアなどと連携して動作するアプリケーションソフトウェアとして実現される場合、外部のアプリケーションソフトウェアと既知のアプリケーションソフトウェア間通信技術によって通信することで情報の入力を受け付ける。
なお、図2(a)および(b)はWebブラウザによって情報を閲覧した場合の例であり、実際に情報入力手段101に入力される情報のソースの例を、それぞれ図3(a)〜(b)に示した。また、図2(c)は電子メールアプリケーションソフトウェアによって情報を閲覧した場合の例であり、実際に情報入力手段101に入力される情報のソースの例を、図3(c)に示した。また、図2(d)はイメージスキャンデータのブラウザによって情報を閲覧した場合の例であり、情報入力手段101にはTIFF等の画像データフォーマットのバイナリデータとして入力される。
情報入力手段101は、入力された情報に、属性情報として情報の入力元の型或いは識別子を付加して、文書解析手段103に送る。この属性情報として付加される情報の入力元の型或いは識別子とは、情報入力手段101が情報の入力を受け付けるために通信を行った、Webブラウザや電子メールアプリケーションソフトウェア、或いはこれらの機能を有するソフトウェアコンポーネントを識別するための属性情報である。
ここでは例として、WebブラウザまたはWebブラウザのソフトウェアコンポーネントの識別子を「INTERNET」とする。また、電子メールアプリケーションソフトウェアまたは電子メールアプリケーションソフトウェアのソフトウェアコンポーネントの識別子を「MAIL」とする。また、イメージスキャンデータのブラウザまたはイメージスキャンデータのブラウザのソフトウェアコンポーネントの識別子を「SCAN」とする。
文書解析手段103は、入力された情報の文書構造、入力された情報に含まれる部分の機能的役割、入力された情報に含まれる語、文節、または文の意味属性について文書解析を行うものとする。この文書解析手段103の処理を図4を用いて説明する。
次に、図4のフローチャートを用いて文書解析手段103の処理の流れについて説明する。
図4において、文書解析手段103は、情報入力手段101から入力された属性情報に従って文書構造の解析処理を切替える(ステップS401,ステップS404,ステップS406)。
文書解析手段103は、情報入力手段101から入力された属性情報が「SCAN」か否かを判断する(ステップS401)。
ステップS401の判断がYesの場合、入力された情報はイメージスキャン画像であるので、まず文書解析手段103はOCR処理を施してテキスト化し(ステップS402)、続けてこのテキスト化したテキストに対して文書構造解析処理(a)を施す(ステップS403)。
イメージスキャン画像に対するOCR処理および文書構造解析処理(a)は既知の技術(例えば、特開2003−288334公報)によって可能であり、ここでは詳説しない。
ステップS401の判断がNoの場合、文書解析手段103は、情報入力手段101から入力された属性情報が「INTERNET」か否かを判断する(ステップS404)。
ステップS404の判断がYesの場合、入力された情報はHTMLで記述されているので、文書解析手段103はHTMLの構造を考慮した文書構造解析処理(b)を行う(ステップS405)。この文書構造解析処理(b)の詳細については後で詳しく説明する。
ステップS404の判断がNoの場合、文書解析手段103は、情報入力手段101から入力された属性情報が「MAIL」か否かを判断する(ステップS406)。
ステップS406の判断がYesの場合、入力された情報には電子メールヘッダが付与れていると考えられるので、文書解析手段103は電子メールヘッダを考慮した文書構造解析処理(c)を行う(S407)。この文書構造解析処理(c)については後で詳しく説明する。
ステップS406の判断がNoの場合、即ち、情報入力手段101から入力された属性情報が「SCAN」,「INTERNET」或いは「MAIL」のいずれでもない場合(ステップS401,ステップS404,ステップS406のいずれもNo)、文書解析手段103は、入力された情報はプレーンテキストで記述されていると仮定して文書構造解析処理(d)を行う(ステップS406)。
なお、この例では属性情報として「SCAN」,「INTERNET」,「MAIL」の場合についてのみ想定しているが、更に異なる識別子について同様に処理を行ってもよい。
ステップS403での文書構造解析処理(a)、ステップS405での文書構造解析処理(b)、ステップS407での文書構造解析処理(c)或いはステップS408での文書構造解析処理(d)の後、文書解析手段103は、意味属性解析処理(ステップS409)を施し、更に機能的役割解析処理(ステップS410)を施し、最後に情報入力手段101から送られた属性情報を付与して(ステップS411)意味解析結果が出力される。
なお、図4では文書構造解析処理(ステップS403,S405,S407,S408)、意味属性解析処理(ステップS409)、機能的役割解析処理(ステップS410)の順に処理したが、本願のいずれの実施形態においても、これらの処理の順序を限定する必要はない。また、必要に応じてこれらの処理の一つ以上を選択的に実施してもよい。
文書解析手段103の文書構造解析処理(b)〜(d)の処理内容について説明する。
文書解析手段103は文書構造解析処理(b)〜(d)の解析を行うため、文書解析知識蓄積手段102に蓄積された文書解析知識のうち文書構造解析に関する知識を参照する。
図5に文書構造解析に関する知識の例を示している。
図5(a)はHTMLの文書構造を解析するための知識の例である。
図5(b)は電子メールやプレーンテキストの文書構造を解析するための知識の例である。電子メールやプレーンテキストの文書構造を解析するための知識としては、必ずしも同一のものとする必要はない。
本実施形態において文書構造解析処理(b)(または(c))と、(d)との差異は、それぞれ異なる文書解析知識を参照することによって実現する。つまり、文書構造解析処理(b)〜(d)は、図6に示す共通の処理フローに従い、それぞれ図5(a)〜(b)の知識を参照する。
[文書構造解析処理(b)の処理]
まず、図3(a)に示したHTMLで記述された情報が入力された場合の文書構造解析処理(b)の動作について図6を用いて説明する。
図3(a)はHTMLで記述された情報であり、図5(a)の知識を参照する。
文書解析手段103は、解析対象データとして図3(a)の文書情報を読み込み、変数Dに代入する(ステップS601)。
次に、文書解析手段103は、パターンマッチの位置(改行文字を含む文書の頭からの文字の位置)を表す変数Iを0に初期化する(ステップS602)。
次に、文書解析手段103は、文書解析知識蓄積手段102に蓄積された文書構造解析知識から、解析知識を一つ取り出す(ステップS603)。ここでは図5(a)に例として示した解析知識501が取り出されたとする。
文書解析手段103は、後に置換処理を行うため、ステップS603において取り出した解析知識501のうち、「文書構造タグ」である「<構造:タイトル>$1</構造:タイトル>」を、変数Tに代入しておく(ステップS604)。
文書解析手段103は、変数Dに記憶された解析対象データに対して、変数Iが示す位置から解析知識501の「パターン」がマッチする箇所をサーチする(ステップS605)。
本実施形態では、パターンとしてPerl言語と呼ばれる既知の技術で利用されている正規表現の形式を採用する。Perl言語及び、この言語の正規表現については、例えば文献、"Learning Perl, 2nd Edition", Randal L. Schwartz & Tom Christiansen(O'Reilly, 1997)により知られている。
図5(a)の解析知識501のパターンの場合、「<TITLE>」という文字列と「</TITLE>]という文字列の間に、0文字以上(*)の任意の文字(.)が存在する場合にマッチする。ここでは任意の文字(.)に改行文字も含むものとしている。また入力された情報に「</TITLE>」という文字列が複数回出現する場合、ここではマッチする文字列の長さが最短になるものが選択されるものとする。要するに、文中、最初に出現する<TITLE>〜</TITLE>間が選択される。
文書解析手段103は、ステップS605でのサーチの結果、パターンにマッチする箇所が見つかったか否かを判断する(ステップS606)。
文書解析手段103は、ステップS606でYesの場合、パターン中に括弧があれば、変数T中の「$n(n=1,2,・・・)」を括弧に対応する文字列で置換する(ステップS607)。なお括弧が2個以上ある場合が上記変数T中の2以上のnに対応する。図3(a)の文書データの場合、3行目の「<TITLE>プレスリリース</TITLE>」がパターンにマッチし、文字列「プレスリリース」がパターン中の括弧に対応するため、変数Tの値が「<構造:タイトル>プレスリリース</構造:タイトル>」に変更される。このときの位置を表す変数Iの値は、改行文字も含め15である。即ち、“<HTML>[改行文字]<HEAD>[改行文字]”(この“[改行文字]”は、実際には1文字)の次の文字(先頭から15文字目)がパターンにマッチしている。
文書解析手段103は、ステップS606でNoの場合、ステップS611へ進む。
文書解析手段103は、ステップS607の次に、変数D中の「<TITLE>プレスリリース</TITLE>」の箇所を、変数Tの値「<構造:タイトル>プレスリリース</構造:タイトル>」に置換する(ステップS608)。
文書解析手段103は、位置を表す変数Iの値は変数Dにおける置換箇所の末尾の次の位置に変更する(ステップS609)。ここではI=41を設定する。即ち、“<HTML>[改行文字]<HEAD>[改行文字]<構造:タイトル>プレスリリース</構造:タイトル>”の次の文字(先頭から41文字目)を設定する。
文書解析手段103は、ステップS609の次に、処理中の解析知識の「繰り返しフラグ」の値が1であるか否かを判断する(ステップS610)。
文書解析手段103は、ステップS610でYesの場合には同じ解析知識について再度ステップS604からステップS606でパターンのマッチがなくなるまで処理を繰り返し、ステップS610でNoの場合には、ステップS611へ進む。
ステップS602〜ステップS610の処理は、対応する解析知識全てに対して繰り返し実行され(ステップS611)、対応する解析知識全てに対して処理が完了すると(ステップS611のYes)、解析結果として変数Dが出力されて(ステップS612)、図6の処理フローは終了する。
図7に文書解析手段103の文書構造解析処理結果の一例を示す。
具体的に処理を説明した図3(a)を入力とした場合の出力例は図7(a)である。図3(a)の入力情報はHTMLであるので、出力に「<HTML>」などの文書構造解析結果とは無関係なタグが残っているが、もしこれらのタグを除去する必要があれば既知の技術で容易に除去可能である。
図7(b)は、図3(b)を入力とした場合の文書構造処理結果の一例である。図3(b)は属性情報が「INTERNET」なので、図5(a)の解析知識によって文書構造解析処理が行われる。
図7(c)は、図3(c)を入力とした場合の文書構造処理結果の一例である。図3(c)は属性情報が「MAIL」なので、図5(b)の解析知識によって文書構造解析処理が行われる。
図2(d)は属性情報が「SCAN」であるため、前述した既知の技術によって文書構造解析処理が行われる。図7(d)は、図2(d)を入力とした場合の文書構造処理結果の一例を示した。
次に、文書解析手段103の意味属性解析処理(図4のステップS409)についてであるが、この処理は既知の技術によって実現可能である。例えば、この既知の技術としては(社)情報処理学会第161回自然言語処理研究会研究報告、NL-161-3 (2004)等を用いればよい。具体的な処理結果は、意味属性解析処理で参照する、文書解析知識蓄積手段102に蓄積されている意味属性解析知識の内容に依存するが、本実施形態においては図8(a)〜(d)に示す処理結果が得られたものとする。
次に、文書解析手段103の機能的役割解析処理(図4のステップS410)について図9を用いて説明する。
なお、この機能的役割解析処理としては、例えば、次の文献に記載の技術を用いる。Masaru SUZUKI et al., "Customer Support Operation with a Knowledge Sharing System KIDS: An Approach based on Information Extraction and Text Structurization", Proceedings of World Multiconference on Systemics, Cybernetics and Informatics(SCI2001), Vol.7, pp.89-94(2001)。
機能的役割解析処理は、各実施形態の利用目的によって文書のどのような機能的役割を解析するべきかが異なる。本実施形態では次の機能的役割を解析するものとする。
発表:企業などからの報道発表文。
記事:事実を紹介した新聞や雑誌の記事。
コラム:意見を述べた記事。
##挨拶:電子メールなどでの挨拶文。
解説:用語などの説明文。
図9は、機能的役割解析処理のフロー示す図である。
図9において、文書解析手段103は、文書構造解析処理および意味属性解析処理が施された解析対象データを読み込み、変数Dに代入する(ステップS901)。
次に、文書解析手段103は、変数Dの値を文書構造解析処理の結果に基づいて分割する。この分割された解析対象データの各部分をここでは単位文書と呼ぶことにする(ステップS902)。なお単位文書の分割の単位は各実施形態の利用目的によって異なってよい。この第1の実施形態では文書構造解析処理の結果を単位とした。しかし、発明はこれに限定されない。例えば文毎、段落毎、文書毎などを単位としてもよい。また、他の変形例としては、入力がHTMLである場合には文書構造解析処理結果のみならずHTMLタグを単位文書分割の区切りとしてもよい。
解析の準備として、機能的役割毎の作業用の変数を用意し、値を0に初期化する(ステップS903)。
次に、文書解析手段103は、分割された単位文書を一つずつ取り出し(ステップS904)、更に文書解析知識蓄積手段102に蓄積された機能的役割解析知識を一つずつ取り出す(ステップS905)。
図10に機能的役割解析知識の一例を示す。各機能的役割解析知識は、「パターン」,「機能的役割」,「重み」の3つの組によって表現される。図10にも示しているように、各パターンには複数の機能的役割および重みが対応していてもよい。
次に、文書解析手段103は、ステップS904で取り出した単位文書とステップS905で取り出したパターンとのマッチングを行う(ステップS906)。なおこの第1の実施形態では、機能的役割解析知識のパターンの記述法およびマッチング手法としては、文書構造解析処理と同様とする。
文書解析手段103は、ステップS906においてパターンがマッチした場合(ステップS906のYes)、対応している機能的役割の作業用の変数に、対応する重みを加算する(ステップS907)。対応している機能的役割が複数ある場合には対応する機能的役割全てに対してそれぞれの重みを加算する。
文書解析手段103は、ステップS905〜ステップS907の処理を、全ての機能的役割解析知識に対して繰り返す(ステップS908)。
次に、文書解析手段103は、一つの単位文書に対して全ての機能的役割解析知識のパターンをマッチングさせた後(ステップS908のYes)、各作業用変数を比較し、値が最大となった作業用変数に対応する機能的役割を単位文書に割り当てる(ステップS909)。但し、値が最大となる作業用変数が複数ある場合は、複数の機能的役割を割り当てることにする。また、全ての作業用変数の値が0であった場合には特殊な機能的役割として「不定」を割り当てることにする。
更に全ての単位文書に対してステップS903〜ステップS909を繰り返し(ステップS910)、全ての単位文書に対すて処理が終了すると(ステップS910のYes)、機能的役割解析処理が終了する。
文書解析手段103は、例えば機能的役割解析処理時に図8(a)のデータが入力された場合、文書構造によって分割される最初の単位文書は「<HTML><HEAD>」となるが、これはHTMLタグのみで構成される単位文書であるので本実施形態においては処理対象とならない。
次の単位文書は「プレスリリース」である。この単位文書は図10に示す機能的役割解析知識のパターンとはマッチしないので、機能的役割としては「不定」が割り当てられる。
更にステップS903〜ステップS910のループが進み、ステップS904で図8(a)の7行目から始まる単位文書801が取り出されたとする。
単位文書801に対して、ステップS905で取り出した機能的役割解析知識のパターンと順にマッチングが行われる。例えばステップS904で取り出された単位文書801は、図10に示す知識1001のパターンとマッチするので(ステップS906のYes)、ステップS907へ進み、対応する機能的役割である「発表」の作業用変数に「+1」が加算される。単位文書801は、図10に示す他の機能的役割解析知識のパターンとはマッチしないので、ステップS909では単位文書310に対して「発表」が割り当てられる。
図11に、図8の各文書データに対する機能的役割解析処理の処理結果の一例を示した。
以上が、本実施例における文書解析手段103の3つの処理(文書構造解析処理,意味属性解析処理,機能的役割解析処理)の処理内容の説明である。
次に、図12のフローチャートを用いて図1の部品化手段104の処理の流れについて説明する。
部品化手段104は、まず、解析対象のデータを読み込み、書き換えに備えて変数Dに代入しておく(ステップS1201)。
次に、部品化手段104は、変数Dの中から任意の「<機能:*>」タグに囲まれた値を見つけ(ステップS1202)、「<部品>」および「</部品>」タグで囲む(ステップS1203)。このようなタグのサーチやタグの挿入などの処理は、既存のDOM(ドキュメントオブジェクトモデル)やXPathなど公知の技術で実現可能である。ステップS1202において、<機能:*>タグが複数個見つかった場合には、この複数個それぞれに対してステップS1203の処理を行う。ただし、<機能:*>タグが連続して入れ子になっている場合にはそれらのうち最も内側の<機能:*>タグの値のみを処理対象とする。
部品化手段104は、ステップS1203の次に、変数Dの中からの「<意味:MAIL_ADDRESS>」タグに囲まれた値を見つけ(ステップS1204)、「<部品>」および「</部品>」タグで囲む(ステップS1205)。ステップS1204において、<意味:MAIL_ADDRESS>タグが複数個見つかった場合には、この複数個それぞれに対してステップS1205の処理を行う。
部品化手段104は、ステップS1205の次に、任意の「<構造:図 *>」タグを見つけ(ステップS1206)、「<構造:図 *>」タグを「<部品>」および「</部品>」タグで囲む(ステップS1207)。ステップS1206において、<構造:図 *>タグが複数個見つかった場合には、この複数個それぞれに対してステップS1207の処理を行う。
部品化手段104は、ステップS1207の次に、ステップS1202〜ステップS1207で書き換えられた変数Dを解析結果として出力し(ステップS1208)、部品化処理を終了する。
次に、実際に例をあげて説明する。
例えば図11(a)の文書データが入力された場合、ステップS1202において図11の符号1101,1102,1103に示した部分が見つかり、それぞれが<部品>タグによって囲われる。またステップS1204では図11(c)の符号1105,1106に示した部分が見つかり、ステップS1206では図11(b)の符号1104に示した部分が見つかる。
図13は、図11(a)〜(d)のそれぞれの文書データを入力とした場合の部品化手段104の処理結果の一例を示す図である。
次に、図14のフローチャートを用いて図1のインデクシング手段105の処理の流れについて説明する。
インデクシング手段105は、詳細には図15に示したように、インデクシング戦略知識蓄積手段105aを含んでいる。
情報部品蓄積手段106は、詳細には図16に示したように、文書インデクス106a,部品インデクス106b,戦略インデクス106cから構成されている。
インデクシング手段105は、まず、インデクシングの対象となる文書データを読み込み、変数Dに代入する(ステップS1401)。
次に、インデクシング手段105は、部品化手段104によって部品化されたときの部品タグ(「<部品>」および「</部品>」タグ)によって、変数Dを部品データへと分割する(ステップS1402)。
次に、インデクシング手段105は、後に参照できるように、各部品に識別子(部品ID)を付与する(ステップS1403)。IDの生成方法については既知の技術によって実現できる。例えば乱数を基にした十分な桁数の数値/アルファベット列などでよい。
次に、インデクシング手段105は、ステップS1403において各部品に部品IDを付与した文書データを、インデクシングして文書インデクス106aに格納する(ステップS1404)。このインデクシング手法については、既知の文書データベース技術で実現されている手法でよい。
次に、インデクシング手段105は、ステップS1402で分割された部品データを一つずつ読み出していく(ステップS1405)。
次に、インデクシング手段105は、インデクシング手段105に入力された基のデータにおいて、ステップS1405で読み出した部品データの部品タグに到達するまでの文書構造タグのパス(階層)を求め、ベクトルv_1に変換する(ステップS1406)。ただし部品タグの内部に文書構造タグを含む場合はこれもv_1に含める。
次に、インデクシング手段105は、インデクシング手段105に入力された基のデータにおいて、ステップS1405で読み出した部品データに到達するまでの機能的役割タグのパス(階層)を求め、ベクトルv_2に変換する(ステップS1407)。
次に、インデクシング手段105は、部品データの値,部品ID,ベクトルv_1,ベクトルv_2の4つを部品インデクス106bに登録する(ステップS1408)。
次に、インデクシング手段105は、ステップS1405において読み出した部品データの値に含まれている意味属性タグ群のラベルを全て取り出し、ベクトルv_3に変換する(ステップS1409)。
次に、インデクシング手段105は、ステップS1409において、もしベクトルv_3がヌルベクトル(成分が全て0)であった場合には(ステップS1410のYes)、戦略インデクス106cへの登録は行わずに後述のステップS1418へと処理を進め、ヌルベクトルでなかった場合には次のステップS1411へ進む(ステップS1410)。なお、ベクトルv_1,ベクトルv_2,ベクトルv_3それぞれへの変換(基底)については図17(a)を用いて後で説明する。
次に、インデクシング戦略知識蓄積手段105aに蓄積されているインデクシング戦略知識を一つ取り出す(ステップS1411)。
ここで図17を用いてインデクシング戦略知識の一例を示す。インデクシング戦略知識は、図17に示すように文書構造ベクトル,機能的役割ベクトル,意味属性ベクトルの3つからなるインデクシング戦略選択ベクトルと、インデクシング戦略ベクトルとから構成される。
図17(a)は、上から文書構造ベクトル,機能的役割ベクトル,意味属性ベクトルの基底となる成分を表している。
例えば、意味属性ベクトルにおいてCOMPANYのみが出現する状態は(1,0,0,0,0,0,0,0,0,0,0,0,0,0,0)と表現される。インデクシング戦略ベクトルも、インデクシング戦略選択ベクトルの意味属性ベクトルと同じ基底をとる。
図17(b)の符号901,902,903は、それぞれインデクシング戦略知識の一例である。「文書構造」,「機能的役割」,「意味属性」と示されたそれぞれのベクトルがインデクシング戦略選択ベクトルの成分ベクトルである。また、図17(b)において「戦略ベクトル」と示されたベクトルがインデクシング戦略ベクトルである。この第1の実施形態では、インデクシング戦略知識ベクトルは各成分が0または1のいずれかの値をもつとする。
図14に戻ってインデクシング手段105の処理について説明を続ける。
インデクシング手段105は、ステップS1411で取り出したインデクシング戦略知識の各インデクシング戦略選択ベクトルと,ベクトルv_1,v_2,v_3の内積(ベクトルd_1,d_2,d_3)を計算し、これら計算した値を合計することにより部品データとインデクシング戦略選択ベクトルの類似度Sを計算する(ステップS1412)。
インデクシング手段105は、このステップS1411〜ステップS1412の処理を、全てのインデクシング戦略知識に対して繰り返し処理する(ステップS1413)。
インデクシング手段105は、ステップS1413の次に、全てのインデクシング戦略知識に対して、類似度Sが予め与えられた閾値S_limよりも小さい場合には、戦略インデクス106cへの登録は行わずに後述するステップS1418へ処理を進め、小さくない場合には次のステップS1415へ処理を進める(ステップS1414)。
ステップS1414では、インデクシング手段105は、閾値S_limよりも大きく、かつ類似度Sが最大になるインデクシング戦略選択ベクトルに対応するインデクシング戦略知識ベクトルv_sをインデクシング戦略知識蓄積手段105aから読み出す(ステップS1415)。
インデクシング手段105は、ステップS1415の次に、部品データの意味属性ベクトル(ベクトルv_3)と、インデクシング戦略知識ベクトル(ベクトルv_s)の各成分同士を掛け合わせたものを新たなベクトルv_3とする(ステップS1416)。
次に、インデクシング手段105は、この新たなベクトルv_3の各成分を、対応する意味属性が付与された語の重みとして部品IDと共に戦略インデクス106cに登録する(ステップS1417)。
インデクシング手段105は、ステップS1405〜ステップS1417の処理を、全ての文書データ(変数D)に含まれる全ての部品について繰り返す(ステップS1418)。
例えば図13(a)が文書データとしてインデクシング手段105に入力された場合、図13(a)の最初の部品1301の部品ベクトルは、図14のステップS1406,S1407,S1409から、
v_1=(0,0,1,0,0)
v_2=(1,0,0,0)
v_3=(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)
となる。意味属性ベクトルv_3には意味属性タグが一つもないためこの意味属性ベクトルv_3はヌルベクトルであり、図14のステップS1410でYesとなり、戦略インデクスへの登録は行われない。
図13(a)の次の部品1302の部品ベクトルは、
v_1=(1,0,0,0,0)
v_2=(0,1,0,0)
v_3=(1,0,1,1,0,1,0,0,0,0,0,0,0,0,0)
となる。ベクトル中に同一の要素が複数ある場合でも、この第1の実施形態ではベクトルの各成分は0または1の値をとるものとしている。
図13(a)の部品1302の場合について、図17(b)の符号901,902,903のインデクシング戦略選択ベクトルとの類似度をそれぞれ計算すると次のようになる。
符号901:
d_1=0
d_2=1
d_3=4
類似度S=5
符号902:
d_1=0
d_2=0
d_3=4
類似度S=4
符号903:
d_1=0
d_2=0
d_3=1
類似度S=1
この結果、類似度Sは符号901の場合が最も大きくなり、インデクシング手段105は、ベクトルv_3に符号901のインデクシング戦略ベクトルの各成分をかけた新たなベクトル(1,0,1,1,0,0,0,0,0,0,0,0,0,0,0)を、各成分に対応する意味属性が付与された語の重みとして戦略インデクス106cに登録する。
即ち、ここでは、<意味:COMPANY>タグが付与された「TSB」,<意味:PRODUCT_CLASS>タグが付与された「デジタルオーディオプレイヤー」と「パソコン」,<意味:PRODUCT_NAME>タグが付与された「GB G21」の4つがそれぞれ重み1となり、<意味:DATE>タグが付与された「4月9日」は重みが0となって戦略インデクスから外されることになる。
このようにして、インデクシング手段105に入力された文書データが情報部品蓄積手段106に格納される。
次に、図18のフローチャートを用いて図1の検索手段107の処理の流れについて説明する。
検索手段107は、詳細には図19に示したように検索戦略知識蓄積手段107aを含んでいるものとする。
図18において、検索手段107は、検索要求の入力を受け付ける(ステップS1801)。
次に、検索手段107は、ステップS1801で受け付けた検索要求に対して、意味解析処理及び部品化処理が未処理であるか否かを判断する(ステップS1802)。
検索手段107は、ステップS1802の判定結果が、意味解析処理及び部品化処理が未処理であった場合には(ステップS1802のYes)、文書解析手段103によって意味解析処理(ステップS1803)、部品化手段104によって部品化処理(ステップS1804)を施す。
次に、検索手段107は、予め或いはステップS1803〜ステップS1804によって意味解析処理と部品化処理が施された検索要求を、部品タグによって分割する(ステップS1805)。
次に、検索手段107は、ステップS1805により分割された部品を一つずつ読み出し(ステップS1806)、文書データにおける構造タグのパスをベクトル化し(ステップS1807)、文書データにおける機能タグのパスをベクトル化し(ステップS1808)、部品に含まれる意味属性タグ群のラベルをベクトル化する(ステップS1809)。
ステップS1807〜ステップS1809の各ベクトル化処理の詳細は、それぞれ図14におけるステップS1406、ステップS1407、ステップS1409と同様である。
ここでは、ステップS1807によって得られたベクトルをv_1、ステップS1808によって得られたベクトルをv_2、ステップS1809によって得られたベクトルをv_3とする。
検索手段107に含まれる検索戦略知識蓄積手段107aから検索戦略知識を一つ取り出し(ステップS1810)、この検索戦略知識に含まれる文書構造ベクトル,機能的役割ベクトル、意味属性ベクトルと、部品に含まれる各ベクトルとの内積(それぞれd_1,d_2,d_3とする)を計算し、これらを合計することにより、検索戦略ベクトルと部品ベクトルとの類似度D_iを計算する(ステップS1811)。この合計値を類似度D_iとする。この類似度の計算方法は図14におけるステップS1412と同様である。
次に、検索手段107は、全ての検索戦略知識について類似度D_iを求め(ステップS1812)、類似度D_iの最大値が予め与えられた閾値D_lim未満か否かを判断する(ステップS1813)。
類似度D_iの最大値がD_lim未満であれば(ステップS1813のYes)、検索戦略ベクトルは全ての成分が0であるヌルベクトルとする(ステップS1814)。
類似度D_iの最大値がD_lim未満でなければ(ステップS1813のNo)、類似度D_iを最大にする検索戦略知識から検索戦略ベクトルを読み出す(ステップS1815)。
次に検索手段107は検索処理を実行する。ここでは次に述べる3系統の検索結果から、統合された検索結果を出力するものとする。
検索手段107は、部品タグの値で文書インデクスを検索し、この検索された各文書の検索スコアを記憶する(ステップS1816)。
次に、検索手段107は、ステップS1815で読み出された検索戦略知識ベクトルについて、各成分に対応する各意味タグに含まれる語の重みに、検索戦略知識ベクトルの成分を係数として掛けて部品インデクスを検索し、この検索された各部品の検索スコアを記憶する(ステップS1817)。
次に、検索手段107は、部品タグの値で戦略インデクスを検索し、この検索された各部品の検索スコアを記憶する(ステップS1818)。なお、それぞれの検索(スコアリング)処理は既知の手法でありここでは詳説しない。
次に、検索手段107は、ステップS1816〜ステップS1818で記憶されたスコアを、文書毎、或いは部品毎に加算して更に記憶する(ステップS1819)。
次に、検索手段107は、部品化された検索要求の各部品についてステップS1806〜ステップS1819を処理する(ステップS1820)。
次に、検索手段107は、検索要求全体について検索処理を実行すると、ステップS1819において加算され記憶されたスコアに従って、検索された文書、或いは部品をソートし(ステップS1821)、このソート結果を出力する(ステップS1822)。ここでは文書と部品は別々にソートして出力するものとする。
今、登録される文書の例として前に示した図13(d)の603を、改めて検索要求の具体例としてみると、
v_1=(0,0,1,0,0)
v_2=(1,0,0,0)
v_3=(0,0,1,1,0,0,1,0,0,0,0,0,0,0,0)
である。図20に示した検索戦略知識の各々の例との類似度を計算すると、
符号2001の戦略ベクトル:
d_1=0
d_2=0
d_3=3
d_i=3
符号2002の戦略ベクトル:
d_1=1
d_2=0
d_3=3
d_i=4
符号2003の戦略ベクトル:
d_1=0
d_2=0
d_3=0
d_i=0
となる。よって、d_iが最大となる検索戦略知識は符号2002となる。
もしD_limが4以下であれば、符号2002の戦略ベクトル、(0.5,0,0.5,1,0,0,0,0,0,0,0,0,0,0,0)がステップS1816で利用されることになる。つまり検索要求中で意味タグとしてPRODUCT_NAMEが付与されている語「GB G21」の重みを1、PRODUCT_CLASSが付与されている語「ポータブルオーディオプレイヤー」の重みを0.5、それ以外の語の重みを0として部品インデクスを検索する。
戦略ベクトル中ではCOMPANYの成分が0.5となっているが検索要求中に対応する意味タグがないためここでは無視される。
また検索要求中でCOUNTという意味タグが付与されている「5,000曲」は、対応する戦略ベクトルの成分が0であるため、ステップS1816では無視されることになる。
またステップS1817では、インデクシング手段105によって戦略インデクスに登録された語だけが検索対象となるので、例えば図13(a)の符号1302の場合であれば、前述の通り「TSB」,「デジタルオーディオプレイヤー」,「パソコン」,「GB G21」が重要視されることになる。
以上説明した通りこの発明によれば、文書データの各部の文書構造、機能的役割、含まれる意味属性に依存してインデクスにおける各語の重みを適切に変更することにより、文書データの文脈に依存した適切なインデクシングを行うことができる文書情報処理装置を提供することができる。例えば、文脈毎に重要な語を検索され易くしたり、ゴミとなり得る語を予め除去しておくといった高度な制御が可能となる。
また、検索要求の文脈にも依存した検索を行うことで、必要な情報を的確に得ることのできる文書情報処理装置を提供することができる。例えば、検索要求として文書データの一部(部品)を与えた時には、検索要求である部品を含む文書データの文書構造,機能的役割,検索要求に含まれる意味属性に依存して検索キーワードとなる各語の重みを適切に変更することにより、検索要求の文脈に依存した高度な検索制御が可能となる。
本実施形態は、典型的には、ソフトウェアで制御されるコンピュータにより実現される。この場合のソフトウェアは、プログラムやデータを含み、コンピュータのハードウェアを物理的に活用することで本発明の作用効果を実現するものであり、従来技術を適用可能な部分には好適な従来技術が適用される。更に、本発明を実現するハードウェアやソフトウェアの具体的な種類や構成、ソフトウェアで処理する範囲などは自由に変更可能である。従って、以下の説明では、本発明を構成する機能ごとにブロック化して図示した仮想的機能ブロック図を用いる。なお、コンピュータを動作させて本発明を実現するためのプログラムも、本発明の一態様である。
(第2の実施形態)
以下、図面を参照しながら本発明の第2の実施形態について説明する。この第2の実施形態では、ユーザはテンプレートを用いて容易に編集することができる。
なお、構成や動作等、第1の実施形態と同じものについては同一符号を付し、説明を省略する。
図21は、本発明の第2の実施形態に係る文書情報処理装置の構成を示す図である。
図21において、文書情報処理装置100は、図1と比較してテンプレート生成手段2101、テンプレート蓄積手段2102が新たに加わっている。
編集手段108は、検索手段107によって検索された情報部品の少なくとも一つ以上を利用して、新たなコンテンツを編集する。編集手段108は、編集したコンテンツをインデクシング手段105に送る。するとインデクシング手段は、新たな情報部品としてインデクスを付与して情報部品蓄積手段106に蓄積する。
編集手段108は、検索手段107によって検索された情報部品を利用して新たなコンテンツを編集するとした。しかし、編集手段108は、例えばファイルに出力された情報部品をファイル名によって呼び出すなど、検索手段107とは別の手段によって得られた情報部品を利用して編集してもよい。また編集手段108は、テンプレートに従って編集を処理することもできる。テンプレート蓄積手段2102は、編集手段108が編集するためのテンプレートを蓄積する。
テンプレート蓄積手段2102に蓄積されるテンプレートは、本発明の文書情報処理装置には含まれない手段によって作成されてもよいし、ユーザが編集手段108を用いて行った編集処理の内容を反映して生成されてもよい。
テンプレート生成手段2101は、文書解析手段103による文書解析結果と、編集手段108の編集処理内容に基づいて編集処理用のテンプレートを生成し、テンプレート蓄積手段2102に蓄積する。
まず編集手段108について説明する。
図22は、編集手段108を用いた編集作業の画面の一例である。
符号2203は、編集作業のワークペースとなるスクラップブックを示す。符号2201は、図2(b)に含まれる部品を示す。符号2202は、図2(a)に含まれる部品を示す。
スクラップブック2203上には、部品2201および部品2202が配置されている。
このような編集作業は、従来技術に記載した従来のソフトウェア製品にて実現されている。
図23にスクラップブックのデータ表現の一例を示す。
図23(a)は、部品を含まない状態でのスクラップブックのデータを示す。図23(b)は、スクラップブック2203の状態でのスクラップブックのデータを示す。図23(b)に含まれる各部品には、図14のフローチャートのステップS1403において付与された固有のIDが記載されているため、編集手段108において編集作業がなされた後にも各部品の識別が可能である。
次に、図24のフローチャートによりテンプレート生成手段2101の動作について説明する。
テンプレート生成手段2101は、最初に、スクラップブックに含まれる部品を一つ取り出し(ステップS2401)、この取り出した部品に記述された部品IDを情報部品蓄積手段106から読み出す(ステップS2402)。
次に、テンプレート生成手段2101は、ステップS2402において読み出した部品IDを手掛かりに部品が元々含まれていた文書データを取り出す(ステップS2403)。
文書データにおいて、部品データの部品タグに到達するまでの文書構造タグのパス(階層)を求め、ベクトルv_1に変換する(ステップS2404)。但し、部品タグの内部に文書構造タグを含む場合はこれもベクトルv_1に含める。同様に、文書データの部品データに到達するまでの機能的役割タグのパス(階層)を求め、ベクトルv_2に変換する(ステップS2405)。
更に、部品データの値に含まれる、意味属性タグのラベルを全て取り出し、ベクトルv_3に変換する(ステップS2406)。
なお、ステップS2403,ステップS2404,ステップS2405は、具体的にはそれぞれ図14のフローにおけるステップS1406,ステップS1407,ステップS1410と同様に処理できる。
次に、テンプレート生成手段2101は、作成されたベクトルv_1,v_2,v_3の3つのベクトルをそれぞれ文字列に変換し、スクラップブックの部品情報と置換する(ステップS2407)。
ステップS2401〜ステップS2406の処理はスクラップブック中の全ての部品について繰り返される(ステップS2408)。
スクラップブック中の全ての部品について処理が完了すると(ステップS2408のYes)、従来から知られているGUI技術によってユーザにテンプレートの名称の入力を要求し(ステップS2409)、部品部分を置換されたスクラップブックをテンプレートとして、ステップS2409で入力されたテンプレートの名称を付与してテンプレート蓄積手段2102に蓄積する。
このようにして、テンプレート生成手段2101はテンプレートを生成し、テンプレート蓄積手段2102に蓄積する。
このようにしてテンプレート生成手段2101によって、図23(b)から変換されたテンプレートの一例を図25に示す。
次に、編集手段108がテンプレートに基づいて編集処理を行う場合の処理の流れを図26を用いて説明する。
この場合、ユーザは編集処理を行いたい複数の文書群を編集手段108に入力する。これらの文書群が意味解析処理と部品化を施されていない場合は、既に説明した文書解析手段103及び部品化手段104によってそれぞれ意味解析処理と部品化を施されるものとする。
まず、編集手段108は、文書群の入力を受け付ける(ステップS2601)。ここでは複数の文書を一度に入力する場合について考えているが、文書を一つずつ与えて順次処理をしてもよい。
次に、編集手段108は、テンプレートに付与された名称を手がかりにユーザによって予め選択されたテンプレートを読み込み、後に書き換えを行うためにバッファにコピーしておく(ステップS2602)。
次に、編集手段108は、テンプレートから一つ部品を取り出す(ステップS2603)。
次に、編集手段108は、先に図24で説明したようにテンプレート生成手段2101によって求められてテンプレートの各部品に記述された、文書構造ベクトル(v_1),機能的役割ベクトル(v_2),意味属性ベクトル(v_3)を、ステップS2603で取り出したテンプレートから読み出す(ステップS2604〜ステップS2606)。
次に、編集手段108は、ステップS2601で入力された文書群から文書を一つ取り出し(ステップS2607)、この取り出した文書から部品を一つ読み出す(ステップS2608)。
次に、編集手段108は、ステップS2608で読み出した部品について、図24のステップS2404〜ステップS2406と同様の手順で、文書構造ベクトル(v_1’)、機能的役割ベクトル(v_2’)、意味属性ベクトル(v_3’)を求める(ステップS2609〜ステップS2611)。
次に、編集手段108は、ステップS2604〜ステップS2606で読み出したベクトルと、ステップS2609〜ステップS2611で求めたベクトルについて、ベクトルv_1とv_1’の内積(s_1)、ベクトルv_2とv_2’の内積(s_2)、ベクトルv_3とv_3’の内積(s_3)を求め、これによって部品間の類似度S_i(=s_1+s_2+s_3)を求めて一時的に記憶する(ステップS2612)。
次に、編集手段108は、ステップS2608〜ステップS2612の処理を、ステップS2607で取り出した文書に含まれる全ての部品について繰り返し(ステップS2612)、更にステップS2601で入力された文書群中の全ての文書について繰り返す(ステップS2614)。
次に、編集手段108は、ステップS2612で一時的に記憶していた各S_iの中から、最大値(S_max)を求める(ステップS2615)。
次に、編集手段108は、S_maxが予め与えられた閾値(S_lim)未満なら(ステップS2616No)、バッファにコピーされたテンプレートの当該部品部分の値を削除する(ステップS2617)。反対に、編集手段108は、S_maxがS_lim以上であれば(ステップS2616のYes)、文書中の部品のうちS_iを最大にする部品を選択し(ステップS2618)、バッファにコピーされたテンプレートの当該部品部分の値を置換する(ステップS2619)。
次に、編集手段108は、ステップS2603〜ステップS2619の処理を、ステップS2602で入力されたテンプレートに含まれる全ての部品について繰り返す(ステップS2620)。
以上のフローにより適宜置換処理が行われたバッファ中のテンプレートを、編集結果として出力し(ステップS2621)処理を終了する。
例えば、図25に示したテンプレートを指定し、図27(a)及び(b)を文書群として入力した場合を考える。
図25のテンプレートの符号2501の部分について、
v_1=(1,0,0,0,0),
v_2=(0,1,0,0),
v_3=(1.0.1,1,0,1,0,0,0,0,0,0,0,0,0)
である。
一方,図27の符号2701〜2706の各部分それぞれについて、
符号2701:
v_1’=(0,0,1,0,0),
v_2’=(1,0,0,0),
v_3’=(0.0.0,0,0,0,0,0,0,0,0,0,0,0,0)
符号2702:
v_1’=(1,0,0,0,0),
v_2’=(0,1,0,0),
v_3’=(1.0.1,1,0,1,0,0,0,0,0,0,0,0,0)
符号2703:
v_1’=(1,0,0,0,0),
v_2’=(1,0,0,0),
v_3’=(0.0.0,0,0,0,0,0,0,0,0,0,0,0,1)
符号2704:
v_1’=(0,0,1,0,0),
v_2’=(1,0,0,0),
v_3’=(0.0.0,0,0,0,0,0,0,0,0,0,0,0,0)
符号2705:
v_1’=(1,0,0,0,0),
v_2’=(0,0,1,0),
v_3’=(1.0.1,1,0,1,0,0,0,0,0,0,0,0,0)
符号2706:
v_1’=(0,0,0,0,1),
v_2’=(0,0,0,0),
v_3’=(0.0.0,0,0,0,0,0,0,0,0,0,0,0,0)
となる。
従って、符号2501の部分との間の類似度はそれぞれ、
符号2701:S_i=0
符号2702:S_i=6
符号2703:S_i=1
符号2704:S_i=0
符号2705:S_i=5
符号2706:S_i=0
となる。
よって、類似度は符号2702の部分が最大となる。もし閾値S_maxが5以下であれば、テンプレートである図25の符号2501の部分が符号2702の部分で置換される。
この例では,符号2702の部分および符号2705の部分は、意味属性ベクトルとしては符号2501の部分と等価であるが、機能的役割ベクトルの違いによってより適切な部品として符号2702の部分が選択されることを示している。
同様に,符号2502の部分のベクトル、
v_1=(0,0,0,0,1)
v_2=(0,0,0,0)
v_3=(0.0.0,0,0,0,0,0,0,0,0,0,0,0,0)
との類似度は、
符号2701:S_i=0
符号2702:S_i=0
符号2703:S_i=0
符号2704:S_i=0
符号2705:S_i=0
符号2706:S_i=1
となる。
よって、類似度は符号2706の部分が最大となる。もし閾値S_maxが0であれば、テンプレートである図25の符号2502の部分が符号2706の部分で置換される。
ここでは符号2501の部分および符号2502の部分が共に置換されたものとすると、編集結果は図28(a)のようになる。図28(b)は編集結果をブラウザで表示した例である。
以上説明した通りこの発明によれば第1の実施形態の効果に加え、更に、制作されたスクラップページに追加するべきスクラップを容易に収集することができる文書情報処理装置を提供することができる。即ち、テンプレートと同様のスクラップページをユーザが再度制作することが非常に簡便に行うことができる。例えば図26のフローに従えば、編集手段108がテンプレート蓄積手段2102に蓄積されたテンプレートに基づいて自動的に編集処理を行うことができる。
また、制作されたスクラップページにおけるスクラップ部品の組み合わせからスクラップページのテンプレートが生成されるので、利用者が再度同様のスクラップページを制作する場合に、テンプレートに従って容易にスクラップページを制作することのできる文書情報処理装置を提供することができる。
本発明の文書情報処理装置は、ワークステーション(WS)やパーソナルコンピュータ(PC)等のコンピュータで動作させるプログラムとして実現することができる。
図29は本発明の文書情報処理装置をコンピュータで実現するときの構成の例を示す図である。このコンピュータは、プログラムを実行する中央演算装置2901と、プログラムやプログラムが処理中のデータを格納するメモリ2902と、プログラム、検索対象のデータ及びOS(Operating System)を格納しておく磁気ディスクドライブ2903と、光ディスクにプログラムやデータを読み書きする光ディスクドライブ2904とを備える。
さらに、ディスプレイ等に画面を表示させるためのインターフェースである画像出力部2905と、キーボード・マウス・タッチパネル等からの入力を受ける入力受付部2906と、外部機器との出入力インターフェース(例えばUSB(Universal Serial Bus)、音声出力端子等)である出入力部2907とを備える。また、LCD、CRT、プロジェクタ等の表示装置2908と、キーボードやマウス等の入力装置2909と、メモリカードリーダ・スピーカー等の外部機器2910とを備える。
中央演算装置2901は、磁気ディスクドライブ2903からプログラムを読み出してメモリ2902に記憶させた後にプログラムを実行することにより図1に示す各機能ブロックを実現する。プログラム実行中に、磁気ディスクドライブ2903から検索対象データの一部或いは全部を読み出してメモリ2902に記憶させておいても良い。
基本的な動作は、入力装置2909を介して利用者からの検索要求を受け、検索要求に応じて磁気ディスクドライブ2903やメモリ2902に記憶させた検索対象データを検索する。そして、表示装置2908に検索結果を表示させる。
検索結果は表示装置2908に表示させるだけでなく、例えば外部機器2910としてスピーカーを接続しておいて音声で利用者に提示しても良い。あるいは、外部機器2910としてプリンタを接続しておいて、印刷物として提示しても良い。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の第1の実施形態に係る文書情報処理装置の構成を説明するためのブロック図。 情報入力手段101に入力される情報の例を示す図。 情報入力手段101に入力される情報のソースの例を示す図。 文書解析手段103の処理の流れを説明するためのフローチャート。 文書構造解析に関する知識の例を示す図。 HTMLで記述された情報が入力された場合の文書構造解析処理(b)を説明するためのフローチャート。 文書解析手段103の文書構造解析処理結果の一例を示す図。 文書解析手段103の意味属性解析処理結果の一例を示す図(図3(a)を入力とした場合の出力例)。 文書解析手段103の意味属性解析処理結果の一例を示す図(図3(b)を入力とした場合の出力例)。 文書解析手段103の意味属性解析処理結果の一例を示す図(図3(c)を入力とした場合の出力例)。 文書解析手段103の意味属性解析処理結果の一例を示す図(図2(d)を入力とした場合の出力例)。 文書解析手段103の機能的役割解析処理(図4のステップS410)を説明するためのフローチャート。 機能的役割解析知識の一例を示す図。 図8aの文書データに対する機能的役割解析処理の処理結果の一例を示す図。 図8bの文書データに対する機能的役割解析処理の処理結果の一例を示す図。 図8cの文書データに対する機能的役割解析処理の処理結果の一例を示す図。 図8dの文書データに対する機能的役割解析処理の処理結果の一例を示す図。 部品化手段104の処理の流れを説明するためのフローチャート。 図11aの文書データを入力とした場合の部品化手段104の処理結果の一例を示す図。 図11bの文書データを入力とした場合の部品化手段104の処理結果の一例を示す図。 図11cの文書データを入力とした場合の部品化手段104の処理結果の一例を示す図。 図11dの文書データを入力とした場合の部品化手段104の処理結果の一例を示す図。 インデクシング手段105の処理の流れを説明するためのフローチャート。 インデクシング手段105の構成を示す図。 情報部品蓄積手段106の構成を示す図。 インデクシング戦略知識の一例を示す図。 検索手段107の処理の流れを説明するためのフローチャート。 検索手段107の構成を示す図。 検索戦略知識の一例を示す図。 第2の実施形態に係る文書情報処理装置の構成を示す図。 編集手段108を用いた編集作業の画面の一例を示す図。 スクラップブックのデータ表現の一例を示す図。 テンプレート生成手段2101の動作を説明するためのフローチャート。 テンプレート生成手段2101によって、図23(b)から変換されたテンプレートの一例を示す図。 編集手段108がテンプレートに基づいて編集処理を行う場合の処理の流れを説明するためのフローチャート。 文書群を示す図。 図25の、符号2501の部分および符号2502の部分が共に置換された場合の編集結果を示す図。 本発明の文書情報処理装置をコンピュータで実施するときのハードウェアの構成を示す図。
符号の説明
100…文書情報処理装置、101…情報入力手段、102…文書解析知識蓄積手段、103…文書解析手段、104…部品化手段、105…インデクシング手段、106…情報部品蓄積手段、107…検索手段。

Claims (14)

  1. 文書情報を入力する文書情報入力手段と、
    この文書情報入力手段から入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析する文書解析手段と、
    前記文書情報入力手段から入力された文書情報を、編集の単位である情報部品に分割する部品化手段と、
    前記文書解析手段の文書解析結果に基づいて前記情報部品にインデクス情報を付与するインデクシング手段と、
    前記情報部品および当該情報部品に付与されたインデクス情報を組にして蓄積する情報部品蓄積手段とを備えたことを特徴とする文書情報処理装置。
  2. 文書情報を入力する文書情報入力手段と、
    この文書情報入力手段から入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析する文書解析手段と、
    前記文書情報入力手段から入力された文書情報を、編集の単位である情報部品に分割する部品化手段と、
    この部品化手段によって分割された情報部品を利用者に選択させる情報部品選択手段と、
    前記情報部品選択手段の選択結果に基づいて前記情報部品にインデクス情報を付与するインデクシング手段と、
    前記情報部品および当該情報部品に付与されたインデクス情報を組にして蓄積する情報部品蓄積手段とを備えたことを特徴とする文書情報処理装置。
  3. 更に、前記情報部品蓄積装置から前記情報部品を検索する情報部品検索手段とを備えたことを特徴とする請求項1または2記載の文書情報処理装置。
  4. 前記文書解析手段は、(1)前記文書情報の文書構造,(2)前記文書情報に含まれる部分の機能的役割,(3)前記文書情報に含まれる語または文節または文の意味属性の内、少なくとも1つの文書解析をすることを特徴とする請求項1乃至3のいずれか1項に記載の文書情報処理装置。
  5. 前記文書解析手段は、文書情報を意味解析するための意味解析知識を用いて意味解析することを特徴とする請求項1乃至3のいずれか1項に記載の文書情報処理装置。
  6. 前記部品化手段は、前記文書解析手段の解析結果に基づいて前記文書情報を情報部品に分割することを特徴とする請求項1乃至5のいずれか1項に記載の文書情報処理装置。
  7. 更に、前記情報部品の編集に用いる編集テンプレートを蓄積する編集テンプレート蓄積手段と、
    この編集テンプレート蓄積手段に蓄積されている編集テンプレート,前記文書解析手段の文書解析結果,前記部品化手段の分割結果の3つに基づいて前記情報部品を編集して、新たな文書情報を生成する編集手段とを備えたことを特徴とする請求項1乃至6のいずれか1項に記載の文書情報処理装置。
  8. 更に、前記文書解析手段による文書解析結果および前記編集手段による編集内容に基づいて前記編集テンプレートを生成する編集テンプレート生成手段を備えたことを特徴とする請求項7記載の文書情報処理装置。
  9. 前記テンプレート生成手段により生成されたテンプレートを、前記テンプレート蓄積手段に蓄積させる制御手段を備えたことを特徴とする請求項8記載の文書情報処理装置。
  10. 更に、前記文書解析知識を蓄積する文書解析知識蓄積手段を備えたことを特徴とする請求項1乃至10のいずれか1項に記載の文書情報処理装置。
  11. 文書情報を入力し、
    この入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析し、
    前記入力された文書情報を、編集の単位である情報部品に分割し、
    前記文書解析結果に基づいて前記情報部品にインデクス情報を付与し、
    前記情報部品および当該情報部品に付与されたインデクス情報を組にして蓄積する情報部品蓄積手段とを備えたことを特徴とする文書情報処理方法。
  12. 文書情報を入力し、
    この入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析し、
    前記入力された文書情報を、編集の単位である情報部品に分割し、
    この分割された情報部品を利用者に選択させ、
    この選択の結果に基づいて前記情報部品にインデクス情報を付与し、
    前記情報部品および当該情報部品に付与されたインデクス情報を組にして情報部品蓄積手段に蓄積することを特徴とする文書情報処理方法。
  13. 文書情報処理装置としてコンピュータを機能させるためのプログラムにおいて、
    前記プログラムは、前記コンピュータに、
    文書情報を入力させ、
    この入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析させ、
    前記入力された文書情報を、編集の単位である情報部品に分割させ、
    前記文書解析結果に基づいて前記情報部品にインデクス情報を付与させ、
    前記情報部品および当該情報部品に付与されたインデクス情報を組にして情報部品蓄積手段に蓄積させることを特徴とする文書情報処理プログラム。
  14. 文書情報処理装置としてコンピュータを機能させるためのプログラムにおいて、
    前記プログラムは、前記コンピュータに、
    文書情報を入力させ、
    この入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析させ、
    前記入力された文書情報を、編集の単位である情報部品に分割させ、
    この分割された情報部品を利用者に選択させ、
    前記選択の結果に基づいて前記情報部品にインデクス情報を付与させ、
    前記情報部品および当該情報部品に付与されたインデクス情報を組にして情報部品蓄積手段に蓄積させることを特徴とする文書情報処理プログラム。
JP2004273511A 2004-09-21 2004-09-21 文書情報処理装置および方法、文書情報処理プログラム Pending JP2006091994A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004273511A JP2006091994A (ja) 2004-09-21 2004-09-21 文書情報処理装置および方法、文書情報処理プログラム
CNB2005100981319A CN100447779C (zh) 2004-09-21 2005-09-07 文档信息处理设备及文档信息处理方法
US11/230,581 US20060080361A1 (en) 2004-09-21 2005-09-21 Document information processing apparatus, document information processing method, and document information processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004273511A JP2006091994A (ja) 2004-09-21 2004-09-21 文書情報処理装置および方法、文書情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2006091994A true JP2006091994A (ja) 2006-04-06

Family

ID=36146658

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004273511A Pending JP2006091994A (ja) 2004-09-21 2004-09-21 文書情報処理装置および方法、文書情報処理プログラム

Country Status (3)

Country Link
US (1) US20060080361A1 (ja)
JP (1) JP2006091994A (ja)
CN (1) CN100447779C (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009064080A (ja) * 2007-09-04 2009-03-26 Ricoh Co Ltd 画像処理装置と画像処理方法とプログラム
JP2010117764A (ja) * 2008-11-11 2010-05-27 Nippon Telegr & Teleph Corp <Ntt> 単語間関連度判定装置、単語間関連度判定方法、プログラムおよび記録媒体
US10929446B2 (en) 2015-03-20 2021-02-23 Kabushiki Kaisha Toshiba Document search apparatus and method

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006236140A (ja) * 2005-02-25 2006-09-07 Toshiba Corp 情報管理装置、情報管理方法、及び情報管理プログラム
US20070162481A1 (en) * 2006-01-10 2007-07-12 Millett Ronald P Pattern index
US8266152B2 (en) * 2006-03-03 2012-09-11 Perfect Search Corporation Hashed indexing
EP1999565A4 (en) * 2006-03-03 2012-01-11 Perfect Search Corp HYPER SPACE INDEX
US20070255694A1 (en) * 2006-04-07 2007-11-01 Jianqing Wu Document-drafting system using document components
US7689620B2 (en) * 2006-05-24 2010-03-30 Sizhe Tan Efficiently and systematically searching stock, image, and other non-word-based documents
US7774347B2 (en) * 2007-08-30 2010-08-10 Perfect Search Corporation Vortex searching
US7774353B2 (en) * 2007-08-30 2010-08-10 Perfect Search Corporation Search templates
US7912840B2 (en) * 2007-08-30 2011-03-22 Perfect Search Corporation Indexing and filtering using composite data stores
US8032495B2 (en) * 2008-06-20 2011-10-04 Perfect Search Corporation Index compression
US9922022B2 (en) * 2016-02-01 2018-03-20 Microsoft Technology Licensing, Llc. Automatic template generation based on previous documents
US10839149B2 (en) 2016-02-01 2020-11-17 Microsoft Technology Licensing, Llc. Generating templates from user's past documents
US11200217B2 (en) 2016-05-26 2021-12-14 Perfect Search Corporation Structured document indexing and searching
CN107563351A (zh) * 2017-09-22 2018-01-09 杰峯信息科技(中山)有限公司 一种基于自然语言处理的图像识别方法
JP7092998B2 (ja) * 2018-04-26 2022-06-29 富士通株式会社 分析プログラム及び分析方法
US10891321B2 (en) * 2018-08-28 2021-01-12 American Chemical Society Systems and methods for performing a computer-implemented prior art search
CN111026714A (zh) * 2019-11-07 2020-04-17 维沃移动通信有限公司 一种重命名方法及电子设备
CN118277553A (zh) * 2022-12-29 2024-07-02 上海智臻智能网络科技股份有限公司 文档表示模型训练方法和装置、文档表示方法和装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10755A (en) * 1854-04-11 Improvement in seed-planters
US6928302B1 (en) * 1993-04-27 2005-08-09 Broadcom Corporation Radio card having independent antenna interface supporting antenna diversity
US5884262A (en) * 1996-03-28 1999-03-16 Bell Atlantic Network Services, Inc. Computer network audio access and conversion system
JP3597940B2 (ja) * 1996-04-10 2004-12-08 日本電信電話株式会社 Html文書本型整形方法及びその装置
US5961610A (en) * 1996-08-13 1999-10-05 General Electric Company Systems, methods and apparatus for generating and controlling display of medical images
US6233545B1 (en) * 1997-05-01 2001-05-15 William E. Datig Universal machine translator of arbitrary languages utilizing epistemic moments
US6266683B1 (en) * 1997-07-24 2001-07-24 The Chase Manhattan Bank Computerized document management system
US6192383B1 (en) * 1998-09-10 2001-02-20 International Business Machines Corporation Method and system in a computer network for automatically adding synchronization points to network documents
US6493711B1 (en) * 1999-05-05 2002-12-10 H5 Technologies, Inc. Wide-spectrum information search engine
US6990238B1 (en) * 1999-09-30 2006-01-24 Battelle Memorial Institute Data processing, analysis, and visualization system for use with disparate data types
US20020029207A1 (en) * 2000-02-28 2002-03-07 Hyperroll, Inc. Data aggregation server for managing a multi-dimensional database and database management system having data aggregation server integrated therein
US20020091991A1 (en) * 2000-05-11 2002-07-11 Castro Juan Carlos Unified real-time microprocessor computer
JP2002169834A (ja) * 2000-11-20 2002-06-14 Hewlett Packard Co <Hp> 文書のベクトル解析を行うコンピュータおよび方法
US20020156756A1 (en) * 2000-12-06 2002-10-24 Biosentients, Inc. Intelligent molecular object data structure and method for application in heterogeneous data environments with high data density and dynamic application needs
US6538606B2 (en) * 2001-01-26 2003-03-25 Dell Products L.P. Antenna module interface extension
WO2003067471A1 (fr) * 2002-02-04 2003-08-14 Celestar Lexico-Sciences, Inc. Appareil et procede permettant de traiter des connaissances dans des documents
US6781052B2 (en) * 2002-04-12 2004-08-24 Nexpress Solutions, Inc. High voltage cable EMI shield
WO2003100659A1 (fr) * 2002-05-28 2003-12-04 Vladimir Vladimirovich Nasypny Procede de synthese d'un systeme a auto-apprentissage d'extraction de connaissances a partir de documents textuels pour moteurs de recherche
US8327442B2 (en) * 2002-12-24 2012-12-04 Herz Frederick S M System and method for a distributed application and network security system (SDI-SCAM)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009064080A (ja) * 2007-09-04 2009-03-26 Ricoh Co Ltd 画像処理装置と画像処理方法とプログラム
JP2010117764A (ja) * 2008-11-11 2010-05-27 Nippon Telegr & Teleph Corp <Ntt> 単語間関連度判定装置、単語間関連度判定方法、プログラムおよび記録媒体
US10929446B2 (en) 2015-03-20 2021-02-23 Kabushiki Kaisha Toshiba Document search apparatus and method

Also Published As

Publication number Publication date
CN1752963A (zh) 2006-03-29
CN100447779C (zh) 2008-12-31
US20060080361A1 (en) 2006-04-13

Similar Documents

Publication Publication Date Title
JP2006091994A (ja) 文書情報処理装置および方法、文書情報処理プログラム
JP5121146B2 (ja) 構造化文書管理装置、構造化文書管理プログラムおよび構造化文書管理方法
JPH08241332A (ja) 全文登録語検索装置および方法
KR20030004150A (ko) 데이터처리방법 및 시스템 및 그 처리프로그램을 기록한계산기판독이 가능한 기록매체
JP4129048B2 (ja) 固有表現抽出装置、方法、及びプログラム
CN102591897A (zh) 文件检索装置以及文件检索方法
WO2008041367A1 (fr) Dispositif de recherche de document, procédé de recherche de document et programme de recherche de document
JPH10275222A (ja) 文書情報管理システム
CN101763424B (zh) 根据文件内容确定特征词并用于检索的方法
JP6868576B2 (ja) 事象提示システムおよび事象提示装置
JP2007279978A (ja) 文書検索装置及び文書検索方法
JP3632643B2 (ja) 構造化文書管理装置
JPH09245052A (ja) 構造化文書処理装置
JPH117452A (ja) ネットワークを介した情報収集方法および装置と該方法を実施するプログラムを記録した記録媒体
JP2000020549A (ja) 文書データベースシステムへの入力支援装置
JP2002169802A (ja) 公共事業支援統合情報システムにおける電子納品データ作成支援システム及び記録媒体
JP6028905B2 (ja) 帳票管理装置及び帳票管理方法並びに帳票管理プログラム
JP4951407B2 (ja) コンテンツ部品検索方法及び装置
JP2021081933A (ja) アーカイブ支援システム
JP2003167893A (ja) 特許文献の理解支援システムおよび特許文献の理解支援プログラム
JP2016162040A (ja) 文書データ処理方法およびシステム
JPH09282208A (ja) テーブル生成方法
EP1072986A2 (en) System and method for extracting data from semi-structured text
JP7377565B2 (ja) 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム
WO2024180608A1 (ja) データ抽出装置、データ抽出方法及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090609

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091106