JP2006091994A

JP2006091994A - 文書情報処理装置および方法、文書情報処理プログラム

Info

Publication number: JP2006091994A
Application number: JP2004273511A
Authority: JP
Inventors: Masaru Suzuki; 優鈴木; Yasuto Ishitani; 康人石谷
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2004-09-21
Filing date: 2004-09-21
Publication date: 2006-04-06
Also published as: CN1752963A; CN100447779C; US20060080361A1

Abstract

【課題】必要な情報を的確に得ることのできる文書情報処理装置を提供する。
【解決手段】意味解析手段１０３は、文書情報入力手段１０１から入力された文書情報を、文書解析するための文書解析知識を用いて文書解析する。部品化手段（１０４）は、文書情報入力手段１０１から入力された文書情報を、編集の単位である情報部品に分割する、インデクシング手段（１０５）は、意味解析手段１０３の文書解析結果に基づいて、前記部品化手段１０４により分割された情報部品にインデクス情報を付与する。情報部品蓄積手段（１０６）は、情報部品および当該情報部品に付与されたインデクス情報を組にして蓄積する。情報部品検索手段（１０７）は、前記情報部品を検索する。
【選択図】図１

Description

この発明は、インターネットコンテンツや電子メール等の電子的な情報、或いは紙等の印刷媒体からＯＣＲ等の技術によって電子化された情報を検索／編集する文書情報処理装置および方法、文書情報処理プログラムに係る。特に、電子的な情報を複数の部品に部品化する行為、部品化した情報を検索／収集する行為、或いは収集した部品を編集し新たなコンテンツを制作する行為を、支援または自動化する文書情報処理装置に関する。

インターネット利用の普及やデジタルカメラ／スキャナ等の性能向上と普及により、ビジネス／ホームユースの双方において一般の利用者がパーソナルコンピュータ上で多種多様かつ大量の情報を閲覧するようになってきた。これに伴い、閲覧した情報の中から利用者が有用と判断した情報または情報の一部をスクラップとして保存したいというニーズが高まっている。

このニーズに応える従来技術として、閲覧中のコンテンツを直接スクラップできるマイクロソフト株式会社製「ＯｎｅＮｏｔｅ」やユミルリンク株式会社製「紙ｃｏｐｉ」などのアプリケーションソフトウェアが市販されている。また部品構造が定義された構造化文書を編集する方法（例えば、特許文献１を参照）や、医療向けのイメージングシステムにおいて閲覧する情報のレイアウトをプログラマブルにテンプレート化する方法（例えば、特許文献２を参照）などが提案されている。

特開２００２−２００２８４公報特開平０９−２１７４７４号公報

これら従来技術では、スクラップの各部品に意味や文脈情報（例えばスクラップの元となった情報（源情報と呼ぶ）の形式、源情報におけるその部品の機能的役割、部品に含まれる各要素の意味属性など）を付与することができないため、スクラップ作業の効率化やスクラップ作業によって制作されるコンテンツ（以下、スクラップページと記す）の再利用については特段の支援を行なうことができない。即ち、ある目的に基づいて集められたスクラップページについて以降も同じ形式の源情報から同じ役割のスクラップを、手間を掛けずに収集したい場合や、スクラップした情報をあるフォーマットのスクラップページに整理した場合に、以降も同様のフォーマットでスクラップページを制作したいというニーズには対応できないという問題があった。

この発明は、必要な情報を的確に得ることのできる文書情報処理装置を提供することを目的とする。また、この発明は、制作されたスクラップページに追加するべきスクラップを容易に収集することができる文書情報処理装置を提供することを目的とする。また、この発明は、利用者が過去に作成したものと同様のスクラップページを制作する場合に、テンプレートに従って容易にスクラップページを制作することのできる文書情報処理装置を提供することを目的とする。

上記の目的を達成するために、この発明においては、文書情報を入力する文書情報入力手段と、この文書情報入力手段から入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析する文書解析手段と、前記文書情報入力手段から入力された文書情報を、編集の単位である情報部品に分割する部品化手段と、前記文書解析手段の文書解析結果に基づいて前記情報部品にインデクス情報を付与するインデクシング手段と、前記情報部品および当該情報部品に付与されたインデクス情報を組にして蓄積する情報部品蓄積手段とを備えたことを特徴とする文書情報処理装置を提供する。

また、上記の目的を達成するために、この発明においては、文書情報を入力する文書情報入力手段と、この文書情報入力手段から入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析する文書解析手段と、前記文書情報入力手段から入力された文書情報を、編集の単位である情報部品に分割する部品化手段と、この部品化手段によって分割された情報部品を利用者に選択させる情報部品選択手段と、前記情報部品選択手段の選択結果に基づいて前記情報部品にインデクス情報を付与するインデクシング手段と、前記情報部品および当該情報部品に付与されたインデクス情報を組にして蓄積する情報部品蓄積手段とを備えたことを特徴とする文書情報処理装置を提供する。

なお、本発明は方法に係る発明としても成立する。
また、本発明は、コンピュータに当該発明に相当する手順を実行させるための（或いはコンピュータを当該発明に相当する手段として機能させるための、或いはコンピュータに当該発明に相当する機能を実現させるための）プログラムとしても成立し、該プログラムを記録したコンピュータ読み取り可能な記録媒体としても成立する。

この発明によれば、文書データの文脈に依存した適切なインデクシングを行うことができる文書情報処理装置および方法、文書情報処理プログラムを提供することができる。

以下、図面を参照しながら本発明の実施形態について説明する。
（第１の実施形態）
この第１の実施形態は、インターネット上のコンテンツや電子メール、或いはスキャナとＯＣＲを用いて電子テキスト化された紙メディアコンテンツなど、利用者がＰＣ上で閲覧したコンテンツを分割して部品化し、必要に応じて部品化された情報を検索して編集することができる文書情報処理装置について説明したものである。

図１は、本発明の第1の実施形態に係る文書情報処理装置の構成を示す図である。
図１において、文書情報処理装置１００は、情報入力手段１０１，文書解析知識蓄積手段１０２，文書解析手段１０３，部品化手段１０４，インデクシング手段１０５，情報部品蓄積手段１０６，検索手段１０７から構成されている。

情報入力手段１０１は、ユーザが閲覧している情報を読み出し、文書情報処理装置１００への入力とする。この第１の実施形態では、読み出す対象の情報は、インターネット上のコンテンツ，電子メール，紙等に印刷された情報がスキャナによって読み込まれ、既存のＯＣＲ（Optical Character Reader）技術によって電子情報に変換された情報とする。即ち情報入力手段１０１は、ユーザがこれらの情報を閲覧しているアプリケーションソフトウェアと通信して情報を読み出す。この情報の読み出し元となるアプリケーションソフトウェアは、本実施形態のために専用に作成されたプログラムであってもよいし、既存のアプリケーションソフトウェアであってもよい。既存のアプリケーションソフトウェアの場合、既存のアプリケーションソフトウェア間の通信技術によって情報を読み出してもよい。

文書解析知識蓄積手段１０２は、情報入力手段１０１に入力された文書情報を解析するための文書解析知識を蓄積する。この文書解析としては、例えば意味解析するための意味解析知識を蓄積している。
文書解析手段１０３は、文書解析知識蓄積手段１０２に蓄積された文書解析知識に基づいて、情報入力手段１０１に入力された文書情報を解析する。この解析としては、例えば意味解析する。

部品化手段１０４は、文書解析手段１０３の文書解析結果に基づいて情報入力手段１０１に入力された情報を分割して部品化する。以下、この情報を分割し部品化されたものを情報部品と記す。

インデクシング手段１０５は、文書解析手段１０３の文書解析結果に基づいて、部品化手段１０４によって分割された各情報部品にインデクスを付与し、情報部品蓄積手段１０６へと蓄積する。

情報部品蓄積手段１０６は、インデクシング手段１０５によりインデクスを付与された情報部品を蓄積する。
検索手段１０７は、情報部品蓄積手段１０６に蓄積された情報部品をインデクスに基づいて検索する。
編集手段１０８は、検索手段１０７によって検索された情報部品の少なくとも一つ以上を利用して、新たなコンテンツを編集する。編集手段１０８によって編集されたコンテンツは、インデクシング手段１０５に送られ、新たな情報部品としてインデクスが付与されて情報部品蓄積手段１０６に蓄積される。

編集手段１０８による編集画面は、ＣＲＴや液晶ディスプレイ等の表示手段１０９に表示される。
以下、このように構成された文書情報処理装置１００の動作について、具体的な情報を用いて説明する。
図２は、情報入力手段１０１に入力される情報の例を示す図である。
図２（ａ）〜（ｄ）は、全て株式会社ＴＳＢの製品「ＧＢＧ２１」に関する情報である。
図２（ａ）は株式会社ＴＳＢによる製品発表文のウェブコンテンツ（ＨＴＭＬ（Hyper Text Markup Language）形式で書かれたデータ)、図２（ｂ）はインターネット上のニュースサイトに掲載された製品紹介記事のウェブコンテンツ（ＨＴＭＬ）、図２（ｃ）は販売店からの電子メールによるダイレクトメール（メールヘッダ付きテキスト）、図２（ｄ）はカタログ（紙媒体に印刷されたカタログをスキャナで読み込んだデータ）である。

図２（ａ）および（ｂ）に示した電子情報についてはインターネットのＷｅｂブラウザから情報入力手段１０１に入力される。図２（ｃ）に示した電子情報については電子メールアプリケーションから情報入力手段１０１に入力される。図２（ｄ）に示した電子情報についてはイメージスキャンデータのブラウザから情報入力手段１０１に入力される。

情報入力手段１０１は、文書情報処理装置１００がＷｅｂブラウザや電子メールアプリケーションソフトウェアの機能をソフトウェアコンポーネントとして内部に組み込んだアプリケーションソフトウェアとして実現される場合、ソフトウェアコンポーネントのＡＰＩを経由して情報の入力を受け付ける。また、情報入力手段１０１は、文書情報処理装置１００が外部のＷｅｂブラウザや電子メールアプリケーションソフトウェアなどと連携して動作するアプリケーションソフトウェアとして実現される場合、外部のアプリケーションソフトウェアと既知のアプリケーションソフトウェア間通信技術によって通信することで情報の入力を受け付ける。

なお、図２（ａ）および（ｂ）はＷｅｂブラウザによって情報を閲覧した場合の例であり、実際に情報入力手段１０１に入力される情報のソースの例を、それぞれ図３（ａ）〜（ｂ）に示した。また、図２（ｃ）は電子メールアプリケーションソフトウェアによって情報を閲覧した場合の例であり、実際に情報入力手段１０１に入力される情報のソースの例を、図３（ｃ）に示した。また、図２（ｄ）はイメージスキャンデータのブラウザによって情報を閲覧した場合の例であり、情報入力手段１０１にはＴＩＦＦ等の画像データフォーマットのバイナリデータとして入力される。

情報入力手段１０１は、入力された情報に、属性情報として情報の入力元の型或いは識別子を付加して、文書解析手段１０３に送る。この属性情報として付加される情報の入力元の型或いは識別子とは、情報入力手段１０１が情報の入力を受け付けるために通信を行った、Ｗｅｂブラウザや電子メールアプリケーションソフトウェア、或いはこれらの機能を有するソフトウェアコンポーネントを識別するための属性情報である。

ここでは例として、ＷｅｂブラウザまたはＷｅｂブラウザのソフトウェアコンポーネントの識別子を「ＩＮＴＥＲＮＥＴ」とする。また、電子メールアプリケーションソフトウェアまたは電子メールアプリケーションソフトウェアのソフトウェアコンポーネントの識別子を「ＭＡＩＬ」とする。また、イメージスキャンデータのブラウザまたはイメージスキャンデータのブラウザのソフトウェアコンポーネントの識別子を「ＳＣＡＮ」とする。

文書解析手段１０３は、入力された情報の文書構造、入力された情報に含まれる部分の機能的役割、入力された情報に含まれる語、文節、または文の意味属性について文書解析を行うものとする。この文書解析手段１０３の処理を図４を用いて説明する。

次に、図４のフローチャートを用いて文書解析手段１０３の処理の流れについて説明する。
図４において、文書解析手段１０３は、情報入力手段１０１から入力された属性情報に従って文書構造の解析処理を切替える（ステップＳ４０１，ステップＳ４０４，ステップＳ４０６）。

文書解析手段１０３は、情報入力手段１０１から入力された属性情報が「ＳＣＡＮ」か否かを判断する（ステップＳ４０１）。
ステップＳ４０１の判断がＹｅｓの場合、入力された情報はイメージスキャン画像であるので、まず文書解析手段１０３はＯＣＲ処理を施してテキスト化し（ステップＳ４０２）、続けてこのテキスト化したテキストに対して文書構造解析処理（ａ）を施す（ステップＳ４０３）。

イメージスキャン画像に対するＯＣＲ処理および文書構造解析処理（ａ）は既知の技術（例えば、特開２００３−２８８３３４公報）によって可能であり、ここでは詳説しない。

ステップＳ４０１の判断がＮｏの場合、文書解析手段１０３は、情報入力手段１０１から入力された属性情報が「ＩＮＴＥＲＮＥＴ」か否かを判断する（ステップＳ４０４）。

ステップＳ４０４の判断がＹｅｓの場合、入力された情報はＨＴＭＬで記述されているので、文書解析手段１０３はＨＴＭＬの構造を考慮した文書構造解析処理（ｂ）を行う（ステップＳ４０５）。この文書構造解析処理（ｂ）の詳細については後で詳しく説明する。

ステップＳ４０４の判断がＮｏの場合、文書解析手段１０３は、情報入力手段１０１から入力された属性情報が「ＭＡＩＬ」か否かを判断する（ステップＳ４０６）。

ステップＳ４０６の判断がＹｅｓの場合、入力された情報には電子メールヘッダが付与れていると考えられるので、文書解析手段１０３は電子メールヘッダを考慮した文書構造解析処理（ｃ）を行う（Ｓ４０７）。この文書構造解析処理（ｃ）については後で詳しく説明する。

ステップＳ４０６の判断がＮｏの場合、即ち、情報入力手段１０１から入力された属性情報が「ＳＣＡＮ」，「ＩＮＴＥＲＮＥＴ」或いは「ＭＡＩＬ」のいずれでもない場合（ステップＳ４０１，ステップＳ４０４，ステップＳ４０６のいずれもＮｏ）、文書解析手段１０３は、入力された情報はプレーンテキストで記述されていると仮定して文書構造解析処理（ｄ）を行う（ステップＳ４０６）。

なお、この例では属性情報として「ＳＣＡＮ」，「ＩＮＴＥＲＮＥＴ」，「ＭＡＩＬ」の場合についてのみ想定しているが、更に異なる識別子について同様に処理を行ってもよい。

ステップＳ４０３での文書構造解析処理（ａ）、ステップＳ４０５での文書構造解析処理（ｂ）、ステップＳ４０７での文書構造解析処理（ｃ）或いはステップＳ４０８での文書構造解析処理（ｄ）の後、文書解析手段１０３は、意味属性解析処理（ステップＳ４０９）を施し、更に機能的役割解析処理（ステップＳ４１０）を施し、最後に情報入力手段１０１から送られた属性情報を付与して（ステップＳ４１１）意味解析結果が出力される。

なお、図４では文書構造解析処理（ステップＳ４０３，Ｓ４０５，Ｓ４０７，Ｓ４０８）、意味属性解析処理（ステップＳ４０９）、機能的役割解析処理（ステップＳ４１０）の順に処理したが、本願のいずれの実施形態においても、これらの処理の順序を限定する必要はない。また、必要に応じてこれらの処理の一つ以上を選択的に実施してもよい。

文書解析手段１０３の文書構造解析処理（ｂ）〜（ｄ）の処理内容について説明する。
文書解析手段１０３は文書構造解析処理（ｂ）〜（ｄ）の解析を行うため、文書解析知識蓄積手段１０２に蓄積された文書解析知識のうち文書構造解析に関する知識を参照する。

図５に文書構造解析に関する知識の例を示している。
図５（ａ）はＨＴＭＬの文書構造を解析するための知識の例である。
図５（ｂ）は電子メールやプレーンテキストの文書構造を解析するための知識の例である。電子メールやプレーンテキストの文書構造を解析するための知識としては、必ずしも同一のものとする必要はない。
本実施形態において文書構造解析処理（ｂ）（または（ｃ））と、（ｄ）との差異は、それぞれ異なる文書解析知識を参照することによって実現する。つまり、文書構造解析処理（ｂ）〜（ｄ）は、図６に示す共通の処理フローに従い、それぞれ図５（ａ）〜（ｂ）の知識を参照する。

［文書構造解析処理（ｂ）の処理］
まず、図３（ａ）に示したＨＴＭＬで記述された情報が入力された場合の文書構造解析処理（ｂ）の動作について図６を用いて説明する。
図３（ａ）はＨＴＭＬで記述された情報であり、図５（ａ）の知識を参照する。
文書解析手段１０３は、解析対象データとして図３（ａ）の文書情報を読み込み、変数Ｄに代入する（ステップＳ６０１）。
次に、文書解析手段１０３は、パターンマッチの位置（改行文字を含む文書の頭からの文字の位置）を表す変数Ｉを０に初期化する（ステップＳ６０２）。
次に、文書解析手段１０３は、文書解析知識蓄積手段１０２に蓄積された文書構造解析知識から、解析知識を一つ取り出す（ステップＳ６０３）。ここでは図５（ａ）に例として示した解析知識５０１が取り出されたとする。

文書解析手段１０３は、後に置換処理を行うため、ステップＳ６０３において取り出した解析知識５０１のうち、「文書構造タグ」である「＜構造：タイトル＞＄１＜／構造：タイトル＞」を、変数Ｔに代入しておく（ステップＳ６０４）。

文書解析手段１０３は、変数Ｄに記憶された解析対象データに対して、変数Ｉが示す位置から解析知識５０１の「パターン」がマッチする箇所をサーチする（ステップＳ６０５）。

本実施形態では、パターンとしてＰｅｒｌ言語と呼ばれる既知の技術で利用されている正規表現の形式を採用する。Ｐｅｒｌ言語及び、この言語の正規表現については、例えば文献、"Learning Perl, 2nd Edition", Randal L. Schwartz & Tom Christiansen(O'Reilly, 1997)により知られている。

図５（ａ）の解析知識５０１のパターンの場合、「＜ＴＩＴＬＥ＞」という文字列と「＜／ＴＩＴＬＥ＞］という文字列の間に、０文字以上（＊）の任意の文字（．）が存在する場合にマッチする。ここでは任意の文字（．）に改行文字も含むものとしている。また入力された情報に「＜／ＴＩＴＬＥ＞」という文字列が複数回出現する場合、ここではマッチする文字列の長さが最短になるものが選択されるものとする。要するに、文中、最初に出現する＜ＴＩＴＬＥ＞〜＜／ＴＩＴＬＥ＞間が選択される。

文書解析手段１０３は、ステップＳ６０５でのサーチの結果、パターンにマッチする箇所が見つかったか否かを判断する（ステップＳ６０６）。
文書解析手段１０３は、ステップＳ６０６でＹｅｓの場合、パターン中に括弧があれば、変数Ｔ中の「＄ｎ（ｎ＝１，２，・・・）」を括弧に対応する文字列で置換する（ステップＳ６０７）。なお括弧が２個以上ある場合が上記変数Ｔ中の２以上のｎに対応する。図３（ａ）の文書データの場合、３行目の「＜ＴＩＴＬＥ＞プレスリリース＜／ＴＩＴＬＥ＞」がパターンにマッチし、文字列「プレスリリース」がパターン中の括弧に対応するため、変数Ｔの値が「＜構造：タイトル＞プレスリリース＜／構造：タイトル＞」に変更される。このときの位置を表す変数Ｉの値は、改行文字も含め１５である。即ち、“＜ＨＴＭＬ＞[改行文字]＜ＨＥＡＤ＞[改行文字]”（この“[改行文字]”は、実際には１文字）の次の文字（先頭から１５文字目）がパターンにマッチしている。

文書解析手段１０３は、ステップＳ６０６でＮｏの場合、ステップＳ６１１へ進む。
文書解析手段１０３は、ステップＳ６０７の次に、変数Ｄ中の「＜ＴＩＴＬＥ＞プレスリリース＜／ＴＩＴＬＥ＞」の箇所を、変数Ｔの値「＜構造：タイトル＞プレスリリース＜／構造：タイトル＞」に置換する（ステップＳ６０８）。

文書解析手段１０３は、位置を表す変数Ｉの値は変数Ｄにおける置換箇所の末尾の次の位置に変更する（ステップＳ６０９）。ここではＩ＝４１を設定する。即ち、“＜ＨＴＭＬ＞[改行文字]＜ＨＥＡＤ＞[改行文字]＜構造：タイトル＞プレスリリース＜／構造：タイトル＞”の次の文字（先頭から４１文字目）を設定する。

文書解析手段１０３は、ステップＳ６０９の次に、処理中の解析知識の「繰り返しフラグ」の値が１であるか否かを判断する（ステップＳ６１０）。
文書解析手段１０３は、ステップＳ６１０でＹｅｓの場合には同じ解析知識について再度ステップＳ６０４からステップＳ６０６でパターンのマッチがなくなるまで処理を繰り返し、ステップＳ６１０でＮｏの場合には、ステップＳ６１１へ進む。

ステップＳ６０２〜ステップＳ６１０の処理は、対応する解析知識全てに対して繰り返し実行され（ステップＳ６１１）、対応する解析知識全てに対して処理が完了すると（ステップＳ６１１のＹｅｓ）、解析結果として変数Ｄが出力されて（ステップＳ６１２）、図６の処理フローは終了する。

図７に文書解析手段１０３の文書構造解析処理結果の一例を示す。
具体的に処理を説明した図３（ａ）を入力とした場合の出力例は図７（ａ）である。図３（ａ）の入力情報はＨＴＭＬであるので、出力に「＜ＨＴＭＬ＞」などの文書構造解析結果とは無関係なタグが残っているが、もしこれらのタグを除去する必要があれば既知の技術で容易に除去可能である。

図７（ｂ）は、図３（ｂ）を入力とした場合の文書構造処理結果の一例である。図３（ｂ）は属性情報が「ＩＮＴＥＲＮＥＴ」なので、図５（ａ）の解析知識によって文書構造解析処理が行われる。

図７（ｃ）は、図３（ｃ）を入力とした場合の文書構造処理結果の一例である。図３（ｃ）は属性情報が「ＭＡＩＬ」なので、図５（ｂ）の解析知識によって文書構造解析処理が行われる。

図２（ｄ）は属性情報が「ＳＣＡＮ」であるため、前述した既知の技術によって文書構造解析処理が行われる。図７（ｄ）は、図２（ｄ）を入力とした場合の文書構造処理結果の一例を示した。

次に、文書解析手段１０３の意味属性解析処理（図４のステップＳ４０９）についてであるが、この処理は既知の技術によって実現可能である。例えば、この既知の技術としては（社）情報処理学会第１６１回自然言語処理研究会研究報告、NL-161-3 (2004)等を用いればよい。具体的な処理結果は、意味属性解析処理で参照する、文書解析知識蓄積手段１０２に蓄積されている意味属性解析知識の内容に依存するが、本実施形態においては図８（ａ）〜（ｄ）に示す処理結果が得られたものとする。

次に、文書解析手段１０３の機能的役割解析処理（図４のステップＳ４１０）について図９を用いて説明する。
なお、この機能的役割解析処理としては、例えば、次の文献に記載の技術を用いる。Masaru SUZUKI et al., "Customer Support Operation with a Knowledge Sharing System KIDS: An Approach based on Information Extraction and Text Structurization", Proceedings of World Multiconference on Systemics, Cybernetics and Informatics(SCI2001), Vol.7, pp.89-94(2001)。

機能的役割解析処理は、各実施形態の利用目的によって文書のどのような機能的役割を解析するべきかが異なる。本実施形態では次の機能的役割を解析するものとする。
発表：企業などからの報道発表文。
記事：事実を紹介した新聞や雑誌の記事。
コラム：意見を述べた記事。
##挨拶：電子メールなどでの挨拶文。
解説：用語などの説明文。

図９は、機能的役割解析処理のフロー示す図である。
図９において、文書解析手段１０３は、文書構造解析処理および意味属性解析処理が施された解析対象データを読み込み、変数Ｄに代入する（ステップＳ９０１）。
次に、文書解析手段１０３は、変数Ｄの値を文書構造解析処理の結果に基づいて分割する。この分割された解析対象データの各部分をここでは単位文書と呼ぶことにする（ステップＳ９０２）。なお単位文書の分割の単位は各実施形態の利用目的によって異なってよい。この第１の実施形態では文書構造解析処理の結果を単位とした。しかし、発明はこれに限定されない。例えば文毎、段落毎、文書毎などを単位としてもよい。また、他の変形例としては、入力がＨＴＭＬである場合には文書構造解析処理結果のみならずＨＴＭＬタグを単位文書分割の区切りとしてもよい。

解析の準備として、機能的役割毎の作業用の変数を用意し、値を０に初期化する（ステップＳ９０３）。
次に、文書解析手段１０３は、分割された単位文書を一つずつ取り出し（ステップＳ９０４）、更に文書解析知識蓄積手段１０２に蓄積された機能的役割解析知識を一つずつ取り出す（ステップＳ９０５）。

図１０に機能的役割解析知識の一例を示す。各機能的役割解析知識は、「パターン」，「機能的役割」，「重み」の３つの組によって表現される。図１０にも示しているように、各パターンには複数の機能的役割および重みが対応していてもよい。

次に、文書解析手段１０３は、ステップＳ９０４で取り出した単位文書とステップＳ９０５で取り出したパターンとのマッチングを行う（ステップＳ９０６）。なおこの第１の実施形態では、機能的役割解析知識のパターンの記述法およびマッチング手法としては、文書構造解析処理と同様とする。

文書解析手段１０３は、ステップＳ９０６においてパターンがマッチした場合（ステップＳ９０６のＹｅｓ）、対応している機能的役割の作業用の変数に、対応する重みを加算する（ステップＳ９０７）。対応している機能的役割が複数ある場合には対応する機能的役割全てに対してそれぞれの重みを加算する。

文書解析手段１０３は、ステップＳ９０５〜ステップＳ９０７の処理を、全ての機能的役割解析知識に対して繰り返す（ステップＳ９０８）。
次に、文書解析手段１０３は、一つの単位文書に対して全ての機能的役割解析知識のパターンをマッチングさせた後（ステップＳ９０８のＹｅｓ）、各作業用変数を比較し、値が最大となった作業用変数に対応する機能的役割を単位文書に割り当てる（ステップＳ９０９）。但し、値が最大となる作業用変数が複数ある場合は、複数の機能的役割を割り当てることにする。また、全ての作業用変数の値が０であった場合には特殊な機能的役割として「不定」を割り当てることにする。

更に全ての単位文書に対してステップＳ９０３〜ステップＳ９０９を繰り返し（ステップＳ９１０）、全ての単位文書に対すて処理が終了すると（ステップＳ９１０のＹｅｓ）、機能的役割解析処理が終了する。

文書解析手段１０３は、例えば機能的役割解析処理時に図８（ａ）のデータが入力された場合、文書構造によって分割される最初の単位文書は「＜ＨＴＭＬ＞＜ＨＥＡＤ＞」となるが、これはＨＴＭＬタグのみで構成される単位文書であるので本実施形態においては処理対象とならない。

次の単位文書は「プレスリリース」である。この単位文書は図１０に示す機能的役割解析知識のパターンとはマッチしないので、機能的役割としては「不定」が割り当てられる。

更にステップＳ９０３〜ステップＳ９１０のループが進み、ステップＳ９０４で図８（ａ）の７行目から始まる単位文書８０１が取り出されたとする。
単位文書８０１に対して、ステップＳ９０５で取り出した機能的役割解析知識のパターンと順にマッチングが行われる。例えばステップＳ９０４で取り出された単位文書８０１は、図１０に示す知識１００１のパターンとマッチするので（ステップＳ９０６のＹｅｓ）、ステップＳ９０７へ進み、対応する機能的役割である「発表」の作業用変数に「＋１」が加算される。単位文書８０１は、図１０に示す他の機能的役割解析知識のパターンとはマッチしないので、ステップＳ９０９では単位文書３１０に対して「発表」が割り当てられる。

図１１に、図８の各文書データに対する機能的役割解析処理の処理結果の一例を示した。
以上が、本実施例における文書解析手段１０３の３つの処理（文書構造解析処理，意味属性解析処理，機能的役割解析処理）の処理内容の説明である。
次に、図１２のフローチャートを用いて図１の部品化手段１０４の処理の流れについて説明する。
部品化手段１０４は、まず、解析対象のデータを読み込み、書き換えに備えて変数Ｄに代入しておく（ステップＳ１２０１）。
次に、部品化手段１０４は、変数Ｄの中から任意の「＜機能：＊＞」タグに囲まれた値を見つけ（ステップＳ１２０２）、「＜部品＞」および「＜／部品＞」タグで囲む（ステップＳ１２０３）。このようなタグのサーチやタグの挿入などの処理は、既存のＤＯＭ（ドキュメントオブジェクトモデル）やＸＰａｔｈなど公知の技術で実現可能である。ステップＳ１２０２において、＜機能：＊＞タグが複数個見つかった場合には、この複数個それぞれに対してステップＳ１２０３の処理を行う。ただし、＜機能：＊＞タグが連続して入れ子になっている場合にはそれらのうち最も内側の＜機能：＊＞タグの値のみを処理対象とする。

部品化手段１０４は、ステップＳ１２０３の次に、変数Ｄの中からの「＜意味：ＭＡＩＬ＿ＡＤＤＲＥＳＳ＞」タグに囲まれた値を見つけ（ステップＳ１２０４）、「＜部品＞」および「＜／部品＞」タグで囲む（ステップＳ１２０５）。ステップＳ１２０４において、＜意味：ＭＡＩＬ＿ＡＤＤＲＥＳＳ＞タグが複数個見つかった場合には、この複数個それぞれに対してステップＳ１２０５の処理を行う。

部品化手段１０４は、ステップＳ１２０５の次に、任意の「＜構造：図＊＞」タグを見つけ（ステップＳ１２０６）、「＜構造：図＊＞」タグを「＜部品＞」および「＜／部品＞」タグで囲む（ステップＳ１２０７）。ステップＳ１２０６において、＜構造：図＊＞タグが複数個見つかった場合には、この複数個それぞれに対してステップＳ１２０７の処理を行う。

部品化手段１０４は、ステップＳ１２０７の次に、ステップＳ１２０２〜ステップＳ１２０７で書き換えられた変数Ｄを解析結果として出力し（ステップＳ１２０８）、部品化処理を終了する。

次に、実際に例をあげて説明する。
例えば図１１（ａ）の文書データが入力された場合、ステップＳ１２０２において図１１の符号１１０１，１１０２，１１０３に示した部分が見つかり、それぞれが＜部品＞タグによって囲われる。またステップＳ１２０４では図１１（ｃ）の符号１１０５，１１０６に示した部分が見つかり、ステップＳ１２０６では図１１（ｂ）の符号１１０４に示した部分が見つかる。

図１３は、図１１（ａ）〜（ｄ）のそれぞれの文書データを入力とした場合の部品化手段１０４の処理結果の一例を示す図である。
次に、図１４のフローチャートを用いて図１のインデクシング手段１０５の処理の流れについて説明する。
インデクシング手段１０５は、詳細には図１５に示したように、インデクシング戦略知識蓄積手段１０５ａを含んでいる。
情報部品蓄積手段１０６は、詳細には図１６に示したように、文書インデクス１０６ａ，部品インデクス１０６ｂ，戦略インデクス１０６ｃから構成されている。
インデクシング手段１０５は、まず、インデクシングの対象となる文書データを読み込み、変数Ｄに代入する（ステップＳ１４０１）。
次に、インデクシング手段１０５は、部品化手段１０４によって部品化されたときの部品タグ（「＜部品＞」および「＜／部品＞」タグ）によって、変数Ｄを部品データへと分割する（ステップＳ１４０２）。

次に、インデクシング手段１０５は、後に参照できるように、各部品に識別子（部品ＩＤ）を付与する（ステップＳ１４０３）。ＩＤの生成方法については既知の技術によって実現できる。例えば乱数を基にした十分な桁数の数値／アルファベット列などでよい。

次に、インデクシング手段１０５は、ステップＳ１４０３において各部品に部品ＩＤを付与した文書データを、インデクシングして文書インデクス１０６ａに格納する（ステップＳ１４０４）。このインデクシング手法については、既知の文書データベース技術で実現されている手法でよい。

次に、インデクシング手段１０５は、ステップＳ１４０２で分割された部品データを一つずつ読み出していく（ステップＳ１４０５）。
次に、インデクシング手段１０５は、インデクシング手段１０５に入力された基のデータにおいて、ステップＳ１４０５で読み出した部品データの部品タグに到達するまでの文書構造タグのパス（階層）を求め、ベクトルｖ＿１に変換する（ステップＳ１４０６）。ただし部品タグの内部に文書構造タグを含む場合はこれもｖ＿１に含める。

次に、インデクシング手段１０５は、インデクシング手段１０５に入力された基のデータにおいて、ステップＳ１４０５で読み出した部品データに到達するまでの機能的役割タグのパス（階層）を求め、ベクトルｖ＿２に変換する（ステップＳ１４０７）。

次に、インデクシング手段１０５は、部品データの値，部品ＩＤ，ベクトルｖ＿１，ベクトルｖ＿２の４つを部品インデクス１０６ｂに登録する（ステップＳ１４０８）。

次に、インデクシング手段１０５は、ステップＳ１４０５において読み出した部品データの値に含まれている意味属性タグ群のラベルを全て取り出し、ベクトルｖ＿３に変換する（ステップＳ１４０９）。

次に、インデクシング手段１０５は、ステップＳ１４０９において、もしベクトルｖ＿３がヌルベクトル（成分が全て０）であった場合には（ステップＳ１４１０のＹｅｓ）、戦略インデクス１０６ｃへの登録は行わずに後述のステップＳ１４１８へと処理を進め、ヌルベクトルでなかった場合には次のステップＳ１４１１へ進む（ステップＳ１４１０）。なお、ベクトルｖ＿１，ベクトルｖ＿２，ベクトルｖ＿３それぞれへの変換（基底）については図１７（ａ）を用いて後で説明する。

次に、インデクシング戦略知識蓄積手段１０５ａに蓄積されているインデクシング戦略知識を一つ取り出す（ステップＳ１４１１）。
ここで図１７を用いてインデクシング戦略知識の一例を示す。インデクシング戦略知識は、図１７に示すように文書構造ベクトル，機能的役割ベクトル，意味属性ベクトルの３つからなるインデクシング戦略選択ベクトルと、インデクシング戦略ベクトルとから構成される。

図１７（ａ）は、上から文書構造ベクトル，機能的役割ベクトル，意味属性ベクトルの基底となる成分を表している。
例えば、意味属性ベクトルにおいてＣＯＭＰＡＮＹのみが出現する状態は（１，０，０，０，０，０，０，０，０，０，０，０，０，０，０）と表現される。インデクシング戦略ベクトルも、インデクシング戦略選択ベクトルの意味属性ベクトルと同じ基底をとる。

図１７（ｂ）の符号９０１，９０２，９０３は、それぞれインデクシング戦略知識の一例である。「文書構造」，「機能的役割」，「意味属性」と示されたそれぞれのベクトルがインデクシング戦略選択ベクトルの成分ベクトルである。また、図１７（ｂ）において「戦略ベクトル」と示されたベクトルがインデクシング戦略ベクトルである。この第１の実施形態では、インデクシング戦略知識ベクトルは各成分が０または１のいずれかの値をもつとする。

図１４に戻ってインデクシング手段１０５の処理について説明を続ける。
インデクシング手段１０５は、ステップＳ１４１１で取り出したインデクシング戦略知識の各インデクシング戦略選択ベクトルと，ベクトルｖ＿１，ｖ＿２，ｖ＿３の内積（ベクトルｄ＿１，ｄ＿２，ｄ＿３）を計算し、これら計算した値を合計することにより部品データとインデクシング戦略選択ベクトルの類似度Ｓを計算する（ステップＳ１４１２）。

インデクシング手段１０５は、このステップＳ１４１１〜ステップＳ１４１２の処理を、全てのインデクシング戦略知識に対して繰り返し処理する（ステップＳ１４１３）。

インデクシング手段１０５は、ステップＳ１４１３の次に、全てのインデクシング戦略知識に対して、類似度Ｓが予め与えられた閾値Ｓ＿ｌｉｍよりも小さい場合には、戦略インデクス１０６ｃへの登録は行わずに後述するステップＳ１４１８へ処理を進め、小さくない場合には次のステップＳ１４１５へ処理を進める（ステップＳ１４１４）。

ステップＳ１４１４では、インデクシング手段１０５は、閾値Ｓ＿ｌｉｍよりも大きく、かつ類似度Ｓが最大になるインデクシング戦略選択ベクトルに対応するインデクシング戦略知識ベクトルｖ＿ｓをインデクシング戦略知識蓄積手段１０５ａから読み出す（ステップＳ１４１５）。

インデクシング手段１０５は、ステップＳ１４１５の次に、部品データの意味属性ベクトル（ベクトルｖ＿３）と、インデクシング戦略知識ベクトル（ベクトルｖ＿ｓ）の各成分同士を掛け合わせたものを新たなベクトルｖ＿３とする（ステップＳ１４１６）。

次に、インデクシング手段１０５は、この新たなベクトルｖ＿３の各成分を、対応する意味属性が付与された語の重みとして部品ＩＤと共に戦略インデクス１０６ｃに登録する（ステップＳ１４１７）。

インデクシング手段１０５は、ステップＳ１４０５〜ステップＳ１４１７の処理を、全ての文書データ（変数Ｄ）に含まれる全ての部品について繰り返す（ステップＳ１４１８）。

例えば図１３（ａ）が文書データとしてインデクシング手段１０５に入力された場合、図１３（ａ）の最初の部品１３０１の部品ベクトルは、図１４のステップＳ１４０６，Ｓ１４０７，Ｓ１４０９から、
ｖ＿１＝（０，０，１，０，０）
ｖ＿２＝（１，０，０，０）
ｖ＿３＝（０，０，０，０，０，０，０，０，０，０，０，０，０，０，０）
となる。意味属性ベクトルｖ＿３には意味属性タグが一つもないためこの意味属性ベクトルｖ＿３はヌルベクトルであり、図１４のステップＳ１４１０でＹｅｓとなり、戦略インデクスへの登録は行われない。

図１３（ａ）の次の部品１３０２の部品ベクトルは、
ｖ＿１＝（１，０，０，０，０）
ｖ＿２＝（０，１，０，０）
ｖ＿３＝（１，０，１，１，０，１，０，０，０，０，０，０，０，０，０）
となる。ベクトル中に同一の要素が複数ある場合でも、この第１の実施形態ではベクトルの各成分は０または１の値をとるものとしている。

図１３（ａ）の部品１３０２の場合について、図１７（ｂ）の符号９０１，９０２，９０３のインデクシング戦略選択ベクトルとの類似度をそれぞれ計算すると次のようになる。
符号９０１：
ｄ＿１＝０
ｄ＿２＝１
ｄ＿３＝４
類似度Ｓ＝５

符号９０２：
ｄ＿１＝０
ｄ＿２＝０
ｄ＿３＝４
類似度Ｓ＝４

符号９０３：
ｄ＿１＝０
ｄ＿２＝０
ｄ＿３＝１
類似度Ｓ＝１

この結果、類似度Ｓは符号９０１の場合が最も大きくなり、インデクシング手段１０５は、ベクトルｖ＿３に符号９０１のインデクシング戦略ベクトルの各成分をかけた新たなベクトル（１，０，１，１，０，０，０，０，０，０，０，０，０，０，０）を、各成分に対応する意味属性が付与された語の重みとして戦略インデクス１０６ｃに登録する。
即ち、ここでは、＜意味：ＣＯＭＰＡＮＹ＞タグが付与された「ＴＳＢ」，＜意味：ＰＲＯＤＵＣＴ＿ＣＬＡＳＳ＞タグが付与された「デジタルオーディオプレイヤー」と「パソコン」，＜意味：ＰＲＯＤＵＣＴ＿ＮＡＭＥ＞タグが付与された「ＧＢＧ２１」の４つがそれぞれ重み１となり、＜意味：ＤＡＴＥ＞タグが付与された「４月９日」は重みが０となって戦略インデクスから外されることになる。
このようにして、インデクシング手段１０５に入力された文書データが情報部品蓄積手段１０６に格納される。

次に、図１８のフローチャートを用いて図１の検索手段１０７の処理の流れについて説明する。
検索手段１０７は、詳細には図１９に示したように検索戦略知識蓄積手段１０７ａを含んでいるものとする。
図１８において、検索手段１０７は、検索要求の入力を受け付ける（ステップＳ１８０１）。
次に、検索手段１０７は、ステップＳ１８０１で受け付けた検索要求に対して、意味解析処理及び部品化処理が未処理であるか否かを判断する（ステップＳ１８０２）。

検索手段１０７は、ステップＳ１８０２の判定結果が、意味解析処理及び部品化処理が未処理であった場合には（ステップＳ１８０２のＹｅｓ）、文書解析手段１０３によって意味解析処理（ステップＳ１８０３）、部品化手段１０４によって部品化処理（ステップＳ１８０４）を施す。

次に、検索手段１０７は、予め或いはステップＳ１８０３〜ステップＳ１８０４によって意味解析処理と部品化処理が施された検索要求を、部品タグによって分割する（ステップＳ１８０５）。

次に、検索手段１０７は、ステップＳ１８０５により分割された部品を一つずつ読み出し（ステップＳ１８０６）、文書データにおける構造タグのパスをベクトル化し（ステップＳ１８０７）、文書データにおける機能タグのパスをベクトル化し（ステップＳ１８０８）、部品に含まれる意味属性タグ群のラベルをベクトル化する（ステップＳ１８０９）。

ステップＳ１８０７〜ステップＳ１８０９の各ベクトル化処理の詳細は、それぞれ図１４におけるステップＳ１４０６、ステップＳ１４０７、ステップＳ１４０９と同様である。

ここでは、ステップＳ１８０７によって得られたベクトルをｖ＿１、ステップＳ１８０８によって得られたベクトルをｖ＿２、ステップＳ１８０９によって得られたベクトルをｖ＿３とする。

検索手段１０７に含まれる検索戦略知識蓄積手段１０７ａから検索戦略知識を一つ取り出し（ステップＳ１８１０）、この検索戦略知識に含まれる文書構造ベクトル，機能的役割ベクトル、意味属性ベクトルと、部品に含まれる各ベクトルとの内積（それぞれｄ＿１，ｄ＿２，ｄ＿３とする）を計算し、これらを合計することにより、検索戦略ベクトルと部品ベクトルとの類似度Ｄ＿ｉを計算する（ステップＳ１８１１）。この合計値を類似度Ｄ＿ｉとする。この類似度の計算方法は図１４におけるステップＳ１４１２と同様である。

次に、検索手段１０７は、全ての検索戦略知識について類似度Ｄ＿ｉを求め（ステップＳ１８１２）、類似度Ｄ＿ｉの最大値が予め与えられた閾値Ｄ＿ｌｉｍ未満か否かを判断する（ステップＳ１８１３）。

類似度Ｄ＿ｉの最大値がＤ＿ｌｉｍ未満であれば（ステップＳ１８１３のＹｅｓ）、検索戦略ベクトルは全ての成分が０であるヌルベクトルとする（ステップＳ１８１４）。

類似度Ｄ＿ｉの最大値がＤ＿ｌｉｍ未満でなければ（ステップＳ１８１３のＮｏ）、類似度Ｄ＿ｉを最大にする検索戦略知識から検索戦略ベクトルを読み出す（ステップＳ１８１５）。

次に検索手段１０７は検索処理を実行する。ここでは次に述べる３系統の検索結果から、統合された検索結果を出力するものとする。
検索手段１０７は、部品タグの値で文書インデクスを検索し、この検索された各文書の検索スコアを記憶する（ステップＳ１８１６）。
次に、検索手段１０７は、ステップＳ１８１５で読み出された検索戦略知識ベクトルについて、各成分に対応する各意味タグに含まれる語の重みに、検索戦略知識ベクトルの成分を係数として掛けて部品インデクスを検索し、この検索された各部品の検索スコアを記憶する（ステップＳ１８１７）。

次に、検索手段１０７は、部品タグの値で戦略インデクスを検索し、この検索された各部品の検索スコアを記憶する（ステップＳ１８１８）。なお、それぞれの検索（スコアリング）処理は既知の手法でありここでは詳説しない。

次に、検索手段１０７は、ステップＳ１８１６〜ステップＳ１８１８で記憶されたスコアを、文書毎、或いは部品毎に加算して更に記憶する（ステップＳ１８１９）。

次に、検索手段１０７は、部品化された検索要求の各部品についてステップＳ１８０６〜ステップＳ１８１９を処理する（ステップＳ１８２０）。

次に、検索手段１０７は、検索要求全体について検索処理を実行すると、ステップＳ１８１９において加算され記憶されたスコアに従って、検索された文書、或いは部品をソートし（ステップＳ１８２１）、このソート結果を出力する（ステップＳ１８２２）。ここでは文書と部品は別々にソートして出力するものとする。

今、登録される文書の例として前に示した図１３（ｄ）の６０３を、改めて検索要求の具体例としてみると、
ｖ＿１＝（０，０，１，０，０）
ｖ＿２＝（１，０，０，０）
ｖ＿３＝（０，０，１，１，０，０，１，０，０，０，０，０，０，０，０）
である。図２０に示した検索戦略知識の各々の例との類似度を計算すると、

符号２００１の戦略ベクトル：
ｄ＿１＝０
ｄ＿２＝０
ｄ＿３＝３
ｄ＿ｉ＝３

符号２００２の戦略ベクトル：
ｄ＿１＝１
ｄ＿２＝０
ｄ＿３＝３
ｄ＿ｉ＝４

符号２００３の戦略ベクトル：
ｄ＿１＝０
ｄ＿２＝０
ｄ＿３＝０
ｄ＿ｉ＝０
となる。よって、ｄ＿ｉが最大となる検索戦略知識は符号２００２となる。

もしＤ＿ｌｉｍが４以下であれば、符号２００２の戦略ベクトル、（０．５，０，０．５，１，０，０，０，０，０，０，０，０，０，０，０）がステップＳ１８１６で利用されることになる。つまり検索要求中で意味タグとしてＰＲＯＤＵＣＴ＿ＮＡＭＥが付与されている語「ＧＢＧ２１」の重みを１、ＰＲＯＤＵＣＴ＿ＣＬＡＳＳが付与されている語「ポータブルオーディオプレイヤー」の重みを０．５、それ以外の語の重みを０として部品インデクスを検索する。

戦略ベクトル中ではＣＯＭＰＡＮＹの成分が０．５となっているが検索要求中に対応する意味タグがないためここでは無視される。
また検索要求中でＣＯＵＮＴという意味タグが付与されている「５，０００曲」は、対応する戦略ベクトルの成分が０であるため、ステップＳ１８１６では無視されることになる。

またステップＳ１８１７では、インデクシング手段１０５によって戦略インデクスに登録された語だけが検索対象となるので、例えば図１３（ａ）の符号１３０２の場合であれば、前述の通り「ＴＳＢ」，「デジタルオーディオプレイヤー」，「パソコン」，「ＧＢＧ２１」が重要視されることになる。

以上説明した通りこの発明によれば、文書データの各部の文書構造、機能的役割、含まれる意味属性に依存してインデクスにおける各語の重みを適切に変更することにより、文書データの文脈に依存した適切なインデクシングを行うことができる文書情報処理装置を提供することができる。例えば、文脈毎に重要な語を検索され易くしたり、ゴミとなり得る語を予め除去しておくといった高度な制御が可能となる。

また、検索要求の文脈にも依存した検索を行うことで、必要な情報を的確に得ることのできる文書情報処理装置を提供することができる。例えば、検索要求として文書データの一部（部品）を与えた時には、検索要求である部品を含む文書データの文書構造，機能的役割，検索要求に含まれる意味属性に依存して検索キーワードとなる各語の重みを適切に変更することにより、検索要求の文脈に依存した高度な検索制御が可能となる。

本実施形態は、典型的には、ソフトウェアで制御されるコンピュータにより実現される。この場合のソフトウェアは、プログラムやデータを含み、コンピュータのハードウェアを物理的に活用することで本発明の作用効果を実現するものであり、従来技術を適用可能な部分には好適な従来技術が適用される。更に、本発明を実現するハードウェアやソフトウェアの具体的な種類や構成、ソフトウェアで処理する範囲などは自由に変更可能である。従って、以下の説明では、本発明を構成する機能ごとにブロック化して図示した仮想的機能ブロック図を用いる。なお、コンピュータを動作させて本発明を実現するためのプログラムも、本発明の一態様である。

（第２の実施形態）
以下、図面を参照しながら本発明の第２の実施形態について説明する。この第２の実施形態では、ユーザはテンプレートを用いて容易に編集することができる。
なお、構成や動作等、第１の実施形態と同じものについては同一符号を付し、説明を省略する。
図２１は、本発明の第２の実施形態に係る文書情報処理装置の構成を示す図である。
図２１において、文書情報処理装置１００は、図１と比較してテンプレート生成手段２１０１、テンプレート蓄積手段２１０２が新たに加わっている。
編集手段１０８は、検索手段１０７によって検索された情報部品の少なくとも一つ以上を利用して、新たなコンテンツを編集する。編集手段１０８は、編集したコンテンツをインデクシング手段１０５に送る。するとインデクシング手段は、新たな情報部品としてインデクスを付与して情報部品蓄積手段１０６に蓄積する。

編集手段１０８は、検索手段１０７によって検索された情報部品を利用して新たなコンテンツを編集するとした。しかし、編集手段１０８は、例えばファイルに出力された情報部品をファイル名によって呼び出すなど、検索手段１０７とは別の手段によって得られた情報部品を利用して編集してもよい。また編集手段１０８は、テンプレートに従って編集を処理することもできる。テンプレート蓄積手段２１０２は、編集手段１０８が編集するためのテンプレートを蓄積する。

テンプレート蓄積手段２１０２に蓄積されるテンプレートは、本発明の文書情報処理装置には含まれない手段によって作成されてもよいし、ユーザが編集手段１０８を用いて行った編集処理の内容を反映して生成されてもよい。

テンプレート生成手段２１０１は、文書解析手段１０３による文書解析結果と、編集手段１０８の編集処理内容に基づいて編集処理用のテンプレートを生成し、テンプレート蓄積手段２１０２に蓄積する。

まず編集手段１０８について説明する。
図２２は、編集手段１０８を用いた編集作業の画面の一例である。
符号２２０３は、編集作業のワークペースとなるスクラップブックを示す。符号２２０１は、図２（ｂ）に含まれる部品を示す。符号２２０２は、図２（ａ）に含まれる部品を示す。

スクラップブック２２０３上には、部品２２０１および部品２２０２が配置されている。
このような編集作業は、従来技術に記載した従来のソフトウェア製品にて実現されている。
図２３にスクラップブックのデータ表現の一例を示す。
図２３（ａ）は、部品を含まない状態でのスクラップブックのデータを示す。図２３（ｂ）は、スクラップブック２２０３の状態でのスクラップブックのデータを示す。図２３（ｂ）に含まれる各部品には、図１４のフローチャートのステップＳ１４０３において付与された固有のＩＤが記載されているため、編集手段１０８において編集作業がなされた後にも各部品の識別が可能である。

次に、図２４のフローチャートによりテンプレート生成手段２１０１の動作について説明する。
テンプレート生成手段２１０１は、最初に、スクラップブックに含まれる部品を一つ取り出し（ステップＳ２４０１）、この取り出した部品に記述された部品ＩＤを情報部品蓄積手段１０６から読み出す（ステップＳ２４０２）。

次に、テンプレート生成手段２１０１は、ステップＳ２４０２において読み出した部品ＩＤを手掛かりに部品が元々含まれていた文書データを取り出す（ステップＳ２４０３）。

文書データにおいて、部品データの部品タグに到達するまでの文書構造タグのパス（階層）を求め、ベクトルｖ＿１に変換する（ステップＳ２４０４）。但し、部品タグの内部に文書構造タグを含む場合はこれもベクトルｖ＿１に含める。同様に、文書データの部品データに到達するまでの機能的役割タグのパス（階層）を求め、ベクトルｖ＿２に変換する（ステップＳ２４０５）。

更に、部品データの値に含まれる、意味属性タグのラベルを全て取り出し、ベクトルｖ＿３に変換する（ステップＳ２４０６）。
なお、ステップＳ２４０３，ステップＳ２４０４，ステップＳ２４０５は、具体的にはそれぞれ図１４のフローにおけるステップＳ１４０６，ステップＳ１４０７，ステップＳ１４１０と同様に処理できる。

次に、テンプレート生成手段２１０１は、作成されたベクトルｖ＿１，ｖ＿２，ｖ＿３の３つのベクトルをそれぞれ文字列に変換し、スクラップブックの部品情報と置換する（ステップＳ２４０７）。

ステップＳ２４０１〜ステップＳ２４０６の処理はスクラップブック中の全ての部品について繰り返される（ステップＳ２４０８）。
スクラップブック中の全ての部品について処理が完了すると（ステップＳ２４０８のＹｅｓ）、従来から知られているＧＵＩ技術によってユーザにテンプレートの名称の入力を要求し（ステップＳ２４０９）、部品部分を置換されたスクラップブックをテンプレートとして、ステップＳ２４０９で入力されたテンプレートの名称を付与してテンプレート蓄積手段２１０２に蓄積する。

このようにして、テンプレート生成手段２１０１はテンプレートを生成し、テンプレート蓄積手段２１０２に蓄積する。
このようにしてテンプレート生成手段２１０１によって、図２３（ｂ）から変換されたテンプレートの一例を図２５に示す。
次に、編集手段１０８がテンプレートに基づいて編集処理を行う場合の処理の流れを図２６を用いて説明する。
この場合、ユーザは編集処理を行いたい複数の文書群を編集手段１０８に入力する。これらの文書群が意味解析処理と部品化を施されていない場合は、既に説明した文書解析手段１０３及び部品化手段１０４によってそれぞれ意味解析処理と部品化を施されるものとする。

まず、編集手段１０８は、文書群の入力を受け付ける（ステップＳ２６０１）。ここでは複数の文書を一度に入力する場合について考えているが、文書を一つずつ与えて順次処理をしてもよい。

次に、編集手段１０８は、テンプレートに付与された名称を手がかりにユーザによって予め選択されたテンプレートを読み込み、後に書き換えを行うためにバッファにコピーしておく（ステップＳ２６０２）。

次に、編集手段１０８は、テンプレートから一つ部品を取り出す（ステップＳ２６０３）。
次に、編集手段１０８は、先に図２４で説明したようにテンプレート生成手段２１０１によって求められてテンプレートの各部品に記述された、文書構造ベクトル（ｖ＿１），機能的役割ベクトル（ｖ＿２），意味属性ベクトル（ｖ＿３）を、ステップＳ２６０３で取り出したテンプレートから読み出す（ステップＳ２６０４〜ステップＳ２６０６）。

次に、編集手段１０８は、ステップＳ２６０１で入力された文書群から文書を一つ取り出し（ステップＳ２６０７）、この取り出した文書から部品を一つ読み出す（ステップＳ２６０８）。

次に、編集手段１０８は、ステップＳ２６０８で読み出した部品について、図２４のステップＳ２４０４〜ステップＳ２４０６と同様の手順で、文書構造ベクトル（ｖ＿１’）、機能的役割ベクトル（ｖ＿２’）、意味属性ベクトル（ｖ＿３’）を求める（ステップＳ２６０９〜ステップＳ２６１１）。

次に、編集手段１０８は、ステップＳ２６０４〜ステップＳ２６０６で読み出したベクトルと、ステップＳ２６０９〜ステップＳ２６１１で求めたベクトルについて、ベクトルｖ＿１とｖ＿１’の内積（ｓ＿１）、ベクトルｖ＿２とｖ＿２’の内積（ｓ＿２）、ベクトルｖ＿３とｖ＿３’の内積（ｓ＿３）を求め、これによって部品間の類似度Ｓ＿ｉ（＝ｓ＿１＋ｓ＿２＋ｓ＿３）を求めて一時的に記憶する（ステップＳ２６１２）。

次に、編集手段１０８は、ステップＳ２６０８〜ステップＳ２６１２の処理を、ステップＳ２６０７で取り出した文書に含まれる全ての部品について繰り返し（ステップＳ２６１２）、更にステップＳ２６０１で入力された文書群中の全ての文書について繰り返す（ステップＳ２６１４）。

次に、編集手段１０８は、ステップＳ２６１２で一時的に記憶していた各Ｓ＿ｉの中から、最大値（Ｓ＿ｍａｘ）を求める（ステップＳ２６１５）。
次に、編集手段１０８は、Ｓ＿ｍａｘが予め与えられた閾値（Ｓ＿ｌｉｍ）未満なら（ステップＳ２６１６Ｎｏ）、バッファにコピーされたテンプレートの当該部品部分の値を削除する（ステップＳ２６１７）。反対に、編集手段１０８は、Ｓ＿ｍａｘがＳ＿ｌｉｍ以上であれば（ステップＳ２６１６のＹｅｓ）、文書中の部品のうちＳ＿ｉを最大にする部品を選択し（ステップＳ２６１８）、バッファにコピーされたテンプレートの当該部品部分の値を置換する（ステップＳ２６１９）。

次に、編集手段１０８は、ステップＳ２６０３〜ステップＳ２６１９の処理を、ステップＳ２６０２で入力されたテンプレートに含まれる全ての部品について繰り返す（ステップＳ２６２０）。

以上のフローにより適宜置換処理が行われたバッファ中のテンプレートを、編集結果として出力し（ステップＳ２６２１）処理を終了する。

例えば、図２５に示したテンプレートを指定し、図２７（ａ）及び（ｂ）を文書群として入力した場合を考える。
図２５のテンプレートの符号２５０１の部分について、
ｖ＿１＝（１，０，０，０，０），
ｖ＿２＝（０，１，０，０），
ｖ＿３＝（１．０．１，１，０，１，０，０，０，０，０，０，０，０，０）
である。

一方，図２７の符号２７０１〜２７０６の各部分それぞれについて、
符号２７０１：
ｖ＿１’＝（０，０，１，０，０），
ｖ＿２’＝（１，０，０，０），
ｖ＿３’＝（０．０．０，０，０，０，０，０，０，０，０，０，０，０，０）
符号２７０２：
ｖ＿１’＝（１，０，０，０，０），
ｖ＿２’＝（０，１，０，０），
ｖ＿３’＝（１．０．１，１，０，１，０，０，０，０，０，０，０，０，０）
符号２７０３：
ｖ＿１’＝（１，０，０，０，０），
ｖ＿２’＝（１，０，０，０），
ｖ＿３’＝（０．０．０，０，０，０，０，０，０，０，０，０，０，０，１）
符号２７０４：
ｖ＿１’＝（０，０，１，０，０），
ｖ＿２’＝（１，０，０，０），
ｖ＿３’＝（０．０．０，０，０，０，０，０，０，０，０，０，０，０，０）
符号２７０５：
ｖ＿１’＝（１，０，０，０，０），
ｖ＿２’＝（０，０，１，０），
ｖ＿３’＝（１．０．１，１，０，１，０，０，０，０，０，０，０，０，０）
符号２７０６：
ｖ＿１’＝（０，０，０，０，１），
ｖ＿２’＝（０，０，０，０），
ｖ＿３’＝（０．０．０，０，０，０，０，０，０，０，０，０，０，０，０）
となる。

従って、符号２５０１の部分との間の類似度はそれぞれ、
符号２７０１：Ｓ＿ｉ＝０
符号２７０２：Ｓ＿ｉ＝６
符号２７０３：Ｓ＿ｉ＝１
符号２７０４：Ｓ＿ｉ＝０
符号２７０５：Ｓ＿ｉ＝５
符号２７０６：Ｓ＿ｉ＝０
となる。

よって、類似度は符号２７０２の部分が最大となる。もし閾値Ｓ＿ｍａｘが５以下であれば、テンプレートである図２５の符号２５０１の部分が符号２７０２の部分で置換される。

この例では，符号２７０２の部分および符号２７０５の部分は、意味属性ベクトルとしては符号２５０１の部分と等価であるが、機能的役割ベクトルの違いによってより適切な部品として符号２７０２の部分が選択されることを示している。

同様に，符号２５０２の部分のベクトル、
ｖ＿１＝（０，０，０，０，１）
ｖ＿２＝（０，０，０，０）
ｖ＿３＝（０．０．０，０，０，０，０，０，０，０，０，０，０，０，０）
との類似度は、
符号２７０１：Ｓ＿ｉ＝０
符号２７０２：Ｓ＿ｉ＝０
符号２７０３：Ｓ＿ｉ＝０
符号２７０４：Ｓ＿ｉ＝０
符号２７０５：Ｓ＿ｉ＝０
符号２７０６：Ｓ＿ｉ＝１
となる。

よって、類似度は符号２７０６の部分が最大となる。もし閾値Ｓ＿ｍａｘが０であれば、テンプレートである図２５の符号２５０２の部分が符号２７０６の部分で置換される。

ここでは符号２５０１の部分および符号２５０２の部分が共に置換されたものとすると、編集結果は図２８（ａ）のようになる。図２８（ｂ）は編集結果をブラウザで表示した例である。

以上説明した通りこの発明によれば第１の実施形態の効果に加え、更に、制作されたスクラップページに追加するべきスクラップを容易に収集することができる文書情報処理装置を提供することができる。即ち、テンプレートと同様のスクラップページをユーザが再度制作することが非常に簡便に行うことができる。例えば図２６のフローに従えば、編集手段１０８がテンプレート蓄積手段２１０２に蓄積されたテンプレートに基づいて自動的に編集処理を行うことができる。

また、制作されたスクラップページにおけるスクラップ部品の組み合わせからスクラップページのテンプレートが生成されるので、利用者が再度同様のスクラップページを制作する場合に、テンプレートに従って容易にスクラップページを制作することのできる文書情報処理装置を提供することができる。

本発明の文書情報処理装置は、ワークステーション（ＷＳ）やパーソナルコンピュータ（ＰＣ）等のコンピュータで動作させるプログラムとして実現することができる。

図２９は本発明の文書情報処理装置をコンピュータで実現するときの構成の例を示す図である。このコンピュータは、プログラムを実行する中央演算装置２９０１と、プログラムやプログラムが処理中のデータを格納するメモリ２９０２と、プログラム、検索対象のデータ及びＯＳ（Operating System）を格納しておく磁気ディスクドライブ２９０３と、光ディスクにプログラムやデータを読み書きする光ディスクドライブ２９０４とを備える。

さらに、ディスプレイ等に画面を表示させるためのインターフェースである画像出力部２９０５と、キーボード・マウス・タッチパネル等からの入力を受ける入力受付部２９０６と、外部機器との出入力インターフェース（例えばＵＳＢ（Universal Serial Bus）、音声出力端子等）である出入力部２９０７とを備える。また、ＬＣＤ、ＣＲＴ、プロジェクタ等の表示装置２９０８と、キーボードやマウス等の入力装置２９０９と、メモリカードリーダ・スピーカー等の外部機器２９１０とを備える。

中央演算装置２９０１は、磁気ディスクドライブ２９０３からプログラムを読み出してメモリ２９０２に記憶させた後にプログラムを実行することにより図１に示す各機能ブロックを実現する。プログラム実行中に、磁気ディスクドライブ２９０３から検索対象データの一部或いは全部を読み出してメモリ２９０２に記憶させておいても良い。

基本的な動作は、入力装置２９０９を介して利用者からの検索要求を受け、検索要求に応じて磁気ディスクドライブ２９０３やメモリ２９０２に記憶させた検索対象データを検索する。そして、表示装置２９０８に検索結果を表示させる。

検索結果は表示装置２９０８に表示させるだけでなく、例えば外部機器２９１０としてスピーカーを接続しておいて音声で利用者に提示しても良い。あるいは、外部機器２９１０としてプリンタを接続しておいて、印刷物として提示しても良い。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の第１の実施形態に係る文書情報処理装置の構成を説明するためのブロック図。情報入力手段１０１に入力される情報の例を示す図。情報入力手段１０１に入力される情報のソースの例を示す図。文書解析手段１０３の処理の流れを説明するためのフローチャート。文書構造解析に関する知識の例を示す図。ＨＴＭＬで記述された情報が入力された場合の文書構造解析処理（ｂ）を説明するためのフローチャート。文書解析手段１０３の文書構造解析処理結果の一例を示す図。文書解析手段１０３の意味属性解析処理結果の一例を示す図（図３（ａ）を入力とした場合の出力例）。文書解析手段１０３の意味属性解析処理結果の一例を示す図（図３（ｂ）を入力とした場合の出力例）。文書解析手段１０３の意味属性解析処理結果の一例を示す図（図３（ｃ）を入力とした場合の出力例）。文書解析手段１０３の意味属性解析処理結果の一例を示す図（図２（ｄ）を入力とした場合の出力例）。文書解析手段１０３の機能的役割解析処理（図４のステップＳ４１０）を説明するためのフローチャート。機能的役割解析知識の一例を示す図。図８ａの文書データに対する機能的役割解析処理の処理結果の一例を示す図。図８ｂの文書データに対する機能的役割解析処理の処理結果の一例を示す図。図８ｃの文書データに対する機能的役割解析処理の処理結果の一例を示す図。図８ｄの文書データに対する機能的役割解析処理の処理結果の一例を示す図。部品化手段１０４の処理の流れを説明するためのフローチャート。図１１ａの文書データを入力とした場合の部品化手段１０４の処理結果の一例を示す図。図１１ｂの文書データを入力とした場合の部品化手段１０４の処理結果の一例を示す図。図１１ｃの文書データを入力とした場合の部品化手段１０４の処理結果の一例を示す図。図１１ｄの文書データを入力とした場合の部品化手段１０４の処理結果の一例を示す図。インデクシング手段１０５の処理の流れを説明するためのフローチャート。インデクシング手段１０５の構成を示す図。情報部品蓄積手段１０６の構成を示す図。インデクシング戦略知識の一例を示す図。検索手段１０７の処理の流れを説明するためのフローチャート。検索手段１０７の構成を示す図。検索戦略知識の一例を示す図。第２の実施形態に係る文書情報処理装置の構成を示す図。編集手段１０８を用いた編集作業の画面の一例を示す図。スクラップブックのデータ表現の一例を示す図。テンプレート生成手段２１０１の動作を説明するためのフローチャート。テンプレート生成手段２１０１によって、図２３（ｂ）から変換されたテンプレートの一例を示す図。編集手段１０８がテンプレートに基づいて編集処理を行う場合の処理の流れを説明するためのフローチャート。文書群を示す図。図２５の、符号２５０１の部分および符号２５０２の部分が共に置換された場合の編集結果を示す図。本発明の文書情報処理装置をコンピュータで実施するときのハードウェアの構成を示す図。

符号の説明

１００…文書情報処理装置、１０１…情報入力手段、１０２…文書解析知識蓄積手段、１０３…文書解析手段、１０４…部品化手段、１０５…インデクシング手段、１０６…情報部品蓄積手段、１０７…検索手段。

Claims

文書情報を入力する文書情報入力手段と、
この文書情報入力手段から入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析する文書解析手段と、
前記文書情報入力手段から入力された文書情報を、編集の単位である情報部品に分割する部品化手段と、
前記文書解析手段の文書解析結果に基づいて前記情報部品にインデクス情報を付与するインデクシング手段と、
前記情報部品および当該情報部品に付与されたインデクス情報を組にして蓄積する情報部品蓄積手段とを備えたことを特徴とする文書情報処理装置。
文書情報を入力する文書情報入力手段と、
この文書情報入力手段から入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析する文書解析手段と、
前記文書情報入力手段から入力された文書情報を、編集の単位である情報部品に分割する部品化手段と、
この部品化手段によって分割された情報部品を利用者に選択させる情報部品選択手段と、
前記情報部品選択手段の選択結果に基づいて前記情報部品にインデクス情報を付与するインデクシング手段と、
前記情報部品および当該情報部品に付与されたインデクス情報を組にして蓄積する情報部品蓄積手段とを備えたことを特徴とする文書情報処理装置。
更に、前記情報部品蓄積装置から前記情報部品を検索する情報部品検索手段とを備えたことを特徴とする請求項１または２記載の文書情報処理装置。
前記文書解析手段は、（１）前記文書情報の文書構造，（２）前記文書情報に含まれる部分の機能的役割，（３）前記文書情報に含まれる語または文節または文の意味属性の内、少なくとも１つの文書解析をすることを特徴とする請求項１乃至３のいずれか１項に記載の文書情報処理装置。
前記文書解析手段は、文書情報を意味解析するための意味解析知識を用いて意味解析することを特徴とする請求項１乃至３のいずれか１項に記載の文書情報処理装置。
前記部品化手段は、前記文書解析手段の解析結果に基づいて前記文書情報を情報部品に分割することを特徴とする請求項１乃至５のいずれか１項に記載の文書情報処理装置。
更に、前記情報部品の編集に用いる編集テンプレートを蓄積する編集テンプレート蓄積手段と、
この編集テンプレート蓄積手段に蓄積されている編集テンプレート，前記文書解析手段の文書解析結果，前記部品化手段の分割結果の３つに基づいて前記情報部品を編集して、新たな文書情報を生成する編集手段とを備えたことを特徴とする請求項１乃至６のいずれか1項に記載の文書情報処理装置。
更に、前記文書解析手段による文書解析結果および前記編集手段による編集内容に基づいて前記編集テンプレートを生成する編集テンプレート生成手段を備えたことを特徴とする請求項７記載の文書情報処理装置。
前記テンプレート生成手段により生成されたテンプレートを、前記テンプレート蓄積手段に蓄積させる制御手段を備えたことを特徴とする請求項８記載の文書情報処理装置。
更に、前記文書解析知識を蓄積する文書解析知識蓄積手段を備えたことを特徴とする請求項１乃至１０のいずれか１項に記載の文書情報処理装置。
文書情報を入力し、
この入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析し、
前記入力された文書情報を、編集の単位である情報部品に分割し、
前記文書解析結果に基づいて前記情報部品にインデクス情報を付与し、
前記情報部品および当該情報部品に付与されたインデクス情報を組にして蓄積する情報部品蓄積手段とを備えたことを特徴とする文書情報処理方法。
文書情報を入力し、
この入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析し、
前記入力された文書情報を、編集の単位である情報部品に分割し、
この分割された情報部品を利用者に選択させ、
この選択の結果に基づいて前記情報部品にインデクス情報を付与し、
前記情報部品および当該情報部品に付与されたインデクス情報を組にして情報部品蓄積手段に蓄積することを特徴とする文書情報処理方法。
文書情報処理装置としてコンピュータを機能させるためのプログラムにおいて、
前記プログラムは、前記コンピュータに、
文書情報を入力させ、
この入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析させ、
前記入力された文書情報を、編集の単位である情報部品に分割させ、
前記文書解析結果に基づいて前記情報部品にインデクス情報を付与させ、
前記情報部品および当該情報部品に付与されたインデクス情報を組にして情報部品蓄積手段に蓄積させることを特徴とする文書情報処理プログラム。
文書情報処理装置としてコンピュータを機能させるためのプログラムにおいて、
前記プログラムは、前記コンピュータに、
文書情報を入力させ、
この入力された文書情報を、文書情報を解析するための解析知識を用いて文書解析させ、
前記入力された文書情報を、編集の単位である情報部品に分割させ、
この分割された情報部品を利用者に選択させ、
前記選択の結果に基づいて前記情報部品にインデクス情報を付与させ、
前記情報部品および当該情報部品に付与されたインデクス情報を組にして情報部品蓄積手段に蓄積させることを特徴とする文書情報処理プログラム。