WO2006115227A1

WO2006115227A1 - 調査対象文書の索引語抽出装置

Info

Publication number: WO2006115227A1
Application number: PCT/JP2006/308473
Authority: WO
Inventors: Hiroaki Masuyama; Haru-Tada Sato
Original assignee: Intellectual Property Bank Corp.
Priority date: 2005-04-21
Filing date: 2006-04-21
Publication date: 2006-11-02
Also published as: JPWO2006115227A1; EP1876541A1; US20090077073A1

Abstract

調査対象文書ｄ、比較対象文書群Ｐ及び類似文書群Ｓを入力する入力手段１と、調査対象文書ｄ内の索引語を抽出する索引語抽出手段１２０と、前記抽出された索引語の、比較対象文書群Ｐにおける ln ＧＦＩＤＦ（Ｐ）を算出する第１出現頻度算出手段１４３と、前記抽出された索引語の、類似文書群Ｓにおける ln ＧＦＩＤＦ（Ｓ）を算出する第２出現頻度算出手段１７１と、各索引語についての、前記算出された比較対象文書群及び類似文書群における各 ln ＧＦＩＤＦの組合せに基づき、各索引語とその位置づけデータとを出力する出力手段４と、を備える。これにより、調査対象文書が与えられたときに、その主張を簡単に把握できるようにする。

Description

調査対象文書の索引語抽出装置

技術分野

[0001] 本発明は、調査対象文書中の索引語の抽出に係わり、特に調査対象文書の主張を的確に分析することを可能にする索引語の自動抽出装置、抽出プログラム、抽出方法に関するものである。

背景技術

[0002] 特許文書をはじめ技術的文書やその他の文書は年々確実に量が増えている。請求項数が数十にものぼる特許出願も珍しくなぐ大量の文書を調査するには膨大な作業量を必要とする。近年、文書データが電子化されて流通するようになってから、膨大な文書群から調査対象の文書に類似した文書だけを自動検索するシステムが実用化されてきた。例えば、特開平 11 73415号公報「類似文書検索装置及び類似文書検索方法」（特許文献 1)においては、調査対象の文書に含まれる索引語を他の文書群に含まれる索引語と比較し、類似する索引語の種類や出現回数など力類似度を算出し、最も類似度の高い文書力順に出力している。

[0003] しかし、類似文書は検索されても、それだけでは調査対象の文書が何を主張してヽるかを知ることはできない。調査対象の文書の主張を知るためには、調査対象の文書を読み込んだ上で、調査対象文書の評価をしなければならな力た。

[0004] 一方、文書の特徴そのものを自動抽出するものとして、例えば特開平 11 34523 9号公報「文書情報抽出方法及び装置及び文書情報抽出プログラムを格納した記憶媒体」（特許文献 2)が存在する。この公報においては、「標準文書集合」から検索により「対象文書集合」を抽出し、この「対象文書集合」を構成する各「個別文書」の特徴情報を抽出している。

具体的には、「対象文書集合」を「標準文書集合」に対して特徴付ける『対象文書集合全体特徴』を算出するとともに、「対象文書集合」中の各「個別文書」を他の個別文書に対して特徴付ける『個別文書特徴』を算出する。そして、これら『対象文書集合全体特徴』と『個別文書特徴』に基づいて、各「個別文書」の特徴情報を出力する。この技術は、大量の情報の中力ユーザが有益な情報を見つけ出して取捨選択することを容易にする点で有益である。

特許文献 1：特開平 11 73415号公報「類似文書検索装置及び類似文書検索方法 J

特許文献 2：特開平 11 345239号公報「文書情報抽出方法及び装置及び文書情報抽出プログラムを格納した記憶媒体」

発明の開示

発明が解決しょうとする課題

[0005] しかし、上記特開平 11— 345239号公報 (特許文献 2)に記載の技術では例えば「桜の花見」など特定のテーマを決めて力これに合致する「対象文書集合」を抽出する。そしてこの「対象文書集合」が抽出されることで初めて、特徴情報の抽出対象となる各「個別文書」が決定される。すなわち、「対象文書集合」やそれを抽出する特定のテーマが予め決まって、な、と「個別文書」を決定することさえできな、。従ってこの公報に記載の技術では、特定の調査対象文書が与えられたときにその主張を分析することはできない。

また、「個別文書」の特徴情報を出力しても、当該「個別文書」自体に特徴が乏しいときは十分な情報が得られず、何を主張しょうとする文書なの力も把握できない場合がある。

[0006] 本発明の課題は、調査対象文書が与えられたときに、その主張を簡単に把握できるようにする索引語抽出装置を提供することである。

課題を解決するための手段

[0007] (1)上記の課題を解決するため、本発明の索引語抽出装置は、調査対象文書、前記調査対象文書と比較される比較対象文書群、前記調査対象文書に類似する類似文書群、を入力する入力手段と、前記調査対象文書内の索引語を抽出する索引語抽出手段と、前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第 1出現頻度算出手段と、前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第 2出現頻度算出手段と、各索引語についての、前記算出された前記比較対象文書群における出現頻度の関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引語とその位置づけデータとを出力する出力手段と、を備えている。そして、前記第 1出現頻度算出手段で算出する前記比較対象文書群における出現頻度の関数値又は前記第 2出現頻度算出手段で算出する前記類似文書群における出現頻度の関数値の少なくとも何れか一方は、大域的頻度 IDFを変数として含む関数値とする。

大域的頻度 IDFは、与えられた索引語について、与えられた文書群における大域的頻度を、当該文書群における文書頻度で除したものである。従って、与えられた索引語を使用する 1文書あたりの、平均使用回数を意味する。この大域的頻度 IDFを用いることで、調査対象文書の主張を把握することが可能になる。

本発明によれば、調査対象文書内の索引語を抽出する処理、比較対象文書群又は類似文書群における出現頻度の関数値を算出する処理等は、すべてコンピュータで行われるので、各処理のために人間が文書内容を読む必要はまったくない。

上記比較対象文書群は、検索処理可能なデータである必要はあるが、内容については格別の制約はなぐある文書群力無作為抽出されたものでも良いし、一定条件のもとで全件抽出されたものでもよい。典型例としては、ある国及び期間における全特許文書 (公開特許公報など)を、比較対象文書群とする。

上記類似文書群も、検索処理可能なデータである必要がある。類似文書群の選出方法は、ここでは特に限定されず、例えば IPC (国際特許分類)などの分類の一致により選出してもよい。

上記調査対象文書は、 1文書でも複数の文書でもよい。複数の文書をまとめて調査対象文書とする場合は、個々の調査対象文書の主張というよりは、文書群に共通する主張を示すことになる。また調査対象文書は、比較対象文書群又は類似文書群に含まれるものでも、含まれないものでもよい。

上記索引語抽出手段による索引語の抽出は、文書の全部又は一部力単語を切り出すことにより行う。単語の切り出し方に特段の制約はなぐ例えば日本語文書であれば従来力知られている方法や市販の形態素解析ソフトを活用して、助詞や接続詞を除き、意味ある名詞を抽出する方法でも良いし、索引語の辞書 (シソーラス)のデータベースを事前に保持し、該データベース力得られる索弓 I語を利用する方法でちょい。

索引語の文書群における出現頻度としては、例えば、当該文書群を検索対象とし、ある索引語で検索したときのヒット文書数 (文書頻度 DF)を用いるが、これに限られるものではなぐ例えば当該索引語がヒットした延べ回数でもよい。

出力手段による索引語の出力は、索引語抽出手段により抽出された索引語すベてを出力しても良いし、文書の主張を強く示す一部の索引語のみを出力しても良い。また、出力手段により索引語とともに出力される位置づけデータは、比較対象文書群及び類似文書群における出現頻度の関数値をそのままの形で出力しても良いし、これに基づいて座標上に索引語を配置した図として出力しても良いし、上記出現頻度の関数値に基づいてグループ分けされた索引語のリストとして出力しても良い。

[0008] (2)上記索引語抽出装置において、前記入力手段は、類似文書群の選出元となる選出源文書群の各文書と、前記調査対象文書について、各文書に含まれる各索引語の当該文書における出現頻度の関数値又は各索引語の前記選出源文書群における出現頻度の関数値を成分とするベ外ルを算出し、前記調査対象文書について算出された前記ベクトルに対する類似度合いの高いベクトルをもつ文書を前記選出源文書群から選出して、前記類似文書群として入力することが望ましヽ。

類似文書群の選出を各文書のベクトルに基づいて行うので、高い信頼性を確保することができる。また、例えば IPC (国際特許分類)等の一致により類似文書群を選出する場合と異なり、類似度合いの高い順に何件という形での件数指定も自在にできる上記ベクトルの類似度合いの判定は、ベクトル間の余弦乃至 Tanimoto相関 (類似度)などべ外ル成分間の積の関数を用いても良いし、べ外ル間の距離 (非類似度）などベクトル成分間の差の関数を用いてもよい。

上記選出源文書群としては、前記比較対象文書群を用いることとするのが好ましい

[0009] (3)上記各索引語抽出装置において、前記出力手段は、前記比較対象文書群における出現頻度の関数値を座標の第 1軸にとり、前記類似文書群における出現頻度の関数値を前記座標の第 2軸にとって、前記索引語を配置し出力することが望ましい座標上に配置された索引語の 2次元的な配置により、文書の主張を視覚的に把握することがでさるよう〖こなる。

座標系としては例えば平面の直交座標を用い、第 1軸として X軸 (横軸）、第 2軸として Y軸 (縦軸）を用いるが、これに限らず例えば 3次元座標を用、て上記以外の指標を Z軸にとってもよい。

[0010] (4)上記各索引語抽出装置において、前記第 1出現頻度算出手段で算出する前記比較対象文書群における出現頻度の関数値及び前記第 2出現頻度算出手段で算出する前記類似文書群における出現頻度の関数値の両方が、大域的頻度 IDFを変数として含む関数値であることが望まし、。

これにより、第 1出現頻度算出手段の算出結果が、第 2出現頻度算出手段の算出結果力掛け離れている索引語を、雑音として排除し、主張の把握を一層容易にすることがでさる。

[0011] (5)上記各索引語抽出装置において、前記大域的頻度 IDFを変数として含む関数値は、大域的頻度 IDFの対数であることが望ましい。

これにより、大域的頻度 IDFの値が大きいほど分散が大きくなる傾向を相殺し、主張の把握を一層容易にすることができる。

[0012] (6)上記各索引語抽出装置において、前記大域的頻度 IDFを変数として含む関数値は、大域的頻度 IDFと前記調査対象文書における索引語頻度との比又は差を変数として含む関数値であることが望ま、。

これにより、調査対象文書自身における主張の強さを考慮することができ、主張の把握を容易にすることができる。

[0013] (7) (8)また本発明は、上記各装置によって実行される方法と同じ工程を備えた抽出方法、並びに上記各装置によって実行される処理と同じ処理をコンピュータに実行させることのできる抽出プログラムである。このプログラムは、 FD、 CDROM、 DVD などの記録媒体に記録されたものでもよぐネットワークで送受信されるものでもよい。発明の効果

[0014] 本発明によれば、調査対象文書が与えられたときに、その主張を簡単に把握できるようにする索引語抽出装置を提供することができる。

図面の簡単な説明

[0015] [図 1]本発明の一実施形態に係る索引語抽出装置のハードウェア構成を示す図。

[図 2]上記索引語抽出装置における構成と機能を詳細に説明する図。

[図 3]入力装置 2における条件設定の動作を示すフローチャート。

[図 4]処理装置 1の動作を示すフローチャート。

[図 5]出力装置 4におけるマップの出力の動作を示すフローチャート。

[図 6]実施例 1の索引語抽出装置により出力したマップの例を示す図。

[図 7]実施例 1の索引語抽出装置により出力したマップの他の例を示す図。

[図 8]実施例 2の索引語抽出装置により出力したマップの例を示す図。

[図 9]実施例 2の索引語抽出装置により出力したマップの他の例を示す図。

[図 10]実施例 3の索引語抽出装置により出力したマップの例を示す図。

[図 11]実施例 3の索引語抽出装置により出力したマップの他の例を示す図。

[図 12]実施例 4の索引語抽出装置により出力したマップの例を示す図。

[図 13]実施例 4の索引語抽出装置により出力したマップの他の例を示す図。

[図 14]実施例 5の索引語抽出装置により出力したマップの例を示す図。

[図 15]実施例 5の索引語抽出装置により出力したマップの他の例を示す図。

符号の説明

[0016] 1 :処理装置、 2 :入力装置、 3 :記録装置、4 :出力装置、

120 :索引語 (d)抽出部、 121 :TF (d)演算部、 143 : GFIDF (P)等演算部 (第 1出現頻度算出手段)、 150 :類似度演算部、 160 :類似文書群 S選出部、 171 : GFIDF (S)等演算部 (第 2出現頻度算出手段)、 180 :特徴索引語抽出部

発明を実施するための最良の形態

[0017] 以下、本発明の実施の形態を、図面を参照して詳細に説明する。

< 1.語彙の説明等 >

本明細書の中で使用する語彙を定義或いは説明する。

調査対象文書 d:調査に係る、ある案件。例えば、特許第何号公報などの文書、或いはその集合。比較対象文書群 P :調査対象文書 dと比較する対象の文書の集合。例えば、ある国及び期間における特許文書 (公開特許公報など）のすベて、又はそこ力も無作為抽出された文書の集合である。ここでは調査対象文書 dを含む場合にっ、て説明するが含んでいなくてもよい。

類似文書群 S :調査対象文書 dに類似な文書の集合。ここでは dを含む場合について説明するが含んでヽなくてもょヽ。また比較対象文書群 Pの中から選出される場合につ、て説明するが別の選出源文書群力選出されて、ても良、。

図中の構成要素に付してある、 d或いは (d)、 P或いは (P)、又は S或いは（S)は、それぞれ調査対象文書、比較対象文書群、又は類似文書群の意味であり、以降判別しやすいように構成要素や動作にも付する。例えば、索引語 (d)とは、調査対象文書 dの索引語を意味する。

以降の説明を簡素にするため、略号を決める。

w. ：調査対象文書 dに含まれる索引語。

P ：比較対象文書群 Pに属する文書。

N ：比較対象文書群 Pの全文書数。

Ν' ：類似文書群 Sの文書の数。

TF (d) : dの索引語 wによる、 dの中での出現頻度（索引語頻度; Term Frequency)

TF (P)： pの索引語による、 pの中での出現頻度 (索引語頻度)。

DF (P) : d又は pの索引語による、 Pの中での文書頻度（Document Frequency) ₀文書頻度とは、ある索引語で、複数文書力も検索したときのヒット文書数をいう。

DF (S) : dの索引語 wによる、 Sの中での文書頻度。

IDF (P)： DF (P)の逆数 X文書数の対数： In [N/DF (P) ]。

IDF (S) : DF (S)の逆数 X文書数の対数： In [Ν' /DF (S) ]。

TFIDF:TFと IDFとの積。文書の索引語ごとに演算される。

GF (P)：比較対象文書群 Pを構成する各文書 pにおける索引語頻度 TF (p)の合計値（大域的頻度； Global Frequency)：∑ TF (p)。

ep

GF (S)：類似文書群 Sを構成する各文書 sにおける索引語頻度 TF (s)の合計値（大域的頻度； Global Frequency)：∑ TF (s)。

s^S

GFIDF (P)又は GFIDF (w ;P)： dの索引語 wによる、 Pの中での大域的頻度 IDF ： GF (P) /DF (P) ₀

GFIDF (S)又は GFIDF (w ; S)： dの索引語 wによる、 Sの中での大域的頻度 IDF ： GF (S) /DF (S) ₀

類似度 (類似率）：調査対象文書 dと、比較対象文書群 Pに属する或る文書 pとの類似の程度。

[0019] ここで、索引語とは、文書の全部或いは一部力も切り出される単語のことである。単語の切り出し方は従来力も知られている方法や市販の形態素解析ソフトを活用して、助詞や接続詞を除き、意味ある名詞を抽出してもよいし、又索引語の辞書 (シソーラス）のデータベースを事前に保持し該データベース力も得られる索引語を利用してもよい。

また、対数としてここでは自然対数を用いたが、これに限らず常用対数等を用いてちょい。

[0020] < 2.索引語抽出装置の構成：図 1、図 2 >

図 1は本発明の一実施形態に係る索引語抽出装置のハードウェア構成を示す図である。

同図に示すように、本実施形態の索引語抽出装置は、 CPU (中央演算装置)およびメモリ（記録装置)など力も構成される処理装置 1、キーボード (手入力器具)などの入力手段である入力装置 2、文書データや条件や処理装置 1による作業結果などを格納する記録手段である記録装置 3、および索引語の抽出結果などをマップで表示などする出力手段である出力装置 4から構成される。

[0021] 図 2は上記の索引語抽出装置における構成と機能を詳細に説明する図である。

[0022] 処理装置 1は、調査対象文書 d読み出し部 110、索引語 (d)抽出部 120、 TF (d)演算部 121、比較対象文書群 P読み出し部 130、索引語 (P)抽出部 140、 TF (P)演算部 141、 IDF (P)演算部 142、 GFIDF (P)等演算部 143、類似度演算部 150、類似文書群 S選出部 160、索引語 (S)抽出部 170、 GFIDF (S)等演算部 171、特徴索引語抽出部 180などカゝら構成される。 [0023] 入力装置 2は、調査対象文書 d条件入力部 210、比較対象文書群 P条件入力部 22 0、抽出条件その他入力部 230など力も構成される。

[0024] 記録装置 3は、条件記録部 310、作業結果格納部 320、文書格納部 330などから構成される。文書格納部 330は外部データベースや内部データベースを含んで、る。外部データベースとは、例えば特許庁でサービスしている特許電子図書館の IPD Lや、株式会社パトリスでサービスして!/、る PATOLISなどの文書データベースを意味する。又内部データベースとは、販売している例えば特許 JP— ROMなどのデータを自前で格納したデータベース、文書を格納した FD (フレキシブルディスク）、 CDR OM (コンパクトディスク）、 MO (光磁気ディスク）、 DVD (デジタルビデオディスク）などの媒体力読み出す装置、紙などに出力された或いは手書きされた文書を読み込む OCR (光学的情報読み取り装置)などの装置及び読み込んだデータをテキストなどの電子データに変換する装置などを含んでいるものとする。

[0025] 出力装置 4は、マップ作成条件読み出し部 410、マップ用データ取り込み部 412、マップ出力部 440など力も構成される。

[0026] 図 1及び図 2において、処理装置 1、入力装置 2、記録装置 3、および出力装置 4の間で信号やデータをやり取りする通信手段としては、 USB (ユニバーサルシステムバス）ケーブルなどで直接接続してもよ、し、 LAN (ローカルエリヤネットワーク）などのネットワークを介して送受信してもよいし、文書を格納した FD、 CDROM、 MO、 DV Dなどの媒体を介してもよい。或いはこれらの一部、又はいくつかを組み合わせたものでもよい。

[0027] 次に、図 2により本発明に係る一実施形態の索引語抽出装置における機能を詳しく説明する。

[0028] < 2— 1.入力装置 2の詳細 >

図 2の入力装置 2において、調査対象文書 d条件入力部 210は、入力画面などによつて調査対象文書 dの読み出しを行なう条件を設定する。比較対象文書群 P条件入力部 220は、入力画面などによって比較対象文書群 Pの読み出しを行なう条件を設定する。抽出条件その他入力部 230は、入力画面などによって調査対象文書 d及び比較対象文書群 Pの索引語抽出条件、 TF演算の条件、 IDF演算の条件、類似度演算の条件、類似文書の選出条件、 GFIDF演算の条件、マップ作成条件などを設定する。これら入力された条件は、記録装置 3の条件記録部 310へ送られ格納される。

[0029] < 2— 2.処理装置 1の詳細 >

図 2の処理装置 1において、調査対象文書 d読み出し部 110は、条件記録部 310 の条件に基づいて、調査対象の文書を、文書格納部 330より読み出す。読み出された調査対象文書 dは、索引語 (d)抽出部 120に送られる。索引語 (d)抽出部 120は、条件記録部 310の条件に基づいて、調査対象文書 d読み出し部 110で得られた文書から索引語の抽出を行ない、作業結果格納部 320に格納する。

[0030] 比較対象文書群 P読み出し部 130は、比較対象となる複数の文書を、条件記録部 310の条件に基づいて、文書格納部 330より読み出す。読み出された比較対象文書群 Pは、索引語 (P)抽出部 140に送られる。索引語 (P)抽出部 140は、条件記録部 3 10の条件に基づいて、比較対象文書群 P読み出し部 130で得られた文書から索引語の抽出を行ない、作業結果格納部 320に格納する。

[0031] TF (d)演算部 121は、条件記録部 310の条件に基づいて、作業結果格納部 320 に格納された調査対象文書 dについての索引語 (d)抽出部 120の作業結果を、 TF 演算する。得られた TF (d)のデータは、作業結果格納部 320に格納され或いは直接類似度演算部 150に送られる。

[0032] TF (P)演算部 141は、条件記録部 310の条件に基づいて、作業結果格納部 320 に格納された比較対象文書群 Pについての索引語 (P)抽出部 140の作業結果を、 T F演算する。得られた TF (P)のデータは、作業結果格納部 320に格納され或いは直接類似度演算部 150に送られる。

[0033] IDF (P)演算部 142は、条件記録部 310の条件に基づいて、作業結果格納部 320 に格納された比較対象文書群 Pについての索引語 (P)抽出部 140の作業結果を、 I DF演算する。得られた IDF (P)のデータは、作業結果格納部 320に格納され、又は直接類似度演算部 150に若しくは直接特徴索引語抽出部 180に送られる。

[0034] 類似度演算部 150は、条件記録部 310の条件に基づいて、 TF (d)演算部 121、 T F (P)演算部 141、及び IDF (P)演算部 142の演算結果を、それぞれから直接或いは作業結果格納部 320から得て、比較対象文書群 Pの文書それぞれの、調査対象文書 dに対する類似度を演算する。得られた類似度は、比較対象文書群 Pのそれぞれの文書に類似度データとして付され、作業結果格納部 320或いは直接類似文書群 S選出部 160に送られる。

[0035] 類似度演算部 150における類似度の演算は、各文書の索引語毎に、例えば TFID F演算などの計算がなされ、比較対象文書群 Pの文書それぞれの、調査対象文書 d に対する類似度が計算される。 TFIDF演算とは、 TF演算結果と IDF演算結果の積である。類似度の演算方法は後で詳しく述べる。

[0036] 類似文書群 S選出部 160は、作業結果格納部 320或いは直接類似度演算部 150 の結果から比較対象文書群 Pの類似度演算結果を得て、条件記録部 310の条件に基づいて類似文書群 Sを選出する。類似文書群 Sの選出は、例えば類似度の高い順に文書をソートし、条件に記された必要な数だけ選出する。選出された類似文書群 S は、作業結果格納部 320或いは直接索引語 (S)抽出部 170に出力される。

[0037] 索引語 (S)抽出部 170は、作業結果格納部 320或いは直接類似文書群 S選出部 1 60から類似文書群 Sのデータ入力を得て、この類似文書群 Sから、条件記録部 310 の条件に基づいて索引語 (S)を抽出する。抽出された索引語 (S)は、作業結果格納部 320或、は直接 GFIDF (S)等演算部 171に送られる。

[0038] GFIDF (S)等演算部 171は、作業結果格納部 320或いは直接索引語 (S)抽出部 170から索引語 (S)を得て、この索引語 (S)を、条件記録部 310の条件に基づいて GFIDF等の演算をする。 GFIDF (S)等演算部 171で算出する GFIDF等としては、後述の実施例にあるように、 In GFIDF (S)、 IDF (S)、 GFIDF (S) ÷TF (d)、 GFID F (S)—TF (d)等が挙げられる。得られた GFIDF (S)等は、作業結果格納部 320に格納され或ヽは直接特徴索引語抽出部 180に送られる。

[0039] GFIDF (P)等演算部 143は、作業結果格納部 320或いは直接索引語 (P)抽出部 140から索引語 (P)を得て、この索引語 (P)を、条件記録部 310の条件に基づいて GFIDF演算等の演算をする。 GFIDF (P)等演算部 143で算出する GFIDF等としては、後述の実施例にあるように、 In GFIDF (P)、 IDF (P)、 GFIDF (P) ÷TF (d)、 G FIDF (P)—TF (d)等が挙げられる。得られた GFIDF (P)等は、作業結果格納部 32 0に格納され或、は直接特徴索引語抽出部 180に送られる。 [0040] 特徴索引語抽出部 180は、条件記録部 310の条件に基づいて、作業結果格納部 320から、或いは直接 GFIDF (S)等演算部 171の結果及び GFIDF (P)等演算部 1 43の結果から、条件に記された必要な数だけ、或いは条件に基づいた計算結果により選ばれた数だけ、索引語 (d)を抽出する。ここで抽出された索引語を「特徴索引語」と称することにする。抽出された特徴索引語 (d)は、作業結果格納部 320に送られる。

[0041] < 2— 3.記録装置 3の詳細 >

図 2の記録装置 3において、条件記録部 310は、入力装置 2から得られた条件などの情報を記録し、処理装置 1或いは出力装置 4の要求に基づき、それぞれに必要なデータを送る。作業結果格納部 320は、処理装置 1における各構成要素の作業結果を格納し、処理装置 1の要求に基づき、必要なデータを送る。

[0042] 文書格納部 330は、入力装置 2或いは処理装置 1の要求に基づき、外部データべース或いは内部データベース力得た、必要な文書データを格納し、提供する。

[0043] < 2-4.出力装置 4の詳細 >

図 2の出力装置 4において、マップ作成条件読み出し部 410は、条件記録部 310 の条件に基づいて、マップの作成条件を読み出し、マップ用データ取り込み部 412 に送る。

[0044] マップ用データ取り込み部 412は、マップ作成条件読み出し部 410の条件に従い、作業結果格納部 320より、特徴索引語抽出部 180の作業結果を取り込む。取り込まれた特徴索引語データは、作業結果格納部 320或いは直接マップ出力部 440に送られる。

[0045] マップ出力部 440は、マップ用データ取り込み部 412から出力される条件とデータを直接或いは作業結果格納部 320より得て、マップを出力する場を作る。同時に、特徴索引語抽出部 180の作業結果を、マップ上に表示し、或いは印刷、若しくはデータで格納できるように出力する。

[0046] マップ出力部 440において出力するマップの特徴的な一例は、特徴索引語抽出部 180において抽出された調査対象文書 dの特徴索引語の各々について、 In GFIDF (P)を横軸の値とし、 In GFIDF (S)を縦軸の値として、二次元の In GFIDF (P) In GFIDF (S)平面上に分布させたマップである。該マップ上で表わされた特徴索引語の分布状況から、調査対象文書 dの主張を読み取ることができる。

[0047] < 3.索引語抽出装置の動作 >

図 3、図 4、及び図 5は上記の索引語抽出装置における動作を説明する図である。

[0048] < 3— 1.入力動作：図 3 >

図 3は、入力装置 2における条件設定の動作手順を示すフローチャートである。まず初期化 (ステップ S201)のあと、入力する条件を区別する (ステップ S 202)。オペレータが調査対象文書 dの条件入力を選定したときは、調査対象文書 d条件入力部 2 10において調査対象文書 dの条件入力を受けつける (ステップ S210)。次に、入力された条件が図示しない表示画面でオペレータにより確認され、よければ画面上の「設定」が選ばれるので、入力された条件を条件記録部 310で格納し (ステップ S310) 、悪ければ「戻る」が選ばれるので、ステップ S210に戻る（ステップ S211)。

[0049] 一方ステップ S202におヽてオペレータが比較対象文書群 Pの条件入力を選定したときは、比較対象文書群 P条件入力部 220において比較対象文書群 Pの条件入力を受けつける (ステップ S220)。次に、入力された条件が図示しない表示画面でォペレータにより確認され、よければ画面上の「設定」が選ばれるので、入力された条件を条件記録部 310で格納し (ステップ S310)、悪ければ「戻る」が選ばれるので、ステップ S220に戻る（ステップ S221)。

[0050] 又、ステップ S202においてオペレータが抽出条件その他の入力を選定したときは、抽出条件その他入力部 230において抽出条件その他の入力を受けつける (ステツプ S230)。次に、入力された条件が図示しない表示画面でオペレータにより確認され、よければ画面上の「設定」が選ばれるので、入力された条件を条件記録部 310で格納し (ステップ S310)、悪ければ「戻る」が選ばれるので、ステップ S230に戻る（ステツプ S231)。該ステップ S230においては、索引語 (d)の抽出条件及び類似文書群 Sの選出条件と、特徴索引語等の出力条件との両方を設定する。

[0051] < 3— 2.特徴索引語の抽出動作：図 4>

図 4は、処理装置 1の動作を示すフローチャートである。まず初期化 (ステップ S101 )のあと、条件記録部 310の条件に基づいて、文書格納部 330から読み出す文書を、調査対象文書 dと比較対象文書群 Pに区別する (ステップ S102)。読み出す文書が調査対象文書 dであるとき、調査対象文書 d読み出し部 110において調査対象文書を文書格納部 330より読み出す (ステップ S110)。次に、索引語 (d)抽出部 120において調査対象文書 dの索引語抽出を行なう (ステップ S120)。引き続き、抽出された索引語の各々につ、て、 TF (d)演算部 121にお!/、て TF演算をする（ステップ S 121

) o

[0052] 一方ステップ S102で、読み出す文書が比較対象文書群 Pであるとき、比較対象文書群 P読み出し部 130にお、て比較対象文書群 Pを読み出す (ステップ S 130)。次に、索引語 (P)抽出部 140において比較対象文書群 Pの索引語抽出を行なう (ステツプ S140)。引き続き、抽出された索引語の各々について、 TF (P)演算部 141において TF演算をする（ステップ S141)とともに、 IDF (P)演算部 142において IDF演算をする（ステップ S 142)。

[0053] 次に、 TF (d)演算部 121の出力の TF (d)演算結果と、 TF (P)演算部 141の出力の TF (P)演算結果、及び IDF (P)演算部 142の出力の IDF (P)演算結果を基に、類似度演算部 150により、類似度の演算を行なう (ステップ S150)。この類似度の演算は、入力装置 2から入力された条件に基づき、類似度算出のための類似度算出モジュールを外部記録部 310から呼び出してきて実行する。

[0054] 類似度演算の具体的な一例を説明すると以下の通りである。今、 dを調査対象文書とし、 pを比較対象文書群 Pの個々の文書とする。これら文書 d及び pに対する演算の結果、文書 dから切り出された索引語を「赤」「青」「黄」とする。また、文書 pから切り出された索引語を「赤」「白」とする。その場合、文書 d中の索引語の索引語頻度を TF ( d)とし、文書 p中の索引語の索引語頻度を TF (P)とし、比較対象文書群 Pから得た索引語の文書頻度を DF (P)とし、全文書数を 50とする。このとき、例えば、

[0055] [表 1] 索引語及び TF(d) 赤（1 ) , 青（2) , 黄（4)

索引語及び TF(P) 赤（2) , 白（1 )

索引語及び DF(P) 赤（30) ,青（20) ,黄（45) , 白（1 3) [0056] であるとする。 TF * IDF (P)を各文書の索引語毎に計算して、ベクトル表現を算出する。この結果は文書ベクトル d及び pについて、

[0057] [表 2]

[0058] となる。このベクトル d及び p間の余弦 (又は距離)の関数を取れば、文書ベクトル d及び P間の類似度 (又は非類似度)が得られる。なお、べ外ル間の余弦 (類似度）は値が大きいほど類似度合いが高いことを意味し、べ外ル間の距離 (非類似度）は値が小さいほど類似度合いが高いことを意味する。得られた類似度は、作業結果格納部 320に格納されるとともに、類似文書群 S選出部 160に送られる。

[0059] 次に、類似文書群 S選出部 160により、ステップ S150にて類似度演算した文書を類似度の順に並べ替え、抽出条件その他入力部 230において設定した条件に沿つた数の類似文書群 Sを選出する (ステップ S 160)。

[0060] 次に、類似文書群 Sの索引語 (S)抽出部 170により、ステップ S160にて選出した類似文書群 Sの索引語 (S)を抽出する (ステップ S170)。

[0061] 次に、索引語 (d)の各々について、 GFIDF (S)等演算部 171により、類似文書群 S における GFIDF等の演算をする（ステップ S171)。

[0062] 一方、索引語 (d)の各々について、 GFIDF (P)等演算部 143により、比較対象文書群 Pにおける GFIDF等の演算をする（ステップ S143)。

[0063] 次に、ステップ S171による GFIDF (S)演算の結果と、ステップ S 143による GFIDF

(P)演算の結果とから、特徴索引語を抽出する (ステップ S180)。

[0064] < 3— 3.出力動作：図 5 >

図 5は、出力装置 4による、マップの出力の動作手順を示すフローチャートである。まず初期化 (ステップ S401)のあと、条件記録部 310から、マップ作成条件の読み出しを開始する（ステップ S402)。

[0065] 出力装置のマップ作成条件読み出し部 410で条件記録部 310からマップ作成条件を読み出したとき (ステップ S410)、マップを必要とする条件であったら (ステップ S 411)、作業結果格納部 320からマップ用データ取り込み部 412へのマップ用データ取り込みを行なう（ステップ S412)。次に、マップ作成条件読み出し部 410のマップ作成条件に沿って、マップを作成し (ステップ S413)、マップ出力部 440に送る。

[0066] ステップ S411でマップを表示する条件でなかったら、その時点で終了し、マップ出力部 440へはデータを送らな!/、。

[0067] <4.実施例 1 :図 6、図 7>

<4 1.分布特徴 >

図 6及び図 7は、実施例 1の索引語抽出装置により出力したマップの例を示す図である。実施例 1では、 In GFIDF (P)を X軸に、 In GFIDF (S)を Y軸にとっている。図 6 は、「抗腫瘍剤」に関する公開特許公報 2件をまとめて調査対象文書 dとしたもので、図 7は、「漏洩電流測定装置」に関する公開特許公報 1件を調査対象文書 dとしたものである。このマップは、調査対象文書 dの索引語 (d)のうち特徴索引語抽出部 180 で抽出された索引語 (特徴索引語)を、マップ出力部 440で出力する。

[0068] 図 6及び図 7において、 Xの値が高いほど比較対象文書群 Pにおける平均使用回数が多ぐ Xの値が低いほど比較対象文書群 Pにおける平均使用回数が少ない。 Y の値についても類似文書群 Sにおける平均使用回数を問題とするほかは Xの値について述べたと同様である。比較対象文書群 Pから選ばれる類似文書群 Sの文書数に依存せず、一様に含まれる索引語の場合は、 Y=Xの比例関係が成立するが、実際には雑音が入り、原点力右上に向力つて吹き出すような分布になる。

[0069] 例えば特許文書などの技術文書では、解決しょうとする課題に関する記載と、これを解決するための具体的構成に関する記載がなされる。 1つの文書において、課題に関する記載が何度も繰り返しなされることはあまりない。これに対し、構成に関する記載は様々な角度からの検討結果として詳細に記載されるので、 1つの文書において構成に関する同一の用語が繰り返し用いられることが多、。

[0070] 従って、 GFIDF (P)及び GFIDF (S)が大きい索引語は、文書に記載された具体的構成を表す語であり、 GFIDF (P)及び GFIDF (S)が小さい索引語は、文書に記載された課題を表す語であると推定できる。特に、 GFIDF (S)は類似文書群 Sにおけるデータであるので、推定にあたって重視することができる。これに対し、例えば G FIDF (P)が高くても GFIDF (S)が高くはな、語は、 Y=Xの比例関係力大きく外れており、雑音とみなすことができる。また、類似文書群 Sにおいて 1文書あたり 1回しか使用されていない語 (Υ=0)は、独特な着眼点を表す語であることが多い。

[0071] 以上のことから、マップ右上部の GFIDF (Ρ)及び GFIDF (S)が大き、部分を仮に「雲」と称し、マップ左下部の GFIDF (P)及び GFIDF (S)が小さ、部分を仮に「山」と称する。「山」のうち特に Y=0付近の領域は、火山の下部になぞらえて仮に「マグマ」と称する。

すると、独特の着眼点を示す「マグマ」を含む「山」の領域を課題とし、火山が爆発して噴煙が飛散し、構成を表す「雲」が形成されたという解釈が可能となる。ちょうど、 G FIDF (Ρ)及び GFIDF (S)が大きくもなく小さくもな、部分、特に GFIDF (P)が大きくても GFIDF (S)が大きくな、部分は、「雲」及び「山」から除外され雑音として解釈できる。

[0072] <4- 2.描画法 >

「雲」「山」「マグマ」の描画法として、特許文書の解析に好適な一例を示すと次の通りである。

まず、調査対象文書 dに含まれる索引語群 w E dのうち、雲の形状を特徴付ける索引語群 Wを準備する。すなわち、

w= {請求、特徴、手段、方法、前記、記載、装置、組成、剤、該、当該 } n {_w e d} 但し、「該」が存在するときは、「当該」を勘定しない。また公報種別 (公開公報、特許掲載公報などの別)や IPC別に応じて、 Wの語群を別途定義しても良い。

[0073] 以下、 Wを変域とする最大、最小、平均の各演算をそれぞれ Max 、 Min 、 < >

W W W

と表し、 Max ' は「前記」が存在するなら Max を、「前記」が存在しないなら調査対象

W W

文書 dの全索引語における最大値を取得する演算を表すものとする。

[0074] これらの演算から得られる分布パラメータ群を用いて、上記「山」及び「マグマ」（これらは Gauss曲線を用いて表す）、更に「雲」（これは楕円で表す）に対する曲線の描画ノラメータを指定する。ここで Gauss曲線と楕円の一般式は次の通りである。 Gauss曲線: f(X)= hExp[ — π {(Χ— Χ )/σ } ]

o

楕円： {(X— ） Zr }² +{(Y— v)Zr }² = 1

1 2

[0075] 「山」及び「マグマ」は、 X*f (X)で表す。パラメータは、

「山」の高さ h=Min In GFIDF(w;S)

W i

なお、「マグマ」の高さは hZ8 とする。

幅 Δ = 2 X 0.6745 σ =Min In GFIDF (w； P)

W i

中心値 X =ΔΖ2

o

とする。

[0076] 「雲」は、上記の楕円で表す。パラメータは、

中心（， ν) = «Χ> , <Υ> )

w w

X軸半径 r = (Max ' X— Min X) p /2

1 w w

Y軸半径 r = (Max Y Min Y) p /2

2 W W

とする。ここで倍率は、

であり、 gは、調査対象文書 d内に存在する Wの語の種数 kを用いて、

g = Max(Min(k, b) , a)

k=∑ 0 (TF(d))

w

で与えられる数である。すなわち、種数 k力より小なら aで置換、 bより大なら bで置換する。例えば、 a = 3、 b = 10とすると pは区間 [1.10, 1.333]の値をとる。 a=b = 10なら常に p =1.10である。なお、 Θ (A)は、 Aが正なら 1、それ以外なら 0を返す関数である。

Y軸半径において Max 'を用いていないのは、縦軸よりも横軸方向の分散取得に

W

重点を置いたためである。

[0077] <4 3.解析結果 >

図 6の調査対象文書である「抗腫瘍剤」に関する公開特許公報 2件を予め通読し、人力で要約した結果は次の通りである。

課題：臓器への副作用が低く、腫瘍のストレス抵抗作用を抑制する新たな抗腫瘍剤を提供する。構成：ヘム酸ィ匕酵素の阻害剤からなる抗腫瘍剤。 PEG (ポリエチレングリコール)で化学修飾する。

[0078] 図 6のマップでは、課題の「山」の領域に「臓器」「副作用」「ストレス」「抑制」「新た」「制癌剤」「提供」などの語が見られる。したがって、調査対象文書を直接読まなくても、マップを見るだけでこれらの語から課題を窺い知ることができる。

また図 6のマップでは、構成の「雲」の領域に「ヘム」「酸化」「酵素」「阻害」「剤」 ΓΡΕ Gj「修飾」などの語が見られる。したがって、調査対象文書を直接読まなくても、マツプを見るだけでこれらの語から構成を窺い知ることができる。

[0079] 図 7の調査対象文書である「漏洩電流測定装置」に関する公開特許公報 1件を予め通読し、人力で要約した結果は次の通りである。

課題:規定値以下で絶縁状態の良否を判定する。

構成:乗算回路の高周波成分を除去するローパスフィルタの出力信号を検出する。

[0080] 図 7のマップでは、課題の「山」の領域に「規定」「以下」「良否」「漏洩」などの語が見られる。したがって、調査対象文書を直接読まなくても、マップを見るだけでこれらの語から課題を窺、知ることができる。

また図 7のマップでは、構成の「雲」の領域に「乗算」「高調」「波」「成分」「ロー」「パス」「フィルタ」などの語が見られる。したがって、調査対象文書を直接読まなくても、マップを見るだけでこれらの語から構成を窺い知ることができる。

[0081] また、実施例 1のマップを、本出願の優先日において未公開の国際特許出願番号 PCTZJP2004Z015082の実施例で提案したマップ（特に IDF (P)を X軸に、 IDF (S)を Y軸にとったマップ）と併せて観察することで、調査対象文書の性格をより的確に把握することができる。

更に、実施例 1のマップによって、着眼点から導かれる構成要件や技術要素を把握することで、派生要素や応用を探ることもできるようになる。

[0082] < 5.実施例 2 :図 8、図 9 >

< 5- 1.分布特徴 >

図 8及び図 9は、実施例 2の索引語抽出装置により出力したマップの例を示す図である。実施例 2では、 In GFIDF (P)を X軸に、 Y—In GFIDF (S)を Y軸にとっている

0

。ここで、 Y =Max In GFIDF (S)である。すなわち、実施例 1のマップにおける索引

0

語配置を上下反転した配置になっている。なお、図 8及び図 9の調査対象文書 dは、それぞれ図 6及び図 7のものと同一である。このマップは、調査対象文書 dの索引語（ d)のうち特徴索引語抽出部 180で抽出された索引語 (特徴索引語)を、マップ出力部 440で出力する。

[0083] 図 8及び図 9においては、マップ右下部の「山」の頂上付近に構成を表す語が配置され、「山」の内部により広義の構成概念を表す語が配置される。「マグマ」部には類似文書群 Sにおける索引語平均頻度が最高の語が出現し、構成の土台となる概念を示す。そして、「雲」部には「山」部の構成により解決された課題を示す語が配置される。

すなわち、実施例 1とは逆に、実施例 2では、「山」部の構成要件から出発し、「雲」部にどんな観点を捻出したかを表現するマップとなる。

[0084] < 5— 2.描画法 >

まず、実施例 1と同様に索引語群 W、 Max 、 Min 、く > 、 Max

W W W W ' を定義する。

[0085] 「山」及び「マグマ」は、 Gauss曲線 f (X)で表す。パラメータは、

「山」の高さ h= (lZ2)Y

0

なお、「マグマ」の高さは hZ8 とする。

幅 Δ = 2 X 0.6745 σ

= Max ' In GFIDF (w； P) Min In GFIDF (w； P)

W i W i

中心値 X = <ln GFIDF (w； P) >

0 i W

とする。

[0086] 「雲」は、楕円で表す。パラメータは、

中心， v ) = (X /2, (7/8)Y )

0 0

X軸半径 r =X /2

1 0

Y軸半径 r =Y /4 とする。

[0087] < 5— 3.解析結果 >

図 8のマップでは、課題の「雲」の領域に「臓器」「副作用」「ストレス」「抑制」「新た」「制癌剤」「提供」などの語が見られる。したがって、調査対象文書を直接読まなくても、マップを見るだけでこれらの語から課題を窺い知ることができる。

また図 8のマップでは、構成の「山」の領域に「ヘム」「酸化」「酵素」「阻害」「剤」「PE Gj「修飾」などの語が見られる。したがって、調査対象文書を直接読まなくても、マツプを見るだけでこれらの語から構成を窺い知ることができる。

[0088] 図 9のマップでは、課題の「雲」の領域に「規定」「以下」「良否」「漏洩」などの語が見られる。したがって、調査対象文書を直接読まなくても、マップを見るだけでこれらの語から課題を窺、知ることができる。

また図 9のマップでは、構成の「山」の領域に「乗算」「回路」「高調」「波」「成分」「口一」「パス」「フィルタ」「出力」「信号」「検出」などの語が見られる。したがって、調査対象文書を直接読まなくても、マップを見るだけでこれらの語から構成を窺い知ることができる。

[0089] また、実施例 2のマップを、上記国際特許出願番号 PCTZJP2004Z015082の実施例で提案したマップ (特に IDF (P)を X軸に、 IDF (S)を Y軸にとったマップ）と併せて観察することで、調査対象文書の性格をより的確に把握することができる。

更に、実施例 2のマップによって、既知の発明の構成要件から、開発のヒントを探ることちでさるようになる。

[0090] < 6.実施例 3 :図 10、図 11 >

< 6- 1.分布特徴 >

図 10及び図 11は、実施例 3の索引語抽出装置により出力したマップの例を示す図である。実施例 3では、 In GFIDF (P)を X軸に、 IDF (S)を Y軸にとっている。なお、図 10及び図 11の調査対象文書 dは、それぞれ図 6及び図 7のものと同一である。このマップは、調査対象文書 dの索引語 (d)のうち特徴索引語抽出部 180で抽出された索引語 (特徴索引語)を、マップ出力部 440で出力する。 [0091] 実施例 1のマップの分布傾向は Y=X、実施例 2では Υ— Υ=Χの直線関係にある

0

ので、主張の把握を X軸又は Υ軸の何れか一方の値だけで満足することにすれば、他方の座標軸に他の値を使うことができる。 IDF (S)は、類似文書群 Sにおいて索引語 wが検索ヒットする文書数逆冪関数 (逆文書頻度)である。 IDF (S)が高いほど、類似文書の中で文書頻度 DFが低ぐ調査対象文書に表れた独創的な概念を示す索引語ということができる。

[0092] 図 10及び図 11においては、 In GFIDF (P)を X軸に、 IDF (S)を Y軸にとったので、 X軸の値力も主張を、 Y軸の値力も独創度を読み取ることができる。

[0093] 索引語平均頻度と文書頻度は本来無関係であるが、使用必然性の弱い語に限定すれば、 1文書あたりの使用回数が少ない語は文書頻度も小さいと言える。従って、 X軸値の低いものほど、文書頻度も落ちて Y軸値が増加し、実施例 2の索引語分布と類似した分布が得られる。

DF値が高、ものは Y軸値が下がるので、実施例 2では課題を示す「雲」部の中にあつた語でも、必然的に使用せざるを得な!、ルーチン的な語 (独創性の低!、語)などは「雲」部の下に押し下げられる。

「山」部においても、ルーチン的な語は「マグマ」部にまで押し下げられ、逆に独創性を示す語が上がってくる。

[0094] < 6— 2.描画法 >

「雲」「山」「マグマ」の描画法としては、特許文書の解析なら実施例 2と同様でよい。但し、ノラメータの導出に用いる Y軸値の最大値は、実施例 2では Yだったが実施

0

例 3では 1η[Ν' ]である。ここで、 N' は類似文書群 Sの文書数である。

[0095] < 6— 3.解析結果 >

図 10のマップでは、課題の「雲」の領域に「臓器」「ストレス」「新た」「制癌剤」などの語が見られる。したがって、調査対象文書を直接読まなくても、マップを見るだけでこれらの語から課題を窺い知ることができる。但し、「副作用」「抑制」「提供」の語は「雲」の領域よりかなり下に下がっている。

また図 10のマップでは、構成の「山」の領域に「酸化」「酵素」「阻害」「剤」「修飾」などの語が見られる。したがって、調査対象文書を直接読まなくても、マップを見るだけでこれらの語から構成を窺い知ることができる。但し、「ヘム」「PEG」の語は「山」の領域よりかなり上に上がっている。

[0096] 図 11のマップでは、課題の「雲」の領域に「規定」「良否」「漏洩」などの語が見られる。したがって、調査対象文書を直接読まなくても、マップを見るだけでこれらの語から課題を窺い知ることができる。但し、「以下」の語は「雲」の領域よりかなり下に下がつている。

また図 11のマップでは、構成の「山」の領域に「乗算」「回路」「高調」「波」「成分」「口一」「パス」「フィルタ」「出力」「信号」「検出」などの語が見られる。したがって、調査対象文書を直接読まなくても、マップを見るだけでこれらの語から構成を窺い知ることができる。

[0097] また、実施例 3のマップを、上記国際特許出願番号 PCTZJP2004Z015082の実施例で提案したマップ (特に IDF (P)を X軸に、 IDF (S)を Y軸にとったマップ）と併せて観察することで、調査対象文書の性格をより的確に把握することができる。

[0098] < 6— 4.変形例 >

例えば IDF (P)を X軸に、 In GFIDF (S)を Y軸にとっても、直線 Y=Xに関する鏡像をとれば同様な傾向が観測されるので、これを用いても良、。

[0099] < 7.実施例 4 :図 12、図 13 >

< 7- 1.分布特徴 >

図 12及び図 13は、実施例 4の索引語抽出装置により出力したマップの例を示す図である。実施例 4では、 ln{GFIDF (P) ÷TF (d) }を X軸に、 ln{GFIDF (S) ÷TF (d) }を丫軸にとっている。なお、図 12及び図 13の調査対象文書 dは、それぞれ図 6及び図 7のものと同一である。このマップは、調査対象文書 dの索引語 (d)のうち特徴索引語抽出部 180で抽出された索引語 (特徴索引語)を、マップ出力部 440で出力する。

[0100] 実施例 4では、調査対象文書 d自身における主張の強さを考慮に入れている。すなわち、 GFIDF (P)或いは GFIDF (S)は、文書群 P或いは Sにおける索引語頻度の平均値であるから、これを調査対象文書 d自身における索引語頻度で除算すれば、次のようになる。 GFIDF÷TF(d)>l なら、調査対象文書 dでの索引語頻度は平均より少ない (控えめな主張）

GFIDF÷TF(d)=l なら、調査対象文書 dでの索引語頻度は平均と同じ (普通の主張）

GFIDF÷TF(d) < 1 なら、調査対象文書 dでの索引語頻度は平均よりも多い (強い主張）

[0101] GFIDF(P) ÷TF(d)を X軸に、 GFIDF(S) ÷TF(d)を Y軸にとったマップでは、判別境界点 (X, Y) = (1, 1)より右上領域の面積が圧倒的に広いので、マップが見難い。そこでこれらの対数をとれば、この問題は解決される。すなわち、判別境界点は（0, 0)となり、対数関数の真数部が 1より小の場合、対数値は勾配がきついので、負のマップエリアが拡大される。

[0102] < 7— 2.描画法 >

原点を中心とする半径 1.0の大円及び半径 0.4の小円を考え、この大円乃至小円で与えられる任意の円内を「普通の主張」の領域とし、これより右上部を「控えめな主張」、左下部を「強い主張」の領域とする。なお、

-1.0 < ln{GFIDF÷TF(d)}< 1.0 は、

1/3 < GFIDF÷TF(d)< 2.7 に、

-0.4 < ln{GFIDF÷TF(d)}< 0.4 は、

2/3 < GFIDF÷TF(d)< 1.5 に、

それぞれ相当する。

これらの図を実施例 1乃至実施例 3の何れかと併せて観察することで、文書の主張をより的確に把握することができる。

<7-3.解析結果 >

図 12のマップでは、「強い主張」の領域に「腫瘍」「剤」「提供」の語が見られ、「普通の主張」の領域に「作用」「酸素」「活性」「ZnPP」「プロトポルフィリン」等の語が見られる。これにより、調査対象文書の主張を、その強さとともに窺い知ることができる。図 13のマップでは、「強い主張」の領域に「回路」「漏れ」の語が見られ、「普通の主張」の領域に「規定」「判定」「結果」等の語が見られる。これにより、調査対象文書の主張を、その強さとともに窺い知ることができる。

[0103] < 8.実施例 5 :図 14、図 15 >

< 8- 1.分布特徴 >

図 14及び図 15は、実施例 5の索引語抽出装置により出力したマップの例を示す図である。実施例 5では、 GFIDF (P)— TF (d)を X軸に、 GFIDF (S)— TF (d)を Y軸にとつている。なお、図 14及び図 15の調査対象文書 dは、それぞれ図 6及び図 7のものと同一である。このマップは、調査対象文書 dの索引語 (d)のうち特徴索引語抽出部 180で抽出された索引語 (特徴索引語)を、マップ出力部 440で出力する。

[0104] 実施例 5では、実施例 4と同様、調査対象文書 d自身における主張の強さを考慮に入れている。すなわち、実施例 4では、 In GFIDFと In TF (d)の差をとつたのに対し、実施例 5では、 GFIDFと TF (d)の差をとつて!/、る。

[0105] < 8— 2.描画法 >

X= 1、 Υ= 1より右上部を「控えめな主張」、左下部を「強!/、主張」の領域とし、 (X, Υ) = (1, 1)を中心とする適当な円内を「普通の主張」の領域とする。

< 8— 3.解析結果 >

図 14のマップでは、「強い主張」の領域に「腫瘍」「剤」「提供」「作用」の語が見られ、「普通の主張」の領域に「活性」「酸素」「破綻」「ΖηΡΡ」「プロトポルフィリン」「副作用」等の語が見られる。これにより、調査対象文書の主張を、その強さとともに窺い知ることができる。

図 15のマップでは、「強い主張」の領域に「増幅」「回路」「判定」の語が見られ、「普通の主張」の領域に「規定」「信号」「結果」「カレントトランスセンサ」等の語が見られる。これにより、調査対象文書の主張を、その強さとともに窺い知ることができる。

Claims

請求の範囲

[1] 調査対象文書、前記調査対象文書と比較される比較対象文書群、前記調査対象文書に類似する類似文書群、を入力する入力手段と、

前記調査対象文書内の索引語を抽出する索引語抽出手段と、

前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第 1出現頻度算出手段と、

前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第 2出現頻度算出手段と、

各索引語についての、前記算出された前記比較対象文書群における出現頻度の関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引語とその位置づけデータとを出力する出力手段と、

を備え、

前記第 1出現頻度算出手段で算出する前記比較対象文書群における出現頻度の関数値又は前記第 2出現頻度算出手段で算出する前記類似文書群における出現頻度の関数値の少なくとも何れか一方が、大域的頻度 IDFを変数として含む関数値である、索引語抽出装置。

[2] 請求項 1において、

前記入力手段は、

類似文書群の選出元となる選出源文書群の各文書と、前記調査対象文書にっ、て、各文書に含まれる各索引語の当該文書における出現頻度の関数値又は各索引語の前記選出源文書群における出現頻度の関数値を成分とするベ外ルを算出し、前記調査対象文書につ!ヽて算出された前記ベクトルに対する類似度合！ヽの高ヽベクトルをもつ文書を前記選出源文書群から選出して、前記類似文書群として入力する、索引語抽出装置。

[3] 請求項 1又は請求項 2において、

前記出力手段は、

前記比較対象文書群における出現頻度の関数値を座標の第 1軸にとり、前記類似文書群における出現頻度の関数値を前記座標の第 2軸にとって、前記索引語を配置し出力する、索引語抽出装置。

[4] 請求項 1乃至請求項 3の何れか一項において、

前記第 1出現頻度算出手段で算出する前記比較対象文書群における出現頻度の関数値及び前記第 2出現頻度算出手段で算出する前記類似文書群における出現頻度の関数値の両方が、大域的頻度 IDFを変数として含む関数値である、索引語抽出装置。

[5] 請求項 1乃至請求項 4の何れか一項において、

前記大域的頻度 IDFを変数として含む関数値は、大域的頻度 IDFの対数である、索引語抽出装置。

[6] 請求項 1乃至請求項 4の何れか一項において、

前記大域的頻度 IDFを変数として含む関数値は、大域的頻度 IDFと前記調査対象文書における索引語頻度との比又は差を変数として含む関数値である、索引語抽出装置。

[7] 調査対象文書、前記調査対象文書と比較される比較対象文書群、前記調査対象文書に類似する類似文書群、を入力する入力ステップと、

前記調査対象文書内の索引語を抽出する索引語抽出ステップと、

前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第 1出現頻度算出ステップと、

前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第 2出現頻度算出ステップと、

各索引語についての、前記算出された前記比較対象文書群における出現頻度の関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引語とその位置づけデータとを出力する出力ステップと、

を備え、

前記第 1出現頻度算出ステップで算出する前記比較対象文書群における出現頻度の関数値又は前記第 2出現頻度算出ステップで算出する前記類似文書群における出現頻度の関数値の少なくとも何れか一方が、大域的頻度 IDFを変数として含む関数値である、索引語抽出方法。調査対象文書、前記調査対象文書と比較される比較対象文書群、前記調査対象文書に類似する類似文書群、を入力する入力ステップと、

をコンピュータに実行させる索引語抽出プログラムであって、

前記第 1出現頻度算出ステップで算出する前記比較対象文書群における出現頻度の関数値又は前記第 2出現頻度算出ステップで算出する前記類似文書群における出現頻度の関数値の少なくとも何れか一方が、大域的頻度 IDFを変数として含む関数値である、索引語抽出プログラム。