JP4298550B2

JP4298550B2 - 単語抽出方法、装置、およびプログラム

Info

Publication number: JP4298550B2
Application number: JP2004067681A
Authority: JP
Inventors: 貴行足立; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc
Current assignee: Nippon Telegraph and Telephone Corp; NTT Inc
Priority date: 2004-03-10
Filing date: 2004-03-10
Publication date: 2009-07-22
Anticipated expiration: 2024-03-10
Also published as: JP2005258678A

Description

本発明は、対象となる文書集合から単語を抽出する方法および装置に関するものである。

現在、インターネット上には様々な分野・種類の電子的な文書が大量に生まれ続けている。しかしながら、利用者は、最近作成された文書の全てを見ることは量的に不可能であり、分野や情報元などで限定したとしても困難なことが多い。そこで、例えば、最近作成された文書の集合から過去よりも話題性の高い語を順にリストアップし、さらにその話題語からその語を含む文書への簡便なアクセス方法があるならば、利用者は、その時々で有用な情報を含んでいる文書を効率よく見ることができる。また、最近の話題語とその意味を知りたい場面においても、上記のような仕組みがあれば、話題語とその利用例を探す手間が削減される。

文書集合から単語を抽出する従来技術としては、対象文書集合中の任意の文字列から単語候補を求め、対象文書集合とそれとは別の文書集合から単語候補の文字列統計量を計算し、その値が閾値以上となった単語候補を単語として抽出するものがある（非特許文献１参照）。
足立貴行、山田節夫、永田昌明、「小規模な文書集合からの語彙獲得法」、言語処理学会第９回年次大会発表論文集、ｐｐ．２７４−２７７、２００３年３月．

この技術は、対象文書集合中の任意の部分文字列から、あらかじめ単語候補に絞り込み、それぞれ独立に単語らしさを調べている。しかし、粗い絞り込みのため単語候補の中には、正しい単語が除去されるかわりに、その単語を部分的に含む誤った文字列が残っている場合がある。

そこで、単語候補を形態素解析することが考えられるが、形態素解析用の辞書にない単語が単語候補に含まれる場合、形態素解析結果が誤るために正しい単語が抽出できない。

また、この技術では、単語の話題度を最近の文書集合の出現確率と過去の文書集合の出現確率との差としており、最新度の高い単語ほど高い話題度となる。しかし、最新度が高くても重要でない単語が抽出される可能性がある。

また、最新の話題語といっても、ある文書に偏って出現する特徴的なものが欲しい場合もあれば、偏りにかかわらず最新の話題語が欲しい場合もある。しかし、利用者の目的に合わせて、適宜、話題度計算方法を変更することができない。

また、得られるものは話題度順に並べた単語リストであり、利用者がその語の意味の理解に役立つ情報を提示する手段や、その語を含む文書への簡便なアクセスする手段は有していない。

本発明の目的は、従来よりも高精度で最新の語にも対処可能な単語抽出を行うことができ、また、利用者にとって有用な話題語を得ることができる単語抽出方法、装置、およびプログラムを提供することにある。

本発明の単語抽出方法は、逐次更新される文書集合から指定した期間における話題語を抽出する単語抽出装置において行なわれる単語抽出方法であって、
文書収集手段が文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集ステップと、
対象文書集合作成手段が収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成ステップと、
単語候補抽出手段が、対象文書集合に複数回出現する文字列のうち入れ子となるものやある文字種で分断されるものを除いて単語候補を抽出する単語候補抽出ステップと、
単語分割手段が、前記単語候補抽出手段が出力した前記単語候補に含まれる連続した１文字以上の部分文字列について当該文字列の残差ＩＤＦに当該部分文字列の文字列長を掛けた値である単語スコアを計算し、
前記部分文字列のうちカタカナまたは英字またはアラビア数字または漢数字のいずれか１種類の文字種が連続する部分文字列について、前記いずれか１種類の文字種が連続する長さが最長となる部分文字列の単語スコアが、前記いずれか１種類の文字種が連続する長さが前記最長の長さよりも短い部分文字列の単語スコアよりも高くなるように前記部分文字列の各々の単語スコアを補正し、
前記部分文字列を並べると前記単語候補となるような前記部分文字列の並びのうち、当該並びを構成する各部分文字列の単語スコアを足し合わせた値が最大となる前記部分文字列の並びを単語分割結果として出力する単語分割ステップと、
単語選別手段が、前記単語分割ステップで出力した前記単語候補の単語分割結果のうち、前記単語スコアがあらかじめ定めた単語スコアの閾値や文字種や文字列長の条件に合致する前記単語分割結果を単語として抽出する単語選別ステップと、
を有する。

また、本発明の単語抽出装置は、逐次更新される文書集合から指定した期間における話題語を抽出する単語抽出装置であって、
文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集手段と、
収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成手段と、
対象文書集合に複数回出現する文字列のうち入れ子となるものやある文字種で分断されるものを除いて単語候補を抽出する単語候補抽出手段と、
前記単語候補抽出手段が出力した前記単語候補に含まれる連続した１文字以上の部分文字列について当該文字列の残差ＩＤＦに当該部分文字列の文字列長を掛けた値である単語スコアを計算し、
前記部分文字列のうちカタカナまたは英字またはアラビア数字または漢数字のいずれか１種類の文字種が連続する部分文字列について、前記いずれか１種類の文字種が連続する長さが最長となる部分文字列の単語スコアが、前記いずれか１種類の文字種が連続する長さが前記最長の長さよりも短い部分文字列の単語スコアよりも高くなるように前記部分文字列の各々の単語スコアを補正し、
前記部分文字列を並べると前記単語候補となるような前記部分文字列の並びのうち、当該並びを構成する各部分文字列の単語スコアを足し合わせた値が最大となる前記部分文字列の並びを単語分割結果として出力する単語分割手段と、
前記単語分割手段が出力した前記単語候補の単語分割結果のうち、前記単語スコアがあらかじめ定めた単語スコアの閾値や文字種や文字列長の条件に合致する前記単語分割結果を単語として抽出する単語選別手段と、
を有する。

１）文書集合から文字列統計量と文字列長と文字種に基づく単語分割を行うことで、従来よりも高精度で最新の語にも対処可能な単語抽出を行うことができる。
２）ある期間およびそれ以前の期間の文書における単語の重要度と、ある期間とそれ以前の期間の出現状況から計算される単語の最新度によって、話題度を計算することで、利用者にとって有用な話題語を得ることができる。

以下、本発明の実施の形態について図面を参照して説明する。

図１は本発明の一実施の形態である単語抽出装置の構成を表すブロック図である。図１において１重線の矢印はデータの流れを、２重線の矢印は処理の流れを示している。

単語抽出装置１はクローラー１１と対象文書集合データ作成部１２と単語抽出部１３と話題度計算部１４と表示部１５と文書ＤＢ１６と対象文書集合ＤＢ１７と話題語ＤＢ１８とを有している。

クローラー１１は、インターネット２から前回収集以降に更新された文書を指定された周期で収集し、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）といったタグ付きの収集文書をプレインテキストへ加工して文書ＤＢ１６へ出力する。対象文書集合データ作成部１２は文書ＤＢ１６から上記の指定された周期とは独立に指定された期間内に更新された加工済み文書を文書ＤＢ１６から入力し、複数の加工済み文書をまとめて話題語抽出の対象文書集合を作成し、対象文書集合から統計量を計算して、対象文書集合と統計量データを対象文書集合ＤＢ１７へ出力する。なお、対象文書集合に対応付けてＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）やタイトルも格納される。単語抽出部１３は対象文書集合ＤＢ１７の対象文書集合を入力し、単語分割し、対象文書集合ＤＢ１７へ単語を出力する。話題度計算部１４は単語抽出部１３で出力された単語を対象文書集合ＤＢ１７から入力し、対象文書集合ＤＢ１７にある前回の対象文書集合と今回の対象文書集合（時期や期間などが前回と今回とで異なる）の各文字列の統計量を基に指定した方法で最近の話題度を計算し、話題度順に並べた話題語リストを話題語ＤＢ１８へ出力する。表示部１５は話題度計算部１４から出力された話題語リストを入力し、さらに、対象文書集合ＤＢ１７の対象文書集合や統計量データを入力し、話題語に対して、対象文書集合中の文脈や、その話題語を含む元のＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）や、話題語が出現する文書のタイトルや、話題語の文書集合中の出現頻度や、出現する文書数や、話題度や、ある期間の話題語に関する統計量の推移を表示用の書式に整形して、話題語リストと関連情報として出力する。

図２は、単語抽出部１３の構成を表すブロック図である。図２において、１重線の矢印はデータの流れを、２重線の矢印は処理の流れを示している。

単語抽出部１３は単語候補抽出部１３Ａと単語分割部１３Ｂと単語選択部１３Ｃを有する。単語候補抽出部１３Ａは対象文書集合ＤＢ１７から対象文書集合を読み込み、対象文書集合に複数回出現する文字列で、入れ子となるものや、ある文字種で分断されるものを除いて（非特許文献１の単語候補抽出と同様な方法）単語候補を抽出し、対象文書集合ＤＢ１７へ格納する。単語分割部１３Ｂは対象文書集合ＤＢ１７から単語候補を入力し、単語候補を文字列統計量と文字列長と文字種に基づく単語分割を行った後、単語分割結果を対象文書集合ＤＢ１７へ出力する。単語選別部１３Ｃは対象文書集合ＤＢ１７から複数の単語候補の単語分割結果を入力し、あらかじめ定めた単語スコアの閾値や文字種や文字列長により絞り込みを行い、残った単語を話題語ＤＢ１８へ出力する。

次に、本実施形態の動作を図３のフローチャートにより説明する。

まず、クローラー１１によって、指定された周期で、インターネット２からその周期の差分（前回収集以降）に更新された文書を収集する（ステップ１０１）。クローラーとはインターネット２上のページを巡回し、文書を収集する手段である。例えば、毎日（指定周期）、前日に更新された文書（前回収集以降に更新された文書）を収集する場合、今日が２００４年１月１日であったならば、クローラー１１によって、更新日時が昨日２００３年１２月３１日のページのみを収集し、更新日時で収集データを管理する文書ＤＢ１６へ格納する。また、今日が２００４年１月２日となったならば、同様にクローラー１１によって更新日時が昨日２００４年１月１日のページのみを収集し、更新日時で収集データを管理する文書ＤＢ１６へ格納する。収集周期の指定は、あらかじめ初期設定しておく。例えば、「毎日」と設定すれば毎日収集し、「２日」とすれば２日に１回収集する。さらに、収集されたページには、文書の内容とは関係ないタグや不要な文字列が含まれているので、それらを除去し、整形した文書を作成し、収集文書と関連付けて文書ＤＢ１６へ格納、管理される。

次に、対象文書集合データ作成部１２は、文書ＤＢ１６から上記の指定された周期とは独立に指定した期間内に更新された整形済み文書を読み出し、まとめたものを話題語抽出の対象文書集合として作成し、指定日時と期間で対象文書集合を管理して対象文書集合ＤＢ１７へ格納する（ステップ１０２）。例えば、日時を「昨日」、期間を「１日分」と指定すると、更新日時がその日時と一致する整形済み文書を読み出し、各文書をまとめたファイル（例えば、各文書を１行とし、それらを連結したもの）を対象文書集合として作成し、指定日時と期間で管理して対象文書集合ＤＢ１７へ格納する。日時と期間は、あらかじめ初期設定しておく。例えば、日時を「昨日」、期間を「１日分」と設定し、今日が２００４年１月１日であれば、更新日時が２００３年１２月３１日の整形済み文書が該当することになる。

なお、日時や期間だけでなくサイト名や分野を指定し、より限定した対象文書集合を作成することもできる。サイト名は完全なＵＲＬでなく、ＵＲＬの一部で定めてもよい（例えば、「ｈｔｔｐ：／／ｗｗｗ．ｓａｍｐｌｅ．ｃｏｍ／ｓｐｏｒｔｓ」のような場合のドメイン名＋部分文字列）。また、分野はＵＲＬ中に含まれる文字列（例えば、「ｓｐｏｒｔｓ」）や、文書内に現れる文字列や、予め学習しておいた分野推定手段によって文書の分野を推定した結果で定める。さらに、対象文書集合から文字列統計量を計算し、用いた対象文字集合と関連付けて対象文書集合ＤＢ１７へ格納・管理される。文字列統計量を計算する際には、例えば、非特許文献１でも利用されている接尾辞配列（ｓｕｆｆｉｘａｒｒａｙ（参考文献１参照））を作成することで、文書中の任意の文字列の出現頻度やその文字列が出現する文書数を計算することができる。ｓｕｆｆｉｘａｒｒａｙは、文章中の任意の文字から文章末までの全ての文字列（文書へのポインタ）の配列を文字列でソートしたものである。同じ文字列が複数箇所で出現した場合、ソートした配列では隣接しているので、その数をカウントすれば出現頻度が求まる。また、事前に文書の先頭位置を求めておくことで、部分文字列のポインタからどの文書に出現したかが分かるので各文字列が出現する文書数を計算できる。ｓｕｆｆｉｘａｒｒａｙの作成の際に用いたデータは統計量データとして対象文書集合ＤＢ１７へ格納する。なお、ｓｕｆｆｉｘａｒｒａｙを作成する方法でなくても同様の計算が可能であれば、それを用いても構わない。
参考文献１： Mikio Yamamoto, Kenneth W. Church, 「Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in Corpus」, Computational Linguistics, Vol27, No.1, 2001, pp.1-30.

次に、単語抽出部１３は、対象文書集合ＤＢ１７の対象文書集合を読み出し、対象文書集合を単語分割して、単語を抽出する（ステップ１０３）。単語抽出方法は、形態素解析を行い、品詞パターンが合致したものを抽出する方法が考えられるが、最新の話題語の中には未知語を含む可能性がある。一般的な形態素解析では辞書を用いるため、未知語への対処ができない。

そこで、以下では文字列統計量による単語分割の説明を図２に基づいて行う。まず、単語候補抽出部１３Ａは、対象文書集合ＤＢ１７から対象文書集合を読み込み、非特許文献１の単語候補抽出と同様な方法で単語候補を抽出し、対象文書集合ＤＢ１７へ格納される。この例では、対象文書集合を１文ごとに分けて、１文を単語分割することも可能であるが、処理を早く行うために非特許文献１の方法で単語候補を抽出する。例えば、対象文書集合に複数回「…タテガミオオカミの…」と出ており、単語候補抽出の結果、「タテガミオオカミの」が単語候補の１つであるとする。なお、「タテガミオ」のような文字列は、「タテガミオオカミ」の入れ子であったり、「タテガミオ」の末尾文字と直後の文字が同種の文字種（カタカナ）で分断されるものは単語候補とはならない。次に、単語分割部１３Ｂは、対象文書集合ＤＢ１７から単語候補を入力し、単語候補を文字列統計量と文字列長と文字種に基づく単語分割を行った後、単語分割結果を対象文書集合ＤＢ１７へ出力する。例えば、単語候補のうちの１つである「タテガミオオカミの」が入力されると、“タ”、“タテ”、…“タテガミオオカミの”、といったように、先頭から順に入力された文字列に含まれる全ての部分文字列について単語スコアが計算される。

単語スコアは、入力文字列をうまく単語に分割することが可能であればどの統計量を用いてもかまわない。また、あらかじめ複数の方法を準備し、初期設定で使用する方法を用いてもかまわない。例えば、統計量として出現頻度（ｔｆ）と文書頻度の逆数（ｉｄｆ）を掛け合わせたものであり特徴的なキーワードを抽出するのによく利用されるｔｆ＊ｉｄｆが考えられるが、ここでは、文字列ｓの単語スコアＳ（ｓ）＝ｒｉｄｆ（ｓ）×（ｌｅｎｇｔｈ（ｓ）−１）によって計算する。ｒｉｄｆ（ｓ）は文字列ｓの残差ＩＤＦ（ｒｉｄｆ）と呼ばれるもので、内容に関する単語は大きな値をとりやすい統計量である（参考文献２）。また、ｌｅｎｇｔｈ（ｓ）は文字列ｓの長さである。なお、出現頻度が少ないときは統計量が正確な値を取らないので、例えば、出現頻度（ｔｆ）が１０以下の場合、ｒｉｄｆ（ｓ）＝０としている。
参考文献２：北研二、津田和彦、獅々堀政幹、「情報探検アルゴリズム」、共立出版、２００２年１月１日初版第１刷発行、ｐｐ．４３−４５．

文字列ｓの残差ＩＤＦを計算するには、ある文書集合に対し、文字列ｓの出現頻度や文字列ｓを含む文書数（文書頻度）や文書集合における総文書数をあらかじめ計算しておくか、実行時に読み込んで計算して求める。例えば、参考文献１を用いて、ある文書集合中の文字列の出現頻度と文書頻度を求めることができる。ただし、参考文献１では、出現頻度２以上の任意の文字列に限定されている。そこで、文字列が参考文献１の方法では見つからず、かつ、文書集合に出現している場合、出現頻度１（＝文書頻度１）となることがわかる。また、文書集合中の総文書数は事前に１度調べればよい。以上から、対象文書集合の文字列統計量と事前準備した別文書集合の文字列統計量を用いて、ある文字列に対する各文書集合の文字列統計量（出現頻度や文書頻度）を足し合わせて求めることができる。対象文書集合のみでなく、別文書集合の統計量も用いるのは、対象文書集合で出現頻度が少ない場合の統計量を補うことで誤りが減らせるためである。また、別文書は事前に統計量を計算しておくことで、実行時には対象文書集合のみ計算すればよく、対象文書集合と別文書集合をまとめた全体に対して実行時に統計量を計算するよりも処理時間が短縮できる。

図４の左側は、対象文書集合と別文書集合の統計量を既に足し合わせた結果の一部であり、足し合わせた総文書数Ｄ＝１０００００の文書から各文字列の出現頻度と文書頻度を求めたものとする。例えば、単語候補「タテガミオオカミの」における「タ」の場合は、出現頻度ｔｆ＝８００００、文書頻度ｄｆ＝３００００が求まるので、ｒｉｄｆ（タ）＝０．７４となる。これらから、単語スコアＳ（タ）＝ｒｉｄｆ（タ）×（ｌｅｎｇｔｈ（タ）−１）＝０となる。同様に、入力文字列の全ての部分文字列の単語スコアＳ（ｓ）が求まる（図４の右側）。

次に、単語スコアの補正について説明する。ある文字種を持つ文字列では単語スコアが適切でなく、誤った分割が行われやすくなるので、計算された単語スコアを補正する。補正は単語とはなりにくい文字列の単語スコアを０にし、単語となりやすい文字列で単語スコアが低いものに、より高い値を与えるようにする。例えば、カタカナ、英字、アラビア数字、漢数字が同じ文字種で連続する場合、最長となるもの以外は単語スコアを０にし、仮に最長のもので単語スコアが０の場合は０より大きいかものすごく小さな値を与える。また、記号類は２文字以上のものは単語スコアを０にする。また、ひらがなを含む文字列の場合で長さが１文字で文書頻度が閾値以上である場合は、単語スコアをｗ（ｓ）とする（ｗ（ｓ）はｓの関数）。また、ひらがなを含む文字列の場合で長さが２文字以上でｒｉｄｆ（ｓ）が閾値以下の場合は単語スコアを０にする。例えば、図３のように、“タテ”の場合は、単語スコアがＳ（タテ）＝０．４８であるが、単語候補「タテガミオオカミの」においては、「タテガミオオカミ」のカタカナの部分文字列であるので、Ｓ（タテ）＝０となる（図４の右側）。また、「タテガミオオカミ」の単語スコアは０であるが、補正によりものすごく小さな値（例えば、０．０００１）となる。次に、動的計画法（ＤＰ（非特許文献３参照））によって、各文字列の単語スコアから単語スコアの総和の最大とする単語並びを求める。例えば、単語候補「タテガミオオカミの」は、「タテガミオオカミ（０．０００１）／の（０．０５）」のような並びとなる（単語の後の数字は単語スコアである。）。なお、単語スコアの補正が行われなかったとすれば、「タテ（０．４８）／ガミ（０．５３）／オオカミ（３．９９）／の（０．０５）」となり、正しい単語分割は得られない。
参考文献３石畑清、「アルゴリズムとデータ構造」、岩波書店、１９８９年３月３０日第１刷発行、ｐｐ．３９９−４０１．

次に、図２の単語選別部１３Ｃは、対象文書集合ＤＢ１７から複数の単語候補の単語分割結果を入力し、あらかじめ定めた単語スコアの閾値や文字種や文字列長により絞り込みを行い、残った単語を話題後ＤＢ１８へ出力する。例えば、単語スコアがある閾値以上もしくはカタカナで文字列長が２以上のものに限定したならば、「タテガミオオカミ」はカタカナであるので出力され、対象文書集合ＤＢ１７へ格納される。

次に、話題度計算部１４は、単語抽出部１３で出力された単語を対象文書集合ＤＢ１７から入力し、対象文書集合ＤＢ１７にある前回の対象文書集合と今回の対象文書集合（時期や期間などが前回と今回とで異なる）の各文字列統計量を基に最近の話題度を計算し、話題度順に並べた話題語リストを話題語ＤＢ１８へ出力する（ステップ１０４）。

最近の話題度とは、前回と今回の対象文書集合において単語の重要度を表す統計量を求め、今回の方が前回に比べて重要度が急激に上昇したものであると考えられ、例えば、前回と今回の重要度の割合で求めることができる。なお、割合でなく差であったり、割合と差の両方を考慮したものなど、最近の話題度が求められるものであれば、ここで述べる以外の方法で話題度を求めても構わない。

統計量を複数準備しておくことで利用者に合った話題度を選択できる。統計量としては、出現頻度（ｔｆ）やｔｆ＊ｉｄｆなどが考えられる。ｔｆは多く出現するほど重要であるという意味になる。また、ｔｆ＊ｉｄｆは出現頻度（ｔｆ）と文書頻度の逆数（ｉｄｆ）を掛け合わせたものであり、出現頻度に比べてｔｆ＊ｉｄｆの方が文書に偏って出現する単語が高い値となる。これは、単に出現頻度が多いとまんべんなく出現する語が高くなりやすいので、偏りも考慮することでより内容に特化した単語を高い値となることを意味する。対象文書集合中の文書数をＤとするとｔｆ＊ｉｄｆは、ｔｆ＊ｉｄｆ＝ｔｆ＊（ｌｏｇ（Ｄ／ｄｆ）＋１）で計算される。なお、統計量はこれらに限定されず他の方法で計算しても構わない。例えば、ｔｆ＊ｉｄｆによる単語「タテガミオオカミ」の話題度を、今回をある１日、前回をその前日１日として計算する場合、前日に対象文書集合に１００個の文書があり、そのうち２つの文書に「タテガミオオカミ」が２回出ていて、当日には対象文書集合中に１２０個の文書があり、そのうち３つの文書に「タテガミオオカミ」が６回出ていたならば、話題度は（当日のｔｆ＊ｉｄｆ）／（前日のｔｆ＊ｉｄｆ）＝６＊（ｌｏｇ（１２０／３）＋１）／２＊（ｌｏｇ（１００／２）＋１）＝１５．６／５．４＝２．８９となる。そして、話題度の高い順に話題語リストを作成し、話題語ＤＢ１８へ格納する。

最後に、表示部１５は、話題度計算部１４から出力された話題語リストを入力し、さらに、対象文書集合ＤＢ１７の対象文書集合や統計量データを入力し、話題語に対し、対象文書集合中の文脈や、その話題語を含む元のＵＲＬや、話題語が出現する文書のタイトルや、話題語の文書集合中の出現頻度や、出現する文書数や、話題度や、ある期間の話題語に関する統計量の推移を表示用の書式に整形して、話題語リストと関連情報として出力する。

例えば、図５の（ａ）にあるように、利用者が年月日、件数、分野、サイト、話題度の計算手法を選択すると、選択した条件での最新の話題語リストが出力される。なお、「赤ちゃん」という話題語が話題語リストにあり、「赤ちゃん」と同じ文書に現れる話題語で最上位のものが「タテガミオオカミ」である場合は、同じ情報を含む文書に包含されていると考えて、「赤ちゃん」を話題語リストから除外することで、リストの上位から複数回同じ情報を見る手間を省くことができる。

また、例えば、４位の「タテガミオオカミ」をクリックすると、図５の（ｂ）にあるように、指定した日時である２００４年１月１日の「タテガミオオカミ」の対象文書集合中の出現数（ｔｆ）やその語を含む文書数（ｄｆ）、話題度、同じ文書に包含されている話題語や、ある期間の話題語に関する統計量（この例では話題度）の推移グラフや、その話題語を含む元のＵＲＬ、話題語が出現する文書のタイトル、対象文書集合中の話題語の前後の文脈が表示される。原文書が見たい場合は、ＵＲＬをクリックすると実際の文書を表示する。これにより、ある日時の話題語リストを見るだけでは話題語かどうか判断がつきにくい場合に、統計量の推移グラフや出現頻度などによって、判断の参考になる情報を見ることができる。この例では、推移グラフが話題度だけだが、複数の統計量を表示させたり、複数の統計量から選択手段により見たいグラフを選択してもよい。また、見たい期間の幅や時期も選択手段により変更させてもよい。

また、話題語の意味が分からない新語の場合に、話題語の文脈や元文書を見ることにより、理解を助けることができる。なお、図５は表示の一例であって、情報の表示させるデータや順序や構成などは、適宜変更したものでも構わない。

なお、本発明の単語抽出方法は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、ＣＤ−ＲＯＭ等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの（伝送媒体もしくは伝送波）、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。

本発明の一実施形態である単語抽出装置の構成を示すブロック図である。図１中の単語抽出部の構成を示すブロック図である。図１の単語抽出装置の処理の概要を表すフローチャートである。文書集合から計算された任意の文字列の単語スコアと、入力された文字列に基づいて補正された単語スコアの一例を示す図である。話題語リストと関連情報の表示例である。

符号の説明

１単語抽出装置
２インターネット
１１クローラー
１２対象文書集合データ作成部
１３単語抽出部
１３Ａ単語候補抽出部
１３Ｂ単語分割部
１３Ｃ単語選別部
１４話題度計算部
１５表示部
１６文書ＤＢ
１７対象文書集合ＤＢ
１８話題語ＤＢ
１０１〜１０５ステップ

Claims

逐次更新される文書集合から指定した期間における話題語を抽出する単語抽出装置において行なわれる単語抽出方法であって、
文書収集手段が文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集ステップと、
対象文書集合作成手段が収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成ステップと、
単語候補抽出手段が、対象文書集合に複数回出現する文字列のうち入れ子となるものやある文字種で分断されるものを除いて単語候補を抽出する単語候補抽出ステップと、
単語分割手段が、前記単語候補抽出手段が出力した前記単語候補に含まれる連続した１文字以上の部分文字列について当該文字列の残差ＩＤＦに当該部分文字列の文字列長を掛けた値である単語スコアを計算し、
前記部分文字列のうちカタカナまたは英字またはアラビア数字または漢数字のいずれか１種類の文字種が連続する部分文字列について、前記いずれか１種類の文字種が連続する長さが最長となる部分文字列の単語スコアが、前記いずれか１種類の文字種が連続する長さが前記最長の長さよりも短い部分文字列の単語スコアよりも高くなるように前記部分文字列の各々の単語スコアを補正し、
前記部分文字列を並べると前記単語候補となるような前記部分文字列の並びのうち、当該並びを構成する各部分文字列の単語スコアを足し合わせた値が最大となる前記部分文字列の並びを単語分割結果として出力する単語分割ステップと、
単語選別手段が、前記単語分割ステップで出力した前記単語候補の単語分割結果のうち、前記単語スコアがあらかじめ定めた単語スコアの閾値や文字種や文字列長の条件に合致する前記単語分割結果を単語として抽出する単語選別ステップと、
を有する単語抽出方法。
前記単語分割ステップにおける前記単語候補に含まれる連続した１文字以上の部分文字列について当該部分文字列の残差ＩＤＦに当該部分文字列の文字列長を掛けた値である単語スコアを計算する処理では、前記部分文字列の出現頻度が１０以下となる部分文字列の残差ＩＤＦを０とすることを特徴とする請求項１記載の単語抽出方法。
話題度計算手段が、抽出単語に対し、対象文書集合中の重要度と、対象文書集合より以前のある期間の文書集合中の重要度を計算し、以前と比べて重要度の上昇した度合いを単語の話題度として計算する話題度計算ステップと、
話題度リスト作成手段が、話題度の高い順に単語を並べた話題語リストを作成する話題語リスト作成ステップと、
を有する請求項１または２記載の単語抽出方法。
逐次更新される文書集合から指定した期間における話題語を抽出する単語抽出装置であって、
文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集手段と、
収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成手段と、
対象文書集合に複数回出現する文字列のうち入れ子となるものやある文字種で分断されるものを除いて単語候補を抽出する単語候補抽出手段と、
前記単語候補抽出手段が出力した前記単語候補に含まれる連続した１文字以上の部分文字列について当該文字列の残差ＩＤＦに当該部分文字列の文字列長を掛けた値である単語スコアを計算し、
前記部分文字列のうちカタカナまたは英字またはアラビア数字または漢数字のいずれか１種類の文字種が連続する部分文字列について、前記いずれか１種類の文字種が連続する長さが最長となる部分文字列の単語スコアが、前記いずれか１種類の文字種が連続する長さが前記最長の長さよりも短い部分文字列の単語スコアよりも高くなるように前記部分文字列の各々の単語スコアを補正し、
前記部分文字列を並べると前記単語候補となるような前記部分文字列の並びのうち、当該並びを構成する各部分文字列の単語スコアを足し合わせた値が最大となる前記部分文字列の並びを単語分割結果として出力する単語分割手段と、
前記単語分割手段が出力した前記単語候補の単語分割結果のうち、前記単語スコアがあらかじめ定めた単語スコアの閾値や文字種や文字列長の条件に合致する前記単語分割結果を単語として抽出する単語選別手段と、
を有する単語抽出装置。
前記単語分割手段は、
前記単語候補に含まれる連続した１文字以上の部分文字列について当該部分文字列の残差ＩＤＦに当該部分文字列の文字列長を掛けた値である単語スコアを計算する処理にて、前記部分文字列の出現頻度が１０以下となる部分文字列の残差ＩＤＦを０とすることを特徴とする請求項４記載の単語抽出装置。
抽出単語に対し、対象文書集合中の重要度と、対象文書集合より以前のある期間の文書集合中の重要度を計算し、以前と比べて重要度の上昇した度合いを単語の話題度として計算する話題度計算手段と、
話題度の高い順に単語を並べた話題語リストを作成する話題度リスト作成手段と、
を有する請求項４または５記載の単語抽出装置。
コンピュータを請求項４乃至６のいずれか１項記載の単語抽出装置の各手段として機能させるためのプログラム。