Nothing Special   »   [go: up one dir, main page]

JP4298550B2 - 単語抽出方法、装置、およびプログラム - Google Patents

単語抽出方法、装置、およびプログラム Download PDF

Info

Publication number
JP4298550B2
JP4298550B2 JP2004067681A JP2004067681A JP4298550B2 JP 4298550 B2 JP4298550 B2 JP 4298550B2 JP 2004067681 A JP2004067681 A JP 2004067681A JP 2004067681 A JP2004067681 A JP 2004067681A JP 4298550 B2 JP4298550 B2 JP 4298550B2
Authority
JP
Japan
Prior art keywords
word
character string
partial character
document set
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004067681A
Other languages
English (en)
Other versions
JP2005258678A (ja
Inventor
貴行 足立
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004067681A priority Critical patent/JP4298550B2/ja
Publication of JP2005258678A publication Critical patent/JP2005258678A/ja
Application granted granted Critical
Publication of JP4298550B2 publication Critical patent/JP4298550B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、対象となる文書集合から単語を抽出する方法および装置に関するものである。
現在、インターネット上には様々な分野・種類の電子的な文書が大量に生まれ続けている。しかしながら、利用者は、最近作成された文書の全てを見ることは量的に不可能であり、分野や情報元などで限定したとしても困難なことが多い。そこで、例えば、最近作成された文書の集合から過去よりも話題性の高い語を順にリストアップし、さらにその話題語からその語を含む文書への簡便なアクセス方法があるならば、利用者は、その時々で有用な情報を含んでいる文書を効率よく見ることができる。また、最近の話題語とその意味を知りたい場面においても、上記のような仕組みがあれば、話題語とその利用例を探す手間が削減される。
文書集合から単語を抽出する従来技術としては、対象文書集合中の任意の文字列から単語候補を求め、対象文書集合とそれとは別の文書集合から単語候補の文字列統計量を計算し、その値が閾値以上となった単語候補を単語として抽出するものがある(非特許文献1参照)。
足立貴行、山田節夫、永田昌明、「小規模な文書集合からの語彙獲得法」、言語処理学会第9回年次大会発表論文集、pp.274−277、2003年3月.
この技術は、対象文書集合中の任意の部分文字列から、あらかじめ単語候補に絞り込み、それぞれ独立に単語らしさを調べている。しかし、粗い絞り込みのため単語候補の中には、正しい単語が除去されるかわりに、その単語を部分的に含む誤った文字列が残っている場合がある。
そこで、単語候補を形態素解析することが考えられるが、形態素解析用の辞書にない単語が単語候補に含まれる場合、形態素解析結果が誤るために正しい単語が抽出できない。
また、この技術では、単語の話題度を最近の文書集合の出現確率と過去の文書集合の出現確率との差としており、最新度の高い単語ほど高い話題度となる。しかし、最新度が高くても重要でない単語が抽出される可能性がある。
また、最新の話題語といっても、ある文書に偏って出現する特徴的なものが欲しい場合もあれば、偏りにかかわらず最新の話題語が欲しい場合もある。しかし、利用者の目的に合わせて、適宜、話題度計算方法を変更することができない。
また、得られるものは話題度順に並べた単語リストであり、利用者がその語の意味の理解に役立つ情報を提示する手段や、その語を含む文書への簡便なアクセスする手段は有していない。
本発明の目的は、従来よりも高精度で最新の語にも対処可能な単語抽出を行うことができ、また、利用者にとって有用な話題語を得ることができる単語抽出方法、装置、およびプログラムを提供することにある。
本発明の単語抽出方法は、逐次更新される文書集合から指定した期間における話題語を抽出する単語抽出装置において行なわれる単語抽出方法であって、
文書収集手段が文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集ステップと、
対象文書集合作成手段が収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成ステップと、
単語候補抽出手段が、対象文書集合に複数回出現する文字列のうち入れ子となるものやある文字種で分断されるものを除いて単語候補を抽出する単語候補抽出ステップと、
単語分割手段が、前記単語候補抽出手段が出力した前記単語候補に含まれる連続した1文字以上の部分文字列について当該文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算し、
前記部分文字列のうちカタカナまたは英字またはアラビア数字または漢数字のいずれか1種類の文字種が連続する部分文字列について、前記いずれか1種類の文字種が連続する長さが最長となる部分文字列の単語スコアが、前記いずれか1種類の文字種が連続する長さが前記最長の長さよりも短い部分文字列の単語スコアよりも高くなるように前記部分文字列の各々の単語スコアを補正し、
前記部分文字列を並べると前記単語候補となるような前記部分文字列の並びのうち、当該並びを構成する各部分文字列の単語スコアを足し合わせた値が最大となる前記部分文字列の並びを単語分割結果として出力する単語分割ステップと、
単語選別手段が、前記単語分割ステップで出力した前記単語候補の単語分割結果のうち、前記単語スコアがあらかじめ定めた単語スコアの閾値や文字種や文字列長の条件に合致する前記単語分割結果を単語として抽出する単語選別ステップと、
有する。
また、本発明の単語抽出装置は、逐次更新される文書集合から指定した期間における話題語を抽出する単語抽出装置であって、
文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集手段と、
収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成手段と、
対象文書集合に複数回出現する文字列のうち入れ子となるものやある文字種で分断されるものを除いて単語候補を抽出する単語候補抽出手段と、
前記単語候補抽出手段が出力した前記単語候補に含まれる連続した1文字以上の部分文字列について当該文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算し、
前記部分文字列のうちカタカナまたは英字またはアラビア数字または漢数字のいずれか1種類の文字種が連続する部分文字列について、前記いずれか1種類の文字種が連続する長さが最長となる部分文字列の単語スコアが、前記いずれか1種類の文字種が連続する長さが前記最長の長さよりも短い部分文字列の単語スコアよりも高くなるように前記部分文字列の各々の単語スコアを補正し、
前記部分文字列を並べると前記単語候補となるような前記部分文字列の並びのうち、当該並びを構成する各部分文字列の単語スコアを足し合わせた値が最大となる前記部分文字列の並びを単語分割結果として出力する単語分割手段と、
前記単語分割手段が出力した前記単語候補の単語分割結果のうち、前記単語スコアがあらかじめ定めた単語スコアの閾値や文字種や文字列長の条件に合致する前記単語分割結果を単語として抽出する単語選別手段と、
有する。
1)文書集合から文字列統計量と文字列長と文字種に基づく単語分割を行うことで、従来よりも高精度で最新の語にも対処可能な単語抽出を行うことができる。
2)ある期間およびそれ以前の期間の文書における単語の重要度と、ある期間とそれ以前の期間の出現状況から計算される単語の最新度によって、話題度を計算することで、利用者にとって有用な話題語を得ることができる。
以下、本発明の実施の形態について図面を参照して説明する。
図1は本発明の一実施の形態である単語抽出装置の構成を表すブロック図である。図1において1重線の矢印はデータの流れを、2重線の矢印は処理の流れを示している。
単語抽出装置1はクローラー11と対象文書集合データ作成部12と単語抽出部13と話題度計算部14と表示部15と文書DB16と対象文書集合DB17と話題語DB18とを有している。
クローラー11は、インターネット2から前回収集以降に更新された文書を指定された周期で収集し、HTML(Hyper Text Markup Language)といったタグ付きの収集文書をプレインテキストへ加工して文書DB16へ出力する。対象文書集合データ作成部12は文書DB16から上記の指定された周期とは独立に指定された期間内に更新された加工済み文書を文書DB16から入力し、複数の加工済み文書をまとめて話題語抽出の対象文書集合を作成し、対象文書集合から統計量を計算して、対象文書集合と統計量データを対象文書集合DB17へ出力する。なお、対象文書集合に対応付けてURL(Uniform Resource Locator)やタイトルも格納される。単語抽出部13は対象文書集合DB17の対象文書集合を入力し、単語分割し、対象文書集合DB17へ単語を出力する。話題度計算部14は単語抽出部13で出力された単語を対象文書集合DB17から入力し、対象文書集合DB17にある前回の対象文書集合と今回の対象文書集合(時期や期間などが前回と今回とで異なる)の各文字列の統計量を基に指定した方法で最近の話題度を計算し、話題度順に並べた話題語リストを話題語DB18へ出力する。表示部15は話題度計算部14から出力された話題語リストを入力し、さらに、対象文書集合DB17の対象文書集合や統計量データを入力し、話題語に対して、対象文書集合中の文脈や、その話題語を含む元のURL(Uniform Resource Locator)や、話題語が出現する文書のタイトルや、話題語の文書集合中の出現頻度や、出現する文書数や、話題度や、ある期間の話題語に関する統計量の推移を表示用の書式に整形して、話題語リストと関連情報として出力する。
図2は、単語抽出部13の構成を表すブロック図である。図2において、1重線の矢印はデータの流れを、2重線の矢印は処理の流れを示している。
単語抽出部13は単語候補抽出部13Aと単語分割部13Bと単語選択部13Cを有する。単語候補抽出部13Aは対象文書集合DB17から対象文書集合を読み込み、対象文書集合に複数回出現する文字列で、入れ子となるものや、ある文字種で分断されるものを除いて(非特許文献1の単語候補抽出と同様な方法)単語候補を抽出し、対象文書集合DB17へ格納する。単語分割部13Bは対象文書集合DB17から単語候補を入力し、単語候補を文字列統計量と文字列長と文字種に基づく単語分割を行った後、単語分割結果を対象文書集合DB17へ出力する。単語選別部13Cは対象文書集合DB17から複数の単語候補の単語分割結果を入力し、あらかじめ定めた単語スコアの閾値や文字種や文字列長により絞り込みを行い、残った単語を話題語DB18へ出力する。
次に、本実施形態の動作を図3のフローチャートにより説明する。
まず、クローラー11によって、指定された周期で、インターネット2からその周期の差分(前回収集以降)に更新された文書を収集する(ステップ101)。クローラーとはインターネット2上のページを巡回し、文書を収集する手段である。例えば、毎日(指定周期)、前日に更新された文書(前回収集以降に更新された文書)を収集する場合、今日が2004年1月1日であったならば、クローラー11によって、更新日時が昨日2003年12月31日のページのみを収集し、更新日時で収集データを管理する文書DB16へ格納する。また、今日が2004年1月2日となったならば、同様にクローラー11によって更新日時が昨日2004年1月1日のページのみを収集し、更新日時で収集データを管理する文書DB16へ格納する。収集周期の指定は、あらかじめ初期設定しておく。例えば、「毎日」と設定すれば毎日収集し、「2日」とすれば2日に1回収集する。さらに、収集されたページには、文書の内容とは関係ないタグや不要な文字列が含まれているので、それらを除去し、整形した文書を作成し、収集文書と関連付けて文書DB16へ格納、管理される。
次に、対象文書集合データ作成部12は、文書DB16から上記の指定された周期とは独立に指定した期間内に更新された整形済み文書を読み出し、まとめたものを話題語抽出の対象文書集合として作成し、指定日時と期間で対象文書集合を管理して対象文書集合DB17へ格納する(ステップ102)。例えば、日時を「昨日」、期間を「1日分」と指定すると、更新日時がその日時と一致する整形済み文書を読み出し、各文書をまとめたファイル(例えば、各文書を1行とし、それらを連結したもの)を対象文書集合として作成し、指定日時と期間で管理して対象文書集合DB17へ格納する。日時と期間は、あらかじめ初期設定しておく。例えば、日時を「昨日」、期間を「1日分」と設定し、今日が2004年1月1日であれば、更新日時が2003年12月31日の整形済み文書が該当することになる。
なお、日時や期間だけでなくサイト名や分野を指定し、より限定した対象文書集合を作成することもできる。サイト名は完全なURLでなく、URLの一部で定めてもよい(例えば、「http://www.sample.com/sports」のような場合のドメイン名+部分文字列)。また、分野はURL中に含まれる文字列(例えば、「sports」)や、文書内に現れる文字列や、予め学習しておいた分野推定手段によって文書の分野を推定した結果で定める。さらに、対象文書集合から文字列統計量を計算し、用いた対象文字集合と関連付けて対象文書集合DB17へ格納・管理される。文字列統計量を計算する際には、例えば、非特許文献1でも利用されている接尾辞配列(suffix array(参考文献1参照))を作成することで、文書中の任意の文字列の出現頻度やその文字列が出現する文書数を計算することができる。suffix arrayは、文章中の任意の文字から文章末までの全ての文字列(文書へのポインタ)の配列を文字列でソートしたものである。同じ文字列が複数箇所で出現した場合、ソートした配列では隣接しているので、その数をカウントすれば出現頻度が求まる。また、事前に文書の先頭位置を求めておくことで、部分文字列のポインタからどの文書に出現したかが分かるので各文字列が出現する文書数を計算できる。suffix arrayの作成の際に用いたデータは統計量データとして対象文書集合DB17へ格納する。なお、suffix arrayを作成する方法でなくても同様の計算が可能であれば、それを用いても構わない。
参考文献1: Mikio Yamamoto, Kenneth W. Church, 「Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in Corpus」, Computational Linguistics, Vol27, No.1, 2001, pp.1-30.
次に、単語抽出部13は、対象文書集合DB17の対象文書集合を読み出し、対象文書集合を単語分割して、単語を抽出する(ステップ103)。単語抽出方法は、形態素解析を行い、品詞パターンが合致したものを抽出する方法が考えられるが、最新の話題語の中には未知語を含む可能性がある。一般的な形態素解析では辞書を用いるため、未知語への対処ができない。
そこで、以下では文字列統計量による単語分割の説明を図2に基づいて行う。まず、単語候補抽出部13Aは、対象文書集合DB17から対象文書集合を読み込み、非特許文献1の単語候補抽出と同様な方法で単語候補を抽出し、対象文書集合DB17へ格納される。この例では、対象文書集合を1文ごとに分けて、1文を単語分割することも可能であるが、処理を早く行うために非特許文献1の方法で単語候補を抽出する。例えば、対象文書集合に複数回「…タテガミオオカミの…」と出ており、単語候補抽出の結果、「タテガミオオカミの」が単語候補の1つであるとする。なお、「タテガミオ」のような文字列は、「タテガミオオカミ」の入れ子であったり、「タテガミオ」の末尾文字と直後の文字が同種の文字種(カタカナ)で分断されるものは単語候補とはならない。次に、単語分割部13Bは、対象文書集合DB17から単語候補を入力し、単語候補を文字列統計量と文字列長と文字種に基づく単語分割を行った後、単語分割結果を対象文書集合DB17へ出力する。例えば、単語候補のうちの1つである「タテガミオオカミの」が入力されると、“タ”、“タテ”、…“タテガミオオカミの”、といったように、先頭から順に入力された文字列に含まれる全ての部分文字列について単語スコアが計算される。
単語スコアは、入力文字列をうまく単語に分割することが可能であればどの統計量を用いてもかまわない。また、あらかじめ複数の方法を準備し、初期設定で使用する方法を用いてもかまわない。例えば、統計量として出現頻度(tf)と文書頻度の逆数(idf)を掛け合わせたものであり特徴的なキーワードを抽出するのによく利用されるtf*idfが考えられるが、ここでは、文字列sの単語スコアS(s)=ridf(s)×(length(s)−1)によって計算する。ridf(s)は文字列sの残差IDF(ridf)と呼ばれるもので、内容に関する単語は大きな値をとりやすい統計量である(参考文献2)。また、length(s)は文字列sの長さである。なお、出現頻度が少ないときは統計量が正確な値を取らないので、例えば、出現頻度(tf)が10以下の場合、ridf(s)=0としている。
参考文献2: 北研二、津田和彦、獅々堀政幹、「情報探検アルゴリズム」、共立出版、2002年1月1日初版第1刷発行、pp.43−45.
文字列sの残差IDFを計算するには、ある文書集合に対し、文字列sの出現頻度や文字列sを含む文書数(文書頻度)や文書集合における総文書数をあらかじめ計算しておくか、実行時に読み込んで計算して求める。例えば、参考文献1を用いて、ある文書集合中の文字列の出現頻度と文書頻度を求めることができる。ただし、参考文献1では、出現頻度2以上の任意の文字列に限定されている。そこで、文字列が参考文献1の方法では見つからず、かつ、文書集合に出現している場合、出現頻度1(=文書頻度1)となることがわかる。また、文書集合中の総文書数は事前に1度調べればよい。以上から、対象文書集合の文字列統計量と事前準備した別文書集合の文字列統計量を用いて、ある文字列に対する各文書集合の文字列統計量(出現頻度や文書頻度)を足し合わせて求めることができる。対象文書集合のみでなく、別文書集合の統計量も用いるのは、対象文書集合で出現頻度が少ない場合の統計量を補うことで誤りが減らせるためである。また、別文書は事前に統計量を計算しておくことで、実行時には対象文書集合のみ計算すればよく、対象文書集合と別文書集合をまとめた全体に対して実行時に統計量を計算するよりも処理時間が短縮できる。
図4の左側は、対象文書集合と別文書集合の統計量を既に足し合わせた結果の一部であり、足し合わせた総文書数D=100000の文書から各文字列の出現頻度と文書頻度を求めたものとする。例えば、単語候補「タテガミオオカミの」における「タ」の場合は、出現頻度tf=80000、文書頻度df=30000が求まるので、ridf(タ)=0.74となる。これらから、単語スコアS(タ)=ridf(タ)×(length(タ)−1)=0となる。同様に、入力文字列の全ての部分文字列の単語スコアS(s)が求まる(図4の右側)。
次に、単語スコアの補正について説明する。ある文字種を持つ文字列では単語スコアが適切でなく、誤った分割が行われやすくなるので、計算された単語スコアを補正する。補正は単語とはなりにくい文字列の単語スコアを0にし、単語となりやすい文字列で単語スコアが低いものに、より高い値を与えるようにする。例えば、カタカナ、英字、アラビア数字、漢数字が同じ文字種で連続する場合、最長となるもの以外は単語スコアを0にし、仮に最長のもので単語スコアが0の場合は0より大きいかものすごく小さな値を与える。また、記号類は2文字以上のものは単語スコアを0にする。また、ひらがなを含む文字列の場合で長さが1文字で文書頻度が閾値以上である場合は、単語スコアをw(s)とする(w(s)はsの関数)。また、ひらがなを含む文字列の場合で長さが2文字以上でridf(s)が閾値以下の場合は単語スコアを0にする。例えば、図3のように、“タテ”の場合は、単語スコアがS(タテ)=0.48であるが、単語候補「タテガミオオカミの」においては、「タテガミオオカミ」のカタカナの部分文字列であるので、S(タテ)=0となる(図4の右側)。また、「タテガミオオカミ」の単語スコアは0であるが、補正によりものすごく小さな値(例えば、0.0001)となる。次に、動的計画法(DP(非特許文献3参照))によって、各文字列の単語スコアから単語スコアの総和の最大とする単語並びを求める。例えば、単語候補「タテガミオオカミの」は、「タテガミオオカミ(0.0001)/の(0.05)」のような並びとなる(単語の後の数字は単語スコアである。)。なお、単語スコアの補正が行われなかったとすれば、「タテ(0.48)/ガミ(0.53)/オオカミ(3.99)/の(0.05)」となり、正しい単語分割は得られない。
参考文献3 石畑清、「アルゴリズムとデータ構造」、岩波書店、1989年3月30日第1刷発行、pp.399−401.
次に、図2の単語選別部13Cは、対象文書集合DB17から複数の単語候補の単語分割結果を入力し、あらかじめ定めた単語スコアの閾値や文字種や文字列長により絞り込みを行い、残った単語を話題後DB18へ出力する。例えば、単語スコアがある閾値以上もしくはカタカナで文字列長が2以上のものに限定したならば、「タテガミオオカミ」はカタカナであるので出力され、対象文書集合DB17へ格納される。
次に、話題度計算部14は、単語抽出部13で出力された単語を対象文書集合DB17から入力し、対象文書集合DB17にある前回の対象文書集合と今回の対象文書集合(時期や期間などが前回と今回とで異なる)の各文字列統計量を基に最近の話題度を計算し、話題度順に並べた話題語リストを話題語DB18へ出力する(ステップ104)。
最近の話題度とは、前回と今回の対象文書集合において単語の重要度を表す統計量を求め、今回の方が前回に比べて重要度が急激に上昇したものであると考えられ、例えば、前回と今回の重要度の割合で求めることができる。なお、割合でなく差であったり、割合と差の両方を考慮したものなど、最近の話題度が求められるものであれば、ここで述べる以外の方法で話題度を求めても構わない。
統計量を複数準備しておくことで利用者に合った話題度を選択できる。統計量としては、出現頻度(tf)やtf*idfなどが考えられる。tfは多く出現するほど重要であるという意味になる。また、tf*idfは出現頻度(tf)と文書頻度の逆数(idf)を掛け合わせたものであり、出現頻度に比べてtf*idfの方が文書に偏って出現する単語が高い値となる。これは、単に出現頻度が多いとまんべんなく出現する語が高くなりやすいので、偏りも考慮することでより内容に特化した単語を高い値となることを意味する。対象文書集合中の文書数をDとするとtf*idfは、tf*idf=tf*(log(D/df)+1)で計算される。なお、統計量はこれらに限定されず他の方法で計算しても構わない。例えば、tf*idfによる単語「タテガミオオカミ」の話題度を、今回をある1日、前回をその前日1日として計算する場合、前日に対象文書集合に100個の文書があり、そのうち2つの文書に「タテガミオオカミ」が2回出ていて、当日には対象文書集合中に120個の文書があり、そのうち3つの文書に「タテガミオオカミ」が6回出ていたならば、話題度は(当日のtf*idf)/(前日のtf*idf)=6*(log(120/3)+1)/2*(log(100/2)+1)=15.6/5.4=2.89となる。そして、話題度の高い順に話題語リストを作成し、話題語DB18へ格納する。
最後に、表示部15は、話題度計算部14から出力された話題語リストを入力し、さらに、対象文書集合DB17の対象文書集合や統計量データを入力し、話題語に対し、対象文書集合中の文脈や、その話題語を含む元のURLや、話題語が出現する文書のタイトルや、話題語の文書集合中の出現頻度や、出現する文書数や、話題度や、ある期間の話題語に関する統計量の推移を表示用の書式に整形して、話題語リストと関連情報として出力する。
例えば、図5の(a)にあるように、利用者が年月日、件数、分野、サイト、話題度の計算手法を選択すると、選択した条件での最新の話題語リストが出力される。なお、「赤ちゃん」という話題語が話題語リストにあり、「赤ちゃん」と同じ文書に現れる話題語で最上位のものが「タテガミオオカミ」である場合は、同じ情報を含む文書に包含されていると考えて、「赤ちゃん」を話題語リストから除外することで、リストの上位から複数回同じ情報を見る手間を省くことができる。
また、例えば、4位の「タテガミオオカミ」をクリックすると、図5の(b)にあるように、指定した日時である2004年1月1日の「タテガミオオカミ」の対象文書集合中の出現数(tf)やその語を含む文書数(df)、話題度、同じ文書に包含されている話題語や、ある期間の話題語に関する統計量(この例では話題度)の推移グラフや、その話題語を含む元のURL、話題語が出現する文書のタイトル、対象文書集合中の話題語の前後の文脈が表示される。原文書が見たい場合は、URLをクリックすると実際の文書を表示する。これにより、ある日時の話題語リストを見るだけでは話題語かどうか判断がつきにくい場合に、統計量の推移グラフや出現頻度などによって、判断の参考になる情報を見ることができる。この例では、推移グラフが話題度だけだが、複数の統計量を表示させたり、複数の統計量から選択手段により見たいグラフを選択してもよい。また、見たい期間の幅や時期も選択手段により変更させてもよい。
また、話題語の意味が分からない新語の場合に、話題語の文脈や元文書を見ることにより、理解を助けることができる。なお、図5は表示の一例であって、情報の表示させるデータや順序や構成などは、適宜変更したものでも構わない。
なお、本発明の単語抽出方法は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
本発明の一実施形態である単語抽出装置の構成を示すブロック図である。 図1中の単語抽出部の構成を示すブロック図である。 図1の単語抽出装置の処理の概要を表すフローチャートである。 文書集合から計算された任意の文字列の単語スコアと、入力された文字列に基づいて補正された単語スコアの一例を示す図である。 話題語リストと関連情報の表示例である。
符号の説明
1 単語抽出装置
2 インターネット
11 クローラー
12 対象文書集合データ作成部
13 単語抽出部
13A 単語候補抽出部
13B 単語分割部
13C 単語選別部
14 話題度計算部
15 表示部
16 文書DB
17 対象文書集合DB
18 話題語DB
101〜105 ステップ

Claims (7)

  1. 逐次更新される文書集合から指定した期間における話題語を抽出する単語抽出装置において行なわれる単語抽出方法であって、
    文書収集手段が文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集ステップと、
    対象文書集合作成手段が収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成ステップと、
    単語候補抽出手段が、対象文書集合に複数回出現する文字列のうち入れ子となるものやある文字種で分断されるものを除いて単語候補を抽出する単語候補抽出ステップと、
    単語分割手段が、前記単語候補抽出手段が出力した前記単語候補に含まれる連続した1文字以上の部分文字列について当該文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算し、
    前記部分文字列のうちカタカナまたは英字またはアラビア数字または漢数字のいずれか1種類の文字種が連続する部分文字列について、前記いずれか1種類の文字種が連続する長さが最長となる部分文字列の単語スコアが、前記いずれか1種類の文字種が連続する長さが前記最長の長さよりも短い部分文字列の単語スコアよりも高くなるように前記部分文字列の各々の単語スコアを補正し、
    前記部分文字列を並べると前記単語候補となるような前記部分文字列の並びのうち、当該並びを構成する各部分文字列の単語スコアを足し合わせた値が最大となる前記部分文字列の並びを単語分割結果として出力する単語分割ステップと、
    単語選別手段が、前記単語分割ステップで出力した前記単語候補の単語分割結果のうち、前記単語スコアがあらかじめ定めた単語スコアの閾値や文字種や文字列長の条件に合致する前記単語分割結果を単語として抽出する単語選別ステップと、
    を有する単語抽出方法。
  2. 前記単語分割ステップにおける前記単語候補に含まれる連続した1文字以上の部分文字列について当該部分文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算する処理では、前記部分文字列の出現頻度が10以下となる部分文字列の残差IDFを0とすることを特徴とする請求項記載の単語抽出方法。
  3. 話題度計算手段が、抽出単語に対し、対象文書集合中の重要度と、対象文書集合より以前のある期間の文書集合中の重要度を計算し、以前と比べて重要度の上昇した度合いを単語の話題度として計算する話題度計算ステップと、
    話題度リスト作成手段が、話題度の高い順に単語を並べた話題語リストを作成する話題語リスト作成ステップと、
    を有する請求項1または2記載の単語抽出方法。
  4. 逐次更新される文書集合から指定した期間における話題語を抽出する単語抽出装置であって、
    文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集手段と、
    収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成手段と、
    対象文書集合に複数回出現する文字列のうち入れ子となるものやある文字種で分断されるものを除いて単語候補を抽出する単語候補抽出手段と、
    前記単語候補抽出手段が出力した前記単語候補に含まれる連続した1文字以上の部分文字列について当該文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算し、
    前記部分文字列のうちカタカナまたは英字またはアラビア数字または漢数字のいずれか1種類の文字種が連続する部分文字列について、前記いずれか1種類の文字種が連続する長さが最長となる部分文字列の単語スコアが、前記いずれか1種類の文字種が連続する長さが前記最長の長さよりも短い部分文字列の単語スコアよりも高くなるように前記部分文字列の各々の単語スコアを補正し、
    前記部分文字列を並べると前記単語候補となるような前記部分文字列の並びのうち、当該並びを構成する各部分文字列の単語スコアを足し合わせた値が最大となる前記部分文字列の並びを単語分割結果として出力する単語分割手段と、
    前記単語分割手段が出力した前記単語候補の単語分割結果のうち、前記単語スコアがあらかじめ定めた単語スコアの閾値や文字種や文字列長の条件に合致する前記単語分割結果を単語として抽出する単語選別手段と、
    を有する単語抽出装置。
  5. 前記単語分割手段は、
    前記単語候補に含まれる連続した1文字以上の部分文字列について当該部分文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算する処理にて、前記部分文字列の出現頻度が10以下となる部分文字列の残差IDFを0とすることを特徴とする請求項記載の単語抽出装置。
  6. 抽出単語に対し、対象文書集合中の重要度と、対象文書集合より以前のある期間の文書集合中の重要度を計算し、以前と比べて重要度の上昇した度合いを単語の話題度として計算する話題度計算手段と、
    話題度の高い順に単語を並べた話題語リストを作成する話題度リスト作成手段と、
    を有する請求項4または5記載の単語抽出装置。
  7. コンピュータを請求項乃至のいずれか1項記載の単語抽出装置の各手段として機能させるためのプログラム。
JP2004067681A 2004-03-10 2004-03-10 単語抽出方法、装置、およびプログラム Expired - Lifetime JP4298550B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004067681A JP4298550B2 (ja) 2004-03-10 2004-03-10 単語抽出方法、装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004067681A JP4298550B2 (ja) 2004-03-10 2004-03-10 単語抽出方法、装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2005258678A JP2005258678A (ja) 2005-09-22
JP4298550B2 true JP4298550B2 (ja) 2009-07-22

Family

ID=35084346

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004067681A Expired - Lifetime JP4298550B2 (ja) 2004-03-10 2004-03-10 単語抽出方法、装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP4298550B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3785108B2 (ja) 2002-03-28 2006-06-14 株式会社東芝 通信方法、通信装置、基地局装置及び端末装置
JP5115239B2 (ja) * 2008-03-03 2013-01-09 富士ゼロックス株式会社 文字処理装置
EP2450841A4 (en) 2009-06-29 2014-08-27 Masaaki Tokuyama PROCESS PROCESSING PROGRAM, INFORMATION PROCESSING DEVICE, AND PROCESS PROCESSING METHOD
JP5232260B2 (ja) * 2011-03-11 2013-07-10 株式会社東芝 話題抽出装置及びプログラム
JP5768492B2 (ja) 2011-05-18 2015-08-26 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP5491446B2 (ja) * 2011-05-20 2014-05-14 日本電信電話株式会社 話題語獲得装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2005258678A (ja) 2005-09-22

Similar Documents

Publication Publication Date Title
Schäfer et al. Web corpus construction
US8204891B2 (en) Method and subsystem for searching media content within a content-search-service system
US20110029513A1 (en) Method for Determining Document Relevance
US7469251B2 (en) Extraction of information from documents
US20110119262A1 (en) Method and System for Grouping Chunks Extracted from A Document, Highlighting the Location of A Document Chunk Within A Document, and Ranking Hyperlinks Within A Document
JP5010885B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
US20090030891A1 (en) Method and apparatus for extraction of textual content from hypertext web documents
US7555428B1 (en) System and method for identifying compounds through iterative analysis
US9529847B2 (en) Information processing apparatus, information processing method, and program for extracting co-occurrence character strings
US20070061322A1 (en) Apparatus, method, and program product for searching expressions
JP5427694B2 (ja) 関連コンテンツ提示装置及びプログラム
JP4298550B2 (ja) 単語抽出方法、装置、およびプログラム
JP2009217689A (ja) 情報処理装置、情報処理方法、及びプログラム
US8612202B2 (en) Correlation of linguistic expressions in electronic documents with time information
US20080168036A1 (en) System and Method for Locating and Extracting Tabular Data
Aslam et al. Web-AM: An efficient boilerplate removal algorithm for Web articles
JP3937741B2 (ja) 文書の標準化
JP2004013726A (ja) キーワード抽出装置および情報検索装置
Al Oudah et al. Wajeez: an extractive automatic Arabic text summarisation system
JP2009265770A (ja) 重要文提示システム
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Martins et al. The WebCAT framework automatic generation of meta-data for Web resources
JP5128328B2 (ja) 曖昧性評価装置およびプログラム
Barouni-Ebarhimi et al. A novel approach for frequent phrase mining in web search engine query streams
JP5178357B2 (ja) 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050623

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050628

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050628

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090313

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090408

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090415

R150 Certificate of patent or registration of utility model

Ref document number: 4298550

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120424

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130424

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140424

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term