JP4298550B2 - 単語抽出方法、装置、およびプログラム - Google Patents
単語抽出方法、装置、およびプログラム Download PDFInfo
- Publication number
- JP4298550B2 JP4298550B2 JP2004067681A JP2004067681A JP4298550B2 JP 4298550 B2 JP4298550 B2 JP 4298550B2 JP 2004067681 A JP2004067681 A JP 2004067681A JP 2004067681 A JP2004067681 A JP 2004067681A JP 4298550 B2 JP4298550 B2 JP 4298550B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- character string
- partial character
- document set
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
足立貴行、山田節夫、永田昌明、「小規模な文書集合からの語彙獲得法」、言語処理学会第9回年次大会発表論文集、pp.274−277、2003年3月.
文書収集手段が文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集ステップと、
対象文書集合作成手段が収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成ステップと、
単語候補抽出手段が、対象文書集合に複数回出現する文字列のうち入れ子となるものやある文字種で分断されるものを除いて単語候補を抽出する単語候補抽出ステップと、
単語分割手段が、前記単語候補抽出手段が出力した前記単語候補に含まれる連続した1文字以上の部分文字列について当該文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算し、
前記部分文字列のうちカタカナまたは英字またはアラビア数字または漢数字のいずれか1種類の文字種が連続する部分文字列について、前記いずれか1種類の文字種が連続する長さが最長となる部分文字列の単語スコアが、前記いずれか1種類の文字種が連続する長さが前記最長の長さよりも短い部分文字列の単語スコアよりも高くなるように前記部分文字列の各々の単語スコアを補正し、
前記部分文字列を並べると前記単語候補となるような前記部分文字列の並びのうち、当該並びを構成する各部分文字列の単語スコアを足し合わせた値が最大となる前記部分文字列の並びを単語分割結果として出力する単語分割ステップと、
単語選別手段が、前記単語分割ステップで出力した前記単語候補の単語分割結果のうち、前記単語スコアがあらかじめ定めた単語スコアの閾値や文字種や文字列長の条件に合致する前記単語分割結果を単語として抽出する単語選別ステップと、
を有する。
文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集手段と、
収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成手段と、
対象文書集合に複数回出現する文字列のうち入れ子となるものやある文字種で分断されるものを除いて単語候補を抽出する単語候補抽出手段と、
前記単語候補抽出手段が出力した前記単語候補に含まれる連続した1文字以上の部分文字列について当該文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算し、
前記部分文字列のうちカタカナまたは英字またはアラビア数字または漢数字のいずれか1種類の文字種が連続する部分文字列について、前記いずれか1種類の文字種が連続する長さが最長となる部分文字列の単語スコアが、前記いずれか1種類の文字種が連続する長さが前記最長の長さよりも短い部分文字列の単語スコアよりも高くなるように前記部分文字列の各々の単語スコアを補正し、
前記部分文字列を並べると前記単語候補となるような前記部分文字列の並びのうち、当該並びを構成する各部分文字列の単語スコアを足し合わせた値が最大となる前記部分文字列の並びを単語分割結果として出力する単語分割手段と、
前記単語分割手段が出力した前記単語候補の単語分割結果のうち、前記単語スコアがあらかじめ定めた単語スコアの閾値や文字種や文字列長の条件に合致する前記単語分割結果を単語として抽出する単語選別手段と、
を有する。
2)ある期間およびそれ以前の期間の文書における単語の重要度と、ある期間とそれ以前の期間の出現状況から計算される単語の最新度によって、話題度を計算することで、利用者にとって有用な話題語を得ることができる。
参考文献1: Mikio Yamamoto, Kenneth W. Church, 「Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in Corpus」, Computational Linguistics, Vol27, No.1, 2001, pp.1-30.
参考文献2: 北研二、津田和彦、獅々堀政幹、「情報探検アルゴリズム」、共立出版、2002年1月1日初版第1刷発行、pp.43−45.
参考文献3 石畑清、「アルゴリズムとデータ構造」、岩波書店、1989年3月30日第1刷発行、pp.399−401.
2 インターネット
11 クローラー
12 対象文書集合データ作成部
13 単語抽出部
13A 単語候補抽出部
13B 単語分割部
13C 単語選別部
14 話題度計算部
15 表示部
16 文書DB
17 対象文書集合DB
18 話題語DB
101〜105 ステップ
Claims (7)
- 逐次更新される文書集合から指定した期間における話題語を抽出する単語抽出装置において行なわれる単語抽出方法であって、
文書収集手段が文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集ステップと、
対象文書集合作成手段が収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成ステップと、
単語候補抽出手段が、対象文書集合に複数回出現する文字列のうち入れ子となるものやある文字種で分断されるものを除いて単語候補を抽出する単語候補抽出ステップと、
単語分割手段が、前記単語候補抽出手段が出力した前記単語候補に含まれる連続した1文字以上の部分文字列について当該文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算し、
前記部分文字列のうちカタカナまたは英字またはアラビア数字または漢数字のいずれか1種類の文字種が連続する部分文字列について、前記いずれか1種類の文字種が連続する長さが最長となる部分文字列の単語スコアが、前記いずれか1種類の文字種が連続する長さが前記最長の長さよりも短い部分文字列の単語スコアよりも高くなるように前記部分文字列の各々の単語スコアを補正し、
前記部分文字列を並べると前記単語候補となるような前記部分文字列の並びのうち、当該並びを構成する各部分文字列の単語スコアを足し合わせた値が最大となる前記部分文字列の並びを単語分割結果として出力する単語分割ステップと、
単語選別手段が、前記単語分割ステップで出力した前記単語候補の単語分割結果のうち、前記単語スコアがあらかじめ定めた単語スコアの閾値や文字種や文字列長の条件に合致する前記単語分割結果を単語として抽出する単語選別ステップと、
を有する単語抽出方法。 - 前記単語分割ステップにおける前記単語候補に含まれる連続した1文字以上の部分文字列について当該部分文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算する処理では、前記部分文字列の出現頻度が10以下となる部分文字列の残差IDFを0とすることを特徴とする請求項1記載の単語抽出方法。
- 話題度計算手段が、抽出単語に対し、対象文書集合中の重要度と、対象文書集合より以前のある期間の文書集合中の重要度を計算し、以前と比べて重要度の上昇した度合いを単語の話題度として計算する話題度計算ステップと、
話題度リスト作成手段が、話題度の高い順に単語を並べた話題語リストを作成する話題語リスト作成ステップと、
を有する請求項1または2記載の単語抽出方法。 - 逐次更新される文書集合から指定した期間における話題語を抽出する単語抽出装置であって、
文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集手段と、
収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成手段と、
対象文書集合に複数回出現する文字列のうち入れ子となるものやある文字種で分断されるものを除いて単語候補を抽出する単語候補抽出手段と、
前記単語候補抽出手段が出力した前記単語候補に含まれる連続した1文字以上の部分文字列について当該文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算し、
前記部分文字列のうちカタカナまたは英字またはアラビア数字または漢数字のいずれか1種類の文字種が連続する部分文字列について、前記いずれか1種類の文字種が連続する長さが最長となる部分文字列の単語スコアが、前記いずれか1種類の文字種が連続する長さが前記最長の長さよりも短い部分文字列の単語スコアよりも高くなるように前記部分文字列の各々の単語スコアを補正し、
前記部分文字列を並べると前記単語候補となるような前記部分文字列の並びのうち、当該並びを構成する各部分文字列の単語スコアを足し合わせた値が最大となる前記部分文字列の並びを単語分割結果として出力する単語分割手段と、
前記単語分割手段が出力した前記単語候補の単語分割結果のうち、前記単語スコアがあらかじめ定めた単語スコアの閾値や文字種や文字列長の条件に合致する前記単語分割結果を単語として抽出する単語選別手段と、
を有する単語抽出装置。 - 前記単語分割手段は、
前記単語候補に含まれる連続した1文字以上の部分文字列について当該部分文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算する処理にて、前記部分文字列の出現頻度が10以下となる部分文字列の残差IDFを0とすることを特徴とする請求項4記載の単語抽出装置。 - 抽出単語に対し、対象文書集合中の重要度と、対象文書集合より以前のある期間の文書集合中の重要度を計算し、以前と比べて重要度の上昇した度合いを単語の話題度として計算する話題度計算手段と、
話題度の高い順に単語を並べた話題語リストを作成する話題度リスト作成手段と、
を有する請求項4または5記載の単語抽出装置。 - コンピュータを請求項4乃至6のいずれか1項記載の単語抽出装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004067681A JP4298550B2 (ja) | 2004-03-10 | 2004-03-10 | 単語抽出方法、装置、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004067681A JP4298550B2 (ja) | 2004-03-10 | 2004-03-10 | 単語抽出方法、装置、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005258678A JP2005258678A (ja) | 2005-09-22 |
JP4298550B2 true JP4298550B2 (ja) | 2009-07-22 |
Family
ID=35084346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004067681A Expired - Lifetime JP4298550B2 (ja) | 2004-03-10 | 2004-03-10 | 単語抽出方法、装置、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4298550B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3785108B2 (ja) | 2002-03-28 | 2006-06-14 | 株式会社東芝 | 通信方法、通信装置、基地局装置及び端末装置 |
JP5115239B2 (ja) * | 2008-03-03 | 2013-01-09 | 富士ゼロックス株式会社 | 文字処理装置 |
EP2450841A4 (en) | 2009-06-29 | 2014-08-27 | Masaaki Tokuyama | PROCESS PROCESSING PROGRAM, INFORMATION PROCESSING DEVICE, AND PROCESS PROCESSING METHOD |
JP5232260B2 (ja) * | 2011-03-11 | 2013-07-10 | 株式会社東芝 | 話題抽出装置及びプログラム |
JP5768492B2 (ja) | 2011-05-18 | 2015-08-26 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP5491446B2 (ja) * | 2011-05-20 | 2014-05-14 | 日本電信電話株式会社 | 話題語獲得装置、方法、及びプログラム |
-
2004
- 2004-03-10 JP JP2004067681A patent/JP4298550B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2005258678A (ja) | 2005-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Schäfer et al. | Web corpus construction | |
US8204891B2 (en) | Method and subsystem for searching media content within a content-search-service system | |
US20110029513A1 (en) | Method for Determining Document Relevance | |
US7469251B2 (en) | Extraction of information from documents | |
US20110119262A1 (en) | Method and System for Grouping Chunks Extracted from A Document, Highlighting the Location of A Document Chunk Within A Document, and Ranking Hyperlinks Within A Document | |
JP5010885B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
US20090030891A1 (en) | Method and apparatus for extraction of textual content from hypertext web documents | |
US7555428B1 (en) | System and method for identifying compounds through iterative analysis | |
US9529847B2 (en) | Information processing apparatus, information processing method, and program for extracting co-occurrence character strings | |
US20070061322A1 (en) | Apparatus, method, and program product for searching expressions | |
JP5427694B2 (ja) | 関連コンテンツ提示装置及びプログラム | |
JP4298550B2 (ja) | 単語抽出方法、装置、およびプログラム | |
JP2009217689A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US8612202B2 (en) | Correlation of linguistic expressions in electronic documents with time information | |
US20080168036A1 (en) | System and Method for Locating and Extracting Tabular Data | |
Aslam et al. | Web-AM: An efficient boilerplate removal algorithm for Web articles | |
JP3937741B2 (ja) | 文書の標準化 | |
JP2004013726A (ja) | キーワード抽出装置および情報検索装置 | |
Al Oudah et al. | Wajeez: an extractive automatic Arabic text summarisation system | |
JP2009265770A (ja) | 重要文提示システム | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Martins et al. | The WebCAT framework automatic generation of meta-data for Web resources | |
JP5128328B2 (ja) | 曖昧性評価装置およびプログラム | |
Barouni-Ebarhimi et al. | A novel approach for frequent phrase mining in web search engine query streams | |
JP5178357B2 (ja) | 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050623 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050628 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20050628 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081008 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090313 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090408 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090415 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4298550 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120424 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130424 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140424 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |