JP2000259657A - 用語定義の検索/収集装置 - Google Patents
用語定義の検索/収集装置Info
- Publication number
- JP2000259657A JP2000259657A JP11063655A JP6365599A JP2000259657A JP 2000259657 A JP2000259657 A JP 2000259657A JP 11063655 A JP11063655 A JP 11063655A JP 6365599 A JP6365599 A JP 6365599A JP 2000259657 A JP2000259657 A JP 2000259657A
- Authority
- JP
- Japan
- Prior art keywords
- term
- definition
- search
- unit
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
ることによって、ユーザからの用語定義検索のニーズに
応えること。 【解決手段】 収集部2bで収集された文書はテキスト
処理部2dで整形され、定義抽出部2eに渡される。定
義抽出部2eは、テキスト中の用語定義に関する部分を
抽出する。定義文判定部2gは、用語定義の一般性の判
定、用語定義がされた文の文脈の収集、分野を推定、用
語定義の種別の推定を行い、この判定結果等は用語デー
タベース2aに格納される。一方、検索要求が検索要求
受付部1aで受け付けられると、検索要求は、検索部1
bに渡され用語データベース2aから用語定義が検索さ
れる。ユーザ要求処理部1dは、ユーザの要求を解釈し
て検索部1bで対応できる適当な検索条件として出力し
たり、あるいは、検索結果に対してユーザが与える条件
にしたがってふるいにかける。
Description
b文書などの文書集合から、用語の定義を収集・格納し
ておき、検索を行なえるようにした用語定義検索/収集
技術に関する。
に対する新しい解釈を調べたいという要求がある。これ
らは通常の国語辞書には載っていないものであり、ま
た、これらの新語や専門用語は辞典などの用語定義集と
しても整備されていない。これらは、オンラインである
新聞、論文、Web文書から検索することができる。し
かし、通常のキーワード検索では、用語が使用されてい
るかどうかの判定に基づくので、その用語が定義されて
いる部分だけではなく、大量の雑音が含まれる。
おいては、新語や専門用語、語句に対する新しい解釈等
を調べるための用語定義集は整備されておらず、また、
これらの用語定義を新聞、論文、Web文書等から検索
するための有効なシステムもなかった。本発明は上記し
た事情を考慮してなされたものであって、その目的とす
るところは、文書から自動的に用語定義部分だけを抽出
することによって、ユーザからの用語定義検索のニーズ
に応えることである。
図である。同図において、1は用語定義検索部、2は用
語定義収集部であり、用語定義検索部1、用語定義収集
部2は以下のものから構成される。2aは用語データベ
ースであり、用語の見出しとその定義部が格納される。
また、必要に応じて、その用語の一般性や定義文脈など
の付加情報も格納される。1aは検索要求受付部であ
り、ユーザから検索したい用語を受け付ける。また、用
語そのものでなく、関連する用語の分野、またこれらの
みならず、必要に応じて提示する用語定義をふるいにか
ける条件も受け付けることができる。1bは検索部であ
り、ユーザが要求した用語あるいは条件にしたがって用
語データベース2aから検索する。1cは検索結果表示
部であり、検索結果をユーザに提示する。
スであり、テキストデータベース2cには、収集部2b
で収集されたCDROM等の文書、ネットワーク上にあ
る文書等の複数の文書が格納される。2dはテキスト処
理部であり、テキストの整形を行なう。2eは定義抽出
部であり、テキスト中の用語定義に関する部分を抽出す
る。2fは格納部であり、抽出された用語定義を用語デ
ータベース2aに格納する。2gは定義文判定部であ
り、定義文判定部2gは、用語定義の一般性を判定し
たり、用語定義が行われた文脈(誰の解釈か、いつ発
言されたものか等)を収集したり、与えられた用語が
使用されている分野を推定したり、あるいは、用語定
義がどのような種別なのかを推定する。上記定義文判定
部2gにおける判定結果、収集情報は用語定義ととも
に、用語データベース2aに格納される。また、1dは
ユーザ要求処理部であり、ユーザ要求処理部1dは、ユ
ーザの要求を単なる用語としてではなく解釈して検索部
で対応できる適当な検索条件として出力したり、あるい
は、上記定義文判定部2gにおける判定結果、収集情報
に基づき、検索結果に対してユーザが与える条件にした
がってふるいにかける機能を備えている。2hはハイパ
ーテキスト処理部であり、Web文書を含むハイパーテ
キストのリンク情報の関係を解析し、用語とその定義文
が分散して存在するものに対処する。
部2eを備え、CD−ROM、Web文書等の複数の文
書から用語定義を抽出して用語データベース2aに格納
しているので、用語辞書として構造化されていない一般
の文章を対象に自動的に用語データベースを構築するこ
とができる。これにより、ユーザに対してユーザニーズ
に応じた用語定義を提示することが可能になる。また、
定義文判定部2gを設け、用語定義の一般性の判定、定
義文脈の収集、分野の推定、用語定義の種別の推定を行
い、これらの情報を用語定義とともに、用語データベー
ス2aに格納することにより、ユーザのニーズに応じて
適切な用語定義を提示することができる。さらに、ユー
ザ要求処理部を設け、ユーザの要求を解釈して、検索部
で対応できる適当な検索条件として出力できるようにす
ることにより、例えば、単純なキーワード検索だけでな
く、各種のユーザニーズに答えることができる。また、
検索結果に対してユーザが与える条件にしたがってふる
いにかけることにより、例えば、一般性の低い用語定義
のみを提示したり、分野を特定して検索する等、一層ユ
ーザニーズに適切に答えることができる。
集処理を行うためのシステムの構成例を示す図である。
同図において、101はCRT、液晶ディスプレイ等の
表示装置、キーボード、マウス等の、文字、記号、命令
等を入力するための入力装置から構成される入力出力装
置、102はCPU、103はROM、RAM等から構
成されるメモリ、104はプログラム、データ等を記憶
する外部記憶装置、105はフロッピィディスクやCD
−ROMなど可搬型記憶媒体にアクセスしてデータの読
み出し/書き込みを行う媒体読取装置、106は電話回
線を使用してデータ通信をするためのモデム、LANな
どのネットワークを使用してデータ通信をするためのネ
ットワークカードなどを含む通信インタフェースであ
る。外部記憶装置104には本発明の用語定義の検索、
用語定義の収集処理を行うプログラム、用語データベー
ス等が格納され、用語定義の収集を行う文書は、CD−
ROM等から上記媒体読取装置105を介して読み取ら
れ、また、上記通信インタフェース106を介してネッ
トワーク上から収集される。
示すブロック図である。本実施例のシステムは大きく分
けて用語定義を収集する用語定義収集部10と、収集さ
れた用語定義を検索する用語定義検索部20から構成さ
れる。用語定義収集部10において、11は用語データ
ベースであり、用語の見出しとその定義部が格納され
る。また、必要に応じてその用語の一般性や定義文脈な
どの付加情報も格納される。12は収集部であり、ネッ
トワーク上にある文書やCD−ROMから文書を自動的
に収集する。収集部12で収集された複数の文書は、テ
キストデータベース13に格納され、また、直接テキス
ト処理部14に渡される。
されたテキスト、あるいは、テキストデータベース13
に格納されているテキストの整形を行なう。また、ハイ
パーテキスト処理部15はWeb文書を含むハイパーテ
キストのリンク情報の関係を解析し、用語とその定義文
が分散して存在するものに対処するものであり、テキス
ト処理部14に格納されたテキストがハイパーテキスト
の場合、リンク情報をたどり、用語とその定義文を関係
付ける。テキスト処理部14で整形されたテキスト、あ
るいは、さらにハイパーテキスト処理部15で用語とそ
の定義文を関係づけられたテキストは、定義文抽出部1
6に渡される。
ト中の用語定義に関する部分を抽出する。定義抽出部1
6で抽出された用語定義は、定義文判定部17におい
て、その用語定義の一般性や定義文脈等が判定され、こ
れらの情報とともに、格納部18により用語データベー
ス11に格納される。定義文判定部17は、用語定義の
一般性を判定する一般性判定部17a、用語定義の文脈
として発言者や時期などの状況を収集する定義文脈収集
部17b、与えられた用語が使用されている分野を推定
する分野判定部17c、用語定義がどのような種別なの
かを推定する定義種別判定部17dを備えており、定義
文判定部17において判定された用語の一般性、分野、
定義種別、発言者や時期などの状況等は、抽出される用
語定義とともに上記格納部19に格納される。
は検索要求受付部であり、ユーザから検索したい用語を
受け付ける。また、用語そのものでなく関連する用語の
分野を受けたり、さらに、必要に応じて提示する用語定
義をふるいにかける条件も受け付けることができる。検
索要求受付部21で受け付けられたユーザ要求は、ユー
ザ要求処理部22に渡される。ユーザ要求処理部22は
要求解釈部22aとふるい部22bを備えており、要求
解釈部22aにより、ユーザの要求を解釈して後述する
検索部23で対応できる適当な検索条件として出力す
る。また、ふるい部22bは検索部23により検索され
た検索結果に対して、ユーザが与える条件にしたがって
ふるいをかけ、検索結果表示部14に出力する。ユーザ
要求がユーザ要求処理部22に渡されると、ユーザ要求
処理部22は、ユーザ要求をそのまま、あるいは、要求
解釈部22aで解釈して、検索部23で対応できる適当
な検索条件として検索部23に渡す。検索部23は、検
索要求受付部21から与えられる用語、あるいは、要求
解釈部22aで解釈された検索条件にしたがって用語の
定義を用語データベース11から検索する。検索結果は
検索結果表示部14を介してユーザに提示される。
ついて具体的に説明する。なお、以下では日本語を用い
て説明するが、日本語であることは本質的なものではな
く英語、中国語のような言語であってもかまわない。
処理部17、ハイパーテキスト処理部15、定義抽出部
16、定義文判定部17について説明する。なお、その
他の用語データベース11、収集部12、テキストデー
タベース13、格納部19等は公知な既存の手段を用い
ることができる。例えば、用語データベース11として
は通常の既存のデータベースを用いることができ、ま
た、格納部19は、上記通常のデータベースへのデータ
の格納と同様な処理を行う。
(例えば、特許CD−ROM・新聞記事CD−ROM、
Web文書HTMLなど)。これらはテキスト処理部1
7によって、不要な情報が捨てられ整形される。テキス
トの整形としては、個別の情報源に対しての処理が従来
から行なわれており、例えば、テキストの言語を判定し
たり、テキストから不要部分を削除したり、あるいは、
文、段落の切り出し、HTML文書からタグをとる等の
処理が含まれる。以下では1文単位に整形されたとして
説明する(単位は文に限らず段落や記事などもあり得
る)。 (b)ハイパーテキスト処理部 ハイパーテキスト処理部15は与えられた用語定義の部
分片とリンク情報から、用語定義の残りの情報が別の場
所に存在することを解析し、ハイパーテキストの処理を
行なうことにより用語定義文を抽出する。
図である。以下、図4に示したフローについて説明す
る。まず、1文を読み込み(ステップS1)、ファイル
の終了なら処理を終了する(ステップS2)。ついで、
ステップS3において、読み込んだ文が非定義文パター
ンにマッチするかを調べる。文が非定義パターンにマッ
チしたならば、ステップS1に戻り次の文を読み込む。
また、文が非定義パターンにマッチしない場合にはステ
ップS4にいく。ここで、非定義パターンとしては例え
ば以下の(1-A) 〜(1-f) のように記述できる。なお、以
下は正規表現による記述であり、「.」任意の文字、
「*」は0個以上の連続、「?」はオプショ
ン、「()」は単なるくくりを表し、以下の「(、)
?」は「、」がオプションであることを表す。また
「|」は「または」を示す。
とは|関心ごとは|ことは|あとは|とはっきり).* (1-B) .*とは(、)?(いえ|言|思|考|異|信じが
た).* (1-C) .*とは(、)?(何).* (1-D) .*とは(、)?(限|裏腹|いっ|知ら).* (1-E) .*とは(、)?(私のこと|いかず|性格を異に
|なんと).* (1-f) .*とは(、)?(いかに|とても)?(恐ろしい
もの).*
えば「〜もともとは〜」や「〜とは信じがたい」、「〜
とはとても恐ろしいもの」というような表現を非定義パ
ターンとして定義しており、読み込んだ文がこのパター
ンにマッチした場合には、定義文でないとして排除す
る。文が非定義パターンにマッチしない場合にはステッ
プS4において読み込んだ文が定義文パターンにマッチ
するかを調べる。そして、読み込んだ文が定義パターン
にマッチしなかったら次の文を読み込み、また、読み込
んだ文が定義文にマッチしたら、ステップS5にいき、
被定義語と定義部を定義文として抽出する。
の(2-A) 〜(2-D) のように記述できる。 (2-A) <被定義語>とは(、)?<定義部>である.* (2-B) <被定義語>とは(、)?<定義部>にほかなら
ない.* (2-C) <被定義語>とは(、)?<定義部>を意味す
る.* (2-D) <被定義語>とは(、)?<定義部>の略であ
る.* ここで<>は抽出項目であり、被定義語と定義部が抽出
される。例えば、「優先株とは株主総会での議決権がな
いかわりに普通株より高配当が期待できるものであ
る。」は、このパターン(2-A) にマッチする。したがっ
て、この例の場合には、図4のステップS5において、
被定義語として「優先株」が、定義部として「株主総会
での議決権がないかわりに普通株より高配当が期待でき
るもの」が抽出される。
a、定義文脈判定部17b、分野判定部17c、定義種
別判定部17dを備え、定義抽出部16で抽出された被
定義語、定義部についての一般性の判定、定義文脈の判
定、分野の判定、定義種別の判定を行う。これらの情報
は、被定義語、定義部とともに用語データベース11に
格納され、ユーザが用語定義を検索する際に利用され
る。
の一般性を判定する。一般性の判定は、図5に示すよう
に、規則種類解析、被定義語解析、定義部解析、文脈解
析を行ない(順序は任意)、それぞれの解析結果に対し
て点数を集計することによって行われる。ここで規則種
類解析は、どの定義抽出にどの規則が使われたかを調べ
るものであり、前記した定義パターン例(2-A) 〜(2-D)
のどのパターンが使われたかにより一般性を判定する。
例えば、前記例において、「〜の略である」という定義
パターンが使われた場合には、一般性が高いと判定する
ことができる。被定義語解析は、抽出された被定義語が
どのようなものかを解析するものであり、例えば、被定
義語が所定字数以上のカタカナで構成される場合は、専
門用語の可能性が高いので、抽出された用語定義は一般
性が高いと判定することができる。
なものかを解析するものであり、例えば、定義部解析に
おいて、「.*の略称」にマッチしたならば、一般性が高
いというような規則を付与することができる。具体的に
は、例えば、「教養審」とは「「教育職員養成審議会」
の略称である」とあれば、これは一般性が高いと判定す
ることができる。同様に定義部が、「〜の頭文字」、
「・・・・〜のこと」である場合等にも、一般性が高い
と判定することができる。
を解析するものである。解析には、文字数、特定のパタ
ーンとの照合、形態素解析、構文解析、意味解析、統計
解析など通常のテキスト処理に行なわれるものが利用さ
れる。例えば、文脈解析により、「<発言者>のいう<
定義文>.」のような規則にマッチしたときに一般性の
点数を低くするような点数づけを与えることで、これが
一般の定義ではなく特定の人の解釈であることが示され
る。また、例えば、「厚生省のいう「安全」とは、未知
だらけの分野での、「未知」をまったく無視した信用で
きないものである」とあれば、「安全」の定義として、
「未知だらけの分野での、「未知」をまったく無視した
信用できないもの」というのは一般性の低い「安全」に
対する定義であることが設定される。また、統計解析に
より、文章中に定義文の現れる頻度が多いと判定された
場合には、これは定義文でないと判定することもでき
る。
義文が出現する文脈を解析し、文脈に係わる情報を収集
する。これは例えば、パターンマッチング規則によって
解析することができる。例えば、以下のような規則であ
る。 <発言者>のいう<定義文>. この<被定義語>とは<発言者>によれば<定義部>の
ことである。これによれば、例えば、「この御山婦美と
は寺田寅彦によれば「山見分けの役人」のこと」からは
発言者が寺田寅彦という情報が収集される。以上のよ
うに、定義文脈収集部17bにおいては、「発言者がだ
れか」、「何時いったことか」、「どこから引用したこ
とか」等の情報が収集される。
た用語定義の分野を判定する。例えば、その用語定義が
行なわれている文書中のすべての単語を取り出し、あら
かじめ設定した分野における単語の出現分布のベクトル
と比較することで分野を推定することができる(分野判
定については参考文献として、例えば、長尾真編、岩波
書店発行、岩波講座、ソフトウェア科学15「自然言語
処理」P.434 〜438 を参照されたい)。
られた用語定義の種別を判定する。例えば、地名とその
場所、名称と旧名称、正規名称と略称、発言と発言者の
関係などである。これらは、例えば、定義文中にある
「〜の名言」、「〜の略称」のような表現パターンで判
定する。
処理部22における要求解釈処理部22a、ふるい部2
2bについて説明する。なお、その他の構成である検索
要求部21、検索部23、検索結果表示部等は、公知な
既存の手段を用いることができる。例えば、検索要求部
21は、通常のデータベース検索のユーザインタフェー
スを用いることができ、検索部23は、通常のデータベ
ース検索と同様の手段を用いることができ、さらに、検
索結果表示部も、通常の検索結果の表示手段と同様のも
のを用いることができる。
連の用語」というような要求に対して、検索部の処理に
応じた検索要求に変換するものである。例えば、検索部
が単純なキーワード検索だけでなく、上位下位関係の判
定を∈という演算子でできるとするならば、「∀x|x
∈コンピュータ」というような検索部が判定できる条件
式に変換する。
て、検索結果を提示するかどうかを決定する。例えば、
ユーザが検索結果の用語定義一般性の値を0.5以下の
ものに指定すると、ふるい部22bは用語データベース
11から検索された用語定義の内、前記定義文判定部1
7の一般性判定部17aにおいて付与された一般性を表
す点数が0.5以下のものだけを提示するというような
処理を行なう。同様に、ユーザが分野を指定すると用語
データベース11から検索された用語定義の内、ユーザ
が指定した分野のもののみを提示するというような処理
を行う。
は、定義抽出部を設け、大量にある一般文書から用語の
定義に関する部分だけを抽出し、用語データベースに格
納しておくようにしたので、ユーザの用語定義検索要求
に対して不必要な雑音(用語定義以外の検索の防止)を
防ぐことができ、新語や専門用語、語句に対する新しい
解釈等を容易に調べることが可能となる。また、用語定
義の一般性の判定、定義文脈の収集、分野の推定、用語
定義の種別の推定を行い、これらの情報を用語定義とと
もに、用語データベースに格納することにより、ユーザ
のニーズに応じた適切な用語定義を提示することができ
る。さらに、ユーザの要求を解釈して、検索部で対応で
きる適当な検索条件として出力できるようにすることに
より、例えば、単純なキーワード検索だけでなく、各種
のユーザニーズに応えることができる。また、検索結果
に対してユーザが与える条件にしたがってふるいにかけ
ることにより、例えば、一般性の低い用語定義のみを提
示したり、分野を特定して検索する等、一層ユーザニー
ズに適切に応えることができる。
システムの構成例を示す図である。
ク図である。
す図である。
Claims (6)
- 【請求項1】 各種の用語と、その用語の定義を格納す
る用語データベースと、 ユーザからの用語の検索要求を受け付け、用語データベ
ースからその用語の定義を検索し、検索結果をユーザに
提示する用語定義検索部と、 テキスト集合から、あるいは、ネットワークから直接獲
得されたテキストの中から用語の意義を定義している部
分を自動的に抽出し、抽出した用語定義を上記用語デー
タベースに格納する用語定義収集部とを備えたことを特
徴とする用語定義検索/収集装置。 - 【請求項2】 各種の用語と、その用語の定義を格納す
る用語データベースと、 ユーザからの用語の検索要求を受け付ける検索要求受付
部と、 検索要求受付部において受け付けた要求語に対して、用
語データベースからその用語の定義を検索する検索部
と、 検索部での検索結果をユーザに表示ないしは印刷、他の
媒体への格納を行なう検索結果表示部とを有する用語定
義を検索する用語検索装置において、 テキスト集合が格納されているテキストデータベースか
ら、あるいは、ネットワークから収集部を通じて直接獲
得されたテキストに対して、テキストの整形を行なうテ
キスト処理部と、テキストの中から用語の意義を定義し
ている部分を自動的に抽出する定義抽出部と、抽出した
用語定義を用語データベースに格納する格納部とを設け
たことを特徴とする用語定義検索/収集装置。 - 【請求項3】 定義文判定部を設け、該定義文判定部に
おいて、抽出した用語定義の一般性の判定、用語定義の
文脈の収集、用語が使用される分野の判定、および/ま
たは、用語定義の種別を判定を行い、これら判定結果、
収集データを用語定義とともに用語データベースに格納
することを特徴とする請求項2の用語定義検索/収集装
置。 - 【請求項4】 ユーザ要求処理部を設け、該ユーザ処理
部において、ユーザの興味の対象としての要求を具体的
な検索要求に変換して用語検索を行い、また、ユーザが
指定した条件に合致する検索結果のみをユーザに提示す
るようにしたことを特徴とする請求項2または請求項3
の用語定義検索/収集装置。 - 【請求項5】 ハイパーテキストのリンクの処理をする
ハイパーテキスト処理部を設け、該ハイパーテキスト処
理部により、分散して存在する被定義用語と定義文の関
係を取り出して、被定義用語と定義文を関連付けて、用
語データベースに格納することを特徴とする請求項2,
3または請求項4の用語定義検索/収集装置。 - 【請求項6】 コンピュータによって、各種の用語と、
その用語の定義を収集し、収集された用語定義を検索す
る処理を実行するためのプログラムを記録した記録媒体
であって、 上記プログラムは、ユーザからの用語の検索要求を受け
付け、用語データベースからその用語の定義を検索し、
検索結果をユーザに提示し、 また、テキスト集合から、あるいは、ネットワークから
直接獲得されたテキストの中から用語の意義を定義して
いる部分を自動的に抽出し、抽出した用語定義を上記用
語データベースに格納する用語定義収集処理を行うこと
を特徴とする用語定義検索・収集プログラムを記録した
記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11063655A JP2000259657A (ja) | 1999-03-10 | 1999-03-10 | 用語定義の検索/収集装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11063655A JP2000259657A (ja) | 1999-03-10 | 1999-03-10 | 用語定義の検索/収集装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000259657A true JP2000259657A (ja) | 2000-09-22 |
Family
ID=13235590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11063655A Pending JP2000259657A (ja) | 1999-03-10 | 1999-03-10 | 用語定義の検索/収集装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000259657A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006073012A (ja) * | 2004-09-02 | 2006-03-16 | Microsoft Corp | 予め定められた個数の予め定義された質問に応答することによって情報を管理するシステムおよび方法 |
JP2009503739A (ja) * | 2005-08-01 | 2009-01-29 | マイクロソフト コーポレーション | 定義の抽出 |
JP2011096149A (ja) * | 2009-10-30 | 2011-05-12 | Fujitsu Ltd | 特許文書中の単語または単語の組み合わせの例示装置、プログラム、及び方法 |
JP2011096148A (ja) * | 2009-10-30 | 2011-05-12 | Fujitsu Ltd | 特許文書中の単語または単語の組み合わせの例示装置、プログラム、及び方法 |
-
1999
- 1999-03-10 JP JP11063655A patent/JP2000259657A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006073012A (ja) * | 2004-09-02 | 2006-03-16 | Microsoft Corp | 予め定められた個数の予め定義された質問に応答することによって情報を管理するシステムおよび方法 |
JP2009503739A (ja) * | 2005-08-01 | 2009-01-29 | マイクロソフト コーポレーション | 定義の抽出 |
JP2011096149A (ja) * | 2009-10-30 | 2011-05-12 | Fujitsu Ltd | 特許文書中の単語または単語の組み合わせの例示装置、プログラム、及び方法 |
JP2011096148A (ja) * | 2009-10-30 | 2011-05-12 | Fujitsu Ltd | 特許文書中の単語または単語の組み合わせの例示装置、プログラム、及び方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Carreras et al. | Introduction to the CoNLL-2005 shared task: Semantic role labeling | |
JP5106636B2 (ja) | テキストセグメントを有する文書から用語を抽出するためのシステム | |
Mitkov | Outstanding issues in anaphora resolution | |
KR100420096B1 (ko) | 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법 | |
CN102214189B (zh) | 基于数据挖掘获取词用法知识的系统及方法 | |
CN110727796A (zh) | 面向分级读物的多尺度难度向量分类方法 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
Kanan et al. | Extracting named entities using named entity recognizer for arabic news articles | |
CN108536673B (zh) | 新闻事件抽取方法及装置 | |
CN113742469A (zh) | 基于Pipeline处理和ES储存问答系统构建方法 | |
Eichler et al. | Unsupervised Relation Extraction From Web Documents. | |
JP3847273B2 (ja) | 単語分類装置、単語分類方法及び単語分類プログラム | |
Uhrig et al. | Collocation candidate extraction from dependency-annotated corpora: exploring differences across parsers and dependency annotation schemes | |
JP3899414B2 (ja) | 教師データ作成装置およびプログラム、ならびに言語解析処理装置およびプログラム | |
JP3198932B2 (ja) | 文書検索装置 | |
Xu et al. | Using SVM to extract acronyms from text | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 | |
JP2011039576A (ja) | 特定情報検出装置、特定情報検出方法および特定情報検出プログラム | |
JP2000259657A (ja) | 用語定義の検索/収集装置 | |
Hellwig | Morphological disambiguation of classical Sanskrit | |
Ahmed et al. | Gold dataset for the evaluation of bangla stemmer | |
JP2004164079A (ja) | データ分析装置及び方法、並びにプログラム | |
CN113868431A (zh) | 面向金融知识图谱的关系抽取方法、装置及存储介质 | |
JPH11259524A (ja) | 情報検索システム、情報検索システムにおける情報処理方法および記録媒体 | |
JP7117168B2 (ja) | 情報処理装置および情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040324 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070508 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070705 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070731 |