JP2009223463A - 同義性判定装置、その方法、プログラム及び記録媒体 - Google Patents
同義性判定装置、その方法、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP2009223463A JP2009223463A JP2008065256A JP2008065256A JP2009223463A JP 2009223463 A JP2009223463 A JP 2009223463A JP 2008065256 A JP2008065256 A JP 2008065256A JP 2008065256 A JP2008065256 A JP 2008065256A JP 2009223463 A JP2009223463 A JP 2009223463A
- Authority
- JP
- Japan
- Prior art keywords
- synonym
- complement
- reading
- notation
- syllable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】同義語侯補ペア生成部1により、入力されたテキストを解析処理し、その解析結果に基づいて前記テキストから同義語侯補表現を抽出するとともに対応する解析結果を付与し、逆変換ルール3並びに音節正規化ルール4を用いて前記同義語侯補表現の表記及び読みの正規化を行った後、同義語侯補表現同士を組み合わせて一対の同義語侯補表現よりなる同義語侯補ペアを生成し、同義性判定部2により、音節類似度テーブル5及び省略判定モデル6を用いて前記同義語侯補ペア中の同義語侯補表現同士が同義か否かを判定し、同義であれば当該同義語侯補ペアを同義語ペアとして出力する。
【選択図】図1
Description
酒井浩之、増山繁「コーパスからの名詞と略語の対応関係の自動獲得」言語処理学会第9回年次大会発表論文集、2003年、pp.226〜229 村山紀文、奥山学「Noisy−channel modelを用いた略語自動推定」言語処理学会第12回年次大会発表論文集、2006年、pp.763〜766 関恒仁、嶋田和孝、遠藤勉「表の構造を利用した類義語抽出」言語処理学会第11回年次大会発表論文集、2005年、C1−6
図2は同義語侯補生成部1の詳細を示すもので、解析処理部11、正規化処理部12及びペア生成部13からなる。同義語侯補生成部1では、1テキストを入力として、解析処理部11で形態素解析及び固有表現抽出等のテキスト解析処理を行い、その結果をもとに同義語侯補表現の切り出しを行う。そして正規化処理部12で同義語侯補表現の正規化を行った後、ペア生成部13で同義語侯補ペアを生成する。本実施の形態においては、同義侯補表現として固有表現を対象とした場合を例に採って説明する。
図6は同義性判定部2の詳細を示すもので、表記類似判定部21、読み類似判定部22及び省略判定部23からなる。図7は同義性判定部2での処理の流れを示すものである。
<省略前後の同義語侯補表現>
・省略前:形態素数,文字数,品詞,固有表現クラス,文字種
・省略後:形態素数,文字数,品詞,固有表現クラス,文字種
<形態素単位の素性>
・形態素が丸ごと省略された場合:品詞,表記,文字数,文字種,位置情報(先頭か末尾か真中か),先頭の形態素が残っているか
・形態素が丸ごと残った場合:品詞,表記,文字数,文字種,位置情報(先頭か末尾か真中か),末尾の形態素を省略したか
<文字単位の素性>
・文字単位で省略された場合:品詞,表記,文字種,位置情報(先頭か末尾か真中か),表記内で先頭の文字を省略したか
・文字単位で残った場合:品詞,表記,文字種,位置情報(先頭か末尾か真中か),形態素内で先頭の文字が残っているか
を用いる。しかし、ここに挙げた以外にも、形態素解析情報、文脈情報などを利用しても良い。この時、用いる品詞や表記などの情報は解析処理結果テーブル7の情報を利用する。
図11は逆変換ルール3の一例を示すもので、名詞を利用する際に一般的に挿入されると思われる接頭辞や接尾辞等の接辞形を削除するルール、愛称を作成する際に利用される繰り返し表現を削除するルール等をヒューリスティックに記述したものである。一組の同義語候補ペアに対して適用可能なルールは全て適用する。本ルールは、同義語侯補表現における、より一般的な表記に対して挿入されると思われる定型的な文字列を当該表記から削除し、当該文字列の削除に併せて読みを訂正するルールであるため、省略語を作成するためのルールとは異なる(本発明においては、省略語は逆変換ルールを用いて判定せず、省略判定部において分類器を用いて判定する。)。よってルールは正規表現などを用いて簡単に書き表すことができ、多くの同義語に共通して挿入されるような文字列を削除するルールとする。なお、図11での正規表現はPerlで書くことを例に説明を行っている。よって、他の表現を用いる場合には、その手法に準じる。
図12は音節正規化ルール4の一例を示すもので、和語と外来語とで異なる読みの長さの単位(モーラと音節)、口語表現、音訳時のゆれ等を正規化するために、同義語侯補表現の読みの母音連続や長音、促音に適用するルール等からなる。ルールの適応順序はルール番号順とし、適用可能なルールは全て適用する。
モーラ数で数えると3モーラであるが、音節数で数えると3音節,2音節となる。
音節数で数えれば3つとも4音節であるが、モーラ数で数えると4モーラ,5モーラ,6モーラとなる。
音節数で数えると7音節,6音節、モーラ数で数えても7モーラ,6モーラとなる。
図13(a)は音節類似度テーブルの作成手順、同図(b)は音節類似度テーブルの一例を示すもので、音節類似度テーブル5は、キー:表記は異なるが読みが類似する音節ペア、値:距離(類似度)、により構成される。このテーブル5は図13(a)に示すように、形態素解析辞書から標準表記が同じで発音(読み)が異なる単語を収集し、読み正規化処理部12と同様に音節正規化ルール4を適用して読みの長さの単位を音節に統一し、音節数が等しい場合に位置合わせを行う。そして音節位置が同じで読みが異なる音節ペアを抜き出してカウントし、音節ペアの出現数を、音節ペアを構成する音節それぞれの出現回数の和で割った値を音節間の距離(類似度)とすることで作成する。
省略判定モデル6は2つの単語が省略語関係にあるか否かを判定するためのモデルで、判定を行いたい同義語侯補ペア中の各同義語侯補表現の表記及び読み、形態素解析情報、位置合わせ情報等を入力とし、同義か否かを2値判定する識別関数からなる。識別関数としては、例えばV.Vapnik,“The nature of statistical learning theory”,Springer,1995で述べられているSupport Vector Machine(SVM)の識別関数を用い、識別関数のパラメータは予め省略判定部23で述べた素性からなる学習データをSVMで学習して決定しておく。ここでは学習アルゴリズムとしてSVMを挙げたが、決定木、最大エントロピー法等のほかの学習アルゴリズムを利用しても良い。
[同義語侯補生成部1]
解析処理部11への入力テキストが図14に示すようなものであった場合、「アップル社」,「eva」などの同義語侯補表現が抽出される。入力テキスト中では「アップル社」という表現が2度出現しているが、解析処理結果テーブル7には1度だけ書き出す。1テキスト全ての解析を終えた状態が図15に示すようになったものとして、以下説明を行う。
・レコードID1:アップル社(→表記:アップル,表記+読み:アップル)
・レコードID10:ショコタン(→表記:ショコ,表記+読み:ショコ)
・レコードID12:ヨン様(→表記:ヨン,表記+読み:ヨン)
・レコードID14:ミキティ(→表記:ミキ,表記+読み:ミキ)
の4つである。
・レコードID1:アップル社(→読み:アプルシャ,表記+読み:アプル)
・レコードID2:ショウコ(→読み:ショコ,表記+読み:ショコ)
・レコードID4:八景島シーパラダイス(→読み:ハケイジマシパラダイス,表記+読み:ハケイジマシパラダイス)
・レコードID8:アップル(→読み:アプル,表記+読み:アプル)
・レコードID11:シーパラ(→読み:シパラ,表記+読み:シパラ)
の5つである。
同義性判定部2への入力は、図5に示す同義語侯補ペアリスト8及び図3に示す解析処理結果テーブル7である。以下、図5のリスト8のレコードごとに表記類似判定部21から省略判定部23までの処理を繰り返し、どこかの過程で同義と判定された時点でその同義語侯補ペアを同義であると認定し、次の同義語侯補ペアの処理へと移行する。最後まで同義と判定されなかったペアは同義語であると認定しない。全てのレコードの処理が終了した時点で、同義語と認定された同義語侯補ペアを同義語ペアリストとして出力する。
[表記類似判定部21]
(ステップs21−1)同義語候補ペアリスト8の侯補ID1,ID8から解析処理結果テーブル7を参照すると、表記正規化カラムの表記同士は「アップル」,「アップル」となっており、全く同じなためステップs21−2へ進む。
[表記類似判定部21]
(ステップs21−1)同義語侯補ペアリスト8の侯補ID2,ID9から解析処理結果テーブル7を参照すると、表記正規化カラムの表記同士は「EVA」,「エヴァ」で異なるため表記類似判定部21の処理を終了し、読み類似判定部22へと進む。
同義語侯補ペアリスト8の侯補ID2,ID9から解析処理結果テーブル7を参照して
・解析結果カラムの読み:「エバ」,「エヴァ」
・読み正規化カラムの読み:「エバ」,「エヴァ」
・表記+読み正規化カラムの読み:「エバ」,「エヴァ」
を求め、繰り返し処理を行う。
[表記類似判定部21]
(ステップs21−1)同義語候補ペアリスト8の侯補ID3,ID10から解析処理結果テーブル7を参照すると、表記正規化カラムの表記同士は「翔子」,「ショコ」で異なるため表記類似判定部21の処理を終了し、読み類似判定部22へと進む。
同義語候補ペアリスト8の侯補ID3,ID10から解析処理結果テーブル7を参照して
・解析結果カラムの読み:「ショウコ」,「ショコタン」
・読み正規化カラムの読み:「ショコ」,「ショコタン」
・表記+読み正規化カラムの読み:「ショコ」,「ショコ」
を求め、繰り返し処理を行う。
[表記類似判定部21]
(ステップs21−1)同義語侯補ペアリスト8の侯補ID4,ID11から解析処理結果テーブル7を参照すると、表記正規化カラムの表記同士は「八景島シーパラダイス」,「シーパラ」で表記が異なるため表記類似判定部21の処理を終了し、読み類似判定部へと進む22。
同義語侯補ペアリスト8の侯補ID4,ID11から解析処理結果テーブル7を参照して
・解析結果カラムの読み:「ハッケイジマシーパラダイス」,「シーパラ」
・読み正規化カラムの読み:「ハケイジマシパラダイス」,「シパラ」
・表記+読み正規化カラムの読み:「ハケイジマシパラダイス」,「シパラ」
を求め、繰り返し処理を行う。
同義語候補ペアリスト8の侯補ID3,ID10から解析処理結果テーブル7を参照して
・解析結果カラムの表記同士:「八景島シーパラダイス」,「シーパラ」
・表記正規化カラムの表記同士:「八景島シーパラダイス」,「シーパラ」
・読み正規化後カラムの読み同士:「ハケイジマシパラダイス」,「シパラ」
・表記+読み正規化カラムの読み同士:「ハケイジマシパラダイス」,「シパラ」
を求める。
[表記類似判定部21]
(ステップs21−1)同義語候補ペアリスト8の侯補ID7,ID14から解析処理結果テーブル7を参照すると、表記正規化カラムの表記同士は「安藤美姫」,「ミキ」で表記同士が異なるため表記類似判定部21の処理を終了し、読み類似判定部22へと進む。
同義語候補ペアリスト8の侯補ID7,ID14から解析処理結果テーブル7を参照して
・解析結果カラムの読み:「アンドウミキ」,「ミキティ」
・読み正規化カラムの読み:「アンドウミキ」,「ミキティ」
・表記+読み正規化カラムの読み:「アンドウミキ」,「ミキ」
を求め、繰り返し処理を行う。
同義語候補ペアリスト8の侯補ID7,ID14から解析処理結果テーブル7を参照して
・解析結果カラムの表記同士:「安藤美姫」,「ミキティ」
・表記正規化カラムの表記同士:「安藤美姫」,「ミキ」
・読み正規化後カラムの読み同士:「アンドウミキ」,「ミキティ」
・表記+読み正規化カラムの読み同士:「アンドウミキ」,「ミキ」
を求める。
逆変換ルール3については、本実施例では図11に挙げた接頭辞の削除、接尾辞の削除、読み仮名の削除、繰り返し表現の削除、省略記号の削除の4つについて説明する。
「ユ」と「ウ」で同じ母音が連続するためルール1が適用され、母音連続部分が長音化して「ユーコ」となる。次にルール1により長音となった部分に対してルール5が適用され「ユコ」となる。
母音「ウ」と別種の母音の拗音「ィ」が連続するためルール2が適用され、「ウインブルドン」となる。
母音「イ」と別種の母音の拗音「ェ」が連続するためルール2が適用され、「イエルサレム」となる。さらに、ルール2に当てはまった母音と母音の拗音がルール3の条件と一致するため、母音「イ」が削除され、「エルサレム」となる。
母音「ウ」と別種の母音の拗音「ィ」が連続するためルール2が適用され、「スウイング」となる。さらに、ルール2を適用した結果、母音が「ウウイ」と連続することになり、ルール4の条件に当てはまるため、連続する同種の母音「ウ」を1つ削除して「スイング」となる。
Claims (10)
- テキストから同義語候補としての文字列表現である同義語侯補表現を抽出して同義語侯補ペアを生成し、当該同義語侯補ペア中の同義語侯補表現同士が同義か否かを判定する同義性判定装置であって、
同義語侯補表現の表記を正規化するための逆変換ルールを記憶する逆変換ルール記憶部と、
同義語侯補表現の読みを正規化するための音節正規化ルールを記憶する音節正規化ルール記憶部と、
同義語侯補ペア中の同義語侯補表現同士の読みの類似度を求めるための音節類似度テーブルを記憶する音節類似度テーブル記憶部と、
同義語侯補ペア中の同義語侯補表現同士が省略語関係にあるか否かを判定するための省略判定モデルを記憶する省略判定モデル記憶部と、
入力されたテキストを解析処理し、その解析結果に基づいて前記テキストから同義語侯補表現を抽出するとともに対応する解析結果を付与し、逆変換ルール記憶部に記憶された逆変換ルール並びに音節正規化ルール記憶部に記憶された音節正規化ルールを用いて前記同義語侯補表現の表記及び読みの正規化を行った後、同義語侯補表現同士を組み合わせて一対の同義語侯補表現よりなる同義語侯補ペアを生成する同義語侯補ペア生成手段と、
音節類似度テーブル記憶部に記憶された音節類似度テーブル及び省略判定モデル記憶部に記憶された省略判定モデルを用いて前記同義語侯補ペア中の同義語侯補表現同士が同義か否かを判定し、同義であれば当該同義語侯補ペアを同義語ペアとして出力する同義性判定手段と、を備えた
ことを特徴とする同義性判定装置。 - 請求項1記載の同義性判定装置において、
名詞を利用する際に一般的に挿入される接辞形を削除するルール、愛称を作成する際に利用される繰り返し表現を削除するルールを少なくとも含む、表記を正規化し、当該表記の正規化に併せて読みを正規化する逆変換ルールを用い、
同義語侯補ペア生成手段は、同義語侯補表現の解析結果中の表記に前記逆変換ルールを適用して少なくとも接辞形と繰り返し表現を削除し、当該削除に併せて読みを訂正する正規化処理を行う
ことを特徴とする同義性判定装置。 - 請求項1記載の同義性判定装置において、
読みの母音連続や長音、促音に対して適用することで和語と外来語とで異なる読みの長さの単位、口語表現、音訳時のゆれを少なくとも正規化する音節正規化ルールを用い、
同義語侯補ペア生成手段は、同義語侯補表現の解析結果中の読み及び逆変換ルールによって正規化された表記の読みの母音連続や長音、促音に前記音節正規化ルールを適用して正規化する正規化処理を行う
ことを特徴とする同義性判定装置。 - 請求項1記載の同義性判定装置において、
「表記は異なるが読みが類似する音節ペア」をキーとし、「距離」を値とした、同義語侯補ペア中の同義語侯補表現同士の読みの類似度を求めるための音節類似度テーブルを用い、
同義語判定手段は、同義語候補ペア中の各同義語侯補表現の読みの、音節数が等しく且つ音節位置が同じで読みが異なる音節間の距離の総和を前記音節類似度テーブルを用いて求め、当該距離の総和が予め設定した閾値より小さければ同義と判定する
ことを特徴とする同義性判定装置。 - テキストから同義語候補としての文字列表現である同義語侯補表現を抽出して同義語侯補ペアを生成し、当該同義語侯補ペア中の同義語侯補表現同士が同義か否かを判定する同義性判定方法であって、
同義語侯補表現の表記を正規化するための逆変換ルールを記憶する逆変換ルール記憶部と、
同義語侯補表現の読みを正規化するための音節正規化ルールを記憶する音節正規化ルール記憶部と、
同義語侯補ペア中の同義語侯補表現同士の読みの類似度を求めるための音節類似度テーブルを記憶する音節類似度テーブル記憶部と、
同義語侯補ペア中の同義語侯補表現同士が省略語関係にあるか否かを判定するための省略判定モデルを記憶する省略判定モデル記憶部とを用い、
同義語侯補ペア生成手段が、入力されたテキストを解析処理し、その解析結果に基づいて前記テキストから同義語侯補表現を抽出するとともに対応する解析結果を付与し、逆変換ルール記憶部に記憶された逆変換ルール並びに音節正規化ルール記憶部に記憶された音節正規化ルールを用いて前記同義語侯補表現の表記及び読みの正規化を行った後、同義語侯補表現同士を組み合わせて一対の同義語侯補表現よりなる同義語侯補ペアを生成する工程と、
同義性判定手段が、音節類似度テーブル記憶部に記憶された音節類似度テーブル及び省略判定モデル記憶部に記憶された省略判定モデルを用いて前記同義語侯補ペア中の同義語侯補表現同士が同義か否かを判定し、同義であれば当該同義語侯補ペアを同義語ペアとして出力する工程とを含む
ことを特徴とする同義性判定方法。 - 請求項5記載の同義性判定方法において、
名詞を利用する際に一般的に挿入される接辞形を削除するルール、愛称を作成する際に利用される繰り返し表現を削除するルールを少なくとも含む、表記を正規化し、当該表記の正規化に併せて読みを正規化する逆変換ルールを用い、
同義語侯補ペア生成工程は、
同義語侯補表現の解析結果中の表記に前記逆変換ルールを適用して少なくとも接辞形と繰り返し表現を削除し、当該削除に併せて読みを訂正する正規化処理を行う工程を含む
ことを特徴とする同義性判定方法。 - 請求項5記載の同義性判定方法において、
読みの母音連続や長音、促音に対して適用することで和語と外来語とで異なる読みの長さの単位、口語表現、音訳時のゆれを少なくとも正規化する音節正規化ルールを用い、
同義語侯補ペア生成工程は、
同義語侯補表現の解析結果中の読み及び逆変換ルールによって正規化された表記の読みの母音連続や長音、促音に前記音節正規化ルールを適用して正規化する正規化処理を行う工程を含む
ことを特徴とする同義性判定方法。 - 請求項5記載の同義性判定方法において、
「表記は異なるが読みが類似する音節ペア」をキーとし、「距離」を値とした、同義語侯補ペア中の同義語侯補表現同士の読みの類似度を求めるための音節類似度テーブルを用い、
同義語判定工程は、
同義語候補ペア中の各同義語侯補表現の読みの、音節位置が同じで読みが異なる音節間の距離の総和を前記音節類似度テーブルを用いて求め、当該距離の総和が予め設定した閾値より小さければ同義と判定する工程を含む
ことを特徴とする同義性判定方法。 - コンピュータを、請求項1乃至4のいずれかに記載の同義性判定装置の各手段として機能させるためのプログラム。
- 請求項9に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008065256A JP5094486B2 (ja) | 2008-03-14 | 2008-03-14 | 同義性判定装置、その方法、プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008065256A JP5094486B2 (ja) | 2008-03-14 | 2008-03-14 | 同義性判定装置、その方法、プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009223463A true JP2009223463A (ja) | 2009-10-01 |
JP5094486B2 JP5094486B2 (ja) | 2012-12-12 |
Family
ID=41240199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008065256A Expired - Fee Related JP5094486B2 (ja) | 2008-03-14 | 2008-03-14 | 同義性判定装置、その方法、プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5094486B2 (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011107751A (ja) * | 2009-11-12 | 2011-06-02 | Aisin Aw Co Ltd | 地点検索装置及びプログラム |
JP2011180862A (ja) * | 2010-03-02 | 2011-09-15 | Nippon Telegr & Teleph Corp <Ntt> | 用語抽出方法とその装置と、プログラム |
JP2012108795A (ja) * | 2010-11-18 | 2012-06-07 | Ntt Docomo Inc | 同義語判定装置、同義語判定方法およびプログラム |
JP2013016011A (ja) * | 2011-07-04 | 2013-01-24 | Nippon Telegr & Teleph Corp <Ntt> | 同義語辞書生成装置、その方法、及びプログラム |
JP2014006620A (ja) * | 2012-06-22 | 2014-01-16 | Yahoo Japan Corp | 同義語推定装置、同義語推定方法および同義語推定プログラム |
JP2014006621A (ja) * | 2012-06-22 | 2014-01-16 | Yahoo Japan Corp | 同義語推定装置、同義語推定方法および同義語推定プログラム |
JP2015106361A (ja) * | 2013-12-02 | 2015-06-08 | 株式会社日立製作所 | データ検索システムおよびデータ検索方法 |
JP2016091344A (ja) * | 2014-11-06 | 2016-05-23 | 日本電気株式会社 | ゆれ語判定装置、ゆれ語判定方法、ゆれ語判定プログラム、及び、文書分析装置 |
KR101769035B1 (ko) * | 2016-03-28 | 2017-08-18 | 울산과학기술원 | 한국어 텍스트 클러스터링 시스템 및 방법 |
JP2018010543A (ja) * | 2016-07-15 | 2018-01-18 | 株式会社トヨタマップマスター | 表記揺れ用語集作成装置、検索システム、それらの方法、それらのコンピュータプログラム及びそれらのコンピュータプログラムを記録した記録媒体 |
JP2020135877A (ja) * | 2019-02-18 | 2020-08-31 | ネイバー コーポレーションNAVER Corporation | 音訳モデルを利用して外来同義語を自動抽出する方法およびシステム |
CN112395867A (zh) * | 2020-11-16 | 2021-02-23 | 中国平安人寿保险股份有限公司 | 同义词挖掘方法、装置、存储介质及计算机设备 |
WO2022168208A1 (ja) * | 2021-02-03 | 2022-08-11 | 日本電気株式会社 | 情報処理装置、変換パターンの決定方法、名寄せ方法、学習方法、変換パターン決定プログラム、名寄せプログラム、および学習プログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05282293A (ja) * | 1992-03-31 | 1993-10-29 | Matsushita Electric Ind Co Ltd | 文書作成装置 |
JPH10177575A (ja) * | 1996-10-15 | 1998-06-30 | Ricoh Co Ltd | 語句抽出装置および方法、情報記憶媒体 |
JP2002269134A (ja) * | 2001-03-09 | 2002-09-20 | Ricoh Co Ltd | 文字列処理方法及び装置、並びに情報検索システム |
-
2008
- 2008-03-14 JP JP2008065256A patent/JP5094486B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05282293A (ja) * | 1992-03-31 | 1993-10-29 | Matsushita Electric Ind Co Ltd | 文書作成装置 |
JPH10177575A (ja) * | 1996-10-15 | 1998-06-30 | Ricoh Co Ltd | 語句抽出装置および方法、情報記憶媒体 |
JP2002269134A (ja) * | 2001-03-09 | 2002-09-20 | Ricoh Co Ltd | 文字列処理方法及び装置、並びに情報検索システム |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011107751A (ja) * | 2009-11-12 | 2011-06-02 | Aisin Aw Co Ltd | 地点検索装置及びプログラム |
JP2011180862A (ja) * | 2010-03-02 | 2011-09-15 | Nippon Telegr & Teleph Corp <Ntt> | 用語抽出方法とその装置と、プログラム |
JP2012108795A (ja) * | 2010-11-18 | 2012-06-07 | Ntt Docomo Inc | 同義語判定装置、同義語判定方法およびプログラム |
JP2013016011A (ja) * | 2011-07-04 | 2013-01-24 | Nippon Telegr & Teleph Corp <Ntt> | 同義語辞書生成装置、その方法、及びプログラム |
JP2014006620A (ja) * | 2012-06-22 | 2014-01-16 | Yahoo Japan Corp | 同義語推定装置、同義語推定方法および同義語推定プログラム |
JP2014006621A (ja) * | 2012-06-22 | 2014-01-16 | Yahoo Japan Corp | 同義語推定装置、同義語推定方法および同義語推定プログラム |
JP2015106361A (ja) * | 2013-12-02 | 2015-06-08 | 株式会社日立製作所 | データ検索システムおよびデータ検索方法 |
JP2016091344A (ja) * | 2014-11-06 | 2016-05-23 | 日本電気株式会社 | ゆれ語判定装置、ゆれ語判定方法、ゆれ語判定プログラム、及び、文書分析装置 |
KR101769035B1 (ko) * | 2016-03-28 | 2017-08-18 | 울산과학기술원 | 한국어 텍스트 클러스터링 시스템 및 방법 |
JP2018010543A (ja) * | 2016-07-15 | 2018-01-18 | 株式会社トヨタマップマスター | 表記揺れ用語集作成装置、検索システム、それらの方法、それらのコンピュータプログラム及びそれらのコンピュータプログラムを記録した記録媒体 |
JP2020135877A (ja) * | 2019-02-18 | 2020-08-31 | ネイバー コーポレーションNAVER Corporation | 音訳モデルを利用して外来同義語を自動抽出する方法およびシステム |
JP7014830B2 (ja) | 2019-02-18 | 2022-02-01 | ネイバー コーポレーション | 音訳モデルを利用して外来同義語を自動抽出する方法およびシステム |
CN112395867A (zh) * | 2020-11-16 | 2021-02-23 | 中国平安人寿保险股份有限公司 | 同义词挖掘方法、装置、存储介质及计算机设备 |
CN112395867B (zh) * | 2020-11-16 | 2023-08-08 | 中国平安人寿保险股份有限公司 | 同义词挖掘方法、装置、存储介质及计算机设备 |
WO2022168208A1 (ja) * | 2021-02-03 | 2022-08-11 | 日本電気株式会社 | 情報処理装置、変換パターンの決定方法、名寄せ方法、学習方法、変換パターン決定プログラム、名寄せプログラム、および学習プログラム |
JP7559842B2 (ja) | 2021-02-03 | 2024-10-02 | 日本電気株式会社 | 情報処理装置、変換パターンの決定方法、および変換パターン決定プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5094486B2 (ja) | 2012-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5094486B2 (ja) | 同義性判定装置、その方法、プログラム及び記録媒体 | |
CN108140019B (zh) | 语言模型生成装置、语言模型生成方法以及记录介质 | |
TW448381B (en) | Automatic segmentation of a text | |
JP3768205B2 (ja) | 形態素解析装置、形態素解析方法及び形態素解析プログラム | |
US9280967B2 (en) | Apparatus and method for estimating utterance style of each sentence in documents, and non-transitory computer readable medium thereof | |
Pennell et al. | Normalization of text messages for text-to-speech | |
JP2003514304A5 (ja) | ||
Nicolai et al. | Leveraging Inflection Tables for Stemming and Lemmatization. | |
JP5524138B2 (ja) | 同義語辞書生成装置、その方法、及びプログラム | |
Etxeberria et al. | Evaluating the noisy channel model for the normalization of historical texts: Basque, Spanish and Slovene | |
Abate et al. | Development of Amharic morphological analyzer using memory-based learning | |
JP6718787B2 (ja) | 日本語音声認識モデル学習装置及びプログラム | |
Gu et al. | Markov modeling of mandarin Chinese for decoding the phonetic sequence into Chinese characters | |
Etxeberria et al. | Weighted finite-state transducers for normalization of historical texts | |
JP5853595B2 (ja) | 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム | |
KR101663038B1 (ko) | 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법 | |
Taji et al. | The columbia university-new york university abu dhabi sigmorphon 2016 morphological reinflection shared task submission | |
Hsieh et al. | Correcting Chinese spelling errors with word lattice decoding | |
JP5523929B2 (ja) | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム | |
JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
KR19980047177A (ko) | 한국어 문서 음성 변환 시스템을 위한 문서 분석기 | |
Asahiah | Development of a Standard Yorùbá digital text automatic diacritic restoration system | |
Hahn et al. | Optimizing CRFs for SLU tasks in various languages using modified training criteria | |
Seddah et al. | Enriching the NArabizi Treebank: A Multifaceted Approach to Supporting an Under-Resourced Language | |
JP2009176148A (ja) | 未知語判定システム、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100113 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110613 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110614 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110615 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110616 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120629 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120709 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120829 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120918 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120918 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150928 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |