Nothing Special   »   [go: up one dir, main page]

JP2009223463A - 同義性判定装置、その方法、プログラム及び記録媒体 - Google Patents

同義性判定装置、その方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP2009223463A
JP2009223463A JP2008065256A JP2008065256A JP2009223463A JP 2009223463 A JP2009223463 A JP 2009223463A JP 2008065256 A JP2008065256 A JP 2008065256A JP 2008065256 A JP2008065256 A JP 2008065256A JP 2009223463 A JP2009223463 A JP 2009223463A
Authority
JP
Japan
Prior art keywords
synonym
complement
reading
notation
syllable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008065256A
Other languages
English (en)
Other versions
JP5094486B2 (ja
Inventor
Izumi Takahashi
いづみ 高橋
Hisako Asano
久子 浅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008065256A priority Critical patent/JP5094486B2/ja
Publication of JP2009223463A publication Critical patent/JP2009223463A/ja
Application granted granted Critical
Publication of JP5094486B2 publication Critical patent/JP5094486B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】定型的な文字列の追加、または読みを保存しての表記変換、あるいは省略化等を伴う文字列表現の同義性を精度高く判定すること。
【解決手段】同義語侯補ペア生成部1により、入力されたテキストを解析処理し、その解析結果に基づいて前記テキストから同義語侯補表現を抽出するとともに対応する解析結果を付与し、逆変換ルール3並びに音節正規化ルール4を用いて前記同義語侯補表現の表記及び読みの正規化を行った後、同義語侯補表現同士を組み合わせて一対の同義語侯補表現よりなる同義語侯補ペアを生成し、同義性判定部2により、音節類似度テーブル5及び省略判定モデル6を用いて前記同義語侯補ペア中の同義語侯補表現同士が同義か否かを判定し、同義であれば当該同義語侯補ペアを同義語ペアとして出力する。
【選択図】図1

Description

本発明は、テキストに含まれる文字列表現の同義性を判定する技術、詳細にはテキストから同義語侯補としての文字列表現である同義語侯補表現を抽出して一対の同義語侯補表現よりなる同義語侯補ペアを生成し、当該同義語侯補ペア中の同義語侯補表現同士が同義か否か(同一の情報を指すか否か)を判定する技術に関する。
同義性判定技術は、テキストエディタにおけるスペルミス検出などに用いられる他、同技術により得られた同義語を集約することで同義語辞書を作成し、その辞書を検索装置に組み込んでクエリ拡張に用いる等の利用法がある。
なお、明細書及び図面中に登場する「PlayStation」、「プレイステーション」、「プレーステーション」は登録商標であり、また、「アップル社」、「ペヨンジュン」、「木村拓哉」、「安藤美姫」、「安めぐみ」、「ハリーポッター」は著名な企業や人物、キャラクタ等の名称(氏名)であるが、本願が言語処理の発明であり、「(登録商標)」の文字を挿入したり、その表記を変更すると意味が変わってしまうため、そのまま記載するものとした。
言語を用いて任意の1つの事物・事象を表現しようとする場合、多彩な表現を選択することが可能なため、当該言語を表す文字列からなるテキスト中には同一の情報が複数の異なる表現(文字列表現)で存在する。また、テキストの量やそれを作成する人数が増えるほど、1つの情報に対する表現のバリエーションは増加する。そのためテキスト中の同一の情報を漏れなく集めるためには、2つの文字列表現同士が同一の情報を指しているか否かを判定する、同義性判定手法が必要となる。「同一の情報を指す文字列表現」の粒度は文書単位から単語単位まで様々なものが考えられるが、本発明における同義性判定は、名詞及び複合名詞単位で行うものを対象とする。
前述した名詞及び複合名詞単位の粒度において同義性判定を行う従来の手法としては大きく分けて2つあり、1つは識別手法、もう1つは生成手法である。識別手法は、任意のテキストから同義語侯補表現を抽出して同義語侯補ペアを生成し、同義か否かを判定する方法である(例えば、非特許文献1参照)。生成手法は、ある文字列表現の同義語侯補として考えられる表現を全て生成する方法であり、生成後にWebなどを用いて実在を確認する場合もある(例えば、非特許文献2参照)。
両手法とも同義語侯補ペアを作り、正解へと絞り込む(同義性判定を行う)という順序で行われ、獲得可能な同義語のカバー範囲はペア生成の手法に、精度はペア生成と絞込みの両手法に依存する。始めに文字種や略語、表記ゆれなど、より多様性のある同義語候補のペアを生成すればカバー範囲は広くなるが、精度は低くなる。精度を高くするには、ペア生成の時点で同義語の種類に制限を加え、より確からしい同義語侯補ペアに絞り込んで収集するか、絞込み(同義性判定)の手法として、多様性のある同義語に対しても高精度で判定が行える手法を採用する必要がある。
識別手法における同義語侯補の収集方法としては、表構造、タグや記号、特殊な表現(○○こと××)などのメタ情報を用いるもの(非特許文献3)と、表記の類似を利用して略語やカタカナ異表記など特定の種類に限定し、その特徴とのパターンマッチにより収集するもの(非特許文献1)がある。両方法ともペアの生成時にメタ情報や表記の種類などの制約を設けることで一定の精度を担保している。
生成手法は、あるテキスト表現の同義語侯補として考えられる表現を全て生成する手法であり、生成後にWebなどを用いて実在を確認する場合もある(例えば非特許文献2)。生成手法ではヒューリスティックなルールや確率モデルなどで同義語侯補ペアの生成を行うため、生成できる同義語侯補は略語やカタカナ異表記等の特定の種類に限定される。
酒井浩之、増山繁「コーパスからの名詞と略語の対応関係の自動獲得」言語処理学会第9回年次大会発表論文集、2003年、pp.226〜229 村山紀文、奥山学「Noisy−channel modelを用いた略語自動推定」言語処理学会第12回年次大会発表論文集、2006年、pp.763〜766 関恒仁、嶋田和孝、遠藤勉「表の構造を利用した類義語抽出」言語処理学会第11回年次大会発表論文集、2005年、C1−6
従来の識別手法において、メタ情報を利用して同義語侯補ペアを収集する手法は、特殊な記述方法で書かれた表記以外は同義語侯補ペアとして利用できず、それ以外の手法でも特定の種類(略語やカタカナ異表記)に特化しているため獲得できる範囲がその種類内に限られてしまい、カバー範囲が狭いという問題があった。
また、生成手法においては、前述したように同義語侯補ペアをヒューリスティックなルールにより生成する場合と、確率モデルを用いて生成する場合があるが、前者ではコストが高く、カバー範囲も狭いという問題があり、後者では極端に精度が低いという問題があった。
同義語には表記ゆれのように表記が類似しているほど同義である可能性が高い場合と、省略語のように表記の類似度だけでは同義性が計れない場合、さらにその両方の性質を備えている場合が混在しており、従来の手法のカバー範囲が狭いのは、手法を特定の同義語の種類に特化せざるをえないことが原因であった。
しかし、様々な種類がある同義語も発生過程に注目すると、(a)定型的な文字列の追加、(b)読みを保存しての表記変換、(c)省略化、という3つの主な原因に絞ることができる。その3種類が個別に起こる場合、そして同時に起こる場合があることにより同義語の多様性が増している(a,b,c,a+b,a+c,b+c,a+b+cの7パターン)。
(a)で追加される文字列は、「ちゃん」や「ティ」などの接辞表現や特定の記号など定型的な表現である。よって追加された定型的な文字列を削除すれば生成前の表記と同じになる。(b)は「PlayStation」を「プレイステーション」「プレーステーション」のように、読みを保存したまま表記を変換するため、同義語両方に読みを付与すると全く同じ、または非常に類似した読みとなる。(c)は「国際連合」を「国連」のように文字順を保存したまま文字を削除するため、長いものが短いものを包含する関係にあり、どの文字が削除されるかにはある程度法則性がある。
そこでまず、(a)で追加された定型的な文字列を削除して表記の正規化を行い、(b)で変換された表記に読みを付与して正規化を行って、その結果、表記または読みが同じになるか、非常に類似していれば同義と判定する。そして(a)と(b)で生じるゆれを吸収した後に(c)の省略が起こったか否かを判定する、という順序で判定を行えば、多様性のある同義語を全て判定することができ、カバー範囲を広げることが可能になる。
本発明は以上の問題を鑑みてなされたもので、同義語侯補収集時には1テキスト(少なくとも1つの文を含む1まとまりの文章)内の名詞総当りで同義語の種類に関係なく同義語侯補ペアを生成し、生成した多様性のある同義語侯補ペアの同義性判定可能な範囲をほぼ全種類にまで広げるため、それぞれを表記と読みの両方から正規化を行う。
同義語侯補ペア生成時には、名詞総当りで同義語侯補ペアを生成するため、テキストの記述方式に依存せず同義語侯補ペアが生成できる。また、1テキスト内という制約によってテキストを跨いで存在する、表記は類似しているが無関係な同義語侯補ペアを生成されるのを防ぐ。
同義性判定時には生成した同義語侯補ペアそれぞれを表記と読み両方から正規化を行うとともに、同義語侯補ペアがどの種類の同義語か条件判定し、同義語侯補ペアを種類ごとに分離してから判定を行うことで、同義語侯補ペアの種類に適した同義性判定手法を適用可能にし、精度を向上させることを可能とした。
また、本発明の同義性判定手法は、ほぼ全ての同義語の種類(略語やカタカナ異表記)に対応可能であるため、同義語侯補収集方法がどのような手法であっても同義性判定が可能で、既存の同義語侯補収集手法と組み合わせて使用することも可能である。
本発明は、テキストを入力すると、そこに含まれる名詞及び複合名詞から同義侯補ペアを生成し、ペアの単語それぞれの表記と読みを正規化し、その過程で全く同じ表記または非常に類似した読みとなったものは同義と判定し、同義と判定されなかったもので包含関係にあるものは分類器を用いて同義語かどうか判定を行うことを特徴とする。
本発明によれば、(a)定型的な文字列の追加、または(b)読みを保存しての表記変換、あるいは(c)省略化等を伴う、多様性のある文字列表現の同義性を精度高く判定することができる。
以下、本発明を図示の実施の形態により詳細に説明する。
図1は本発明の同義性判定装置の実施の形態の一例を示すもので、本同義性判定装置は、同義語候補ペア生成部1、同義性判定部2、逆変換ルール記憶部3、音節正規化ルール記憶部4、音節類似度テーブル記憶部5、省略判定モデル記憶部6、解析処理結果テーブル記憶部7及び同義語候補ペアリスト記憶部8からなる。
同義語侯補生成部1は、図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から入力されたテキスト、ここでは1テキスト(少なくとも1つの文を含む1まとまりの文章に対応するテキストデータ)を処理単位として周知の形態素解析や固有表現抽出などの解析処理を行い、その解析結果に基づいて前記テキストから同義語侯補表現を抽出し、当該同義語侯補表現とともにこれに対応する前記解析結果を解析処理結果テーブル記憶部7に記憶し、さらに各同義語侯補表現に対して逆変換ルール記憶部3に記憶された逆変換ルールを用いて表記の正規化を行い、音節正規化ルール記憶部4に記憶された音節正規化ルールを用いて読みの正規化を行い、それらの結果を解析処理結果テーブル記憶部7に記憶する。その後、解析処理結果テーブル記憶部7に記憶された同義語侯補表現同士を総当たりで組み合わせて同義語侯補ペアを作成し、同義語候補ペアリスト記憶部8に記憶する。
同義性判定部2は、同義語候補ペアリスト記憶部8から同義語侯補ペアを取り出し、当該同義語侯補ペア中の同義語侯補表現同士が同義か否かを、解析処理結果テーブル記憶部7に記憶された前記同義語侯補ペア中の各同義語侯補表現に対応する解析結果や正規化処理結果、並びに音節類似度テーブル記憶部5に記憶された音節類似度テーブル及び省略判定モデル記憶部6に記憶された省略判定モデルを用いて以下に述べるようにして判定し、同義であれば前記同義語侯補ペアを同義語ペアとして出力し、これを同義語候補ペアリスト記憶部8に記憶された全ての同義語候補ペアに対して同様に繰り返して同義語ペアリストを出力する。
同義か否かの判定は、まず、正規化後の表記が全く同じか否かで判定を行い、ここで同義と判定されなければ正規化後の読みが類似しているか否かで判定、即ち音節類似度テーブル記憶部5に記憶された音節類似度テーブルを用いて正規化後の読みの類似度を求め、該求めた類似度が所定の値以上かどうかで判定を行い、さらにここでも同義と判定されない場合は表記または読みが包含関係にあれば、省略判定モデル記憶部6に記憶された省略判定モデルを用いて省略語関係にある(略語)か否かで判定を行う。
逆変換ルール記憶部3は、名詞を利用する際に一般的に挿入されると思われる接頭辞や接尾辞等の接辞形を削除するルール、愛称を作成する際に利用される繰り返し表現を削除するルールを少なくとも含む、同義語侯補表現の表記を正規化し、当該表記の正規化に併せて読みを正規化するための逆変換ルールを記憶している。
音節正規化ルール記憶部4は、同義語侯補表現の読みの母音連続や長音、促音に適用することで、和語と外来語とで異なる読みの長さの単位(モーラと音節)、口語表現、音訳時のゆれを少なくとも正規化するための音節正規化ルールを記憶している。
音節類似度テーブル記憶部5は、「表記は異なるが読みが類似する音節ペア」をキーとし、「距離(類似度)」を値とした、同義語侯補ペア中の同義語侯補表現同士の読みの類似度を求めるための音節類似度テーブルを記憶している。
省略判定モデル記憶部6は、予め機械学習により生成した、2つの単語が省略語関係にあるか否かを判定するモデルからなる、同義語侯補ペア中の同義語侯補表現同士が省略語関係にあるか否かを判定するための省略判定モデルを記憶している。
以下、前述した各部についてさらに詳細に説明する。なお、以下の説明では各記憶部3乃至8の記憶内容に対しても、当該記憶部の符号をそのまま付して説明する場合があることを注記しておく。
[同義語侯補生成部1]
図2は同義語侯補生成部1の詳細を示すもので、解析処理部11、正規化処理部12及びペア生成部13からなる。同義語侯補生成部1では、1テキストを入力として、解析処理部11で形態素解析及び固有表現抽出等のテキスト解析処理を行い、その結果をもとに同義語侯補表現の切り出しを行う。そして正規化処理部12で同義語侯補表現の正規化を行った後、ペア生成部13で同義語侯補ペアを生成する。本実施の形態においては、同義侯補表現として固有表現を対象とした場合を例に採って説明する。
解析処理部11では、周知の技術として確立されている形態素解析技術、固有表現抽出技術などを用いてテキストの解析を行い、同義語侯補表現の抽出を行う。形態素解析では、テキストに対し、形態素(表記)、読み、品詞(固有表現クラスを含む)などの情報を付与する。この時、テキスト内の文字の半角/全角の統一など、単純な正規化も済ませておく。読み付与は1番尤もらしいものを用いても、N−bestを用いても良い。また、表記がアルファベットなどの未知語であり、形態素解析のみでは正しく読みが付与されないものについては読みを付与し直す。この読みの付与に関しては、アルファベットなど未知語の読みを正しく推定する手法(例えば、特開2001−142877公報(発明の名称:アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体)等参照)を利用する。
同義語侯補表現は、固有表現抽出技術により切り出し、表記、読み、品詞等の解析結果(の情報)と共に解析処理結果テーブル7の同義語侯補表現カラム、解析結果カラムへ書き出す。但し、表記が全く同一の同義語侯補表現が既にテーブル7内に存在する場合はレコードが重複しないよう、書き出しは行わない。またこの時、形態素の区切りの情報は、例えば“/”の記号などを用いて表記、読み、品詞それぞれで保持しておく。解析処理結果テーブル7の一例を図3に示す。但し、この時点では解析処理結果テーブル7のうち同義語侯補表現カラムと解析結果カラムのみが埋まり、他は空の状態である。
ここでは説明のため切り出し対象を固有表現としたが、形態素解析結果を利用して名詞や複合名詞を同義語侯補表現としても良い。この結果、作成される解析処理結果テーブル7には1テキスト内に存在する同義語侯補表現の異なり数分だけレコードができる。
正規化処理部12での処理の流れを図4を用いて説明する。正規化処理部12では、切り出した同義語侯補表現に対して表記と読みから正規化を行う。入力は解析処理部11で作成した解析処理結果テーブル7の全レコードの解析結果カラムのリストとし、リスト内のレコードごとに以下の処理を繰り返す。全レコードの処理を終えた場合は、正規化処理部12での処理を終了する。
(ステップs12−1)解析処理結果テーブル7の解析結果カラムの表記がアルファベットであれば大文字/小文字を大文字に統一し、同カラムへ上書きする。ステップs12−2へ進む。
(ステップs12−2)解析処理結果テーブル7の解析結果カラムの表記と読みに逆変換ルール記憶部3に記憶された逆変換ルールの表記用ルールと読み用ルール(詳細は後述)をそれぞれ適用し、結果を解析処理結果テーブル7へ書き出す。書き出し先については、逆変換ルールのうち、表記用ルールの適用結果は表記正規化カラム、読み用ルールの適用結果は表記+読み正規化カラムとする(なお、適用すべきルールがない場合は解析結果カラムの表記をそのまま表記正規化カラムへ書き出し、解析結果カラムの読みをそのまま表記+読み正規化カラムへ書き出す。)。ステップs12−3へ進む。
(ステップs12−3)解析処理結果テーブル7の解析結果カラムの読みと、ステップs12−3で書き出した表記+読み正規化カラムの読みに対して音節正規化ルール記憶部4に記憶された音節正規化ルール(詳細は後述)を適用し、結果を解析処理結果テーブル7へ書き出す。解析結果カラムの読みを正規化した結果は読み正規化カラムへ書き出し、表記+読み正規化後の読みを正規化した結果は表記+読み正規化カラムへ上書きする(なお、適用すべきルールがない場合は解析結果カラムの読みをそのまま読み正規化カラムへ書き出し、表記+読み正規化カラムはそのまま(上書きしない)とする)。
同義語侯補ペア作成部13では、正規化処理部12での処理を終えた解析処理結果テーブル7の全レコードを総当たりで組み合わせて同義語侯補ペアを作成し、そのペアの同義語侯補表現のID(候補ID)を同義語侯補ペアリストとして同義語候補ペアリスト記憶部8に記憶する。同義語侯補ペアリストの一例を図5に示す。ペア作成の手法に関しては、カバー範囲を重要視しないのであれば総当たり以外の、例えばメタ情報を用いた手法を用いても、以後の本発明を利用することは可能である。
[同義性判定部2]
図6は同義性判定部2の詳細を示すもので、表記類似判定部21、読み類似判定部22及び省略判定部23からなる。図7は同義性判定部2での処理の流れを示すものである。
同義性判定部2は、解析処理結果テーブル7及び同義語侯補ペアリスト8を入力とし、表記類似判定部21、読み類似判定部22及び省略判定部23により、同義語侯補ペア中の同義語侯補表現同士が同義か否かを判定し、同義語ペアリストを出力する。
即ち、表記類似判定部21では正規化した表記から同義性の判定を行い(ステップs21)、読み類似判定部22では正規化した読みから音節類似度テーブル5を用いて同義性の判定を行い(ステップs22)、そして省略判定部23では正規化した表記と読みの両方から省略判定モデル6を用いて省略語か否かを判定して同義性の判定を行う(ステップs23)。同義語侯補ペアリスト8のレコードごとにステップs21〜s23の処理を繰り返し、いずれかの過程で同義と判定された時点でその同義語侯補ペア中の同義語侯補表現同士を同義であると認定し(ステップs24)、次の同義語侯補ペアの処理へと移行する。最後まで同義と判定されなかったペアは同義語であると認定しない(ステップs25)。処理に必要となる同義語侯補ペアの同義語侯補表現のそれぞれの表記や読み、品詞等の情報は、同義語侯補ペアリスト8の候補IDを用いて解析処理結果テーブル7内の該当情報を参照する。同義語侯補ペアリスト8の全てのレコードの処理が終了した時点で、同義語と認定された同義語侯補ペアを同義語ペアリストとして出力する。
表記類似判定部21での処理の流れを図8を用いて説明する。入力は同義語侯補ペアリスト8の1レコードとする。ここでは同義語侯補ペア中の同義語侯補表現の各々の正規化後の表記を見て判定を行う。
(ステップs21−1)同義語侯補ペア中の各同義語侯補表現の表記正規化カラムの表記同士が全く同じである場合はステップs21−2へ、それ以外の場合は表記類似判定部21での処理を終了し、読み類似判定部22での処理に進む。
(ステップs21−2)同義と判定し、同義性判定部2での処理を終了する。
読み類似判定部22での処理の流れを図9を用いて説明する。表記類似判定部21で同義と判定されなかった同義語侯補ペアのレコードを入力とする。ここでは同義語侯補ペア中の同義語侯補表現の各々の読みを見て判定を行う。1つの同義語侯補表現について読みは、解析結果カラムの読み、読み正規化カラムの読み、表記+読み正規化カラムの読みの3つが存在するため、それぞれについて以下の処理を3回繰り返し行い、そのいずれかの過程で同義と判定されれば同義語であると認定して同義性判定部2での処理を終了し、そうでない場合は省略判定部23での処理に進める。この際、解析結果カラムの読み、読み正規化カラムの読み、表記+読み正規化カラムの読みを単に“読み”と記述する。また、以下の処理において、マッチングの際は形態素の区切り情報(“/”)は無視する。
(ステップs22−1)同義語侯補ペア中の各同義語侯補表現の読みが全く同じである場合はステップs22−5へ、それ以外はステップs22−2へ進む。
(ステップs22−2)同義語侯補ペア中の各同義語侯補表現の読みの音節数をカウントし、同じである場合はステップs22−3へ進む。それ以外の場合は処理を終了する(読み類似判定部22での処理の繰り返し回数が2回以下ならステップs22−1へ戻り、当該同義語侯補ペアの次の読みに対する処理へ移る。3回目であれば読み類似判定部22での処理を終了する。)。
(ステップs22−3)同義語侯補ペア中の各同義語侯補表現の読みの、音節位置が同じで読みが異なる音節間の距離を音節類似度テーブル5(詳細は後述する。)を用いて求める。音節位置が同じで読みが異なる音節が多数存在する場合は、ペア間で異なる音節間の距離の総和を用いる。ステップs22−4へ進む。
(ステップs22−4)距離の総和が予め設定した閾値より小さければステップs22−5へ進む。それ以外の場合は処理を終了する(読み類似判定部22での処理の繰り返し回数が2回以下ならステップs22−1へ戻り、当該同義語侯補ペアの次の読みの処理へ移る。3回目であれば読み類似判定部22での処理を終了する。)。
(ステップs22−5)同義と判定し、同義性判定部2での処理を終了する。
省略判定部23での処理の流れを図10を用いて説明する。読み類似判定部22で同義と判定されなかった同義語侯補ペアのレコードを入力とする。ここでは同義語侯補ペアについて、解析結果カラムの表記同士、表記正規化カラムの表記同士、読み正規化カラムの読み同士、表記+読み正規化カラムの読み同士の4パターンそれぞれについて以下の処理を繰り返し行い、そのいずれかの過程で同義と判定されれば同義語であると認定し、そうでない場合は同義語でないと認定して同義性判定部2での処理を終了する。この際、解析結果カラムの表記、表記正規化カラムの表記を単に“表記”と記述し、読み正規化カラムの読み、表記+読み正規化カラムの読みを単に“読み”と記述する。また、以下の処理において、マッチングの際は形態素の区切り情報(“/”)は無視する。
(ステップs23−1)表記を対象としている場合は表記同士、読みを対象としている場合は読み同士が包含関係にある場合はステップs23−2へ進む。それ以外の場合は処理を終了する(省略判定部23での処理の繰り返し回数が3回以下なら当該同義語侯補ペアの次の表記または読みに対する処理へ移る。4回目であれば省略判定部23での処理を終了する。)。
(ステップs23−2)DPマッチング法(Richard E.Bellman,“Dynamic Programming”,1957)等を用いて位置合わせを行う。ステップs23−3へ進む。
(ステップs23−3)それぞれのペアのうち長い文字数(読みの場合は音節数)の方を省略前、短い方を省略後として、省略前後の差異を元に、分類器にかけるための素性(詳細は後述)を抽出する。ステップs23−4へ進む。
(ステップs23−4)ステップs23−3で抽出した素性と分類器のモデルである省略判定モデル6を用いて同義義語侯補ペア中の同義語侯補表現同士が省略語関係にあるかを判定し、省略語であると判定した場合はステップs25−5へ進む。それ以外の場合、処理を終了する(省略判定部23での処理の繰り返し回数が3回以下なら当該同義語侯補ペアの次の表記または読みの処理へ移る。4回目であれば省略判定部23での処理を終了する。)。
(ステップs23−5)同義と判定し、同義性判定部2での処理を終了する。
前述した(ステップs23−3)で用いる素性としては、同義語侯補ペア中の各同義語侯補表現の表記(解析結果カラムの表記または表記正規化カラムの表記)に対して抽出を行う場合、
<省略前後の同義語侯補表現>
・省略前:形態素数,文字数,品詞,固有表現クラス,文字種
・省略後:形態素数,文字数,品詞,固有表現クラス,文字種
<形態素単位の素性>
・形態素が丸ごと省略された場合:品詞,表記,文字数,文字種,位置情報(先頭か末尾か真中か),先頭の形態素が残っているか
・形態素が丸ごと残った場合:品詞,表記,文字数,文字種,位置情報(先頭か末尾か真中か),末尾の形態素を省略したか
<文字単位の素性>
・文字単位で省略された場合:品詞,表記,文字種,位置情報(先頭か末尾か真中か),表記内で先頭の文字を省略したか
・文字単位で残った場合:品詞,表記,文字種,位置情報(先頭か末尾か真中か),形態素内で先頭の文字が残っているか
を用いる。しかし、ここに挙げた以外にも、形態素解析情報、文脈情報などを利用しても良い。この時、用いる品詞や表記などの情報は解析処理結果テーブル7の情報を利用する。
また、同義語侯補ペア中の各同義語侯補表現の読み(読み正規化カラムの読みまたは表記+読み正規化カラムの読み)に対して素性を抽出する際は、上記で述べた素性例において、表記の素性には読みを、文字数の素性には音節数を、位置情報の素性には音節で数えた場合の何音節目かを用いる。また、文字種の素性は「カタカナ」で統一する。
[逆変換ルール(記憶部)3]
図11は逆変換ルール3の一例を示すもので、名詞を利用する際に一般的に挿入されると思われる接頭辞や接尾辞等の接辞形を削除するルール、愛称を作成する際に利用される繰り返し表現を削除するルール等をヒューリスティックに記述したものである。一組の同義語候補ペアに対して適用可能なルールは全て適用する。本ルールは、同義語侯補表現における、より一般的な表記に対して挿入されると思われる定型的な文字列を当該表記から削除し、当該文字列の削除に併せて読みを訂正するルールであるため、省略語を作成するためのルールとは異なる(本発明においては、省略語は逆変換ルールを用いて判定せず、省略判定部において分類器を用いて判定する。)。よってルールは正規表現などを用いて簡単に書き表すことができ、多くの同義語に共通して挿入されるような文字列を削除するルールとする。なお、図11での正規表現はPerlで書くことを例に説明を行っている。よって、他の表現を用いる場合には、その手法に準じる。
逆変換ルール3は表記に適用するルール、読みに適用するルールが対になっており、表記用正規表現が適用できない場合は、対になった読み用正規表現も適用しない。しかし、その逆に読み用正規表現が適用できない、または存在しない場合に関しては表記用正規表現のみを適用して良い(表記が変化しないのに読みが変化することはあり得ないが、表記が変化しても読みが変化しない場合はあり得るため)。逆変換ルールは図11で挙げたもの以外にも任意に作成して登録可能で、例えば接尾辞の削除ルールで「ちゃん」や「氏」などを加えることなどが考えられる。
[音節正規化ルール(記憶部)4]
図12は音節正規化ルール4の一例を示すもので、和語と外来語とで異なる読みの長さの単位(モーラと音節)、口語表現、音訳時のゆれ等を正規化するために、同義語侯補表現の読みの母音連続や長音、促音に適用するルール等からなる。ルールの適応順序はルール番号順とし、適用可能なルールは全て適用する。
表記変換による同義性判定には、位置が同じで読みが異なる音節間の距離を用いる。その際、表記変換による同義語間では音節の長さが等しいことが条件となる。しかし、和語はモーラ、外来語では音節と、読みの単位が異なる。さらに他言語に和語の読みを与える際(音訳時)には、外来語間でも同じ音節数にならないという問題があった。その例として以下のような場合が挙げられる。
・和語、口語「ユウコ」,「ユーコ」
モーラ数で数えると3モーラであるが、音節数で数えると3音節,2音節となる。
・外来語「スパゲティ」,「スパゲティー」,「スパゲッティー」
音節数で数えれば3つとも4音節であるが、モーラ数で数えると4モーラ,5モーラ,6モーラとなる。
・他言語の和語読み「ウインブルドン」,「ウィンブルドン」
音節数で数えると7音節,6音節、モーラ数で数えても7モーラ,6モーラとなる。
これらに対し、図12に示すような音節正規化ルールを用いることにより、全て音節数で数えられるように読みの長さの単位を統一でき、(ステップs22−3)において位置合わせが可能となる。
[音節類似度テーブル(記憶部)5]
図13(a)は音節類似度テーブルの作成手順、同図(b)は音節類似度テーブルの一例を示すもので、音節類似度テーブル5は、キー:表記は異なるが読みが類似する音節ペア、値:距離(類似度)、により構成される。このテーブル5は図13(a)に示すように、形態素解析辞書から標準表記が同じで発音(読み)が異なる単語を収集し、読み正規化処理部12と同様に音節正規化ルール4を適用して読みの長さの単位を音節に統一し、音節数が等しい場合に位置合わせを行う。そして音節位置が同じで読みが異なる音節ペアを抜き出してカウントし、音節ペアの出現数を、音節ペアを構成する音節それぞれの出現回数の和で割った値を音節間の距離(類似度)とすることで作成する。
[省略判定モデル(記憶部)6]
省略判定モデル6は2つの単語が省略語関係にあるか否かを判定するためのモデルで、判定を行いたい同義語侯補ペア中の各同義語侯補表現の表記及び読み、形態素解析情報、位置合わせ情報等を入力とし、同義か否かを2値判定する識別関数からなる。識別関数としては、例えばV.Vapnik,“The nature of statistical learning theory”,Springer,1995で述べられているSupport Vector Machine(SVM)の識別関数を用い、識別関数のパラメータは予め省略判定部23で述べた素性からなる学習データをSVMで学習して決定しておく。ここでは学習アルゴリズムとしてSVMを挙げたが、決定木、最大エントロピー法等のほかの学習アルゴリズムを利用しても良い。
前述した実施の形態における具体的な処理の実施例を詳細に説明する。ここで、同義性判定部2の読み類似判定部22で用いる閾値には「0.9」を用い、また、省略判定モデル4の分類器としてはSVMを用いることとする。まず、同義語侯補生成部1及び同義性判定部2で行う処理を説明し、その後、逆変換ルール3及び音節正規化ルール4の詳細な適用例、音節類似度テーブル5及び省略判定モデル6の作成例について説明する。
[I]同義語侯補生成部1及び同義性判定部2で行う処理
[同義語侯補生成部1]
解析処理部11への入力テキストが図14に示すようなものであった場合、「アップル社」,「eva」などの同義語侯補表現が抽出される。入力テキスト中では「アップル社」という表現が2度出現しているが、解析処理結果テーブル7には1度だけ書き出す。1テキスト全ての解析を終えた状態が図15に示すようになったものとして、以下説明を行う。
正規化処理部12への入力を図15に示す解析処理結果テーブル7の全レコードの同義語侯補表現カラムのリストとし、リスト内のレコードごとに以下の処理を繰り返す。
まずID1の「アップル社」から処理を開始する。
(ステップs12−1)解析結果カラムの表記「アップル/社」はアルファベットではないため、そのままステップs12−2へ進む(ここで処理を行う例;レコードID2:evaは大文字EVAへと変換し、上書きする。)。
(ステップs12−2)解析結果カラムの表記「アップル/社」、解析結果カラムの読み「アップル/シャ」に逆変換ルール3(詳細は後述)の表記用正規表現、読み用正規表現をそれぞれ適用すると、それぞれ「アップル」、「アップル」となる。その結果を解析処理結果テーブル7の表記正規化カラム、表記+読み正規化カラムへ書き出し、ステップs12−3へ進む。
(ステップs12−3)解析結果カラムの読み「アップル/シャ」と、ステップs12−2で書き出した表記+読み正規化カラムの読み「アップル」に対して音節正規化ルール4(詳細は後述)を適用する。前者は「アプル/シャ」となり、読み正規化カラムへ書き出される。後者は「アプル」となり、表記+読み正規化カラムへ上書きされる。
以上の処理をID2以後も同様に繰り返す(図15ではID14まで表示)。その結果が図3となる。
ここで、(ステップs12−2)で逆変換ルール3が適用されるのは、図3に示す処理結果テーブル7内のレコードのうち(以下の例からは形態素区切り記号“/”は必要のない限り省略する。)、
・レコードID1:アップル社(→表記:アップル,表記+読み:アップル)
・レコードID10:ショコタン(→表記:ショコ,表記+読み:ショコ)
・レコードID12:ヨン様(→表記:ヨン,表記+読み:ヨン)
・レコードID14:ミキティ(→表記:ミキ,表記+読み:ミキ)
の4つである。
また、(ステップs12−3)で音節正規化ルール4が適用されるのは、図3に示す処理結果テーブル7内のレコードのうち、
・レコードID1:アップル社(→読み:アプルシャ,表記+読み:アプル)
・レコードID2:ショウコ(→読み:ショコ,表記+読み:ショコ)
・レコードID4:八景島シーパラダイス(→読み:ハケイジマシパラダイス,表記+読み:ハケイジマシパラダイス)
・レコードID8:アップル(→読み:アプル,表記+読み:アプル)
・レコードID11:シーパラ(→読み:シパラ,表記+読み:シパラ)
の5つである。
同義語侯補ペア作成部13では正規化処理部12で作成した図3に示す解析処理結果テーブル7の全レコード総当たりで同義語侯補ペアを作成し、図5に示す同義語侯補ペアリスト8を出力する。
[同義性判定部2]
同義性判定部2への入力は、図5に示す同義語侯補ペアリスト8及び図3に示す解析処理結果テーブル7である。以下、図5のリスト8のレコードごとに表記類似判定部21から省略判定部23までの処理を繰り返し、どこかの過程で同義と判定された時点でその同義語侯補ペアを同義であると認定し、次の同義語侯補ペアの処理へと移行する。最後まで同義と判定されなかったペアは同義語であると認定しない。全てのレコードの処理が終了した時点で、同義語と認定された同義語侯補ペアを同義語ペアリストとして出力する。
まず、同義語ペアリスト8内のレコードID1(「アップル社」,「EVA」)から処理を開始する。
表記類似判定部21では同義語ペアリスト8のレコードID1に対応する侯補ID1,ID2から、解析処理結果テーブル7を参照すると、表記正規化カラムの表記は「アップル」,「EVA」となっており、異なるため表記類似判定部21での処理を終了し、読み類似判定部22へと進む。
読み類似判定部22では同義語ペアリスト8のレコードID1に対応する侯補ID1,ID2から処理結果テーブル7の読みを参照し、判定を行う。この同義語侯補ペアの読みはそれぞれ、解析結果カラムの読み:「アップルシャ」,「エバ」、読み正規化カラムの読み:「アプルシャ」,エバ」、表記+読み正規化カラムの読み:「アプル」,「エバ」の3つとなる。それぞれについて以下の処理を3回繰り返し行う。
まず、解析結果カラムの読み:「アップルシャ」,「エバ」について処理を行う。
(ステップs22−1)同義語侯補ペアの読みが異なるためステップs22−2へ進む。
(ステップs22−2)読みの音節数をカウントすると「アップルシャ」は4音節、「エバ」は2音節で異なるため、次の繰り返し処理へ移る。
ステップs22−1へ戻り、「アプルシャ」,「エバ」、「アプル」,「エバ」と処理を繰り返すが、両者とも音節数が異なり、同義とならないため、省略判定部23へ進む。
省略判定部23で同義語ペアリスト8のレコードID1のペアについて次に挙げる4通りの情報について、解析処理テーブル7を参照して判定を行う。解析結果カラムの表記:「アップル社」,「EVA」、表記正規化カラムの表記:「アップル」,「EVA」、読み正規化後カラムの読み:「アプルシャ」,「エバ」、表記+読み正規化カラムの読み:「アプル」,「エバ」の4パターンである。それぞれについて以下の処理を繰り返し行う。
まず、解析結果カラムの表記:「アップル社」,「EVA」から処理を開始する。
(ステップs23−1)表記が包含関係にないため、次の繰り返し処理に移る。続いて「アップル」,「EVA」、「アプルシャ」,「エバ」、「アプル」,「エバ」の処理を行っていくが、全て包含関係に無いため省略判定部23での処理を終了する。
同義語ペアリスト8のレコードID1は同義性判定部2の処理中に1度も同義と判定されなかったため、同義語ペアと認定せず次のレコード、即ちID2の処理に移る。
ここで、レコードID2(「アップル社」,「八景島シーパラダイス」)、レコードID3(「アップル社」,「翔子」)もレコードID1と同様に同義とならないので、以下、図5のリスト8内で最終的に同義と判定されるレコードID7,ID22,ID45,ID63,ID78,ID90,ID121のうち、代表的なパターンであるID7,ID22,ID45,ID63,ID121に絞って同義性判定部2での処理を説明する。
★レコードID7(「アップル社」,「アップル」)
[表記類似判定部21]
(ステップs21−1)同義語候補ペアリスト8の侯補ID1,ID8から解析処理結果テーブル7を参照すると、表記正規化カラムの表記同士は「アップル」,「アップル」となっており、全く同じなためステップs21−2へ進む。
(ステップs21−2)同義と判定し、同義性判定部2での処理を終了する。
★レコードID22(「EVA」,「エヴァ」)
[表記類似判定部21]
(ステップs21−1)同義語侯補ペアリスト8の侯補ID2,ID9から解析処理結果テーブル7を参照すると、表記正規化カラムの表記同士は「EVA」,「エヴァ」で異なるため表記類似判定部21の処理を終了し、読み類似判定部22へと進む。
[読み類似判定部22]
同義語侯補ペアリスト8の侯補ID2,ID9から解析処理結果テーブル7を参照して
・解析結果カラムの読み:「エバ」,「エヴァ」
・読み正規化カラムの読み:「エバ」,「エヴァ」
・表記+読み正規化カラムの読み:「エバ」,「エヴァ」
を求め、繰り返し処理を行う。
まず、解析結果カラムの読み:「エバ」,「エヴァ」について処理を行う。
(ステップs22−1)読みが異なるためステップs22−2へ進む。
(ステップs22−2)読みの音節数をカウントし、両者とも2音節なためステップs22−3へ進む。
(ステップs22−3)音節位置が同じで読みが異なる音節は、「バ」と「ヴァ」で、音節類似度テーブル4(図13(b):詳細は後述)から距離が0.87と求まる。この同義語侯補ペアには音節位置が同じで読みが異なるペアは1つしかないため、ペア間の距離は0.87となる。ステップs22−4へ進む。
(ステップs22−4)距離の総和は0.87で予め設定した閾値0.9より小さいためステップs22−5へ進む。
(ステップs22−5)同義と判定し、同義性判定部2での処理を終了する。
★レコードID45(「翔子」,「ショコタン」)
[表記類似判定部21]
(ステップs21−1)同義語候補ペアリスト8の侯補ID3,ID10から解析処理結果テーブル7を参照すると、表記正規化カラムの表記同士は「翔子」,「ショコ」で異なるため表記類似判定部21の処理を終了し、読み類似判定部22へと進む。
[読み類似判定部22]
同義語候補ペアリスト8の侯補ID3,ID10から解析処理結果テーブル7を参照して
・解析結果カラムの読み:「ショウコ」,「ショコタン」
・読み正規化カラムの読み:「ショコ」,「ショコタン」
・表記+読み正規化カラムの読み:「ショコ」,「ショコ」
を求め、繰り返し処理を行う。
まず、解析結果カラムの読み:「ショウコ」,「ショコタン」について処理を行う。
(ステップs22−1)読みが異なるためステップs22−2へ進む。
(ステップs22−2)読みの音節数をカウントし、「ショウコ」は3音節、「ショコタン」は4音節で異なるため次の繰り返し処理へ移る。
次に読み正規化カラムの読み:「ショコ」,「ショコタン」について処理を行う。
(ステップs22−1)読みが異なるためステップs22−2へ進む。
(ステップs22−2)読みの音節数をカウントし、「ショコ」は2音節、「ショコタン」は4音節で異なるため次の繰り返し処理へ移る。
次に表記+読み正規化カラムの読み:「ショコ」,「ショコ」について処理を行う。
(ステップs22−1)読みが等しいため、ステップs22−5へ進む。
(ステップs22−5)同義と判定し、同義性判定部2での処理を終了する。
★レコードID63(「八景島シーパラダイス」,「シーパラ」)
[表記類似判定部21]
(ステップs21−1)同義語侯補ペアリスト8の侯補ID4,ID11から解析処理結果テーブル7を参照すると、表記正規化カラムの表記同士は「八景島シーパラダイス」,「シーパラ」で表記が異なるため表記類似判定部21の処理を終了し、読み類似判定部へと進む22。
[読み類似判定部22]
同義語侯補ペアリスト8の侯補ID4,ID11から解析処理結果テーブル7を参照して
・解析結果カラムの読み:「ハッケイジマシーパラダイス」,「シーパラ」
・読み正規化カラムの読み:「ハケイジマシパラダイス」,「シパラ」
・表記+読み正規化カラムの読み:「ハケイジマシパラダイス」,「シパラ」
を求め、繰り返し処理を行う。
この3パターンのそれぞれについて前記と同様に処理を繰り返した結果、どれもペア間で音節数が異なり、同義と判定されないため、省略判定部23へ処理を進める。
[省略判定部23]
同義語候補ペアリスト8の侯補ID3,ID10から解析処理結果テーブル7を参照して
・解析結果カラムの表記同士:「八景島シーパラダイス」,「シーパラ」
・表記正規化カラムの表記同士:「八景島シーパラダイス」,「シーパラ」
・読み正規化後カラムの読み同士:「ハケイジマシパラダイス」,「シパラ」
・表記+読み正規化カラムの読み同士:「ハケイジマシパラダイス」,「シパラ」
を求める。
この4パターンのそれぞれについて以下の処理を繰り返し行う。
まず、解析結果カラムの表記同士:「八景島シーパラダイス」,「シーパラ」の処理を行う。
(ステップs23−1)表記が包含関係にあるためステップs23−2へ進む。
(ステップs23−2)DPマッチング法により位置合わせを行うと、図16の左上に示すようになる。ステップs23−3へ進む。
(ステップs23−3)素性の抽出を図16のステップs23−3に示すように行う。削除前の表現が「八景島シーパラダイス」、削除後の表現が「シーパラ」で、削除後残った形態素は「シー」、削除された形態素は「八景島」、削除された文字は「ダ」,「イ」,「ス」、残った文字は「パ」,「ラ」である。この6つについて、それぞれ処理結果テーブル7を参照しながら図16の右側に示したように形態素数,文字数,品詞等の素性の抽出を行う。
(ステップs23−4)分類器のモデルである略判定モデル6を用いて同義義語侯補ペアが省略語関係にあるかを判定した結果、同義となるためステップs23−5へ進む。
(ステップs23−5)同義と判定し、同義性判定部2での処理を終了する。
★レコードID121(「安藤美姫」,「ミキティ」)
[表記類似判定部21]
(ステップs21−1)同義語候補ペアリスト8の侯補ID7,ID14から解析処理結果テーブル7を参照すると、表記正規化カラムの表記同士は「安藤美姫」,「ミキ」で表記同士が異なるため表記類似判定部21の処理を終了し、読み類似判定部22へと進む。
[読み類似判定部22]
同義語候補ペアリスト8の侯補ID7,ID14から解析処理結果テーブル7を参照して
・解析結果カラムの読み:「アンドウミキ」,「ミキティ」
・読み正規化カラムの読み:「アンドウミキ」,「ミキティ」
・表記+読み正規化カラムの読み:「アンドウミキ」,「ミキ」
を求め、繰り返し処理を行う。
この3パターンのそれぞれについて前記と同様に処理を繰り返した結果、どれもペア間で音節数が異なり、同義と判定されないため、省略判定部23へ処理を進める。
[省略判定部23]
同義語候補ペアリスト8の侯補ID7,ID14から解析処理結果テーブル7を参照して
・解析結果カラムの表記同士:「安藤美姫」,「ミキティ」
・表記正規化カラムの表記同士:「安藤美姫」,「ミキ」
・読み正規化後カラムの読み同士:「アンドウミキ」,「ミキティ」
・表記+読み正規化カラムの読み同士:「アンドウミキ」,「ミキ」
を求める。
この4パターンそれぞれについて以下の処理を繰り返し行う。
まず、解析結果カラムの表記同士:「安藤美姫」,「ミキティ」の処理を行う。
(ステップs23−1)表記が包含関係にないため、次の繰り返し処理へ進む。
次の「安藤美姫」,「ミキ」、「アンドウミキ」,「ミキティ」の処理を順次行うが、両者とも包含関係にないため、同義と判定されない。最後の「アンドウミキ」,「ミキ」の処理は以下のようになる。
(ステップs23−1)読みが包含関係にあるためステップs23−2へ進む。
以後、(ステップs23−2)〜(ステップs23−5)はレコードID63(「八景島シーパラダイス」,「シーパラ」)の例の場合と同様に行う。
以上のようにして同義侯補ペアリスト8内の同義語侯補全ての同義性判定を終えた後、同義と判定されたレコードID7,ID22,ID45,ID63,ID78,ID90,ID121を同義語ペアとして出力する。
[II]逆変換ルール3及び音節正規化ルール4の詳細な適用例、音節類似度テーブル5及び省略判定モデル6の作成例
逆変換ルール3については、本実施例では図11に挙げた接頭辞の削除、接尾辞の削除、読み仮名の削除、繰り返し表現の削除、省略記号の削除の4つについて説明する。
接頭辞の削除では、例えば「表記:お/吉,読み:オ/キチ」という対象に適用すると接頭辞の「お」を削除して「表記:吉,読み:キチ」となる。
接尾辞の削除では、例えば「表記:アップル/社,読み:アップル/シャ」という対象に適用すると、接尾辞の「社」を削除して「表記:アップル,読み:アップル」となる。
読み仮名の削除では、例えば「表記:安/(/やす/)/めぐみ,読み:ヤス/ヤス/メグミ」という対象に適用すると、「表記:安/めぐみ,読み:ヤス/メグミ」となる。
繰り返し表現の削除では、例えば「表記:キョンキョン,読み:キョンキョン」という対象に適用すると、「表記:キョン,読み:キョン」となる。
省略記号の削除では、「表記:ハリーポッター3/ /炎/の/−,読み:ハリーポッターサン/ /ホノオ/ノ」という対象に適用すると,「表記:ハリーポッター3/ /炎/の,読み:ハリーポッターサン/ /ホノオ/ノ」となる。
音節正規化ルール4については,本実施例では図12に挙げた「ユウコ」、「ウィンブルドン」、「イェルサレム」、「スウィング」の4例について説明する。
★「ユウコ」
「ユ」と「ウ」で同じ母音が連続するためルール1が適用され、母音連続部分が長音化して「ユーコ」となる。次にルール1により長音となった部分に対してルール5が適用され「ユコ」となる。
★「ウインブルドン」
母音「ウ」と別種の母音の拗音「ィ」が連続するためルール2が適用され、「ウインブルドン」となる。
★「イェルサレム」
母音「イ」と別種の母音の拗音「ェ」が連続するためルール2が適用され、「イエルサレム」となる。さらに、ルール2に当てはまった母音と母音の拗音がルール3の条件と一致するため、母音「イ」が削除され、「エルサレム」となる。
★「スウイング」
母音「ウ」と別種の母音の拗音「ィ」が連続するためルール2が適用され、「スウイング」となる。さらに、ルール2を適用した結果、母音が「ウウイ」と連続することになり、ルール4の条件に当てはまるため、連続する同種の母音「ウ」を1つ削除して「スイング」となる。
音節類似度テーブル5の作成方法を、図13に挙げた「アーティスト」とその異表記を用いた例で説明する。形態素解析辞書は、異表記・表記ゆれに対応しており、その読み及び標準表記の情報を備えたものを用いる。まず、形態素解析辞書から、標準表記が同じで発音が異なる単語「アーティスト」,「アーテスト」,「アーチスト」を集める。次に、それぞれの表現に対して音節正規化ルール4を適用し、音節数が一致したもので位置合わせを行う。その結果、「アティスト」,「アテスト」,「アチスト」となり、音節位置が同じで読みが異なる3つのペア「テとティ」,「チとティ」,「テとチ」が求まる。同様にして形態素解析辞書から標準表記をキーに異表記の収集、正規化、読みの異なるペアを収集する。辞書全部の処理が終わった時点で、音節位置が同じで読みが異なるペアと、出現する音節の数を、それぞれ種類ごとにカウントする。そして図13の式を用いて距離を計算することで、テーブルを作成する。
省略判定モデル6の作成方法として、識別関数にSVMを用いた例を説明する。学習に利用するテキストデータは、出来れば実運用時に用いる入力テキストと同じドメインから取得すること、実運用時に用いるのと同じ解析器で解析処理を行うことが望ましい。学習用のテキストに対して本実施例1と同じ方法で同義候補表現ペアを作成した後、表記が包含関係になっているものだけを取り出す。そしてそれぞれのエントリについて人手で同義か否かの正解付けを行う。そして省略判定部23と同様の素性を抽出し、識別関数のパラメータを学習することにより、省略判定モデルを作成する。また、このとき同義語候補ペア生成部1で作成した同義語候補表現ペアの、読みカラムや表記正規化カラム、読み正規化カラム、表記+読み正規化カラムのデータを用いて学習すれば、それぞれのカラムに対応した省略判定モデルを作成できる。
なお、実施の形態における逆変換ルール記憶部、音節正規化ルール記憶部、音節類似度テーブル記憶部、省略判定モデル記憶部、解析処理結果テーブル記憶部、同義語候補ペアリスト記憶部、という記載は、どのようなデータを記憶するかという機能上の違いに基づく表現であり、ハードウェア的に個別の記憶部(記憶装置)が必要であるという意味ではない。また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図1、図2、図6の構成図に示された機能を実現するプログラムあるいは図4、図7乃至図10の流れ図に示された手順を備えるプログラムをインストールすることによっても実現可能である。
本発明の同義性判定装置の実施の形態の一例を示す概略ブロック図 同義語侯補生成部の詳細を示すブロック図 解析処理結果テーブルの一例を示す説明図 正規化処理部における処理の流れ図 同義語侯補ペアリストの一例を示す説明図 同義性判定部の詳細を示すブロック図 同義性判定部における処理の流れ図 表記類似判定部における処理の流れ図 読み類似判定部における処理の流れ図 省略判定部における処理の流れ図 逆変換ルールの一例を示す説明図 音節正規化ルールの一例を示す説明図 音節類似度テーブルの作成手順及びその一例を示す説明図 入力テキストの一例を示す説明図 解析処理終了時点の解析処理結果テーブルの一例を示す説明図 省略判定部における素性抽出処理の一例を示す説明図
符号の説明
1:同義語候補ペア生成部、2:同義性判定部、3:逆変換ルール記憶部、4:音節正規化ルール記憶部、5:音節類似度テーブル記憶部、6:省略判定モデル記憶部、7:解析処理結果テーブル記憶部、8:同義語候補ペアリスト記憶部、11:解析処理部、12:正規化処理部、13:ペア生成部、21:表記類似判定部、22:読み類似判定部、23:省略判定部。

Claims (10)

  1. テキストから同義語候補としての文字列表現である同義語侯補表現を抽出して同義語侯補ペアを生成し、当該同義語侯補ペア中の同義語侯補表現同士が同義か否かを判定する同義性判定装置であって、
    同義語侯補表現の表記を正規化するための逆変換ルールを記憶する逆変換ルール記憶部と、
    同義語侯補表現の読みを正規化するための音節正規化ルールを記憶する音節正規化ルール記憶部と、
    同義語侯補ペア中の同義語侯補表現同士の読みの類似度を求めるための音節類似度テーブルを記憶する音節類似度テーブル記憶部と、
    同義語侯補ペア中の同義語侯補表現同士が省略語関係にあるか否かを判定するための省略判定モデルを記憶する省略判定モデル記憶部と、
    入力されたテキストを解析処理し、その解析結果に基づいて前記テキストから同義語侯補表現を抽出するとともに対応する解析結果を付与し、逆変換ルール記憶部に記憶された逆変換ルール並びに音節正規化ルール記憶部に記憶された音節正規化ルールを用いて前記同義語侯補表現の表記及び読みの正規化を行った後、同義語侯補表現同士を組み合わせて一対の同義語侯補表現よりなる同義語侯補ペアを生成する同義語侯補ペア生成手段と、
    音節類似度テーブル記憶部に記憶された音節類似度テーブル及び省略判定モデル記憶部に記憶された省略判定モデルを用いて前記同義語侯補ペア中の同義語侯補表現同士が同義か否かを判定し、同義であれば当該同義語侯補ペアを同義語ペアとして出力する同義性判定手段と、を備えた
    ことを特徴とする同義性判定装置。
  2. 請求項1記載の同義性判定装置において、
    名詞を利用する際に一般的に挿入される接辞形を削除するルール、愛称を作成する際に利用される繰り返し表現を削除するルールを少なくとも含む、表記を正規化し、当該表記の正規化に併せて読みを正規化する逆変換ルールを用い、
    同義語侯補ペア生成手段は、同義語侯補表現の解析結果中の表記に前記逆変換ルールを適用して少なくとも接辞形と繰り返し表現を削除し、当該削除に併せて読みを訂正する正規化処理を行う
    ことを特徴とする同義性判定装置。
  3. 請求項1記載の同義性判定装置において、
    読みの母音連続や長音、促音に対して適用することで和語と外来語とで異なる読みの長さの単位、口語表現、音訳時のゆれを少なくとも正規化する音節正規化ルールを用い、
    同義語侯補ペア生成手段は、同義語侯補表現の解析結果中の読み及び逆変換ルールによって正規化された表記の読みの母音連続や長音、促音に前記音節正規化ルールを適用して正規化する正規化処理を行う
    ことを特徴とする同義性判定装置。
  4. 請求項1記載の同義性判定装置において、
    「表記は異なるが読みが類似する音節ペア」をキーとし、「距離」を値とした、同義語侯補ペア中の同義語侯補表現同士の読みの類似度を求めるための音節類似度テーブルを用い、
    同義語判定手段は、同義語候補ペア中の各同義語侯補表現の読みの、音節数が等しく且つ音節位置が同じで読みが異なる音節間の距離の総和を前記音節類似度テーブルを用いて求め、当該距離の総和が予め設定した閾値より小さければ同義と判定する
    ことを特徴とする同義性判定装置。
  5. テキストから同義語候補としての文字列表現である同義語侯補表現を抽出して同義語侯補ペアを生成し、当該同義語侯補ペア中の同義語侯補表現同士が同義か否かを判定する同義性判定方法であって、
    同義語侯補表現の表記を正規化するための逆変換ルールを記憶する逆変換ルール記憶部と、
    同義語侯補表現の読みを正規化するための音節正規化ルールを記憶する音節正規化ルール記憶部と、
    同義語侯補ペア中の同義語侯補表現同士の読みの類似度を求めるための音節類似度テーブルを記憶する音節類似度テーブル記憶部と、
    同義語侯補ペア中の同義語侯補表現同士が省略語関係にあるか否かを判定するための省略判定モデルを記憶する省略判定モデル記憶部とを用い、
    同義語侯補ペア生成手段が、入力されたテキストを解析処理し、その解析結果に基づいて前記テキストから同義語侯補表現を抽出するとともに対応する解析結果を付与し、逆変換ルール記憶部に記憶された逆変換ルール並びに音節正規化ルール記憶部に記憶された音節正規化ルールを用いて前記同義語侯補表現の表記及び読みの正規化を行った後、同義語侯補表現同士を組み合わせて一対の同義語侯補表現よりなる同義語侯補ペアを生成する工程と、
    同義性判定手段が、音節類似度テーブル記憶部に記憶された音節類似度テーブル及び省略判定モデル記憶部に記憶された省略判定モデルを用いて前記同義語侯補ペア中の同義語侯補表現同士が同義か否かを判定し、同義であれば当該同義語侯補ペアを同義語ペアとして出力する工程とを含む
    ことを特徴とする同義性判定方法。
  6. 請求項5記載の同義性判定方法において、
    名詞を利用する際に一般的に挿入される接辞形を削除するルール、愛称を作成する際に利用される繰り返し表現を削除するルールを少なくとも含む、表記を正規化し、当該表記の正規化に併せて読みを正規化する逆変換ルールを用い、
    同義語侯補ペア生成工程は、
    同義語侯補表現の解析結果中の表記に前記逆変換ルールを適用して少なくとも接辞形と繰り返し表現を削除し、当該削除に併せて読みを訂正する正規化処理を行う工程を含む
    ことを特徴とする同義性判定方法。
  7. 請求項5記載の同義性判定方法において、
    読みの母音連続や長音、促音に対して適用することで和語と外来語とで異なる読みの長さの単位、口語表現、音訳時のゆれを少なくとも正規化する音節正規化ルールを用い、
    同義語侯補ペア生成工程は、
    同義語侯補表現の解析結果中の読み及び逆変換ルールによって正規化された表記の読みの母音連続や長音、促音に前記音節正規化ルールを適用して正規化する正規化処理を行う工程を含む
    ことを特徴とする同義性判定方法。
  8. 請求項5記載の同義性判定方法において、
    「表記は異なるが読みが類似する音節ペア」をキーとし、「距離」を値とした、同義語侯補ペア中の同義語侯補表現同士の読みの類似度を求めるための音節類似度テーブルを用い、
    同義語判定工程は、
    同義語候補ペア中の各同義語侯補表現の読みの、音節位置が同じで読みが異なる音節間の距離の総和を前記音節類似度テーブルを用いて求め、当該距離の総和が予め設定した閾値より小さければ同義と判定する工程を含む
    ことを特徴とする同義性判定方法。
  9. コンピュータを、請求項1乃至4のいずれかに記載の同義性判定装置の各手段として機能させるためのプログラム。
  10. 請求項9に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2008065256A 2008-03-14 2008-03-14 同義性判定装置、その方法、プログラム及び記録媒体 Expired - Fee Related JP5094486B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008065256A JP5094486B2 (ja) 2008-03-14 2008-03-14 同義性判定装置、その方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008065256A JP5094486B2 (ja) 2008-03-14 2008-03-14 同義性判定装置、その方法、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2009223463A true JP2009223463A (ja) 2009-10-01
JP5094486B2 JP5094486B2 (ja) 2012-12-12

Family

ID=41240199

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008065256A Expired - Fee Related JP5094486B2 (ja) 2008-03-14 2008-03-14 同義性判定装置、その方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP5094486B2 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107751A (ja) * 2009-11-12 2011-06-02 Aisin Aw Co Ltd 地点検索装置及びプログラム
JP2011180862A (ja) * 2010-03-02 2011-09-15 Nippon Telegr & Teleph Corp <Ntt> 用語抽出方法とその装置と、プログラム
JP2012108795A (ja) * 2010-11-18 2012-06-07 Ntt Docomo Inc 同義語判定装置、同義語判定方法およびプログラム
JP2013016011A (ja) * 2011-07-04 2013-01-24 Nippon Telegr & Teleph Corp <Ntt> 同義語辞書生成装置、その方法、及びプログラム
JP2014006620A (ja) * 2012-06-22 2014-01-16 Yahoo Japan Corp 同義語推定装置、同義語推定方法および同義語推定プログラム
JP2014006621A (ja) * 2012-06-22 2014-01-16 Yahoo Japan Corp 同義語推定装置、同義語推定方法および同義語推定プログラム
JP2015106361A (ja) * 2013-12-02 2015-06-08 株式会社日立製作所 データ検索システムおよびデータ検索方法
JP2016091344A (ja) * 2014-11-06 2016-05-23 日本電気株式会社 ゆれ語判定装置、ゆれ語判定方法、ゆれ語判定プログラム、及び、文書分析装置
KR101769035B1 (ko) * 2016-03-28 2017-08-18 울산과학기술원 한국어 텍스트 클러스터링 시스템 및 방법
JP2018010543A (ja) * 2016-07-15 2018-01-18 株式会社トヨタマップマスター 表記揺れ用語集作成装置、検索システム、それらの方法、それらのコンピュータプログラム及びそれらのコンピュータプログラムを記録した記録媒体
JP2020135877A (ja) * 2019-02-18 2020-08-31 ネイバー コーポレーションNAVER Corporation 音訳モデルを利用して外来同義語を自動抽出する方法およびシステム
CN112395867A (zh) * 2020-11-16 2021-02-23 中国平安人寿保险股份有限公司 同义词挖掘方法、装置、存储介质及计算机设备
WO2022168208A1 (ja) * 2021-02-03 2022-08-11 日本電気株式会社 情報処理装置、変換パターンの決定方法、名寄せ方法、学習方法、変換パターン決定プログラム、名寄せプログラム、および学習プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05282293A (ja) * 1992-03-31 1993-10-29 Matsushita Electric Ind Co Ltd 文書作成装置
JPH10177575A (ja) * 1996-10-15 1998-06-30 Ricoh Co Ltd 語句抽出装置および方法、情報記憶媒体
JP2002269134A (ja) * 2001-03-09 2002-09-20 Ricoh Co Ltd 文字列処理方法及び装置、並びに情報検索システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05282293A (ja) * 1992-03-31 1993-10-29 Matsushita Electric Ind Co Ltd 文書作成装置
JPH10177575A (ja) * 1996-10-15 1998-06-30 Ricoh Co Ltd 語句抽出装置および方法、情報記憶媒体
JP2002269134A (ja) * 2001-03-09 2002-09-20 Ricoh Co Ltd 文字列処理方法及び装置、並びに情報検索システム

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107751A (ja) * 2009-11-12 2011-06-02 Aisin Aw Co Ltd 地点検索装置及びプログラム
JP2011180862A (ja) * 2010-03-02 2011-09-15 Nippon Telegr & Teleph Corp <Ntt> 用語抽出方法とその装置と、プログラム
JP2012108795A (ja) * 2010-11-18 2012-06-07 Ntt Docomo Inc 同義語判定装置、同義語判定方法およびプログラム
JP2013016011A (ja) * 2011-07-04 2013-01-24 Nippon Telegr & Teleph Corp <Ntt> 同義語辞書生成装置、その方法、及びプログラム
JP2014006620A (ja) * 2012-06-22 2014-01-16 Yahoo Japan Corp 同義語推定装置、同義語推定方法および同義語推定プログラム
JP2014006621A (ja) * 2012-06-22 2014-01-16 Yahoo Japan Corp 同義語推定装置、同義語推定方法および同義語推定プログラム
JP2015106361A (ja) * 2013-12-02 2015-06-08 株式会社日立製作所 データ検索システムおよびデータ検索方法
JP2016091344A (ja) * 2014-11-06 2016-05-23 日本電気株式会社 ゆれ語判定装置、ゆれ語判定方法、ゆれ語判定プログラム、及び、文書分析装置
KR101769035B1 (ko) * 2016-03-28 2017-08-18 울산과학기술원 한국어 텍스트 클러스터링 시스템 및 방법
JP2018010543A (ja) * 2016-07-15 2018-01-18 株式会社トヨタマップマスター 表記揺れ用語集作成装置、検索システム、それらの方法、それらのコンピュータプログラム及びそれらのコンピュータプログラムを記録した記録媒体
JP2020135877A (ja) * 2019-02-18 2020-08-31 ネイバー コーポレーションNAVER Corporation 音訳モデルを利用して外来同義語を自動抽出する方法およびシステム
JP7014830B2 (ja) 2019-02-18 2022-02-01 ネイバー コーポレーション 音訳モデルを利用して外来同義語を自動抽出する方法およびシステム
CN112395867A (zh) * 2020-11-16 2021-02-23 中国平安人寿保险股份有限公司 同义词挖掘方法、装置、存储介质及计算机设备
CN112395867B (zh) * 2020-11-16 2023-08-08 中国平安人寿保险股份有限公司 同义词挖掘方法、装置、存储介质及计算机设备
WO2022168208A1 (ja) * 2021-02-03 2022-08-11 日本電気株式会社 情報処理装置、変換パターンの決定方法、名寄せ方法、学習方法、変換パターン決定プログラム、名寄せプログラム、および学習プログラム
JP7559842B2 (ja) 2021-02-03 2024-10-02 日本電気株式会社 情報処理装置、変換パターンの決定方法、および変換パターン決定プログラム

Also Published As

Publication number Publication date
JP5094486B2 (ja) 2012-12-12

Similar Documents

Publication Publication Date Title
JP5094486B2 (ja) 同義性判定装置、その方法、プログラム及び記録媒体
CN108140019B (zh) 语言模型生成装置、语言模型生成方法以及记录介质
TW448381B (en) Automatic segmentation of a text
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
US9280967B2 (en) Apparatus and method for estimating utterance style of each sentence in documents, and non-transitory computer readable medium thereof
Pennell et al. Normalization of text messages for text-to-speech
JP2003514304A5 (ja)
Nicolai et al. Leveraging Inflection Tables for Stemming and Lemmatization.
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
Etxeberria et al. Evaluating the noisy channel model for the normalization of historical texts: Basque, Spanish and Slovene
Abate et al. Development of Amharic morphological analyzer using memory-based learning
JP6718787B2 (ja) 日本語音声認識モデル学習装置及びプログラム
Gu et al. Markov modeling of mandarin Chinese for decoding the phonetic sequence into Chinese characters
Etxeberria et al. Weighted finite-state transducers for normalization of historical texts
JP5853595B2 (ja) 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム
KR101663038B1 (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
Taji et al. The columbia university-new york university abu dhabi sigmorphon 2016 morphological reinflection shared task submission
Hsieh et al. Correcting Chinese spelling errors with word lattice decoding
JP5523929B2 (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
KR19980047177A (ko) 한국어 문서 음성 변환 시스템을 위한 문서 분석기
Asahiah Development of a Standard Yorùbá digital text automatic diacritic restoration system
Hahn et al. Optimizing CRFs for SLU tasks in various languages using modified training criteria
Seddah et al. Enriching the NArabizi Treebank: A Multifaceted Approach to Supporting an Under-Resourced Language
JP2009176148A (ja) 未知語判定システム、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100113

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110613

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110614

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110615

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120709

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120918

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120918

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150928

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees