JP2009223463A

JP2009223463A - 同義性判定装置、その方法、プログラム及び記録媒体

Info

Publication number: JP2009223463A
Application number: JP2008065256A
Authority: JP
Inventors: Izumi Takahashi; いづみ高橋; Hisako Asano; 久子浅野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-03-14
Filing date: 2008-03-14
Publication date: 2009-10-01
Anticipated expiration: 2028-03-14
Also published as: JP5094486B2

Abstract

【課題】定型的な文字列の追加、または読みを保存しての表記変換、あるいは省略化等を伴う文字列表現の同義性を精度高く判定すること。
【解決手段】同義語侯補ペア生成部１により、入力されたテキストを解析処理し、その解析結果に基づいて前記テキストから同義語侯補表現を抽出するとともに対応する解析結果を付与し、逆変換ルール３並びに音節正規化ルール４を用いて前記同義語侯補表現の表記及び読みの正規化を行った後、同義語侯補表現同士を組み合わせて一対の同義語侯補表現よりなる同義語侯補ペアを生成し、同義性判定部２により、音節類似度テーブル５及び省略判定モデル６を用いて前記同義語侯補ペア中の同義語侯補表現同士が同義か否かを判定し、同義であれば当該同義語侯補ペアを同義語ペアとして出力する。
【選択図】図１

Description

本発明は、テキストに含まれる文字列表現の同義性を判定する技術、詳細にはテキストから同義語侯補としての文字列表現である同義語侯補表現を抽出して一対の同義語侯補表現よりなる同義語侯補ペアを生成し、当該同義語侯補ペア中の同義語侯補表現同士が同義か否か（同一の情報を指すか否か）を判定する技術に関する。

同義性判定技術は、テキストエディタにおけるスペルミス検出などに用いられる他、同技術により得られた同義語を集約することで同義語辞書を作成し、その辞書を検索装置に組み込んでクエリ拡張に用いる等の利用法がある。

なお、明細書及び図面中に登場する「ＰｌａｙＳｔａｔｉｏｎ」、「プレイステーション」、「プレーステーション」は登録商標であり、また、「アップル社」、「ペヨンジュン」、「木村拓哉」、「安藤美姫」、「安めぐみ」、「ハリーポッター」は著名な企業や人物、キャラクタ等の名称（氏名）であるが、本願が言語処理の発明であり、「（登録商標）」の文字を挿入したり、その表記を変更すると意味が変わってしまうため、そのまま記載するものとした。

言語を用いて任意の１つの事物・事象を表現しようとする場合、多彩な表現を選択することが可能なため、当該言語を表す文字列からなるテキスト中には同一の情報が複数の異なる表現（文字列表現）で存在する。また、テキストの量やそれを作成する人数が増えるほど、１つの情報に対する表現のバリエーションは増加する。そのためテキスト中の同一の情報を漏れなく集めるためには、２つの文字列表現同士が同一の情報を指しているか否かを判定する、同義性判定手法が必要となる。「同一の情報を指す文字列表現」の粒度は文書単位から単語単位まで様々なものが考えられるが、本発明における同義性判定は、名詞及び複合名詞単位で行うものを対象とする。

前述した名詞及び複合名詞単位の粒度において同義性判定を行う従来の手法としては大きく分けて２つあり、１つは識別手法、もう１つは生成手法である。識別手法は、任意のテキストから同義語侯補表現を抽出して同義語侯補ペアを生成し、同義か否かを判定する方法である（例えば、非特許文献１参照）。生成手法は、ある文字列表現の同義語侯補として考えられる表現を全て生成する方法であり、生成後にＷｅｂなどを用いて実在を確認する場合もある（例えば、非特許文献２参照）。

両手法とも同義語侯補ペアを作り、正解へと絞り込む（同義性判定を行う）という順序で行われ、獲得可能な同義語のカバー範囲はペア生成の手法に、精度はペア生成と絞込みの両手法に依存する。始めに文字種や略語、表記ゆれなど、より多様性のある同義語候補のペアを生成すればカバー範囲は広くなるが、精度は低くなる。精度を高くするには、ペア生成の時点で同義語の種類に制限を加え、より確からしい同義語侯補ペアに絞り込んで収集するか、絞込み（同義性判定）の手法として、多様性のある同義語に対しても高精度で判定が行える手法を採用する必要がある。

識別手法における同義語侯補の収集方法としては、表構造、タグや記号、特殊な表現（○○こと××）などのメタ情報を用いるもの（非特許文献３）と、表記の類似を利用して略語やカタカナ異表記など特定の種類に限定し、その特徴とのパターンマッチにより収集するもの（非特許文献１）がある。両方法ともペアの生成時にメタ情報や表記の種類などの制約を設けることで一定の精度を担保している。

生成手法は、あるテキスト表現の同義語侯補として考えられる表現を全て生成する手法であり、生成後にＷｅｂなどを用いて実在を確認する場合もある（例えば非特許文献２）。生成手法ではヒューリスティックなルールや確率モデルなどで同義語侯補ペアの生成を行うため、生成できる同義語侯補は略語やカタカナ異表記等の特定の種類に限定される。
酒井浩之、増山繁「コーパスからの名詞と略語の対応関係の自動獲得」言語処理学会第９回年次大会発表論文集、２００３年、ｐｐ．２２６〜２２９村山紀文、奥山学「Ｎｏｉｓｙ−ｃｈａｎｎｅｌｍｏｄｅｌを用いた略語自動推定」言語処理学会第１２回年次大会発表論文集、２００６年、ｐｐ．７６３〜７６６関恒仁、嶋田和孝、遠藤勉「表の構造を利用した類義語抽出」言語処理学会第１１回年次大会発表論文集、２００５年、Ｃ１−６

従来の識別手法において、メタ情報を利用して同義語侯補ペアを収集する手法は、特殊な記述方法で書かれた表記以外は同義語侯補ペアとして利用できず、それ以外の手法でも特定の種類（略語やカタカナ異表記）に特化しているため獲得できる範囲がその種類内に限られてしまい、カバー範囲が狭いという問題があった。

また、生成手法においては、前述したように同義語侯補ペアをヒューリスティックなルールにより生成する場合と、確率モデルを用いて生成する場合があるが、前者ではコストが高く、カバー範囲も狭いという問題があり、後者では極端に精度が低いという問題があった。

同義語には表記ゆれのように表記が類似しているほど同義である可能性が高い場合と、省略語のように表記の類似度だけでは同義性が計れない場合、さらにその両方の性質を備えている場合が混在しており、従来の手法のカバー範囲が狭いのは、手法を特定の同義語の種類に特化せざるをえないことが原因であった。

しかし、様々な種類がある同義語も発生過程に注目すると、（ａ）定型的な文字列の追加、（ｂ）読みを保存しての表記変換、（ｃ）省略化、という３つの主な原因に絞ることができる。その３種類が個別に起こる場合、そして同時に起こる場合があることにより同義語の多様性が増している（ａ，ｂ，ｃ，ａ＋ｂ，ａ＋ｃ，ｂ＋ｃ，ａ＋ｂ＋ｃの７パターン）。

（ａ）で追加される文字列は、「ちゃん」や「ティ」などの接辞表現や特定の記号など定型的な表現である。よって追加された定型的な文字列を削除すれば生成前の表記と同じになる。（ｂ）は「ＰｌａｙＳｔａｔｉｏｎ」を「プレイステーション」「プレーステーション」のように、読みを保存したまま表記を変換するため、同義語両方に読みを付与すると全く同じ、または非常に類似した読みとなる。（ｃ）は「国際連合」を「国連」のように文字順を保存したまま文字を削除するため、長いものが短いものを包含する関係にあり、どの文字が削除されるかにはある程度法則性がある。

そこでまず、（ａ）で追加された定型的な文字列を削除して表記の正規化を行い、（ｂ）で変換された表記に読みを付与して正規化を行って、その結果、表記または読みが同じになるか、非常に類似していれば同義と判定する。そして（ａ）と（ｂ）で生じるゆれを吸収した後に（ｃ）の省略が起こったか否かを判定する、という順序で判定を行えば、多様性のある同義語を全て判定することができ、カバー範囲を広げることが可能になる。

本発明は以上の問題を鑑みてなされたもので、同義語侯補収集時には１テキスト（少なくとも１つの文を含む１まとまりの文章）内の名詞総当りで同義語の種類に関係なく同義語侯補ペアを生成し、生成した多様性のある同義語侯補ペアの同義性判定可能な範囲をほぼ全種類にまで広げるため、それぞれを表記と読みの両方から正規化を行う。

同義語侯補ペア生成時には、名詞総当りで同義語侯補ペアを生成するため、テキストの記述方式に依存せず同義語侯補ペアが生成できる。また、１テキスト内という制約によってテキストを跨いで存在する、表記は類似しているが無関係な同義語侯補ペアを生成されるのを防ぐ。

同義性判定時には生成した同義語侯補ペアそれぞれを表記と読み両方から正規化を行うとともに、同義語侯補ペアがどの種類の同義語か条件判定し、同義語侯補ペアを種類ごとに分離してから判定を行うことで、同義語侯補ペアの種類に適した同義性判定手法を適用可能にし、精度を向上させることを可能とした。

また、本発明の同義性判定手法は、ほぼ全ての同義語の種類（略語やカタカナ異表記）に対応可能であるため、同義語侯補収集方法がどのような手法であっても同義性判定が可能で、既存の同義語侯補収集手法と組み合わせて使用することも可能である。

本発明は、テキストを入力すると、そこに含まれる名詞及び複合名詞から同義侯補ペアを生成し、ペアの単語それぞれの表記と読みを正規化し、その過程で全く同じ表記または非常に類似した読みとなったものは同義と判定し、同義と判定されなかったもので包含関係にあるものは分類器を用いて同義語かどうか判定を行うことを特徴とする。

本発明によれば、（ａ）定型的な文字列の追加、または（ｂ）読みを保存しての表記変換、あるいは（ｃ）省略化等を伴う、多様性のある文字列表現の同義性を精度高く判定することができる。

以下、本発明を図示の実施の形態により詳細に説明する。

図１は本発明の同義性判定装置の実施の形態の一例を示すもので、本同義性判定装置は、同義語候補ペア生成部１、同義性判定部２、逆変換ルール記憶部３、音節正規化ルール記憶部４、音節類似度テーブル記憶部５、省略判定モデル記憶部６、解析処理結果テーブル記憶部７及び同義語候補ペアリスト記憶部８からなる。

同義語侯補生成部１は、図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から入力されたテキスト、ここでは１テキスト（少なくとも１つの文を含む１まとまりの文章に対応するテキストデータ）を処理単位として周知の形態素解析や固有表現抽出などの解析処理を行い、その解析結果に基づいて前記テキストから同義語侯補表現を抽出し、当該同義語侯補表現とともにこれに対応する前記解析結果を解析処理結果テーブル記憶部７に記憶し、さらに各同義語侯補表現に対して逆変換ルール記憶部３に記憶された逆変換ルールを用いて表記の正規化を行い、音節正規化ルール記憶部４に記憶された音節正規化ルールを用いて読みの正規化を行い、それらの結果を解析処理結果テーブル記憶部７に記憶する。その後、解析処理結果テーブル記憶部７に記憶された同義語侯補表現同士を総当たりで組み合わせて同義語侯補ペアを作成し、同義語候補ペアリスト記憶部８に記憶する。

同義性判定部２は、同義語候補ペアリスト記憶部８から同義語侯補ペアを取り出し、当該同義語侯補ペア中の同義語侯補表現同士が同義か否かを、解析処理結果テーブル記憶部７に記憶された前記同義語侯補ペア中の各同義語侯補表現に対応する解析結果や正規化処理結果、並びに音節類似度テーブル記憶部５に記憶された音節類似度テーブル及び省略判定モデル記憶部６に記憶された省略判定モデルを用いて以下に述べるようにして判定し、同義であれば前記同義語侯補ペアを同義語ペアとして出力し、これを同義語候補ペアリスト記憶部８に記憶された全ての同義語候補ペアに対して同様に繰り返して同義語ペアリストを出力する。

同義か否かの判定は、まず、正規化後の表記が全く同じか否かで判定を行い、ここで同義と判定されなければ正規化後の読みが類似しているか否かで判定、即ち音節類似度テーブル記憶部５に記憶された音節類似度テーブルを用いて正規化後の読みの類似度を求め、該求めた類似度が所定の値以上かどうかで判定を行い、さらにここでも同義と判定されない場合は表記または読みが包含関係にあれば、省略判定モデル記憶部６に記憶された省略判定モデルを用いて省略語関係にある（略語）か否かで判定を行う。

逆変換ルール記憶部３は、名詞を利用する際に一般的に挿入されると思われる接頭辞や接尾辞等の接辞形を削除するルール、愛称を作成する際に利用される繰り返し表現を削除するルールを少なくとも含む、同義語侯補表現の表記を正規化し、当該表記の正規化に併せて読みを正規化するための逆変換ルールを記憶している。

音節正規化ルール記憶部４は、同義語侯補表現の読みの母音連続や長音、促音に適用することで、和語と外来語とで異なる読みの長さの単位（モーラと音節）、口語表現、音訳時のゆれを少なくとも正規化するための音節正規化ルールを記憶している。

音節類似度テーブル記憶部５は、「表記は異なるが読みが類似する音節ペア」をキーとし、「距離（類似度）」を値とした、同義語侯補ペア中の同義語侯補表現同士の読みの類似度を求めるための音節類似度テーブルを記憶している。

省略判定モデル記憶部６は、予め機械学習により生成した、２つの単語が省略語関係にあるか否かを判定するモデルからなる、同義語侯補ペア中の同義語侯補表現同士が省略語関係にあるか否かを判定するための省略判定モデルを記憶している。

以下、前述した各部についてさらに詳細に説明する。なお、以下の説明では各記憶部３乃至８の記憶内容に対しても、当該記憶部の符号をそのまま付して説明する場合があることを注記しておく。

［同義語侯補生成部１］
図２は同義語侯補生成部１の詳細を示すもので、解析処理部１１、正規化処理部１２及びペア生成部１３からなる。同義語侯補生成部１では、１テキストを入力として、解析処理部１１で形態素解析及び固有表現抽出等のテキスト解析処理を行い、その結果をもとに同義語侯補表現の切り出しを行う。そして正規化処理部１２で同義語侯補表現の正規化を行った後、ペア生成部１３で同義語侯補ペアを生成する。本実施の形態においては、同義侯補表現として固有表現を対象とした場合を例に採って説明する。

解析処理部１１では、周知の技術として確立されている形態素解析技術、固有表現抽出技術などを用いてテキストの解析を行い、同義語侯補表現の抽出を行う。形態素解析では、テキストに対し、形態素（表記）、読み、品詞（固有表現クラスを含む）などの情報を付与する。この時、テキスト内の文字の半角／全角の統一など、単純な正規化も済ませておく。読み付与は１番尤もらしいものを用いても、Ｎ−ｂｅｓｔを用いても良い。また、表記がアルファベットなどの未知語であり、形態素解析のみでは正しく読みが付与されないものについては読みを付与し直す。この読みの付与に関しては、アルファベットなど未知語の読みを正しく推定する手法（例えば、特開２００１−１４２８７７公報（発明の名称：アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体）等参照）を利用する。

同義語侯補表現は、固有表現抽出技術により切り出し、表記、読み、品詞等の解析結果（の情報）と共に解析処理結果テーブル７の同義語侯補表現カラム、解析結果カラムへ書き出す。但し、表記が全く同一の同義語侯補表現が既にテーブル７内に存在する場合はレコードが重複しないよう、書き出しは行わない。またこの時、形態素の区切りの情報は、例えば“／”の記号などを用いて表記、読み、品詞それぞれで保持しておく。解析処理結果テーブル７の一例を図３に示す。但し、この時点では解析処理結果テーブル７のうち同義語侯補表現カラムと解析結果カラムのみが埋まり、他は空の状態である。

ここでは説明のため切り出し対象を固有表現としたが、形態素解析結果を利用して名詞や複合名詞を同義語侯補表現としても良い。この結果、作成される解析処理結果テーブル７には１テキスト内に存在する同義語侯補表現の異なり数分だけレコードができる。

正規化処理部１２での処理の流れを図４を用いて説明する。正規化処理部１２では、切り出した同義語侯補表現に対して表記と読みから正規化を行う。入力は解析処理部１１で作成した解析処理結果テーブル７の全レコードの解析結果カラムのリストとし、リスト内のレコードごとに以下の処理を繰り返す。全レコードの処理を終えた場合は、正規化処理部１２での処理を終了する。

（ステップｓ１２−１）解析処理結果テーブル７の解析結果カラムの表記がアルファベットであれば大文字／小文字を大文字に統一し、同カラムへ上書きする。ステップｓ１２−２へ進む。

（ステップｓ１２−２）解析処理結果テーブル７の解析結果カラムの表記と読みに逆変換ルール記憶部３に記憶された逆変換ルールの表記用ルールと読み用ルール（詳細は後述）をそれぞれ適用し、結果を解析処理結果テーブル７へ書き出す。書き出し先については、逆変換ルールのうち、表記用ルールの適用結果は表記正規化カラム、読み用ルールの適用結果は表記＋読み正規化カラムとする（なお、適用すべきルールがない場合は解析結果カラムの表記をそのまま表記正規化カラムへ書き出し、解析結果カラムの読みをそのまま表記＋読み正規化カラムへ書き出す。）。ステップｓ１２−３へ進む。

（ステップｓ１２−３）解析処理結果テーブル７の解析結果カラムの読みと、ステップｓ１２−３で書き出した表記＋読み正規化カラムの読みに対して音節正規化ルール記憶部４に記憶された音節正規化ルール（詳細は後述）を適用し、結果を解析処理結果テーブル７へ書き出す。解析結果カラムの読みを正規化した結果は読み正規化カラムへ書き出し、表記＋読み正規化後の読みを正規化した結果は表記＋読み正規化カラムへ上書きする（なお、適用すべきルールがない場合は解析結果カラムの読みをそのまま読み正規化カラムへ書き出し、表記＋読み正規化カラムはそのまま（上書きしない）とする）。

同義語侯補ペア作成部１３では、正規化処理部１２での処理を終えた解析処理結果テーブル７の全レコードを総当たりで組み合わせて同義語侯補ペアを作成し、そのペアの同義語侯補表現のＩＤ（候補ＩＤ）を同義語侯補ペアリストとして同義語候補ペアリスト記憶部８に記憶する。同義語侯補ペアリストの一例を図５に示す。ペア作成の手法に関しては、カバー範囲を重要視しないのであれば総当たり以外の、例えばメタ情報を用いた手法を用いても、以後の本発明を利用することは可能である。

［同義性判定部２］
図６は同義性判定部２の詳細を示すもので、表記類似判定部２１、読み類似判定部２２及び省略判定部２３からなる。図７は同義性判定部２での処理の流れを示すものである。

同義性判定部２は、解析処理結果テーブル７及び同義語侯補ペアリスト８を入力とし、表記類似判定部２１、読み類似判定部２２及び省略判定部２３により、同義語侯補ペア中の同義語侯補表現同士が同義か否かを判定し、同義語ペアリストを出力する。

即ち、表記類似判定部２１では正規化した表記から同義性の判定を行い（ステップｓ２１）、読み類似判定部２２では正規化した読みから音節類似度テーブル５を用いて同義性の判定を行い（ステップｓ２２）、そして省略判定部２３では正規化した表記と読みの両方から省略判定モデル６を用いて省略語か否かを判定して同義性の判定を行う（ステップｓ２３）。同義語侯補ペアリスト８のレコードごとにステップｓ２１〜ｓ２３の処理を繰り返し、いずれかの過程で同義と判定された時点でその同義語侯補ペア中の同義語侯補表現同士を同義であると認定し（ステップｓ２４）、次の同義語侯補ペアの処理へと移行する。最後まで同義と判定されなかったペアは同義語であると認定しない（ステップｓ２５）。処理に必要となる同義語侯補ペアの同義語侯補表現のそれぞれの表記や読み、品詞等の情報は、同義語侯補ペアリスト８の候補ＩＤを用いて解析処理結果テーブル７内の該当情報を参照する。同義語侯補ペアリスト８の全てのレコードの処理が終了した時点で、同義語と認定された同義語侯補ペアを同義語ペアリストとして出力する。

表記類似判定部２１での処理の流れを図８を用いて説明する。入力は同義語侯補ペアリスト８の１レコードとする。ここでは同義語侯補ペア中の同義語侯補表現の各々の正規化後の表記を見て判定を行う。

（ステップｓ２１−１）同義語侯補ペア中の各同義語侯補表現の表記正規化カラムの表記同士が全く同じである場合はステップｓ２１−２へ、それ以外の場合は表記類似判定部２１での処理を終了し、読み類似判定部２２での処理に進む。

（ステップｓ２１−２）同義と判定し、同義性判定部２での処理を終了する。

読み類似判定部２２での処理の流れを図９を用いて説明する。表記類似判定部２１で同義と判定されなかった同義語侯補ペアのレコードを入力とする。ここでは同義語侯補ペア中の同義語侯補表現の各々の読みを見て判定を行う。１つの同義語侯補表現について読みは、解析結果カラムの読み、読み正規化カラムの読み、表記＋読み正規化カラムの読みの３つが存在するため、それぞれについて以下の処理を３回繰り返し行い、そのいずれかの過程で同義と判定されれば同義語であると認定して同義性判定部２での処理を終了し、そうでない場合は省略判定部２３での処理に進める。この際、解析結果カラムの読み、読み正規化カラムの読み、表記＋読み正規化カラムの読みを単に“読み”と記述する。また、以下の処理において、マッチングの際は形態素の区切り情報（“／”）は無視する。

（ステップｓ２２−１）同義語侯補ペア中の各同義語侯補表現の読みが全く同じである場合はステップｓ２２−５へ、それ以外はステップｓ２２−２へ進む。

（ステップｓ２２−２）同義語侯補ペア中の各同義語侯補表現の読みの音節数をカウントし、同じである場合はステップｓ２２−３へ進む。それ以外の場合は処理を終了する（読み類似判定部２２での処理の繰り返し回数が２回以下ならステップｓ２２−１へ戻り、当該同義語侯補ペアの次の読みに対する処理へ移る。３回目であれば読み類似判定部２２での処理を終了する。）。

（ステップｓ２２−３）同義語侯補ペア中の各同義語侯補表現の読みの、音節位置が同じで読みが異なる音節間の距離を音節類似度テーブル５（詳細は後述する。）を用いて求める。音節位置が同じで読みが異なる音節が多数存在する場合は、ペア間で異なる音節間の距離の総和を用いる。ステップｓ２２−４へ進む。

（ステップｓ２２−４）距離の総和が予め設定した閾値より小さければステップｓ２２−５へ進む。それ以外の場合は処理を終了する（読み類似判定部２２での処理の繰り返し回数が２回以下ならステップｓ２２−１へ戻り、当該同義語侯補ペアの次の読みの処理へ移る。３回目であれば読み類似判定部２２での処理を終了する。）。

（ステップｓ２２−５）同義と判定し、同義性判定部２での処理を終了する。

省略判定部２３での処理の流れを図１０を用いて説明する。読み類似判定部２２で同義と判定されなかった同義語侯補ペアのレコードを入力とする。ここでは同義語侯補ペアについて、解析結果カラムの表記同士、表記正規化カラムの表記同士、読み正規化カラムの読み同士、表記＋読み正規化カラムの読み同士の４パターンそれぞれについて以下の処理を繰り返し行い、そのいずれかの過程で同義と判定されれば同義語であると認定し、そうでない場合は同義語でないと認定して同義性判定部２での処理を終了する。この際、解析結果カラムの表記、表記正規化カラムの表記を単に“表記”と記述し、読み正規化カラムの読み、表記＋読み正規化カラムの読みを単に“読み”と記述する。また、以下の処理において、マッチングの際は形態素の区切り情報（“／”）は無視する。

（ステップｓ２３−１）表記を対象としている場合は表記同士、読みを対象としている場合は読み同士が包含関係にある場合はステップｓ２３−２へ進む。それ以外の場合は処理を終了する（省略判定部２３での処理の繰り返し回数が３回以下なら当該同義語侯補ペアの次の表記または読みに対する処理へ移る。４回目であれば省略判定部２３での処理を終了する。）。

（ステップｓ２３−２）ＤＰマッチング法（ＲｉｃｈａｒｄＥ．Ｂｅｌｌｍａｎ，“ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ”，１９５７）等を用いて位置合わせを行う。ステップｓ２３−３へ進む。

（ステップｓ２３−３）それぞれのペアのうち長い文字数（読みの場合は音節数）の方を省略前、短い方を省略後として、省略前後の差異を元に、分類器にかけるための素性（詳細は後述）を抽出する。ステップｓ２３−４へ進む。

（ステップｓ２３−４）ステップｓ２３−３で抽出した素性と分類器のモデルである省略判定モデル６を用いて同義義語侯補ペア中の同義語侯補表現同士が省略語関係にあるかを判定し、省略語であると判定した場合はステップｓ２５−５へ進む。それ以外の場合、処理を終了する（省略判定部２３での処理の繰り返し回数が３回以下なら当該同義語侯補ペアの次の表記または読みの処理へ移る。４回目であれば省略判定部２３での処理を終了する。）。

（ステップｓ２３−５）同義と判定し、同義性判定部２での処理を終了する。

前述した（ステップｓ２３−３）で用いる素性としては、同義語侯補ペア中の各同義語侯補表現の表記（解析結果カラムの表記または表記正規化カラムの表記）に対して抽出を行う場合、
＜省略前後の同義語侯補表現＞
・省略前：形態素数，文字数，品詞，固有表現クラス，文字種
・省略後：形態素数，文字数，品詞，固有表現クラス，文字種
＜形態素単位の素性＞
・形態素が丸ごと省略された場合：品詞，表記，文字数，文字種，位置情報（先頭か末尾か真中か），先頭の形態素が残っているか
・形態素が丸ごと残った場合：品詞，表記，文字数，文字種，位置情報（先頭か末尾か真中か），末尾の形態素を省略したか
＜文字単位の素性＞
・文字単位で省略された場合：品詞，表記，文字種，位置情報（先頭か末尾か真中か），表記内で先頭の文字を省略したか
・文字単位で残った場合：品詞，表記，文字種，位置情報（先頭か末尾か真中か），形態素内で先頭の文字が残っているか
を用いる。しかし、ここに挙げた以外にも、形態素解析情報、文脈情報などを利用しても良い。この時、用いる品詞や表記などの情報は解析処理結果テーブル７の情報を利用する。

また、同義語侯補ペア中の各同義語侯補表現の読み（読み正規化カラムの読みまたは表記＋読み正規化カラムの読み）に対して素性を抽出する際は、上記で述べた素性例において、表記の素性には読みを、文字数の素性には音節数を、位置情報の素性には音節で数えた場合の何音節目かを用いる。また、文字種の素性は「カタカナ」で統一する。

［逆変換ルール（記憶部）３］
図１１は逆変換ルール３の一例を示すもので、名詞を利用する際に一般的に挿入されると思われる接頭辞や接尾辞等の接辞形を削除するルール、愛称を作成する際に利用される繰り返し表現を削除するルール等をヒューリスティックに記述したものである。一組の同義語候補ペアに対して適用可能なルールは全て適用する。本ルールは、同義語侯補表現における、より一般的な表記に対して挿入されると思われる定型的な文字列を当該表記から削除し、当該文字列の削除に併せて読みを訂正するルールであるため、省略語を作成するためのルールとは異なる（本発明においては、省略語は逆変換ルールを用いて判定せず、省略判定部において分類器を用いて判定する。）。よってルールは正規表現などを用いて簡単に書き表すことができ、多くの同義語に共通して挿入されるような文字列を削除するルールとする。なお、図１１での正規表現はＰｅｒｌで書くことを例に説明を行っている。よって、他の表現を用いる場合には、その手法に準じる。

逆変換ルール３は表記に適用するルール、読みに適用するルールが対になっており、表記用正規表現が適用できない場合は、対になった読み用正規表現も適用しない。しかし、その逆に読み用正規表現が適用できない、または存在しない場合に関しては表記用正規表現のみを適用して良い（表記が変化しないのに読みが変化することはあり得ないが、表記が変化しても読みが変化しない場合はあり得るため）。逆変換ルールは図１１で挙げたもの以外にも任意に作成して登録可能で、例えば接尾辞の削除ルールで「ちゃん」や「氏」などを加えることなどが考えられる。

［音節正規化ルール（記憶部）４］
図１２は音節正規化ルール４の一例を示すもので、和語と外来語とで異なる読みの長さの単位（モーラと音節）、口語表現、音訳時のゆれ等を正規化するために、同義語侯補表現の読みの母音連続や長音、促音に適用するルール等からなる。ルールの適応順序はルール番号順とし、適用可能なルールは全て適用する。

表記変換による同義性判定には、位置が同じで読みが異なる音節間の距離を用いる。その際、表記変換による同義語間では音節の長さが等しいことが条件となる。しかし、和語はモーラ、外来語では音節と、読みの単位が異なる。さらに他言語に和語の読みを与える際（音訳時）には、外来語間でも同じ音節数にならないという問題があった。その例として以下のような場合が挙げられる。

・和語、口語「ユウコ」，「ユーコ」
モーラ数で数えると３モーラであるが、音節数で数えると３音節，２音節となる。

・外来語「スパゲティ」，「スパゲティー」，「スパゲッティー」
音節数で数えれば３つとも４音節であるが、モーラ数で数えると４モーラ，５モーラ，６モーラとなる。

・他言語の和語読み「ウインブルドン」，「ウィンブルドン」
音節数で数えると７音節，６音節、モーラ数で数えても７モーラ，６モーラとなる。

これらに対し、図１２に示すような音節正規化ルールを用いることにより、全て音節数で数えられるように読みの長さの単位を統一でき、（ステップｓ２２−３）において位置合わせが可能となる。

［音節類似度テーブル（記憶部）５］
図１３（ａ）は音節類似度テーブルの作成手順、同図（ｂ）は音節類似度テーブルの一例を示すもので、音節類似度テーブル５は、キー：表記は異なるが読みが類似する音節ペア、値：距離（類似度）、により構成される。このテーブル５は図１３（ａ）に示すように、形態素解析辞書から標準表記が同じで発音（読み）が異なる単語を収集し、読み正規化処理部１２と同様に音節正規化ルール４を適用して読みの長さの単位を音節に統一し、音節数が等しい場合に位置合わせを行う。そして音節位置が同じで読みが異なる音節ペアを抜き出してカウントし、音節ペアの出現数を、音節ペアを構成する音節それぞれの出現回数の和で割った値を音節間の距離（類似度）とすることで作成する。

［省略判定モデル（記憶部）６］
省略判定モデル６は２つの単語が省略語関係にあるか否かを判定するためのモデルで、判定を行いたい同義語侯補ペア中の各同義語侯補表現の表記及び読み、形態素解析情報、位置合わせ情報等を入力とし、同義か否かを２値判定する識別関数からなる。識別関数としては、例えばＶ．Ｖａｐｎｉｋ，“Ｔｈｅｎａｔｕｒｅｏｆｓｔａｔｉｓｔｉｃａｌｌｅａｒｎｉｎｇｔｈｅｏｒｙ”，Ｓｐｒｉｎｇｅｒ，１９９５で述べられているＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（ＳＶＭ）の識別関数を用い、識別関数のパラメータは予め省略判定部２３で述べた素性からなる学習データをＳＶＭで学習して決定しておく。ここでは学習アルゴリズムとしてＳＶＭを挙げたが、決定木、最大エントロピー法等のほかの学習アルゴリズムを利用しても良い。

前述した実施の形態における具体的な処理の実施例を詳細に説明する。ここで、同義性判定部２の読み類似判定部２２で用いる閾値には「０．９」を用い、また、省略判定モデル４の分類器としてはＳＶＭを用いることとする。まず、同義語侯補生成部１及び同義性判定部２で行う処理を説明し、その後、逆変換ルール３及び音節正規化ルール４の詳細な適用例、音節類似度テーブル５及び省略判定モデル６の作成例について説明する。

［Ｉ］同義語侯補生成部１及び同義性判定部２で行う処理
［同義語侯補生成部１］
解析処理部１１への入力テキストが図１４に示すようなものであった場合、「アップル社」，「ｅｖａ」などの同義語侯補表現が抽出される。入力テキスト中では「アップル社」という表現が２度出現しているが、解析処理結果テーブル７には１度だけ書き出す。１テキスト全ての解析を終えた状態が図１５に示すようになったものとして、以下説明を行う。

正規化処理部１２への入力を図１５に示す解析処理結果テーブル７の全レコードの同義語侯補表現カラムのリストとし、リスト内のレコードごとに以下の処理を繰り返す。

まずＩＤ１の「アップル社」から処理を開始する。

（ステップｓ１２−１）解析結果カラムの表記「アップル／社」はアルファベットではないため、そのままステップｓ１２−２へ進む（ここで処理を行う例；レコードＩＤ２：ｅｖａは大文字ＥＶＡへと変換し、上書きする。）。

（ステップｓ１２−２）解析結果カラムの表記「アップル／社」、解析結果カラムの読み「アップル／シャ」に逆変換ルール３（詳細は後述）の表記用正規表現、読み用正規表現をそれぞれ適用すると、それぞれ「アップル」、「アップル」となる。その結果を解析処理結果テーブル７の表記正規化カラム、表記＋読み正規化カラムへ書き出し、ステップｓ１２−３へ進む。

（ステップｓ１２−３）解析結果カラムの読み「アップル／シャ」と、ステップｓ１２−２で書き出した表記＋読み正規化カラムの読み「アップル」に対して音節正規化ルール４（詳細は後述）を適用する。前者は「アプル／シャ」となり、読み正規化カラムへ書き出される。後者は「アプル」となり、表記＋読み正規化カラムへ上書きされる。

以上の処理をＩＤ２以後も同様に繰り返す（図１５ではＩＤ１４まで表示）。その結果が図３となる。

ここで、（ステップｓ１２−２）で逆変換ルール３が適用されるのは、図３に示す処理結果テーブル７内のレコードのうち（以下の例からは形態素区切り記号“／”は必要のない限り省略する。）、
・レコードＩＤ１：アップル社（→表記：アップル，表記＋読み：アップル）
・レコードＩＤ１０：ショコタン（→表記：ショコ，表記＋読み：ショコ）
・レコードＩＤ１２：ヨン様（→表記：ヨン，表記＋読み：ヨン）
・レコードＩＤ１４：ミキティ（→表記：ミキ，表記＋読み：ミキ）
の４つである。

また、（ステップｓ１２−３）で音節正規化ルール４が適用されるのは、図３に示す処理結果テーブル７内のレコードのうち、
・レコードＩＤ１：アップル社（→読み：アプルシャ，表記＋読み：アプル）
・レコードＩＤ２：ショウコ（→読み：ショコ，表記＋読み：ショコ）
・レコードＩＤ４：八景島シーパラダイス（→読み：ハケイジマシパラダイス，表記＋読み：ハケイジマシパラダイス）
・レコードＩＤ８：アップル（→読み：アプル，表記＋読み：アプル）
・レコードＩＤ１１：シーパラ（→読み：シパラ，表記＋読み：シパラ）
の５つである。

同義語侯補ペア作成部１３では正規化処理部１２で作成した図３に示す解析処理結果テーブル７の全レコード総当たりで同義語侯補ペアを作成し、図５に示す同義語侯補ペアリスト８を出力する。

［同義性判定部２］
同義性判定部２への入力は、図５に示す同義語侯補ペアリスト８及び図３に示す解析処理結果テーブル７である。以下、図５のリスト８のレコードごとに表記類似判定部２１から省略判定部２３までの処理を繰り返し、どこかの過程で同義と判定された時点でその同義語侯補ペアを同義であると認定し、次の同義語侯補ペアの処理へと移行する。最後まで同義と判定されなかったペアは同義語であると認定しない。全てのレコードの処理が終了した時点で、同義語と認定された同義語侯補ペアを同義語ペアリストとして出力する。

まず、同義語ペアリスト８内のレコードＩＤ１（「アップル社」，「ＥＶＡ」）から処理を開始する。

表記類似判定部２１では同義語ペアリスト８のレコードＩＤ１に対応する侯補ＩＤ１，ＩＤ２から、解析処理結果テーブル７を参照すると、表記正規化カラムの表記は「アップル」，「ＥＶＡ」となっており、異なるため表記類似判定部２１での処理を終了し、読み類似判定部２２へと進む。

読み類似判定部２２では同義語ペアリスト８のレコードＩＤ１に対応する侯補ＩＤ１，ＩＤ２から処理結果テーブル７の読みを参照し、判定を行う。この同義語侯補ペアの読みはそれぞれ、解析結果カラムの読み：「アップルシャ」，「エバ」、読み正規化カラムの読み：「アプルシャ」，エバ」、表記＋読み正規化カラムの読み：「アプル」，「エバ」の３つとなる。それぞれについて以下の処理を３回繰り返し行う。

まず、解析結果カラムの読み：「アップルシャ」，「エバ」について処理を行う。

（ステップｓ２２−１）同義語侯補ペアの読みが異なるためステップｓ２２−２へ進む。

（ステップｓ２２−２）読みの音節数をカウントすると「アップルシャ」は４音節、「エバ」は２音節で異なるため、次の繰り返し処理へ移る。

ステップｓ２２−１へ戻り、「アプルシャ」，「エバ」、「アプル」，「エバ」と処理を繰り返すが、両者とも音節数が異なり、同義とならないため、省略判定部２３へ進む。

省略判定部２３で同義語ペアリスト８のレコードＩＤ１のペアについて次に挙げる４通りの情報について、解析処理テーブル７を参照して判定を行う。解析結果カラムの表記：「アップル社」，「ＥＶＡ」、表記正規化カラムの表記：「アップル」，「ＥＶＡ」、読み正規化後カラムの読み：「アプルシャ」，「エバ」、表記＋読み正規化カラムの読み：「アプル」，「エバ」の４パターンである。それぞれについて以下の処理を繰り返し行う。

まず、解析結果カラムの表記：「アップル社」，「ＥＶＡ」から処理を開始する。

（ステップｓ２３−１）表記が包含関係にないため、次の繰り返し処理に移る。続いて「アップル」，「ＥＶＡ」、「アプルシャ」，「エバ」、「アプル」，「エバ」の処理を行っていくが、全て包含関係に無いため省略判定部２３での処理を終了する。

同義語ペアリスト８のレコードＩＤ１は同義性判定部２の処理中に１度も同義と判定されなかったため、同義語ペアと認定せず次のレコード、即ちＩＤ２の処理に移る。

ここで、レコードＩＤ２（「アップル社」，「八景島シーパラダイス」）、レコードＩＤ３（「アップル社」，「翔子」）もレコードＩＤ１と同様に同義とならないので、以下、図５のリスト８内で最終的に同義と判定されるレコードＩＤ７，ＩＤ２２，ＩＤ４５，ＩＤ６３，ＩＤ７８，ＩＤ９０，ＩＤ１２１のうち、代表的なパターンであるＩＤ７，ＩＤ２２，ＩＤ４５，ＩＤ６３，ＩＤ１２１に絞って同義性判定部２での処理を説明する。

★レコードＩＤ７（「アップル社」，「アップル」）
［表記類似判定部２１］
（ステップｓ２１−１）同義語候補ペアリスト８の侯補ＩＤ１，ＩＤ８から解析処理結果テーブル７を参照すると、表記正規化カラムの表記同士は「アップル」，「アップル」となっており、全く同じなためステップｓ２１−２へ進む。

★レコードＩＤ２２（「ＥＶＡ」，「エヴァ」）
［表記類似判定部２１］
（ステップｓ２１−１）同義語侯補ペアリスト８の侯補ＩＤ２，ＩＤ９から解析処理結果テーブル７を参照すると、表記正規化カラムの表記同士は「ＥＶＡ」，「エヴァ」で異なるため表記類似判定部２１の処理を終了し、読み類似判定部２２へと進む。

［読み類似判定部２２］
同義語侯補ペアリスト８の侯補ＩＤ２，ＩＤ９から解析処理結果テーブル７を参照して
・解析結果カラムの読み：「エバ」，「エヴァ」
・読み正規化カラムの読み：「エバ」，「エヴァ」
・表記＋読み正規化カラムの読み：「エバ」，「エヴァ」
を求め、繰り返し処理を行う。

まず、解析結果カラムの読み：「エバ」，「エヴァ」について処理を行う。

（ステップｓ２２−１）読みが異なるためステップｓ２２−２へ進む。

（ステップｓ２２−２）読みの音節数をカウントし、両者とも２音節なためステップｓ２２−３へ進む。

（ステップｓ２２−３）音節位置が同じで読みが異なる音節は、「バ」と「ヴァ」で、音節類似度テーブル４（図１３（ｂ）：詳細は後述）から距離が０．８７と求まる。この同義語侯補ペアには音節位置が同じで読みが異なるペアは１つしかないため、ペア間の距離は０．８７となる。ステップｓ２２−４へ進む。

（ステップｓ２２−４）距離の総和は０．８７で予め設定した閾値０．９より小さいためステップｓ２２−５へ進む。

★レコードＩＤ４５（「翔子」，「ショコタン」）
［表記類似判定部２１］
（ステップｓ２１−１）同義語候補ペアリスト８の侯補ＩＤ３，ＩＤ１０から解析処理結果テーブル７を参照すると、表記正規化カラムの表記同士は「翔子」，「ショコ」で異なるため表記類似判定部２１の処理を終了し、読み類似判定部２２へと進む。

［読み類似判定部２２］
同義語候補ペアリスト８の侯補ＩＤ３，ＩＤ１０から解析処理結果テーブル７を参照して
・解析結果カラムの読み：「ショウコ」，「ショコタン」
・読み正規化カラムの読み：「ショコ」，「ショコタン」
・表記＋読み正規化カラムの読み：「ショコ」，「ショコ」
を求め、繰り返し処理を行う。

まず、解析結果カラムの読み：「ショウコ」，「ショコタン」について処理を行う。

（ステップｓ２２−２）読みの音節数をカウントし、「ショウコ」は３音節、「ショコタン」は４音節で異なるため次の繰り返し処理へ移る。

次に読み正規化カラムの読み：「ショコ」，「ショコタン」について処理を行う。

（ステップｓ２２−２）読みの音節数をカウントし、「ショコ」は２音節、「ショコタン」は４音節で異なるため次の繰り返し処理へ移る。

次に表記＋読み正規化カラムの読み：「ショコ」，「ショコ」について処理を行う。

（ステップｓ２２−１）読みが等しいため、ステップｓ２２−５へ進む。

★レコードＩＤ６３（「八景島シーパラダイス」，「シーパラ」）
［表記類似判定部２１］
（ステップｓ２１−１）同義語侯補ペアリスト８の侯補ＩＤ４，ＩＤ１１から解析処理結果テーブル７を参照すると、表記正規化カラムの表記同士は「八景島シーパラダイス」，「シーパラ」で表記が異なるため表記類似判定部２１の処理を終了し、読み類似判定部へと進む２２。

［読み類似判定部２２］
同義語侯補ペアリスト８の侯補ＩＤ４，ＩＤ１１から解析処理結果テーブル７を参照して
・解析結果カラムの読み：「ハッケイジマシーパラダイス」，「シーパラ」
・読み正規化カラムの読み：「ハケイジマシパラダイス」，「シパラ」
・表記＋読み正規化カラムの読み：「ハケイジマシパラダイス」，「シパラ」
を求め、繰り返し処理を行う。

この３パターンのそれぞれについて前記と同様に処理を繰り返した結果、どれもペア間で音節数が異なり、同義と判定されないため、省略判定部２３へ処理を進める。

［省略判定部２３］
同義語候補ペアリスト８の侯補ＩＤ３，ＩＤ１０から解析処理結果テーブル７を参照して
・解析結果カラムの表記同士：「八景島シーパラダイス」，「シーパラ」
・表記正規化カラムの表記同士：「八景島シーパラダイス」，「シーパラ」
・読み正規化後カラムの読み同士：「ハケイジマシパラダイス」，「シパラ」
・表記＋読み正規化カラムの読み同士：「ハケイジマシパラダイス」，「シパラ」
を求める。

この４パターンのそれぞれについて以下の処理を繰り返し行う。

まず、解析結果カラムの表記同士：「八景島シーパラダイス」，「シーパラ」の処理を行う。

（ステップｓ２３−１）表記が包含関係にあるためステップｓ２３−２へ進む。

（ステップｓ２３−２）ＤＰマッチング法により位置合わせを行うと、図１６の左上に示すようになる。ステップｓ２３−３へ進む。

（ステップｓ２３−３）素性の抽出を図１６のステップｓ２３−３に示すように行う。削除前の表現が「八景島シーパラダイス」、削除後の表現が「シーパラ」で、削除後残った形態素は「シー」、削除された形態素は「八景島」、削除された文字は「ダ」，「イ」，「ス」、残った文字は「パ」，「ラ」である。この６つについて、それぞれ処理結果テーブル７を参照しながら図１６の右側に示したように形態素数，文字数，品詞等の素性の抽出を行う。

（ステップｓ２３−４）分類器のモデルである略判定モデル６を用いて同義義語侯補ペアが省略語関係にあるかを判定した結果、同義となるためステップｓ２３−５へ進む。

★レコードＩＤ１２１（「安藤美姫」，「ミキティ」）
［表記類似判定部２１］
（ステップｓ２１−１）同義語候補ペアリスト８の侯補ＩＤ７，ＩＤ１４から解析処理結果テーブル７を参照すると、表記正規化カラムの表記同士は「安藤美姫」，「ミキ」で表記同士が異なるため表記類似判定部２１の処理を終了し、読み類似判定部２２へと進む。

［読み類似判定部２２］
同義語候補ペアリスト８の侯補ＩＤ７，ＩＤ１４から解析処理結果テーブル７を参照して
・解析結果カラムの読み：「アンドウミキ」，「ミキティ」
・読み正規化カラムの読み：「アンドウミキ」，「ミキティ」
・表記＋読み正規化カラムの読み：「アンドウミキ」，「ミキ」
を求め、繰り返し処理を行う。

［省略判定部２３］
同義語候補ペアリスト８の侯補ＩＤ７，ＩＤ１４から解析処理結果テーブル７を参照して
・解析結果カラムの表記同士：「安藤美姫」，「ミキティ」
・表記正規化カラムの表記同士：「安藤美姫」，「ミキ」
・読み正規化後カラムの読み同士：「アンドウミキ」，「ミキティ」
・表記＋読み正規化カラムの読み同士：「アンドウミキ」，「ミキ」
を求める。

この４パターンそれぞれについて以下の処理を繰り返し行う。

まず、解析結果カラムの表記同士：「安藤美姫」，「ミキティ」の処理を行う。

（ステップｓ２３−１）表記が包含関係にないため、次の繰り返し処理へ進む。

次の「安藤美姫」，「ミキ」、「アンドウミキ」，「ミキティ」の処理を順次行うが、両者とも包含関係にないため、同義と判定されない。最後の「アンドウミキ」，「ミキ」の処理は以下のようになる。

（ステップｓ２３−１）読みが包含関係にあるためステップｓ２３−２へ進む。

以後、（ステップｓ２３−２）〜（ステップｓ２３−５）はレコードＩＤ６３（「八景島シーパラダイス」，「シーパラ」）の例の場合と同様に行う。

以上のようにして同義侯補ペアリスト８内の同義語侯補全ての同義性判定を終えた後、同義と判定されたレコードＩＤ７，ＩＤ２２，ＩＤ４５，ＩＤ６３，ＩＤ７８，ＩＤ９０，ＩＤ１２１を同義語ペアとして出力する。

［II］逆変換ルール３及び音節正規化ルール４の詳細な適用例、音節類似度テーブル５及び省略判定モデル６の作成例
逆変換ルール３については、本実施例では図１１に挙げた接頭辞の削除、接尾辞の削除、読み仮名の削除、繰り返し表現の削除、省略記号の削除の４つについて説明する。

接頭辞の削除では、例えば「表記：お／吉，読み：オ／キチ」という対象に適用すると接頭辞の「お」を削除して「表記：吉，読み：キチ」となる。

接尾辞の削除では、例えば「表記：アップル／社，読み：アップル／シャ」という対象に適用すると、接尾辞の「社」を削除して「表記：アップル，読み：アップル」となる。

読み仮名の削除では、例えば「表記：安／（／やす／）／めぐみ，読み：ヤス／ヤス／メグミ」という対象に適用すると、「表記：安／めぐみ，読み：ヤス／メグミ」となる。

繰り返し表現の削除では、例えば「表記：キョンキョン，読み：キョンキョン」という対象に適用すると、「表記：キョン，読み：キョン」となる。

省略記号の削除では、「表記：ハリーポッター３／／炎／の／−，読み：ハリーポッターサン／／ホノオ／ノ」という対象に適用すると，「表記：ハリーポッター３／／炎／の，読み：ハリーポッターサン／／ホノオ／ノ」となる。

音節正規化ルール４については，本実施例では図１２に挙げた「ユウコ」、「ウィンブルドン」、「イェルサレム」、「スウィング」の４例について説明する。

★「ユウコ」
「ユ」と「ウ」で同じ母音が連続するためルール１が適用され、母音連続部分が長音化して「ユーコ」となる。次にルール１により長音となった部分に対してルール５が適用され「ユコ」となる。

★「ウインブルドン」
母音「ウ」と別種の母音の拗音「ィ」が連続するためルール２が適用され、「ウインブルドン」となる。

★「イェルサレム」
母音「イ」と別種の母音の拗音「ェ」が連続するためルール２が適用され、「イエルサレム」となる。さらに、ルール２に当てはまった母音と母音の拗音がルール３の条件と一致するため、母音「イ」が削除され、「エルサレム」となる。

★「スウイング」
母音「ウ」と別種の母音の拗音「ィ」が連続するためルール２が適用され、「スウイング」となる。さらに、ルール２を適用した結果、母音が「ウウイ」と連続することになり、ルール４の条件に当てはまるため、連続する同種の母音「ウ」を１つ削除して「スイング」となる。

音節類似度テーブル５の作成方法を、図１３に挙げた「アーティスト」とその異表記を用いた例で説明する。形態素解析辞書は、異表記・表記ゆれに対応しており、その読み及び標準表記の情報を備えたものを用いる。まず、形態素解析辞書から、標準表記が同じで発音が異なる単語「アーティスト」，「アーテスト」，「アーチスト」を集める。次に、それぞれの表現に対して音節正規化ルール４を適用し、音節数が一致したもので位置合わせを行う。その結果、「アティスト」，「アテスト」，「アチスト」となり、音節位置が同じで読みが異なる３つのペア「テとティ」，「チとティ」，「テとチ」が求まる。同様にして形態素解析辞書から標準表記をキーに異表記の収集、正規化、読みの異なるペアを収集する。辞書全部の処理が終わった時点で、音節位置が同じで読みが異なるペアと、出現する音節の数を、それぞれ種類ごとにカウントする。そして図１３の式を用いて距離を計算することで、テーブルを作成する。

省略判定モデル６の作成方法として、識別関数にＳＶＭを用いた例を説明する。学習に利用するテキストデータは、出来れば実運用時に用いる入力テキストと同じドメインから取得すること、実運用時に用いるのと同じ解析器で解析処理を行うことが望ましい。学習用のテキストに対して本実施例１と同じ方法で同義候補表現ペアを作成した後、表記が包含関係になっているものだけを取り出す。そしてそれぞれのエントリについて人手で同義か否かの正解付けを行う。そして省略判定部２３と同様の素性を抽出し、識別関数のパラメータを学習することにより、省略判定モデルを作成する。また、このとき同義語候補ペア生成部１で作成した同義語候補表現ペアの、読みカラムや表記正規化カラム、読み正規化カラム、表記＋読み正規化カラムのデータを用いて学習すれば、それぞれのカラムに対応した省略判定モデルを作成できる。

なお、実施の形態における逆変換ルール記憶部、音節正規化ルール記憶部、音節類似度テーブル記憶部、省略判定モデル記憶部、解析処理結果テーブル記憶部、同義語候補ペアリスト記憶部、という記載は、どのようなデータを記憶するかという機能上の違いに基づく表現であり、ハードウェア的に個別の記憶部（記憶装置）が必要であるという意味ではない。また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図１、図２、図６の構成図に示された機能を実現するプログラムあるいは図４、図７乃至図１０の流れ図に示された手順を備えるプログラムをインストールすることによっても実現可能である。

本発明の同義性判定装置の実施の形態の一例を示す概略ブロック図同義語侯補生成部の詳細を示すブロック図解析処理結果テーブルの一例を示す説明図正規化処理部における処理の流れ図同義語侯補ペアリストの一例を示す説明図同義性判定部の詳細を示すブロック図同義性判定部における処理の流れ図表記類似判定部における処理の流れ図読み類似判定部における処理の流れ図省略判定部における処理の流れ図逆変換ルールの一例を示す説明図音節正規化ルールの一例を示す説明図音節類似度テーブルの作成手順及びその一例を示す説明図入力テキストの一例を示す説明図解析処理終了時点の解析処理結果テーブルの一例を示す説明図省略判定部における素性抽出処理の一例を示す説明図

符号の説明

１：同義語候補ペア生成部、２：同義性判定部、３：逆変換ルール記憶部、４：音節正規化ルール記憶部、５：音節類似度テーブル記憶部、６：省略判定モデル記憶部、７：解析処理結果テーブル記憶部、８：同義語候補ペアリスト記憶部、１１：解析処理部、１２：正規化処理部、１３：ペア生成部、２１：表記類似判定部、２２：読み類似判定部、２３：省略判定部。

Claims

テキストから同義語候補としての文字列表現である同義語侯補表現を抽出して同義語侯補ペアを生成し、当該同義語侯補ペア中の同義語侯補表現同士が同義か否かを判定する同義性判定装置であって、
同義語侯補表現の表記を正規化するための逆変換ルールを記憶する逆変換ルール記憶部と、
同義語侯補表現の読みを正規化するための音節正規化ルールを記憶する音節正規化ルール記憶部と、
同義語侯補ペア中の同義語侯補表現同士の読みの類似度を求めるための音節類似度テーブルを記憶する音節類似度テーブル記憶部と、
同義語侯補ペア中の同義語侯補表現同士が省略語関係にあるか否かを判定するための省略判定モデルを記憶する省略判定モデル記憶部と、
入力されたテキストを解析処理し、その解析結果に基づいて前記テキストから同義語侯補表現を抽出するとともに対応する解析結果を付与し、逆変換ルール記憶部に記憶された逆変換ルール並びに音節正規化ルール記憶部に記憶された音節正規化ルールを用いて前記同義語侯補表現の表記及び読みの正規化を行った後、同義語侯補表現同士を組み合わせて一対の同義語侯補表現よりなる同義語侯補ペアを生成する同義語侯補ペア生成手段と、
音節類似度テーブル記憶部に記憶された音節類似度テーブル及び省略判定モデル記憶部に記憶された省略判定モデルを用いて前記同義語侯補ペア中の同義語侯補表現同士が同義か否かを判定し、同義であれば当該同義語侯補ペアを同義語ペアとして出力する同義性判定手段と、を備えた
ことを特徴とする同義性判定装置。
請求項１記載の同義性判定装置において、
名詞を利用する際に一般的に挿入される接辞形を削除するルール、愛称を作成する際に利用される繰り返し表現を削除するルールを少なくとも含む、表記を正規化し、当該表記の正規化に併せて読みを正規化する逆変換ルールを用い、
同義語侯補ペア生成手段は、同義語侯補表現の解析結果中の表記に前記逆変換ルールを適用して少なくとも接辞形と繰り返し表現を削除し、当該削除に併せて読みを訂正する正規化処理を行う
ことを特徴とする同義性判定装置。
請求項１記載の同義性判定装置において、
読みの母音連続や長音、促音に対して適用することで和語と外来語とで異なる読みの長さの単位、口語表現、音訳時のゆれを少なくとも正規化する音節正規化ルールを用い、
同義語侯補ペア生成手段は、同義語侯補表現の解析結果中の読み及び逆変換ルールによって正規化された表記の読みの母音連続や長音、促音に前記音節正規化ルールを適用して正規化する正規化処理を行う
ことを特徴とする同義性判定装置。
請求項１記載の同義性判定装置において、
「表記は異なるが読みが類似する音節ペア」をキーとし、「距離」を値とした、同義語侯補ペア中の同義語侯補表現同士の読みの類似度を求めるための音節類似度テーブルを用い、
同義語判定手段は、同義語候補ペア中の各同義語侯補表現の読みの、音節数が等しく且つ音節位置が同じで読みが異なる音節間の距離の総和を前記音節類似度テーブルを用いて求め、当該距離の総和が予め設定した閾値より小さければ同義と判定する
ことを特徴とする同義性判定装置。
テキストから同義語候補としての文字列表現である同義語侯補表現を抽出して同義語侯補ペアを生成し、当該同義語侯補ペア中の同義語侯補表現同士が同義か否かを判定する同義性判定方法であって、
同義語侯補表現の表記を正規化するための逆変換ルールを記憶する逆変換ルール記憶部と、
同義語侯補表現の読みを正規化するための音節正規化ルールを記憶する音節正規化ルール記憶部と、
同義語侯補ペア中の同義語侯補表現同士の読みの類似度を求めるための音節類似度テーブルを記憶する音節類似度テーブル記憶部と、
同義語侯補ペア中の同義語侯補表現同士が省略語関係にあるか否かを判定するための省略判定モデルを記憶する省略判定モデル記憶部とを用い、
同義語侯補ペア生成手段が、入力されたテキストを解析処理し、その解析結果に基づいて前記テキストから同義語侯補表現を抽出するとともに対応する解析結果を付与し、逆変換ルール記憶部に記憶された逆変換ルール並びに音節正規化ルール記憶部に記憶された音節正規化ルールを用いて前記同義語侯補表現の表記及び読みの正規化を行った後、同義語侯補表現同士を組み合わせて一対の同義語侯補表現よりなる同義語侯補ペアを生成する工程と、
同義性判定手段が、音節類似度テーブル記憶部に記憶された音節類似度テーブル及び省略判定モデル記憶部に記憶された省略判定モデルを用いて前記同義語侯補ペア中の同義語侯補表現同士が同義か否かを判定し、同義であれば当該同義語侯補ペアを同義語ペアとして出力する工程とを含む
ことを特徴とする同義性判定方法。
請求項５記載の同義性判定方法において、
名詞を利用する際に一般的に挿入される接辞形を削除するルール、愛称を作成する際に利用される繰り返し表現を削除するルールを少なくとも含む、表記を正規化し、当該表記の正規化に併せて読みを正規化する逆変換ルールを用い、
同義語侯補ペア生成工程は、
同義語侯補表現の解析結果中の表記に前記逆変換ルールを適用して少なくとも接辞形と繰り返し表現を削除し、当該削除に併せて読みを訂正する正規化処理を行う工程を含む
ことを特徴とする同義性判定方法。
請求項５記載の同義性判定方法において、
読みの母音連続や長音、促音に対して適用することで和語と外来語とで異なる読みの長さの単位、口語表現、音訳時のゆれを少なくとも正規化する音節正規化ルールを用い、
同義語侯補ペア生成工程は、
同義語侯補表現の解析結果中の読み及び逆変換ルールによって正規化された表記の読みの母音連続や長音、促音に前記音節正規化ルールを適用して正規化する正規化処理を行う工程を含む
ことを特徴とする同義性判定方法。
請求項５記載の同義性判定方法において、
「表記は異なるが読みが類似する音節ペア」をキーとし、「距離」を値とした、同義語侯補ペア中の同義語侯補表現同士の読みの類似度を求めるための音節類似度テーブルを用い、
同義語判定工程は、
同義語候補ペア中の各同義語侯補表現の読みの、音節位置が同じで読みが異なる音節間の距離の総和を前記音節類似度テーブルを用いて求め、当該距離の総和が予め設定した閾値より小さければ同義と判定する工程を含む
ことを特徴とする同義性判定方法。
コンピュータを、請求項１乃至４のいずれかに記載の同義性判定装置の各手段として機能させるためのプログラム。
請求項９に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。