JPH10198676A - 日本語形態素解析装置及び日本語形態素解析方法 - Google Patents
日本語形態素解析装置及び日本語形態素解析方法Info
- Publication number
- JPH10198676A JPH10198676A JP9003462A JP346297A JPH10198676A JP H10198676 A JPH10198676 A JP H10198676A JP 9003462 A JP9003462 A JP 9003462A JP 346297 A JP346297 A JP 346297A JP H10198676 A JPH10198676 A JP H10198676A
- Authority
- JP
- Japan
- Prior art keywords
- token
- kanji
- user
- sentence
- japanese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
【課題】 べた書き文を形態素解析する際、漢字仮名混
じり文に変換し、曖昧性が生じればユーザに示し、正解
を指示してもらうことにより曖昧性を解消できる日本語
形態素解析装置及び日本語形態素解析方法を提供するこ
と。 【解決手段】 日本語文を文字列として入力する入力部
1と、日本語単語の読み、漢字表記、品詞情報、及び形
態素解析に必要な語彙情報を記憶した辞書群2と、前記
入力部1より入力された文字列を前記辞書群2を参照し
てトークンに分割するトークン分割部4と、分割したト
ークンが平仮名であった場合、それを漢字に変換する漢
字変換部7と、隣接するトークンの接続可否を判定する
接続チェック部6と、トークン分割及び漢字変換で曖昧
性が生じた場合、その候補を表示するトークン候補表示
部8と、表示した候補の中から正解をユーザに指示して
もらうユーザ指示部11とを備える。
じり文に変換し、曖昧性が生じればユーザに示し、正解
を指示してもらうことにより曖昧性を解消できる日本語
形態素解析装置及び日本語形態素解析方法を提供するこ
と。 【解決手段】 日本語文を文字列として入力する入力部
1と、日本語単語の読み、漢字表記、品詞情報、及び形
態素解析に必要な語彙情報を記憶した辞書群2と、前記
入力部1より入力された文字列を前記辞書群2を参照し
てトークンに分割するトークン分割部4と、分割したト
ークンが平仮名であった場合、それを漢字に変換する漢
字変換部7と、隣接するトークンの接続可否を判定する
接続チェック部6と、トークン分割及び漢字変換で曖昧
性が生じた場合、その候補を表示するトークン候補表示
部8と、表示した候補の中から正解をユーザに指示して
もらうユーザ指示部11とを備える。
Description
【0001】
【発明の属する技術分野】本発明は、文字列として入力
した日本語文の形態情報を出力する日本語形態素解析装
置及び日本語形態素解析方法に関するものである。
した日本語文の形態情報を出力する日本語形態素解析装
置及び日本語形態素解析方法に関するものである。
【0002】
【従来の技術】ワープロのかな漢字変換や機械翻訳な
ど、日本語を処理する場合、まず、形態素解析を行う必
要がある。形態素解析では、普通、単語をキーとしてそ
の語彙情報を記憶した辞書を検索しながら、文字列を形
態素(意味を持つ最小の単位、以下トークンと呼ぶ)に
分割し(トークン分割)、ここのトークンに形態情報
(品詞、活用など)を付加する。形態素解析には、文節
数最小法、左最長一致法、コスト最小法等の手法があ
り、これらの手法を用いて曖昧性を解消している。しか
し、どの手法も完全ではなく、誤解釈を導くことがあ
る。仮名表記の場合、それが顕著である。
ど、日本語を処理する場合、まず、形態素解析を行う必
要がある。形態素解析では、普通、単語をキーとしてそ
の語彙情報を記憶した辞書を検索しながら、文字列を形
態素(意味を持つ最小の単位、以下トークンと呼ぶ)に
分割し(トークン分割)、ここのトークンに形態情報
(品詞、活用など)を付加する。形態素解析には、文節
数最小法、左最長一致法、コスト最小法等の手法があ
り、これらの手法を用いて曖昧性を解消している。しか
し、どの手法も完全ではなく、誤解釈を導くことがあ
る。仮名表記の場合、それが顕著である。
【0003】たとえば、「かれがくるまでまつ。」とい
う日本語入力文を英文に変換する機械翻訳の場合、この
入力文から得ることができる英文は、 1. He waits in a car. 2. I wait until he comes. の2つが考えられる。これを漢字仮名混じり文で表記す
ると、 1. 彼が車で待つ。
う日本語入力文を英文に変換する機械翻訳の場合、この
入力文から得ることができる英文は、 1. He waits in a car. 2. I wait until he comes. の2つが考えられる。これを漢字仮名混じり文で表記す
ると、 1. 彼が車で待つ。
【0004】2. 彼が来るまで待つ。 となり、かな漢字変換に2通りの解釈が存在することが
分かる。この2つの文を前述の3つの手法で評価してみ
ると、 文節数最小法…文節数は4でどちらも同じ 左最長一致法…「彼が車で待つ。」 接続コスト最小法…コストの付け方による 「名詞+助詞 > 動詞+助詞」なら「彼が来るまで待
つ。」 「名詞+助詞 < 動詞+助詞」なら「彼が車で待
つ。」 となる。どの手法を採っても、経験則に依る所が大き
く、多種多様な状況を表現し得る自然言語を処理する場
合、誤解釈を導くことは避けられない。
分かる。この2つの文を前述の3つの手法で評価してみ
ると、 文節数最小法…文節数は4でどちらも同じ 左最長一致法…「彼が車で待つ。」 接続コスト最小法…コストの付け方による 「名詞+助詞 > 動詞+助詞」なら「彼が来るまで待
つ。」 「名詞+助詞 < 動詞+助詞」なら「彼が車で待
つ。」 となる。どの手法を採っても、経験則に依る所が大き
く、多種多様な状況を表現し得る自然言語を処理する場
合、誤解釈を導くことは避けられない。
【0005】
【発明が解決しようとする課題】このような従来の方法
では、漢字仮名混じり表記であれば一意に英文を決定す
る事ができるが、べた書き表記の場合、前後の文脈情報
を用いない限り正解を導き出すのは難しいという課題を
有していた。また、文脈理解の技術は、実用化レベルに
達していないのが現状である。
では、漢字仮名混じり表記であれば一意に英文を決定す
る事ができるが、べた書き表記の場合、前後の文脈情報
を用いない限り正解を導き出すのは難しいという課題を
有していた。また、文脈理解の技術は、実用化レベルに
達していないのが現状である。
【0006】本発明は以上の課題を解決し、複数の解釈
(漢字変換候補)を有するべた書き文であっても、正し
い解釈を得ることができる日本語形態素解析方法及び日
本語形態素解析方法を提供することを目的とする。
(漢字変換候補)を有するべた書き文であっても、正し
い解釈を得ることができる日本語形態素解析方法及び日
本語形態素解析方法を提供することを目的とする。
【0007】
【課題を解決するための手段】請求項1に記載の発明の
日本語形態素解析装置は、日本語文を文字列として入力
する入力手段と、日本語単語の読み、漢字表記、品詞情
報、及び形態素解析に必要な語彙情報を記憶した辞書群
と、前記入力手段より入力された文字列を前記辞書群を
参照してトークンに分割するトークン分割手段と、分割
したトークンが平仮名であった場合、それを漢字に変換
する漢字変換手段と、トークン分割及び漢字変換で曖昧
性が生じた場合、その候補を表示する表示手段と、表示
した候補の中から正解をユーザに指示してもらう指示手
段とを備える構成とした。
日本語形態素解析装置は、日本語文を文字列として入力
する入力手段と、日本語単語の読み、漢字表記、品詞情
報、及び形態素解析に必要な語彙情報を記憶した辞書群
と、前記入力手段より入力された文字列を前記辞書群を
参照してトークンに分割するトークン分割手段と、分割
したトークンが平仮名であった場合、それを漢字に変換
する漢字変換手段と、トークン分割及び漢字変換で曖昧
性が生じた場合、その候補を表示する表示手段と、表示
した候補の中から正解をユーザに指示してもらう指示手
段とを備える構成とした。
【0008】そしてこの構成により、複数の解釈(漢字
変換候補)を有するべた書き文であっても、正しい解釈
を得ることができる日本語形態素解析方法及び日本語形
態素解析方法を実現できる。
変換候補)を有するべた書き文であっても、正しい解釈
を得ることができる日本語形態素解析方法及び日本語形
態素解析方法を実現できる。
【0009】
【発明の実施の形態】請求項1の発明は、日本語文を文
字列として入力する入力手段と、日本語単語の読み、漢
字表記、品詞情報、及び形態素解析に必要な語彙情報を
記憶した辞書群と、前記入力手段より入力された文字列
を前記辞書群を参照してトークンに分割するトークン分
割手段と、分割したトークンが平仮名であった場合、そ
れを漢字に変換する漢字変換手段と、トークン分割及び
漢字変換で曖昧性が生じた場合、その候補を表示する表
示手段と、表示した候補の中から正解をユーザに指示し
てもらう指示手段とを備えた構成により、曖昧性を多く
含む仮名表記文の曖昧性を解消できる。
字列として入力する入力手段と、日本語単語の読み、漢
字表記、品詞情報、及び形態素解析に必要な語彙情報を
記憶した辞書群と、前記入力手段より入力された文字列
を前記辞書群を参照してトークンに分割するトークン分
割手段と、分割したトークンが平仮名であった場合、そ
れを漢字に変換する漢字変換手段と、トークン分割及び
漢字変換で曖昧性が生じた場合、その候補を表示する表
示手段と、表示した候補の中から正解をユーザに指示し
てもらう指示手段とを備えた構成により、曖昧性を多く
含む仮名表記文の曖昧性を解消できる。
【0010】請求項2の発明は、分割したトークンの前
後の接続関係を調べる接続チェック手段と、接続関係を
考慮した漢字変換候補をユーザに表示する手段とを備え
た構成により、正しい接続関係にあるものの漢字変換候
補のみをユーザに表示できる。
後の接続関係を調べる接続チェック手段と、接続関係を
考慮した漢字変換候補をユーザに表示する手段とを備え
た構成により、正しい接続関係にあるものの漢字変換候
補のみをユーザに表示できる。
【0011】請求項3の発明は、ユーザに曖昧性を表示
する場合、入力文の形態素解析が全て終了した後に文を
候補として表示する手段を備えた構成により、複数文が
まとまった文章を解析する場合に一括処理を行うことが
できる。
する場合、入力文の形態素解析が全て終了した後に文を
候補として表示する手段を備えた構成により、複数文が
まとまった文章を解析する場合に一括処理を行うことが
できる。
【0012】請求項4の発明は、ユーザに曖昧性を表示
する場合、曖昧性が生じた時点で、トークン単位に候補
を表示する手段を備えた構成により、曖昧性が生じた時
点でその曖昧性を解決することができ、その結果をその
後の形態素解析に利用することで、効率よく解析を行う
ことができる。
する場合、曖昧性が生じた時点で、トークン単位に候補
を表示する手段を備えた構成により、曖昧性が生じた時
点でその曖昧性を解決することができ、その結果をその
後の形態素解析に利用することで、効率よく解析を行う
ことができる。
【0013】請求項5の発明は、日本語文を文字列とし
て入力するステップと、日本語単語の読み、漢字表記、
品詞情報、及び形態素解析に必要な語彙情報を記憶した
辞書群と、前記入力手段より入力された文字列を前記辞
書群を参照してトークンに分割するステップと、分割し
たトークンが平仮名であった場合、それを漢字に変換す
るステップと、トークン分割及び漢字変換で曖昧性が生
じた場合、その候補を表示するステップと、表示した候
補の中から正解をユーザに指示してもらうステップとを
含む構成により、曖昧性を多く含む仮名表記文の曖昧性
を解消できる。
て入力するステップと、日本語単語の読み、漢字表記、
品詞情報、及び形態素解析に必要な語彙情報を記憶した
辞書群と、前記入力手段より入力された文字列を前記辞
書群を参照してトークンに分割するステップと、分割し
たトークンが平仮名であった場合、それを漢字に変換す
るステップと、トークン分割及び漢字変換で曖昧性が生
じた場合、その候補を表示するステップと、表示した候
補の中から正解をユーザに指示してもらうステップとを
含む構成により、曖昧性を多く含む仮名表記文の曖昧性
を解消できる。
【0014】請求項6の発明は、分割したトークンの前
後の接続関係を調べるステップと、接続関係を考慮した
漢字変換候補をユーザに表示するステップとを含む構成
により、正しい接続関係にあるものの漢字変換候補のみ
をユーザに表示できる。
後の接続関係を調べるステップと、接続関係を考慮した
漢字変換候補をユーザに表示するステップとを含む構成
により、正しい接続関係にあるものの漢字変換候補のみ
をユーザに表示できる。
【0015】請求項7の発明は、ユーザに曖昧性を表示
する場合、入力文の形態素解析が全て終了した後に文を
候補として表示するステップを含む構成により、複数文
がまとまった文章を解析する場合に一括処理を行うこと
ができる。
する場合、入力文の形態素解析が全て終了した後に文を
候補として表示するステップを含む構成により、複数文
がまとまった文章を解析する場合に一括処理を行うこと
ができる。
【0016】請求項8の発明は、ユーザに曖昧性を表示
する場合、曖昧性が生じた時点で、トークン単位に候補
を表示するステップを含む構成により、曖昧性が生じた
時点でその曖昧性を解決することができ、その結果をそ
の後の形態素解析に利用することで、効率よく解析を行
うことができる。
する場合、曖昧性が生じた時点で、トークン単位に候補
を表示するステップを含む構成により、曖昧性が生じた
時点でその曖昧性を解決することができ、その結果をそ
の後の形態素解析に利用することで、効率よく解析を行
うことができる。
【0017】(実施の形態)以下、本発明の実施の形態
について、図面を参照しながら説明する。図1は、本発
明の一実施の形態における日本語形態素解析装置の機能
ブロック図、図2は同回路ブロック図、図3は同逐次型
の処理の流れを示した図、図4は同辞書検索の流れを示
した図、図5は同一括型の処理の流れを示した図、図6
は同辞書データの一例を示した図、図7は同接続テーブ
ルの一例を示した図、図8は同一括型の表示例を示した
図である。
について、図面を参照しながら説明する。図1は、本発
明の一実施の形態における日本語形態素解析装置の機能
ブロック図、図2は同回路ブロック図、図3は同逐次型
の処理の流れを示した図、図4は同辞書検索の流れを示
した図、図5は同一括型の処理の流れを示した図、図6
は同辞書データの一例を示した図、図7は同接続テーブ
ルの一例を示した図、図8は同一括型の表示例を示した
図である。
【0018】図1において、1は、ユーザからべた書き
文(平仮名のみの文)を入力してもらう入力部である。
2は、文字列をキーとして、その語彙情報が登録された
辞書群である。ここで用いる辞書データの一例を図6に
示す。図6に示したように、キーとなる文字列は、平仮
名表記とする。この辞書には、漢字表記情報とその漢字
表記に対する形態素情報が記憶されている。形態素情報
としては、「品詞」「活用型」「活用形」「接続情報」
が記憶されているものとし、漢字表記情報と形態素情報
を合わせて語彙情報と呼ぶ。更に、キーの次のデータ
は、同一仮名表記のデータ数を表す。ただし、同一表記
中、最初のエントリーのみ、データ数が記憶されてお
り、他は、0が記憶されているものとする。
文(平仮名のみの文)を入力してもらう入力部である。
2は、文字列をキーとして、その語彙情報が登録された
辞書群である。ここで用いる辞書データの一例を図6に
示す。図6に示したように、キーとなる文字列は、平仮
名表記とする。この辞書には、漢字表記情報とその漢字
表記に対する形態素情報が記憶されている。形態素情報
としては、「品詞」「活用型」「活用形」「接続情報」
が記憶されているものとし、漢字表記情報と形態素情報
を合わせて語彙情報と呼ぶ。更に、キーの次のデータ
は、同一仮名表記のデータ数を表す。ただし、同一表記
中、最初のエントリーのみ、データ数が記憶されてお
り、他は、0が記憶されているものとする。
【0019】3は、平仮名文字列をキーとして、辞書群
2を検索する辞書検索部である。4は、辞書検索部3の
結果を用いてトークンを切り出すトークン分割部であ
る。5は、隣接するトークンの接続可否を定義した接続
テーブルである。接続テーブル5の一例を図7に示す。
接続テーブル5は、図7に示したように、配列構造をな
している。配列の行を後接情報と呼び、列を前接情報と
いう。辞書には、この前接情報(列の添字)と後接情報
(行の添字)が接続情報として登録されている。
2を検索する辞書検索部である。4は、辞書検索部3の
結果を用いてトークンを切り出すトークン分割部であ
る。5は、隣接するトークンの接続可否を定義した接続
テーブルである。接続テーブル5の一例を図7に示す。
接続テーブル5は、図7に示したように、配列構造をな
している。配列の行を後接情報と呼び、列を前接情報と
いう。辞書には、この前接情報(列の添字)と後接情報
(行の添字)が接続情報として登録されている。
【0020】6は、トークン分割部4で切り出したトー
クンとそれに前接するトークンの接続可否を接続テーブ
ル5を参照してチェックする接続チェック部である。接
続テーブル5の見方は、前接トークンの後接情報と後接
トークンの前接情報の交わった個所が1ならば隣接する
トークンは接続可、0ならば接続付加である。7は、接
続チェック部6で接続可となった全てのトークンの辞書
データを参照して漢字表記に変換する漢字変換部であ
る。8は、漢字変換部7において取得した漢字候補をユ
ーザに示すトークン候補表示部である。9は、接続チェ
ック部6で接続可となった全てのトークンの辞書データ
を参照して漢字に変換し、図8に示すような構造(これ
を、トークンリストと呼ぶ)を構築するトークンリスト
作成部である。
クンとそれに前接するトークンの接続可否を接続テーブ
ル5を参照してチェックする接続チェック部である。接
続テーブル5の見方は、前接トークンの後接情報と後接
トークンの前接情報の交わった個所が1ならば隣接する
トークンは接続可、0ならば接続付加である。7は、接
続チェック部6で接続可となった全てのトークンの辞書
データを参照して漢字表記に変換する漢字変換部であ
る。8は、漢字変換部7において取得した漢字候補をユ
ーザに示すトークン候補表示部である。9は、接続チェ
ック部6で接続可となった全てのトークンの辞書データ
を参照して漢字に変換し、図8に示すような構造(これ
を、トークンリストと呼ぶ)を構築するトークンリスト
作成部である。
【0021】10は、トークンリスト作成部9で作成し
た構造をユーザに示す漢字仮名混じり候補文表示部であ
る。11は、トークン候補表示部8及び漢字仮名混じり
候補文表示部10で表示した候補の中から正解をユーザ
に指示してもらうユーザ指示部である。12は、トーク
ン分割部4、接続チェック部6、漢字変換部7、トーク
ン候補表示部8、トークンリスト作成部9、漢字仮名混
じり候補文表示部10、及びユーザ指示部11を制御
し、入力部1で入力された文の形態情報を出力する形態
素解析制御部である。13は、入力部1、形態素解析制
御部12を制御する制御部である。14は、入力部1で
入力された文、辞書検索部3の検索結果、トークン分割
部4で分割されたトークンデータ、漢字変換部7及びト
ークンリスト作成部9で作成したデータ、ユーザ指示部
11でユーザより指示された正解情報、形態素解析制御
部12における解析結果を記憶する記憶部である。
た構造をユーザに示す漢字仮名混じり候補文表示部であ
る。11は、トークン候補表示部8及び漢字仮名混じり
候補文表示部10で表示した候補の中から正解をユーザ
に指示してもらうユーザ指示部である。12は、トーク
ン分割部4、接続チェック部6、漢字変換部7、トーク
ン候補表示部8、トークンリスト作成部9、漢字仮名混
じり候補文表示部10、及びユーザ指示部11を制御
し、入力部1で入力された文の形態情報を出力する形態
素解析制御部である。13は、入力部1、形態素解析制
御部12を制御する制御部である。14は、入力部1で
入力された文、辞書検索部3の検索結果、トークン分割
部4で分割されたトークンデータ、漢字変換部7及びト
ークンリスト作成部9で作成したデータ、ユーザ指示部
11でユーザより指示された正解情報、形態素解析制御
部12における解析結果を記憶する記憶部である。
【0022】図2は、日本語形態素解析装置の回路ブロ
ック図である。21は、キーボード(マウスを含む)で
ある。22は、陰極線管ディスプレイ(以下、CRT)
である。23は、中央処理装置(以下、CPU)であ
る。24は、ランダムアクセスメモリ(以下、RAM)
である。25は、制御プログラムなどを記憶するリード
オンリーメモリ(以下、ROM)である。入力部1及び
ユーザ指示部11は、キーボード21により、トークン
候補表示部8及び漢字仮名混じり候補文表示部10は、
CRT22により、記憶部14は、RAM24により実
現されている。接続テーブル5は、ROM25に、辞書
群2は、RAM24、ROM25、2次記憶装置のいず
れかに記憶されている。辞書検索部3、トークン分割部
4、接続チェック部6、漢字変換部7、トークンリスト
作成部9、形態素解析制御部12、制御部13は、CP
U23がRAM24、および、ROM25とデータのや
りとりを行いながら、ROM25に記憶されたプログラ
ムを実行することにより実現されている。
ック図である。21は、キーボード(マウスを含む)で
ある。22は、陰極線管ディスプレイ(以下、CRT)
である。23は、中央処理装置(以下、CPU)であ
る。24は、ランダムアクセスメモリ(以下、RAM)
である。25は、制御プログラムなどを記憶するリード
オンリーメモリ(以下、ROM)である。入力部1及び
ユーザ指示部11は、キーボード21により、トークン
候補表示部8及び漢字仮名混じり候補文表示部10は、
CRT22により、記憶部14は、RAM24により実
現されている。接続テーブル5は、ROM25に、辞書
群2は、RAM24、ROM25、2次記憶装置のいず
れかに記憶されている。辞書検索部3、トークン分割部
4、接続チェック部6、漢字変換部7、トークンリスト
作成部9、形態素解析制御部12、制御部13は、CP
U23がRAM24、および、ROM25とデータのや
りとりを行いながら、ROM25に記憶されたプログラ
ムを実行することにより実現されている。
【0023】以上のように構成された本実施の形態の日
本語形態素解析装置について、以下その動作を図3、図
4、図5のフローチャートに基づいて説明する。
本語形態素解析装置について、以下その動作を図3、図
4、図5のフローチャートに基づいて説明する。
【0024】図3は、トークン分割、及び、漢字変換で
曖昧性が生じる毎にその曖昧性を表示し、ユーザに正解
を指示してもらう処理の流れを示したものである。まず
ステップS1では、入力部1より日本語文を1文単位に
入力する。ここでは、仮名のみの文(べた書き文)「か
れがくるまでまつ。」が入力されたものとする。
曖昧性が生じる毎にその曖昧性を表示し、ユーザに正解
を指示してもらう処理の流れを示したものである。まず
ステップS1では、入力部1より日本語文を1文単位に
入力する。ここでは、仮名のみの文(べた書き文)「か
れがくるまでまつ。」が入力されたものとする。
【0025】ステップS2では、処理中の文の位置(文
字番号)を示す変数posの初期化を行う。先頭文字
「か」の文字番号は0とする。ステップS3では、po
sが入力文字数(ここでは、10)に達したか否かをチ
ェックし、達していなければステップS4へ移り、達し
ていれば1文の形態素解析処理を終わる。
字番号)を示す変数posの初期化を行う。先頭文字
「か」の文字番号は0とする。ステップS3では、po
sが入力文字数(ここでは、10)に達したか否かをチ
ェックし、達していなければステップS4へ移り、達し
ていれば1文の形態素解析処理を終わる。
【0026】ステップS4では、辞書の検索を行う。辞
書検索処理を図4に示す。まずステップD1では、変数
dicに辞書の最初のデータを読み込む。また、検索さ
れた辞書データの件数をカウントする変数dNumに0
を格納する。ステップD2では、辞書データが存在する
か否かをチェックし、存在すればステップD3へ移り、
存在しなければ辞書検索処理を終える。辞書検索処理を
終えるとき、辞書検索部3は、トークン分割部4に検索
された辞書データとデータ数(dNum)を返す。
書検索処理を図4に示す。まずステップD1では、変数
dicに辞書の最初のデータを読み込む。また、検索さ
れた辞書データの件数をカウントする変数dNumに0
を格納する。ステップD2では、辞書データが存在する
か否かをチェックし、存在すればステップD3へ移り、
存在しなければ辞書検索処理を終える。辞書検索処理を
終えるとき、辞書検索部3は、トークン分割部4に検索
された辞書データとデータ数(dNum)を返す。
【0027】ステップD3では、dicに読み込まれた
辞書データの見出しの長さを求め、変数lenに格納す
る。ステップD4では、入力文字列の文字位置posか
らlen文字分の文字列と辞書見出しを比較する。次に
ステップD5では、ステップD4の比較の結果をチェッ
クし、一致していればステップD6へ移り、一致してい
なければステップD8へ移る。
辞書データの見出しの長さを求め、変数lenに格納す
る。ステップD4では、入力文字列の文字位置posか
らlen文字分の文字列と辞書見出しを比較する。次に
ステップD5では、ステップD4の比較の結果をチェッ
クし、一致していればステップD6へ移り、一致してい
なければステップD8へ移る。
【0028】ステップD6では、トークン分割部4に渡
す検索結果を格納する領域resultに一致した辞書
データを追加し、ステップD7で検索データ数のカウン
ターdNumを1増やす。ステップD8では、dicに
次の辞書データを読み込み、ステップD2に戻る。
す検索結果を格納する領域resultに一致した辞書
データを追加し、ステップD7で検索データ数のカウン
ターdNumを1増やす。ステップD8では、dicに
次の辞書データを読み込み、ステップD2に戻る。
【0029】最初の辞書検索処理では、posは0、辞
書見出しは「か」であり、入力文の文字位置0から1文
字分の「か」と辞書見出しは一致する。ここでは、辞書
の最初のデータから3番目までのデータが一致すること
になる。ステップS5では、辞書検索部3の結果を受け
て、一致する見出しが検索されたか否かチェックし、検
索されていればステップS6へ移り、検索されていなけ
ればステップS14で解析エラーを通知して形態素解析
処理を終える。
書見出しは「か」であり、入力文の文字位置0から1文
字分の「か」と辞書見出しは一致する。ここでは、辞書
の最初のデータから3番目までのデータが一致すること
になる。ステップS5では、辞書検索部3の結果を受け
て、一致する見出しが検索されたか否かチェックし、検
索されていればステップS6へ移り、検索されていなけ
ればステップS14で解析エラーを通知して形態素解析
処理を終える。
【0030】ステップS6では前接トークンとの接続チ
ェックを行う。文頭の時は、文頭になり得る品詞とそう
でないものがある。今、辞書検索の結果、 「か」(蚊) −名詞 「か」 −助詞 「かれ」(彼)−名詞 の3つが得られたが、助詞は文頭になり得ない品詞であ
るので、ここでの候補は、「蚊」と「彼」の2つとな
る。posが3の場合を例に接続テーブルを用いた接続
チェックを説明する。この時、直前のトークンは「が」
−助詞であり、このトークンの後接情報は0である。ス
テップS4の辞書検索では、以下の5個のデータが検索
された。それぞれについて接続可否をチェックする。
ェックを行う。文頭の時は、文頭になり得る品詞とそう
でないものがある。今、辞書検索の結果、 「か」(蚊) −名詞 「か」 −助詞 「かれ」(彼)−名詞 の3つが得られたが、助詞は文頭になり得ない品詞であ
るので、ここでの候補は、「蚊」と「彼」の2つとな
る。posが3の場合を例に接続テーブルを用いた接続
チェックを説明する。この時、直前のトークンは「が」
−助詞であり、このトークンの後接情報は0である。ス
テップS4の辞書検索では、以下の5個のデータが検索
された。それぞれについて接続可否をチェックする。
【0031】1. 「くる」(繰る)−動詞の終止形、
前接情報:2 接続テーブルの0行2列は1で接続可。
前接情報:2 接続テーブルの0行2列は1で接続可。
【0032】2. 「くる」(繰る)−動詞の連体形、
前接情報:2 接続テーブルの0行2列は1で接続可。
前接情報:2 接続テーブルの0行2列は1で接続可。
【0033】3. 「くる」(来る)−動詞の終止形、
前接情報:2 接続テーブルの0行2列は1で接続可。
前接情報:2 接続テーブルの0行2列は1で接続可。
【0034】4. 「くる」(来る)−動詞の連体形、
前接情報:2 接続テーブルの0行2列は1で接続可。
前接情報:2 接続テーブルの0行2列は1で接続可。
【0035】5. 「くるま」(車)−名詞、前接情
報:1 接続テーブルの0行1列は1で接続可。
報:1 接続テーブルの0行1列は1で接続可。
【0036】ステップS7では、接続可となるものが複
数存在するか否かチェックし、複数であればステップS
8へ、複数でなければステップS10へ移る。ここで
は、全て接続可となったので、ステップS8で、5候補
全てを表示し、ステップS9でユーザから正解を指示し
てもらう。
数存在するか否かチェックし、複数であればステップS
8へ、複数でなければステップS10へ移る。ここで
は、全て接続可となったので、ステップS8で、5候補
全てを表示し、ステップS9でユーザから正解を指示し
てもらう。
【0037】ステップS10では、接続可が1つか否か
チェックし、1つであればステップS11へ移り、1つ
でない(1つもない)場合はステップS14で解析エラ
ーを通知して形態素解析処理を終わる。ステップS11
では、ユーザから指示されたトークン、又は、接続チェ
ックで唯一接続可であったトークンを解析結果として記
憶部14に記憶する。ステップS12では、前接トーク
ンの後接情報を記憶する変数conに解析結果として記
憶したトークンの後接情報を記憶する。
チェックし、1つであればステップS11へ移り、1つ
でない(1つもない)場合はステップS14で解析エラ
ーを通知して形態素解析処理を終わる。ステップS11
では、ユーザから指示されたトークン、又は、接続チェ
ックで唯一接続可であったトークンを解析結果として記
憶部14に記憶する。ステップS12では、前接トーク
ンの後接情報を記憶する変数conに解析結果として記
憶したトークンの後接情報を記憶する。
【0038】ステップS13では、posを1増やし、
ステップS3に戻る。図5は、文の解析が全て終了した
後、文単位に候補を表示し、ユーザに正解を指示しても
らう処理の流れを示したものである。図5のステップT
1〜T4は、図3のステップS1〜S4と同様である。
ステップS3に戻る。図5は、文の解析が全て終了した
後、文単位に候補を表示し、ユーザに正解を指示しても
らう処理の流れを示したものである。図5のステップT
1〜T4は、図3のステップS1〜S4と同様である。
【0039】ステップT5では、辞書検索の結果を受け
て、検索されたトークンと前接トークンとの接続チェッ
クを行う。接続チェックの方法は図3のステップS6と
同様であるが、ここでは、前接トークンが後接トークン
(辞書検索されたトークン)のいずれとも接続不可の場
合、その前接トークンを解析結果から削除するという処
理を施す。例えば、posが5の場合、前接トークン
は、 「くる」(繰る)−動詞の終止形、後接情報:2 「くる」(繰る)−動詞の連体形、後接情報:4 「くる」(来る)−動詞の終止形、後接情報:2 「くる」(来る)−動詞の連体形、後接情報:4 の4つであり、後接トークン候補は、 「まで」−助詞、前接情報:3 の1つである。それぞれの接続可否をチェックすると、
接続テーブルの2行3列は1で接続可、4行3列は0で
接続不可となり、4つの前接トークンのうち、 「くる」(繰る)−動詞の連体形、後接情報:4 「くる」(来る)−動詞の連体形、後接情報:4 は、解析結果から削除することになる。
て、検索されたトークンと前接トークンとの接続チェッ
クを行う。接続チェックの方法は図3のステップS6と
同様であるが、ここでは、前接トークンが後接トークン
(辞書検索されたトークン)のいずれとも接続不可の場
合、その前接トークンを解析結果から削除するという処
理を施す。例えば、posが5の場合、前接トークン
は、 「くる」(繰る)−動詞の終止形、後接情報:2 「くる」(繰る)−動詞の連体形、後接情報:4 「くる」(来る)−動詞の終止形、後接情報:2 「くる」(来る)−動詞の連体形、後接情報:4 の4つであり、後接トークン候補は、 「まで」−助詞、前接情報:3 の1つである。それぞれの接続可否をチェックすると、
接続テーブルの2行3列は1で接続可、4行3列は0で
接続不可となり、4つの前接トークンのうち、 「くる」(繰る)−動詞の連体形、後接情報:4 「くる」(来る)−動詞の連体形、後接情報:4 は、解析結果から削除することになる。
【0040】次にステップT6では、接続可のトークン
の存在をチェックし、接続可のトークンが存在すればス
テップT7へ移り、存在しなければステップT13で解
析エラーを通知して形態素解析処理を終わる。ステップ
T7では、接続可となったトークンを図8に示したトー
クンリストに追加する。
の存在をチェックし、接続可のトークンが存在すればス
テップT7へ移り、存在しなければステップT13で解
析エラーを通知して形態素解析処理を終わる。ステップ
T7では、接続可となったトークンを図8に示したトー
クンリストに追加する。
【0041】ステップT8からT11では、接続可とな
ったトークンの後接情報を配列conに格納する。ま
す、ステップT8で、カウンターiに0を格納する。次
に、ステップT9で、iが接続可のトークン数を超えた
か否かチェックし、超えていなければステップT10
へ、超えていればステップT12へ移る。ステップT1
0では、i番目の接続可トークンの後接情報をconの
i番目に格納する。ステップT11でカウンターiを1
増やし、ステップT9へ戻る。ステップT12では、カ
ウンターposを1増やし、ステップT3へ戻る。最後
に、ステップT14で解析結果(トークンリスト)を表
示し、正しいパスをユーザに指示してもらう。
ったトークンの後接情報を配列conに格納する。ま
す、ステップT8で、カウンターiに0を格納する。次
に、ステップT9で、iが接続可のトークン数を超えた
か否かチェックし、超えていなければステップT10
へ、超えていればステップT12へ移る。ステップT1
0では、i番目の接続可トークンの後接情報をconの
i番目に格納する。ステップT11でカウンターiを1
増やし、ステップT9へ戻る。ステップT12では、カ
ウンターposを1増やし、ステップT3へ戻る。最後
に、ステップT14で解析結果(トークンリスト)を表
示し、正しいパスをユーザに指示してもらう。
【0042】このような方法で、形態素解析を行うこと
により、複数の解釈(漢字変換候補)を有するべた書き
文であっても、正しい解釈を得ることができる。
により、複数の解釈(漢字変換候補)を有するべた書き
文であっても、正しい解釈を得ることができる。
【0043】また、ここでは、仮名のみの文に限って説
明してきたが、漢字仮名混じり文の一部の平仮名表記に
対しても同様の手法を取り入れることができる。
明してきたが、漢字仮名混じり文の一部の平仮名表記に
対しても同様の手法を取り入れることができる。
【0044】
【発明の効果】以上のように本発明によれば、複数の解
釈(漢字変換候補)を有するべた書き文であっても、正
しい解釈を得ることができる日本語形態素解析方法及び
日本語形態素解析方法を実現することができる。
釈(漢字変換候補)を有するべた書き文であっても、正
しい解釈を得ることができる日本語形態素解析方法及び
日本語形態素解析方法を実現することができる。
【図1】本発明の一実施の形態における日本語形態素解
析装置の機能ブロック図
析装置の機能ブロック図
【図2】本発明の一実施の形態における日本語形態素解
析装置の回路ブロック図
析装置の回路ブロック図
【図3】本発明の一実施の形態における日本語形態素解
析装置の逐次型の処理のフローチャート
析装置の逐次型の処理のフローチャート
【図4】本発明の一実施の形態における日本語形態素解
析装置の辞書検索のフローチャート
析装置の辞書検索のフローチャート
【図5】本発明の一実施の形態における日本語形態素解
析装置の一括型のフローチャート
析装置の一括型のフローチャート
【図6】本発明の一実施の形態における日本語形態素解
析装置の辞書データの一例を示した図
析装置の辞書データの一例を示した図
【図7】本発明の一実施の形態における日本語形態素解
析装置の接続テーブルの一例を示した図
析装置の接続テーブルの一例を示した図
【図8】本発明の一実施の形態における日本語形態素解
析装置の一括型の表示例を示した図
析装置の一括型の表示例を示した図
1 入力部 2 辞書群 3 辞書検索部 4 トークン分割部 5 接続テーブル 6 接続チェック部 7 漢字変換部 8 トークン候補表示部 9 トークンリスト作成部 10 漢字仮名混じり候補文表示部 11 ユーザ指示部 12 形態素解析制御部 13 制御部 14 記憶部 21 キーボード 22 CRT 23 CPU 24 RAM 25 ROM
Claims (8)
- 【請求項1】日本語文を文字列として入力する入力手段
と、日本語単語の読み、漢字表記、品詞情報、及び形態
素解析に必要な語彙情報を記憶した辞書群と、前記入力
手段より入力された文字列を前記辞書群を参照してトー
クンに分割するトークン分割手段と、分割したトークン
が平仮名であった場合、それを漢字に変換する漢字変換
手段と、トークン分割及び漢字変換で曖昧性が生じた場
合、その候補を表示する表示手段と、表示した候補の中
から正解をユーザに指示してもらう指示手段とを備えた
ことを特徴とする日本語形態素解析装置。 - 【請求項2】分割したトークンの前後の接続関係を調べ
る接続チェック手段と、接続関係を考慮した漢字変換候
補をユーザに表示する手段とを備えたことを特徴とする
請求項1記載の日本語形態素解析装置。 - 【請求項3】ユーザに曖昧性を表示する場合、入力文の
形態素解析が全て終了した後に文を候補として表示する
手段を備えたことを特徴とする請求項1または2記載の
日本語形態素解析装置。 - 【請求項4】ユーザに曖昧性を表示する場合、曖昧性が
生じた時点で、トークン単位に候補を表示する手段を備
えたことを特徴とする請求項1または2記載の日本語形
態素解析装置。 - 【請求項5】日本語文を文字列として入力するステップ
と、日本語単語の読み、漢字表記、品詞情報、及び形態
素解析に必要な語彙情報を記憶した辞書群と、前記入力
手段より入力された文字列を前記辞書群を参照してトー
クンに分割するステップと、分割したトークンが平仮名
であった場合、それを漢字に変換するステップと、トー
クン分割及び漢字変換で曖昧性が生じた場合、その候補
を表示するステップと、表示した候補の中から正解をユ
ーザに指示してもらうステップとを含むことを特徴とす
る日本語形態素解析方法。 - 【請求項6】分割したトークンの前後の接続関係を調べ
るステップと、接続関係を考慮した漢字変換候補をユー
ザに表示するステップとを含むことを特徴とする請求項
5記載の日本語形態素解析方法。 - 【請求項7】ユーザに曖昧性を表示する場合、入力文の
形態素解析が全て終了した後に文を候補として表示する
ステップを含むことを特徴とする請求項5または6記載
の日本語形態素解析方法。 - 【請求項8】ユーザに曖昧性を表示する場合、曖昧性が
生じた時点で、トークン単位に候補を表示するステップ
を含むことを特徴とする請求項5または6記載の日本語
形態素解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9003462A JPH10198676A (ja) | 1997-01-13 | 1997-01-13 | 日本語形態素解析装置及び日本語形態素解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9003462A JPH10198676A (ja) | 1997-01-13 | 1997-01-13 | 日本語形態素解析装置及び日本語形態素解析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH10198676A true JPH10198676A (ja) | 1998-07-31 |
Family
ID=11558003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9003462A Pending JPH10198676A (ja) | 1997-01-13 | 1997-01-13 | 日本語形態素解析装置及び日本語形態素解析方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH10198676A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011003146A (ja) * | 2009-06-22 | 2011-01-06 | Casio Computer Co Ltd | 辞書データ格納構造および辞書検索方法 |
KR101086550B1 (ko) * | 2009-06-24 | 2011-11-23 | 엔에이치엔(주) | 로마자 변환을 이용한 일본어 자동 추천 시스템 및 방법 |
-
1997
- 1997-01-13 JP JP9003462A patent/JPH10198676A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011003146A (ja) * | 2009-06-22 | 2011-01-06 | Casio Computer Co Ltd | 辞書データ格納構造および辞書検索方法 |
KR101086550B1 (ko) * | 2009-06-24 | 2011-11-23 | 엔에이치엔(주) | 로마자 변환을 이용한 일본어 자동 추천 시스템 및 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0180888B1 (en) | Method and apparatus for natural language processing | |
EP0370774B1 (en) | Machine translation system | |
US6760695B1 (en) | Automated natural language processing | |
Chang | A new approach for automatic Chinese spelling correction | |
JP3992348B2 (ja) | 形態素解析方法および装置、並びに日本語形態素解析方法および装置 | |
US5075851A (en) | System for translating a source language word with a prefix into a target language word with multiple forms | |
JPH10198676A (ja) | 日本語形態素解析装置及び日本語形態素解析方法 | |
JP2771976B2 (ja) | 言語解析装置 | |
JP2002259445A (ja) | 対応カテゴリ検索システムおよび方法 | |
JP2821143B2 (ja) | 形態素分解装置 | |
JP2002269085A (ja) | 機械翻訳装置及び方法 | |
JPS62267872A (ja) | 言語解析装置 | |
JP2915225B2 (ja) | 文書作成装置 | |
JP2719453B2 (ja) | 機械翻訳装置 | |
JPH0350668A (ja) | 文字処理装置 | |
JPH0785040A (ja) | 表記不統一検出方法およびかな漢字変換方法 | |
JPH0773174A (ja) | 日本語処理システム | |
JP3084864B2 (ja) | 文章入力装置 | |
JP2880600B2 (ja) | 単語列翻訳装置 | |
JPH11282837A (ja) | 日本語形態素解析装置、日本語形態素解析方法および記録媒体 | |
JPH09204429A (ja) | 機械翻訳装置 | |
JPH032960A (ja) | かな漢字変換装置 | |
JPH05225232A (ja) | テキスト自動前編集装置 | |
JPH04130577A (ja) | 自然言語処理装置 | |
JPH0262665A (ja) | 形熊素分解方式 |