Nothing Special   »   [go: up one dir, main page]

JP3441400B2 - 言語変換規則作成装置、及びプログラム記録媒体 - Google Patents

言語変換規則作成装置、及びプログラム記録媒体

Info

Publication number
JP3441400B2
JP3441400B2 JP15648499A JP15648499A JP3441400B2 JP 3441400 B2 JP3441400 B2 JP 3441400B2 JP 15648499 A JP15648499 A JP 15648499A JP 15648499 A JP15648499 A JP 15648499A JP 3441400 B2 JP3441400 B2 JP 3441400B2
Authority
JP
Japan
Prior art keywords
phrase
language
word
sentence
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP15648499A
Other languages
English (en)
Other versions
JP2000305930A (ja
Inventor
由実 脇田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP15648499A priority Critical patent/JP3441400B2/ja
Publication of JP2000305930A publication Critical patent/JP2000305930A/ja
Application granted granted Critical
Publication of JP3441400B2 publication Critical patent/JP3441400B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力音声まだは入
力テキストを、他言語または他の文体型などに変換して
出力する際に用いられる変換規則を作成する言語変換規
則作成装置に関する。
【0002】
【従来の技術】以下、従来の技術を言語変換装置の1つ
である、入力音声を他言語に翻訳(以下通訳と呼ぶ)す
る装置を例にして説明する。
【0003】通訳装置は、音響信号として入力された発
声文を単語テキスト列で表示された出力文に変換するた
めの音声認識と、単語テキスト列で表示された文を入力
し他言語文に翻訳する言語翻訳とを順次実行することで
通訳を実現している。さらに上記言語翻訳部は、入力文
の統語的または意味的構造を解析する言語解析部と、解
析結果に基づいて他言語に変換する言語変換部と、翻訳
結果から自然な出力文を生成する出力文生成部とから構
成されている。
【0004】しかし、音声認識部が発声文の一部を誤認
識した場合や、文にあいづちや言い直しなどが挿入され
たり、文として不完結なまま発声を終えてしまうなど、
発声文自体が統語的または意味的にも不自然な場合は、
音声認識結果を言語解析部に入力しても解析が失敗し、
結果的に翻訳結果が出力されないという問題があった。
【0005】この問題を解決するために、フレーズに分
割し、フレーズ内とフレーズ間とを分けて規則化し、不
完結な発声にはフレーズ内規則のみを用いて解析し、解
析結果の出力を可能にするように構成することである。
(たとえば 竹沢、森元:電子通信学会論文誌 D-II,Vo
l.J79-D-II(12))。図14は従来のフレーズ内及びフレ
ーズ間規則例である。この例では、コーパス例301の
「今晩 シングルの部屋の予約 お願いね」に対して、
フレーズ内規則は、書き言葉にも共通な文法規則に基づ
きフレーズ内規則302のような木構造で記述し、フレ
ーズ間規則は、学習用コーパスにおけるフレーズ間の隣
接確率で記述されている。例えばフレーズ間規則はフレ
ーズ間規則303のように記述される。
【0006】入力文を解析する際には、文頭から順次フ
レーズ内規則を当てはめ、フレーズの終端では、各フレ
ーズ毎に隣接確率の高いフレーズ候補が隣接するように
フレーズを接続しながら入力文解析が行われる。このよ
うな文解析方法では、文の一部が誤認識を起こし通常の
文全体の解析が失敗する場合でも、誤認識を含まない部
分のフレーズ解析は正しく行われるため、解析された部
分フレーズのみを翻訳することにより、翻訳結果を部分
的に出力できる枠組みになっている。
【0007】また、この問題に解決するために、従来の
文法に則って言語解析を行うのではなく、従来の文法で
は解析できないような発声文も含めた発声文例から、対
応する原言語文と目的言語文の対訳フレーズを抽出し、
このフレーズ対をなるべく一般化した形で記述された対
訳フレーズ辞書を作成し、この辞書を用いて言語解析と
言語変換とを行う方法も提案されている(たとえば、古
瀬、隅田、飯田:情報処理学会論文誌Vol35,no3,1994-
3)。図15は従来の言語変換規則作成装置である。通
訳を行う前に、予め発声文対訳コーパスから対訳フレー
ズ辞書を作成する。ここでも、一部の単語が誤ったり省
略されたりすることを考慮し、発声文例をフレーズ毎に
分割し、フレーズ内規則とフレーズ間の依存規則とを作
成している。まず形態素解析部360で、原言語文と目
的言語文との形態素解析を行ない、各文を形態素列に変
換する。次にフレーズ決定部361で、原言語及び目的
言語の形態素例をフレーズ単位に分割し、フレーズ内規
則とフレーズ間の依存関係規則を作成する。この際のフ
レーズ単位は、意味的にまとまった単位であることに加
えて、対訳において対応関係が明らかな部分文であるこ
とを考慮して人手で決定される。たとえば、「部屋の予
約をお願いしたいんですが」「 I’d like toreserve a
room」という対訳文例は、(a)「部屋の予約」「reserv
e a room」,(b)「をお願いしたいんですが」「I’d lik
e to」という(a)(b)2つの対訳フレーズに分割され、
「(a)を(b)する」「(b) to (a)」という依存関係が規則
化される。上記対訳フレーズは対訳フレーズ辞書362
に、フレーズ間の依存関係を対訳の形で表されたものは
フレーズ間規則テーブル363に各々保管される。この
ような処理が対訳コーパスに含まれた全発声文分につい
て行われる。このフレーズの分割と依存関係は、文の意
味的情報やどの程度文法的に崩れていないかの度合いな
どのファクターから決定されるため、自動的に各文につ
いて決定することが難しく、従来は人手で決定されてい
る。
【0008】
【発明が解決しようとする課題】しかしながら、第1の
従来例における文解析手段においては、扱っているフレ
ーズは原言語のみに依存した言語依存フレーズであり、
目的言語のフレーズ単位とは合わない場合が多い。その
ため、原言語においては正しいフレーズを言語変換部に
入力しても、結局は受理できない場合が多い、という問
題を有している。この第1の従来例の枠組みは、言語非
依存フレーズを用いても可能な枠組みではあるが、その
場合は、言語非依存フレーズの解析を人手で作成する必
要があり、開発に時間がかかる、人手の作成基準の揺れ
が規則性能を歪ませるという新たな問題が生じる。
【0009】また、第2の従来例における対訳フレーズ
辞書作成方法においては、発声文の意味的情報や文法的
情報を自動的に解析できる手段がないために、人手で作
成しなければならない。そのため、開発に時間がかか
り、人手の作成基準の揺れが規則性能を歪ませるという
問題点がある。たとえば、通訳装置の目標となるタスク
を変更したり、原言語及び目的言語の言語種が変更にな
った場合は、一度構築した規則を適応できずにはじめか
ら規則を作成しなければならず、開発効率が悪く手間が
かかる。
【0010】また、上記フレーズ辞書362やフレーズ
間規則363は、対訳コーパスの対応関係を重視してフ
レーズ単位を決定しており、音声認識部364が認識す
るのに適切なフレーズ単位であるかどうかの評価がなさ
れているものではない。音声認識にとって適切なフレー
ズかどうかを人手で判断しながらフレーズ単位を決める
ことは困難であり、決定されたフレーズを用いて認識し
た場合、認識率が確保できる保証がない、という課題を
有している。
【0011】本発明の目的は以上の問題点を解決し、入
力音声文に未学習部分があったり、音声認識が一部誤り
を起こしても、必ず目的言語への変換を可能とし、さら
に、変換に必要なフレーズ辞書作成やフレーズ間規則
を、なるべく人手をかけずに自動的に作成できる言語変
規則作成装置、及びプログラム記録媒体を提供するこ
とにある。
【0012】
【課題を解決するための手段】上述した課題を解決する
ために、第1の本発明(請求項1に対応)は、音声また
はテキストで入力される言語変換の対象となる文(以
下、原言語文と呼ぶ、これに対応して言語変換された文
を目的言語文と呼ぶ)と、目的言語文とが対になった学
習用データベース(以下、対訳コーパスと呼ぶ)と、そ
の対訳コーパス中の原言語文及び目的言語文における単
語または品詞の隣接頻度を算出し、頻度の高い単語及び
品詞を連結して意味的なまとまりを形成する部分文(以
下、フレーズと呼ぶ)を抽出するフレーズ抽出部と、前
記フレーズ抽出部で抽出された前記フレーズで、文全体
に対する原言語及び目的言語のフレーズの関係を調べる
ことで対応するフレーズを決定するフレーズ決定部と、
決定された前記対応するフレーズを保管しておくフレー
ズ辞書と、入力音声の音声認識を行い、言語変換の対象
となる文で認識結果を出力する音声認識部とを備え、前
記フレーズ辞書は、音声認識と言語変換とを行う際に用
いられ、その音声認識は、前記フレーズ辞書に格納され
ている前記対応するフレーズを一続きの単語としてまた
は順序と内容とが固定された連結単語として扱って音声
認識を行うものであり、その言語変換は、前記フレーズ
辞書を用いて、原言語文が入力された際に、この入力文
と前記フレーズ辞書に格納されている前記対応するフレ
ーズとを照合することで、言語または文体変換を行うも
のであることを特徴とする言語変換規則作成装置であ
る。また、第2の本発明(請求項2に対応)は、前記フ
レーズ決定部は、原言語及び目的言語のフレーズの共起
関係を調べることで対応するフレーズを決定することを
特徴とする第1の本発明の言語変換規則作成装置であ
る。また、第3の本発明(請求項3に対応)は、前記対
訳コーパスの原言語文を単語列に変換する形態素解析部
と、その形態素解析部の結果を利用して原言語文及び目
的言語文の一部または全部 の単語を品詞名で置き換えた
対訳コーパスを作成する品詞化部を更に有し、前記フレ
ーズ抽出部は、前記品詞化部で品詞化された対訳コーパ
スからフレーズを抽出することを特徴とする第1の本発
明の言語変換規則作成装置である。また、第4の本発明
(請求項4に対応)は、原言語と目的言語との対訳単語
辞書を有し、前記品詞化部は、前記対訳単語辞書で対応
付けされている単語でかつ原言語が内容語である単語を
品詞化することを特徴とする第3の本発明の言語変換規
則作成装置である。また、第5の本発明(請求項5に対
応)は、前記対訳コーパスの原言語文を単語列に変換す
る形態素解析部と、その形態素解析部の結果を利用し
て、意味的類似した単語を同クラスと見なして単語を分
類し、同クラス内の単語に同コードを与えている表(以
下、分類語彙表という)に基づき、原言語文及び目的言
語文の一部または全部の単語を前記分類語彙表のコード
に置き換えた対訳コーパスを作成する意味コード化部を
更に有し、前記フレーズ抽出部は、前記意味コード化部
でコードに置き換えられた対訳コーパスからフレーズを
抽出することを特徴とする第1の本発明の言語変換規則
作成装置である。また、第6の本発明(請求項6に対
応)は、原言語と目的言語との対訳単語辞書を有し、前
記意味コード化部は、前記対訳単語辞書で対応つけられ
ている単語のみ意味コード化することを特徴とする第5
の本発明の言語変換規則作成装置である。また、第7の
本発明(請求項7に対応)は、前記フレーズ抽出部は、
予め優先的にフレーズとみなしたい単語または品詞列を
原言語と目的言語を対にして保管しておくフレーズ定義
表をも利用して、フレーズを抽出し、前記フレーズ抽出
部は、前記対訳コーパス中の原言語文及び目的言語文に
おける単語または品詞列が前記フレーズ定義表に保管さ
れている単語または品詞列に一致した場合、その一致し
た原言語文及び目的言語文における単語または品詞列を
フレーズとして抽出するすることを特徴とする第1の本
発明の言語変換規則作 成装置である。また、第8の本発
明(請求項8に対応)は、コーパスのパープレキシティ
ー(文複雑度)を算出する文複雑度算出部を有し、前記
フレーズ抽出部は、前記単語または単語クラスの隣接頻
度が所定の閾値を超えなくなるまで、前記単語または単
語クラスを連結してフレーズを抽出し、前記単語または
単語クラスを連結してフレーズを抽出する際、前記単語
または単語クラスを連結する前の前記文複雑度と前記単
語または単語クラスを連結した後の前記文複雑度とを比
較し、前記単語または単語クラスを連結した後の前記文
複雑度が前記単語または単語クラスを連結する前の前記
分複雑度より増加する場合、前記単語または単語クラス
を連結した後の単語または単語クラスをフレーズとして
抽出しないことを特徴とする第1〜7の本発明のいずれ
かの言語変換規則作成装置である。また、第9の本発明
(請求項9に対応)は、第1〜8の本発明のいずれかの
言語変換規則作成装置の各構成要素の機能をコンピュー
タに実行するためのプログラムを格納していることを特
徴とするプログラム記録媒体である。
【0013】
【0014】
【0015】
【0016】
【0017】
【0018】
【0019】
【0020】
【0021】
【0022】
【0023】
【0024】
【0025】
【0026】
【発明の実施の形態】以下に、本発明の実施の形態につ
いて図面を参照して説明する。
【0027】(第1の実施の形態)まず第1の実施の形
態について説明する。
【0028】第1の実施の形態では、言語変換装置の一
例として、従来例同様、異なる言語間の変換を行う通訳
装置を用いて説明する。図1は本実施の形態の通訳装置
のブロック図である。
【0029】本実施の形態の通訳装置は、まず通訳する
前に、言語解析部2で予め対訳コーパスや対訳単語辞書
などを有している学習用データベース1から発声文の原
言語及び目的言語の言語規則を学習する。言語規則の学
習例を図3に示す。
【0030】言語規則作成部2では、たとえば、品詞タ
グが付与されている対訳コーパスを用いて原言語文及び
目的言語文の内容語を品詞化する。さらに、原言語にお
けるフレーズと目的言語におけるフレーズとが一まとま
りとして対応している場合に、その一まとまりを体型非
依存フレーズとしてその境界を区切る。すなわち、原言
語における体型依存フレーズと目的言語における体型依
存フレーズとが一まとまりとして対応している場合に、
その一まとまりを体型非依存フレーズの境界とする。原
言語の体型依存フレーズに対応する目的言語の体型依存
フレーズがひとまとまりとして対応しない場合には、対
応する部分が一まとまりとして存在するまで体型依存フ
レーズの連結やフレーズ境界の修正を行い体型非依存フ
レーズとする。図3において、対訳コーパスの文「今
晩、部屋の予約をしたいんですが」「I'd like to room
-reservation tonight」26が、内容語の品詞化30
で、「<普通名詞>|<普通名詞>の<サ変名詞>|を
したいんですが」27のように品詞化されている。また
「<普通名詞>」、「<普通名詞>の<サ変名詞>」、
「をしたいんですが」のように体型非依存フレーズとし
て境界を区切られている。次に各体型非依存フレーズに
おいて、品詞と単語の混合列、および品詞で表されてい
る部分の単語名、さらに各体型非依存フレーズの対訳コ
ーパスにおける出現頻度を体型非依存フレーズ内規則3
として記述する。対訳コーパスの全文に対して上記規則
を記述する。図3においては、上述した内容は、フレー
ズ内規則の記述31により3に記述される。図3の3に
おいて、規則1は、日本語が「<普通名詞>」であり、
英語が「<noun>」である。品詞の内容としては、日本
語が「今晩」、英語が「tonight」となっている。対訳
コーパスに現れていれば、「明日」、「tomorrow」等も
規則1に記述されるものである。
【0031】さらに、各フレーズ内規則の共起関係を体
型非依存フレーズ間規則4として記述する。たとえば、
共起関係をフレーズbi-gramとして規則化する場合は、
各体型非依存フレーズの隣接頻度を記述しておく。
【0032】上述した内容は、図3において、フレーズ
間規則の記述32が、28を記述することを意味する。
28がフレーズbi-gramの例である。規則番号対が例え
ば「(規則1)(規則2)」となっており、その出現頻
度が4となっている。これは対訳コーパスから学習する
過程で、規則1と規則2が文中にならんで出現する回数
が4回あったことを意味する。規則2と規則3が文中で
ならんで出現する回数は28の例では6回あったことに
なる。
【0033】さらに、各体型非依存フレーズ間の構文構
造も体型非依存フレーズ間規則4に記述しておく。これ
は図3において、フレーズ間規則の記述32が29を記
述することである。つまりフレーズ間規則の記述32
が、日本語と英語で体型非依存フレーズが現れる順序が
違うので、順序関係の対応をつけるために25で言語構
造をツリー状にして対応をとっている。
【0034】文生成規則5には、上記言語規則3および
4で不足している目的言語規則を記述しておく。たとえ
ば、日英翻訳の場合には、冠詞および不定冠詞規則や三
人称単数化規則などがその内容として記述されている。
【0035】なお、フレーズ内言語規則3及び/または
フレーズ間言語規則4が本発明の格納手段の例である。
【0036】通訳の際には、まず発声された原言語音声
はマイクロホン6から入力され音声認識部7に入力され
る。音声認識部では、たとえば、体型非依存フレーズ内
言語規則3として記述されている品詞および単語の混合
列と体型非依存フレーズ間言語規則4としてのフレーズ
bi-gramとにより、時系列に沿って順次認識単語候補が
予測される。予め学習されている音響モデル8と入力音
声との距離値をベースとした音響スコアとフレーズbi-g
ramによる言語スコアとの和を認識スコアとし、Nbest-s
earchにより認識候補である連続単語列が決定される。
このように決定された連続単語列は言語変換部9に入力
される。フレーズ内言語規則3、フレーズ間言語規則4
では、予め原言語と目的言語とが対応しながら規則化さ
れている。言語変換部9では、上記規則を用いて、本連
続単語列は目的言語のフレーズ列に変換され出力され
る。この際、入力された原言語フレーズ列が、既に学習
されたフレーズ間の構文構造に当てはまる場合には、目
的言語のフレーズ列は構文構造に沿って修正された後出
力される。
【0037】出力された目的言語文は出力文生成10に
入力され、文法的な不自然さを修正する。例えば、定冠
詞や不定冠詞の付与、代名詞、動詞における3人称化や
複数化や過去形化などの最適化などが行われる。修正後
の目的言語翻訳結果文はたとえばテキストとして出力さ
れる。
【0038】以上の実施の形態では、音声認識で使用す
る言語規則を学習する際に、原言語と目的言語とがとも
に意味をもつ一かたまりとなった部分を単位として規則
化を行い、この規則の制約に基づいて認識を行うことに
より、入力音声文に未学習部分があったり、音声認識が
一部誤りを起こしても、全文に対する翻訳結果が全く出
力されないという問題点を解決し、正しく認識された部
分については、適切な翻訳結果を出力できる言語変換装
置を実現できる。
【0039】なお、本実施の形態では、言語変換装置の
1つの例として通訳装置を例にあげて説明したが、これ
は他の言語変換装置、例えばくだけた発話文を書き言葉
のようなテキスト文に変換する言語変換装置において
も、同様に使用することが出来る。
【0040】(第2の実施の形態)次に第2の実施の形
態について図面を参照しながら説明する。本実施の形態
でも、第1の実施の形態同様、通訳装置を用いて説明す
る。図2は本実施の形態の通訳装置のブロック図であ
る。
【0041】本実施の形態の通訳装置は、まず通訳する
前に、予め言語規則作成部11で対訳コーパスや対訳単
語辞書を有している学習データベース1から発声文の原
言語及び目的言語のフレーズ内言語規則12、フレーズ
間言語規則13を学習する。学習される規則は、第1の
実施の形態における言語規則の学習と同様である。次に
学習された言語規則の最適化を行う。最適化の例を図4
に示す。
【0042】まず、学習された体型非依存フレーズにお
いて、目的言語フレーズが同じであるフレーズを同カテ
ゴリーとしてまとめる。図4において、12は言語規則
であり、規則間距離算出14で、33のようにカテゴリ
ーとしてまとめる。規則1、規則2、規則3は目的言語
規則が「I'd like to」と同じであるので、同カテゴリ
ーになる。また、規則4は、目的言語規則が「please」
となっているので、規則1、規則2、規則3とは別のカ
テゴリーに分類される。次に同カテゴリーに含まれる原
言語フレーズ間の音響的距離を規則間距離算出部14で
算出する。図4において、15が原言語フレーズ間の音
響的距離を算出した例である。15では、規則1と規則
2の距離は7となっており、規則1と規則3の距離は2
となっている。
【0043】同カテゴリー規則における原言語フレーズ
の音響的距離は次のように算出する。まず、カテゴリー
内の全ての目的言語フレーズにおける混合列の品詞部分
に、同品詞であれば同じ単語を当てはめ、全ての混合列
を単語列に変換する。次に各単語列の発音が類似してい
るかを調べるために、各単語列の文字列の違いに対する
距離を、(数1)を用いて算出し、規則間距離テーブル
15に記述する。n個の単語からなるフレーズX=[ x
1,x2,x3,...xn](xは各単語)とm個の単語からなるフ
レーズY=[ y1,y2,y3,..ym]との間の距離をD(Xn,Ym)と
して、
【0044】
【数1】
【0045】ここで、iはフレーズXのi番目の文字で
あり、jはフレーズYのj番目の文字であり、D(x
i、yj)はフレーズXのi番目の文字までとフレーズ
Yのj番目の文字までの文字列間の距離である。次に最
適規則作成部16で、距離値が一定値以内であるフレー
ズの中で、最も出現数の多い規則のみを残し、他の規則
を消去する。たとえば、図4の例では、上記一定値を2
とした場合、33において、同カテゴリーである規則1
と規則3との規則間距離は2であり、上記一定値2以下
である。従って、この2つの規則の出現頻度の多い規則
1を採用し、規則3を規則から削除する。それに合わせ
て出現数も書き換える。
【0046】フレーズ内言語規則12に書かれている全
ての規則に対して上記最適規則化を行った後、消去され
なかった言語規則のみをフレーズ内最適言語規則17と
して保管する。最適化された規則に従い、フレーズ間規
則13の中の除去された規則を採用した規則で書き換
え、合わせて出現数も修正する。図4において、最適規
則作成16により規則3は削除され、規則1として1本
化される。それにあわせて、規則1の出現数は、17の
ように削除された規則3との和である15となってい
る。
【0047】文生成規則5には、コーパスから作成され
た上記言語規則で不足している目的言語規則を記述して
おく。たとえば、日英翻訳の場合には、冠詞および不定
冠詞規則や三人称単数化規則などがその内容として記述
されている。
【0048】通訳の際には、まず発声された原言語音声
はマイクロホン6から入力され音声認識部7に入力され
る。音声認識部では、たとえば、体型非依存フレーズ内
言語規則17として記述されている品詞および列単語の
混合列と体型非依存フレーズ間言語規則18としてのフ
レーズ隣接頻度とにより、時系列に沿って順次認識単語
候補が予測される。予め学習されている音響モデル8と
入力音声との距離値をベースとした音響スコアとフレー
ズbi-gramによる言語スコアとの和を認識スコアとし、N
best-searchにより認識候補である連続単語列が決定さ
れる。このように決定された連続単語列は言語変換部9
に入力される。言語規則17、18では、予め原言語と
目的言語とが対応しながら規則化されている。言語変換
部9では、上記規則を用いて、本連続単語列は目的言語
のフレーズ列に変換され出力される。この際、入力され
た原言語フレーズ列が、既に学習されたフレーズ間の構
文構造に当てはまる場合には、目的語のフレーズ列は構
文構造に沿って修正された後出力される。
【0049】出力された目的言語文は出力文生成部10
に入力され、文法的な不自然さを修正する。たとえば、
定冠詞や不定冠詞の付与、代名詞、動詞における3人称
化や複数化や過去形化などの最適化などが行われる。修
正後の目的言語翻訳結果文はたとえばテキストとして出
力される。
【0050】以上の実施の形態では、音声認識で使用す
る言語規則を学習する際に、原言語と目的言語とがとも
に意味をもつ一かたまりとなった部分を単位として規則
化を行った後、規則化されている目的言語部分が同じで
ある原言語フレーズが音響的に類似している場合には、
類似している中から最も出現頻度の高い規則のみを採用
し残りの規則を消去することにより、なるべく言語規則
の性能を落とさずに、体型非依存フレーズを単位にする
ことによる規則数の増加を押さえ、従って高性能な認識
及び言語変換を可能にする通訳装置を実現するものであ
る。
【0051】なお、本実施の形態では、言語変換装置の
1つの例として通訳装置を例にあげて説明したが、これ
は他の言語変換装置、例えばくだけた発話文を書き言葉
のようなテキスト文に変換する言語変換装置において
も、同様に使用することが出来る。
【0052】(実施の形態3)本実施の形態では、言語
変換装置の一例として、従来例同様、異なる言語間の変
換を行う通訳装置を用いて説明する。図5は本実施の形
態の通訳装置のブロック図である。
【0053】なお、本実施の形態のうち、対訳コーパス
101、内容語定義表103、対訳単語辞書107、形
態素解析部102、品詞化部104、フレーズ抽出部1
05、フレーズ決定部106は、対訳フレーズ間規則表
108、対訳フレーズ辞書109は、本発明の言語変換
規則作成装置の例である。また、本実施の形態の対訳フ
レーズ辞書109は本発明の請求項6記載のフレーズ辞
書の例である。
【0054】本実施の形態の通訳装置は、まず通訳する
前に、形態素解析部102で対訳コーパス101内の原
言語文の形態素解析を行うことで原言語文のみ品詞タグ
が付与された対訳コーパスを作成する。たとえば、図6
の120の「部屋の予約をお願いしたいんですが」の発
声文例では、121のような品詞タグが原言語文に与え
られる。次に、品詞化部104で、上記コーパスの品詞
タグ付き原言語文において、一部の単語名を品詞名に置
きかえた品詞化対訳コーパスを作成する。この際に品詞
名に変換される単語は以下の条件を満たすものとする。 (1)内容語テーブルに記載の品詞に対応する単語であ
る。 (2)対訳単語辞書に登録されている単語で、対訳単語
辞書の目的言語訳に相当する単語が、コーパス内の相当
する目的言語対訳文に存在する。
【0055】図6の内容語定義表103の例では、内容
語テーブルに記載されている一般名詞、さ変名詞、動詞
の中で、対訳単語辞書107に登録されている「部屋」
と「予約」のみが品詞化され、122のようにこれらの
単語を品詞名に置き換えたコーパスが作成される。さら
に、相当する目的言語対訳文内の単語名も123のよう
に日本語品詞名に置き換える。
【0056】次に、上記の一部の内容語が品詞名に置き
換えられたコーパスについて、フレーズ抽出部105
は、原言語文、目的言語文別々に、各単語または品詞の
2連鎖出現頻度(以後 bi-gramと呼ぶ)を算出する。算
出式を(数2)に示す。
【0057】
【数2】
【0058】コーパス内の全原言語文及び目的言語文を
対象にbi-gramを算出した後、フレーズ抽出部5で、最
も出現頻度の高かった2単語または品詞対を1つの単語
とみなして連結し、再度bi-gramを算出する。これによ
り、たとえば頻度高く隣接する「お」「願い」、「願
い」「し」、「し」「ます」などの単語対が連結され、
「お願いします」というフレーズ候補が形成される。目
的言語では「I'd」「like」、「like」「to」の単語対
が連結される。全原言語文及び目的言語文別々に、以上
の連結とbi-gram算出とを、bi-gramの値が全て一定閾値
を超えなくなるまで繰り返す。そして、連結された単語
も含めた個々の単語をフレーズ候補として抽出する。
【0059】次にフレーズ決定部106で、原言語文と
目的言語文対において、各フレーズが同時に出現してい
る頻度を算出する。i番目の原言語フレーズをJ[i]、
j番目の目的言語フレーズをE[j]とすると、フレーズ
J[i]とE[j]との共起頻度K[i,j]は、算出式を
(数3)にて算出される。
【0060】
【数3】
【0061】たとえば、図7の例では、フレーズ列とし
て記述された3つの対訳文130のうち、原言語フレー
ズの「お願いします」と目的言語フレーズの「I'd like
to」との共起頻度は2/(2+3)、「したいんです
が」と目的言語フレーズの共起頻度は1/ (1+3)とな
る。この頻度が一定値以上のフレーズ対を対訳フレーズ
として決定し、頻度と共にフレーズ番号を付けて対訳フ
レーズ辞書109に登録する。さらに、対訳フレーズと
して決定されなかったフレーズ候補の中で、既に品詞化
されている単語は、それ単独で対訳フレーズとして対訳
フレーズ辞書109に登録する。それ以外の部分は、対
訳対の中で各々の単語列どうしを一対としてフレーズ辞
書に登録する。
【0062】たとえば、図7の例では、131のように
対訳フレーズ辞書109に登録される。
【0063】このようにして、フレーズ登録を行なった
後、一文に共起するフレーズ番号を記録し、フレーズ番
号対として対訳フレーズ間規則表108に登録する。図
7の例では132となる。
【0064】また、上記フレーズ番号対のフレーズbi-g
ramを求め、これも対訳フレーズ間規則表108に記録
する。すなわち、原言語コーパスを、対訳フレーズ辞書
に登録されたフレーズ番号列で表し、フレーズ番号で表
されたコーパスを用いてフレーズbi-gramを求め、これ
も対訳フレーズ間規則表8に記録する。フレーズiに続
くフレーズjの出現確立を表すフレーズbi-gramは(数
4)で表される。
【0065】
【数4】
【0066】例えば図7の132では、例えばフレーズ
3とフレーズ1のフレーズbi-gramを求める。またフレ
ーズ4、フレーズ5、フレーズ2のフレーズ間規則に関
してはフレーズ4、フレーズ5及びフレーズ5、フレー
ズ2のbi-gramをそれぞれ求め、対訳フレーズ間規則表
108に記録する。
【0067】通訳の際には、まず発声された原言語音声
は音声認識部110に入力される。音声認識部113で
は、たとえば、対訳フレーズ辞書109にフレーズとし
て記述されている単語のネットワークと対訳フレーズ間
規則表108にて記述されているフレーズbi-gramとに
より、時系列に沿って順次認識単語候補が予測される。
予め学習されている音響モデル113と入力音声との距
離値をベースとした音響スコアとフレーズbi-gramによ
る言語スコアとの和を認識スコアとし、Nbest-searchに
より認識候補である連続単語列が決定される。
【0068】認識された連続単語列は、言語変換部11
1に入力される。言語変換部111では、入力された連
続単語列を対訳フレーズ辞書109内のフレーズ列に変
換し、各フレーズ列に相当するフレーズ間規則を探索す
る。そして、各フレーズの対訳である目的言語フレーズ
と目的言語のフレーズ間規則とから、入力原言語認識結
果文を目的言語文に変換する。
【0069】このように本実施の形態では、音声認識部
110と言語変換部111とでともに対訳フレーズ辞書
109と対訳フレーズ間規則表108が使用される。
【0070】変換された目的言語文は出力文生成部11
2に入力され、統語的な不自然さを修正する。たとえ
ば、定冠詞や不定冠詞の付与、代名詞、動詞における3
人称化や複数化や過去形化などの最適化などが行われ
る。修正後の目的言語翻訳結果文はたとえばテキストと
して出力される。
【0071】以上の実施例では、原言語フレーズと目的
言語フレーズが対応した形で規則を記述しておき、この
フレーズの単位で認識を行ないうことで、入力文の一部
が未知部分文であったり、音声認識が一部誤ったとして
も、正しく認識および解析された部分は適切に処理され
出力される言語変換装置を可能にする。また、原言語文
及び目的言語文各々における単語または品詞の隣接頻度
と、対訳における頻度の高い単語列または品詞列の共起
関係を用いて自動的に対訳フレーズとフレーズ間規則を
決定し、この対訳フレーズ規則を用いて通訳を行うこと
により、なるべく人手をかけずに、自動的に効率よくし
かも品質の高い対訳フレーズ辞書を生成できる言語規則
作成装置を可能とする。
【0072】なお、本実施の形態では、言語変換装置の
1つの例として通訳装置を例にあげて説明したが、これ
は他の言語変換装置、例えばくだけた発話文を書き言葉
のようなテキスト文に変換する言語変換装置において
も、同様に使用することが出来る。
【0073】(実施の形態4)本実施の形態も、言語変
換装置の一例として、第3の実施の形態同様、異なる言
語間の変換を行う通訳装置を用いて説明する。図8は本
実施の形態の通訳装置のブロック図である。
【0074】なお、本実施の形態のうち、対訳コーパス
101、内容語定義表103、対訳単語辞書107、形
態素解析部102、品詞化部104、フレーズ抽出部1
42、フレーズ決定部143は、対訳フレーズ間規則表
145、対訳フレーズ辞書144、フレーズ定義表14
1は、本発明の言語変換規則作成装置の例である。ま
た、本実施の形態の対訳フレーズ辞書144は本発明の
請求項6記載のフレーズ辞書の例である。
【0075】本実施の形態の通訳装置は、まず通訳する
前に、第3の実施の形態同様、形態素解析後、品詞タグ
が付与された対訳コーパスを作成する。
【0076】次に、フレーズ抽出部142で、予めフレ
ーズとして抽出したい単語または品詞列を規則化して記
述してあるフレーズ定義表141に従い、規則に相当す
る単語または品詞を連結する。たとえば図9の141の
例では、「動詞+助動詞」や「格助詞+動詞」などの規
則により、「を+(動詞)+たい」が単語として連結され
る。このように、上記の一部の内容語が品詞名に置き換
えられ、さらに上記のような単語または品詞列が連結さ
れ一単語とみなされたコーパスについて、原言語文、目
的言語文別々に、各単語または品詞の2連鎖出現頻度
(以後 bi-gramと呼ぶ)を算出する。算出式は(数2)
と同様である。
【0077】さらに、bi-gramの値が全て一定閾値を超
えなくなるまで、第3の実施の形態と同等に、処理を繰
り返す。そして、連結された単語も含めた個々の単語を
フレーズ候補として抽出し、フレーズ決定部で、第3の
実施の形態と同様に対訳フレーズ辞書144と対訳フレ
ーズ間規則表145を作成する。図9の151はフレー
ズ定義表141に従って単語または品詞が連結されたコ
ーパスの例であり、152が作成された対訳フレーズ辞
書144の例である。
【0078】通訳の際の動作も第3の実施の形態と同様
である。
【0079】以上の実施の形態では、予め定義されてい
るフレーズとみなしたい単語または品詞列の規則に従っ
て単語または品詞を連結した後、原言語文及び目的言語
文各々における単語または品詞の隣接頻度と、対訳にお
ける頻度の高い単語列または品詞列の共起関係を用いて
自動的に対訳フレーズとフレーズ間規則を決定し、この
対訳フレーズ規則を用いて言語または文体変換とを行う
ことにより、人手を最小限度に押さえた範囲で、さらに
効率よく品質の高い対訳フレーズ辞書を生成できる言語
変換規則作成装置を提供することが出来る。
【0080】なお、本実施の形態の対訳フレーズは、本
発明の対応するフレーズの例である。
【0081】さらに、本実施の形態では、言語変換装置
の1つの例として通訳装置を例にあげて説明したが、こ
れは他の言語変換装置、例えばくだけた発話文を書き言
葉のようなテキスト文に変換する言語変換装置において
も、同様に使用することが出来る。
【0082】(実施の形態5)第3の実施の形態では、
言語規則を構築する際に、コーパスの一部の単語を品詞
化することで、より一般的で品質の高い規則の構築を実
現しているが、品詞化の代わりに意味コード化すること
でも同様の効果が期待できる。以下に図10を参照しな
がら、本実施の形態を説明する。本実施の形態でも、異
なる言語間の変換を行う通訳装置を用いて説明する。
【0083】なお、本実施の形態のうち、対訳コーパス
201、分類語彙表216、対訳単語辞書207、形態
素解析部202、意味コード化部215、フレーズ抽出
部205、フレーズ決定部206は、対訳フレーズ間規
則表208、対訳フレーズ辞書209は、本発明の言語
変換規則作成装置の例である。また、本実施の形態の対
訳フレーズ辞書209は本発明の請求項6記載のフレー
ズ辞書の例である。
【0084】本実施の形態の通訳装置は、第3の実施の
形態同様、形態素解析部202で対訳コーパス201内
の原言語文の形態素解析を行うことで品詞タグが原言語
文に与えられる。次に、意味コード化部215で、原言
語文の形態素列において、各形態素と分類語彙表216
に書かれている単語とを比較し、分類語彙表216で意
味コードが与えられている単語と一致した形態素につい
ては、形態素名を意味コードに置きかえることで、入力
形態素列を一部の形態素が意味コード化された形態素列
に変換する。この際に意味コード化される形態素には以
下の条件を満たすものとする。 (条件)対訳単語辞書に登録されている単語で、対訳単
語辞書の目的言語訳に相当する単語が、コーパス内の相
当する目的言語対訳文に存在する。
【0085】図11の例では、対訳単語辞書に登録され
ておりしかも分類語彙表でコードが与えられている「部
屋」と「予約」のみが意味コード化され、2132のよ
うにこれらの形態素を意味コードに置き換えた形態素列
が作成される。さらに、相当する目的言語対訳文内の単
語名も2133のように意味コードに置き換える。
【0086】次に、上記の一部の内容語が意味コードに
置き換えられたコーパスについて、フレーズ抽出部20
5で、原言語文、目的言語文別々に、各単語または意味
コードの2連鎖出現頻度を算出する。算出式を(数5)
に示す。
【0087】
【数5】
【0088】コーパス内の全原言語文及び目的言語文を
対象にbi-gramを算出した後、フレーズ抽出部で、最も
出現頻度の高かった2単語または意味コード対を1つの
単語とみなして連結し、再度bi-gramを算出する。これ
により、たとえば頻度高く隣接する「お」「願い」、
「願い」「し」、「し」「ます」などの単語対が連結さ
れ、「お願いします」というフレーズ候補が形成され
る。目的言語では「I'd」「like」、「like」「to」の
単語対が連結される。
【0089】全原言語文及び目的言語文別々に、以上の
連結とbi-gram算出とを、bi-gramの値が全て一定閾値を
超えなくなるまで繰り返す。そして、連結された単語も
含めた個々の単語をフレーズ候補として抽出する。
【0090】以下第3の実施の形態と同様にフレーズ決
定部206にて対訳フレーズを決定し、対訳フレーズ辞
書209に登録する。さらに第3の実施の形態と同様に
フレーズ間言語規則及びフレーズbi-gramを作成し、対
訳フレーズ間規則表208に登録する。
【0091】通訳の際も第3の実施の形態と同様に動作
する。
【0092】以上の実施の形態では、原言語フレーズと
目的言語フレーズが対応した形で規則を記述しておき、
このフレーズの単位で認識を行ないうことで、入力文の
一部が未知部分文であったり、音声認識が一部誤ったと
しても、正しく認識および解析された部分は適切に処理
され出力される言語変換装置を可能にする。また、原言
語文及び目的言語文各々における単語または意味コード
の隣接頻度と、対訳における頻度の高い単語列または意
味コード列の共起関係を用いて自動的に対訳フレーズと
フレーズ間規則を決定し、この対訳フレーズ規則を用い
て通訳を行うことにより、なるべく人手をかけずに、自
動的に効率よくしかも品質の高い対訳フレーズ辞書を生
成できる言語規則作成装置を可能とする。
【0093】なお、本実施の形態では、言語変換装置の
1つの例として通訳装置を例にあげて説明したが、これ
は他の言語変換装置、例えばくだけた発話文を書き言葉
のようなテキスト文に変換する言語変換装置においても
同様に使用することが出来る。
【0094】(実施の形態6)第5の実施の形態では、
言語規則を構築する際に、隣接頻度の高い単語または品
詞、意味コードを連結してフレーズを作成していたが、
フレーズを作成した後に、文複雑度を評価することで、
より品質が高く、認識率を保証できるフレーズを形成す
ることができる。
【0095】以下に図12を参照しながら、言語変換規
則作成装置の実施の形態を説明する。
【0096】なお、本実施の形態における対訳フレーズ
辞書は本発明の請求項6記載のフレーズ辞書の例であ
る。
【0097】先の実施の形態同様、形態素解析後、意味
コード化部213で一部の形態素を意味コードに変換し
た対訳コーパスを作成する。さらに、フレーズ抽出部
で、原言語文、目的言語文別々に、各単語または意味コ
ードのbi-gramを算出する。算出式は(数5)と同様で
ある。
【0098】さらに、bi-gramの値が全て一定閾値を超
えなくなるまで、先の実施の形態と同等に、処理を繰り
返す。そして、連結された単語も含めた個々の単語をフ
レーズ候補として抽出する。
【0099】上記の処理を行う際に、文複雑度算出部2
18で、各単語または意味コードのbi-gramを算出し、b
i-gramの値によって連結処理を行う際に、各単語対を連
結した場合と連結しない場合との文複雑度を算出し比較
する。文複雑度は(数6)で算出されるものである。
【0100】
【数6】
【0101】比較した結果、フレーズ抽出部217で各
単語または意味コードを連結することで文複雑度が増加
するものについては、フレーズ候補から除去する。
【0102】上記処理でフレーズ候補に残ったフレーズ
を対象に、先の実施の形態と同条件でフレーズを決定
し、対訳フレーズ辞書209とフレーズ間規則表208
を決定する。
【0103】以上の実施の形態では、対訳フレーズを決
定する際に、意味コードによる単語クラス化された対訳
コーパスの文複雑度を用いて決定することにより、コー
パスから対訳フレーズを自動的に抽出することを可能と
し、人手をなるべく用いずに、効率よく品質の高い対訳
フレーズ辞書を生成できる。また、文複雑度の尺度が、
音声認識に適切なフレーズかどうかの尺度と密接に関係
があるため、認識精度を保証しながら、自動的にフレー
ズ抽出することが可能となる。
【0104】なお、本実施の形態では、一部の単語を意
味コード化したコーパスを扱ってフレーズ抽出する例を
説明したが、品詞化したコーパスを扱ってフレーズ抽出
する場合でも同様の効果が期待できる。
【0105】さらに、第4の実施の形態では、品詞タグ
が付与された対訳コーパスを扱ってフレーズ定義表によ
りフレーズを抽出する例を説明したが、第5の実施の形
態で説明したように一部の単語を意味コード化したコー
パスを扱って、フレーズ定義表によりフレーズを抽出す
る場合でも同様の効果が期待できる。
【0106】さらに、第1〜5の実施の形態では言語変
換装置は、音声認識部、言語変換部、出力文生成部から
構成されるとして説明したが、これに限らない。図13
に示すように、出力文生成部212が出力した翻訳結果
文を音声合成する音声合成部を設けても構わない。そし
てこの音声合成部は、音声合成する際に音声認識部21
0、言語変換部211で用いられたのと同じ対訳フレー
ズ間規則表208、対訳フレーズ辞書209を用いて音
声合成を行う。このようにすれば入力音声文に未学習部
分があったり、音声認識が一部誤りを起こしても、全文
に対する音声合成結果が全く出力されないという問題点
を解決し、正しく認識された部分については、適切な音
声を出力できることが期待できる。
【0107】さらに、本発明の言語変換装置または言語
変換規則作成装置の各構成要素の全部または一部の機能
を専用のハードウェアを用いて実現しても構わないし、
またコンピュータのプログラムによってソフトウェア的
に実現しても構わない。
【0108】さらに、本発明の言語変換装置または言語
変換規則作成装置の各構成要素の全部または一部の機能
をコンピュータに実行させるためのプログラムを格納し
ていることを特徴とするプログラム記録媒体も本発明に
属する。
【0109】
【発明の効果】以上説明したところから明らかなよう
に、本発明は、必ず目的言語文に変換可能な認識結果を
出力でき、従って、入力文の一部が未知部分文であった
り、音声認識が一部誤ったとしても、正しく認識および
解析された部分は適切に処理され出力されることを可能
にする言語変換規則作成装置及びプログラム記録媒体
提供することが出来る。
【0110】また、本発明は、入力音声文に未学習部分
があったり、音声認識が一部誤りを起こしても、正しく
認識され適切な解析規則が当てはまった部分のみの変換
が可能であり、部分的な変換結果を必ず出力することを
可能にする言語変換規則作成装置及びプログラム記録媒
を提供することが出来る。
【0111】また、本発明は、なるべく人手をかけずに
自動的に言語規則を作成することを可能にする言語変換
規則作成装置及びプログラム記録媒体を提供することが
出来る。
【0112】また、本発明は、なるべく人手をかけずに
自動的に、かつ、より効率よく高品質な言語規則を作成
することを可能にする言語変換規則作成装置及びプログ
ラム記録媒体を提供することが出来る。
【0113】また、本発明は、自動的に、かつ、より効
率よく高品質な言語規則を作成することを可能にする言
語変換規則作成装置及びプログラム記録媒体を提供する
ことが出来る。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態における言語変換装
置の構成を示すブロック図
【図2】本発明の第2の実施の形態における言語変換装
置の構成を示すブロック図
【図3】本発明の第1の実施の形態における言語規則の
作成を説明する図
【図4】本発明の第2の実施の形態における最適言語規
則の作成を説明する図
【図5】本発明の第3の実施の形態における言語変換装
置及び言語規則作成装置の構成を示すブロック図
【図6】本発明の第3の実施の形態における言語変換規
則の作成を説明する図
【図7】本発明の第3の実施の形態における対訳フレー
ズ間規則表と対訳フレーズ辞書の例を示す図。
【図8】本発明の第4の実施の形態における言語変換装
置及び言語規則作成装置の構成を示すブロック図
【図9】本発明の第4の実施の形態におけるフレーズ定
義表の例を説明する図
【図10】本発明の第5の実施の形態における言語変換
装置及び言語規則作成装置の構成を示すブロック図
【図11】本発明の第5の実施の形態における言語規則
の作成を説明する図
【図12】本発明の第6の実施の形態における言語変換
規則作成装置の構成を示すブロック図
【図13】音声合成部を有する言語変換装置の構成例を
示すブロック図
【図14】従来の言語変換装置で用いられる言語規則の
例を示す図
【図15】従来の言語変換装置の構成を示すブロック図
【符号の説明】
1 対訳コーパス 2 言語規則再生部 3 フレーズ内言語規則 4 フレーズ間言語規則 5 文生成規則 6 マイクロフォン 7 音声認識部 8 音響モデル 9 言語変換部 10 出力文生成部 101 対訳コーパス 102 形態素解析部 103 内容語定義表 104 品詞化部 105 フレーズ抽出部 106 フレーズ決定部 107 対訳単語辞書 108 対訳フレーズ間規則表 109 対訳フレーズ辞書 110 音声認識 111 言語変換 112 出力文生成 113 音響モデル 114 文生成規則
フロントページの続き (56)参考文献 特開 平8−328585(JP,A) 特開 平1−70871(JP,A) 北村美穂子・松本裕治,対訳コーパス を利用した翻訳規則の自動獲得,情報処 理学会論文誌,日本,1996年 6月15 日,Vol.37,No.6,p.1030− p.1040 大森久美子・佐藤健吾・中西正和,共 起関係を利用した対訳コーパスからの連 語の対訳表現抽出,情報処理学会研究報 告97−NL−122−3,日本,1997年11 月21日,Vol.97,No.109,p. 13−p.20 (58)調査した分野(Int.Cl.7,DB名) G06F 17/21 - 17/28 G10L 15/00 - 15/18

Claims (9)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声またはテキストで入力される言語変
    換の対象となる文(以下、原言語文と呼ぶ、これに対応
    して言語変換された文を目的言語文と呼ぶ)と、目的言
    語文とが対になった学習用データベース(以下、対訳コ
    ーパスと呼ぶ)と、 その対訳コーパス中の原言語文及び目的言語文における
    単語または品詞の隣接頻度を算出し、頻度の高い単語及
    び品詞を連結して意味的なまとまりを形成する部分文
    (以下、フレーズと呼ぶ)を抽出するフレーズ抽出部
    と、 前記フレーズ抽出部で抽出された前記フレーズで、文全
    体に対する原言語及び目的言語のフレーズの関係を調べ
    ることで対応するフレーズを決定するフレーズ決定部
    と、 決定された前記対応するフレーズを保管しておくフレー
    ズ辞書と 入力音声の音声認識を行い、言語変換の対象となる文で
    認識結果を出力する音声認識部と を備え、 前記フレーズ辞書は、音声認識と言語変換とを行う際に
    用いられ、その音声認識は、前記フレーズ辞書に格納されている前
    記対応するフレーズを一続きの単語としてまたは順序と
    内容とが固定された連結単語として扱って音声認識を行
    うものであり、 その言語変換は、前記フレーズ辞書を用いて、原言語文
    が入力された際にこの入力文と前記フレーズ辞書に格
    納されている前記対応するフレーズとを照合すること
    言語または文体変換を行うものであることを特徴と
    する言語変換規則作成装置。
  2. 【請求項2】 前記フレーズ決定部は、原言語及び目的
    言語のフレーズの共起関係を調べることで対応するフレ
    ーズを決定することを特徴とする請求項記載の言語変
    換規則作成装置。
  3. 【請求項3】 前記対訳コーパスの原言語文を単語列に
    変換する形態素解析部と、 その形態素解析部の結果を利用して原言語文及び目的言
    語文の一部または全部の単語を品詞名で置き換えた対訳
    コーパスを作成する品詞化部を更に有し、 前記フレーズ抽出部は、前記品詞化部で品詞化された対
    訳コーパスからフレーズを抽出することを特徴とする請
    求項記載の言語変換規則作成装置。
  4. 【請求項4】 原言語と目的言語との対訳単語辞書を有
    し、 前記品詞化部は、前記対訳単語辞書で対応付けされてい
    る単語でかつ原言語が内容語である単語を品詞化するこ
    とを特徴とする請求項記載の言語変換規則作成装置。
  5. 【請求項5】 前記対訳コーパスの原言語文を単語列に
    変換する形態素解析部と、 その形態素解析部の結果を利用して、意味的類似した単
    語を同クラスと見なして単語を分類し、同クラス内の単
    語に同コードを与えている表(以下、分類語彙表とい
    う)に基づき、原言語文及び目的言語文の一部または全
    部の単語を前記分類語彙表のコードに置き換えた対訳コ
    ーパスを作成する意味コード化部を更に有し、 前記フレーズ抽出部は、前記意味コード化部でコードに
    置き換えられた対訳コーパスからフレーズを抽出するこ
    とを特徴とする請求項記載の言語変換規則作成装置。
  6. 【請求項6】 原言語と目的言語との対訳単語辞書を有
    し、 前記意味コード化部は、前記対訳単語辞書で対応つけら
    れている単語のみ意味コード化することを特徴とする請
    求項記載の言語変換規則作成装置。
  7. 【請求項7】 前記フレーズ抽出部は、予め優先的にフ
    レーズとみなしたい単語または品詞列を原言語と目的言
    語を対にして保管しておくフレーズ定義表をも利用し
    て、フレーズを抽出し、 前記フレーズ抽出部は、前記対訳コーパス中の原言語文
    及び目的言語文における単語または品詞列が前記フレー
    ズ定義表に保管されている単語または品詞列に一致した
    場合、その一致した原言語文及び目的言語文における単
    語または品詞列をフレーズとして抽出するする ことを特
    徴とする請求項記載の言語変換規則作成装置。
  8. 【請求項8】 コーパスのパープレキシティー(文複雑
    度)を算出する文複雑度算出部を有し、前記フレーズ抽出部は、前記単語または単語クラスの隣
    接頻度が所定の閾値を超えなくなるまで、前記単語また
    は単語クラスを連結してフレーズを抽出し、 前記単語または単語クラスを連結してフレーズを抽出す
    る際、前記単語または単語クラスを連結する前の前記文
    複雑度と前記単語または単語クラスを連結した後の前記
    文複雑度とを比較し、前記単語または単語クラスを連結
    した後の前記文複雑度が前記単語または単語クラスを連
    結する前の前記分複雑度より増加する場合、前記単語ま
    たは単語クラスを連結した後の単語または単語クラスを
    フレーズとして抽出しない ことを特徴とする請求項1〜
    のいずれかに記載の言語変換規則作成装置。
  9. 【請求項9】 請求項1〜のいずれかに記載の言語変
    換規則作成装置の各構成要素の機能をコンピュータに実
    行するためのプログラムを格納していることを特徴とす
    るプログラム記録媒体。
JP15648499A 1998-06-04 1999-06-03 言語変換規則作成装置、及びプログラム記録媒体 Expired - Lifetime JP3441400B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15648499A JP3441400B2 (ja) 1998-06-04 1999-06-03 言語変換規則作成装置、及びプログラム記録媒体

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP15555098 1998-06-04
JP3925399 1999-02-17
JP11-41186 1999-02-19
JP10-155550 1999-02-19
JP4118699 1999-02-19
JP11-39253 1999-02-19
JP15648499A JP3441400B2 (ja) 1998-06-04 1999-06-03 言語変換規則作成装置、及びプログラム記録媒体

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2003131271A Division JP2003345797A (ja) 1998-06-04 2003-05-09 言語変換装置及びプログラム記録媒体

Publications (2)

Publication Number Publication Date
JP2000305930A JP2000305930A (ja) 2000-11-02
JP3441400B2 true JP3441400B2 (ja) 2003-09-02

Family

ID=27460727

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15648499A Expired - Lifetime JP3441400B2 (ja) 1998-06-04 1999-06-03 言語変換規則作成装置、及びプログラム記録媒体

Country Status (1)

Country Link
JP (1) JP3441400B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7124080B2 (en) * 2001-11-13 2006-10-17 Microsoft Corporation Method and apparatus for adapting a class entity dictionary used with language models
JP4758758B2 (ja) * 2005-12-26 2011-08-31 日本放送協会 辞書作成装置および辞書作成プログラム
US8972268B2 (en) 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US9128926B2 (en) 2006-10-26 2015-09-08 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database
JP5505234B2 (ja) 2010-09-29 2014-05-28 富士通株式会社 文字列比較プログラム、文字列比較装置及び文字列比較方法
CN109635273B (zh) * 2018-10-25 2023-04-25 平安科技(深圳)有限公司 文本关键词提取方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
北村美穂子・松本裕治,対訳コーパスを利用した翻訳規則の自動獲得,情報処理学会論文誌,日本,1996年 6月15日,Vol.37,No.6,p.1030−p.1040
大森久美子・佐藤健吾・中西正和,共起関係を利用した対訳コーパスからの連語の対訳表現抽出,情報処理学会研究報告97−NL−122−3,日本,1997年11月21日,Vol.97,No.109,p.13−p.20

Also Published As

Publication number Publication date
JP2000305930A (ja) 2000-11-02

Similar Documents

Publication Publication Date Title
US6278968B1 (en) Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
WO1999063456A1 (fr) Dispositif de preparation de regles de conversion du langage, dispositif de conversion du langage et support d'enregistrement de programme
US6223150B1 (en) Method and apparatus for parsing in a spoken language translation system
US6243669B1 (en) Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6282507B1 (en) Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US6442524B1 (en) Analyzing inflectional morphology in a spoken language translation system
US6374224B1 (en) Method and apparatus for style control in natural language generation
US6356865B1 (en) Method and apparatus for performing spoken language translation
US6266642B1 (en) Method and portable apparatus for performing spoken language translation
AU2004201089B2 (en) Syntax tree ordering for generating a sentence
KR101099177B1 (ko) 기계 번역기를 훈련하기 위한 방법 및 시스템
US8442812B2 (en) Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
US8370130B2 (en) Speech understanding system using an example-based semantic representation pattern
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
JPH05189481A (ja) 翻訳用コンピュータ操作方法、字句モデル生成方法、モデル生成方法、翻訳用コンピュータシステム、字句モデル生成コンピュータシステム及びモデル生成コンピュータシステム
Wang et al. MUXING: a telephone-access Mandarin conversational system.
JP3441400B2 (ja) 言語変換規則作成装置、及びプログラム記録媒体
Gao et al. MARS: A statistical semantic parsing and generation-based multilingual automatic translation system
JP3009636B2 (ja) 音声言語解析装置
JP3825645B2 (ja) 表現変換方法及び表現変換装置
JP3737817B2 (ja) 表現変換方法及び表現変換装置
JP4033093B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP3903820B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2003345797A (ja) 言語変換装置及びプログラム記録媒体
Gavhal et al. Sentence Compression Using Natural Language Processing

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
R150 Certificate of patent or registration of utility model

Ref document number: 3441400

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080620

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090620

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100620

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100620

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110620

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120620

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120620

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130620

Year of fee payment: 10

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term