JPWO2011033834A1

JPWO2011033834A1 - 音声翻訳システム、音声翻訳方法および記録媒体

Info

Publication number: JPWO2011033834A1
Application number: JP2011531830A
Authority: JP
Inventors: 長田　誠也; 誠也長田; 健花沢; 隆行荒川; 岡部　浩司; 浩司岡部; 田中　大介; 大介田中
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-09-18
Filing date: 2010-06-18
Publication date: 2013-02-07
Also published as: WO2011033834A1

Abstract

音声翻訳システム（１）は、入力音声を所定の単位で音声認識して文字データを生成する音声認識部（１１）と、この音声認識部（１１）により生成された文字データを連結する認識結果連結部（１２）と、この認識結果連結部（１２）により連結された文字データが文として成立するか否かを判定する文判定部（１３）と、連結された文字データを翻訳する翻訳部（１４）と、この翻訳部（１４）による翻訳結果を出力する出力部（１５）とを備える。この構成により、文として成立すると判定されたものを含む連結された文字データの翻訳結果が出力されるので、リアルタイムに翻訳結果を出力することができるとともに、文法的に正しい翻訳結果も出力することができる。

Description

本発明は、入力された音声を翻訳する音声翻訳システム、音声翻訳方法および記録媒体に関するものである。

近年、音声翻訳システムでは、音声認識システムと機械翻訳システムとを利用したものが提案されている。一般に、音声認識システムでは、マイクボタンなどの音声認識の処理単位を決定する装置を有さない場合、音声の切れ目という物理的な現象を利用して音声認識処理の処理単位を決めている。これに対して、機械翻訳システムでは、文というテキスト単位で翻訳処理を行っている。したがって、このような２つのシステムを単純に組み合わせて音声翻訳システムを作成すると、音声の切れ目毎に翻訳処理されるので発声された音声を適切に翻訳することが難しかった。特に、英語と日本語のように語順が大きく違う言語間の翻訳は、困難であった。

このような問題を解決するために、日本語話し言葉の不適格表現を容認して、日本語を母語とする人であれば不自然なく読める逐次的な翻訳結果を出力する技術が提案されている（例えば、非特許文献１参照。）。一般に、話し言葉は、繰り返し、語順の逆転、省略、言い誤り、言い直し、言い淀みなど書き言葉には見られない様々な不適格表現が頻繁に出現する。人間は、その高度な発話理解能力により、発話の中に不適格表現が含まれていてもその不適格表現を容認して、その発話の意味するところを容易に理解することができる。そこで、上記技術では、日本語話し言葉の不適格表現を排除するのではなく、むしろ積極的に容認して、入力された他言語を逐次翻訳している。このような構成を採ることにより、上記技術では、翻訳結果をリアルタイムに出力することを実現している。

松原茂樹, 浅井悟, 外山勝彦, 稲垣康善，不適格表現を活用する漸進的な英日話し言葉翻訳手法, 電気学会論文誌, Vol.118-C, No.1, pp.71-78 (1998.1)

しかしながら、不適格表現を容認した技術では、翻訳結果が書き言葉として正しい文になっていなくても出力されてしまう。このため、その翻訳結果は、リアルタイムに読むときにはよいもものの、後で読み直したときにはとても読みにくいものとなっていた。

そこで、本願発明は、リアルタイムに翻訳結果を出力することができるとともに、文法的に正しい翻訳結果を出力することができる音声翻訳システム、音声翻訳方法および記録媒体を提案することを目的とする。

上述したよう課題を解決するために、本発明に係る音声翻訳システムは、入力音声を所定の単位で音声認識して文字データを生成する音声認識部と、この音声認識部により生成された文字データを連結する認識結果連結部と、この認識結果連結部により連結された文字データが文として成立するか否かを判定する文判定部と、連結された文字データを翻訳する翻訳部と、この翻訳部による翻訳結果を出力する出力部とを備え、認識結果連結部は、文判定部により文として成立しないと判定された連結された文字データに、さらに文字データを連結することを特徴とするものである。

また、本発明に係る音声翻訳方法は、入力音声を所定の単位で音声認識して文字データを生成する音声認識ステップと、この音声認識ステップにより生成された文字データを連結する認識結果連結ステップと、この認識結果連結ステップにより連結された文字データが文として成立するか否かを判定する文判定ステップと、連結された文字データを翻訳する翻訳ステップと、この翻訳ステップによる翻訳結果を出力する出力ステップとを備え、認識結果連結ステップは、文判定ステップにより文として成立しないと判定された連結された文字データに、さらに文字データを連結することを特徴とするものである。

また、本発明に係る記録媒体は、コンピュータに、入力音声を所定の単位で音声認識して文字データを生成する音声認識ステップと、この音声認識ステップにより生成された文字データを連結する認識結果連結ステップと、この認識結果連結ステップにより連結された文字データが文として成立するか否かを判定する文判定ステップと、連結された文字データを翻訳する翻訳ステップと、この翻訳ステップによる翻訳結果を出力する出力ステップとを実行させるためのプログラムを記録した記録媒体であって、認識結果連結ステップは、文判定ステップにより文として成立しないと判定された連結された文字データに、さらに文字データを連結することを特徴とするものである。

本発明によれば、入力音声を所定の単位で音声認識して文字データを生成し、この生成された文字データを連結し、この文字データが文として成立するか否かを判定し、文として成立しないと判定された連結された文字データに、さらに文字データを連結し、連結された文字データを翻訳し、この翻訳結果を出力することにより、文として成立すると判定されたものを含む連結された文字データの翻訳結果が出力される。したがって、リアルタイムに翻訳結果を出力することができるとともに、文法的に正しい翻訳結果も出力することができる。

図１は、本発明の第１の実施の形態に係る音声翻訳システムの構成を示すブロック図である。図２は、本発明の第２の実施の形態に係る音声翻訳システムの構成を示すブロック図である。図３は、本発明の第２の実施の形態に係る音声翻訳システムの動作を示すフローチャートである。図４は、出力装置における文字データと翻訳データの表示例である。図５は、出力装置における文字データと翻訳データの表示例である。図６は、本発明の第３の実施の形態に係る音声翻訳システムの構成を示すブロック図である。図７は、出力装置における文字データと翻訳データの表示例である。図８は、出力装置における文字データと翻訳データの表示例である。図９は、出力装置における文字データと翻訳データの表示例である。

以下、図面を参照して、本発明の実施の形態について詳細に説明する。

［第１の実施の形態］
まず、本発明の第１の実施の形態に係る音声翻訳システムについて説明する。

図１に示すように、本実施の形態に係る音声翻訳システム１は、入力音声を所定の単位で音声認識して文字データを生成する音声認識部１１と、この音声認識部１１により生成された文字データを連結する認識結果連結部１２と、この認識結果連結部１２により連結された文字データが文として成立するか否かを判定する文判定部１３と、連結された文字データを翻訳する翻訳部１４と、この翻訳部１４による翻訳結果を出力する出力部１５とを備えたものである。

ここで、認識結果連結部１２は、文判定部１３により文として成立しないと判定された連結された文字データに、さらに文字データを連結する

このような音声翻訳システム１は、ＣＰＵ等の演算装置と、メモリ、ＨＤＤ（Hard Disk Drive）等の記憶装置と、キーボード、マウス、ポインティングデバイス、ボタン、タッチパネル等の外部から情報の入力を検出する入力装置と、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等の通信回線を介して各種情報の送受信を行うＩ／Ｆ装置と、ＣＲＴ（Cathode Ray Tube）、ＬＣＤ（Liquid Crystal Display）またはＦＥＤ（Field Emission Display）等の表示装置を備えたコンピュータと、このコンピュータにインストールされたプログラムとから構成される。すなわちハードウェア装置とソフトウェアとが協働することによって、上記のハードウェア資源がプログラムによって制御され、上述した音声認識部１１、認識結果連結部１２、文判定部１３、翻訳部１４および出力部１５が実現される。なお、上記プログラムは、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、メモリカード、ＩＣメモリなどの記録媒体に記録された状態で提供されるようにしてもよい。

このような構成を有することにより、本実施の形態では、入力音声を所定の単位で音声認識して文字データを生成し、この生成された文字データを連結し、この文字データが文として成立するか否かを判定し、文として成立しないと判定された連結された文字データに、さらに文字データを連結し、連結された文字データを翻訳し、この翻訳結果を出力することにより、文として成立すると判定されたものを含む連結された文字データの翻訳結果が出力される。したがって、リアルタイムに翻訳結果を出力することができるとともに、文法的に正しい翻訳結果も出力することができる。

［第２の実施の形態］
次に、本発明の第２の実施の形態に係る音声翻訳システムについて説明する。

＜音声翻訳システムの構成＞
図２に示すように、本実施の形態に係る音声翻訳システム２は、ユーザの音声が入力される入力装置２１と、この入力装置２１に入力された音声からユーザが発した言葉を翻訳するデータ処理装置２２と、このデータ処理装置２２における情報処理に用いられるデータを記憶するデータ記憶装置２３と、データ処理装置２２による情報処理結果を出力する出力装置２４とを備えている。

≪入力装置の構成≫
入力装置２１は、マイクロフォンなどの検出した音声を電気信号に変換する公知の音声検出装置から構成される。

≪データ処理装置の構成≫
データ処理装置２２は、入力装置２１から入力される電気信号に対して情報処理を行うことにより、ユーザが発した音声からそのユーザが発した文字や単語を翻訳する情報処理装置から構成される。このようなデータ処理装置２２は、音声認識部２２１と、第１の翻訳部２２２と、認識結果連結部２２３と、文判定部２２４と、第２の翻訳部２２５と、翻訳結果出力部２２６とを備える。

音声認識部２２１は、入力装置１から入力された電気信号（以下、音声データという）を解析して、ユーザが発した音声を文字データとして取り出す音声認識処理を行う機能部である。なお、音声認識部２２１による音声認識処理は、例えば、無音が３秒以上続くといった音声の切れ目ごとに音声データを区切ったものなど、所定の単位毎に行われる。

第１の翻訳部２２２は、音声認識部２２１から出力された文字データを公知の機械翻訳技術を利用して翻訳する機能部である。

認識結果連結部２２３は、音声認識部２２１から出力される文字データを時系列的に連結した文字データ列を生成して文判定部２２４に出力する機能部である。ここで、最初に音声認識部２２１から出力された文字データについては、この文字データのみが文字データ列として文判定部２２４に出力される。一方、後述する文判定部２２４により文として成り立たないと判定された文字データ列については、この文字データ列に含まれる最後の文字データに時系列的に続く文字データが連結されて、新たな文字データ列として出力される。

文判定部２２４は、認識結果連結部２２３から出力された文字データ列が、文として成り立つか否かを、データ記憶装置２３に記憶された後述する文判定モデル２３１に基づいて判定する機能部である。

第２の翻訳部２２５は、文判定部２２４により文として成り立つと判定された文字データ列を公知の機械翻訳技術を利用して翻訳する機能部である。

翻訳結果出力部２２６は、第１の翻訳部２２２の翻訳結果（以下、第１の翻訳結果という）と、第２の翻訳部２２５の翻訳結果（以下、第２の翻訳結果という）とを出力装置２４に出力する機能部である。

このようなデータ処理装置２２は、ＣＰＵ等の演算装置と、メモリ、ＨＤＤ等の記憶装置と、キーボード、マウス、ポインティングデバイス、ボタン、タッチパネル等の外部から情報の入力を検出する入力装置と、ＬＡＮ、ＷＡＮ等の通信回線を介して各種情報の送受信を行うＩ／Ｆ装置と、ＣＲＴ、ＬＣＤまたはＦＥＤ等の表示装置を備えたコンピュータと、このコンピュータにインストールされたプログラムとから構成される。すなわちハードウェア装置とソフトウェアとが協働することによって、上記のハードウェア資源がプログラムによって制御され、上述した音声認識部２２１、第１の翻訳部２２２、認識結果連結部２２３、文判定部２２４、第２の翻訳部２２５および翻訳結果出力部２２６が実現される。なお、上記プログラムは、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、メモリカード、ＩＣメモリなどの記録媒体に記録された状態で提供されるようにしてもよい。

≪データ記憶装置の構成≫
データ記憶装置２３は、公知の磁気記憶装置からなり、文字データが文であるか否かを判定するための情報からなる文判定モデル２３１を記憶している。文判定モデル２３１は、例えば、Ｎ−ｇｒａｍモデルで学習された多数のモデルを含むデータベースから構成される。そのモデルとしては、例えば、Ｎ＝３の３−ｇｒａｍモデルで学習されたデータベースの場合、３つの文字列または単語の組み合わせからなる。このような文判定モデル２３１は、予め構築されている。

≪出力装置の構成≫
出力装置２４は、ＣＲＴ，ＬＣＤ，ＦＥＤ等の公知のディスプレイ装置やスピーカ等の公知の音声出力装置などから構成され、データ処理装置２２の翻訳結果出力部２２６から入力された翻訳結果を出力する。

なお、本実施の形態に係る音声翻訳システム２は、入力装置２１、データ処理装置２２、データ記憶装置２３および出力装置２４が一体となって、コンピュータとこのコンピュータにインストールされたプログラムとから構成されるようにしてもよいことは言うまでもない。

＜音声翻訳システムの動作＞
次に、図３を参照して、本実施の形態に係る音声翻訳システム２の動作について説明する。

まず、入力装置２１は、ユーザの音声が入力されると、その音声を電気信号（音声データ）に変換してデータ処理装置２２の音声認識部２２１に入力する（ステップＳ１）。

音声データが入力されると、音声認識部２２１は、その音声データを音声認識して、文字データを所定の単位毎に生成する（ステップＳ２）。

所定の単位の文字データが生成されると、第１の翻訳部２２２は、その文字データを翻訳する（ステップＳ３）。この翻訳された文字データ（第１の翻訳結果）は、翻訳結果出力部２２６に送出され、後述するステップＳ７の処理が行われる。

また、認識結果連結部２２３は、音声認識部２２１で生成された文字データを時系列的に連結して、文字データ列を生成する（ステップＳ４）。

文字データ列が生成されると、文判定部２２４は、その文字データ列が文として成り立つか否かを、データ記憶装置２３の文判定モデル２３１に基づいて判定する（ステップＳ５）。

文字データ列が文として成り立たない場合（ステップＳ５：ＮＯ）、文判定部２２４は、その文字データ列を認識結果連結部２２３に送出する。すると、認識結果連結部２２３は、受け取った文字データ列の末尾に時系列的に続く文字データを連結した新たな文字データ列を生成する。

一方、文字データ列が文として成立する場合（ステップＳ５：ＹＥＳ）、第２の翻訳部２２５は、その文字データ列を翻訳する（ステップＳ６）。この翻訳された文字データ列（第２の翻訳結果）は、翻訳結果出力部２２６に送出される。

第１の翻訳部２２２および第２の翻訳部２２５により翻訳がそれぞれ行われると、翻訳結果出力部２２６は、第１の翻訳結果および第２の翻訳結果を出力装置２４に送出する。すると、出力装置２４は、受け取った第１の翻訳結果および第２の翻訳結果を表示画面に表示させたり、スピーカから出力させたりする（ステップＳ７）。

このような一連の動作は、入力装置２１に入力された音声がなくなるまで行われる。

このように、本実施の形態によれば、所定の単位で音声認識した文字データを逐次翻訳することにより、リアルタイムでその所定の単位の音声認識結果を理解することができ、かつ、所定の単位で音声認識された文字データを連結して文として成り立つか否か判定し、文として成り立つと判定された文字データ列を翻訳して出力することにより、後で翻訳結果を見直したときに読みやすい翻訳結果を提供することができる。

＜音声翻訳システムの動作例＞
例えば、入力装置２１から「I live」という音声が入力され、音声認識部２２１は、「I live」の発声のすぐ後に音声の情報がなかったことを検出し、この「I live」という文字データを出力したとする。

第１の翻訳部２２２は、その文字データを翻訳して「私は住んでいます」と第１の翻訳結果を翻訳結果出力部２２６に出力する。すると、図４に示すように、ディスプレイからなる出力装置２４の逐次出力部の領域には、「I live」という文字データと、この文字データを翻訳した「私は住んでいます」という第１の翻訳結果が表示される。

一方、認識結果連結部２２３は、最初の音声が「I live」であったので、「I live」をそのまま文判定部２２４に送出する。文判定部２２４は、文判定モデル２３１を用いて、送られてきた文字データ列「I live」が文として成り立つか否かを判定する。ここで、文判定モデル２３１は、例えばＮ＝３の３−ｇｒａｍモデルで学習されたデータベースから構成され、このデータベースの中に「Ｉ」、「ｌｉｖｅ」、「文末」というモデルしかなかったものとする。このような場合、文判定部２２４は、文字データ列「I live」には末尾に「文末」に対応する単語または文字列が存在しないので、文として成立しないと判断し、第２の翻訳部２２５に文字データ列を送らない。したがって、図４に示すように、ディスプレイからなる出力装置２４の文出力部の領域には、何も表示されない。

このような状態において、次に、入力装置２１に音声が入力され、音声認識部２２１が「in a university dormitory」という文字データを出力したとする。

すると、第１の翻訳部２２２は、その文字データを翻訳して、「大学の寮で」という第１の翻訳結果を翻訳結果出力部２２６に出力する。すると、図５に示すように、出力装置２４の逐次出力部の領域には、上述した「I live」および「私は住んでいます」という表示の下に、「in a university dormitory」という文字データと、この文字データを翻訳した「大学の寮で」という第１の翻訳結果が表示される。

一方、認識結果連結部２２１は、前回の文判定部２２４で文と判定されなかった「I live」という文字データ列と今回入力された「in a university dormitory」という文字データとを連結して、「I live in a university dormitory」という文字データ列を作成する。この文字データ列に対して、文判定モデル２３１に「university」、「dormitory」、「文末」というモデルが存在すると、文判定部２２４は、その文字データ列が文として成り立つと判定し、「I live in a university dormitory」という文字データ列を第２の翻訳部２２５に送出する。第２の翻訳部２２５は、その文字データ列を翻訳した「私は大学の寮に住んでいます」という第２の翻訳結果を翻訳結果出力部２２６に出力する。すると、図５に示すように、出力装置２４の文出力部の領域には、「I live in a university dormitory」という文字データ列と、この文字データ列を翻訳した「私は大学の寮に住んでいます」という第２の翻訳結果が表示される。

このように、本実施の形態によれば、所定の単位で音声認識した文字データを逐次的に翻訳することにより、リアルタイムで音声認識結果を理解することができる。また、その文字データを連結して文として成立するか否かを判定し、文として成立する単位で文字データを翻訳するので、まとまった単位での理解をすることができる。

なお、本実施の形態では、文判定モデル２３１をＮ＝３のＮ−ｇｒａｍモデルで説明したが、Ｎの値は３に限定されず、適宜自由に設定することができる。

また、本実施の形態では、文判定モデル２３１としてＮ−ｇｒａｍモデルを適用した場合を例に説明したが、文判定モデル２３１はＮ−ｇｒａｍモデルに限定されず、例えば文字列を構文解析するために使うＣＦＧルールのような構文解析用のモデルなど、各種モデルを適宜自由に適用することができる。例えば「live」という動詞は、主語、前置詞句を伴うことが多いので、「I live」のみでは文判定部２２４で文として判定されず、「I live in a university dormitory」ではじめて文として判定される。

また、本実施の形態では、音声認識部２２１が音声の切れ目で音声データを区切って所定の単位の文字データを生成する場合を例に説明したが、音声データを区切る位置は音声の切れ目に限定されず、例えば、音の高低や強弱、特定の音など、適宜自由に設定することができる。

また、本実施の形態では、文判定部２２４が音声認識部２２１で認識された単位で文字データが文として成立するか否かを判定する場合を例に説明したが、文字データの途中までを文として判定するようにしてもよい。例えば、最初の発声が「I live」で、２番目の発声が「in a university dormitory can I use」だった場合、「I live in a university dormitory」までを文として判定し、残りの「can I use」はその次の文の一部と判定するようにしてもよい。この場合の文判定モデル２３１は、上述したＮ−ｇｒａｍや構文解析結果を用いることにより、より高精度な判定を実現することができる。

また、本実施の形態では、文判定部２２４が受け取った文字データまでで文として成り立つか否かを判定する場合を例に説明したが、判定が困難な場合には、次の発声の文字データを受け取ってから判定するようにしてもよい。例えば、最初の発声「I live」のみでは文として成立するか否かを判定できない場合には、文として成立しないと判定しておき、次の発声「in a university dormitory can I use」を待ってから、「I live」は文として成り立たず、「I live in a university dormitory」までが文であると判定するようにしてもよい。

また、本実施の形態では、出力装置はディ２４がディスプレイから構成される場合を例に説明したが、例えば逐次出力部の領域に表示された第１の翻訳結果のみを音声合成して、スピーカから出力するようにしてもよい。

［第３の実施の形態］
次に、本発明に係る第３の実施の形態について説明する。なお、本実施の形態において、上述した第２の実施の形態と同等の構成要素については、同じ名称および符号を付し、適宜説明を省略する。

＜音声翻訳システム３の構成＞
図６に示すように、本実施の形態に係る音声翻訳システム３は、ユーザの音声が入力される入力装置２１と、この入力装置２１に入力された音声からユーザが発した言葉を翻訳するデータ処理装置２２と、このデータ処理装置２２における情報処理に用いられるデータを記憶するデータ記憶装置２３と、データ処理装置２２による情報処理結果を出力する出力装置２４とを備えている。

データ処理装置２２は、入力装置２１から入力される電気信号に対して情報処理を行うことにより、ユーザが発した音声からそのユーザが発した言葉を翻訳する情報処理装置から構成される。このようなデータ処理装置２２は、音声認識部２２１と、認識結果連結部２２３と、文判定部２２４と、翻訳部３０１と、表示制御部３０２とを備える。

ここで、文判定部２２４は、認識結果連結部２２３から出力された文字データ列が文として成り立つか否かを、データ記憶装置２３に記憶された後述する文判定モデル２３１に基づいて判定する機能部である。文判定部２２４の判定結果は、翻訳部３０１および表示制御部３０２に送出される。

翻訳部３０１は、文判定部２２４により判定が行われた文字データ列を翻訳する機能部である。具体的には、翻訳部３０１は、連結された文字データ列が文として成立する場合には、その文字データ列全体を翻訳する。一方、文として成立しない場合にも、その文字データ列を翻訳する。翻訳部３０１による文字データ列の翻訳結果は、表示制御部３０２に送出される。

表示制御部３０２は、文字データ列や翻訳結果をディスプレイからなる出力装置２４に表示させるとともに、出力装置２４における文字データ列や翻訳結果の表示位置を制御する。

このような構成を有する音声翻訳システム３では、連結した文字データ列が文として成り立つと判定されれば、対応する出力装置２４の表示位置にその文字データ列と翻訳結果とを表示し、表示位置を移動しながら残りの文字データ列と翻訳結果を表示する。

＜音声翻訳システムの動作例＞
次に、本実施の形態に係る音声翻訳システム３の動作例について説明する。

今、第２の実施の形態と同様、入力装置２１に「I live」という発声が入力され、音声認識部２２１は、「I live」の発声のすぐ後に音声情報がなかったことを検出し、この「I live」という文字データを出力したとする。

認識結果連結部２２３は、最初の音声が「I live」であったので、この文字データ「I live」を文字データ列として文判定部２２４に送出する。すると、文判定部２２４では、第２の実施の形態と同様、文判定モデル２３１を用いて、送られてきた文字データ列「I live」が文として成り立つか否かが判定され、文として成り立たないと判定される。

すると、翻訳部３０１は、文として成り立たない文字データ列「I live」を直訳し、「私は住んでいます」という翻訳結果を表示制御部３０２に出力する。表示制御部３０２は、図７に示すように、最初の表示位置として設定した表示装置２４の左上の領域に、「I live」という文字データ列と、「私は住んでいます」という翻訳結果とを表示する。このとき、表示制御部３０２は、文判定部２２４で文として成り立たないと判定されたので、その文字データ列および翻訳結果の表示位置を、左上の領域に固定する。

このような状態において、次に、入力装置２１に「in a university dormitory can I use」という音声が入力され、音声認識部２２１が「in a university dormitory can I use」の発声のすぐ後に音声データがなかったことを検出し、その「in a university dormitory can I use」という文字データを出力したとする。

認識結果連結部２２１は、前回の文判定部２２４で文と判定されなかった「I live」という文字データ列に今回入力された「in a university dormitory can I use」という文字データを連結して、「I live in a university dormitory can I use」という文字データ列を作成する。この文字データ列に対して、第２の実施の形態と同様、文判定部２２４は、３−ｇｒａｍモデルを用いたマッチングにより「I live in a university dormitory」の部分が文として成立すると判断し、残りの「can I use」の部分は文として成立しない判定したものととする。

翻訳部３０１は、文判定部２２４で文として成り立つと判定された文字データ列「I live in a university dormitory」の部分を「私は大学の寮に住んでいます」と翻訳して、残りの文字データ「can I use」を「私は使えますか」と翻訳したとする。

表示制御部３０２は、文判定部２２４で文として成り立つと判定された文字データ列「I live in a university dormitory」とその文字データ列を翻訳した翻訳結果「私は大学の寮に住んでいます」を、図８に示すように、出力装置２４の左上の領域に表示する。すなわち、文字データ列「I live」と翻訳結果「私は住んでいます」が表示されていた領域に、文字データ列「I live in a university dormitory」と翻訳結果「私は大学の寮に住んでいます」を上書きする。

また、表示制御部３０２は、文判定部２２４で文として成り立つと判定されたので、表示位置を次の行に移動する。
また、文として成り立たないと判定された文字データ列「can I use」とその文字データ列を翻訳した翻訳結果「私は使えますか」については、図８に示すように、出力装置２４の左下の領域に表示し、上述した表示位置、すなわち次の行には表示しない。

このような処理を繰り返すことにより、１つのディスプレイで所定の単位で音声認識した文字データ列を逐次的に翻訳するので、リアルタイム的に音声認識結果を理解することが可能になるとともに、後で見直したときには文字データを連結して文として成り立つと判定された部分の翻訳結果が表示されるので、文をまとまった単位で理解することが可能となる。

以上説明したように、本実施の形態によれば、文として成立しない判定された文字データ列はそのまま表示されるので、リアルタイム的な理解が可能となる一方、文として成立する判定された文字データ列は文単位の翻訳結果が表示されるので、表示画面が１つのままでリアルタイム的な翻訳と後で見直したときに文単位での翻訳が表示されるので、文の理解がより容易となる。

なお、文判定部２２４で文として成り立つと判定された「I live in a university dormitory」を翻訳部３０１で「私は大学の寮に住んでいます」と翻訳したとする。表示制御部３０２は、そのときに表示位置にある翻訳結果「私は住んでいます」と次の翻訳結果「私は大学の寮に住んでいます」の文字データ列をマッチングして、変化した翻訳結果の部分を抽出し、図９に示すように、変化した部分に下線を付したり、色を変更したりするようにしてもよい。これにより、逐次追加された文字データがわかりやすくなり、結果として、リアルタイム的に理解しやすくなる。

なお、本発明は、上述した第１〜第３の実施の形態によって限定されないことは明らかである。

この出願は、２００９年９月１８日に出願された日本出願特願２００９−２１６８０３を基礎とする優先権を主張し、その開示を全てここに取り込む。

本発明は、音声から文字列を生成する音声認識装置やその文字列を翻訳する音声翻訳装置等に適用することができる。

１…音声翻訳システム、１１…音声認識部、１２…認識結果連結部、１３…文判定部、１４…翻訳部、１５…出力部。

上述したよう課題を解決するために、本発明に係る音声翻訳システムは、入力音声を所定の単位で音声認識して文字データを生成する音声認識部と、この音声認識部により生成された文字データを連結する認識結果連結部と、この認識結果連結部により連結された文字データが文を含むか否かを判定する文判定部と、連結された文字データを翻訳する翻訳部と、この翻訳部による翻訳結果を出力する出力部とを備え、認識結果連結部は、文判定部により文を含まないと判定された連結された文字データに、さらに文字データを連結することを特徴とするものである。

また、本発明に係る音声翻訳方法は、入力音声を所定の単位で音声認識して文字データを生成する音声認識ステップと、この音声認識ステップにより生成された文字データを連結する認識結果連結ステップと、この認識結果連結ステップにより連結された文字データが文を含むか否かを判定する文判定ステップと、連結された文字データを翻訳する翻訳ステップと、この翻訳ステップによる翻訳結果を出力する出力ステップとを備え、認識結果連結ステップは、文判定ステップにより文を含まないと判定された連結された文字データに、さらに文字データを連結することを特徴とするものである。

また、本発明に係る記録媒体は、コンピュータに、入力音声を所定の単位で音声認識して文字データを生成する音声認識ステップと、この音声認識ステップにより生成された文字データを連結する認識結果連結ステップと、この認識結果連結ステップにより連結された文字データが文を含むか否かを判定する文判定ステップと、連結された文字データを翻訳する翻訳ステップと、この翻訳ステップによる翻訳結果を出力する出力ステップとを実行させるためのプログラムを記録した記録媒体であって、認識結果連結ステップは、文判定ステップにより文を含まないと判定された連結された文字データに、さらに文字データを連結することを特徴とするものである。

Claims

入力音声を所定の単位で音声認識して文字データを生成する音声認識部と、
この音声認識部により生成された文字データを連結する認識結果連結部と、
この認識結果連結部により連結された文字データが文として成立するか否かを判定する文判定部と、
前記連結された文字データを翻訳する翻訳部と、
この翻訳部による翻訳結果を出力する出力部と
を備え、
前記認識結果連結部は、前記文判定部により文として成立しないと判定された前記連結された文字データに、さらに前記文字データを連結する
ことを特徴とする音声翻訳システム。
前記翻訳部は、
前記音声認識部で生成された前記文字データを前記所定の単位毎に翻訳する第１の翻訳部と、
前記文判定部により文して成立すると判定された前記連結された文字データを翻訳する第２の翻訳部と
からなり、
前記出力部は、前記第１の翻訳部の翻訳結果と前記第２の翻訳部の翻訳結果とを出力する
ことを特徴とする請求項１記載の音声翻訳システム。
前記出力部は、表示画面を備え、この表示画面の所定の位置に、前記連結された文字データと前記翻訳部の翻訳結果とを表示し、前記文判定部により文として成立すると判定されると、前記連結された文字データに続く文字データと前記翻訳部の翻訳結果を前記表示画面の前記所定の位置と異なる位置に表示させる
ことを特徴とする請求項１記載の音声翻訳システム。
前記出力部は、前記所定の位置に表示されている前記翻訳部の翻訳結果と、前記所定の位置に次に表示する前記翻訳部の翻訳結果とを比較し、この比較により検出された差分を強調して前記所定の位置に当該翻訳結果を表示させる
ことを特徴とする請求項３記載の音声翻訳システム。
入力音声を所定の単位で音声認識して文字データを生成する音声認識ステップと、
この音声認識ステップにより生成された文字データを連結する認識結果連結ステップと、
この認識結果連結ステップにより連結された文字データが文として成立するか否かを判定する文判定ステップと、
前記連結された文字データを翻訳する翻訳ステップと、
この翻訳ステップによる翻訳結果を出力する出力ステップと
を備え、
前記認識結果連結ステップは、前記文判定ステップにより文として成立しないと判定された前記連結された文字データに、さらに前記文字データを連結する
ことを特徴とする音声翻訳方法。
コンピュータに、
入力音声を所定の単位で音声認識して文字データを生成する音声認識ステップと、
この音声認識ステップにより生成された文字データを連結する認識結果連結ステップと、
この認識結果連結ステップにより連結された文字データが文として成立するか否かを判定する文判定ステップと、
前記連結された文字データを翻訳する翻訳ステップと、
この翻訳ステップによる翻訳結果を出力する出力ステップと
を実行させるためのプログラムを記録した記録媒体であって、
前記認識結果連結ステップは、前記文判定ステップにより文として成立しないと判定された前記連結された文字データに、さらに前記文字データを連結する
ことを特徴とする記録媒体。