JPWO2011033834A1 - 音声翻訳システム、音声翻訳方法および記録媒体 - Google Patents
音声翻訳システム、音声翻訳方法および記録媒体 Download PDFInfo
- Publication number
- JPWO2011033834A1 JPWO2011033834A1 JP2011531830A JP2011531830A JPWO2011033834A1 JP WO2011033834 A1 JPWO2011033834 A1 JP WO2011033834A1 JP 2011531830 A JP2011531830 A JP 2011531830A JP 2011531830 A JP2011531830 A JP 2011531830A JP WO2011033834 A1 JPWO2011033834 A1 JP WO2011033834A1
- Authority
- JP
- Japan
- Prior art keywords
- unit
- translation
- character data
- sentence
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 194
- 238000000034 method Methods 0.000 title claims description 14
- 238000012545 processing Methods 0.000 description 22
- 238000013500 data storage Methods 0.000 description 8
- 230000010365 information processing Effects 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
音声翻訳システム(1)は、入力音声を所定の単位で音声認識して文字データを生成する音声認識部(11)と、この音声認識部(11)により生成された文字データを連結する認識結果連結部(12)と、この認識結果連結部(12)により連結された文字データが文として成立するか否かを判定する文判定部(13)と、連結された文字データを翻訳する翻訳部(14)と、この翻訳部(14)による翻訳結果を出力する出力部(15)とを備える。この構成により、文として成立すると判定されたものを含む連結された文字データの翻訳結果が出力されるので、リアルタイムに翻訳結果を出力することができるとともに、文法的に正しい翻訳結果も出力することができる。
Description
本発明は、入力された音声を翻訳する音声翻訳システム、音声翻訳方法および記録媒体に関するものである。
近年、音声翻訳システムでは、音声認識システムと機械翻訳システムとを利用したものが提案されている。一般に、音声認識システムでは、マイクボタンなどの音声認識の処理単位を決定する装置を有さない場合、音声の切れ目という物理的な現象を利用して音声認識処理の処理単位を決めている。これに対して、機械翻訳システムでは、文というテキスト単位で翻訳処理を行っている。したがって、このような2つのシステムを単純に組み合わせて音声翻訳システムを作成すると、音声の切れ目毎に翻訳処理されるので発声された音声を適切に翻訳することが難しかった。特に、英語と日本語のように語順が大きく違う言語間の翻訳は、困難であった。
このような問題を解決するために、日本語話し言葉の不適格表現を容認して、日本語を母語とする人であれば不自然なく読める逐次的な翻訳結果を出力する技術が提案されている(例えば、非特許文献1参照。)。一般に、話し言葉は、繰り返し、語順の逆転、省略、言い誤り、言い直し、言い淀みなど書き言葉には見られない様々な不適格表現が頻繁に出現する。人間は、その高度な発話理解能力により、発話の中に不適格表現が含まれていてもその不適格表現を容認して、その発話の意味するところを容易に理解することができる。そこで、上記技術では、日本語話し言葉の不適格表現を排除するのではなく、むしろ積極的に容認して、入力された他言語を逐次翻訳している。このような構成を採ることにより、上記技術では、翻訳結果をリアルタイムに出力することを実現している。
松原茂樹, 浅井悟, 外山勝彦, 稲垣康善,不適格表現を活用する漸進的な英日話し言葉翻訳手法, 電気学会論文誌, Vol.118-C, No.1, pp.71-78 (1998.1)
しかしながら、不適格表現を容認した技術では、翻訳結果が書き言葉として正しい文になっていなくても出力されてしまう。このため、その翻訳結果は、リアルタイムに読むときにはよいもものの、後で読み直したときにはとても読みにくいものとなっていた。
そこで、本願発明は、リアルタイムに翻訳結果を出力することができるとともに、文法的に正しい翻訳結果を出力することができる音声翻訳システム、音声翻訳方法および記録媒体を提案することを目的とする。
上述したよう課題を解決するために、本発明に係る音声翻訳システムは、入力音声を所定の単位で音声認識して文字データを生成する音声認識部と、この音声認識部により生成された文字データを連結する認識結果連結部と、この認識結果連結部により連結された文字データが文として成立するか否かを判定する文判定部と、連結された文字データを翻訳する翻訳部と、この翻訳部による翻訳結果を出力する出力部とを備え、認識結果連結部は、文判定部により文として成立しないと判定された連結された文字データに、さらに文字データを連結することを特徴とするものである。
また、本発明に係る音声翻訳方法は、入力音声を所定の単位で音声認識して文字データを生成する音声認識ステップと、この音声認識ステップにより生成された文字データを連結する認識結果連結ステップと、この認識結果連結ステップにより連結された文字データが文として成立するか否かを判定する文判定ステップと、連結された文字データを翻訳する翻訳ステップと、この翻訳ステップによる翻訳結果を出力する出力ステップとを備え、認識結果連結ステップは、文判定ステップにより文として成立しないと判定された連結された文字データに、さらに文字データを連結することを特徴とするものである。
また、本発明に係る記録媒体は、コンピュータに、入力音声を所定の単位で音声認識して文字データを生成する音声認識ステップと、この音声認識ステップにより生成された文字データを連結する認識結果連結ステップと、この認識結果連結ステップにより連結された文字データが文として成立するか否かを判定する文判定ステップと、連結された文字データを翻訳する翻訳ステップと、この翻訳ステップによる翻訳結果を出力する出力ステップとを実行させるためのプログラムを記録した記録媒体であって、認識結果連結ステップは、文判定ステップにより文として成立しないと判定された連結された文字データに、さらに文字データを連結することを特徴とするものである。
本発明によれば、入力音声を所定の単位で音声認識して文字データを生成し、この生成された文字データを連結し、この文字データが文として成立するか否かを判定し、文として成立しないと判定された連結された文字データに、さらに文字データを連結し、連結された文字データを翻訳し、この翻訳結果を出力することにより、文として成立すると判定されたものを含む連結された文字データの翻訳結果が出力される。したがって、リアルタイムに翻訳結果を出力することができるとともに、文法的に正しい翻訳結果も出力することができる。
以下、図面を参照して、本発明の実施の形態について詳細に説明する。
[第1の実施の形態]
まず、本発明の第1の実施の形態に係る音声翻訳システムについて説明する。
まず、本発明の第1の実施の形態に係る音声翻訳システムについて説明する。
図1に示すように、本実施の形態に係る音声翻訳システム1は、入力音声を所定の単位で音声認識して文字データを生成する音声認識部11と、この音声認識部11により生成された文字データを連結する認識結果連結部12と、この認識結果連結部12により連結された文字データが文として成立するか否かを判定する文判定部13と、連結された文字データを翻訳する翻訳部14と、この翻訳部14による翻訳結果を出力する出力部15とを備えたものである。
ここで、認識結果連結部12は、文判定部13により文として成立しないと判定された連結された文字データに、さらに文字データを連結する
このような音声翻訳システム1は、CPU等の演算装置と、メモリ、HDD(Hard Disk Drive)等の記憶装置と、キーボード、マウス、ポインティングデバイス、ボタン、タッチパネル等の外部から情報の入力を検出する入力装置と、LAN(Local Area Network)、WAN(Wide Area Network)等の通信回線を介して各種情報の送受信を行うI/F装置と、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)またはFED(Field Emission Display)等の表示装置を備えたコンピュータと、このコンピュータにインストールされたプログラムとから構成される。すなわちハードウェア装置とソフトウェアとが協働することによって、上記のハードウェア資源がプログラムによって制御され、上述した音声認識部11、認識結果連結部12、文判定部13、翻訳部14および出力部15が実現される。なお、上記プログラムは、フレキシブルディスク、CD−ROM、DVD−ROM、メモリカード、ICメモリなどの記録媒体に記録された状態で提供されるようにしてもよい。
このような構成を有することにより、本実施の形態では、入力音声を所定の単位で音声認識して文字データを生成し、この生成された文字データを連結し、この文字データが文として成立するか否かを判定し、文として成立しないと判定された連結された文字データに、さらに文字データを連結し、連結された文字データを翻訳し、この翻訳結果を出力することにより、文として成立すると判定されたものを含む連結された文字データの翻訳結果が出力される。したがって、リアルタイムに翻訳結果を出力することができるとともに、文法的に正しい翻訳結果も出力することができる。
[第2の実施の形態]
次に、本発明の第2の実施の形態に係る音声翻訳システムについて説明する。
次に、本発明の第2の実施の形態に係る音声翻訳システムについて説明する。
<音声翻訳システムの構成>
図2に示すように、本実施の形態に係る音声翻訳システム2は、ユーザの音声が入力される入力装置21と、この入力装置21に入力された音声からユーザが発した言葉を翻訳するデータ処理装置22と、このデータ処理装置22における情報処理に用いられるデータを記憶するデータ記憶装置23と、データ処理装置22による情報処理結果を出力する出力装置24とを備えている。
図2に示すように、本実施の形態に係る音声翻訳システム2は、ユーザの音声が入力される入力装置21と、この入力装置21に入力された音声からユーザが発した言葉を翻訳するデータ処理装置22と、このデータ処理装置22における情報処理に用いられるデータを記憶するデータ記憶装置23と、データ処理装置22による情報処理結果を出力する出力装置24とを備えている。
≪入力装置の構成≫
入力装置21は、マイクロフォンなどの検出した音声を電気信号に変換する公知の音声検出装置から構成される。
入力装置21は、マイクロフォンなどの検出した音声を電気信号に変換する公知の音声検出装置から構成される。
≪データ処理装置の構成≫
データ処理装置22は、入力装置21から入力される電気信号に対して情報処理を行うことにより、ユーザが発した音声からそのユーザが発した文字や単語を翻訳する情報処理装置から構成される。このようなデータ処理装置22は、音声認識部221と、第1の翻訳部222と、認識結果連結部223と、文判定部224と、第2の翻訳部225と、翻訳結果出力部226とを備える。
データ処理装置22は、入力装置21から入力される電気信号に対して情報処理を行うことにより、ユーザが発した音声からそのユーザが発した文字や単語を翻訳する情報処理装置から構成される。このようなデータ処理装置22は、音声認識部221と、第1の翻訳部222と、認識結果連結部223と、文判定部224と、第2の翻訳部225と、翻訳結果出力部226とを備える。
音声認識部221は、入力装置1から入力された電気信号(以下、音声データという)を解析して、ユーザが発した音声を文字データとして取り出す音声認識処理を行う機能部である。なお、音声認識部221による音声認識処理は、例えば、無音が3秒以上続くといった音声の切れ目ごとに音声データを区切ったものなど、所定の単位毎に行われる。
第1の翻訳部222は、音声認識部221から出力された文字データを公知の機械翻訳技術を利用して翻訳する機能部である。
認識結果連結部223は、音声認識部221から出力される文字データを時系列的に連結した文字データ列を生成して文判定部224に出力する機能部である。ここで、最初に音声認識部221から出力された文字データについては、この文字データのみが文字データ列として文判定部224に出力される。一方、後述する文判定部224により文として成り立たないと判定された文字データ列については、この文字データ列に含まれる最後の文字データに時系列的に続く文字データが連結されて、新たな文字データ列として出力される。
文判定部224は、認識結果連結部223から出力された文字データ列が、文として成り立つか否かを、データ記憶装置23に記憶された後述する文判定モデル231に基づいて判定する機能部である。
第2の翻訳部225は、文判定部224により文として成り立つと判定された文字データ列を公知の機械翻訳技術を利用して翻訳する機能部である。
翻訳結果出力部226は、第1の翻訳部222の翻訳結果(以下、第1の翻訳結果という)と、第2の翻訳部225の翻訳結果(以下、第2の翻訳結果という)とを出力装置24に出力する機能部である。
このようなデータ処理装置22は、CPU等の演算装置と、メモリ、HDD等の記憶装置と、キーボード、マウス、ポインティングデバイス、ボタン、タッチパネル等の外部から情報の入力を検出する入力装置と、LAN、WAN等の通信回線を介して各種情報の送受信を行うI/F装置と、CRT、LCDまたはFED等の表示装置を備えたコンピュータと、このコンピュータにインストールされたプログラムとから構成される。すなわちハードウェア装置とソフトウェアとが協働することによって、上記のハードウェア資源がプログラムによって制御され、上述した音声認識部221、第1の翻訳部222、認識結果連結部223、文判定部224、第2の翻訳部225および翻訳結果出力部226が実現される。なお、上記プログラムは、フレキシブルディスク、CD−ROM、DVD−ROM、メモリカード、ICメモリなどの記録媒体に記録された状態で提供されるようにしてもよい。
≪データ記憶装置の構成≫
データ記憶装置23は、公知の磁気記憶装置からなり、文字データが文であるか否かを判定するための情報からなる文判定モデル231を記憶している。文判定モデル231は、例えば、N−gramモデルで学習された多数のモデルを含むデータベースから構成される。そのモデルとしては、例えば、N=3の3−gramモデルで学習されたデータベースの場合、3つの文字列または単語の組み合わせからなる。このような文判定モデル231は、予め構築されている。
データ記憶装置23は、公知の磁気記憶装置からなり、文字データが文であるか否かを判定するための情報からなる文判定モデル231を記憶している。文判定モデル231は、例えば、N−gramモデルで学習された多数のモデルを含むデータベースから構成される。そのモデルとしては、例えば、N=3の3−gramモデルで学習されたデータベースの場合、3つの文字列または単語の組み合わせからなる。このような文判定モデル231は、予め構築されている。
≪出力装置の構成≫
出力装置24は、CRT,LCD,FED等の公知のディスプレイ装置やスピーカ等の公知の音声出力装置などから構成され、データ処理装置22の翻訳結果出力部226から入力された翻訳結果を出力する。
出力装置24は、CRT,LCD,FED等の公知のディスプレイ装置やスピーカ等の公知の音声出力装置などから構成され、データ処理装置22の翻訳結果出力部226から入力された翻訳結果を出力する。
なお、本実施の形態に係る音声翻訳システム2は、入力装置21、データ処理装置22、データ記憶装置23および出力装置24が一体となって、コンピュータとこのコンピュータにインストールされたプログラムとから構成されるようにしてもよいことは言うまでもない。
<音声翻訳システムの動作>
次に、図3を参照して、本実施の形態に係る音声翻訳システム2の動作について説明する。
次に、図3を参照して、本実施の形態に係る音声翻訳システム2の動作について説明する。
まず、入力装置21は、ユーザの音声が入力されると、その音声を電気信号(音声データ)に変換してデータ処理装置22の音声認識部221に入力する(ステップS1)。
音声データが入力されると、音声認識部221は、その音声データを音声認識して、文字データを所定の単位毎に生成する(ステップS2)。
所定の単位の文字データが生成されると、第1の翻訳部222は、その文字データを翻訳する(ステップS3)。この翻訳された文字データ(第1の翻訳結果)は、翻訳結果出力部226に送出され、後述するステップS7の処理が行われる。
また、認識結果連結部223は、音声認識部221で生成された文字データを時系列的に連結して、文字データ列を生成する(ステップS4)。
文字データ列が生成されると、文判定部224は、その文字データ列が文として成り立つか否かを、データ記憶装置23の文判定モデル231に基づいて判定する(ステップS5)。
文字データ列が文として成り立たない場合(ステップS5:NO)、文判定部224は、その文字データ列を認識結果連結部223に送出する。すると、認識結果連結部223は、受け取った文字データ列の末尾に時系列的に続く文字データを連結した新たな文字データ列を生成する。
一方、文字データ列が文として成立する場合(ステップS5:YES)、第2の翻訳部225は、その文字データ列を翻訳する(ステップS6)。この翻訳された文字データ列(第2の翻訳結果)は、翻訳結果出力部226に送出される。
第1の翻訳部222および第2の翻訳部225により翻訳がそれぞれ行われると、翻訳結果出力部226は、第1の翻訳結果および第2の翻訳結果を出力装置24に送出する。すると、出力装置24は、受け取った第1の翻訳結果および第2の翻訳結果を表示画面に表示させたり、スピーカから出力させたりする(ステップS7)。
このような一連の動作は、入力装置21に入力された音声がなくなるまで行われる。
このように、本実施の形態によれば、所定の単位で音声認識した文字データを逐次翻訳することにより、リアルタイムでその所定の単位の音声認識結果を理解することができ、かつ、所定の単位で音声認識された文字データを連結して文として成り立つか否か判定し、文として成り立つと判定された文字データ列を翻訳して出力することにより、後で翻訳結果を見直したときに読みやすい翻訳結果を提供することができる。
<音声翻訳システムの動作例>
例えば、入力装置21から「I live」という音声が入力され、音声認識部221は、「I live」の発声のすぐ後に音声の情報がなかったことを検出し、この「I live」という文字データを出力したとする。
例えば、入力装置21から「I live」という音声が入力され、音声認識部221は、「I live」の発声のすぐ後に音声の情報がなかったことを検出し、この「I live」という文字データを出力したとする。
第1の翻訳部222は、その文字データを翻訳して「私は住んでいます」と第1の翻訳結果を翻訳結果出力部226に出力する。すると、図4に示すように、ディスプレイからなる出力装置24の逐次出力部の領域には、「I live」という文字データと、この文字データを翻訳した「私は住んでいます」という第1の翻訳結果が表示される。
一方、認識結果連結部223は、最初の音声が「I live」であったので、「I live」をそのまま文判定部224に送出する。文判定部224は、文判定モデル231を用いて、送られてきた文字データ列「I live」が文として成り立つか否かを判定する。ここで、文判定モデル231は、例えばN=3の3−gramモデルで学習されたデータベースから構成され、このデータベースの中に「I」、「live」、「文末」というモデルしかなかったものとする。このような場合、文判定部224は、文字データ列「I live」には末尾に「文末」に対応する単語または文字列が存在しないので、文として成立しないと判断し、第2の翻訳部225に文字データ列を送らない。したがって、図4に示すように、ディスプレイからなる出力装置24の文出力部の領域には、何も表示されない。
このような状態において、次に、入力装置21に音声が入力され、音声認識部221が「in a university dormitory」という文字データを出力したとする。
すると、第1の翻訳部222は、その文字データを翻訳して、「大学の寮で」という第1の翻訳結果を翻訳結果出力部226に出力する。すると、図5に示すように、出力装置24の逐次出力部の領域には、上述した「I live」および「私は住んでいます」という表示の下に、「in a university dormitory」という文字データと、この文字データを翻訳した「大学の寮で」という第1の翻訳結果が表示される。
一方、認識結果連結部221は、前回の文判定部224で文と判定されなかった「I live」という文字データ列と今回入力された「in a university dormitory」という文字データとを連結して、「I live in a university dormitory」という文字データ列を作成する。この文字データ列に対して、文判定モデル231に「university」、「dormitory」、「文末」というモデルが存在すると、文判定部224は、その文字データ列が文として成り立つと判定し、「I live in a university dormitory」という文字データ列を第2の翻訳部225に送出する。第2の翻訳部225は、その文字データ列を翻訳した「私は大学の寮に住んでいます」という第2の翻訳結果を翻訳結果出力部226に出力する。すると、図5に示すように、出力装置24の文出力部の領域には、「I live in a university dormitory」という文字データ列と、この文字データ列を翻訳した「私は大学の寮に住んでいます」という第2の翻訳結果が表示される。
このように、本実施の形態によれば、所定の単位で音声認識した文字データを逐次的に翻訳することにより、リアルタイムで音声認識結果を理解することができる。また、その文字データを連結して文として成立するか否かを判定し、文として成立する単位で文字データを翻訳するので、まとまった単位での理解をすることができる。
なお、本実施の形態では、文判定モデル231をN=3のN−gramモデルで説明したが、Nの値は3に限定されず、適宜自由に設定することができる。
また、本実施の形態では、文判定モデル231としてN−gramモデルを適用した場合を例に説明したが、文判定モデル231はN−gramモデルに限定されず、例えば文字列を構文解析するために使うCFGルールのような構文解析用のモデルなど、各種モデルを適宜自由に適用することができる。例えば「live」という動詞は、主語、前置詞句を伴うことが多いので、「I live」のみでは文判定部224で文として判定されず、「I live in a university dormitory」ではじめて文として判定される。
また、本実施の形態では、音声認識部221が音声の切れ目で音声データを区切って所定の単位の文字データを生成する場合を例に説明したが、音声データを区切る位置は音声の切れ目に限定されず、例えば、音の高低や強弱、特定の音など、適宜自由に設定することができる。
また、本実施の形態では、文判定部224が音声認識部221で認識された単位で文字データが文として成立するか否かを判定する場合を例に説明したが、文字データの途中までを文として判定するようにしてもよい。例えば、最初の発声が「I live」で、2番目の発声が「in a university dormitory can I use」だった場合、「I live in a university dormitory」までを文として判定し、残りの「can I use」はその次の文の一部と判定するようにしてもよい。この場合の文判定モデル231は、上述したN−gramや構文解析結果を用いることにより、より高精度な判定を実現することができる。
また、本実施の形態では、文判定部224が受け取った文字データまでで文として成り立つか否かを判定する場合を例に説明したが、判定が困難な場合には、次の発声の文字データを受け取ってから判定するようにしてもよい。例えば、最初の発声「I live」のみでは文として成立するか否かを判定できない場合には、文として成立しないと判定しておき、次の発声「in a university dormitory can I use」を待ってから、「I live」は文として成り立たず、「I live in a university dormitory」までが文であると判定するようにしてもよい。
また、本実施の形態では、出力装置はディ24がディスプレイから構成される場合を例に説明したが、例えば逐次出力部の領域に表示された第1の翻訳結果のみを音声合成して、スピーカから出力するようにしてもよい。
[第3の実施の形態]
次に、本発明に係る第3の実施の形態について説明する。なお、本実施の形態において、上述した第2の実施の形態と同等の構成要素については、同じ名称および符号を付し、適宜説明を省略する。
次に、本発明に係る第3の実施の形態について説明する。なお、本実施の形態において、上述した第2の実施の形態と同等の構成要素については、同じ名称および符号を付し、適宜説明を省略する。
<音声翻訳システム3の構成>
図6に示すように、本実施の形態に係る音声翻訳システム3は、ユーザの音声が入力される入力装置21と、この入力装置21に入力された音声からユーザが発した言葉を翻訳するデータ処理装置22と、このデータ処理装置22における情報処理に用いられるデータを記憶するデータ記憶装置23と、データ処理装置22による情報処理結果を出力する出力装置24とを備えている。
図6に示すように、本実施の形態に係る音声翻訳システム3は、ユーザの音声が入力される入力装置21と、この入力装置21に入力された音声からユーザが発した言葉を翻訳するデータ処理装置22と、このデータ処理装置22における情報処理に用いられるデータを記憶するデータ記憶装置23と、データ処理装置22による情報処理結果を出力する出力装置24とを備えている。
データ処理装置22は、入力装置21から入力される電気信号に対して情報処理を行うことにより、ユーザが発した音声からそのユーザが発した言葉を翻訳する情報処理装置から構成される。このようなデータ処理装置22は、音声認識部221と、認識結果連結部223と、文判定部224と、翻訳部301と、表示制御部302とを備える。
ここで、文判定部224は、認識結果連結部223から出力された文字データ列が文として成り立つか否かを、データ記憶装置23に記憶された後述する文判定モデル231に基づいて判定する機能部である。文判定部224の判定結果は、翻訳部301および表示制御部302に送出される。
翻訳部301は、文判定部224により判定が行われた文字データ列を翻訳する機能部である。具体的には、翻訳部301は、連結された文字データ列が文として成立する場合には、その文字データ列全体を翻訳する。一方、文として成立しない場合にも、その文字データ列を翻訳する。翻訳部301による文字データ列の翻訳結果は、表示制御部302に送出される。
表示制御部302は、文字データ列や翻訳結果をディスプレイからなる出力装置24に表示させるとともに、出力装置24における文字データ列や翻訳結果の表示位置を制御する。
このような構成を有する音声翻訳システム3では、連結した文字データ列が文として成り立つと判定されれば、対応する出力装置24の表示位置にその文字データ列と翻訳結果とを表示し、表示位置を移動しながら残りの文字データ列と翻訳結果を表示する。
<音声翻訳システムの動作例>
次に、本実施の形態に係る音声翻訳システム3の動作例について説明する。
次に、本実施の形態に係る音声翻訳システム3の動作例について説明する。
今、第2の実施の形態と同様、入力装置21に「I live」という発声が入力され、音声認識部221は、「I live」の発声のすぐ後に音声情報がなかったことを検出し、この「I live」という文字データを出力したとする。
認識結果連結部223は、最初の音声が「I live」であったので、この文字データ「I live」を文字データ列として文判定部224に送出する。すると、文判定部224では、第2の実施の形態と同様、文判定モデル231を用いて、送られてきた文字データ列「I live」が文として成り立つか否かが判定され、文として成り立たないと判定される。
すると、翻訳部301は、文として成り立たない文字データ列「I live」を直訳し、「私は住んでいます」という翻訳結果を表示制御部302に出力する。表示制御部302は、図7に示すように、最初の表示位置として設定した表示装置24の左上の領域に、「I live」という文字データ列と、「私は住んでいます」という翻訳結果とを表示する。このとき、表示制御部302は、文判定部224で文として成り立たないと判定されたので、その文字データ列および翻訳結果の表示位置を、左上の領域に固定する。
このような状態において、次に、入力装置21に「in a university dormitory can I use」という音声が入力され、音声認識部221が「in a university dormitory can I use」の発声のすぐ後に音声データがなかったことを検出し、その「in a university dormitory can I use」という文字データを出力したとする。
認識結果連結部221は、前回の文判定部224で文と判定されなかった「I live」という文字データ列に今回入力された「in a university dormitory can I use」という文字データを連結して、「I live in a university dormitory can I use」という文字データ列を作成する。この文字データ列に対して、第2の実施の形態と同様、文判定部224は、3−gramモデルを用いたマッチングにより「I live in a university dormitory」の部分が文として成立すると判断し、残りの「can I use」の部分は文として成立しない判定したものととする。
翻訳部301は、文判定部224で文として成り立つと判定された文字データ列「I live in a university dormitory」の部分を「私は大学の寮に住んでいます」と翻訳して、残りの文字データ「can I use」を「私は使えますか」と翻訳したとする。
表示制御部302は、文判定部224で文として成り立つと判定された文字データ列「I live in a university dormitory」とその文字データ列を翻訳した翻訳結果「私は大学の寮に住んでいます」を、図8に示すように、出力装置24の左上の領域に表示する。すなわち、文字データ列「I live」と翻訳結果「私は住んでいます」が表示されていた領域に、文字データ列「I live in a university dormitory」と翻訳結果「私は大学の寮に住んでいます」を上書きする。
また、表示制御部302は、文判定部224で文として成り立つと判定されたので、表示位置を次の行に移動する。
また、文として成り立たないと判定された文字データ列「can I use」とその文字データ列を翻訳した翻訳結果「私は使えますか」については、図8に示すように、出力装置24の左下の領域に表示し、上述した表示位置、すなわち次の行には表示しない。
また、文として成り立たないと判定された文字データ列「can I use」とその文字データ列を翻訳した翻訳結果「私は使えますか」については、図8に示すように、出力装置24の左下の領域に表示し、上述した表示位置、すなわち次の行には表示しない。
このような処理を繰り返すことにより、1つのディスプレイで所定の単位で音声認識した文字データ列を逐次的に翻訳するので、リアルタイム的に音声認識結果を理解することが可能になるとともに、後で見直したときには文字データを連結して文として成り立つと判定された部分の翻訳結果が表示されるので、文をまとまった単位で理解することが可能となる。
以上説明したように、本実施の形態によれば、文として成立しない判定された文字データ列はそのまま表示されるので、リアルタイム的な理解が可能となる一方、文として成立する判定された文字データ列は文単位の翻訳結果が表示されるので、表示画面が1つのままでリアルタイム的な翻訳と後で見直したときに文単位での翻訳が表示されるので、文の理解がより容易となる。
なお、文判定部224で文として成り立つと判定された「I live in a university dormitory」を翻訳部301で「私は大学の寮に住んでいます」と翻訳したとする。表示制御部302は、そのときに表示位置にある翻訳結果「私は住んでいます」と次の翻訳結果「私は大学の寮に住んでいます」の文字データ列をマッチングして、変化した翻訳結果の部分を抽出し、図9に示すように、変化した部分に下線を付したり、色を変更したりするようにしてもよい。これにより、逐次追加された文字データがわかりやすくなり、結果として、リアルタイム的に理解しやすくなる。
なお、本発明は、上述した第1〜第3の実施の形態によって限定されないことは明らかである。
この出願は、2009年9月18日に出願された日本出願特願2009−216803を基礎とする優先権を主張し、その開示を全てここに取り込む。
本発明は、音声から文字列を生成する音声認識装置やその文字列を翻訳する音声翻訳装置等に適用することができる。
1…音声翻訳システム、11…音声認識部、12…認識結果連結部、13…文判定部、14…翻訳部、15…出力部。
上述したよう課題を解決するために、本発明に係る音声翻訳システムは、入力音声を所定の単位で音声認識して文字データを生成する音声認識部と、この音声認識部により生成された文字データを連結する認識結果連結部と、この認識結果連結部により連結された文字データが文を含むか否かを判定する文判定部と、連結された文字データを翻訳する翻訳部と、この翻訳部による翻訳結果を出力する出力部とを備え、認識結果連結部は、文判定部により文を含まないと判定された連結された文字データに、さらに文字データを連結することを特徴とするものである。
また、本発明に係る音声翻訳方法は、入力音声を所定の単位で音声認識して文字データを生成する音声認識ステップと、この音声認識ステップにより生成された文字データを連結する認識結果連結ステップと、この認識結果連結ステップにより連結された文字データが文を含むか否かを判定する文判定ステップと、連結された文字データを翻訳する翻訳ステップと、この翻訳ステップによる翻訳結果を出力する出力ステップとを備え、認識結果連結ステップは、文判定ステップにより文を含まないと判定された連結された文字データに、さらに文字データを連結することを特徴とするものである。
また、本発明に係る記録媒体は、コンピュータに、入力音声を所定の単位で音声認識して文字データを生成する音声認識ステップと、この音声認識ステップにより生成された文字データを連結する認識結果連結ステップと、この認識結果連結ステップにより連結された文字データが文を含むか否かを判定する文判定ステップと、連結された文字データを翻訳する翻訳ステップと、この翻訳ステップによる翻訳結果を出力する出力ステップとを実行させるためのプログラムを記録した記録媒体であって、認識結果連結ステップは、文判定ステップにより文を含まないと判定された連結された文字データに、さらに文字データを連結することを特徴とするものである。
Claims (6)
- 入力音声を所定の単位で音声認識して文字データを生成する音声認識部と、
この音声認識部により生成された文字データを連結する認識結果連結部と、
この認識結果連結部により連結された文字データが文として成立するか否かを判定する文判定部と、
前記連結された文字データを翻訳する翻訳部と、
この翻訳部による翻訳結果を出力する出力部と
を備え、
前記認識結果連結部は、前記文判定部により文として成立しないと判定された前記連結された文字データに、さらに前記文字データを連結する
ことを特徴とする音声翻訳システム。 - 前記翻訳部は、
前記音声認識部で生成された前記文字データを前記所定の単位毎に翻訳する第1の翻訳部と、
前記文判定部により文して成立すると判定された前記連結された文字データを翻訳する第2の翻訳部と
からなり、
前記出力部は、前記第1の翻訳部の翻訳結果と前記第2の翻訳部の翻訳結果とを出力する
ことを特徴とする請求項1記載の音声翻訳システム。 - 前記出力部は、表示画面を備え、この表示画面の所定の位置に、前記連結された文字データと前記翻訳部の翻訳結果とを表示し、前記文判定部により文として成立すると判定されると、前記連結された文字データに続く文字データと前記翻訳部の翻訳結果を前記表示画面の前記所定の位置と異なる位置に表示させる
ことを特徴とする請求項1記載の音声翻訳システム。 - 前記出力部は、前記所定の位置に表示されている前記翻訳部の翻訳結果と、前記所定の位置に次に表示する前記翻訳部の翻訳結果とを比較し、この比較により検出された差分を強調して前記所定の位置に当該翻訳結果を表示させる
ことを特徴とする請求項3記載の音声翻訳システム。 - 入力音声を所定の単位で音声認識して文字データを生成する音声認識ステップと、
この音声認識ステップにより生成された文字データを連結する認識結果連結ステップと、
この認識結果連結ステップにより連結された文字データが文として成立するか否かを判定する文判定ステップと、
前記連結された文字データを翻訳する翻訳ステップと、
この翻訳ステップによる翻訳結果を出力する出力ステップと
を備え、
前記認識結果連結ステップは、前記文判定ステップにより文として成立しないと判定された前記連結された文字データに、さらに前記文字データを連結する
ことを特徴とする音声翻訳方法。 - コンピュータに、
入力音声を所定の単位で音声認識して文字データを生成する音声認識ステップと、
この音声認識ステップにより生成された文字データを連結する認識結果連結ステップと、
この認識結果連結ステップにより連結された文字データが文として成立するか否かを判定する文判定ステップと、
前記連結された文字データを翻訳する翻訳ステップと、
この翻訳ステップによる翻訳結果を出力する出力ステップと
を実行させるためのプログラムを記録した記録媒体であって、
前記認識結果連結ステップは、前記文判定ステップにより文として成立しないと判定された前記連結された文字データに、さらに前記文字データを連結する
ことを特徴とする記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009216803 | 2009-09-18 | ||
JP2009216803 | 2009-09-18 | ||
PCT/JP2010/060356 WO2011033834A1 (ja) | 2009-09-18 | 2010-06-18 | 音声翻訳システム、音声翻訳方法および記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2011033834A1 true JPWO2011033834A1 (ja) | 2013-02-07 |
Family
ID=43758447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011531830A Pending JPWO2011033834A1 (ja) | 2009-09-18 | 2010-06-18 | 音声翻訳システム、音声翻訳方法および記録媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2011033834A1 (ja) |
WO (1) | WO2011033834A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6235280B2 (ja) | 2013-09-19 | 2017-11-22 | 株式会社東芝 | 音声同時処理装置、方法およびプログラム |
KR102249086B1 (ko) * | 2014-04-04 | 2021-05-10 | 삼성전자주식회사 | 레코딩 지원 전자장치 및 방법 |
JP6471074B2 (ja) * | 2015-09-30 | 2019-02-13 | 株式会社東芝 | 機械翻訳装置、方法及びプログラム |
JP6760566B2 (ja) * | 2016-07-13 | 2020-09-23 | 株式会社富士通ソーシアルサイエンスラボラトリ | 端末装置、翻訳方法、及び、翻訳プログラム |
KR101827773B1 (ko) * | 2016-08-02 | 2018-02-09 | 주식회사 하이퍼커넥트 | 통역 장치 및 방법 |
KR101861006B1 (ko) * | 2016-08-18 | 2018-05-28 | 주식회사 하이퍼커넥트 | 통역 장치 및 방법 |
CN113498517B (zh) | 2020-02-06 | 2024-09-17 | 谷歌有限责任公司 | 音频流的稳定实时翻译 |
CN114912416B (zh) * | 2022-07-18 | 2022-11-29 | 北京亮亮视野科技有限公司 | 语音翻译结果显示方法、装置、电子设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0916602A (ja) * | 1995-06-27 | 1997-01-17 | Sony Corp | 翻訳装置および翻訳方法 |
JPH0991296A (ja) * | 1995-09-25 | 1997-04-04 | Toshiba Corp | 機械翻訳装置及び翻訳結果出力方法 |
JP3009642B2 (ja) * | 1997-10-22 | 2000-02-14 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声言語処理単位変換装置 |
JP3795350B2 (ja) * | 2001-06-29 | 2006-07-12 | 株式会社東芝 | 音声対話装置、音声対話方法及び音声対話処理プログラム |
JP2003216607A (ja) * | 2002-01-24 | 2003-07-31 | Sharp Corp | 電子翻訳装置 |
JP4087400B2 (ja) * | 2005-09-15 | 2008-05-21 | 株式会社東芝 | 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム |
-
2010
- 2010-06-18 JP JP2011531830A patent/JPWO2011033834A1/ja active Pending
- 2010-06-18 WO PCT/JP2010/060356 patent/WO2011033834A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2011033834A1 (ja) | 2011-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102375115B1 (ko) | 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화 | |
JP6251958B2 (ja) | 発話解析装置、音声対話制御装置、方法、及びプログラム | |
JP3232289B2 (ja) | 記号挿入装置およびその方法 | |
JP3967952B2 (ja) | 文法更新システム及び方法 | |
JP3782943B2 (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
KR102191425B1 (ko) | 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법 | |
WO2011033834A1 (ja) | 音声翻訳システム、音声翻訳方法および記録媒体 | |
JP5703491B2 (ja) | 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置 | |
TW201517018A (zh) | 語音辨識方法及其電子裝置 | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
JP2008243080A (ja) | 音声を翻訳する装置、方法およびプログラム | |
JP5396530B2 (ja) | 音声認識装置および音声認識方法 | |
JP5068225B2 (ja) | 音声ファイルの検索システム、方法及びプログラム | |
JP5160594B2 (ja) | 音声認識装置および音声認識方法 | |
JP4089861B2 (ja) | 音声認識文章入力装置 | |
JP6397641B2 (ja) | 自動通訳装置及び方法 | |
JP5054711B2 (ja) | 音声認識装置および音声認識プログラム | |
Prasad et al. | BBN TransTalk: Robust multilingual two-way speech-to-speech translation for mobile platforms | |
KR20150027465A (ko) | 외국어 고유명사에 대한 다중 발음열 생성 방법 및 장치 | |
JP6090785B2 (ja) | テキストデータ分割装置、テキストデータ分割方法、テキストデータ分割プログラム及び翻訳装置 | |
JP4220151B2 (ja) | 音声対話装置 | |
JP6879521B1 (ja) | 多言語音声認識およびテーマ−意義素解析方法および装置 | |
JP2004021207A (ja) | 音素認識方法、音素認識装置および音素認識プログラム | |
KR20110119478A (ko) | 음성 인식 장치 및 음성 인식 방법 | |
JP3958908B2 (ja) | 書き起こしテキスト自動生成装置、音声認識装置および記録媒体 |