WO2014207874A1

WO2014207874A1 - 電子機器、出力方法およびプログラム

Info

Publication number: WO2014207874A1
Application number: PCT/JP2013/067716
Authority: WO
Inventors: 谷内　謙一
Original assignee: 株式会社東芝
Priority date: 2013-06-27
Filing date: 2013-06-27
Publication date: 2014-12-31

Abstract

　実施形態の電子機器は、分離部と、変換部と、出力部と、を備える。分離部は、音情報から、背景音情報と第１音声情報とを分離する。変換部は、第１音声情報を、当該第１音声情報に対応する第２音声情報に変換する。出力部は、背景音情報と第２音声情報とをミキシングして出力する。

Description

電子機器、出力方法およびプログラム

　本発明の実施形態は、電子機器、出力方法およびプログラムに関する。

　動画像等のコンテンツの音情報に含まれる音声をテキスト情報に変換し、当該テキスト情報を別の言語に翻訳し、翻訳したテキスト情報から音声を合成し、合成した音声をコンテンツと共に出力する技術が開示されている。

特開２０００－３２２０７７号公報特開２０００－９２４６０号公報

　しかしながら、従来技術においては、合成した音声をコンテンツと共に出力した場合、当該コンテンツの音情報に元々含まれる音声と、合成した音声とが同時に聞こえることとなるので、合成した音声が聞き取り難い、という課題がある。また、コンテンツの音情報の音量を下げることにより、合成した音声を聞き易くする方法もあるが、当該方法によるとコンテンツの音情報が含む背景音の音量も小さくなり、背景音が聞こえなくなる、という課題がある。

図１は、第１の実施形態にかかる電子機器の一例としてのデジタルテレビジョンの主要な信号処理系を示すブロック図である。図２は、第１の実施形態にかかるデジタルテレビジョンが備える信号処理部の構成を示すブロック図である。図３は、第１の実施形態にかかるデジタルテレビジョンが備える信号処理部による音情報および画像情報の出力処理の流れを示すフローチャートである。図４は、第１の実施形態にかかるデジタルテレビジョンにおける各種情報の設定画面の一例を示す図である。図５は、第２の実施形態にかかる電子機器の一例としてのノートＰＣを有する情報処理システムの構成を示す図である。図６は、第２の実施形態にかかる情報処理システムにおける音情報の出力処理の流れを示すシーケンス図である。図７は、第３の実施形態にかかる電子機器の一例であるＰＣのハードウェア構成を示す図である。図８は、第３の実施形態にかかるＰＣの機能構成を示すブロック図である。

　以下、添付の図面を参照して、本実施形態にかかる電子機器、出力方法およびプログラムについて説明する。

（第１の実施形態）
　図１は、第１の実施形態にかかる電子機器の一例としてのデジタルテレビジョンの主要な信号処理系を示すブロック図である。ＢＳ／ＣＳデジタル放送受信用のアンテナ１２１で受信した衛星デジタルテレビジョン放送信号は、入力端子２０１を介して、放送入力部２０２が備える衛星デジタル放送用のチューナ２０２ａに供給される。

　チューナ２０２ａは、制御部２０５からの制御信号により所望のチャンネルの放送信号を選局し、この選局された放送信号をＰＳＫ（Phase　Shift　Keying）復調器２０２ｂに出力する。

　放送入力部２０２が備えるＰＳＫ復調器２０２ｂは、制御部２０５からの制御信号により、チューナ２０２ａで選局された放送信号を復調し、所望の番組を含んだトランスポートストリーム（ＴＳ）を得て、ＴＳ復号器２０２ｃに出力する。

　放送入力部２０２が備えるＴＳ復号器２０２ｃは、制御部２０５からの制御信号によりトランスポートストリーム（ＴＳ）が多重化された信号のＴＳ復号処理を行い、所望の番組のデジタルの映像信号および音信号をデパケットすることにより得たＰＥＳ（Packetized　Elementary　Stream）を信号処理部２０６内のＳＴＤバッファ（図示しない）へ出力する。また、ＴＳ復号器２０２ｃは、デジタル放送により送られているセクション情報を信号処理部２０６内のセクション処理部（図示しない）へ出力する。

　地上波放送受信用のアンテナ１２２で受信した地上デジタルテレビジョン放送信号は、入力端子２０３を介して、放送入力部２０２が備える地上デジタル放送用のチューナ２０４ａに供給される。

　チューナ２０４ａは、制御部２０５からの制御信号により所望のチャンネルの放送信号を選局可能とする。チューナ２０４ａは、放送信号をＯＦＤＭ（Orthogonal　Frequency　Division　Multiplexing）復調器２０４ｂに出力する。

　放送入力部２０２が備えるＯＦＤＭ復調器２０４ｂは、制御部２０５からの制御信号により、チューナ２０４ａで選局された放送信号を復調し、所望の番組を含んだトランスポートストリームを得て、ＴＳ復号器２０４ｃに出力する。

　放送入力部２０２が備えるＴＳ復号器２０４ｃは、制御部２０５からの制御信号によりトランスポートストリーム（ＴＳ）が多重化された信号のＴＳ復号処理を行い、所望の番組のデジタルの映像信号および音信号をデパケットすることにより得たＰＥＳを信号処理部２０６内のＳＴＤバッファへ出力する。また、ＴＳ復号器２０４ｃは、デジタル放送により送られているセクション情報を信号処理部２０６内のセクション処理部（図示しない）へ出力する。

　信号処理部２０６は、テレビ視聴時には、ＴＳ復号器２０２ｃおよびＴＳ復号器２０４ｃからそれぞれ供給されたデジタルの映像信号および音信号に対して、選択的に所定のデジタル信号処理を施し、グラフィック処理部２０７および音声出力部２０８に出力する。また、信号処理部２０６は、番組録画時には、ＴＳ復号器２０２ｃおよびＴＳ復号器２０４ｃからそれぞれ供給されたデジタルの映像信号および音信号に対して、選択的に所定のデジタル信号処理を施した信号を、制御部２０５を介して丸録り録画用記憶装置（例えば、ＨＤＤ：Hard　Disk　Drive）２７１および外部記憶装置２２６に記録している。

　なお、本実施形態にかかる丸録りとは、ユーザにより選択された番組コンテンツ単位で録画する予約録画と異なり、ユーザの見逃しを防止するために、各放送チャンネルについて、所定時間帯（一日中を含む）に放送された番組コンテンツ全てを録画する手法とする。なお、録画する時間帯は、放送チャンネル毎に異ならせても良い。

　また、信号処理部２０６は、録画番組再生時には、制御部２０５を介して丸録り録画用記憶装置２７１または外部記憶装置２２６から読み出された録画番組のデータ（映像信号および音信号）に対して、所定のデジタル信号処理を施し、グラフィック処理部２０７および音声出力部２０８に出力する。

　信号処理部２０６が備えるセクション処理部（図示しない）は、ＴＳ復号器２０２ｃ，２０４ｃから入力されたセクション情報の中から、番組を取得するための各種データや電子番組ガイド（ＥＰＧ）情報、番組属性情報（番組ジャンル等）、字幕情報等（サービス情報、ＳＩやＰＳＩ）を制御部２０５へ出力する。

　図１に示す、チューナ２０２ａ、ＰＳＫ復調器２０２ｂ、ＴＳ復号器２０２ｃ、チューナ２０４ａ、ＯＦＤＭ復調器２０４ｂ、ＴＳ復号器２０４ｃは、丸録り機能に必要な数以上の系統を備えている。例えば、デジタルテレビジョン１００が、在京地上波キー局を全て記録できる装置の場合、チューナ２０４ａ、ＯＦＤＭ復調器２０４ｂ、ＴＳ復号器２０４ｃを７系統以上備えている。

　制御部２０５には、信号処理部２０６から、番組を取得するための各種データ（Ｂ－ＣＡＳデスクランブル用の鍵情報等）や電子番組ガイド（ＥＰＧ）情報、番組属性情報（番組ジャンル等）、字幕情報等（サービス情報、ＳＩやＰＳＩ）が入力されている。制御部２０５は、これら入力された情報からＥＰＧ情報や字幕情報等を表示するため画面情報を生成し、生成した画面情報をグラフィック処理部２０７へ出力する。

　また、制御部２０５は、番組録画および番組予約録画を制御する機能を有し、番組予約受付時には、表示部２１４にＥＰＧ情報を表示するための画面情報を生成し、生成した画面情報をグラフィック処理部２０７へ出力するとともに、操作部２２０またはリモートコントローラ２２１を介したユーザ入力により予約内容を所定の記憶手段に設定する。そして、制御部２０５は、設定された時刻に予約番組を録画するようチューナ２０２ａ，２０４ａ、ＰＳＫ復調器２０２ｂ、ＯＦＤＭ復調器２０４ｂ、ＴＳ復号器２０２ｃ，２０４ｃおよび信号処理部２０６を制御する。

　また、デジタルテレビジョン１００は、丸録り録画機能で録画可能な全チャンネルの番組を自動録画する場合、予約とは別に設定された時間帯に各デバイスを制御し録画を行う。

　ＯＳＤ（On　Screen　Display）信号生成部２０９は、各種情報を設定するための設定画面を表示するための設定画面情報（ＯＳＤ信号）を生成して、生成した設定画面情報をグラフィック処理部２０７に出力する。

　グラフィック処理部２０７は、信号処理部２０６から出力されたデジタルの映像信号、ＯＳＤ信号生成部２０９で生成される設定画面情報および制御部２０５により生成された画面情報を映像処理部２１０に出力する。

　グラフィック処理部２０７から出力されたデジタルの映像信号は、映像処理部２１０に供給される。映像処理部２１０は、入力されたデジタルの映像信号を、表示部２１４または出力端子２１１を介して接続された外部機器で表示可能なフォーマットのアナログ映像信号に変換した後、出力端子２１１または表示部２１４に出力して映像表示させる。

　音声出力部２０８は、入力されたデジタルの音信号を、スピーカ２１３で再生可能なフォーマットのアナログ音信号に変換した後、出力端子２１２を介して接続された外部機器またはスピーカ２１３に出力して音声再生させる。

　本実施形態にかかるデジタルテレビジョン１００は、上記した各種の動作が制御部２０５によって統括的に制御されている。制御部２０５は、ＣＰＵ（Central　Processing　Unit）等を内蔵しており、操作部２２０からの操作情報を受け、またはリモートコントローラ２２１から送出された操作情報を、受光部２２２を介して受信し、その操作内容が反映されるように各部をそれぞれ制御している。

　制御部２０５は、ＣＰＵが実行する制御プログラムを格納したＲＯＭ（Read　Only　Memory）２０５ａと、当該ＣＰＵに作業エリアを提供するＲＡＭ（Random　Access　Memory）２０５ｂと、各種の設定情報および制御情報等が格納される不揮発性メモリ２０５ｃとを利用している。

　また、制御部２０５は、カードＩ／Ｆ（Interface）２２３を介して、メモリカード２２４が装着可能なカードホルダ２２５に接続されている。これによって、制御部２０５は、カードホルダ２２５に装着されたメモリカード２２４と、カードＩ／Ｆ２２３を介して情報伝送することができる。

　また、制御部２０５は、通信Ｉ／Ｆ２２９を介して第１のＬＡＮ端子２３０に接続されている。これにより、制御部２０５は、第１のＬＡＮ端子２３０に接続されたＬＡＮ対応の機器と、通信Ｉ／Ｆ２２９を介して情報伝送することができる。

　また、制御部２０５は、通信Ｉ／Ｆ２３１を介して第２のＬＡＮ端子２３２に接続されている。これにより、制御部２０５は、第２のＬＡＮ端子２３２に接続されたＬＡＮ対応の各種機器と、通信Ｉ／Ｆ２３１を介して情報伝送することができる。

　また、制御部２０５は、ＵＳＢ　Ｉ／Ｆ２３３を介してＵＳＢ端子２３４に接続されている。これにより、制御部２０５は、ＵＳＢ端子２３４に接続された各種機器（例えば、外部記憶装置２２６）と、ＵＳＢ　Ｉ／Ｆ２３３を介して情報伝送することができる。

　図２は、第１の実施形態にかかるデジタルテレビジョンが備える信号処理部の構成を示すブロック図である。信号処理部２０６は、放送入力部２０２または制御部２０５から入力される映像信号（音信号と同期して再生される画像情報）を映像処理部２１０において処理可能なデータ形式にデコードする画像デコーダ２４１と、放送入力部２０２または制御部２０５から入力された音信号を音声出力部２０８において処理可能なデータ形式にデコードする音声デコーダ２４２と、音声デコーダ２４２によりデコードされた音信号の出力先を分離器２４３または同期処理部２４７に切り替えるスイッチ部２４８と、音声デコーダ２４２によりデコードされた音信号（音情報）から、背景音情報と第１音声情報とを分離する分離器２４３と、第１音声情報を解析して当該第１音声情報の内容をテキストデータとして取得する音声認識処理を行うとともに、当該テキストデータを第１音声情報の言語である元言語（第１言語）とは異なる言語である翻訳言語（第２言語）に翻訳する翻訳器２４４と、翻訳言語に翻訳されたテキストデータに基づいて第２音声情報を合成する合成器２４５と、背景音情報と第２音声情報とをミキシングして出力するミキシング部２４６と、ミキシング部２４６により背景音情報と第２音声情報とをミキシングした音情報と当該音情報と同期して再生する画像情報を同期させて出力する同期処理部２４７と、を備える。

　本実施形態では、翻訳器２４４および合成器２４５が、第１音声情報を、当該第１音声情報の元言語とは異なる翻訳言語の第２音声情報に変換する変換部として機能する。本実施形態では、翻訳器２４４および合成器２４５が、第１音声情報を、当該第１音声情報の元言語とは異なる翻訳言語の第２音声情報に変換する例について説明するが、第１音声情報を、当該第１音声情報と対応する第２音声情報（言い換えると、当該第１音声情報の代わりに出力する第２音声情報）に変換するものであれば良い。例えば、標準語の第１音声情報を方言の第２音声情報に変換したり、声の第１音声情報を擬音の第２音声情報に変換んしたりしても良い。また、本実施形態では、信号処理部２０６は、スイッチ部２４８を備える。スイッチ部２４８は、制御部２０５からの制御信号によって第２音声情報への変換が指示された場合には、音声デコーダ２４２によりデコードされた音情報を分離器２４３に出力して、分離器２４３，翻訳器２４４，合成器２４５およびミキシング部２４６を介して、音情報を同期処理部２４７に出力する。一方、スイッチ部２４８は、制御部２０５からの制御信号によって第２音声情報への変換が指示されなかった場合には、分離器２４３，翻訳器２４４，合成器２４５およびミキシング部２４６を介さずに、入力された音情報を同期処理部２４７に出力する。

　次に、図２～４を用いて、音情報および画像情報を出力する処理について説明する。図３は、第１の実施形態にかかるデジタルテレビジョンが備える信号処理部による音情報および画像情報の出力処理の流れを示すフローチャートである。図４は、第１の実施形態にかかるデジタルテレビジョンにおける各種情報の設定画面の一例を示す図である。

　本実施形態では、ＯＳＤ信号生成部２０９（表示制御部の一例）は、制御部２０５によって第２音声情報への変換が指示されると、信号処理部２０６による音情報および画像情報の出力処理に先立って、背景音情報，第１音声情報および第２音声情報それぞれの音量、第２音声情報の言語である翻訳言語、第２音声情報の再生時間および画像情報の再生時間のいずれを調整するかの設定（同期設定）等を設定可能な設定画面の設定画面情報を生成してグラフィック処理部２０７に出力する。これにより、ＯＳＤ信号生成部２０９は、設定画面を表示部２１４に表示させる。

　例えば、ＯＳＤ信号生成部２０９は、図４に示すように、第１音声情報（元音声）、第２音声情報（翻訳音声）および背景音情報（背景音）それぞれの音量を入力可能な音量入力用画像の一例であるスライダ４０１、第２音声情報の言語である翻訳言語を入力可能なセレクトボックス４０２、第２音声情報の再生時間および画像情報の再生時間のいずれかを調整するかを設定可能なラジオボタン４０３等を含む設定画面４００を表示部２１４に表示させる。

　本実施形態では、ＯＳＤ信号生成部２０９は、背景音情報，第１音声情報および第２音声情報それぞれの音量を入力可能なスライダ４０１を表示部２１４に表示させているが、少なくとも第１音声情報および第２音声情報それぞれの音量を入力可能な音量入力用画像を表示すれば良い。

　図３に戻り、音声デコーダ２４２は、まず、制御部２０５から制御信号によって第２音声情報への変換が指示されたか否かを判断する（ステップＳ３０１）。第２音声情報への変換が指示された場合（ステップＳ３０１：Ｙｅｓ）、音声デコーダ２４２は、入力される音情報を音声出力部２０８において処理可能なデータ形式にデコードする。さらに、分離器２４３は、音声デコーダ２４２によりデコードされた音情報から、第１音声情報と背景音情報とを分離する（ステップＳ３０２）。

　具体的には、分離器２４３は、まず、音情報を周波数解析し、音情報の特徴量を取得する。分離器２４３は、外部機器における周波数解析により求められた特徴量を取得しても良い。次いで、分離器２４３は、一定時間に取得される特徴量を用いて、背景音を表す背景音基底行列を算出する。さらに、分離器２４３は、取得した特徴量および算出した背景音基底行列を用いて、特徴量の背景音成分のうち非定常性を持つ第１背景音成分を推定する。そして、分離器２４３は、過去を含む一定時間に取得された１以上の特徴量により推定された第１背景音成分から、一定時間内の第１背景音成分の代表成分を推定する。次に、分離器２４３は、取得した特徴量を用いて、特徴量の音声成分である第１音声成分を推定する。さらに、分離器２４３は、推定した第１音声成分と第１背景音成分の代表成分とから、音声のスペクトルまたは背景音のスペクトルを抽出するフィルタを作成する。次いで、分離器２４３は、作成したフィルタと音情報のスペクトルとを用いて、音情報を、第１音声情報と背景音情報とに分離する。

　次に、翻訳器２４４は、音声認識処理によって、分離器２４３により音情報から分離された第１音声情報からテキストデータを取得する（ステップＳ３０３）。さらに、翻訳器２４４は、図４に示す設定画面４００において予め設定された翻訳言語を取得する（ステップＳ３０４）。そして、翻訳器２４４は、自然言語処理によって、第１音声情報から取得したテキストデータを、予め設定された翻訳言語のテキストデータに翻訳する（ステップＳ３０５）。

　合成器２４５は、翻訳器２４４により翻訳されたテキストデータ（予め設定された翻訳言語のテキストデータ）から、音声情報（翻訳言語の第２音声情報）を合成する（ステップＳ３０６）。

　ミキシング部２４６は、第２音声情報の再生時間および画像情報の再生時間のいずれかを調整するかを示す同期設定（本実施形態では、図４に示す設定画面４００において入力された同期設定）を取得する（ステップＳ３０７）。次いで、ミキシング部２４６は、合成された第２音声情報の再生時間と第１音声情報の再生時間とが異なるか否かを判断する（ステップＳ３０８）。第２音声情報の再生時間と第１音声情報の再生時間とが異なる場合（ステップＳ３０８：Ｙｅｓ）、ミキシング部２４６は、取得した同期設定に基づいて、第２音声情報の再生時間を調整するか否かを判断する（ステップＳ３０９）。本実施形態では、ミキシング部２４６は、第２音声情報の再生時間と第１音声情報の再生時間とが異なるか否かを判断しているが、第２音声情報の再生時間と第１音声情報の再生時間との差分が所定許容時間より長い場合に、第２音声情報の再生時間または画像情報の再生時間の調整を行なっても良い。これにより、第２音声情報の再生時間と第１音声情報の再生時間の差分が短い場合には、第２音声情報の再生時間または画像情報の再生時間を調整することなく、画像情報を視聴することができる。

　同期設定により第２音声情報の再生時間を調整することが設定されていた場合（ステップＳ３０９：Ｙｅｓ）、ミキシング部２４６は、第２音声情報の再生時間が、当該第２音声情報と同期して再生する画像情報（言い換えると、第２音声情報に対応する画像情報）の再生時間と同じになるように（言い換えると、第２音声情報の再生時間が第１音声情報の再生時間と同じになるように）、第２音声情報の再生時間を調整する（ステップＳ３１０）。これにより、第２音声情報と画像情報とを同期して再生することが可能となる。また、画像情報の再生時間は調整されないので、当該画像情報が動画像情報である場合、当該動画像情報から再生した動画像にユーザが違和感を覚えることを防止できる。本実施形態では、ミキシング部２４６は、第２音声情報に付加されているタイムスタンプと、画像情報に付加されているタイムスタンプとを比較することにより、入力された画像情報の中から、第２音声情報と同期して再生する画像情報を判別する。また、本実施形態では、ミキシング部２４６は、第２音声情報の再生時間と当該第２音声情報と同期して再生される画像情報の再生時間とが同じになるように、第２音声情報（または画像情報）の再生時間を調整しているが、第２音声情報の再生時間と当該第２音声情報と同期して再生される画像情報の再生時間との差分が所定許容時間以下となるように、第２音声情報（または画像情報）の再生時間を調整するものであれば良い。

　本実施形態では、翻訳器２４４が、第１音声情報から取得したテキストデータを、予め設定された翻訳言語の複数のテキストデータに翻訳する。次に、合成器２４５が、予め設定された翻訳言語の複数のテキストデータそれぞれから、複数の第２音声情報の候補を合成する。すなわち、翻訳器２４４および合成器２４５は、第１音声情報を、複数の第２音声情報の候補に変換する。そして、ミキシング部２４６は、複数の第２音声情報の候補のうち、当該第２音声情報と同期して再生される画像情報の再生時間と同じ再生時間で再生可能な第２音声情報の候補を選択し、選択した第２音声情報の候補を第２音声情報とすることにより、第２音声情報の再生時間を調整する。本実施形態では、合成器２４５は、予め設定された翻訳言語の複数のテキストデータ全てから、複数の第２音声情報の候補を合成しているが、これに限定するものではなく、予め設定された翻訳言語の複数のテキストデータに基づいて（例えば、当該複数のテキストデータそれぞれの文字数などに基づいて）、第２音声情報と同期して再生される画像情報の再生時間と同じ再生時間で再生可能な第２音声情報となり得るテキストデータを選択し、当該選択したテキストデータから合成した音声情報を第２音声情報としても良い。

　本実施形態では、ミキシング部２４６は、複数の第２音声情報の候補から画像情報の再生時間と同じ再生時間で再生可能な第２音声情報の候補を第２音声情報として選択することにより、第２音声情報の再生時間を調整しているが、これに限定するものではなく、例えば、音声出力部２０８を制御して、第２音声情報を再生する再生速度を変えることにより、第２音声情報の再生時間を調整しても良い。

　一方、同期設定により画像情報の再生時間を調整することが設定されていた場合（ステップＳ３０９：Ｎｏ）、同期処理部２４７は、第２音声情報と同期して再生される画像情報の再生時間が当該第２音声情報の再生時間と同じになるように、当該画像情報の再生時間を調整する（ステップＳ３１１）。本実施形態では、同期処理部２４７は、映像処理部２１０を制御して、第２音声情報と同期して再生される画像情報を再生する再生速度を変えることにより、画像情報の再生時間を調整する。これにより、画像情報と第２音声情報とを同期して再生することが可能となる。

　本実施形態では、同期処理部２４７は、画像情報を再生する再生速度を変えることにより画像情報の再生時間を調整しているが、これに限定するものではなく、例えば、画像情報が動画像情報である場合には、当該動画像情報を構成する複数のフレームのうち、一部のフレームを間引いたり、フレームを追加したりして、画像情報の再生時間を調整しても良い。

　また、本実施形態では、第２音声情報の再生時間または当該第２音声情報と同期して再生される画像情報の再生時間を調整しているが、第２音声情報の再生時間と当該第２音声情報と同期して再生される画像情報の再生時間とが同じになるように、第２音声情報の再生時間および当該第２音声情報と同期して再生される画像情報の再生時間の少なくともいずれか一方を調整するものであれば、これに限定するものではない。具体的には、第２音声情報の再生時間が当該第２音声情報と同期して再生される画像情報の再生時間の２倍以上の時間である場合や第２音声情報の再生時間が当該第２音声情報と同期して再生される画像情報の再生時間の半分以下の時間である場合等、第２音声情報の再生時間と当該第２音声情報と同期して再生される画像情報の再生時間との差分が予め設定された許容値より大きい場合、第２音声情報の再生時間および当該第２音声情報と同期して再生される画像情報の再生時間のいずれかを調整すると、第２音声情報から再生された音声または画像情報から再生された画像に視聴者が違和感を覚える可能性が高い。

　よって、この場合には、第２音声情報の再生時間および当該第２音声情報と同期して再生される画像情報の再生時間の両方を調整して、第２音声情報の再生時間と当該第２音声情報と同期して再生される画像情報の再生時間とを同じにする。例えば、第２音声情報の再生時間が短い場合には、第２音声情報の再生時間を長くするとともに、当該第２音声情報と同期して再生される画像情報の再生時間を短くする。一方、第２音声情報の再生時間が長い場合には、第２音声情報の再生時間を短くするとともに、当該第２音声情報と同期して再生される画像情報の再生時間を長くする。これにより、第２音声情報の再生時間および画像情報の再生時間を最小限に抑えることができるので、第２音声情報から再生された音声または画像情報から再生された画像に視聴者が違和感を覚える可能性を低くすることができる。

　さらに、本実施形態では、同期設定に基づいて、第２音声情報の再生時間および当該第２音声情報と同期して再生される画像情報の再生時間のうちいずれを調整するかを決定しているが、これに限定するものではない。具体的には、画像情報から再生される画像の種類、および第２音声情報の再生時間と画像情報の再生時間との差分の少なくともいずれか一方に基づいて、第２音声情報の再生時間および当該第２音声情報と同期して再生される画像情報の再生時間のうちいずれを調整するかを決定しても良い。

　例えば、画像情報が静止画の信号である場合や第２音声情報の再生時間と当該第２音声情報と同期して再生される画像情報の再生時間との差分が予め設定された許容値以下である場合など、画像情報の再生時間を調整しても当該画像情報から再生した画像にユーザが違和感を覚える可能性が低い場合には、画像情報の再生時間を調整することを決定しても良い。一方、画像情報が動画像情報である場合や第２音声情報の再生時間と当該第２音声情報と同期して再生される画像情報の再生時間との差分が予め設定された許容値より大きい場合には、第２音声情報の再生時間を調整すると決定しても良い。

　画像情報の再生時間または第２音声情報の再生時間が調整された場合若しくは第２音声情報の再生時間と第１音声情報の再生時間とが同じである場合（ステップＳ３０８：Ｎｏ）、ミキシング部２４６は、第１音声情報の元言語および第２音声情報の翻訳言語に基づいて、第２音声情報の周波数を調整する（ステップＳ３１２）。例えば、ミキシング部２４６は、第１音声情報の元言語が英語でありかつ第２音声情報の翻訳言語が日本語である場合、第２音声情報の周波数を低くする。

　次いで、ミキシング部２４６は、第１音声情報、第２音声情報および背景音情報それぞれについて予め入力された音量（本実施形態では、図４に示す設定画面４００において、第１音声情報、第２音声情報および背景音情報それぞれについて入力された音量）を取得する（ステップＳ３１３）。さらに、ミキシング部２４６は、予め入力された音量に従って、第１音声情報、第２音声情報および背景音情報それぞれの音量を調整する（ステップＳ３１４）。

　本実施形態では、ミキシング部２４６は、予め入力された音量に従って、第１音声情報、第２音声情報および背景音情報それぞれの音量を調整しているが、これに限定するものではない。例えば、ミキシング部２４６は、第１音声情報の音量に応じて、第２音声情報の音量を調整しても良い。または、ミキシング部２４６は、第１音声情報の音量を第２音声情報の音量より小さくすることにより、第２音声情報が聞き取り難くなることを防止できる。

　そして、ミキシング部２４６は、第１音声情報と第２音声情報と背景音情報とをミキシングして（言い換えると、足し合わせて）出力する（ステップＳ３１５）。本実施形態では、ミキシング部２４６は、第１音声情報と第２音声情報と背景音情報とをミキシングしているが、少なくとも第２音声情報と背景音情報とをミキシングして出力するものであれば良い。その際、ミキシング部２４６は、背景音情報と当該背景音情報と同期して再生される第２音声情報とをミキシングして出力する。言い換えると、ミキシング部２４６は、背景音情報および当該背景音情報と同期して再生される第２音声情報を出力するタイミングを調整して、当該背景音情報および第２音声情報を同期して出力する。その際、ミキシング部２４６は、第２音声情報に付加されているタイムスタンプと、背景音情報に付加されているタイムスタンプとを比較することにより、入力された背景音情報の中から、第２音声情報と同期して再生する背景音情報を判別する。さらに、ミキシング部２４６は、第１音声情報の元言語および第２音声情報の翻訳言語に基づいて、第２音声情報の音量を調整しても良い。例えば、第１音声情報の元言語が英語で第２音声情報の翻訳言語が日本語である場合、第２音声情報の音量を、第１音声情報の音量より大きくする。

　同期処理部２４７は、画像デコーダ２４１から出力された画像情報を、第１音声情報から第２音声情報への変換に要する変換時間遅延させて映像処理部２１０に出力することにより、画像情報と第２音声情報とを同期して再生させる同期処理を実行する（ステップＳ３１６）。

　音声出力部２０８は、同期処理部２４７を介して、ミキシング部２４６において第１音声情報と第２音声情報と背景音情報とをミキシングした音情報をスピーカ２１３に出力する（ステップＳ３１７）。また、映像処理部２１０は、同期処理部２４７を介して、画像デコーダ２４１から出力された画像情報を表示部２１４に出力する（ステップＳ３１７）。

　このように、第１の実施形態にかかるデジタルテレビジョン１００によれば、入力された音情報から、背景音情報と第１音声情報とを分離し、第１音声情報を、当該第１音声情報の元言語とは異なる翻訳言語の第２音声情報に変換し、背景音情報と第２音声情報とをミキシングして出力することにより、第１音声情報を第２音声情報に差し替えて出力することができるので、第１音声情報から変換した第２音声情報を出力する場合に、第２音声情報が聞き取り難くなることを防止できる。また、第２音声情報を聞き取りやすくするために背景音情報の音量を小さくする必要がなくなるので、背景音が聞こえなくなることを防止できる。

（第２の実施形態）
　本実施形態は、音情報の出力を行う電子機器とネットワークを介して接続された外部機器において、入力された音情報からの背景音情報および第１音声情報の分離、第１音声情報から第２音声情報への変換および背景音情報と第２音声情報とのミキシングを実行する例である。以下の説明では、第１の実施形態と同様の箇所については説明を省略する。

　図５は、第２の実施形態にかかる電子機器の一例としてのノートＰＣを有する情報処理システムの構成を示す図である。本実施形態では、ノートＰＣ（Personal　Computer）５００は、図５に示すように、インターネット等のネットワークを介して、再生対象のコンテンツ（少なくとも音情報を含むコンテンツ）を記憶するコンテンツサーバ５１０と、ノートＰＣ５００において実行されるブラウザを介して当該ノートＰＣ５００と各種情報をやり取りするＷｅｂサーバ５２０と、入力された音情報からの背景音情報および第１音声情報の分離および第１音声情報からのテキストデータの取得等を行う音声処理サーバ５３０と、第１音声情報から取得したテキストデータの翻訳言語への翻訳を行う翻訳サーバ５４０と接続されている。

　図６は、第２の実施形態にかかる情報処理システムにおける音情報の出力処理の流れを示すシーケンス図である。まず、ノートＰＣ５００は、ブラウザを介してＷｅｂサーバ５２０に接続して、設定画面４００（図４参照）の表示をＷｅｂサーバ５２０に対して要求する（ステップＳ６０１）。

　Ｗｅｂサーバ５２０は、設定画面４００の画面情報をノートＰＣ５００に送信して、設定画面４００をノートＰＣ５００の表示部（図示しない）に表示させる（ステップＳ６０２）。

　ノートＰＣ５００は、設定画面４００において設定された各種設定（第１音声情報、第２音声情報および背景音情報それぞれの音量、翻訳言語の設定、同期設定など）をＷｅｂサーバ５２０に送信する（ステップＳ６０３）。さらに、ノートＰＣ５００は、ブラウザを介して、コンテンツサーバ５１０に記憶されているコンテンツのうち出力対象のコンテンツを選択する（ステップＳ６０４）。

　Ｗｅｂサーバ５２０は、ノートＰＣ５００において選択されたコンテンツの取得をコンテンツサーバ５１０に対して要求するとともに（ステップＳ６０５）、当該コンテンツをコンテンツサーバ５１０から取得する（ステップＳ６０６）。

　Ｗｅｂサーバ５２０は、取得したコンテンツに含まれる音情報を音声処理サーバ５３０に送信して、当該音情報からの第１音声情報および背景音情報の分離を要求する（ステップＳ６０７）。音声処理サーバ５３０は、分離器２４３（図２参照）および翻訳器２４４（図２参照）と同様にして、音情報からの背景音情報および第１音声情報の分離、第１音声情報からのテキストデータの取得を行う。そして、Ｗｅｂサーバ５２０は、音声処理サーバ５３０から、第１音声情報、背景音情報およびテキストデータを取得する（ステップＳ６０８）。

　Ｗｅｂサーバ５２０は、音声処理サーバ５３０から取得したテキストデータおよび設定画面４００（図４参照）において設定された翻訳言語を翻訳サーバ５４０に送信して、テキストデータの翻訳言語への翻訳を要求する（ステップＳ６０９）。翻訳サーバ５４０は、翻訳器２４４（図２参照）と同様にして、テキストデータを翻訳言語に翻訳する。そして、Ｗｅｂサーバ５２０は、翻訳サーバ５４０から、翻訳言語に翻訳されたテキストデータ（翻訳結果）を取得する（ステップＳ６１０）。

　Ｗｅｂサーバ５２０は、翻訳言語に翻訳されたテキストデータ、背景音情報、第１音声情報、設定画面４００（図４参照）において設定された各種設定（背景音情報，第１音声情報および第２音声情報それぞれの音量、同期設定など）を音声処理サーバ５３０に送信して、第２音声情報の合成、各種調整（例えば、第２音声情報の再生時間の調整、第１音声情報，第２音声情報および背景音情報それぞれの音量および周波数の調整など）、第２音声情報と背景音情報とのミキシングを要求する（ステップＳ６１１）。音声処理サーバ５３０は、合成器２４５（図２参照）およびミキシング部２４６（図２参照）と同様にして、第２音声情報の合成、各種調整、第２音声情報と背景音情報とのミキシングを行う。そして、Ｗｅｂサーバ５２０は、第２音声情報と背景音情報とをミキシングした音情報を取得する（ステップＳ６１２）。

　そして、Ｗｅｂサーバ５２０は、ステップＳ６０６において取得したコンテンツに含まれる音情報を、音声処理サーバ５３０から取得した音情報に差し替えたコンテンツをノートＰＣ５００に送信する（ステップＳ６１３）。

　このように、第２の実施形態にかかる情報処理システムによれば、音情報を出力するノートＰＣ５００において、入力された音情報からの背景音情報および第１音声情報の分離、第１音声情報から第２音声情報への変換および背景音情報と第２音声情報とのミキシングを実行する必要がないので、ノートＰＣ５００の処理負荷を軽減することができる。

（第３の実施形態）
　本実施形態は、電子機器の一例であるＰＣにおいて、入力された音情報からの背景音情報および第１音声情報の分離、第１音声情報から第２音声情報への変換および背景音情報と第２音声情報とをミキシングした音情報の出力を行う例である。以下の説明では、第１の実施形態と同様の箇所については説明を省略する。

　図７は、第３の実施形態にかかる電子機器の一例であるＰＣのハードウェア構成を示す図である。図７に示すように、ＰＣ７００は、ＣＰＵ７０１と、ＲＯＭ７０２と、ＲＡＭ７０３と、表示部７０４と、入力部７０５と、記憶制御部７０６と、通信部７０７と、スピーカ７０８と、記憶装置７０９と、を備えている。

　ＣＰＵ７０１は、ＲＡＭ７０３を作業領域として、ＲＯＭ７０２等に記憶された各種制御プログラムとの協働により各種処理を実行し、ＰＣ７００を構成する各部の動作を統括的に制御する。

　ＲＯＭ７０２は、ＰＣ７００の制御にかかるプログラムや各種設定情報等を書き換え不可能に記憶する。ＲＡＭ７０３は、揮発性の記憶媒体であって、ＣＰＵ７０１の作業エリアとして機能する。

　表示部７０４は、ＬＣＤ（Liquid　Crystal　Display）や有機ＥＬ（Electro　Luminescence）ディスプレイ等で構成される表示画面を有し、ＣＰＵ７０１の制御に従い、処理経過や結果等を表示する。スピーカ７０８は、ＣＰＵ７０１の制御に従い、音情報を出力する。

　入力部７０５は、キーボードやマウス等の入力デバイスを有し、この入力デバイスを介して入力されたユーザからの命令や情報をＣＰＵ７０１に通知する。

　記憶制御部７０６は、記憶装置７０９の動作を制御し、ＣＰＵ７０１から入力されるデータの書き込みや、データの読み出し等の要求に応じた処理を記憶装置７０９に実行する。ここで、記憶装置７０９は、磁気ディスク、半導体メモリ、光学ディスク等の記録媒体を有した記憶装置である。

　通信部７０７は、無線の通信インタフェースであって、図示しない外部装置との間で通信を確立し、データ（例えば、音情報および画像情報を含むコンテンツなど）の送受信を実行する。

　図８は、第３の実施形態にかかるＰＣの機能構成を示すブロック図である。本実施形態では、ＰＣ７００は、ＣＰＵ７０１がＲＯＭ７０２に記憶されたプログラムが実行することにより、画像デコーダ７１０と、音声デコーダ７１１と、分離器２４３と、翻訳器２４４と、合成器２４５と、ミキシング部２４６と、同期処理部２４７と、スイッチ部２４８と、映像処理部７１２と、音声出力部７１３と、を実現する。

　画像デコーダ７１０は、通信部７０７で受信したコンテンツに含まれる画像情報（当該コンテンツに含まれる音情報と同期して再生される画像情報）を映像処理部７１２において処理可能なデータ形式にデコードする。音声デコーダ７１１は、通信部７０７で受信したコンテンツに含まれる音情報を音声出力部７１３において処理可能なデータ形式にデコードする。

　スイッチ部２４８は、音声デコーダ２４２によりデコードされた音信号の出力先を分離器２４３または同期処理部２４７に切り替える。分離器２４３は、音声デコーダ７１１によりデコードされた音情報から、背景音情報と第１音声情報とを分離する。翻訳器２４４は、第１音声情報を解析して当該第１音声情報の内容をテキストデータとして取得する音声認識処理を行うとともに、当該テキストデータを第１音声情報の言語である元言語（第１言語）とは異なる言語である翻訳言語（第２言語）に翻訳する。合成器２４５は、翻訳言語に翻訳されたテキストデータに基づいて第２音声情報を合成する。ミキシング部２４６は、背景音情報と第２音声情報とをミキシングして出力する。同期処理部２４７は、ミキシング部２４６により背景音情報と第２音声情報とをミキシングした音情報と当該音情報と同期して再生する画像情報を同期させて出力する。

　映像処理部７１２は、同期処理部２４７から出力された画像情報を表示部７０４で表示可能なフォーマットのアナログ映像信号に変換した後、表示部７０４に出力して映像表示させる。音声出力部７１３は、同期処理部２４７から出力されたデジタルの音情報をスピーカ７０８で再生可能なフォーマットのアナログ音信号に変換した後、スピーカ７０８に出力して音声再生させる。

　このように、第３の実施形態にかかるＰＣ７００によれば、第１の実施形態と同様の作用効果を得ることができる。

　以上説明したとおり、第１～３の実施形態によれば、第１音声情報から変換した第２音声情報を出力する場合に、第２音声情報が聞き取り難くなることを防止できる。また、背景音が聞こえなくなることを防止できる。

　本実施形態の電子機器で実行されるプログラムは、ＲＯＭ等に予め組み込まれて提供される。また、本実施形態の電子機器で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ、ＤＶＤ（Digital　Versatile　Disk）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成しても良い。

　さらに、本実施形態の電子機器で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の電子機器で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。

　本実施形態の電子機器で実行されるプログラムは、上述した各部（分離器２４３、翻訳器２４４、合成器２４５、ミキシング部２４６、同期処理部２４７）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ（プロセッサ）が上記ＲＯＭからプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ分離器２４３、翻訳器２４４、合成器２４５、ミキシング部２４６、同期処理部２４７が主記憶装置上に生成されるようにしても良い。

　本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

　１００　デジタルテレビジョン
　２０６　信号処理部
　２４３　分離器
　２４４　翻訳器
　２４５　合成器
　２４６　ミキシング部
　２４７　同期処理部
　５００　ノートＰＣ
　５１０　コンテンツサーバ
　５２０　Ｗｅｂサーバ
　５３０　音声処理サーバ
　５４０　翻訳サーバ
　７００　ＰＣ

Claims

　音情報から、背景音情報と第１音声情報とを分離する分離部と、
　前記第１音声情報を、当該第１音声情報と対応する第２音声情報に変換する変換部と、
　前記背景音情報と前記第２音声情報とをミキシングして出力する出力部と、
　を備えた電子機器。
　前記出力部は、前記背景音情報と当該背景音情報と同期して再生される前記第２音声情報とをミキシングして出力する請求項１に記載の電子機器。
　前記出力部は、前記音情報と同期して再生される画像情報が入力され、前記第１音声情報から前記第２音声情報への変換に要する変換時間遅延させて、前記画像情報を出力する請求項１に記載の電子機器。
　前記出力部は、前記第２音声情報の再生時間と前記第１音声情報の再生時間との差分が所定許容時間より長い場合、前記第２音声情報の再生時間と当該第２音声情報と同期して再生される前記画像情報の再生時間との差分が前記所定許容時間以下となるように、前記第２音声情報の再生時間および当該第２音声情報と同期して再生される前記画像情報の再生時間の少なくともいずれか一方を調整する請求項３に記載の電子機器。
　前記変換部は、前記第１音声情報を、複数の前記第２音声情報の候補に変換し、
　前記出力部は、複数の前記第２音声情報の候補から、前記画像情報の再生時間と同じ再生時間で再生される前記第２音声情報の候補を選択し、当該選択した第２音声情報の候補を前記第２音声情報として前記背景音情報とミキシングして出力することにより、前記第２音声情報の長さを調整する請求項４に記載の電子機器。
　前記出力部は、前記第１音声情報の音量に応じて前記第２音声情報の音量を調整する請求項１に記載の電子機器。
　前記出力部は、前記背景音情報と、前記第２音声情報と、前記第１音声情報とをミキシングして出力する請求項１に記載の電子機器。
　前記出力部は、前記第１音声情報の音量を前記第２音声情報の音量より小さくする請求項７に記載の電子機器。
　前記背景音情報、前記第１音声情報および前記第２音声情報それぞれの音量を入力可能な音量入力用画像を表示部に表示させる表示制御部を備え、
　前記出力部は、前記音量入力用画像により入力された音量に従って、前記背景音情報、前記第１音声情報および前記第２音声情報それぞれの音量を調整する請求項７に記載の電子機器。
　前記変換部は、前記第１音声情報を、当該第１音声情報の第１言語とは異なる第２言語の前記第２音声情報に変換する請求項１に記載の電子機器。
　前記表示制御部は、前記第２言語を入力可能な言語入力用画像を前記表示部に表示させ、
　前記変換部は、前記第１音声情報を、前記言語入力用画像により入力された前記第２言語の前記第２音声情報に変換する請求項１０に記載の電子機器。
　前記出力部は、前記第１言語および前記第２言語に基づいて、前記第２音声情報の音量を調整する請求項１０に記載の電子機器。
　電子機器で実行される出力方法であって、
　分離部が、音情報から、背景音情報と第１音声情報とを分離する過程と、
　変換部が、前記第１音声情報を、当該第１音声情報に対応する第２音声情報に変換する過程と、
　出力部が、前記背景音情報と前記第２音声情報とをミキシングして出力する過程と、
　を含む出力方法。
　コンピュータを、
　音情報から、背景音情報と第１音声情報とを分離する分離部と、
　前記第１音声情報を、当該第１音声情報に対応する第２音声情報に変換する変換部と、
　前記背景音情報と前記第２音声情報とをミキシングして出力する出力部と、
　として機能させるためのプログラム。