JP2011250100A

JP2011250100A - 画像処理装置および方法、並びにプログラム

Info

Publication number: JP2011250100A
Application number: JP2010120726A
Authority: JP
Inventors: Tatsuki Sakaguchi; 竜己坂口
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-05-26
Filing date: 2010-05-26
Publication date: 2011-12-08

Abstract

【課題】より効果的に、ユーザに対して環境音を視覚的に提示する。
【解決手段】解析部２４は、コンテンツを構成する音声の音声データにブラインド音源分離処理を行い、各音源の音声の音声データを抽出するとともに、各音源の音声の音声データに基づいて、音源の方向を示す方向データを生成する。また、解析部２４は各音源の音声が、人の発話ではない環境音であるか否かを判別し、環境音をテキスト化する。視覚情報生成部２５は、テキスト化された環境音に基づいて、環境音を視覚的に提示するエフェクト画像を生成する。画像合成部２６は、コンテンツを構成するコンテンツ画像上の方向データにより定まる位置に、エフェクト画像をオーバーレイする。本発明は、ビデオ再生機器に適用することができる。
【選択図】図１

Description

本発明は画像処理装置および方法、並びにプログラムに関し、特に、より効果的に、ユーザに対して環境音を視覚的に提示することができるようにした画像処理装置および方法、並びにプログラムに関する。

DVD（Digital Versatile Disc）やBD（Blu-ray（登録商標） Disc）といった商用パッケージメディアでは、テキスト情報や画像情報を、コンテンツの画像上の所望する位置に表示することが可能であるが、人の発話とは異なる周囲の環境音に対する考慮は特にされていない。

例えば、コンテンツの視聴時において、聴覚障害者にとっては、ドアの開閉音、自動車の接近音、電話の着信音などの環境音の演出効果は全く意味をなさない。また、そもそもオーサリングという手順が踏まれない個人的に撮影されたコンテンツや、生放送形式で放送される番組などでは、このような環境音の演出効果を追加することは難しい。

なお、クローズドキャプションの付加が義務付けられている米国では、人がコンテンツの音声を聞き取ってタイプすることで、クローズドキャプションを作成する場合もある。そのような場合、ユーザは視覚情報として、変換された文字を読むことはできるものの、クローズドキャプションでは、環境音や音声が、画面上のどの位置にあるものや人から発せられているか表現することはできない。

また、音声認識を利用した技術として、音声認識された音声をテキスト化して、障害者用のヘッドマウントディスプレイに表示させる装置も提案されている（例えば、特許文献１参照）。このヘッドマウントディスプレイでは、テキスト化された音声のおおよその音源位置も表示されるため、ユーザは、どの方向から音がしているかを知ることができる。

特開２００７−３３４１４９号公報

しかしながら、上述した技術では、任意のコンテンツを対象として、そのコンテンツに含まれる環境音を、効果的に、ユーザに対して視覚的に提示することはできなかった。

例えば、ユーザが、周囲の音声をテキスト化して表示させるヘッドマウントディスプレイを装着して、コンテンツを視聴しても、単にディスプレイの中央に認識された音声のテキストが表示されるだけであった。そのため、コンテンツと、表示されたテキストの一体感はなく、効果的に音声を提示しているとはいえなかった。

本発明は、このような状況に鑑みてなされたものであり、より効果的に、ユーザに対して環境音を視覚的に提示することができるようにするものである。

本発明の一側面の画像処理装置は、コンテンツを構成する音声の音声データに基づいて、所定の基準位置に対する前記音声の音源の方向を推定する音源方向推定手段と、前記音声データを、前記音声のうちの人の発話による発話音を除く環境音の前記音声データと、前記発話音の前記音声データとに分離する分離手段と、前記環境音の前記音声データに対する音声認識処理を行って、前記環境音をテキスト化する環境音識別手段と、前記環境音を視覚的に提示するエフェクト画像が、前記コンテンツを構成する画像上の前記音源の方向の推定結果により定まる位置に表示されるように、テキスト化された前記環境音に基づいて生成された前記エフェクト画像のエフェクトデータと、前記画像の画像データとを合成する画像合成手段とを備える。

画像処理装置には、前記音声の前記音声データに基づいて、前記基準位置から前記音源までの距離を推定する音源距離推定手段をさらに設け、前記画像合成手段には、前記エフェクト画像が、前記画像上の前記音源の方向の推定結果により定まる位置に、前記音源の距離の推定結果により定まる大きさで表示されるように、前記エフェクトデータと前記画像データとを合成させることができる。

画像処理装置には、前記音声の前記音声データに対するブラインド音源分離処理を行って、前記音声データを、各前記音源の音声の音声データに分離する音源分離手段をさらに設け、前記分離手段には、前記音源分離手段により分離された前記音声データごとに、その前記音声データが前記環境音の前記音声データであるか否かを判別することで、前記環境音の前記音声データと、前記発話音の前記音声データとを分離させることができる。

前記画像合成手段には、前記音源の方向、前記音源の距離、または前記環境音の音量の少なくとも何れかに応じて、前記画像上に表示される前記エフェクト画像の大きさ、色、または輝度が変化するように、前記エフェクトデータと前記画像データとを合成させることができる。

画像処理装置には、テキスト化された前記環境音に対して予め定められた、前記環境音の内容を補足する文字列からなる補足情報が前記エフェクト画像に表示されるように、テキスト化された前記環境音に基づいて、前記エフェクトデータを生成する視覚情報生成手段をさらに設けることができる。

画像処理装置には、前記分離手段により分離された前記発話音の前記音声データに対する音声認識処理を行って、前記発話音をテキスト化する発話音識別手段をさらに設け、前記画像合成手段には、前記環境音の前記エフェクト画像と、前記発話音を視覚的に提示するエフェクト画像とが前記画像上に表示されるように、前記エフェクトデータと前記画像データとを合成させることができる。

本発明の一側面の画像処理方法またはプログラムは、コンテンツを構成する音声の音声データに基づいて、所定の基準位置に対する前記音声の音源の方向を推定し、前記音声データを、前記音声のうちの人の発話による発話音を除く環境音の前記音声データと、前記発話音の前記音声データとに分離し、前記環境音の前記音声データに対する音声認識処理を行って、前記環境音をテキスト化し、前記環境音を視覚的に提示するエフェクト画像が、前記コンテンツを構成する画像上の前記音源の方向の推定結果により定まる位置に表示されるように、テキスト化された前記環境音に基づいて生成された前記エフェクト画像のエフェクトデータと、前記画像の画像データとを合成するステップを含む。

本発明の一側面においては、コンテンツを構成する音声の音声データに基づいて、所定の基準位置に対する前記音声の音源の方向が推定され、前記音声データが、前記音声のうちの人の発話による発話音を除く環境音の前記音声データと、前記発話音の前記音声データとに分離され、前記環境音の前記音声データに対する音声認識処理が行われて、前記環境音がテキスト化され、前記環境音を視覚的に提示するエフェクト画像が、前記コンテンツを構成する画像上の前記音源の方向の推定結果により定まる位置に表示されるように、テキスト化された前記環境音に基づいて生成された前記エフェクト画像のエフェクトデータと、前記画像の画像データとが合成される。

本発明の一側面によれば、より効果的に、ユーザに対して環境音を視覚的に提示することができる。

本発明を適用した画像処理装置の一実施の形態の構成例を示す図である。解析部の構成例を示す図である。コンテンツ再生処理を説明するフローチャートである。合成コンテンツ画像の表示例を示す図である。合成コンテンツ画像の表示例を示す図である。解析処理を説明するフローチャートである。解析部の他の構成例を示す図である。解析処理を説明するフローチャートである。コンピュータの構成例を示すブロック図である。

以下、図面を参照して、本発明を適用した実施の形態について説明する。

〈第１の実施の形態〉
［画像処理装置の構成］
図１は、本発明を適用した画像処理装置の一実施の形態の構成例を示す図である。

画像処理装置１１は、画像処理装置１１に装着された光ディスク等の記録媒体１２からコンテンツのコンテンツデータを読み出して再生する。例えば、画像処理装置１１は、テレビジョン受像機、ビデオ再生機器、パーソナルコンピュータなどからなり、ビデオ再生アプリケーションプログラム上などで実装されるべき機能を実現する。

画像処理装置１１は、特に、コンテンツのオーサリング時に手間をかけることなく、演出に用いられる効果音を画像情報に変換し、その画像情報を適切な位置にオーバーレイすることで、聴覚障害者のコンテンツの視聴の助けとなることを目的とする。

なお、コンテンツデータは、コンテンツとしての動画像を表示させる動画像データと、その動画像（以下、コンテンツ画像とも称する）に付随する音声の音声データとから構成され、これらの動画像データおよび音声データは、所定の方式でエンコードされている。

画像処理装置１１は、読み出し部２１、動画デコーダ２２、オーディオデコーダ２３、解析部２４、視覚情報生成部２５、画像合成部２６、および表示部２７から構成される。

読み出し部２１は、記録媒体１２からコンテンツデータを読み出して、コンテンツデータを構成する動画像データを動画デコーダ２２に供給し、コンテンツデータを構成する音声データをオーディオデコーダ２３に供給する。

動画デコーダ２２は、読み出し部２１から供給された動画像データをデコードし、画像合成部２６に供給する。また、オーディオデコーダ２３は、読み出し部２１から供給された音声データをデコードし、解析部２４および表示部２７に供給する。

解析部２４は、オーディオデコーダ２３から供給された音声データに対し、解析処理を行って、音声データにより再生される音声の音源の方向を示す方向データと、音声の音源までの距離を示す距離データとを生成し、画像合成部２６に供給する。ここで、音声の音源の方向および距離は、その音声を収音したマイクロホン等の収音部を基準とした方向および距離である。

なお、コンテンツを構成する音声には、収音部により直接収音された音声の他、その音声に後から付加（合成）された効果音等の音声が含まれる場合があるが、そのような効果音等の音声は、収音部で収音されたものとみなされる。つまり、収音部を基準として、効果音等の音声の音源の方向と距離とが推定される。

また、解析部２４は、オーディオデコーダ２３から供給された音声データに対する音声認識処理を行い、その音声認識処理の結果を示す単語列を視覚情報生成部２５に供給する。換言すれば、解析部２４は、音声データにより再生される音声をテキスト化する。例えば、音声認識処理の結果を示す単語列には、「こんにちは」といった人の発話内容など、人の声の認識結果を示す単語列だけでなく、「ピーポーピーポー」といった救急車のサイレンの音など、収音部の周囲で発せられた環境音の認識結果を示す単語列も含まれる。

なお、以下においては、特に、人の発話や擬声語などの人から発せられた声を発話音とも称し、コンテンツを構成する音声の収音時に収音された、発話音を除く他の全ての周囲の音を環境音とも称することとする。また、以下、発話音に対する音声認識処理の結果得られた単語列を示すテキストデータを発話音データとも称し、環境音に対する音声認識処理の結果得られた単語列を示すテキストデータを環境音データとも称することとする。したがって、視覚情報生成部２５には、発話音データと環境音データとが供給されることになる。

視覚情報生成部２５は、解析部２４から供給された発話音データと環境音データを用いて、それらのデータにより示される単語列を視覚的に提示するエフェクトデータを生成し、画像合成部２６に供給する。

例えば、エフェクトデータは、発話音や環境音がテキスト化されて得られたテキスト画像、発話音や環境音の音声認識結果に対して予め定められたイラストやテクスチャ等の画像などの画像データとされる。以下では、エフェクトデータにより表示される画像を、特にエフェクト画像と呼ぶこととする。

なお、エフェクト画像としてのイラスト等の画像は、発話内容や環境音の内容を想起させるものであれば、動画像であっても静止画像であってもよい。また、エフェクト画像としてのテキスト画像やイラスト等の画像は、時間とともに表示形式が変化するといった、表示効果を有するものであってもよい。この場合、例えば、エフェクト画像上に表示される文字の色や位置等が、時間とともに変化する。

画像合成部２６は、解析部２４から供給された方向データと距離データを用いて、動画デコーダ２２から供給された動画像データと、視覚情報生成部２５から供給されたエフェクトデータとを合成し、得られた動画像データを表示部２７に供給する。例えば、動画像データとエフェクトデータの合成は、コンテンツ画像上における、方向データにより定まる位置に、距離データにより定まる大きさでエフェクト画像がオーバーレイされるように行なわれる。以下、特に、エフェクト画像がオーバーレイされたコンテンツ画像を、合成コンテンツ画像とも称し、合成コンテンツ画像の動画像データを、合成動画像データとも称する。

表示部２７は、例えば液晶ディスプレイやスピーカなどからなり、画像合成部２６から供給された合成動画像データに基づいて、合成コンテンツ画像を表示させるとともに、オーディオデコーダ２３から供給された音声データに基づいて、音声を出力する。

［解析部の構成］
また、図１の解析部２４は、より詳細には、図２に示すように構成される。

すなわち、解析部２４は、音源分離部５１、音源方向推定部５２、音源距離推定部５３、環境音／発話音識別部５４、環境音識別部５５、および発話内容識別部５６から構成される。また、音源分離部５１には、オーディオデコーダ２３から音声データが供給される。

音源分離部５１は、オーディオデコーダ２３から供給された音声データに対して、独立成分分析に基づくブラインド音源分離処理を行い、音声データから１または複数の音源ごとの音声の音声データを抽出し、音源方向推定部５２乃至環境音／発話音識別部５４に供給する。

例えば、コンテンツデータを構成する音声データの音声には、発話をする人やサイレンを鳴らす救急車など、１または複数の音源から発せられた音声が混合されている。コンテンツの音声データに対して、ブラインド音源分離処理が行われると、コンテンツの音声に含まれている音声の音源ごとに、それらの音源から発せられた音声の音声データが得られる。なお、以下、音源からの音声を個別音声とも称し、個別音声の音声データを個別音声データとも称することとする。

音源方向推定部５２は、音源分離部５１から供給された各個別音声データに対して、音源方向推定処理を行って、個別音声を発する音源の方向を示す方向データを生成し、画像合成部２６に供給する。音源距離推定部５３は、音源分離部５１から供給された各個別音声データに対して、音源距離推定処理を行って、個別音声を発する音源までの距離を示す距離データを生成し、画像合成部２６に供給する。

環境音／発話音識別部５４は、音源分離部５１から供給された各個別音声データについて、個別音声データに基づく個別音声が、発話音であるか環境音であるかの判別を行い、その判別結果に応じて個別音声データの出力先を切り替える。すなわち、環境音／発話音識別部５４は、環境音の個別音声データを環境音識別部５５に供給し、発話音の個別音声データを発話内容識別部５６に供給する。

環境音識別部５５は、環境音／発話音識別部５４から供給された個別音声データに対して音声認識処理を行い、その結果を示す環境音データを視覚情報生成部２５に供給する。発話内容識別部５６は、環境音／発話音識別部５４から供給された個別音声データに対して音声認識処理を行い、その結果を示す発話音データを視覚情報生成部２５に供給する。

［コンテンツ再生処理の説明］
ところで、ユーザが、コンテンツが記録されている記録媒体１２を画像処理装置１１に装着し、画像処理装置１１を操作してコンテンツの再生を指示すると、画像処理装置１１は、記録媒体１２からコンテンツを読み出して再生するコンテンツ再生処理を開始する。

以下、図３のフローチャートを参照して、画像処理装置１１によるコンテンツ再生処理について説明する。

ステップＳ１１において、読み出し部２１は、ユーザにより再生が指示されたコンテンツのコンテンツデータを記録媒体１２から読み出す。そして、読み出し部２１は、読み出したコンテンツデータの動画像データおよび音声データを、動画デコーダ２２およびオーディオデコーダ２３に供給する。

ステップＳ１２において、動画デコーダ２２は、読み出し部２１から供給された動画像データをデコードし、画像合成部２６に供給する。そして、ステップＳ１３において、オーディオデコーダ２３は、読み出し部２１から供給された音声データをデコードし、解析部２４および表示部２７に供給する。

ステップＳ１４において、解析部２４は、解析処理を行なって、オーディオデコーダ２３から供給された音声データから、方向データ、距離データ、環境音データ、および発話音データを生成する。生成された方向データおよび距離データは、画像合成部２６に供給され、環境音データおよび発話音データは、視覚情報生成部２５に供給される。なお、解析処理の詳細は後述する。

ステップＳ１５において、視覚情報生成部２５は、解析部２４から供給された環境音データと発話音データを用いて、エフェクトデータを生成し、画像合成部２６に供給する。このエフェクトデータは、発話音や環境音などの個別音声ごとに生成される。

例えば、環境音データには、音声認識処理の結果得られた単語列と、その単語列に関する補足情報が含まれている。補足情報は、コンテンツを視聴するユーザが、その個別音声に関してコンテンツで生じている事象を、より詳細（的確）に把握することができるように、テキスト化された個別音声の内容を補足する情報である。

具体的には、環境音の個別音声データの音声認識処理の結果、救急車のサイレン音を表す単語列「ピーポーピーポー」が得られたとする。この単語列「ピーポーピーポー」には、予め定められた文字列「（救急車のサイレン）」が補足情報として関連付けられており、環境音識別部５５からは、単語列「ピーポーピーポー」と補足情報「（救急車のサイレン）」とからなる環境音データが出力される。

このような環境音データが供給された場合、視覚情報生成部２５は、例えば、単語列「ピーポーピーポー」の文字と、補足情報「（救急車のサイレン）」の文字とを表示させるエフェクト画像の画像データを、エフェクトデータとして生成する。このように、エフェクトデータとして、個別音声をテキスト化した単語列と、その単語列を補足する補足情報とが含まれるエフェクト画像の画像データを生成することで、コンテンツを視聴するユーザは、より正確にコンテンツの内容を把握することができる。

ステップＳ１６において、画像合成部２６は、解析部２４からの方向データと距離データを用いて、動画デコーダ２２からの動画像データと、視覚情報生成部２５からのエフェクトデータとを合成する。そして、画像合成部２６は、合成により得られた合成コンテンツ画像の合成動画像データを表示部２７に供給する。

例えば、乗用車のクラクションが個別音声として収音部に収音され、その個別音声の方向データにより示される音源の位置が、収音部からみて左前方であったとする。この場合、画像合成部２６は、コンテンツ画像の左上の奥に、つまりコンテンツ画像を正面から見るユーザから見て左上の奥に、その個別音声（クラクション）のエフェクト画像が表示されるように、エフェクト画像をコンテンツ画像に合成する。

このとき、画像合成部２６は、その個別音声の距離データにより示される距離に応じて、コンテンツ画像に合成されるエフェクト画像の大きさを調整する。具体的には、収音部から見た音源までの距離が長いほど、エフェクト画像は、より小さく表示されるように、合成が行なわれる。

なお、コンテンツ画像とエフェクト画像の合成時には、コンテンツ画像を撮影する撮影部と、コンテンツの音声を収音する収音部とは、ほぼ同じ位置にあるものとして、個別音声の方向データにより定まるコンテンツ画像上の位置に、距離データにより定まる大きさで、その個別音声のエフェクト画像がオーバーレイされる。すなわち、各音源からの個別音声のエフェクト画像は、コンテンツ画像上の音源近傍の位置に表示される。

また、コンテンツ画像上に表示されるエフェクト画像の大きさは、そのエフェクト画像の個別音声の大きさに応じて変化するようにしてもよい。そのような場合、例えば、音源分離部５１は、各個別音声の音量を示す情報を画像合成部２６に供給し、画像合成部２６は、供給された音量を示す情報に基づいて、音量が大きいほど、よりエフェクト画像が大きくなるように、エフェクト画像の合成を行なう。

さらに、画像合成部２６が、個別音声の方向データと距離データに基づいて、その個別音声の音源の方向や距離に応じて、個別音声のエフェクト画像の色や輝度などを変化させるようにしてもよい。

さらに、例えば、コンテンツデータを構成する音声データが、５．１チャンネルなどのマルチチャンネルステレオである場合など、ユーザの後方から個別音声が聞えてくる、つまり収音部から見て、収音部後方に個別音声の音源が位置していることがある。そのような場合には、コンテンツ画像上に、その個別音声のエフェクト画像を表示させることができなくなってしまう。

そこで、このような場合には、画像合成部２６は、コンテンツ画像の端近傍にエフェクト画像を表示させる。また、この場合、画像合成部２６は、コンテンツを視聴するユーザが、自分の後方からの個別音声のエフェクト画像であることを把握できるように、矢印記号や、後方からの音声である旨の補足情報をエフェクト画像とともに表示させる。これにより、ユーザは、より確実かつ正確に、エフェクト画像が示す個別音声の音源位置を知ることができる。

画像合成部２６は、合成コンテンツ画像の合成動画像データを生成すると、その合成動画像データを表示部２７に供給し、処理はステップＳ１６からステップＳ１７に進む。

ステップＳ１７において、表示部２７は、画像合成部２６からの合成動画像データに基づいて合成コンテンツ画像を表示するとともに、オーディオデコーダ２３からの音声データに基づいて音声を出力することで、コンテンツを再生する。

これにより、表示部２７には、図４や図５に示す合成コンテンツ画像が表示される。

例えば、図４の例では、合成コンテンツ画像Ｃ１１の図中、左側に救急車が表示されており、その救急車の下側には、救急車を音源として発せられたサイレンの音（環境音）に対して、エフェクト画像ＥＦ１１が表示されている。このエフェクト画像ＥＦ１１には、テキスト化された救急車のサイレンを表す文字「ピーポーピーポー」と、そのサイレンの補足情報としての文字「（救急車のサイレン）」が表示されている。

表示されているエフェクト画像ＥＦ１１は、音源である救急車とともに移動し、例えば救急車が画面の奥側に移動して小さく表示され、サイレンの音が小さくなると、エフェクト画像ＥＦ１１も救急車の位置やサイレンの音量の変化に合わせて、小さく表示される。

また、図５の例では、合成コンテンツ画像Ｃ１２のほぼ中央で、爆発が起きており、その爆発音に対するエフェクト画像ＥＦ１２が図中、下側に表示されている。

エフェクト画像ＥＦ１２には、爆発音をテキスト化して得られた文字「ドカアアアアン」が、飾り文字のテクスチャとして表示されている。例えば、このエフェクト画像ＥＦ１２は、環境音としての爆発音の音量が次第に小さくなると、その音量の変化に応じて、時間とともに小さくなるように表示される。

画像処理装置１１では、コンテンツ画像のフレーム等の所定の単位ごとに、上述したステップＳ１１乃至ステップＳ１７の処理が繰り返し行われるため、音源の移動や音声の音量の変化に応じて、エフェクト画像の位置や大きさも変化する。

図３のフローチャートの説明に戻り、ステップＳ１８において、画像処理装置１１は、コンテンツの再生を終了するか否かを判定する。例えば、ユーザにより画像処理装置１１が操作され、コンテンツの再生終了が指示された場合、終了すると判定される。

ステップＳ１８において、再生を終了しないと判定された場合、処理はステップＳ１１に戻り、上述した処理が繰り返される。すなわち、コンテンツの次のフレームが読み出されて再生される。

一方、ステップＳ１８において、コンテンツの再生を終了すると判定された場合、画像処理装置１１は、コンテンツの再生を終了して、コンテンツ再生処理は終了する。

このようにして、画像処理装置１１は、コンテンツの音声を音源ごとに分離し、各個別音声を音声認識によりテキスト化するとともに、テキスト化により得られた文字（単語列）や補足情報が含まれるエフェクト画像を生成する。そして、画像処理装置１１は、個別音声ごとに、エフェクト画像の表示位置や大きさ、色などを、個別音声の音源の方向と距離に応じて決定し、エフェクト画像をコンテンツ画像にオーバーレイする。

したがって、画像処理装置１１によれば、コンテンツ画像上において、各個別音声の音源近傍にエフェクト画像を表示させることができる。その結果、単にクローズドキャプションや、テキスト化した音声と音源位置を表示させる場合と比べて、エフェクト画像にコンテンツ画像との一体感を持たせることができ、より効果的にユーザに対して環境音等の音声を視覚的に提示することができる。

特に、画像処理装置１１では、発話音だけでなく、環境音についてもエフェクト画像を表示させるようにしたので、従来は発話音の字幕のみに限定されていた、聴覚障害者が知覚可能な聴覚系情報を、環境音にまで拡張することができる。これにより、ユーザは、コンテンツの製作者の意図までも読み取ることができるようになり、コンテンツの視聴を充分に楽しむことができる。

また、必要に応じて、テキスト化された環境音とともに、補足情報を表示させるようにしたので、ユーザは、より正確にコンテンツの内容を把握することができ、コンテンツの視聴をさらに楽しむことができるようになる。

さらに、画像処理装置１１では、コンテンツの音声データを解析してエフェクト画像を生成するので、もともと字幕が付加されていない、カムコーダで撮影された個人的な映像や、生放送などの番組に対しても、再生時にエフェクト画像を表示させることができる。

［解析処理の説明］
次に、図６のフローチャートを参照して、図３のステップＳ１４の処理に対応する解析処理について説明する。

ステップＳ４１において、音源分離部５１は、オーディオデコーダ２３から供給された音声データに対して、独立成分分析に基づくブラインド音源分離処理を行い、音声データから各個別音声の音声データを抽出する。

例えば、コンテンツデータを構成する音声データが、ＲチャンネルとＬチャンネル、つまり左右の２つのチャンネルの音声データからなるとする。この場合、音源分離部５１は、それらのＲとＬのチャンネルの音声データにフーリエ変換を施し、音声データを周波数成分からなる周波数情報に変換する。この周波数情報は、音声の各周波数成分のパワーを示す情報である。

そして、音源分離部５１は、周波数情報に基づいて、周波数情報により示される周波数帯域全体を、複数の周波数帯域に分割し、分割後の各周波数帯域の各周波数の音声のパワーを示す周波数分割スペクトル成分を生成する。周波数分割スペクトル成分は、ＲとＬの各チャンネルについて、分割後の周波数帯域ごとに生成される。

さらに、音源分離部５１は、ＲとＬのチャンネルの同じ周波数帯域の周波数分割スペクトル成分について、各周波数のパワーの比を算出し、各周波数分割スペクトル成分のうち、求めた比が予め定められた値である周波数分割スペクトル成分を選択する。このようにして選択された周波数分割スペクトル成分からなる音声が、抽出しようとする個別音声であるとされる。

音源分離部５１は、ＲとＬのチャンネルの選択した周波数分割スペクトル成分を逆フーリエ変換し、その結果得られたＲとＬの各チャンネルの音声データを、個別音声のＲとＬのチャンネルの音声データとする。

なお、個別音声の抽出に用いる周波数のパワーの比の値は、ＲとＬのチャンネルの音声データに配分された、個別音声のレベルの配分率により予め定められている。また、ブラインド音源分離処理については、例えば特開２００８−１０４２４０号公報などに詳細に記載されている。

音源分離部５１は、コンテンツの音声データを、各個別音声の音声データに分離すると、それらの個別音声の音声データを、音源方向推定部５２、音源距離推定部５３、および環境音／発話音識別部５４に供給する。

このように、ブラインド音源分離処理を行って、音声データから各個別音声の音声データを抽出することで、より正確に各個別音声の音源の方向や距離を求めることができるようになり、より音源に近い位置にエフェクト画像を表示させることができる。

ステップＳ４２において、音源方向推定部５２は、音源分離部５１から供給された各個別音声の音声データに対して音源方向推定処理を行い、個別音声の音源の方向を推定する。

例えば、コンテンツデータを構成する音声データが、ＲとＬのチャンネルの音声データからなる場合、音源方向推定部５２は、個別音声の音声データ（個別音声データ）をフーリエ変換する。そして、音源方向推定部５２は、得られたＲとＬのチャンネルの周波数情報を比較して、ＲとＬのチャンネルの音声データの位相のずれを検出することで、個別音声の音源の方向を推定する。

音源方向推定部５２は、得られた各個別音声の音源の方向を示す方向データを生成し、画像合成部２６に供給する。なお、音源の方向の推定については、例えば、特開２０１０−２０２９４号公報等に詳細に記載されている。

ステップＳ４３において、音源距離推定部５３は、音源分離部５１から供給された各個別音声データに対して音源距離推定処理を行い、各個別音声の音源までの距離を推定する。

例えば、コンテンツデータを構成する音声データが、ＲとＬのチャンネルの音声データからなる場合、音源距離推定部５３は、ＲとＬのチャンネルの個別音声データに対して離散フーリエ変換を行なって、位相差スペクトルを求める。

さらに、音源距離推定部５３は、この位相差スペクトルから、各周波数における位相差の標準偏差を求め、所定の周波数帯域における周波数の標準偏差の平均値を特徴量として算出する。音源距離推定部５３は、このようにして得られた特徴量を、予め求められている関数に代入することで、音源から収音部までの距離を推定する。

音源距離推定部５３は、得られた各個別音声の音源までの距離を示す距離データを生成し、画像合成部２６に供給する。

ステップＳ４４において、環境音／発話音識別部５４は、音源分離部５１から供給された各個別音声データについて、個別音声データに基づく個別音声が、発話音であるか環境音であるかの判別を行う。

例えば、コンテンツデータを構成する音声データが、ＲとＬのチャンネルの音声データからなる場合、環境音／発話音識別部５４は、Ｒチャンネルの個別音声データと、Ｌチャンネルの個別音声データの和を求めることで、個別音声データの和信号を求める。また、環境音／発話音識別部５４は、得られた和信号に対して、一般的な人の声の周波数帯域の成分が除去されるフィルタを用いたフィルタ処理を施す。

さらに、環境音／発話音識別部５４は、Ｒチャンネルの個別音声データと、Ｌチャンネルの個別音声データの差を求めることで、個別音声データの差信号を求め、差信号と、フィルタ処理された和信号との差分を求める。

環境音／発話音識別部５４は、得られた差信号と和信号の差分が、予め定められた閾値以上である場合、処理対象となっている個別音声は、環境音であるとする。

ＲとＬのチャンネル用の２つの収音部で人の声を収音する場合、音源となる人は２つの収音部のほぼ中間に位置することが多い。したがって、ＲとＬのチャンネルの個別音声に含まれる人の声は、ほぼ同じレベル（音量）となるはずであるから、それらの個別音声データの差を求めると、得られた差信号には、人の声は殆ど含まれていないはずである。

そのため、ＲとＬのチャンネルの個別音声データの和信号から、フィルタ処理により人の声の成分を除去し、フィルタ処理された和信号と差信号の差分を求めると、その差分は、ＲまたはＬのチャンネルの環境音のみが含まれる音声データとなるはずである。そこで、環境音／発話音識別部５４は、求めた差分が閾値以上である場合、処理対象の個別音声は環境音であるとし、逆に差分が閾値未満である場合、個別音声は発話音であるとする。

環境音／発話音識別部５４は、各個別音声のうち、発話音であると判別された個別音声の音声データを発話内容識別部５６に供給し、環境音であると判別された個別音声の音声データを環境音識別部５５に供給する。

ステップＳ４５において、発話内容識別部５６は、環境音／発話音識別部５４から供給された各個別音声の音声データに対して音声認識処理を行い、個別音声の発話内容をテキスト化する。

例えば、発話内容識別部５６は、所定フレームごとに音声データに対して音響分析処理を行い、音声データから所定の特徴の特徴量を抽出する。例えば、音響分析処理として、離散フーリエ変換が行われ、パワースペクトルが特徴量として抽出される。

次に、発話内容識別部５６は、得られた特徴量と、予め記録している音響モデルデータベース、辞書データベース、および文法データベースとを用いたマッチング処理を行い、個別音声を認識する。

ここで、音響モデルデータベースは、音声の言語における個々の音素や音節などの単位（PLU（Phoneme Like Units））ごとの音響的な特徴を表すHMM（Hidden Markov Model）等の音響モデルなどからなる。

また、辞書データベースは、認識対象の各単語について、単語ごとの発音に関する音韻情報が記述された単語辞書、および各音響モデルから特徴量が観測される確率を示す情報からなる。文法データベースは、辞書データベースの単語辞書に登録されている各単語が、どのように連鎖するかを記述した文法規則（言語モデル）からなる。

発話内容識別部５６は、辞書データベースの単語辞書を参照して、音響モデルデータベースの音響モデルを接続し、単語の音響モデル（単語モデル）を構成する。そして、発話内容識別部５６は、いくつかの単語モデルを、文法データベースの文法規則を参照することで接続し、そのようにして接続された単語モデルの系列から、特徴量から求まる尤度が最も高い単語モデルの系列に対応する単語列を、個別音声の認識結果として出力する。つまり、音声認識の結果得られた単語列を示す発話音データが、視覚情報生成部２５に供給される。

ステップＳ４６において、環境音識別部５５は、環境音／発話音識別部５４から供給された各個別音声の音声データに対して音声認識処理を行い、それらの個別音声、つまり環境音をテキスト化する。

なお、環境音識別部５５による音声認識処理においても、発話内容識別部５６における音声認識処理と同様の処理が行われる。すなわち、音声データから特徴量が抽出され、抽出された特徴量と、各データベースとのマッチング処理が行われる。

但し、環境音識別部５５に記録される辞書データベースには、発話内容識別部５６の辞書データベースに登録されている単語とは異なる単語、例えば救急車のサイレン「ピーポーピーポー」などが登録されている。また、環境音識別部５５には、特に文法データベースは設けられていなくてもよい。

環境音がテキスト化され、その結果得られた環境音データが、環境音識別部５５から視覚情報生成部２５に供給されると、解析処理は終了し、その後、処理は図３のステップＳ１５に進む。

このようにして解析部２４は、コンテンツの音声データを発話音や環境音の音声データに分離し、各音声データに対して、音源方向の推定や、音源の距離の推定、音声認識処理などを行う。したがって、解析部２４によれば、発話内容や音源の方向など、個別音声ごとの情報をより確実に得ることができる。しかも、解析部２４では、個別音声ごとに発話音であるか、または環境音であるかの判別を行い、その判別結果に従って、異なる辞書を用いて音声認識処理を行うので、より高精度に個別音声をテキスト化することができる。

〈第２の実施の形態〉
［解析部の構成］
なお、以上においては、コンテンツを構成する発話音と環境音の両方のエフェクト画像が表示されると説明したが、発話音については、クローズドキャプション等がある場合もあるので、環境音だけのエフェクト画像が表示されるようにしてもよい。

そのような場合、解析部２４は、例えば、図７に示すように構成される。

すなわち、図７に示す解析部２４は、音源方向推定部５２、環境音／音声分離部８１、および環境音識別部５５から構成され、オーディオデコーダ２３からの音声データが、音源方向推定部５２および環境音／音声分離部８１に供給される。

なお、図７において、図２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

環境音／音声分離部８１は、オーディオデコーダ２３から供給された音声データから、環境音の音声データを抽出し、環境音識別部５５に供給する。

［解析処理の説明］
次に、図８のフローチャートを参照して、解析部２４が図７の構成とされる場合における解析処理について説明する。

ステップＳ７１において、音源方向推定部５２は、オーディオデコーダ２３から供給された音声データから、環境音の音源の方向を示す方向データを生成し、画像合成部２６に供給する。

例えば、音源方向推定部５２は、供給された音声データをフーリエ変換し、これにより得られた周波数情報と、独立成分分析を適用した学習処理により求められた分離行列とから、各音源から発せられた環境音の分離信号を生成する。そして、音源方向推定部５２は、各分離信号のうち、対応する時間の区間の周波数情報と環境音の分離信号との間で相互共分散行列を算出し、相互共分散行列の要素同士の位相差を算出することで、環境音の音源方向を求め、方向データを生成する。

なお、この場合、環境音の距離データは生成されないので、画像合成部２６では、コンテンツ画像における、方向データにより定まる位置に、環境音のエフェクト画像がオーバーレイされることになる。勿論、音源距離推定部５３が設けられ、環境音の距離データが生成されるようにしてもよい。

ステップＳ７２において、環境音／音声分離部８１は、オーディオデコーダ２３から供給された音声データから、環境音の音声データを抽出し、環境音識別部５５に供給する。

例えば、コンテンツデータを構成する音声データが、ＲとＬのチャンネルの音声データからなる場合、環境音／音声分離部８１は、Ｒチャンネルの音声データと、Ｌチャンネルの音声データの和を求めることで、音声データの和信号を求める。また、環境音／音声分離部８１は、得られた和信号に対して、一般的な人の声の周波数帯域の成分が除去されるフィルタを用いたフィルタ処理を施す。

さらに、環境音／音声分離部８１は、Ｒチャンネルの音声データから、Ｌチャンネルの音声データを減算することで、音声データの差信号を求め、差信号と、フィルタ処理された和信号との和を求めることで、環境音のＲチャンネルの音声データを生成する。また、環境音／音声分離部８１は、フィルタ処理された和信号から差信号を減算することで、環境音のＬチャンネルの音声データを生成する。

上述した環境音／発話音識別部５４における処理と同様に、和信号および差信号には、発話音が含まれていないので、それらの信号の差や和を求めることで、環境音のＲとＬのチャンネルの音声データを抽出することができる。すなわち、コンテンツの音声の音声データを、発話音の音声データと、環境音の音声データとに分離することができる。環境音／発話音識別部５４は、得られた環境音の音声データを環境音識別部５５に供給する。

このようにして環境音の音声データが得られると、その後、ステップＳ７３の処理が行われて解析処理は終了するが、ステップＳ７３の処理は図６のステップＳ４６の処理と同様であるため、その説明は省略する。解析処理が終了すると、その後、処理は図３のステップＳ１５に進む。

このようにして、解析部２４は、コンテンツの音声データから、環境音の音声データのみを抽出し、環境音をテキスト化する。これにより、コンテンツ画像上に、環境音のエフェクト画像を表示させることができ、ユーザは、より正確に環境音の内容と音源位置を把握することができる。

なお、図７では、解析部２４に発話内容識別部５６が設けられない構成とされているが、図７の解析部２４にも発話内容識別部５６が設けられるようにしてもよい。

上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図９は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）３０１，ROM（Read Only Memory）３０２，RAM（Random Access Memory）３０３は、バス３０４により相互に接続されている。

バス３０４には、さらに、入出力インターフェース３０５が接続されている。入出力インターフェース３０５には、キーボード、マウス、マイクロホンなどよりなる入力部３０６、ディスプレイ、スピーカなどよりなる出力部３０７、ハードディスクや不揮発性のメモリなどよりなる記録部３０８、ネットワークインターフェースなどよりなる通信部３０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア３１１を駆動するドライブ３１０が接続されている。

以上のように構成されるコンピュータでは、CPU３０１が、例えば、記録部３０８に記録されているプログラムを、入出力インターフェース３０５及びバス３０４を介して、RAM３０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU３０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア３１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア３１１をドライブ３１０に装着することにより、入出力インターフェース３０５を介して、記録部３０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部３０９で受信し、記録部３０８にインストールすることができる。その他、プログラムは、ROM３０２や記録部３０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１１画像処理装置，１２記録媒体，２４解析部，２５視覚情報生成部，２６画像合成部，２７表示部，５１音源分離部，５２音源方向推定部，５３音源距離推定部，５４環境音／発話音識別部，５５環境音識別部，５６発話内容識別部，８１環境音／音声分離部

Claims

コンテンツを構成する音声の音声データに基づいて、所定の基準位置に対する前記音声の音源の方向を推定する音源方向推定手段と、
前記音声データを、前記音声のうちの人の発話による発話音を除く環境音の前記音声データと、前記発話音の前記音声データとに分離する分離手段と、
前記環境音の前記音声データに対する音声認識処理を行って、前記環境音をテキスト化する環境音識別手段と、
前記環境音を視覚的に提示するエフェクト画像が、前記コンテンツを構成する画像上の前記音源の方向の推定結果により定まる位置に表示されるように、テキスト化された前記環境音に基づいて生成された前記エフェクト画像のエフェクトデータと、前記画像の画像データとを合成する画像合成手段と
を備える画像処理装置。
前記音声の前記音声データに基づいて、前記基準位置から前記音源までの距離を推定する音源距離推定手段をさらに備え、
前記画像合成手段は、前記エフェクト画像が、前記画像上の前記音源の方向の推定結果により定まる位置に、前記音源の距離の推定結果により定まる大きさで表示されるように、前記エフェクトデータと前記画像データとを合成する
請求項１に記載の画像処理装置。
前記音声の前記音声データに対するブラインド音源分離処理を行って、前記音声データを、各前記音源の音声の音声データに分離する音源分離手段をさらに備え、
前記分離手段は、前記音源分離手段により分離された前記音声データごとに、その前記音声データが前記環境音の前記音声データであるか否かを判別することで、前記環境音の前記音声データと前記発話音の前記音声データとを分離する
請求項１または請求項２に記載の画像処理装置。
前記画像合成手段は、前記音源の方向、前記音源の距離、または前記環境音の音量の少なくとも何れかに応じて、前記画像上に表示される前記エフェクト画像の大きさ、色、または輝度が変化するように、前記エフェクトデータと前記画像データとを合成する
請求項２に記載の画像処理装置。
テキスト化された前記環境音に対して予め定められた、前記環境音の内容を補足する文字列からなる補足情報が前記エフェクト画像に表示されるように、テキスト化された前記環境音に基づいて、前記エフェクトデータを生成する視覚情報生成手段をさらに備える
請求項２に記載の画像処理装置。
前記分離手段により分離された前記発話音の前記音声データに対する音声認識処理を行って、前記発話音をテキスト化する発話音識別手段をさらに備え、
前記画像合成手段は、前記環境音の前記エフェクト画像と、前記発話音を視覚的に提示するエフェクト画像とが前記画像上に表示されるように、前記エフェクトデータと前記画像データとを合成する
請求項２に記載の画像処理装置。
コンテンツを構成する音声の音声データに基づいて、所定の基準位置に対する前記音声の音源の方向を推定する音源方向推定手段と、
前記音声データを、前記音声のうちの人の発話による発話音を除く環境音の前記音声データと、前記発話音の前記音声データとに分離する分離手段と、
前記環境音の前記音声データに対する音声認識処理を行って、前記環境音をテキスト化する環境音識別手段と、
前記環境音を視覚的に提示するエフェクト画像が、前記コンテンツを構成する画像上の前記音源の方向の推定結果により定まる位置に表示されるように、テキスト化された前記環境音に基づいて生成された前記エフェクト画像のエフェクトデータと、前記画像の画像データとを合成する画像合成手段と
を備える画像処理装置の画像処理方法であって、
前記音源方向推定手段が、前記音声の音源の方向を推定し、
前記分離手段が、前記音声データを、前記環境音の前記音声データと、前記発話音の前記音声データとに分離し、
前記環境音識別手段が、前記環境音をテキスト化し、
前記画像合成手段が、前記エフェクトデータと前記画像データとを合成する
ステップを含む画像処理方法。
コンテンツを構成する音声の音声データに基づいて、所定の基準位置に対する前記音声の音源の方向を推定し、
前記音声データを、前記音声のうちの人の発話による発話音を除く環境音の前記音声データと、前記発話音の前記音声データとに分離し、
前記環境音の前記音声データに対する音声認識処理を行って、前記環境音をテキスト化し、
前記環境音を視覚的に提示するエフェクト画像が、前記コンテンツを構成する画像上の前記音源の方向の推定結果により定まる位置に表示されるように、テキスト化された前記環境音に基づいて生成された前記エフェクト画像のエフェクトデータと、前記画像の画像データとを合成する
ステップを含む処理をコンピュータに実行させるプログラム。