JP4869420B2

JP4869420B2 - 音情報判定装置、及び音情報判定方法

Info

Publication number: JP4869420B2
Application number: JP2010070797A
Authority: JP
Inventors: 裕米久保; 広和竹内
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-03-25
Filing date: 2010-03-25
Publication date: 2012-02-08
Anticipated expiration: 2030-03-25
Also published as: US20110235812A1; JP2011203500A

Description

本発明は、音情報判定装置、及び音情報判定方法に関する。

周知のように、例えばテレビジョン放送を受信する放送受信機器や、情報記録媒体からその記録情報を再生する情報再生機器等にあっては、受信した放送信号や情報記録媒体から読み取った信号等からオーディオ信号を再生する際に、オーディオ信号に音質補正処理を施すことによって、より一層の高音質化を図るようにしている。

この場合、オーディオ信号に施す音質補正処理の内容は、オーディオ信号にノイズが含まれているか否かに応じて異なる。

そこで、オーディオ信号の区間毎に、ノイズが含まれているか否かを判定する技術が提案されている。例えば、特許文献１に記載された技術では、周波数分布から周波数分布の平坦さを算出し、算出した周波数分布の平坦さと閾値とを比較して、音声と雑音との判定を行っている。

特開２００４−２７２０５２号公報

しかしながら、ノイズの種類に応じて音成分は様々であるため、特許文献１に記載された技術では、雑音の誤判定が生じる可能性がある。

本発明は、上記に鑑みてなされたものであって、ノイズの高精度の判定を可能とする音情報判定装置、及び音情報判定方法を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明にかかる音情報判定装置は、入力オーディオ信号の音種を表す信号音種別と、当該入力オーディオ信号に含まれる可能性のある雑音の種別と、の組み合わせ毎に、当該種別の雑音であるか否かを雑音の特徴に従って判定する判定手法を、複数保持する保持手段と、入力オーディオ信号に対して、前記保持手段に保持された前記複数の前記判定手法のうち、複数を用いて、前記入力オーディオ信号に雑音が含まれているか否かを判定する判定手段と、前記判定手段が判定した前記入力オーディオ信号に雑音が含まれているか否かを示す判定結果に従って、雑音である度合いを示す雑音レベルを導き出す雑音レベル導出手段と、前記入力オーディオ信号について、音楽であるか否かの度合いと音声であるか否かの度合いとを含む音情報レベルを取得する音楽レベル取得手段と、前記音情報レベルを、前記雑音レベルに従って調整する調整手段と、前記調整手段で調整された前記音情報レベルに従って、前記入力オーディオ信号の補正処理を行う補正手段と、を備え、前記保持手段が保持する前記判定手法は、入力オーディオ信号の周波数分布の平坦さから、前記種別の雑音であるか否かを判別する判別式であって、当該判別式では、入力オーディオ信号の周波数分布について、前記種別の雑音の特徴に応じた帯域に重み付けしていること、を特徴とする。

また、本発明にかかる音情報判定方法は、音情報判定装置で実行される音情報判定方法であって、前記音情報判定装置は、入力オーディオ信号の音種を表す信号音種別と、当該入力オーディオ信号に含まれる可能性のある雑音の種別と、の組み合わせ毎に、当該種別の雑音であるか否かを雑音の特徴に従って判定する判定手法を、複数記憶する記憶手段を備え、判定手段が、入力オーディオ信号に対して、前記記憶手段に記憶された前記複数の前記判定手法のうち、当該入力オーディオ信号の信号音種に対応する判定手法を複数用いて、前記入力オーディオ信号に雑音が含まれているか否かを判定する判定ステップと、雑音レベル導出手段が、前記判定ステップが判定した前記入力オーディオ信号に雑音が含まれているか否かを示す判定結果に従って、雑音である度合いを示す雑音レベルを導き出す雑音レベル導出ステップと、音楽レベル取得手段が、前記入力オーディオ信号について、音楽であるか否かの度合いと音声であるか否かの度合いとを含む音情報レベルを取得する音楽レベル取得ステップと、調整手段が、前記音情報レベルを、前記雑音レベルに従って調整する調整ステップと、補正手段が、前記調整ステップで調整された前記音情報レベルに従って、前記入力オーディオ信号の補正処理を行う補正ステップと、を含むことを特徴とする。

本発明によれば、オーディオ信号に含まれるノイズの判定精度を向上させるという効果を奏する。

図１は、第１の実施の形態にかかるデジタルテレビジョン放送受信装置の主要な信号処理系を示した図である。図２は、第１の実施の形態にかかるデジタルテレビジョン放送受信装置のオーディオ処理部に含まれる構成を示すブロック図である。図３は、オーディオ処理部が、音質補正を行うために入力オーディオ信号から抽出する各種レベルを示した図である。図４は、音声処理モジュールにおける、オーディオ信号に含まれるノイズに関連した処理の手順を示すフローチャートである。図５は、ノイズ用特徴量抽出部における、特徴量パラメータの生成の手順を示すフローチャートである。図６は、ノイズレベル判定部における、ノイズレベルの元となるベーススコアＳn_baseの算出手順を示すフローチャートである。図７は、ノイズレベル補正部における、ノイズレベルの初期値となるベーススコアＳn_baseの算出処理の手順を示すフローチャートである。図８は、レベル調停部２０７における、音楽レベルの補正処理の手順を示すフローチャートである。

以下に添付図面を参照して、この発明にかかる音情報判定装置、及び音情報判定方法の最良な実施の形態を詳細に説明する。

（第１の実施の形態）
図１は、本実施の形態にかかるデジタルテレビジョン放送受信装置１の主要な信号処理系を示した図である。すなわち、ＢＳ／ＣＳ（broadcasting satellite／communication satellite）デジタル放送受信用のアンテナ４３で受信した衛星デジタルテレビジョン放送信号は、入力端子４４を介して衛星デジタル放送用のチューナ４５に供給されることにより、所望のチャンネルの放送信号が選局される。

そして、このチューナ４５で選局された放送信号は、ＰＳＫ（phase shift keying）復調器４６及びＴＳ（transport stream）復号器４７に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、信号処理部４８に出力される。

また、地上波放送受信用のアンテナ４９で受信した地上デジタルテレビジョン放送信号は、入力端子５０を介して地上デジタル放送用のチューナ５１に供給されることにより、所望のチャンネルの放送信号が選局される。

そして、このチューナ５１で選局された放送信号は、例えば日本ではＯＦＤＭ（orthogonal frequency division multiplexing）復調器５２及びＴＳ復号器５３に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、上記信号処理部４８に出力される。

また、上記地上波放送受信用のアンテナ４９で受信した地上アナログテレビジョン放送信号は、入力端子５０を介して地上アナログ放送用のチューナ５４に供給されることにより、所望のチャンネルの放送信号が選局される。そして、このチューナ５４で選局された放送信号は、アナログ復調器５５に供給されてアナログの映像信号及びオーディオ信号に復調された後、上記信号処理部４８に出力される。

ここで、上記信号処理部４８は、ＴＳ復号器４７，５３からそれぞれ供給されたデジタルの映像信号及びオーディオ信号に対して、選択的に所定のデジタル信号処理を施し、グラフィック処理部５６及びオーディオ処理部５７に出力している。

また、上記信号処理部４８には、複数（図示の場合は４つ）の入力端子５８ａ，５８ｂ，５８ｃ，５８ｄが接続されている。これら入力端子５８ａ〜５８ｄは、それぞれ、アナログの映像信号及びオーディオ信号を、デジタルテレビジョン放送受信装置１の外部から入力可能とするものである。

信号処理部４８は、上記アナログ復調器５５及び各入力端子５８ａ〜５８ｄからそれぞれ供給されたアナログの映像信号及びオーディオ信号を選択的にデジタル化し、このデジタル化された映像信号及びオーディオ信号に対して所定のデジタル信号処理を施した後、グラフィック処理部５６及びオーディオ処理部５７に出力する。

グラフィック処理部５６は、信号処理部４８から供給されるデジタルの映像信号に、ＯＳＤ（on screen display）信号生成部５９で生成されるＯＳＤ信号を重畳して出力する機能を有する。このグラフィック処理部５６は、信号処理部４８の出力映像信号と、ＯＳＤ信号生成部５９の出力ＯＳＤ信号とを選択的に出力すること、また、両出力をそれぞれ画面の半分を構成するように組み合わせて出力することができる。

グラフィック処理部５６から出力されたデジタルの映像信号は、映像処理部６０に供給される。この映像処理部６０は、入力されたデジタルの映像信号を、前記映像表示器１４で表示可能なフォーマットのアナログ映像信号に変換した後、映像表示器１４に出力して映像表示させるとともに、出力端子６１を介して外部に導出させる。

また、上記オーディオ処理部５７は、入力されたデジタルのオーディオ信号に対して、後述する音質補正処理を施した後、前記スピーカ１５で再生可能なフォーマットのアナログオーディオ信号に変換している。そして、このアナログオーディオ信号は、スピーカ１５に出力されてオーディオ再生に供されるとともに、出力端子６２を介して外部に導出される。

ここで、このデジタルテレビジョン放送受信装置１は、上記した各種の受信動作を含むその全ての動作を制御部６３によって統括的に制御されている。この制御部６３は、ＣＰＵ（central processing unit）６４を内蔵しており、前記操作部１６からの操作情報、または、リモートコントローラ１７から送出され前記受光部１８に受信された操作情報を受けて、その操作内容が反映されるように各部をそれぞれ制御している。

この場合、制御部６３は、主として、そのＣＰＵ６４が実行する制御プログラムを格納したＲＯＭ（read only memory）６５と、該ＣＰＵ６４に作業エリアを提供するＲＡＭ（random access memory）６６と、各種の設定情報及び制御情報等が格納される不揮発性メモリ６７とを利用している。

また、この制御部６３は、カードＩ／Ｆ（interface）６８を介して、前記第１のメモリカード１９が装着可能なカードホルダ６９に接続されている。これによって、制御部６３は、カードホルダ６９に装着された第１のメモリカード１９と、カードＩ／Ｆ６８を介して情報伝送を行なうことができる。

さらに、上記制御部６３は、カードＩ／Ｆ７０を介して、前記第２のメモリカード２０が装着可能なカードホルダ７１に接続されている。これにより、制御部６３は、カードホルダ７１に装着された第２のメモリカード２０と、カードＩ／Ｆ７０を介して情報伝送を行なうことができる。

次に、オーディオ処理部５７に含まれる構成について説明する。図２は、第１の実施の形態にかかるデジタルテレビジョン放送受信装置１のオーディオ処理部５７に含まれる構成を示すブロック図である。

図２に示すように、オーディオ処理部５７は、音声／音楽用特徴量抽出部２０１と、音声／音楽用レベル判定部２０２と、音声／音楽用レベル補正部２０３と、ノイズ用特徴量抽出部２０４と、ノイズレベル判定部２０５と、ノイズレベル補正部２０６と、レベル調停部２０７と、ＤＳＰ(Digital Signal Processor)２０８と、を備えている。次に、オーディオ処理部５７が行う処理の概要について説明する。

図３は、本実施の形態にかかるオーディオ処理部５７が、音質補正を行うために入力オーディオ信号から抽出する各種レベルを示した図である。図３に示すように、オーディオ処理部５７は、入力されたオーディオ信号についてフレーム単位（例えば、ｎ、ｎ＋１、ｎ＋２、ｎ＋３……）で、音声レベル、音楽レベル、及びノイズレベルを特定し、フレーム毎に算出された音声レベル、音楽レベル、及びノイズレベルに基づいて音質補正を行っている。本実施の形態にかかるフレームは、予め定められた第１の時間（例えば、数百ｍｓ）でオーディオ信号を区切ったデータ長とする。

図３の音声レベルは、入力されるオーディオ信号が音声である度合いを示したレベルとする。音声レベルが高いほど音声である可能性が高いことを意味する。音楽レベルは、入力されるオーディオ信号が音楽である度合いを示したレベルとする。音楽レベルが高いほど音楽である可能性が高いことを意味する。

なお、音声レベル及び音楽レベルはそれぞれ独立したものに制限するものではなく、音楽・音声レベルとしてまとめてもよい。この音楽・音声レベルでは、レベルが小さいほど音声らしさが高く、レベルが大きいほど音楽らしさが高いなどが考えられる。

ノイズレベルは、入力オーディオ信号においてノイズが含まれている度合いを示したレベルとする。ノイズレベルが高いほど入力オーディオ信号に含まれているノイズが大きい可能性があることを意味する。

そして、図３に示すように、入力オーディオ信号の楽曲区間であれば、検出される音楽レベルは高くなる。音楽レベルが高いほど、後述するＤＳＰ２０８が楽曲に適した音質補正を行う。また、楽曲が停止したトーク区間や曲中のボーカルのみが歌っている区間では、音楽レベルが低くなる一方、音声レベルが高くなる。これにより、後述するＤＳＰ２０８が音声に適した音質補正を行う。このように、音楽又は音声の検出度合いに応じたきめ細かい音質制御が可能である。

さらに、音楽や音声向けの音質補正する上で有害となるノイズが重畳した区間３０２も存在する。この区間３０２では、オーディオ信号部５７は、入力オーディオ信号から、信号のノイズ性を示したノイズレベル３０１を抽出し、抽出したノイズレベルに応じて、音質補正処理を行う。例えば、ノイズレベルが高い場合には、音質補正を抑止するなどが考えられる。抽出対象となるノイズとしては、例えば、楽曲の演奏前後に重畳しやすい拍手や、ニュースやバラエティ番組の街頭シーンで発生しやすい雑踏雑音などとする。

このように、本実施の形態にかかるオーディオ処理部５７は、入力されたオーディオ信号について、ノイズが含まれているか否かに応じて、区間毎に音質補正処理を異ならせている。

これにより、本実施の形態にかかるオーディオ処理部５７は、放送受信時や記録媒体からのコンテンツ再生時に、シーンの内容に応じてオーディオ信号に適切な音質補正処理を施すことで、高音質化を図ることができる。

本実施の形態では、拍手や雑踏雑音をノイズとして高精度で判定する例について説明する。このように本実施の形態では、拍手や雑踏雑音など、突発的に音楽や音声に重畳することの多い雑音を例に説明するが、定常的に重畳するノイズ（例えば、エアコンの動作音）など、他の種類のノイズを判定対象としてもよい。

音声／音楽用特徴量抽出部２０１は、オーディオ信号から、音声信号と音楽信号のいずれであるかを判定するための各種の特徴量パラメータを算出する。本実施の形態においては、音声／音楽用特徴量抽出部２０１は、オーディオ信号を、フレーム単位で区切った後、さらに各フレームをサブフレーム毎に分割する。なお、サブフレームは、数十msec程度のデータ長とする。そして、音声／音楽用特徴量抽出部２０１は、サブフレーム単位でパワー、零交差周波数等の判別情報を算出した後、サブフレーム単位で算出した判別情報に基づいてフレーム単位の平均・分散等の統計量を算出し、算出した統計量を特徴量パラメータとする。なお、当該手法に制限するものではなく、周知の手法を含め様々な手法を適用してよい。また、特徴量パラメータを算出するための判別情報として、パワー、零交差周波数等を用いることとしたが、判別情報としてこれらに限定するものではなく、音声と音楽間の識別に効果のあるものであればよい。

音声／音楽用レベル判定部２０２は、音質を細かく制御するための確度情報を含む、音声レベル及び音楽レベルを、抽出された特徴量パラメータから算出する。例えば、オーディオ信号が、音楽の場合、ＬＲで異なる楽音が出力されるため、ＬＲパワー比は大きくなる傾向にある。そこで、音声／音楽用レベル判定部２０２は、この傾向を用いて、音楽レベルを算出する。

具体的には、音声／音楽用レベル判定部２０２は、音声／音楽用特徴量抽出部２０１が抽出した特徴量パラメータを、予め定められた判定式に代入することで、音声レベル又は音楽レベル抽出の元となるベーススコアを算出する。この予め定められた判定式は、従来から提案されている線形判別式等を用いることとする。また、判定式は、オーディオ信号がステレオかモノラル化に応じて切り替えてもよいし、多段構成としてもよい。

音声／音楽用レベル補正部２０３は、音声／音楽用レベル判定部２０２で算出されたベーススコアに対して、音声及び音楽のそれぞれに独立して平滑化、補正することで、音声レベル及び音楽レベルを生成する。その際、音声か音楽かの排他的判定にしかできない線形判定式を、それぞれのベーススコアに適用することで、音楽、音声らしさの度合いを示す音楽レベル及び音声レベルを独立に算出できる。

詳細な例として、音声／音楽用レベル補正部２０３は、一定期間内に算出されたベーススコアに基づいて、当該一定時間の音楽レベル及び音声レベルの検出状態を参照しながら、各ベーススコアを補正する。例えば、楽曲中に短時間に無音等が生じた場合、算出された音楽レベルの元となるベーススコアは低い値を示すが、音声／音楽用レベル補正部２０３は、前後のフレームの音楽レベルに応じて、音楽レベルの元となるベーススコアを補正する。そして、音声／音楽用レベル補正部２０３は、補正したベーススコアから、音楽レベルを求める。なお、ベーススコアから音楽レベルを求める手法は、周知の手法を問わず、あらゆる手法を用いてよい。

このように楽曲中にもかかわらず、音楽レベルの元となるベーススコアが低かった区間について、適切な音楽レベルになるよう補正が行われる。また、音声レベルについても同様の補正が行われる。このように、本実施の形態では、音声レベル、音楽レベルの安定化を図るために、判定の連続性、判定値の大きさなどに基づく各レベルの補正が行われる。

ノイズ用特徴量抽出部２０４は、オーディオ信号から、当該オーディオ信号にノイズが含まれているか否かを判定するための各種の特徴量パラメータを算出する。本実施の形態においては、ノイズ用特徴量抽出部２０４は、音声／音楽用特徴量抽出部２０１と同様に、オーディオ信号を、フレーム単位で区切った後、さらに各フレームをサブフレーム毎に分割する。そして、ノイズ用特徴量抽出部２０４は、サブフレーム単位で各種判別情報を算出した後、サブフレーム単位で算出した各種判別情報に基づいてフレーム単位の平均・分散等の統計量を算出し、算出した統計量を特徴量パラメータとする。なお、判定情報は、オーディオ信号にノイズが含まれているか否かを判定するために用いられる情報であればよい。

本実施の形態では、ノイズ特性を抽出するための判別情報の一つとして、周波数特性の平坦さに着目したＳＦＭ（Spectral Flatness Measure）を用いる。これは、一般に雑音性の高い信号ほど周波数スペクトルが平坦になりＳＦＭ値が高くなる傾向を、ノイズの特徴として利用するものである。ＳＦＭは、以下に示す式（１）により算出する。

そこで、ノイズ用特徴量抽出部２０４は、オーディオ信号に対してＦＦＴを行うことで、算出されるスペクトルパワーを複数の帯域に分割してＳＦＭ値を算出する。そして、ノイズ用特徴量抽出部２０４は、この帯域ごとのＳＦＭを重み付けて特徴量パラメータの一つとする。式（２）は、当該特徴量パラメータの算出式である。

この式（２）において、変数Ｎ1〜Ｎpは、ｐ個に分割した帯域であり、α1〜αpは、総和が１になる重み係数とする。この式（２）で算出される特徴量パラメータは、ノイズの種別毎に異なる重み付け係数を用いることで、異なる値として算出される。

例えば、拍手を示すノイズで平坦さが顕著に表れる帯域を複数個選択し、当該拍手である特徴が明確に出るように設定された重み付け係数を用いて、拍手に関する特徴量を算出する一方、雑踏雑音で平坦さが顕著に表れる帯域を複数個選択し、当該雑踏雑音である特徴が明確に出るように設定された重み付け係数を用いて、雑踏雑音用の特徴量を算出する。

このように、本実施の形態にかかるノイズ用特徴量抽出部２０４は、判定対象となるノイズ毎に、適した帯域を複数個選択し、選択された各帯域に当該ノイズに適した重み付け係数が設定された式（２）で、ノイズの種類毎の特徴量を算出する。

なお、ＳＦＭは、ノイズの判定に有効な特徴量ではあるが、他のパラメータと併用することで、さらに高精度にノイズの判定が可能となる。そこで、本実施の形態にかかるノイズ用特徴量抽出部２０４は、ＳＦＭ以外のパラメータも特徴量パラメータとして抽出する。

ノイズ用特徴量抽出部２０４は、ノイズ性抽出に効果ある他の特徴量パラメータとして、ホワイトノイズとの類似性を、特徴量パラメータとして抽出する。つまり、雑踏などの雑音は、ホワイトノイズに近似している性質を有する。そこで、雑踏雑音などの特徴量パラメータとして、ホワイトノイズに近い特徴量を選択すれば、ノイズ抽出により効果を発揮する。

そこで、ノイズ用特徴量抽出部２０４は、理想的なノイズ信号であるホワイトノイズを示す信号、各種ノイズとみなしたい信号、及びノイズとみなさない音声・音楽信号の代表的な信号を予め保持しておく。そして、ノイズ用特徴量抽出部２０４は、入力されたオーディオ信号から抽出する、雑踏などのノイズと見なしたい信号の特徴量として、音声・音楽と比べてよりホワイトノイズに類似する特徴量分布を取る特徴量を選択する。

また、音楽によっては、しばしば高周波ノイズ（パーカッション、シンセサイザー等に起因）のような音成分を含んでいる。こうした音成分に対して、ノイズと誤検出されることを抑止するため、ノイズ用特徴量抽出部２０４は、信号の平坦さの他に、音楽の構造に着目した特徴量を抽出してもよい。例えば、ノイズ用特徴量抽出部２０４が、音階に対応した倍音成分が強く励起しているか否かを示す特徴量を抽出することが考えられる。このような特徴量を抽出することで、一部の楽曲でノイズと誤検出されることを抑止できる。

なお判別情報は、ＳＦＭ以外にも、ノイズ性抽出に効果のある特徴量を用いればよく、音声・音楽向け特徴量と共通で使うものであってよい。また、本実施の形態にかかるノイズ用特徴量抽出部２０４では、ｍ個の特徴量パラメータを抽出する。この“ｍ”は、実施の態様に応じて適切な値が定められるものとする。

ノイズレベル判定部２０５は、ｒ個のノイズ−非ノイズ判定式保持部を備え、オーディオ信号から抽出された特徴量パラメータを用いて、ｒ個のノイズ−非ノイズ判定式保持部に保持された各判定式をそれぞれ用いて、オーディオ信号に雑音が含まれているか否かを推定し、各判定式による推定結果から、ノイズが含まれているか否かを判定する。なお、ｒ個のノイズ−非ノイズ判定式保持部は、デジタルテレビジョン放送受信装置１が保持する記憶手段（例えばＨＤＤ）の記憶領域内に設けられているものとする。なお、本実施の形態では、ｒ個のノイズ−非ノイズ判定式保持部に保持された各判定式全てを用いて推定を行うが、全て利用せず、いずれか複数を用いて推定を行ってもよい。

ｒ個のノイズ−非ノイズ判定式保持部２１１−１〜２１１−ｒは、オーディオ信号に含まれる可能性のあるノイズの種別毎に、種別のノイズであるか否かを雑音の特徴に従って判定するための線形判別式を、保持部毎にｒ個を保持している。なお、各保持部が保持する判別式の合計数ｒは、判定対象となる雑音の種別の合計数以上とする。例えば、音楽中の拍手を判別する判別式と、音声中の拍手を判別する判別式などを分けてもよい。

第１のノイズ−非ノイズ判別式保持部２１１−１が保持する線形判別式の例を、式（３）に示す。

Ｓn1＝α₁χ₁＋α₂χ₂＋……＋α_mχ_m …（３）

χ₁〜、χ_mには、ノイズ用特徴量抽出部２０４が抽出した特徴量パラメータが代入される。そして、重み付け係数α₁〜α_mには、ノイズの種別に応じて定められた重み付け係数が設定されている。なお、重み付け係数α₁〜α_mは、全て加算すると、‘１’になるような数値を設定することが考えられる。

例えば、式（３）が、拍手ノイズが含まれているか否かを判定する式の場合、重み付け係数α₁〜α_mには、拍手ノイズの抽出に適した数値が設定される。例えば、拍手ノイズに近い特徴量パラメータに対応する重み付け係数については、大きい値を設定する。そして、式（３）により算出されるＳn1が正の場合、拍手ノイズを含んでいると判定され、負の場合、拍手ノイズを含んでいないと判定される。なお、正負は、学習の時点で便宜的に定めたものであり、拍手ノイズを正とするか否かはどちらでもよい。また、判別式は、正負で判定することに限らず、ノイズか否かを判定できればよい。

なお、α₁〜α_mは、拍手であるか否かを示す重み付け係数は、ユーザが調節してもよいし、学習アルゴリズムに従って算出される係数であってもよい。

そして、第２のノイズ−非ノイズ判別式保持部２１１−２が保持する線形判別式の例を、式（４）に示す。なお、式（４）は、雑踏雑音を検出するための線形判別式とする。

Ｓn2＝α’₁χ₁＋α’₂χ₂＋……＋α’_mχ_m …（４）

式（４）は、式（３）と比べて、重み付け係数がα₁〜α_mから、α’₁〜α’_mに変更されていることが確認できる。これら重み付け係数α’₁〜α’_mは、雑踏ノイズの抽出に適した数値が設定される。なお、これら重み付け係数は、実測に応じて適切な値が設定されているものとして、具体的な数値は省略する。

なお、判定式で用いる特徴量パラメータは、判定式毎に異ならせてもよい。例えば、識別に際してＳＦＭのような指標が有効でない雑音の音種別もありうるため、音種別に応じた特徴量パラメータの選択も重要である。

このように線形判別式が判定する雑音の種類に応じて、最適な重み付け係数が設定されているものとする。

そして、ノイズレベル判定部２０５は、これら算出された判別値Ｓn1〜Ｓnrに基づいて、ベーススコアＳn_baseを算出する。ベーススコアＳn_baseは、ノイズレベルを算出するための初期値とする。このようにして、ノイズらしさを示したベーススコアＳn_baseが推定されることになる。なお、ベーススコアＳn_baseは、これら判別式の判定結果に基づくパラメータであればよく、例えば正となった判別式の判別結果の合計値、又は平均値などであってもよい。

ところで、拍手や、雑踏雑音など、「ノイズ」として分類したい音種別は、音種別毎に音響特性が異なっている。そこで、ノイズレベル判定部２０５が、音種別毎に複数の判別式を保持し、これら判別式でノイズと分類したい音種別を判定することで、各音種別を高精度で判定できる。なお、これら判別式の重み付け係数は、オフライン学習により設定したものとするが、ユーザが自分で設定したものでもよい。

例えば、拍手-非拍手、雑踏-非雑踏として判定式を一つずつ用いる場合、ｒが２となる。この場合、拍手-音楽、拍手-音声、雑踏-音楽、雑踏-音声などの区分に応じた参照データの学習により２個の判別式を決定され、各保持部が決定された判別式を保持することになる。

このように、本実施の形態においては、ノイズレベル判定部２０５が、環境に応じて設定された複数の判別式を用いてノイズレベルを推定するため、各判定式による推定結果に基づいて、統合的にノイズが含まれているか否かを判定しているので、ノイズ判定の信頼性を高めている。

ただし、ノイズレベル判定部２０５が用いる線形判別式の特質として、信号の種類を２分類に分けるため、非拍手として音楽も音声も含まれると音種別間の明確な判別が困難になりやすい。そこで、例えば、拍手-音楽（音楽内の拍手判定用）、拍手-音声（音声内の拍手判定用）のそれぞれに対応する判別式を用意するなど、さらに細かい判別条件毎に判定式を用意してもよい。これにより、判別の確度を高めることができる。

例えば、通常の音声区間について、拍手-音楽の判別式が拍手（ノイズ）を示している場合があるとする。これは、音声成分以外の微小な背景音、暗騒音の周波数特性が、拍手向けに設定した帯域で、（音楽と比べると拍手に近い程度に）高いＳＦＭ値となるような状況である。このような場合、拍手-音声の判別式を併せ見て、こちらの判別値で音声内に拍手が含まれる要素が低いと判定された（且つ当該サブフレームで音楽レベルより音声レベル方が高いと判定された）場合、拍手-音楽の判別式のノイズの判定をキャンセルするというように使える。これを拡張し、複数判定式による多重判定を汎用化してもよい。

複数判別式を併せて判定する手法としては、判定式のうちすべてを信頼するＡＮＤ条件、最低限一つの判定をクリアすればよいＯＲ方式、多数決方式、判定式間の重み付け方式と様々な手法が考えられる。ベーススコアはそれぞれの判別式から求めたスコア値{Sn1, …, Snr}（以下、判別式値リストとも称す）の関数値となる。

ノイズレベル補正部２０６は、一定期間内に算出されたベーススコアＳn_baseに基づいて、当該一定時間のノイズレベルの検出状態に従って各ベーススコアを補正した後、ノイズレベルを算出する。

レベル調停部２０７は、音声／音楽レベル用補正部２０３により補正された音声レベル及び音楽レベル、並びにノイズレベル補正部２０６により補正されたノイズレベルに対して、各レベル間の調停を行う。つまり、音声／音楽レベル用補正部２０３の処理では、瞬時的な誤検出などを抑止できるが、拍手や雑踏雑音などノイズとみなす音成分が含まれている場合に、紛らわしい特徴量分布となり、誤って音楽レベルが強く出る可能性もある。そこで、レベル調停部２０７は、ノイズレベルに応じて、音楽レベルの調停を行う。本実施の形態では、音声、音楽レベルと独立して、ノイズレベルを求めているため、従来と比べてより高い精度で音声、音楽レベルを調整できる。

ＤＳＰ２０８は、調整された後の音声レベル、音楽レベル及びノイズレベルに従って、入力されたオーディオ信号の音質補正を行う。なお、各レベルを用いた具体的な音質補正手法としては、周知の手法を問わずあらゆる手法を用いることができるものとする。

次に、本実施の形態にかかるデジタルテレビジョン放送受信装置１の音声処理モジュール５７における、オーディオ信号に含まれるノイズに関連した処理について説明する。図４は、本実施の形態にかかる音声処理モジュール５７における上述した処理の手順を示すフローチャートである。なお、図４に示すＳ４０１〜Ｓ４０３の処理と並行して、音声レベル及び音楽レベルを導出するための処理が行われているものとする。

まず、ノイズ用特徴量抽出部２０４が、入力されたオーディオ信号から、ノイズ抽出に効果のある複数の特徴量パラメータを生成する（ステップＳ４０１）。

次に、ノイズレベル判定部２０５が、雑音の種類毎に設けられた複数の判別式を用いて、ノイズらしさを示したノイズレベルの元となるベーススコアＳn_baseを推定する。

その後、ノイズレベル補正部２０６が、所定期間の検出状況に従って、ノイズレベルを補正する（ステップＳ４０３）。

次に、レベル調停部２０７が、音声レベル及び音楽レベルを、音声／音楽用レベル補正部２０３から取得する（ステップＳ４０４）。同様に、レベル調停部２０７は、ノイズレベル補正部２０６から、ノイズレベルを取得する。

その後、レベル調停部２０７が、ノイズレベルに従って、音声レベル及び音楽レベルを補正する（ステップＳ４０５）。

そして、ＤＳＰ２０８が、補正した後の音声レベル及び音楽レベルで、オーディオ信号に対する音響補正を行う（ステップＳ４０６）。

上述した処理手順により、高精度に抽出されたノイズレベルに従って調整された音楽レベル及び音声レベルに従って、オーディオ信号に対して音響補正が行われる。これにより、より適切な音響補正を行うことができる。

次に、図４に示すステップＳ４０１でノイズ用特徴量抽出部２０４で行っていた特徴量パラメータの生成手法について説明する。図５は、本実施の形態にかかるノイズ用特徴量抽出部２０４における上述した処理の手順を示すフローチャートである。

まず、ノイズ用特徴量抽出部２０４は、入力されたオーディオ信号をフレーム単位で分割した後、分割したフレームをさらに分割したサブフレームを抽出する（ステップＳ５０１）。

次に、ノイズ用特徴量抽出部２０４は、サブフレーム単位で、拍手を示すノイズ用のＳＦＭを算出する（ステップＳ５０２）。さらに、ノイズ用特徴量抽出部２０４は、サブフレーム単位で、雑踏を示すノイズ用のＳＦＭを算出する（ステップＳ５０３）。

その後、ノイズ用特徴量抽出部２０４は、サブフレーム単位で、ホワイトノイズに特徴量分布が近くなりやすい特徴量を、判別情報として算出する（ステップＳ５０４）。

さらに、さらに、ノイズ用特徴量抽出部２０４は、サブフレーム単位で、その他の判別情報を算出する（ステップＳ５０５）。これにより、ｍ種類の判別情報が算出されたものとする。

そして、ノイズ用特徴量抽出部２０４は、上述したサブフレーム毎に、当該サブフレームに前後するサブフレームを含めたフレーム単位で判別情報を抽出する（ステップＳ５０６）。

その後、ノイズ用特徴量抽出部２０４は、抽出されたフレーム単位の各判別情報の統計値を求め、サブフレーム毎の特徴量パラメータχ₁、……、χ_mを生成する（ステップＳ５０７）。

以降、このように生成された特徴量パラメータχ₁、……、χ_mに基づいてノイズレベルの生成をしていくことになる。

次に、図４に示すステップＳ４０２のノイズレベル判定部２０５で行っていた、ノイズレベルの元となるベーススコアＳn_baseの算出手法について説明する。図６は、本実施の形態にかかるノイズレベル判定部２０５における上述した処理の手順を示すフローチャートである。

まず、ノイズレベル判定部２０５は、各保持部に保持されているｒ個の判別式を読み出す（ステップＳ６０１）。

そして、ノイズレベル判定部２０５は、読み出したｒ個の判別式のそれぞれに対して、特徴量パラメータχ₁、……、χ_mを代入する（ステップＳ６０２）。

次に、ノイズレベル判定部２０５は、特徴量パラメータが代入された各判別式で算出された判別式値のリストである判別式値リスト｛Ｓn1、……、Ｓnr｝を生成する（ステップＳ６０３）。

その後、ノイズレベル判定部２０５は、判別式値リスト｛Ｓn1、……、Ｓnr｝のうち、ノイズを示すスコア以上の値がｋ個以上存在するか否かを判定する（ステップＳ６０４）。ノイズを示すスコアとして例えば‘０’などがある。この場合、判別値が正であればノイズであると判定されたことを意味する。また、ｋは、ｒ以下であって、ノイズを含んでいる判定基準として適切な値が設定されていればよい。

そして、ｋ個以上と判定した場合（ステップＳ６０４：Ｙｅｓ）、ノイズレベル判定部２０５は、“Ｓn1、……、Ｓnr”を代入した関数ｆから、ベーススコアＳn_baseを算出する（ステップＳ６０５）。一方、ｋ個より小さいと判定した場合（ステップＳ６０４：Ｎｏ）、ノイズレベル判定部２０５は、ベーススコアＳn_baseとして‘０’を設定する（ステップＳ６０６）。つまり、ｋ個より小さいと判定した場合、ノイズが含まれている可能性がほとんどないものとしてノイズレベルの初期値が設定される。

上述した処理手順により、ノイズレベル判定部２０５による、ノイズレベルの元となるベーススコアＳn_baseの推定がなされる。上述した処理手順で算出したベーススコアSn_baseは、ノイズレベル補正部２０６にて補正・平滑化が行われる。

次に、図４に示すステップＳ４０３のノイズレベル補正部２０６で行っていた、ベーススコアＳn_baseからノイズレベルの生成手法について説明する。図７は、本実施の形態にかかるノイズレベル補正部２０６における上述した処理の手順を示すフローチャートである。

まず、ノイズレベル補正部２０６は、ベーススコアＳn_baseが、ノイズらしさの閾値thNsScを超えているか否かを判定する（ステップＳ７０１）。

そして、ノイズレベル補正部２０６が、閾値thNsScを超えていると判定した場合（ステップＳ７０１：Ｙｅｓ）、ノイズ継続性カウンタ変数であるcntNsをインクリメントする（ステップＳ７０２）。

次に、ノイズレベル補正部２０６が、ノイズ継続性カウンタ変数cntNsが、ノイズ継続性閾値thNsCnt以上か否かを判定する（ステップＳ７０３）。ノイズ継続性閾値thNsCntより小さいと判定した場合（ステップＳ７０３：Ｎｏ）、ステップＳ７０６の処理に進む。

一方、ノイズレベル補正部２０６が、ノイズ継続性カウンタ変数cntNsがノイズ継続性閾値thNsCnt以上と判定した場合（ステップＳ７０３：Ｙｅｓ）、ノイズと判定しうるスコア値が十分に連続したとみなし、ベーススコアへの補正変数Ｓn_enhにstep_nを加算する（ステップＳ７０６）。なお、step_nには予め定められた値が設定されているものとする。

そして、ノイズレベル補正部２０６が、ベーススコアＳn_baseに対して、補正変数Ｓn_enhを加算することで、過去の判定状況を考慮して補正したノイズスコアＳnが算出される（ステップＳ７０６）。

また、ノイズレベル補正部２０６が、ステップＳ７０１において、ベーススコアＳn_baseがノイズ継続性閾値thNsScを超えないと判定した場合（ステップＳ７０１：Ｎｏ）、ノイズらしさが顕著には出ていないとみなし、ノイズ継続性カウンタ変数cntNsを‘０’にリセットするとともに、ベーススコアへの補正変数Ｓn_enhからstep_n’だけ減算する（ステップＳ７０５）。なお、step_n’には予め定められた値が設定されているものとする。

そして、ノイズレベル補正部２０６は、ステップＳ７０５で減じられた補正変数Ｓn_enhを、ベーススコアＳn_baseに加算することで、ノイズスコアＳnを算出する（ステップＳ７０６）。なお、補正値Ｓn_enhは、ステップＳ７０４及びＳ７０５においてサブフレーム単位で更新される以外、初期化等されることなく継続して値を保持している。

本シーケンスで示すように、ノイズレベル補正部２０６は、ベーススコアSn_baseが連続して大きい値の場合、ノイズスコアＳnを安定して増加させる一方、ベーススコアSn_baseが小さい場合にはstep_n’を用いて補正値Ｓn_enhを段階的に減少させる。これにより、ノイズスコアＳnの急激な変動を抑止できる。

そして、ノイズレベル補正部２０６は、ノイズスコアＳnが際限なく増加、減少しないように予め定めた上限値、下限値（例えば下限値‘０’、上限値‘１．０’など）に収まるようクリッピングする（ステップＳ７０７）。

その後、ノイズレベル補正部２０６は、クリッピングした値を、予め定められた範囲（例えば‘１’から‘１２’までの整数値）内の値をとるノイズレベルＬnsに変換する（ステップＳ７０８）。これにより、最終的なノイズレベルＬnsが得られることになる。

次に、図４に示すステップＳ４０５のレベル調停部２０７で行っていた、音楽レベルの補正手法について説明する。図８は、本実施の形態にかかるレベル調停部２０７における上述した処理の手順を示すフローチャートである。

まず、レベル調停部２０７は、音楽レベルＬmsが、音楽レベル用の閾値thLvMsより大きいとともに、ノイズレベルＬnsが、ノイズレベル用の閾値thLvNsより大きいか判定する（ステップＳ８０１）。

そして、レベル調停部２０７は、音楽レベルＬms及びノイズレベルＬnsがそれぞれ閾値より大きいと判定した場合（ステップＳ８０１：Ｙｅｓ）、音楽レベルＬmsから、ノイズレベルＬnsにＮ_factorを乗算した値を減算して終了する（ステップＳ８０２）。なお、Ｎ_factorは、ノイズレベルＬnsを調整するために予め定められた値とする。

一方、レベル調停部２０７は、音楽レベルＬms及びノイズレベルＬnsのうち一方でも閾値より小さいと判定された場合（ステップＳ８０１：Ｎｏ）、特に処理を行わずに終了する。

上述した処理手順により、誤検出が比較的起こりやすい音楽-ノイズ間で適切な調停を行うことができる。なお、誤検出が比較的生じやすい音楽−ノイズ間での調停を例に挙げたが、音声-ノイズ間でも同様に調停を行うことができる。

本実施の形態にかかるオーディオ処理部５７においては、上述した構成を備えることで、高精度でノイズレベルＬnsを同定することが可能となる。

つまり、本実施の形態にかかるオーディオ処理部５７においては、ノイズレベル判定部２０５において、雑音の種類毎に判別式を用意したことで、オーディオ信号に含まれる可能性のある様々な雑音に対応したノイズレベルの抽出処理を行うことができる。これにより、ノイズが含まれているか否かの判定を、従来と比べて高精度にすることができる。

また、本実施の形態にかかるデジタルテレビジョン放送受信装置１のオーディオ処理部５７においては、ノイズレベル判定部２０５において、オーディオ信号から抽出した特徴量パラメータに対して、判定対象となるノイズの種別ごとに設定した複数の判定式を用いることで、音声／音楽／ノイズの３分類のロバストな識別を可能にする。これにより、音楽とノイズ間など混同しやすいオーディオ信号の区間の識別の精度が向上する。

さらに、本実施の形態にかかるオーディオ処理部５７においては、ロバストな識別結果に基づいて、信号区分に応じて音質補正を柔軟に切り替えることで、より適切な音質補正を行うことができる。

また、本実施の形態にかかるオーディオ処理部５７においては、ノイズの検出精度を向上させたい場合には、検出精度を向上させたいノイズの種類に対応する判別式の重み付けの変更や、再学習を行えばよいため、識別方式の改良が容易である。

また、本実施の形態にかかるオーディオ処理部５７においては、ノイズ用特徴量抽出部２０４において、周波数構造の平坦さなどを示す特徴量パラメータを、拍手や雑踏音など雑音の種別に応じた帯域分布に変更した上で、雑音の種別に応じた重み付けを行う。これにより、雑音種別毎に行う判別がより正確になる。

また、本実施の形態にかかるオーディオ処理部５７においては、レベル調停部２０７によりレベル間の調停を行うことで、音楽-ノイズ間などでの誤検出の影響を極力抑制する。

また、ノイズレベル判定部２０５において、拍手が含まれているか否かを判別する判別式として、拍手−音楽用の判別式、及び拍手−音声用の判別式の両方を用いるように設定することで、検出精度を向上できる。また、音楽の場合に、さらに傾向の異なるもので細かく分けるなどしてもよい。

さらに、ノイズレベル補正部２０６においては、所定時間の検出度合いに従って、ベーススコアＳn_baseを調整するため、滑らかな音質補正を行うことができる。

１デジタルテレビジョン放送受信装置
５７オーディオ処理部
２０１音声／音楽用特徴量抽出部
２０２音声／音楽用レベル判定部
２０３音声／音楽用レベル補正部
２０４ノイズ用特徴量抽出部
２０５ノイズレベル判定部
２０６ノイズレベル補正部
２０７レベル調停部
２０８ＤＳＰ
２１１−１〜２２１−ｒ非ノイズ判定式保持部

Claims

入力オーディオ信号の音種を表す信号音種別と、当該入力オーディオ信号に含まれる可能性のある雑音の種別と、の組み合わせ毎に、当該種別の雑音であるか否かを雑音の特徴に従って判定する判定手法を、複数保持する保持手段と、
入力オーディオ信号に対して、前記保持手段に保持された前記複数の前記判定手法のうち、複数を用いて、前記入力オーディオ信号に雑音が含まれているか否かを判定する判定手段と、
前記判定手段が判定した前記入力オーディオ信号に雑音が含まれているか否かを示す判定結果に従って、雑音である度合いを示す雑音レベルを導き出す雑音レベル導出手段と、
前記入力オーディオ信号について、音楽であるか否かの度合いと音声であるか否かの度合いとを含む音情報レベルを取得する音楽レベル取得手段と、
前記音情報レベルを、前記雑音レベルに従って調整する調整手段と、
前記調整手段で調整された前記音情報レベルに従って、前記入力オーディオ信号の補正処理を行う補正手段と、を備え、
前記保持手段が保持する前記判定手法は、入力オーディオ信号の周波数分布の平坦さから、前記種別の雑音であるか否かを判別する判別式であって、当該判別式では、入力オーディオ信号の周波数分布について、前記種別の雑音の特徴に応じた帯域に重み付けしていること、
を特徴とする音情報判定装置。
前記入力オーディオ信号から、前記雑音の種別毎の特徴が表れた特徴量を抽出する特徴量抽出手段を、さらに備え、
前記判定手段は、前記特徴量抽出手段が抽出した前記特徴量に対して、前記雑音の種別毎に保持された前記複数の前記判定手法を用いて、前記入力オーディオ信号に雑音が含まれているか否かを判定すること、
を特徴とする請求項１に記載の音情報判定装置。
音情報判定装置で実行される音情報判定方法であって、
前記音情報判定装置は、入力オーディオ信号の音種を表す信号音種別と、当該入力オーディオ信号に含まれる可能性のある雑音の種別と、の組み合わせ毎に、当該種別の雑音であるか否かを雑音の特徴に従って判定する判定手法を、複数記憶する記憶手段を備え、
判定手段が、入力オーディオ信号に対して、前記記憶手段に記憶された前記複数の前記判定手法のうち、当該入力オーディオ信号の信号音種に対応する判定手法を複数用いて、前記入力オーディオ信号に雑音が含まれているか否かを判定する判定ステップと、
雑音レベル導出手段が、前記判定ステップが判定した前記入力オーディオ信号に雑音が含まれているか否かを示す判定結果に従って、雑音である度合いを示す雑音レベルを導き出す雑音レベル導出ステップと、
音楽レベル取得手段が、前記入力オーディオ信号について、音楽であるか否かの度合いと音声であるか否かの度合いとを含む音情報レベルを取得する音楽レベル取得ステップと、
調整手段が、前記音情報レベルを、前記雑音レベルに従って調整する調整ステップと、
補正手段が、前記調整ステップで調整された前記音情報レベルに従って、前記入力オーディオ信号の補正処理を行う補正ステップと、
を含むことを特徴とする音情報判定方法。