JP2011065093A

JP2011065093A - オーディオ信号補正装置及びオーディオ信号補正方法

Info

Publication number: JP2011065093A
Application number: JP2009217941A
Authority: JP
Inventors: Yutaka Yonekubo; 裕米久保; Hirokazu Takeuchi; 広和竹内
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-09-18
Filing date: 2009-09-18
Publication date: 2011-03-31
Also published as: US20110071837A1

Abstract

【課題】入力オーディオ信号の内容を評価し、適応的な音質補正処理を施すオーディオ信号補正装置を提供する。
【解決手段】入力オーディオ信号をチャネル情報に基づいてモノラル信号またはステレオ信号のいずれか判別し、前記入力オーディオ信号を音声信号または音楽信号のいずれかに判別するための複数の特徴量パラメータを抽出する特徴抽出手段と、前記特徴抽出手段で抽出された前記複数の特徴量パラメータに基づいて、前記入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する信号種別判定手段と、前記音声音楽識別スコアを用いて前記入力オーディオ信号の音声度合いおよび音楽度合いの出力レベルを算出するレベル算出手段と、前記レベル算出手段で算出された前記出力レベルに基づいて、音質補正処理を前記入力オーディオ信号に施す音質補正手段とを有する。
【選択図】図２

Description

本発明は、オーディオ信号に含まれる音声信号と音楽信号とに対して、それぞれ適応的に音質補正処理を施すオーディオ信号補正技術に関する。

周知のように、例えばテレビジョン放送を受信する放送受信機器や、情報記録媒体からその記録情報を再生する情報再生機器等にあっては、受信した放送信号や情報記録媒体から読み取った信号等からオーディオ信号を再生する際に、オーディオ信号に音質補正処理を施すことによって、より一層の高音質化を図るようにしている。

この場合、オーディオ信号に施す音質補正処理の内容は、オーディオ信号が人の話し声のような音声信号であるか、楽曲のような音楽（非音声）信号であるかに応じて異なる。すなわち、音声信号に対しては、トークシーンやスポーツ実況等のようにセンター定位成分を強調して明瞭化するように音質補正処理を施すことで音質が向上し、音楽信号に対しては、ステレオ感を強調した拡がりのある音質補正処理を施すことで音質が向上する。

このため、取得したオーディオ信号が音声信号か音楽信号かを判別し、その判別結果に応じて対応する音質補正処理を施すことが考えられている。しかしながら、実際のオーディオ信号では、音声信号と音楽信号とが混在している場合が多いことから、それらの判別処理が困難になっているため、オーディオ信号に対して適切な音質補正処理が施されているとは言えないのが現状である。

特許文献１には、音声信号がスピーチか非スピーチかをスピーチ性の度合およびミュージック性の度合に応じて判定し、さらに、音声信号がモノラル信号かステレオ信号かに応じてスピーチか非スピーチかの判定を最適化する構成が開示されている。

特開２００７−６７８５８号公報

しかしながら、特許文献１の構成では、音声信号がデュアルモノラル信号の場合やステレオ信号であってもモノラル伝送する場合には、信号内容を適切に判別することは困難である。

本発明の目的は、入力オーディオ信号の内容を評価し、適応的な音質補正処理を施すオーディオ信号補正装置及を提供することにある。

本発明の実施形態に係るオーディオ信号補正装置は、入力オーディオ信号をチャンル情報に基づいてモノラル信号またはステレオ信号のいずれか判別し、前記入力オーディオ信号を音声信号または音楽信号のいずれかに判別するための複数の特徴量パラメータを抽出する特徴抽出手段と、前記特徴抽出手段で抽出された前記複数の特徴量パラメータに基づいて、前記入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する信号種別判定手段と、前記音声音楽識別スコアを用いて前記入力オーディオ信号の音声度合いおよび音楽度合いの出力レベルを算出するレベル算出手段と、前記レベル算出手段で算出された前記出力レベルに基づいて、音質補正処理を前記入力オーディオ信号に施す音質補正手段とを有する。

本発明によれば、入力オーディオ信号の内容を評価し、適応的な音質補正処理を施すオーディオ信号補正装置を提供できる。

本発明の実施形態に係るデジタルテレビジョン放送受信装置の概略構成を示すブロック図である。本発明の実施形態に係るオーディオ処理モジュールの概略構成を示すブロック図である。本発明の実施形態に係る特徴量抽出処理を説明するフローチャートである。本発明の実施形態に係る信号種別判定処理を説明するフローチャートである。本発明の実施形態に係るレベル算出処理を説明するフローチャートである。

以下、この発明の実施形態について図面を参照して詳細に説明する。図１は、デジタルテレビジョン放送受信装置１１の主要な信号処理系を示している。すなわち、ＢＳ／ＣＳ（broadcasting satellite／communication satellite）デジタル放送受信用のアンテナ４３で受信した衛星デジタルテレビジョン放送信号は、入力端子４４を介して衛星デジタル放送用のチューナ４５に供給されることにより、所望のチャネルの放送信号が選局される。

そして、このチューナ４５で選局された放送信号は、ＰＳＫ（phase shift keying）復調モジュール４６及びＴＳ（transport stream）復号モジュール４７に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、信号処理モジュール４８に出力される。

また、地上波放送受信用のアンテナ４９で受信した地上デジタルテレビジョン放送信号は、入力端子５０を介して地上デジタル放送用のチューナ５１に供給されることにより、所望のチャネルの放送信号が選局される。

そして、このチューナ５１で選局された放送信号は、例えば日本ではＯＦＤＭ（orthogonal frequency division multiplexing）復調モジュール５２及びＴＳ復号モジュール５３に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、上記信号処理モジュール４８に出力される。

また、上記地上波放送受信用のアンテナ４９で受信した地上アナログテレビジョン放送信号は、入力端子５０を介して地上アナログ放送用のチューナ５４に供給されることにより、所望のチャネルの放送信号が選局される。そして、このチューナ５４で選局された放送信号は、アナログ復調モジュール５５に供給されてアナログの映像信号及びオーディオ信号に復調された後、上記信号処理モジュール４８に出力される。

ここで、上記信号処理モジュール４８は、ＴＳ復号モジュール４７，５３からそれぞれ供給されたデジタルの映像信号及びオーディオ信号に対して、選択的に所定のデジタル信号処理を施し、グラフィック処理モジュール５６及びオーディオ処理モジュール５７に出力している。

また、上記信号処理モジュール４８には、複数（図示の場合は４つ）の入力端子５８ａ，５８ｂ，５８ｃ，５８ｄが接続されている。これら入力端子５８ａ〜５８ｄは、それぞれ、アナログの映像信号及びオーディオ信号を、デジタルテレビジョン放送受信装置１１の外部から入力可能とするものである。

信号処理モジュール４８は、上記アナログ復調モジュール５５及び各入力端子５８ａ〜５８ｄからそれぞれ供給されたアナログの映像信号及びオーディオ信号を選択的にデジタル化し、このデジタル化された映像信号及びオーディオ信号に対して所定のデジタル信号処理を施した後、グラフィック処理モジュール５６及びオーディオ処理モジュール５７に出力する。

グラフィック処理モジュール５６は、信号処理モジュール４８から供給されるデジタルの映像信号に、ＯＳＤ（on screen display）信号生成モジュール５９で生成されるＯＳＤ信号を重畳して出力する機能を有する。このグラフィック処理モジュール５６は、信号処理モジュール４８の出力映像信号と、ＯＳＤ信号生成モジュール５９の出力ＯＳＤ信号とを選択的に出力すること、また、両出力をそれぞれ画面の半分を構成するように組み合わせて出力することができる。

グラフィック処理モジュール５６から出力されたデジタルの映像信号は、映像処理モジュール６０に供給される。この映像処理モジュール６０は、入力されたデジタルの映像信号を、前記映像表示器１４で表示可能なフォーマットのアナログ映像信号に変換した後、映像表示器１４に出力して映像表示させるとともに、出力端子６１を介して外部に導出させる。

また、上記オーディオ処理モジュール５７は、入力されたデジタルのオーディオ信号に対して、後述する音質補正処理を施した後、前記スピーカ１５で再生可能なフォーマットのアナログオーディオ信号に変換している。そして、このアナログオーディオ信号は、スピーカ１５に出力されてオーディオ再生に供されるとともに、出力端子６２を介して外部に導出される。

ここで、このデジタルテレビジョン放送受信装置１１は、上記した各種の受信動作を含むその全ての動作を制御モジュール６３によって統括的に制御されている。この制御モジュール６３は、ＣＰＵ（central processing unit）６４を内蔵しており、前記操作モジュール１６からの操作情報、または、リモートコントローラ１７から送出され前記受光モジュール１８に受信された操作情報を受けて、その操作内容が反映されるように各部をそれぞれ制御している。

この場合、制御モジュール６３は、主として、そのＣＰＵ６４が実行する制御プログラムを格納したＲＯＭ（read only memory）６５と、該ＣＰＵ６４に作業エリアを提供するＲＡＭ（random access memory）６６と、各種の設定情報及び制御情報等が格納される不揮発性メモリ６７とを利用している。

図２は、上記オーディオ処理モジュール５７内に信号特性解析モジュール７０と音質補正モジュール８０を備える構成を示している。信号特性解析モジュール７０は、特徴抽出モジュール７２、信号種別判定モジュール７４、レベル算出モジュール７６を備える。さらに、特徴抽出モジュール７２は、第１の特徴抽出モジュール７２ａ、第２の特徴抽出モジュール７２ｂを備える。信号種別判定モジュール７４は、第１の信号種別判定モジュール７４ａ、第２の信号種別判定モジュール７４ｂを備える。入力端子７１には、入力オーディオ信号が供給される。制御モジュール６３は、入力オーディオ信号を特徴抽出モジュール７２に供給する。制御モジュール６３は、入力オーディオ信号のチャネル情報（モノラル／ステレオ信号情報）を信号特性解析モジュール７０を構成する各モジュールに供給する。

第１の特徴抽出モジュール７２ａは、入力オーディオ信号がステレオ信号の場合、入力オーディオ信号が音声信号と音楽信号のいずれであるかを判別するための各種の特徴量パラメータを算出する。第２の特徴抽出モジュール７２ｂは、入力オーディオ信号がモノラル信号の場合、入力オーディオ信号が音声信号と音楽信号のいずれであるかを判別するための各種の特徴量パラメータを算出する。特徴抽出モジュール７２は、入力オーディオ信号がステレオ信号かモノラル信号かに応じて第１の特徴抽出モジュール７２ａか第２の特徴抽出モジュール７２ｂに切り替える。

第１の信号種別判定モジュール７４ａは、入力オーディオ信号（ステレオ信号）が音声信号または音楽信号のいずれであるかを判別する。同様に第２の特徴抽出モジュール７４ｂは、入力オーディオ信号（モノラル信号）が音声信号または音楽信号のいずれであるかを判別する。信号種別判定モジュール７４は、入力オーディオ信号がステレオ信号かモノラル信号かに応じて第１の信号種別判定モジュール７４ａか第２の信号種別判定モジュール７４ｂに切り替える。

レベル算出モジュール７６は、音声信号または音楽信号に対して、音質を細かく制御するための確度情報を含む音声・音楽レベルを算出する。レベル算出モジュール７６は、音声・音楽レベル情報を音質補正モジュール８０に出力する。

本実施形態では、第１の特徴抽出モジュール７２ａと第２の特徴抽出モジュール７２ｂを異なるモジュール、第１の信号種別判定モジュール７４ａと第２の特徴抽出モジュール７４ｂを異なるモジュールとした構成であるが、それぞれ一体となっていてもよい。

音質補正モジュール８０は、信号特性解析モジュール７０で算出された音楽・音声レベル情報に基づいて、音質補正処理を施す。音質補正モジュール８０は、音質補正処理を施した出力オーディオ信号を出力端子７７に供給する。

つまり、信号特性解析モジュール７０および音質補正モジュール８０は、放送受信や記録媒体からのコンテンツ再生において、音楽区間と音声区間を処理遅延することなく識別し、シーンの内容に応じて入力オーディオ信号に適切な音質補正処理を施すことで高音質化を図るシーン適応音質補正を実行する機能を有する。

次に、第１の特徴抽出モジュール７２と第２の特徴抽出モジュール７３の動作について説明する。図３は、特徴量抽出処理を説明するフローチャートである。はじめに、特徴抽出モジュール７２は、入力オーディオ信号を数百ｍｓｅｃ程度ごとにフレームとして切り出す。さらに、特徴抽出モジュール７２は、それらを数十msec程度ごとにサブフレームに分割する（ステップＳ１０１）。例えば、１つのサブフレームは、２０ｍｓｅｃである。

特徴抽出モジュール７２は、入力オーディオ信号のチャネル情報に基づいて、入力オーディオ信号のチャネル数が２か否か（つまりモノラル信号かステレオ信号か）を判断する（ステップＳ１０２）。ここでは、信号処理モジュール４８は、例えばチューナ５１で選局された放送信号から復調された入力オーディオ信号がマルチチャネルのステレオ信号であった場合、マルチチャネルから２チャネルのステレオ信号にダウンミックス処理していることを前提とする。信号処理モジュール４８は、２チャネルのステレオ信号を入力端子７１に入力オーディオ信号として供給する。

チャネル数が２の場合（ステップＳ１０２、ＹＥＳ）、特徴抽出モジュール７２は、入力オーディオ信号がデュアルモノラル信号ではない通常のステレオ信号か否かを判断する（ステップＳ１０３）。デュアルモノラル信号は、デュアルモノラル信号のチャネル数は２であっても、メイン/サブの各チャネルに重畳される音は本来別々のモノラル信号である。

入力オーディオ信号がデュアルモノラル信号でない通常のステレオ信号である場合（ステップＳ１０３、ＹＥＳ）、特徴抽出モジュール７２は、サブフレーム単位で入力オーディオ信号における２チャネルステレオの左右（ＬＲ）信号のパワー比（ＬＲパワー比）を算出する。ここで、入力オーディオ信号のフォーマットがステレオ信号であっても、実際はモノラル信号のように伝送されるケースがある。この場合、ＬＲチャネル相互でほぼ同等の信号となり、特徴抽出モジュール７２は、チャネル数だけでは判断できない。そこで、特徴抽出モジュール７２は、ＬＲチャネルの差成分値を和成分値で除したＬＲパワー比を算出し、予め設定された閾値thPwと比較する。次に、特徴抽出モジュール７２は、ＬＲパワー比が閾値thPwよりも大きいか否かを判断する（ステップＳ１０４）。

ＬＲパワー比が閾値thPwよりも大きい場合（ステップＳ１０４、ＹＥＳ）、第１の特徴抽出モジュール７２ａは、ＬＲパワー比が閾値thPwよりも大きいステレオ信号からステレオ向け判別情報を抽出する（ステップＳ１０５）。本実施形態では、ステレオ信号は、チャネル数が２の信号の中でも、デュアルモノラル信号ではなく、ＬＲチャネルのパワー比が一定以上のステレオ性の強い信号を意味しているものとする。

第１の特徴抽出モジュール７２ａは、サブフレーム単位でＬＲパワー比（信号振幅の２乗和）、サブフレーム単位で入力オーディオ信号の時間波形が振幅方向に零を横切る回数である零交差周波数、サブフレーム単位で入力オーディオ信号の周波数領域でのスペクトル成分変動等の判別情報を算出する。判別情報の内容としてはこれらに限定せず追加することができる。

第１の特徴抽出モジュール７２ａは、入力オーディオ信号に対してステレオ向け判別情報を示す変数paramSet=stereoをセットする（ステップＳ１０６）。特徴抽出モジュール７２は、サブフレームを統合して数百msec程度ごとにフレームを抽出する（ステップＳ１０７）。次に、特徴抽出モジュール７２は、ステレオ向け判別情報またはモノラル向け判別情報からフレーム単位での統計特徴量（例えば平均，分散，最大，最小等）を求め特徴量パラメータセットを生成する（ステップＳ１０８）。特徴抽出モジュール７２は、特徴量抽出処理を終了する。

入力オーディオ信号がデュアルモノラル信号であって通常のステレオ信号でない場合（ステップＳ１０３、ＮＯ）、第２の特徴抽出モジュール７２ｂは、ユーザにより決定されるメイン/サブの選択情報を受け取り、検出対象となるチャネルのフォーカスを決定する（ステップＳ１０９）。第２の特徴抽出モジュール７２ｂは、メイン/サブのうち該当するいずれかのチャネルについてモノラル向けの判別情報を抽出する（ステップＳ１１０）。同様に、チャネル数が２でない場合（つまり、チャネル数が１の場合）（ステップＳ１０２、ＮＯ）、第２の特徴抽出モジュール７２ｂは、モノラル向けの判別情報を抽出する（ステップＳ１１０）。同様に、ＬＲパワー比が閾値thPw以下の場合（ステップＳ１０４、ＮＯ）、第２の特徴抽出モジュール７２ｂは、モノラル向けの判別情報を抽出する（ステップＳ１１０）。

第２の特徴抽出モジュール７２ａは、サブフレーム単位で、ＬＲパワー比、零交差周波数、スペクトル成分変動等の判別情報を算出する。判別情報の内容としてはこれらに限定せず追加することができる。

第２の特徴抽出モジュール７２ｂは、入力オーディオ信号に対してモノラル向け判別情報を示す変数paramSet=monoをセットする（ステップＳ１１１）。次に、第２の特徴抽出モジュール７２ｂは、ステップＳ１０７以降の動作を続行する。

ステレオ向け判別情報とモノラル向けの判別情報は、互いに共通するものもあれば、それぞれに特有なものもある。ステレオ向け判別情報の特有の特徴量パラメータとしては、例えばＬＲパワー比がある。ＬＲパワー比は、音楽区間では値が大きくなる傾向にあり、音声区間では値が小さくなる傾向にある。

上記説明したように、特徴抽出モジュール７２は、入力オーディオ信号のチャネル情報とともに入力オーディオ信号の内容に応じてステレオ向け判別情報またはモノラル向けの判別情報を抽出し、抽出した判別情報に基づいて特徴量パラメータセットを生成する。したがって、特徴抽出モジュール７２は、入力オーディオ信号が音声信号または音楽信号のいずれかを判別するために用いる最適な判別情報を選択することができる。特徴抽出モジュール７２で生成された各種の特徴量パラメータセットは、信号種別判定モジュール７４に供給される。

次に、信号種別判定モジュール７４の動作について説明する。図４は、特徴量パラメータセットおよびチャネル情報を用いた信号種別判定処理を説明するフローチャートである。はじめに、信号種別判定モジュール７４は、入力オーディオ信号に対してparamSet=stereoがセットされているか否かを判断する（ステップＳ２０１）。paramSet=stereoがセットされている場合（ステップＳ２０１、ＹＥＳ）、第１の信号種別判定モジュール７４ａは、以下のようにステレオ向け線形判別式を算出する（ステップＳ２０２）。

ステレオ向け線形判別式は、信号種別判定モジュール７４が入力オーディオ信号を音声信号または音楽信号のいずれであるか判断するために用いる音声・音楽識別スコアＳ１の算出に用いられる。信号種別判定モジュール７４は、特徴抽出モジュール７２で生成した特徴量パラメータセットについて、各特徴量パラメータの重要度に応じた重み付け係数を付与し、係数を乗じた値の線形和をとることで音楽・音声に属する確からしさを表す音声・音楽識別スコアＳ１を算出する。信号種別判定モジュール７４は、音楽・音声の音種別期待値があらかじめ判明しているデータを用いて学習することで重み付け係数を決定する。

この重み付け係数としては、信号種別の判別に効果の高い特徴量パラメータほど大きい値が与えられる。例として、信号種別判定モジュール７４は、以下のようなステレオ向け線形判定式を利用する。また、重み付け係数は、音声・音楽識別スコアＳ１については、予め準備した多くの既知の音声信号及び音楽信号を基準となる参照データとして入力し、その参照データについて特徴量パラメータを学習することで算出される。

学習対象とする参照データのｋ番目のフレームの特徴量パラメータセットをベクトルｘで表わし、入力オーディオ信号が属する信号区間｛音声、音楽｝としてｙで以下のように表わすものとする。

ここで、上記（１）式の各要素は、抽出したｎ個の特徴量パラメータに対応する。また、上記（２）式の−１，＋１は、それぞれ、音声区間及び音楽区間に対応し、使用する音声・音楽用学習データの正解信号種別となる区間について、予め人手で２値のラベル付けをしたものである。上記（２）式の−１，＋１は、便宜的な定義であるので、逆にしてもよい。さらに、上記（２）式より、以下の線形識別関数を立てる。

ｋ＝１〜Ｎ（Ｎは参照データの入力フレーム数）に対し、ベクトルｘを抽出し、（３）式の評価値と正解信号種別（２）式の誤差二乗和（４）式が最小となる正規方程式を解くことにより、各特徴量パラメータに対する重み付け係数β_ｉ（ｉ＝０〜ｎ）が決定される。

paramSet=stereoがセットされてない場合（つまり、paramSet=monoがセットされている場合）（ステップＳ２０１、ＮＯ）、第２の信号種別判定モジュール７４ｂは、上記同様（１）式から（４）式を用いてモノラル向け線形判別式を算出する（ステプＳ２０２）。このとき、第２の信号種別判定モジュール７４ａは、ステレオ向け線形判別式とは異なり、ｍ個の特徴量パラメータによってモノラル向け線形判別式を算出する。

信号種別判定モジュール７４は、ステレオ向け線形判別式またはモノラル向け線形判別式について、学習によって決定した重み付け係数を用い、実際に識別する入力オーディオ信号の評価値を（３）式よりフレーム毎に算出する（ステップＳ２０４）。ｆ（ｘ）が上記音声・音楽識別スコアＳ１に相当する。

なお、音声・音楽識別スコアＳ１の算出については、上記した線形識別関数を用いたオフライン学習により求めた重み付け係数を特徴量パラメータに乗ずる手法に限定されるものではない。例えば各特徴量パラメータの算出値に対して経験的な閾値を設定し、この閾値との比較判定に応じて各特徴量パラメータに重み付けされた得点を付与し、スコアを算出する等の手法も用いることが可能である。

信号種別判定モジュール７４は、Ｓ１＜０か否かを判断する（ステップＳ２０５）。信号種別判定モジュール７４は、Ｓ１＜０であれば音楽区間、ｆ（ｘ）＞０であれば音声区間と判定する。信号種別判定モジュール７４は、各フレームを音声区間か音楽区間に排他的に判別する。

Ｓ１＜０でない場合（つまり、音声区間である場合）（ステップＳ２０５、ＮＯ）、信号種別判定モジュール７４は、変数cntSpをインクリメントする（ステップＳ２０６）。Ｓ１＜０である場合（つまり、音楽区間である場合）（ステップＳ２０５、ＹＥＳ）、信号種別判定モジュール７４は、変数cntMsをインクリメントする。

信号種別判定モジュール７４で算出された音声・音楽識別スコアＳ１およびインクリメントされた変数は、レベル算出モジュール７６に供給される。信号種別判定モジュール７４は、信号種別判定を終了する。

ここで、信号種別判定モジュール７４は、チャネル情報に基づいて判別した入力オーディオ信号がステレオ信号かモノラル信号かに応じて異なる特徴量パラメータセットを選定している。信号種別判定モジュール７４が特徴量パラメータセットを選定する有効性について説明する。

例えば、ステレオ向け特徴量パラメータセットの特徴量パラメータの数ｎは、モノラル向け特徴量パラメータセットの特徴量パラメータの数ｍと異なる。上述したように、入力オーディオ信号がステレオ信号の場合、信号種別判定モジュール７４は判別情報であるＬＲパワー比から算出した統計特徴量を含めた特徴量パラメータセットを使用するため、音声・音楽識別スコアＳ１の検出精度の向上が期待できる。一方、入力オーディオ信号がモノラル信号の場合、信号種別判定モジュール７４がＬＲパワー比から算出した統計特徴量を含めた特徴量パラメータセットを使用しても音声・音楽識別スコアＳ１の検出精度の向上が期待できない。逆に、検出精度が低下することもありうる。

（５）式は、第１の信号種別判定モジュール７４ａが各特徴量パラメータの重要度に応じた重み付け係数β_ｉを決定し、（３）式に適用した一例である。χnはＬＲパワー比における特徴量パラメータとする。

（２）式に示すように、線形識別関数の値が負であれば、入力オーディオ信号の音楽性が高くなる。ここで、通常のステレオ音楽信号ではＬＲチャネルで異なる楽音が配置されているため、ＬＲパワー比は大きくなりやすい傾向にある。

この傾向は、どのようなステレオ楽曲でも一般的に当てはまる。学習の結果、ＬＲパワー比における特徴量パラメータに対応する重み付け係数の値は、他の特徴量パラメータが音楽区間・音声区間の判別を指し示す重み付け係数値に比べると相対的に大きくなりやすい。言い換えると、ＬＲパワー比における特徴量パラメータは、他の特徴量パラメータが音楽区間・音声区間の判別に寄与する度合いよりも強い。したがって線形識別関数の値も大きい負の値となる傾向をもつ。

一方、入力オーディオ信号が音楽であってもモノラル信号であれば、特徴量パラメータχnは省略される。第２の信号種別判定モジュール７４ｂは、通常χnに０の値を入れて線形識別関数の値を算出する。つまり、線形識別関数の値は、ＬＲパワー比における特徴量パラメータの項が音楽区間・音声区間の判定に寄与しなくなる。第２の信号種別判定モジュール７４ｂは音楽区間・音声区間の検出精度が落ちる。第２の信号種別判定モジュール７４ｂは、重み付け係数の重みを特徴量パラメータごとに音楽区間・音声区間の判定への寄与を考慮して決定している。ＬＲパワー比における特徴量パラメータは、音楽区間・音声区間の判定への寄与が他の特徴量パラメータに比べて相対的に大きい。ＬＲパワー比における特徴量パラメータの項が線形識別関数から省略されると、第２の信号種別判定モジュール７４ｂは、音楽区間・音声区間の判定をしづらくなる。

そこで、第２の信号種別判定モジュール７４ｂは、ＬＲパワー比の特徴量パラメータの項を除いた他の特徴量パラメータセット（モノラル信号、ステレオ信号共通で効果が期待できる特徴量パラメータおよびモノラル信号に特有な特徴量パラメータから構成される）を用いて、（１）式から（４）式により重み付け係数値を求める。

第２の信号種別判定モジュール７４ｂは、ＬＲパワー比の特徴量パラメータがない分、他の特徴量パラメータのうち特定の特徴量パラメータに対して、（５）式に示す重み付け係数値よりも音楽性を強く示す係数値を与える。したがって、第２の信号種別判定モジュール７４ｂは、音楽区間・音声区間の検出精度の低下を抑制できる。

以上説明したように、信号種別判定モジュール７４は、ステレオ信号またはモノラル信号に応じて最適な重み付け係数を用意し、入力オーディオ信号のチャネル情報により、線形判定式を切り替えて用いることができる。

次に、レベル算出モジュール７６の動作について説明する。図５は、レベル算出処理を説明するフローチャートである。レベル算出モジュール７６は、（５）式で求めた線形識別関数の値が正であれば音声区間、負であれば音楽区間と判断することができる。しかしながら、制御モジュール６３がスピーカ１５から出力する音声の音質を細かく制御するために、レベル算出モジュール７６は、線形識別関数の値を段階的に表現される確度情報の形で算出するのが望ましい。また、モノラル信号では、楽曲特性が特徴量パラメータとしてステレオ信号ほど顕著に現れない。したがって、線形識別関数の値Ｓ１の音楽性スコアが比較的小さい値をとる傾向にある。そのため、レベル算出モジュール７６は、楽曲によって判定が不安定化する可能性がある。そこで、レベル算出モジュール７６は、例えば以下のようにスコア安定化を兼ねた音声・音楽レベルを算出する。

レベル算出モジュール７６は、線形判別式で求まった線形識別関数の値Ｓ１をベースに音楽区間・音声区間それぞれの確度情報を算出する。ここで、Ｓｍ１は音楽用スコア変数、Ｓｓ１は音声用スコア変数である。レベル算出モジュール７６は、Ｓｍ１＝−Ｓ１、Ｓｓ１＝Ｓ１と設定する（ステップＳ３０１）。Ｓｍ１でＳ１の符号を反転するのは、音声・音楽のどちらも正値のレベルで表現するのが扱いやすいためである。

レベル算出モジュール７６は、Ｓｍ１（＞０）について、フレームごとに音声・音楽識別スコアＳ１を算出する一方で、継続して過去に音楽判定されたフレーム数cntMsをカウントする。レベル算出モジュール７６は、cntMsが規定の回数thNms以上となったか否かを判断する（ステップＳ３０２）。

cntMsがthNmsに達した場合（ステップＳ３０１、ＹＥＳ）、レベル算出モジュール７６は、Ｓｍ１に加算する補正スコアＳｍ２（＞０）をstep_m（＞０）だけ加える。レベル算出モジュール７６は、Ｓｓ１から減算する補正スコアＳｓ２（＞０）をstep_s（＞０）だけ減ずる。レベル算出モジュール７６は、Ｓｍ２とＳｓ２の値を適切な値(min=0,max=1等)の範囲でクリッピングする（ステップＳ３０３）。

これにより、Ｓｍ１が示す音楽用スコア変数が比較的小さい値の場合でも、時間の経過とともに補正後の音楽用スコア変数の値は安定する。

レベル算出モジュール７６は、（６）式のように補正スコアＳｍ２を音楽用スコア変数Ｓｍ１に加算する（ステップＳ３０４）。

レベル算出モジュール７６は、（７）式のように補正スコアＳｓ２を音声用スコア変数Ｓｓ１から減算する（ステップＳ３０５）。

cntMsがthNmsに達していない場合（ステップＳ３０２、ＮＯ）、レベル算出モジュール７６は、Ｓｓ１（＞０）について、継続して過去に音声判定されたフレーム数cntSpをカウントする。レベル算出モジュール７６は、cntSpが規定回数thNsp以上となったか否かを判断する（ステップＳ３０６）。

cntSpがthNspに達した場合（ステップＳ３０６、ＹＥＳ）、レベル算出モジュール７６は、Ｓｍ１に加算する補正スコアＳｍ２（＞０）をstep_m（＞０）だけ減ずる。レベル算出モジュール７６は、Ｓｓ１から減算する補正スコアＳｓ２（＞０）をstep_s（＞０）だけ加える。レベル算出モジュール７６は、Ｓｍ２とＳｓ２の値を適切な値(min=0,max=1等)の範囲でクリッピングする（ステップＳ３０７）。

レベル算出モジュール７６は、補正スコアＳｍ２を段階的に減ずるため、音楽から音声区間に変わる際の急激な補正音質変動を緩和する効果をもつ。

レベル算出モジュール７６は、（８）式のように補正スコアＳｍ２を音楽用スコア変数Ｓｍ１から減算する（ステップＳ３０８）。

レベル算出モジュール７６は、（９）式のように補正スコアＳｓ２を音声用スコア変数Ｓｓ１に加算する（ステップＳ３０９）。レベル算出モジュール７６は、判定の連続性に伴い補正スコアＳｓ２を加算することで音声・音楽レベルの安定化を図ることができる

次に、レベル算出モジュール７６は、Ｓｓ１´、Ｓｍ１´を後段で扱いやすい形に適宜変換するために、０から１の範囲でクリッピングする（ステップＳ３１０）。レベル算出モジュール７６は、Ｓｓ１´、Ｓｍ１´を所望の解像度のレベルに変換する（ステップＳ３１１）。レベル算出モジュール７６は、例えば、０から２５５などのＮ段階の整数値として音楽レベルLmsおよび音声レベルLspに変換する。

レベル算出モジュール７６は、レベル値変換の過程で平滑化を行う（ステップＳ３１２）。レベル算出モジュール７６は、フレーム間における急激な音声・音楽レベルの変動を抑制するためである。すなわちレベル算出モジュール７６は、過去num_fr数のフレームで平滑化を行う場合、num_fr数のフレームの音声・音楽レベルにそれぞれ重み係数を乗じ移動平均をとった値を最終的な出力レベル（音楽レベルLms,音声レベルLsp）とする。この際、レベル算出モジュール７６は、例えば、直近の過去フレームほど音声・音楽レベルに乗じる重み係数の値を大きくする。

レベル算出モジュール７６は、上記説明したスコア補正および平滑化により、低遅延・低負荷で、安定的な音声・音楽レベルを得ることができる。信号種別判定モジュール７４は、（３）式で２値による判定結果によって音楽・音声の結果を排他的に算出する。しかしレベル算出モジュール７６は、音声・音楽レベル情報に対して独立にスコア補正・平滑化を行うので、時間の経過とともに、音声・音楽レベルをお互いに排他的でない独立した値として算出することができる。レベル算出モジュール７６は、例えばＢＧＭのような区間では、音楽・音声レベルがそれぞれの音成分に応じた確度として出力する。

さらに、レベル算出モジュール７６は、検出を適用する入力オーディオ信号の内容や、入力オーディオ信号が属するコンテンツ種類に応じて、音声・音楽レベルを制御してもよい。例えば、レベル算出モジュール７６は、入力オーディオ信号がステレオ信号に比べて相対的に楽曲補正の効果が得られにくいモノラル信号であれば、音声・音楽レベルの最大値をステレオ信号の場合に比べて低く設定する。

あるいは、トークシーンと楽曲シーンが比較的明確に現れる音楽番組以外のドラマやバラエティなどでは、演出上、各種の効果音が入りやすく、音楽区間と音声区間の著しい変動が短い時間内で頻繁に発生する。レベル算出モジュール７６は、こうした変動による急激な音質変化の影響を避けるべく、ＥＰＧなどのジャンル情報を参照し、特定のコンテンツでは出力する音楽・音声レベルの音声・音楽レベルを低く設定する。

音質補正モジュール８０は、入力オーディオ信号が音楽信号であるか音声信号であるか、およびステレオ信号であるかモノラル信号であるかに応じて柔軟に音質補正を制御できる。つまり、音質補正モジュール８０は、上記算出された音楽・音声レベル情報を用いて、信号の内容に即した音質補正処理を施す。

例えば、音質補正モジュール８０は、入力オーディオ信号がステレオ信号かつ音楽レベルが高ければサラウンド効果など広がり感を重視する補正を入力オーディオ信号に施す。音質補正モジュール８０は、入力オーディオ信号がモノラル信号かつ音楽レベルが高ければイコライジング中心の補正を入力オーディオ信号に施す。音質補正モジュール８０は、入力オーディオ信号がモノラル信号かつ音声レベルが高ければセンター定位を強めた輪郭強調を入力オーディオ信号に施す。音質補正モジュール６３は、入力オーディオ信号がステレオ信号かつ音声レベルが高ければよりソフトな音声強調を入力オーディオ信号に施す。したがって、音質補正モジュール８０は、入力オーディオ信号のチャネル数や音声・音楽レベルの高さ、安定度に応じて制御しやすくなる。

本実施形態によれば、信号特性解析モジュール７０は、入力オーディオ信号の特性に応じて音質補正を柔軟に切り替えることが可能となる。信号特性解析モジュール７０は、ステレオ信号だけでなく、モノラル信号も精度良く検出できる。また、信号特性解析モジュール７０は、ステレオ信号のフォーマットであってもモノラル的性質を持つ入力オーディオ信号や、デュアルモノラル信号の入力オーディオ信号も最適に検出できる。信号特性解析モジュール７０は、瞬間的、局所的な判定ブレを安定化した上で音楽・音声の確度をレベル情報で表現できる。さらに、信号特性解析モジュール７０は、音声・音楽レベルの算出を判別式１個を基にして低遅延・低負荷で行え、継続時間長に応じて安定化かつ音声と音楽で独立した情報として得ることができる。結果として、信号特性解析モジュール７０は、モノラル/ステレオ、音声/音楽の区分に応じて入力オーディオ信号の音質補正を柔軟に切り替えられる。

なお、上記したモジュールとは、ハードウェアで実現するものであっても良いし、ＣＰＵ６４等を使ってソフトウェアで実現するものであってもよい。

なお、本願発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は可能な限り適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適当な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。

１１…デジタルテレビジョン放送受信装置、１５…スピーカ、７２…特徴量抽出モジュール、７４…信号種別判定モジュール、７６…レベル算出モジュール、８０…音質補正モジュール。

Claims

入力オーディオ信号をチャネル情報に基づいてモノラル信号またはステレオ信号のいずれか判別し、前記入力オーディオ信号を音声信号または音楽信号のいずれかに判別するための複数の特徴量パラメータを抽出する特徴抽出手段と、
前記特徴抽出手段で抽出された前記複数の特徴量パラメータに基づいて、前記入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する信号種別判定手段と、
前記音声音楽識別スコアを用いて前記入力オーディオ信号の音声度合いおよび音楽度合いの出力レベルを算出するレベル算出手段と、
前記レベル算出手段で算出された前記出力レベルに基づいて、音質補正処理を前記入力オーディオ信号に施す音質補正手段と、
を具備することを特徴とするオーディオ信号補正装置。
前記特徴抽出手段は、前記入力オーディオ信号がデュアルモノラル信号の場合、選択に基づいて前記入力オーディオ信号を前記モノラル信号と判別し、前記入力オーディオ信号が前記ステレオ信号のフォーマットであって前記入力オーディオ信号のＬＲパワー比が所定値より小さい場合、前記入力オーディオ信号を前記モノラル信号と判別することを特徴とする請求項１記載の音質補正装置。
前記特徴抽出手段は、前記入力オーディオ信号が前記ステレオ信号の場合、ＬＲパワー比を前記複数の特徴量パラメータの１つとして抽出することを特徴とする請求項１記載の音質補正装置。
前記信号種別判定手段は、前記複数の特徴量パラメータそれぞれに対して、予め用意された前記音声信号及び前記音楽信号を参照データとして前記複数の特徴量パラメータを学習することにより算出した複数の重み付け係数それぞれを乗算し、前記複数の特徴量パラメータと前記複数の重み付け係数を乗算した総和を前記音声音楽識別スコアとして算出することを特徴とする請求項１記載の音質補正装置。
前記特徴抽出手段は、前記入力オーディオ信号を所定の単位毎の複数のフレームに分割し、前記分割フレーム毎に前記複数の特徴量パラメータを抽出する請求項１記載の音質補正装置。
前記レベル算出手段は、前記信号種別判定手段で算出した前記分割フレーム毎の前記音声音楽識別スコアが所定回数以上連続して前記音楽信号であると判断した場合、前記音声音楽識別スコアに音楽向けの補正強度を高くするように補正スコアを加算し、前記信号種別判定手段で算出した前記分割フレーム毎の前記音声音楽識別スコアが所定回数以上連続して前記音声信号であると判断した場合、前記音声音楽識別スコアに音声向けの補正強度を高くするように補正スコアを加算して補正することを特徴とする請求項５記載の音質補正装置。
前記レベル算出手段は、複数の前記分割フレームについて前記補正した前記音声音楽識別スコアの移動平均をとって平滑化した前記出力レベルを算出することを特徴とする請求項４記載の音質補正装置。
前記レベル算出手段は、前記オーディオ信号が前記モノラル信号の場合、前記ステレオ信号の場合に比べて前記出力レベルの最大値を小さくし、前記オーディオ信号のジャンルに応じて前記出力レベルの最大値を変更することを特徴とする請求項７記載の音質補正装置。
入力オーディオ信号をチャネル情報に基づいてモノラル信号またはステレオ信号のいずれか判別し、前記入力オーディオ信号を音声信号または音楽信号のいずれかに判別するための複数の特徴量パラメータを抽出し、
前記複数の特徴量パラメータに基づいて、前記入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出し、
前記音声音楽識別スコアを用いて前記入力オーディオ信号の音声度合いおよび音楽度合いの出力レベルを算出し、
前記出力レベルに基づいて、音質補正処理を前記入力オーディオ信号に施す、
ことを特徴とするオーディオ信号補正方法。