JP2010230972A - Voice signal processing device, method and program therefor, and reproduction device - Google Patents
Voice signal processing device, method and program therefor, and reproduction device Download PDFInfo
- Publication number
- JP2010230972A JP2010230972A JP2009078326A JP2009078326A JP2010230972A JP 2010230972 A JP2010230972 A JP 2010230972A JP 2009078326 A JP2009078326 A JP 2009078326A JP 2009078326 A JP2009078326 A JP 2009078326A JP 2010230972 A JP2010230972 A JP 2010230972A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- sound signal
- channel
- signal processing
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Stereophonic System (AREA)
Abstract
Description
本発明は、基準点の周囲に配置される複数のスピーカーに対応したチャンネルの音信号を処理する音信号処理装置、その方法、そのプログラム、および、再生装置に関する。 The present invention relates to a sound signal processing device that processes sound signals of channels corresponding to a plurality of speakers arranged around a reference point, a method thereof, a program thereof, and a playback device.
従来、複数のスピーカーを用いて多チャンネルの音データーを再生する再生システムが知られている。この再生システムは、例えば画像データーをモニターで表示させ、視聴者の周りに複数のスピーカーを配置して、視聴者の周囲から音データーを再生させる。これら再生システムで再生する音データーは、例えばDVD(Digital Versatile Disc)などのパッケージメディアに記録されていたり、インターネットなどのネットワークを介して配信されていたりする。
そして、従来の音データー処理装置は、例えば5.1ch(チャンネル)などのように、視聴者の周りに配置する各スピーカーから、それぞれ対応する音データーを出力させる処理をしている。
Conventionally, a reproduction system that reproduces multi-channel sound data using a plurality of speakers is known. In this reproduction system, for example, image data is displayed on a monitor, a plurality of speakers are arranged around the viewer, and sound data is reproduced from around the viewer. Sound data to be reproduced by these reproduction systems is recorded on a package medium such as a DVD (Digital Versatile Disc), or distributed via a network such as the Internet.
Then, the conventional sound data processing apparatus performs a process of outputting corresponding sound data from each speaker arranged around the viewer, such as 5.1ch (channel).
ところで、映画などのコンテンツは、映画館などの大音量で暗く騒音が少ない環境で再生が前提として作成されているのが大半であり、そのような環境で最大限の表現力を演出するために、ダイナミックレンジの大きな録音が実施されている。
一方、同じコンテンツを家庭の音響映像再生装置で再生する場合、特に夜間などでは音量を絞って再生する場合や、周囲の騒音が大きい場合などでは、聞き取りにくい場合がある。具体的には、ささやくような台詞の演出の場合など、コンテンツの再生音のうちで小さい音量で演出されている箇所では、いわゆるマスキングスレッショルド付近まで再生音が落ち込み、非常に聞き取りにくくなる場合が多々ある。
By the way, most contents such as movies are created on the premise of playback in an environment such as a movie theater where the volume is dark and there is little noise. To produce the maximum expressive power in such an environment. Recording with a large dynamic range has been implemented.
On the other hand, when the same content is played back by a home audio / video playback device, it may be difficult to hear, particularly when the volume is reduced at night or when the surrounding noise is high. Specifically, when the content is played at a low volume, such as in the case of whispering dialogue, the playback sound drops to the vicinity of the so-called masking threshold and is often very difficult to hear. is there.
そして、従来、映画のようなダイナミックレンジが大きなコンテンツでは、音データーをダイナミックレンジ圧縮することが提案されている(例えば、特許文献1参照)。 Conventionally, for content with a large dynamic range such as a movie, it has been proposed to compress the dynamic range of sound data (see, for example, Patent Document 1).
しかしながら、上述した特許文献1に記載のようなコンテンツの音データーをダイナミックレンジ圧縮する場合、例えばコンテンツがミュージカルやオペラなどの楽曲を含んでいると、コンテンツの演出内容が損なわれるおそれがある。
本発明は、このような点に鑑み、違和感なく人の音声を聞き取りやすくすることを特徴とする音信号処理装置、その方法、そのプログラム、および、再生装置を提供することを目的の一つとする。
However, when dynamic range compression is performed on the sound data of the content as described in Patent Document 1 described above, for example, if the content includes music such as a musical or an opera, the contents of the content may be impaired.
In view of the above, it is an object of the present invention to provide a sound signal processing device, a method thereof, a program thereof, and a playback device that make it easy to hear a human voice without a sense of incongruity. .
本発明に記載の音信号処理装置は、基準点の周囲に配置される複数のスピーカーからこれらスピーカーに対応したチャンネルの音信号を再生させるために、当該音信号を処理する音信号処理装置であって、前記チャンネルの音信号のうち人の音声が含まれる音信号を、それぞれの音特性の比較に基づいて検出する音声検出手段と、この音声検出手段で検出した音声が含まれるチャンネルの音信号のみをダイナミックレンジ圧縮する圧縮処理手段と、を具備したことを特徴とする。 The sound signal processing device according to the present invention is a sound signal processing device that processes a sound signal of a channel corresponding to the speaker from a plurality of speakers arranged around the reference point. And a sound detection means for detecting a sound signal including a human voice among the sound signals of the channel based on a comparison of the respective sound characteristics, and a sound signal of a channel including the sound detected by the sound detection means. And compression processing means for compressing only the dynamic range.
本発明に記載の音信号処理方法は、基準点の周囲に配置される複数のスピーカーからこれらスピーカーに対応したチャンネルの音信号を再生させるために、当該音信号を演算手段により処理する音信号処理方法であって、前記演算手段は、前記チャンネルの音信号のうち人の音声が含まれる音信号を、それぞれの音特性の比較に基づいて検出する音声検出工程と、この音声検出工程で検出した音声が含まれるチャンネルの音信号のみをダイナミックレンジ圧縮する圧縮処理工程と、を実施することを特徴とする。 The sound signal processing method according to the present invention is a sound signal processing for processing sound signals of a channel corresponding to the speakers from a plurality of speakers arranged around the reference point by an arithmetic means in order to reproduce the sound signals. In the method, the calculation means detects a sound signal including a human voice among the sound signals of the channel based on a comparison of respective sound characteristics, and detects the sound signal in the sound detection step. And a compression processing step of performing dynamic range compression only on a sound signal of a channel including sound.
本発明に記載の音信号処理プログラムは、演算手段を請求項1から請求項7までのいずれか一項に記載の音信号処理装置として機能させることを特徴とする。 The sound signal processing program according to the present invention causes the calculation means to function as the sound signal processing device according to any one of claims 1 to 7.
本発明に記載の再生装置は、請求項1から請求項7までのいずれか一項に記載の音信号処理装置と、この音信号処理装置により基準点の周囲に配置される複数のスピーカーに対応して処理されたチャンネルの音信号を前記スピーカーで出力させる出力手段と、を具備したことを特徴とする。 A playback device according to the present invention corresponds to the sound signal processing device according to any one of claims 1 to 7 and a plurality of speakers arranged around a reference point by the sound signal processing device. And output means for outputting the sound signal of the processed channel through the speaker.
なお、本発明における演算手段としては、1つのコンピューターに限らず、複数のコンピューターをネットワーク状に組み合わせた構成、CPUやマイクロコンピュータなどの素子、あるいは複数の電子部品が搭載された回路基板などをも含むものである。 The calculation means in the present invention is not limited to a single computer, but may include a configuration in which a plurality of computers are combined in a network, an element such as a CPU or a microcomputer, or a circuit board on which a plurality of electronic components are mounted. Is included.
以下、本発明の一実施形態を図1に基づいて説明する。
なお、本実施形態では、複数のスピーカーを備えた再生システムの構成を例示するが、この限りではない。
Hereinafter, an embodiment of the present invention will be described with reference to FIG.
In the present embodiment, the configuration of a playback system including a plurality of speakers is illustrated, but the present invention is not limited to this.
[再生システム]
図1において、100は再生システムで、この再生システム100は、基準点の周囲に配置される複数のスピーカーから、それぞれ音信号を再生させるいわゆるマルチチャンネルのシステム構成である。
再生する音信号は、映画やミュージカル、演劇、音楽プロモーション映像などの映像信号を含むものに限らず、音楽などの映像信号を含まない音信号のみの各種コンテンツデーターに含まれるものである。特に、人の音声が含まれるものを対象とするが、人の音声が含まれないコンテンツデーターの再生を除外するものではない。
そして、再生システム100は、コンテンツデーターを処理する再生装置200と、この再生装置200で処理された音信号を出力する複数のスピーカー300と、にて構成されている。なお、再生装置200が映像信号を処理可能な構成の場合、再生システム100は映像信号を出力すなわち画面表示する表示装置を備えた構成としてもよい。
[Playback system]
In FIG. 1,
The sound signals to be reproduced are not limited to those including video signals such as movies, musicals, plays, and music promotion videos, but are included in various content data including only sound signals that do not include video signals such as music. In particular, it is intended to include human voices, but does not exclude reproduction of content data that does not include human voices.
The
再生装置200は、コンテンツデーターの音信号をスピーカーで出力させるためにコンテンツデーターを処理する装置である。
この再生装置200は、コンテンツ取得手段210と、表示手段220と、入力手段230と、演算手段240と、出力手段250と、を備えている。
The
The
コンテンツ取得手段210は、コンテンツデーターを取得する。例えば、コンテンツ取得手段210は、CD(Compact Disc)やDVD(Digital Versatile Disc)などの光ディスク、磁気ディスクなどに記憶されたコンテンツデーターを読み取るドライブ装置や、インターネットやイントラネット、LANなどのネットワークを介して再生装置200外からコンテンツデーターを取得するインターフェースなどが例示できる。
そして、コンテンツ取得手段210は、取得したコンテンツデーターを演算手段240へ出力する。この取得するコンテンツデーターの出力は、ストリームデーターとして順次取得しつつ出力する。
なお、コンテンツデーターに映像信号と音信号とを含む場合には、音信号のみを演算手段に出力し、映像信号は別の処理装置にて処理させる。
The
Then, the
If the content data includes a video signal and a sound signal, only the sound signal is output to the calculation means, and the video signal is processed by another processing device.
表示手段220は、再生装置200の図示しない筐体に外部から視認可能なモニターを備えている。モニターとしては、例えば液晶やEL(Electro Luminescence)パネルなどの各種表示装置が用いられる。
そして、表示手段220は、演算手段240の制御により、演算手段240から出力される信号に基づいて、コンテンツデーターの処理状況や再生出力状況、入力手段230の入力操作内容などを表示する。
The
Then, the
入力手段230は、利用者が入力操作可能な例えば図示しない操作ボタンや操作つまみなどの各種スイッチを複数有している。この入力手段230は、これらスイッチの入力操作により所定の信号を演算手段240に出力し、各種条件を演算手段240に設定入力する。
なお、入力手段230は、スイッチの入力操作にて設定入力する構成に限らず、例えば音声入力などいずれの入力方法を利用できる。また、いわゆるリモコンであるリモートコントローラとして構成し、入力操作に対応した信号を無線媒体を介して演算手段240へ送信して設定入力させる構成とするなどしてもよい。
また、入力手段230は、詳細は後述するが、利用者の入力操作により、音信号のダイナミックレンジ圧縮を実施する度合い、すなわち強弱を切り替える切替手段231を備えている。
The
Note that the
Although the details will be described later, the
演算手段240は、例えばシステムマイコンが用いられ、再生装置200全体を制御可能である。
この演算手段240は、音信号を処理するプログラムとして、音信号取得手段241と、音声検出手段242と、圧縮処理手段243と、を備えている。
As the calculation means 240, for example, a system microcomputer is used, and the
The
音信号取得手段241は、コンテンツ取得手段210から出力されるコンテンツデーターの音信号を取得し、チャンネル毎の音信号を抽出する。
チャンネル毎の音信号の抽出は、例えばバンドパスや、ミキシング処理、エフェクト処理、ディレイ処理を適宜実施するなど、各種方法を適用できる。
The sound
For the extraction of the sound signal for each channel, various methods such as bandpass, mixing processing, effect processing, and delay processing are appropriately applied.
音声検出手段242は、音信号取得手段241で取得したチャンネル毎の音信号のうち、人の音声が含まれるチャンネルの音信号を検出する。すなわち、音声検出手段242は、各音信号の音特性に基づいて、音声が含まれるか否かを判断する。
具体的には、この音声検出手段242は、音量比較手段242Aと、相関性判断手段242Bと、周波数解析手段242Cと、を備え、これらで判断したチャンネルの音信号を、人の音声を含むものとして判定する。
The
Specifically, the
音量比較手段242Aは、各チャンネルの音信号のうち、他のチャンネルの音信号よりも相対的に音量が大きいチャンネルの音信号を判断する。例えば、映画などでは台詞である人の音声がある場合、その台詞のあるシーンでの音声の音量が他の音の音量より大きい場合がほとんどである。このように、音声が含まれるチャンネルの音信号は、他のチャンネルの音信号より音量が大きくなるので、音量が大きいチャンネルの音信号は、音声を含む可能性が高い。したがって、音量比較手段242Aは、音量が大きいチャンネルの音信号を、音声を含む候補として認識する。
特に、基準点の周囲に配置されたスピーカー300における隣接するスピーカー300に対応したチャンネルの音信号同士で比較することが好ましい。例えば、音量比較手段242Aは、隣接するスピーカー300に対応した音信号より音量が大きいものを、音声を含む候補として認識する。すなわち、映画の多くのシーンでは、台詞を語る登場人物は1人であり、その登場人物が登場する立ち位置、例えば登場人物が画面中央から左側で発言している場合には左のスピーカー300に対応するチャンネルで顕著に台詞が再生されるため、特に隣接するスピーカーに対応する音信号で比較するとよい。
なお、隣接する2つのスピーカー300の中間の位置に台詞が定位したコンテンツの場合、すなわち隣接する2つのスピーカー300に対応するチャンネルにそれぞれ台詞が含まれる場合には、該当の隣接する2つのスピーカー300の音量がともに他のチャンネルの音量より大きいという場合も起こりうる。この場合、該当する隣接した2つのスピーカー300をともに音声を再生しているチャンネルの候補とみなし、後述する他の手段でも該当チャンネルが台詞を再生していると検知された場合、2つのスピーカー300がともに台詞を再生しているチャンネルとして決定するとよい。なお、この場合、隣接する2つのスピーカー300にさらに隣接するスピーカー300より音量が大きいこととなり、この比較で検知できる。
また、隣接するスピーカー300に対応したチャンネルの音信号同士で比較するのは、あくまで検出のための手段であって、後述するダイナミックレンジ圧縮を検出された音信号に施すのは隣接したいずれかのスピーカー300、または両方のスピーカー300に限定されるものではなく、例えば、センタースピーカーとリアスピーカーのようにお互い離れた場所に位置するスピーカー300の音信号に対してであってよい。すなわち、台詞などの人の音声が含まれているチャンネルをダイナミックレンジ圧縮する。
The
In particular, it is preferable to compare the sound signals of channels corresponding to
Note that in the case of content in which dialogue is localized at an intermediate position between two
The comparison between the sound signals of the channels corresponding to the
相関性判断手段242Bは、各チャンネルの音信号のうち、他のチャンネルの音信号と音特性で相関性が低いチャンネルの音信号を判断する。例えば、アクション映画や戦争映画などの特定のジャンルにおいて、台詞の途中で爆発音があるなど、大音量となる演出の場合、他のチャンネルの音信号でも同じ爆発音が再生されることとなり、このような場合にはチャンネル間の相関性は高いことになるが、台詞の場合には特定のチャンネルにのみ台詞の音声がアサインされる場合が多く、この場合には必然的に他のチャンネルとの相関性は低くなる。したがって、相関性判断手段242Bは、他のチャンネルの音信号と相関性が低いチャンネルの音信号を、音声を含む候補として認識する。
この相関性判断手段242Bについても、音量比較手段242Aと同様に、基準点の周囲に配置されたスピーカー300における隣接するスピーカー300に対応したチャンネルの音信号同士で比較する構成が好ましい。例えば、相関性判断手段242Bは、隣接するスピーカー300に対応した音信号との音特性である周波数帯や音量を比較し、隣同士では相関性が高いが、他のスピーカー300に対応するチャンネルの音信号とでは相関性が低い、すなわち周波数帯のレベルや音量の大きさが類似していない音信号を、音声を含む候補として認識する。音量の大きさの類似としては、音量差で判断するなどが例示できる。
なお、隣接する2つのスピーカー300の中間の位置に台詞が定位したコンテンツの場合には、該当の隣接する2つのスピーカー300の再生音声の相関は高く、それぞれが隣接する反対側のスピーカー300との相関は低い、という状態が起こりうる。この場合、上述した音量の場合と同様に、これら隣接するスピーカー300に対してさらに隣接するスピーカー300に対応するチャンネルの音信号を比較することで、該当する隣接した2つのスピーカー300をともに音声を再生しているチャンネルの候補とみなす。そして、後述する他の手段でも該当チャンネルが台詞を再生していると検知された場合、2つのスピーカー300がともに台詞を再生しているチャンネルとして決定するとよい。
また、上述したように、隣接するスピーカー300に対応したチャンネルの音信号同士で比較するのは、あくまで検出のための手段であって、後述するダイナミックレンジ圧縮を検出された音信号に施すのは隣接したいずれかのスピーカー300、または両方のスピーカー300に限定されるものではなく、例えば、センタースピーカーとリアスピーカーのようにお互い離れた場所に位置するスピーカー300の音信号に対してであってよい。
The correlation determination unit 242B determines a sound signal of a channel having low correlation in sound characteristics with sound signals of other channels among the sound signals of each channel. For example, in a certain genre such as an action movie or war movie, there is an explosion sound in the middle of a dialogue, such as a loud sound production, the same explosion sound will be played even with the sound signal of other channels, In such cases, the correlation between channels is high, but in the case of dialogue, dialogue speech is often assigned only to a specific channel. In this case, it is inevitably necessary to communicate with other channels. Correlation is low. Accordingly, the correlation determination unit 242B recognizes a sound signal of a channel having low correlation with a sound signal of another channel as a candidate including sound.
The correlation determination unit 242B is also preferably configured to compare the sound signals of the channels corresponding to the
Note that, in the case of content in which the dialogue is localized at an intermediate position between two
Further, as described above, the comparison between the sound signals of the channels corresponding to the
周波数解析手段242Cは、各チャンネルの音信号の周波数帯域を解析することにより音声が含まれているか否かを判断する。例えば、人の音声は、一般に300Hz以上4kHz以下である。このことにより、周波数解析手段242Cは、音信号の周波数帯を解析し、300Hz以上4kHz以下の周波数帯が他の周波数帯より割合が顕著に多いチャンネルの音信号を、音声を含む候補として認識する。 The frequency analysis means 242C determines whether or not sound is included by analyzing the frequency band of the sound signal of each channel. For example, human voice is generally 300 Hz to 4 kHz. Thus, the frequency analysis unit 242C analyzes the frequency band of the sound signal and recognizes the sound signal of the channel whose frequency band of 300 Hz to 4 kHz is significantly higher than the other frequency bands as a candidate including sound. .
そして、音声検出手段242は、音量比較手段242A、相関性判断手段242B、および周波数解析手段242Cでそれぞれ人の音声を含むと認識したチャンネルの音信号を検出する。
なお、検出する音信号のチャンネルは1チャンネルに限られない。すなわち、人の音声が複数のチャンネルの音信号に含まれる場合、例えば複数の登場人物が異なる立ち位置でそれぞれ発言している場合などでは、それら複数のチャンネルの音信号を検出する。
Then, the
The channel of the sound signal to be detected is not limited to one channel. That is, when human voices are included in the sound signals of a plurality of channels, for example, when a plurality of characters speak at different standing positions, the sound signals of the plurality of channels are detected.
圧縮処理手段243は、音声検出手段242で検出したチャンネルの音信号のみを、ダイナミックレンジ圧縮する。
圧縮する方法としては、各種方法が利用できる。一般的には、小さい入力レベルは大きな出力レベルに変換する一方で、大入力時のレベル差を圧縮する一種の対数変換を行い、音信号の入力レベルに対する出力レベルを変換する方法が例示できる。具体的には、DSP(Digital Signal Processor)を用い、各チャンネルの音信号毎にサーブル参照し、入力レベルに対して出力レベルを読み替えることで実現できる。
この圧縮処理手段243は、ダイナミックレンジ圧縮をする程度を変更可能となっている。例えば、利用者による入力手段230の切替手段231の入力操作により、ダイナミックレンジ圧縮を実施する度合いである強弱が設定入力されると、この設定入力された度合いに対応してダイナミックレンジ圧縮を実施する。
The
Various methods can be used as the compression method. In general, a method of converting the output level relative to the input level of the sound signal by performing a kind of logarithmic conversion that compresses the level difference at the time of large input while converting the small input level to the large output level can be exemplified. Specifically, it can be realized by using a DSP (Digital Signal Processor), making a reference for each sound signal of each channel, and reading the output level relative to the input level.
The compression processing means 243 can change the degree of dynamic range compression. For example, when the user inputs and operates the
出力手段250は、デジタル/アナログコンバータ(Digital-Analog Converter:DAC)251と、アンプ252と、を備えている。
DAC251は、再生装置200に接続され、再生装置200からチャンネル毎に出力される処理されたデジタルの音声信号をアナログに変換する。そして、DAC210は、アナログに変換した音信号を、それぞれアンプ252へ出力する。
アンプ252は、DAC251に接続されるとともに、スピーカー300にそれぞれ接続される。これらアンプ252は、DAC251から出力されるアナログ信号の音信号をスピーカー300から適宜出力可能に処理し、スピーカー300へ出力して再生させる。
The
The
The
[再生システムの動作]
次に、上記再生システム100の動作を説明する。
まず、利用者は、所望とするコンテンツデーターの再生処理を要求する設定入力をする。この設定入力により、再生装置200は、例えば記録媒体に記録されたコンテンツデーターをコンテンツ取得手段210で取得し、演算手段240へ順次出力する。
そして、演算手段240の音信号取得手段241は、コンテンツ取得手段210から出力されるコンテンツデーターの音信号を取得し、この音信号からチャンネル毎の音信号を取得する。
この音信号取得手段241で取得した各チャンネルの音信号について、演算手段240の音声検出手段242により、人の音声を含むチャンネルの音信号を検出する。
[Playback system operation]
Next, the operation of the
First, the user inputs a setting for requesting reproduction processing of desired content data. With this setting input, the
The sound
With respect to the sound signal of each channel acquired by the sound signal acquisition means 241, the sound detection means 242 of the calculation means 240 detects the sound signal of the channel including the human voice.
すなわち、音声検出手段242は、音量比較手段242Aにより、各チャンネルの音信号のうち、他のチャンネルの音信号よりも相対的に音量が大きいチャンネルの音信号を判断する。特に、隣接するスピーカー300に対応したチャンネルの音信号同士で比較し、音量が大きいチャンネルの音特性を特定する。
また、音声検出手段242は、相関性判断手段242Bにより、各チャンネルの音信号のうち、他のチャンネルの音信号と音特性で相関性が低いチャンネルの音信号を判断する。特に、隣接するスピーカー300に対応したチャンネルの音信号同士の周波数帯のレベルや音量の大きさなどの音特性について比較し、音特性が類似しない、すなわち各周波数帯でのレベルの分布が異なる場合や音量差が大きい場合には、その相関性が低いチャンネルの音特性を特定する。
さらに、音声検出手段242は、周波数解析手段242Cにより、各チャンネルの音信号の周波数帯域を解析、すなわち300Hz以上4kHz以下の周波数帯が他の周波数帯より割合が顕著に多いチャンネルの音信号を特定する。
そして、音声検出手段242は、音量比較手段242A、相関性判断手段242B、および周波数解析手段242Cでそれぞれ特定したチャンネルが同一である場合、そのチャンネルの音信号を候補として検出する。
That is, the sound detection means 242 uses the volume comparison means 242A to determine the sound signal of the channel whose volume is relatively larger than the sound signals of the other channels among the sound signals of each channel. In particular, comparison is made between the sound signals of the channels corresponding to the
In addition, the
Further, the sound detection means 242 analyzes the frequency band of the sound signal of each channel by the frequency analysis means 242C, that is, identifies the sound signal of the channel whose frequency band of 300 Hz to 4 kHz is significantly higher than other frequency bands. To do.
When the channels specified by the sound
この後、演算手段240は、圧縮処理手段243により、音声検出手段242で検出したチャンネルの音信号のみをダイナミックレンジ圧縮する。
そして、各チャンネルの音信号をそれぞれ同期させて各スピーカー300に対応する出力手段250へ出力し、スピーカー300から出力させる。この出力により、コンテンツデーターが再生される。
Thereafter, the calculation means 240 uses the compression processing means 243 to perform dynamic range compression on only the sound signal of the channel detected by the sound detection means 242.
Then, the sound signals of the respective channels are synchronized and output to the output means 250 corresponding to each
[再生システムの作用効果]
上述したように、上記実施の形態では、基準点の周囲に配置される複数のスピーカーに対応したチャンネルの音信号のうち、人の音声が含まれる音信号を、それぞれの音特性の比較に基づいて検出し、この検出したチャンネルの音信号のみをダイナミックレンジ圧縮している。
このため、コンテンツデーターの音信号全体にダイナミックレンジ圧縮を実施することで、例えば音楽などの音のバランスが影響しやすいものまで圧縮が掛けられて音楽の演出内容が変わってしまうなどの不都合を生じることなく、音全体の音特性のバランスを損なわずに、人の音声である台詞などが聞き取りやすくなり、違和感なく良好なコンテンツの鑑賞を提供できる。
[Effect of playback system]
As described above, in the above-described embodiment, among sound signals of channels corresponding to a plurality of speakers arranged around the reference point, a sound signal including human speech is obtained based on comparison of sound characteristics. Only the sound signal of the detected channel is compressed in the dynamic range.
For this reason, by performing dynamic range compression on the entire sound signal of the content data, for example, the compression of the sound that is easily affected by the balance of the sound, such as music, is applied and the contents of the music effect are changed. Therefore, it is easy to hear dialogues such as human speech without losing the balance of the sound characteristics of the entire sound, and it is possible to provide good content appreciation without any sense of incongruity.
そして、人の音声が含まれる音信号の検出として、基準点の周囲に配置されるスピーカー300における隣接するスピーカー300に対応したチャンネルの音信号同士の音特性を比較することで検出している。
すなわち、映画の台詞は特定のチャンネルのみで顕著に再生されることが多いことから、隣接するスピーカー300のチャンネルの音信号同士で比較する簡単な構成で、特に従来聞き取りにくい不都合が生じている映画の台詞を、誤作動を抑制しつつ違和感なく聞き取りやすくできる。
As a detection of a sound signal including human voice, detection is performed by comparing sound characteristics of sound signals of channels corresponding to the
In other words, since the line of a movie is often remarkably reproduced only on a specific channel, a simple structure that compares sound signals of channels of
また、人の音声が含まれる音信号の検出に際して、他のチャンネルの音信号よりも相対的に音量が大きいチャンネルの音信号を音声が含まれる音信号の候補としている。
すなわち、例えば映画の台詞があるシーンではその台詞は画面上の人物の位置と相関のある音に定位させることが一般であり、言い替えれば所定のチャンネルないし特定の隣接する2つのチャンネルの間で顕著に再生されるようにミキシングされることが一般的であることから、音量を比較する簡単な構成で、比較的に誤作動を生じにくく違和感なく台詞を聞き取りやすくできる。
Further, when detecting a sound signal including human voice, a sound signal of a channel whose volume is relatively higher than that of the sound signals of other channels is set as a sound signal candidate including the voice.
That is, for example, in a scene with a movie dialogue, the dialogue is generally localized to a sound correlated with the position of the person on the screen. In other words, the dialogue is conspicuous between a predetermined channel or two adjacent channels. In general, mixing is performed so as to be played back, and therefore, with a simple configuration for comparing the volumes, it is relatively difficult for malfunctions to occur and the dialogue can be easily heard without a sense of incongruity.
さらに、人の音声が含まれる音信号の検出に際して、他のチャンネルの音信号と音特性相関性が低い、すなわち周波数帯や音量の類似性が低いチャンネルの音信号を音声が含まれる音信号の候補としている。
すなわち、例えば映画の台詞があるシーンではその台詞は画面上の人物の位置と相関のある音に定位させることが一般であり、言い替えれば所定のチャンネルないし特定の隣接する2つのチャンネルの間で顕著に再生されるようにミキシングされることが一般的であることから、台詞のあるチャンネルは他のチャンネルの音信号と音特性が異なるので、音特性を比較する簡単な構成で、比較的に誤作動を生じにくく違和感なく台詞を聞き取りやすくできる。
特に、相関性を判断するに際して、隣接するスピーカー300に対応したチャンネルの音信号同士の相関性は高いが、他のチャンネルの音信号とでは相関性が低いチャンネルを候補とすることで、より誤作動を防止できる。
Further, when detecting a sound signal including human speech, a sound signal of a channel having low sound characteristic correlation with other channel sound signals, that is, having a low frequency band or volume similarity, is detected. It is a candidate.
That is, for example, in a scene with a movie dialogue, the dialogue is generally localized to a sound correlated with the position of the person on the screen. In other words, the dialogue is conspicuous between a predetermined channel or two adjacent channels. In general, the channel with dialogue has a different sound characteristic from the sound signal of the other channels, so it is relatively easy to compare the sound characteristics. It is easy to hear dialogue without feeling uncomfortable and difficult to act.
In particular, when determining the correlation, the sound signals of the channels corresponding to the
また、人の音声が含まれる音信号の検出に際して、周波数帯域を解析、すなわち人の音声である300Hz以上4kHz以下の周波数帯域の割合が多いチャンネルの音信号を、音声が含まれる音信号の候補としている。
このため、周波数帯のレベル分布状況を比較する簡単な構成で、比較的に誤作動を生じにくく違和感なく台詞を聞き取りやすくできる。
Further, when detecting a sound signal including human voice, the frequency band is analyzed, that is, a sound signal of a channel having a high frequency band ratio of 300 Hz to 4 kHz, which is a human voice, is selected as a sound signal candidate including the voice. It is said.
For this reason, with a simple configuration for comparing the level distribution status of the frequency bands, it is relatively difficult for malfunctions to occur and the dialogue can be easily heard without a sense of incongruity.
そして、人の音声が含まれる音信号の検出として、音量比較手段242A、相関性判断手段242B、および周波数解析手段242Cでそれぞれ特定したチャンネルが同一である場合に、そのチャンネルの音信号を人の音声を含む音声の候補として検出している。
このため、より確実に人の音声を含むチャンネルの音信号を検出でき、より誤作動を防止できる。
Then, as a detection of a sound signal including human speech, if the channels specified by the volume comparison means 242A, the correlation determination means 242B, and the frequency analysis means 242C are the same, the sound signal of that channel is Detected as a voice candidate including voice.
For this reason, it is possible to more reliably detect the sound signal of the channel including the human voice and to prevent malfunction.
[変形例]
なお、本発明は、上述した実施の一形態に限定されるものではなく、本発明の目的を達成できる範囲で以下に示される変形をも含むものである。
[Modification]
In addition, this invention is not limited to one Embodiment mentioned above, The deformation | transformation shown below is included in the range which can achieve the objective of this invention.
例えば、本実施形態では、音量比較手段242A、相関性判断手段242B、および周波数解析手段242Cを備え、それぞれで人の音声を含む音信号か否かを判断する構成を例示したが、この限りではない。すなわち、少なくともいずれか1つの構成を設けて判断してもよい。さらに、これらの構成に他の判断を加えてもよい。
また、これら音量比較手段242A、相関性判断手段242B、および周波数解析手段242Cのそれぞれが人の音声を含む音信号であると認識したものを検出し、圧縮する構成を例示したが、これらの少なくともいずれか1つが人の音声を含む音信号であると認識したものを圧縮してもよい。
For example, in the present embodiment, the sound
In addition, although the
また、音声検出手段242は、基準点の周囲に配置されたスピーカー300における隣接するスピーカー300に対応したチャンネルの音信号同士で比較する構成を例示したが、この限りではない。例えば、他のチャンネルの音信号と音特性が異なるものを、人の音声を含む音信号として認識してもよい。
Moreover, although the audio | voice detection means 242 illustrated the structure compared between the sound signals of the channel corresponding to the
切替手段231を設け、ダイナミックレンジ圧縮の度合いを変更可能な構成を例示したが、ダイナミックレンジ圧縮の度合いは一定とした構成としてもよい。
Although a configuration in which the
そして、再生システム100として例示したが、例えばスピーカー300を備えない再生装置200、さらには演算手段240を搭載した回路基板や、コンピューターなどの演算装置を演算手段240として機能させるプログラムなどとして構成してもよい。
また、台詞があるコンテンツデーターを処理して説明したが、例えばオーケストラ演奏などの台詞が含まれないコンテンツデーターの再生を除外するものではない。すなわち、このようなコンテンツデーターを処理しても、台詞が含まれないため、ダイナミックレンジ圧縮の処理を実行しないだけである。
The
Further, although the description has been made by processing the content data having the dialogue, the reproduction of the content data not containing the dialogue such as an orchestra performance is not excluded. That is, even if such content data is processed, the line is not included, so that the dynamic range compression process is not executed.
その他、本発明の実施の際の具体的な構造および手順は、本発明の目的を達成できる範囲で他の構造などに適宜変更できる。 In addition, the specific structure and procedure for carrying out the present invention can be appropriately changed to other structures and the like within a range in which the object of the present invention can be achieved.
200……再生装置
240……演算手段
242……音声検出手段
242A…音量比較手段
242B…相関性判断手段
242C…周波数解析手段
243……圧縮処理手段
300……スピーカー
200 ……
Claims (10)
前記チャンネルの音信号のうち人の音声が含まれる音信号を、それぞれの音特性の比較に基づいて検出する音声検出手段と、
この音声検出手段で検出した音声が含まれるチャンネルの音信号のみをダイナミックレンジ圧縮する圧縮処理手段と、
を具備したことを特徴とした音信号処理装置。 A sound signal processing device for processing sound signals in order to reproduce sound signals of channels corresponding to these speakers from a plurality of speakers arranged around a reference point,
A sound detection means for detecting a sound signal including a human voice among the sound signals of the channel based on a comparison of respective sound characteristics;
Compression processing means for dynamic range compression only of the sound signal of the channel containing the sound detected by the sound detection means;
A sound signal processing apparatus comprising:
前記音声検出手段は、基準点の周囲に配置されるスピーカーにおける隣接するスピーカーに対応したチャンネルの音信号同士で比較し、人の音声が含まれるか否かを判断する
ことを特徴とした音信号処理装置。 The sound signal processing device according to claim 1,
The sound detection means compares sound signals of channels corresponding to adjacent speakers in speakers arranged around a reference point, and determines whether or not human sound is included. Processing equipment.
前記音声検出手段は、各チャンネルの音信号のうち、他のチャンネルの音信号よりも相対的に音特性における音量が大きいチャンネルの音信号を音声が含まれる音信号として検出する
ことを特徴とした音信号処理装置。 The sound signal processing device according to claim 1 or 2,
The sound detection means detects a sound signal of a channel whose sound characteristics are relatively louder than sound signals of other channels among sound signals of each channel as a sound signal including sound. Sound signal processing device.
前記音声検出手段は、各チャンネルの音信号のうち、他のチャンネルの音信号と音特性で相関性が低いチャンネルの音信号を音声が含まれる音信号として検出する
ことを特徴とした音信号処理装置。 The sound signal processing device according to any one of claims 1 to 3,
The sound detection means detects sound signals of channels whose sound characteristics are low in correlation with sound signals of other channels, among sound signals of each channel, as sound signals containing sound apparatus.
前記音声検出手段は、隣接されるスピーカーに対応するチャンネルの音信号同士で音特性の相関性が高く、かつ、他のチャンネルの音信号では音特定の相関性が低いチャンネルの音信号を音声が含まれる音信号として検出する
ことを特徴とした音信号処理装置。 The sound signal processing device according to claim 4,
The sound detection means has a sound characteristic of a channel having a high correlation in sound characteristics between sound signals of channels corresponding to adjacent speakers, and a sound signal of a channel having a low sound specific correlation in the sound signals of other channels. A sound signal processing apparatus, characterized in that the sound signal is detected as an included sound signal.
前記音声検出手段は、各チャンネルの音信号の音特性における周波数帯域を解析することにより音声が含まれているか否かを判断する
ことを特徴とした音信号処理装置。 The sound signal processing device according to any one of claims 1 to 5,
The sound signal processing apparatus, wherein the sound detection means determines whether or not sound is included by analyzing a frequency band in a sound characteristic of a sound signal of each channel.
前記音声検出手段は、各チャンネルの音信号における全体の周波数帯域に対して300Hz以上4kHz以下の周波数帯域の割合が多いチャンネルの音信号を音声が含まれる音信号として検出する
ことを特徴とした音信号処理装置。 The sound signal processing apparatus according to claim 6,
The sound detection means detects a sound signal of a channel having a large proportion of a frequency band of 300 Hz to 4 kHz with respect to the entire frequency band in the sound signal of each channel as a sound signal containing sound. Signal processing device.
前記演算手段は、
前記チャンネルの音信号のうち人の音声が含まれる音信号を、それぞれの音特性の比較に基づいて検出する音声検出工程と、
この音声検出工程で検出した音声が含まれるチャンネルの音信号のみをダイナミックレンジ圧縮する圧縮処理工程と、を実施する
ことを特徴とする音信号処理方法。 In order to reproduce sound signals of channels corresponding to these speakers from a plurality of speakers arranged around a reference point, the sound signal processing method of processing the sound signal by a calculation means,
The computing means is
A sound detection step of detecting a sound signal including a human voice among the sound signals of the channel based on a comparison of respective sound characteristics;
A sound signal processing method comprising: performing a dynamic range compression only on a sound signal of a channel including sound detected in the sound detection step.
ことを特徴とした音信号処理プログラム。 A sound signal processing program for causing a calculation means to function as the sound signal processing device according to any one of claims 1 to 7.
この音信号処理装置により基準点の周囲に配置される複数のスピーカーに対応して処理されたチャンネルの音信号を前記スピーカーで出力させる出力手段と、
を具備したことを特徴とした再生装置。 The sound signal processing device according to any one of claims 1 to 7,
Output means for outputting sound signals of channels processed by the sound signal processing device corresponding to a plurality of speakers arranged around the reference point by the speakers;
A playback apparatus comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009078326A JP2010230972A (en) | 2009-03-27 | 2009-03-27 | Voice signal processing device, method and program therefor, and reproduction device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009078326A JP2010230972A (en) | 2009-03-27 | 2009-03-27 | Voice signal processing device, method and program therefor, and reproduction device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010230972A true JP2010230972A (en) | 2010-10-14 |
Family
ID=43046843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009078326A Pending JP2010230972A (en) | 2009-03-27 | 2009-03-27 | Voice signal processing device, method and program therefor, and reproduction device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010230972A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018155480A1 (en) * | 2017-02-27 | 2018-08-30 | ヤマハ株式会社 | Information processing method and information processing device |
WO2019064719A1 (en) * | 2017-09-28 | 2019-04-04 | 株式会社ソシオネクスト | Acoustic signal processing device and acoustic signal processing method |
US10789972B2 (en) | 2017-02-27 | 2020-09-29 | Yamaha Corporation | Apparatus for generating relations between feature amounts of audio and scene types and method therefor |
JP2021186579A (en) * | 2020-06-05 | 2021-12-13 | 株式会社藤商事 | Game machine |
-
2009
- 2009-03-27 JP JP2009078326A patent/JP2010230972A/en active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018155480A1 (en) * | 2017-02-27 | 2018-08-30 | ヤマハ株式会社 | Information processing method and information processing device |
JPWO2018155480A1 (en) * | 2017-02-27 | 2020-01-23 | ヤマハ株式会社 | Information processing method and information processing apparatus |
US10789972B2 (en) | 2017-02-27 | 2020-09-29 | Yamaha Corporation | Apparatus for generating relations between feature amounts of audio and scene types and method therefor |
US11011187B2 (en) | 2017-02-27 | 2021-05-18 | Yamaha Corporation | Apparatus for generating relations between feature amounts of audio and scene types and method therefor |
US11087779B2 (en) | 2017-02-27 | 2021-08-10 | Yamaha Corporation | Apparatus that identifies a scene type and method for identifying a scene type |
US11756571B2 (en) | 2017-02-27 | 2023-09-12 | Yamaha Corporation | Apparatus that identifies a scene type and method for identifying a scene type |
WO2019064719A1 (en) * | 2017-09-28 | 2019-04-04 | 株式会社ソシオネクスト | Acoustic signal processing device and acoustic signal processing method |
JPWO2019064719A1 (en) * | 2017-09-28 | 2020-09-10 | 株式会社ソシオネクスト | Acoustic signal processing device and acoustic signal processing method |
US10993060B2 (en) | 2017-09-28 | 2021-04-27 | Socionext Inc. | Acoustic signal processing device and acoustic signal processing method |
JP2021186579A (en) * | 2020-06-05 | 2021-12-13 | 株式会社藤商事 | Game machine |
JP7191064B2 (en) | 2020-06-05 | 2022-12-16 | 株式会社藤商事 | game machine |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4128916B2 (en) | Subtitle control apparatus and method, and program | |
EP2268012B1 (en) | Display device with object-oriented stereo coordinate sound output | |
US7725203B2 (en) | Enhancing perceptions of the sensory content of audio and audio-visual media | |
US8121307B2 (en) | In-vehicle sound control system | |
KR101249239B1 (en) | Audio level control | |
KR20070065401A (en) | A system and a method of processing audio data, a program element and a computer-readable medium | |
JPH07129190A (en) | Talk speed change method and device and electronic device | |
JP2010230972A (en) | Voice signal processing device, method and program therefor, and reproduction device | |
EP2849341A1 (en) | Loudness control at audio rendering of an audio signal | |
JP2007334968A (en) | Voice switching apparatus | |
US12075234B2 (en) | Control apparatus, signal processing method, and speaker apparatus | |
CN107886964B (en) | Audio processing method and system | |
JP2008294953A (en) | Volume control apparatus, and computer program | |
JP5202021B2 (en) | Audio signal conversion apparatus, audio signal conversion method, control program, and computer-readable recording medium | |
JP2006020231A (en) | Audio reproducing apparatus | |
JPH10282992A (en) | Speech processing device | |
JP2007219122A (en) | Audio equipment and program | |
JP7515128B2 (en) | Ear-worn device and playback method | |
JP2007158873A (en) | Voice correcting device | |
CN112243191B (en) | Sound processing device and sound processing method | |
WO2023162508A1 (en) | Signal processing device, and signal processing method | |
WO2023119764A1 (en) | Ear-mounted device and reproduction method | |
KR100703923B1 (en) | 3d sound optimizing apparatus and method for multimedia devices | |
KR101518068B1 (en) | Audio device | |
JP2023070705A (en) | Voice output device, television receiver, control method and program |