JP5321171B2 - Sound processing apparatus and program - Google Patents
Sound processing apparatus and program Download PDFInfo
- Publication number
- JP5321171B2 JP5321171B2 JP2009064758A JP2009064758A JP5321171B2 JP 5321171 B2 JP5321171 B2 JP 5321171B2 JP 2009064758 A JP2009064758 A JP 2009064758A JP 2009064758 A JP2009064758 A JP 2009064758A JP 5321171 B2 JP5321171 B2 JP 5321171B2
- Authority
- JP
- Japan
- Prior art keywords
- intensity
- sound
- frequency
- target sound
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、所定の方向から到来する音響(以下「目的音」という)と目的音以外の音響(以下「非目的音」という)との混合音から非目的音(特に定常的な成分)を推定する技術に関する。 In the present invention, a non-target sound (especially a stationary component) is obtained from a mixed sound of sound arriving from a predetermined direction (hereinafter referred to as “target sound”) and sound other than the target sound (hereinafter referred to as “non-target sound”). It relates to estimation technology.
複数の収音機器が生成した複数の音信号における複数の周波数(周波数帯域)の各々を、目的音が優勢な目的音周波数と非目的音が優勢な非目的音周波数とに選別する技術が従来から提案されている。例えば非特許文献1には、複数の音信号のうち目的音の音源に近い収音機器が生成した音信号の強度が高い周波数を目的音周波数に選別する技術(SAFIA)が開示されている。また、特許文献1には、目的音を強調した目的音優勢信号と目的音を抑制した目的音劣勢信号とを複数の音信号の遅延および加算(すなわちビームの形成)で生成し、目的音優勢信号の強度が目的音劣勢信号の強度を上回る周波数を目的音周波数に選別する技術が開示されている。
Conventionally, a technology for selecting each of a plurality of frequencies (frequency bands) in a plurality of sound signals generated by a plurality of sound collecting devices into a target sound frequency in which the target sound is dominant and a non-target sound frequency in which the non-target sound is dominant. Proposed by For example, Non-Patent
ところで、非特許文献1や特許文献1の技術のもとでは、所定の方向からの到来音であるか否かという基準で目的音と非目的音とが区別される。したがって、空調設備の動作音や人込み内での雑踏音などの時間的に定常的な雑音(以下「非目的定常音」という)が存在し、かつ、音響的な特性(例えば音量や音高)が刻々と変化する音声や楽音などの音響(以下「非目的変動音」という)が目的音とは別方向から到来する環境では、非目的定常音および非目的変動音の双方が区別なく非目的音として抽出される。すなわち、非目的定常音のみを非目的音として抽出することは困難である。以上の事情を背景として、本発明は、非目的定常音および非目的変動音の双方が存在する環境のもとで非目的定常音のみを高精度に抽出することを目的とする。
By the way, under the techniques of Non-Patent
以上の課題を解決するために、本発明に係る音処理装置は、複数の収音機器が生成した複数の音信号から、複数の周波数のうち目的音とは別方向から到来する非目的音が優勢な各非目的音周波数の成分の強度(振幅またはパワー)を、単位区間毎に特定する音源分離手段と、単位区間毎に雑音スペクトルを生成する雑音推定手段とを具備し、雑音推定手段は、第1単位区間における一の非目的音周波数の成分の強度(例えば図4の強度XB(k))が、第1単位区間の開始前の第2単位区間の雑音スペクトルにおける一の非目的音周波数での強度(例えば図4の強度μn-1(k))を超える閾値(例えば図4の閾値XTH)を下回る場合、第1単位区間の雑音スペクトルにおける一の非目的音周波数での強度(例えば図4の強度μn(k))を、第1単位区間における一の非目的音周波数の成分の強度と、第2単位区間の雑音スペクトルにおける一の非目的音周波数での強度とに応じて設定し、第1単位区間における一の非目的音周波数の成分の強度が閾値を上回る場合、第1単位区間の雑音スペクトルにおける一の非目的音周波数での強度を、第1単位区間における一の非目的音周波数の成分の強度を反映させずに、第2単位区間の雑音スペクトルにおける一の非目的音周波数での強度を上回る数値に設定する。以上の構成においては、第1単位区間における一の非目的音周波数の成分の強度が閾値を上回る場合(例えば一の非目的音周波数に非目的変動音が発生した場合)に、第1単位区間における当該非目的音周波数の成分の強度を反映させずに雑音スペクトルの強度が設定されるから、非目的定常音のみを高精度に抽出した(すなわち非目的変動音を有効に抑制した)雑音スペクトルを生成することが可能である。また、第2単位区間の雑音スペクトルの強度を上回る数値が第1単位区間の雑音スペクトルの強度として適用されるから、音処理装置の動作中に新たに発生した非目的定常音を適切に雑音スペクトルに含ませることが可能である。 In order to solve the above-described problems, the sound processing apparatus according to the present invention generates a non-target sound coming from a different direction from a target sound among a plurality of frequencies from a plurality of sound signals generated by a plurality of sound collecting devices. Comprising a sound source separation means for specifying the strength (amplitude or power) of each dominant non-target sound frequency component for each unit section, and a noise estimation means for generating a noise spectrum for each unit section, The intensity of one non-target sound frequency component in the first unit section (for example, the intensity XB (k) in FIG. 4) is one non-target sound in the noise spectrum of the second unit section before the start of the first unit section. If the intensity at a frequency (for example, the intensity μn-1 (k) in FIG. 4) exceeds a threshold (for example, the threshold XTH in FIG. 4), the intensity at one non-target sound frequency in the noise spectrum of the first unit interval ( For example, the intensity μn (k)) in FIG. One non-target sound frequency component in the first unit section is set according to the intensity of the one non-target sound frequency component and the intensity at the one non-target sound frequency in the noise spectrum of the second unit section. If the intensity exceeds the threshold, the intensity at one non-target sound frequency in the noise spectrum of the first unit section is reflected in the second unit without reflecting the intensity of the component of one non-target sound frequency in the first unit section. Set to a value that exceeds the intensity at one non-target sound frequency in the noise spectrum of the unit interval. In the above configuration, when the intensity of one non-target sound frequency component in the first unit section exceeds a threshold (for example, when a non-target fluctuation sound is generated at one non-target sound frequency), the first unit section Since the intensity of the noise spectrum is set without reflecting the intensity of the component of the non-target sound frequency in, only the non-target stationary sound is extracted with high accuracy (that is, the non-target fluctuation sound is effectively suppressed). Can be generated. In addition, since a numerical value exceeding the noise spectrum intensity of the second unit section is applied as the noise spectrum intensity of the first unit section, the non-target stationary sound newly generated during the operation of the sound processing apparatus is appropriately treated as the noise spectrum. Can be included.
第1単位区間の雑音スペクトルの強度は、第1単位区間の開始前(例えば直前)の1個の単位区間(第2単位区間)の雑音スペクトルの強度、または、第1単位区間の開始前の複数の単位区間(第2単位区間)の各々の雑音スペクトルの強度に応じて設定される。本発明の好適な態様における雑音推定手段は、第1単位区間における一の非目的音周波数の成分の強度が閾値を下回る場合に、第1単位区間の一の非目的音周波数の成分の強度と、第2単位区間の雑音スペクトルにおける一の非目的音周波数での強度との加重和(例えば数式(2))を、第1単位区間の雑音スペクトルにおける一の非目的音周波数での強度として設定する。以上の態様においては、第1単位区間の非目的音周波数の強度と第2単位区間の雑音スペクトルの強度との加重和が第1単位区間の雑音スペクトルの強度として算定されるから、第1単位区間からみて過去の複数の単位区間にわたって雑音スペクトルを保持する必要がないという利点がある。なお、本発明における「周波数」は、周波数軸上の1点の周波数に加えて、周波数軸上で拡がりを持った周波数帯域を含む概念である。 The intensity of the noise spectrum of the first unit section is the intensity of the noise spectrum of one unit section (second unit section) before the start of the first unit section (for example, immediately before), or before the start of the first unit section. It is set according to the intensity of each noise spectrum of a plurality of unit intervals (second unit intervals). According to a preferred aspect of the present invention, when the intensity of one non-target sound frequency component in the first unit section is below a threshold, the noise estimation means The weighted sum (for example, Equation (2)) with the intensity at one non-target sound frequency in the noise spectrum of the second unit section is set as the intensity at one non-target sound frequency in the noise spectrum of the first unit section. To do. In the above aspect, since the weighted sum of the intensity of the non-target sound frequency in the first unit interval and the intensity of the noise spectrum in the second unit interval is calculated as the intensity of the noise spectrum in the first unit interval, There is an advantage that it is not necessary to hold the noise spectrum over a plurality of past unit intervals when viewed from the interval. The “frequency” in the present invention is a concept including a frequency band having a spread on the frequency axis in addition to a single frequency on the frequency axis.
本発明の好適な態様において、音源分離手段は、複数の周波数のうち目的音が優勢な各目的音周波数の成分で構成される目的音スペクトルを生成し、目的音スペクトルから雑音スペクトルを減算する雑音抑圧手段を具備する。以上の態様においては、目的音周波数に選別された成分で構成される目的音スペクトルから非目的定常音の雑音スペクトルが減算されるから、非目的変動音および非目的定常音の双方を有効に抑圧することが可能である。 In a preferred aspect of the present invention, the sound source separation means generates a target sound spectrum composed of components of each target sound frequency where the target sound is dominant among a plurality of frequencies, and subtracts the noise spectrum from the target sound spectrum. Suppressing means is provided. In the above aspect, since the noise spectrum of the non-target stationary sound is subtracted from the target sound spectrum composed of the components selected for the target sound frequency, both the non-target fluctuation sound and the non-target stationary sound are effectively suppressed. Is possible.
以上の各態様に係る音処理装置は、音処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、 複数の収音機器が生成した複数の音信号から、複数の周波数のうち目的音とは別方向から到来する非目的音が優勢な各非目的音周波数の成分の強度を、単位区間毎に特定する音源分離処理と、単位区間毎に雑音スペクトルを生成する処理であって、第1単位区間における一の非目的音周波数の成分の強度が、第1単位区間の開始前の第2単位区間の雑音スペクトルにおける一の非目的音周波数での強度を超える閾値を下回る場合、第1単位区間の雑音スペクトルにおける一の非目的音周波数での強度を、第1単位区間における一の非目的音周波数の成分の強度と、第2単位区間の雑音スペクトルにおける一の非目的音周波数での強度とに応じて設定し、第1単位区間における一の非目的音周波数の成分の強度が閾値を上回る場合、第1単位区間の雑音スペクトルにおける一の非目的音周波数での強度を、第1単位区間における一の非目的音周波数の成分の強度を反映させずに、第2単位区間の雑音スペクトルにおける一の非目的音周波数での強度を上回る数値に設定する雑音推定処理とをコンピュータに実行させる。以上のプログラムによれば、本発明に係る信号処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。 The sound processing apparatus according to each aspect described above is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to sound processing, and a general-purpose arithmetic processing apparatus such as a CPU (Central Processing Unit). This is also realized through collaboration with programs. The program according to the present invention is based on a plurality of sound signals generated by a plurality of sound collecting devices, and the intensity of each non-target sound frequency component in which a non-target sound arriving from a direction different from the target sound is dominant among a plurality of frequencies. Sound source separation processing for identifying each unit section and processing for generating a noise spectrum for each unit section, where the intensity of one non-target sound frequency component in the first unit section is the start of the first unit section If the noise spectrum of the second unit interval is less than the threshold value exceeding the intensity at one non-target sound frequency, the intensity at one non-target sound frequency in the noise spectrum of the first unit interval is It is set according to the intensity of one non-target sound frequency component and the intensity of one non-target sound frequency in the noise spectrum of the second unit section, and the one non-target sound frequency component of the first unit section Strength is threshold If the value exceeds the value, the intensity at one non-target sound frequency in the noise spectrum of the first unit section is not reflected in the intensity of the component of one non-target sound frequency in the first unit section. The computer executes noise estimation processing for setting a numerical value exceeding the intensity at one non-target sound frequency in the noise spectrum. According to the above program, the same operation and effect as the signal processing apparatus according to the present invention are exhibited. The program of the present invention is provided to a user in a form stored in a computer-readable recording medium and installed in the computer, or provided from a server device in a form of distribution via a communication network and installed in the computer. Is done.
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音処理装置のブロック図である。図1に示すように、音処理装置100には収音機器M1と収音機器M2とが接続される。収音機器M1および収音機器M2は、周囲の音響の波形を表す信号を生成する無指向性(略無指向性)のマイクロホンである。目的音と非目的音との混合音が周囲から収音機器M1および収音機器M2に到達する。収音機器M1および収音機器M2の各々は、目的音と非目的音との混合音の波形を表す電気信号を生成する。収音機器M1は音信号S1を生成し、収音機器M2は音信号S2を生成する。
<A: First Embodiment>
FIG. 1 is a block diagram of a sound processing apparatus according to the first embodiment of the present invention. As shown in FIG. 1, a sound collection device M1 and a sound collection device M2 are connected to the sound processing apparatus 100. The sound collection device M1 and the sound collection device M2 are omnidirectional (substantially omnidirectional) microphones that generate a signal representing a surrounding acoustic waveform. The mixed sound of the target sound and the non-target sound reaches the sound collecting device M1 and the sound collecting device M2 from the surroundings. Each of the sound collecting device M1 and the sound collecting device M2 generates an electrical signal representing a waveform of a mixed sound of the target sound and the non-target sound. The sound collecting device M1 generates a sound signal S1, and the sound collecting device M2 generates a sound signal S2.
目的音は、既知の方向D0から収音機器M1および収音機器M2に到来する音響である。例えば利用者の発話音が入力される電子機器(例えば携帯電話機)に音処理装置100が搭載される場合、電子機器の本体に対して正面の方向D0から発話音が目的音として到来する。収音機器M1と収音機器M2とは、目的音が到来する方向D0に垂直な方向に沿って相互に離間して配置される。一方、非目的音は、目的音の方向D0とは別方向(DR,DL)から到来する音響である。方向D0に対して時計回りに45°の方向DRや方向D0に対して反時計回りに45°の方向DLから収音機器M1および収音機器M2に非目的音が到来する。 The target sound is sound that arrives at the sound collecting device M1 and the sound collecting device M2 from the known direction D0. For example, when the sound processing apparatus 100 is mounted on an electronic device (for example, a mobile phone) to which a user's speech sound is input, the speech sound arrives as a target sound from the front direction D0 with respect to the main body of the electronic device. The sound collection device M1 and the sound collection device M2 are arranged apart from each other along a direction perpendicular to the direction D0 in which the target sound arrives. On the other hand, the non-target sound is sound coming from a direction (DR, DL) different from the direction D0 of the target sound. The non-target sound arrives at the sound collecting device M1 and the sound collecting device M2 from the direction DR of 45 ° clockwise with respect to the direction D0 and the direction DL of 45 ° counterclockwise with respect to the direction D0.
音処理装置100は、目的音と非目的音との混合音のうちの非目的音を抑制した音信号SOUTを音信号S1および音信号S2から生成する。音信号SOUTは、放音機器(例えばスピーカやヘッドホン)に供給されることで音響として再生される。なお、音信号S1および音信号S2をデジタル信号に変換するA/D変換器や、音信号SOUTをアナログ信号に変換するD/A変換器の図示は便宜的に省略されている。 The sound processing apparatus 100 generates a sound signal SOUT that suppresses the non-target sound of the mixed sound of the target sound and the non-target sound from the sound signal S1 and the sound signal S2. The sound signal SOUT is reproduced as sound by being supplied to a sound emitting device (for example, a speaker or headphones). Note that an A / D converter that converts the sound signal S1 and the sound signal S2 into a digital signal and a D / A converter that converts the sound signal SOUT into an analog signal are omitted for convenience.
図1に示すように、音処理装置100は、演算処理装置12と記憶装置14とを含むコンピュータシステムで実現される。記憶装置14は、音信号S1および音信号S2から音信号SOUTを生成するためのプログラムや各種のデータを記憶する。磁気記録媒体や半導体記録媒体などの公知の記録媒体が記憶装置14として任意に採用される。演算処理装置12は、記憶装置14に格納されたプログラムを実行することで複数の要素(周波数分析部20,音源分離部30,雑音推定部42,雑音抑圧部44,信号合成部50)として機能する。なお、音処理に専用される電子回路(DSP)が演算処理装置12の各要素を実現する構成や、演算処理装置12の各要素を複数の集積回路に分散的に搭載した構成も採用される。
As shown in FIG. 1, the sound processing device 100 is realized by a computer system including an
周波数分析部20は、音信号S1を時間軸上で区分した複数の単位区間(フレーム)の各々について周波数スペクトルP1を算定する。周波数スペクトルP1の特定には、FFT(Fast Fourier Transform)処理などの公知の周波数分析が任意に採用される。また、周波数分析部20は、周波数スペクトルP1の特定と同様の方法で、音信号S2の各単位区間について周波数スペクトルP2を特定する。
The
図1の音源分離部30は、周波数軸上に離散的に設定されたK個(Kは自然数)の周波数(周波数帯域)f1〜fKの各々を単位区間毎に目的音周波数FAと非目的音周波数FBとに選別することで目的音スペクトルQAおよび非目的音スペクトルQBを単位区間毎に生成する。目的音周波数FAは、目的音が優勢な周波数(典型的には目的音の音量が非目的音の音量を上回る周波数)であり、非目的音周波数FBは、非目的音が優勢な周波数(典型的には非目的音の音量が目的音の音量を上回る周波数)である。目的音スペクトルQA1は目的音周波数FAの成分で構成され、非目的音スペクトルQBは非目的音周波数FBの成分で構成される。目的音周波数FAと非目的音周波数FBとの選別には、以下に例示するように、目的音が到来する方向D0と非目的音が到来する方向(DR,DL)との相違を利用した方法(特許文献1)が好適に採用される。
The sound
図2は、音源分離部30のブロック図である。図2に示すように、音源分離部30は、信号処理部32と周波数選別部34と強度特定部36とを含んで構成される。信号処理部32は、複数の方向(D0,DR,DL)の各々からの到来音を他方向からの到来音と比較して抑制した複数の周波数スペクトル(P0,PR,PL)を周波数スペクトルP1および周波数スペクトルP2から生成する。図3は、信号処理部32による処理の内容を説明するためのグラフである。図3の横軸は、目的音の方向D0を基準(0°)とした角度θを意味し、図3の縦軸は信号の強度(振幅またはパワー)を意味する。
FIG. 2 is a block diagram of the sound
図2に示すように、信号処理部32は、第1処理部321と第2処理部322と第3処理部323とで構成される。第1処理部321は、周波数スペクトルP1から周波数スペクトルP2を減算することで周波数スペクトルP0を生成する。方向D0から到来する目的音は略同位相で収音機器M1および収音機器M2に到達するから、周波数スペクトルP0は、図3に符号B0(実線)で示すように、方向D0から到来する目的音を別方向からの到来音に対して抑制したスペクトルに相当する。すなわち、第1処理部321は、方向D0に収音上の死角を形成する死角制御型(null)のビームフォーマである。
As shown in FIG. 2, the
第2処理部322は、音信号S1を遅延量Dだけ遅延させた信号の周波数スペクトルD(P1)を周波数スペクトルP2から減算することで周波数スペクトルPRを生成する。遅延量Dは、方向DRからの到来音が収音機器M1に到達する時点と収音機器M2に到達する時点との時間差に設定される。したがって、周波数スペクトルPRは、図3に符号BR(破線)で示すように、方向DRから到来する非目的音を別方向からの到来音に対して抑制したスペクトルに相当する。すなわち、第2処理部322は、方向DRに収音上の死角を形成する死角制御型のビームフォーマである。同様に、第3処理部323は、図3に符号BLで示すように、音信号S2を遅延量Dだけ遅延させた信号の周波数スペクトルD(P2)を周波数スペクトルP1から減算することで、方向DLからの非目的音を抑制した周波数スペクトルPLを生成する死角制御型のビームフォーマである。
The
図2の周波数選別部34は、信号処理部32が生成した3種類の周波数スペクトル(P0,PR,PL)の強度をK個の周波数f1〜fKの各々について比較することで、K個の周波数f1〜fKの各々を目的音周波数FAと非目的音周波数FBとに選別する。図2に示すように、周波数選別部34は、第1比較部341と第2比較部342とを含んで構成される。
2 compares the intensities of the three types of frequency spectra (P0, PR, and PL) generated by the
第1比較部341は、周波数スペクトルPRと周波数スペクトルPLとの間でK個の周波数f1〜fKの各々における強度を比較することで周波数スペクトルPLRを生成する。周波数スペクトルPLRの周波数fkにおける強度は、周波数スペクトルPRの周波数fkにおける強度と周波数スペクトルPLの周波数fkにおける強度とのうちの低い方の強度に設定される。周波数スペクトルPRは方向DRからの非目的音を抑制したスペクトルであり、周波数スペクトルPLは方向DLからの非目的音を抑制したスペクトルであるから、周波数スペクトルPLRは、方向DRおよび方向DLの非目的音を抑制したスペクトル(すなわち、方向D0からの目的音を強調したスペクトル)に相当する。
The
第2比較部342は、周波数スペクトルP0と周波数スペクトルPLRとの間でK個の周波数f1〜fKの各々おける強度を比較する。周波数スペクトルP0は非目的音を強調したスペクトルであり、周波数スペクトルPLRは目的音を強調したスペクトルである。したがって、第2比較部342は、K個の周波数f1〜fKのうち周波数スペクトルPLRの強度が周波数スペクトルP0の強度を上回る周波数fkを目的音周波数FAに選別するとともに、K個の周波数f1〜fKのうち周波数スペクトルP0の強度が周波数スペクトルPLRの強度を上回る周波数fkを非目的音周波数FBに選別する。
The
図2の強度特定部36は、周波数選別部34による選別の結果を利用して単位区間毎に目的音スペクトルQAと非目的音スペクトルQBとを生成する。目的音スペクトルQAは、目的音の強度に応じて周波数fk毎に設定された強度XA(k)の系列(XA(1)〜XA(K))であり、非目的音スペクトルQBは、非目的音の強度に応じて周波数fk毎に設定された強度XB(k)の系列(XB(1)〜XB(K))である。強度XA(k)および強度XB(k)の設定について以下に詳述する。
The
図3に示すように、周波数スペクトルP0(符号B0)においては非目的音が強調され、周波数スペクトルPLRにおいては目的音が強調される。そこで、強度特定部36は、目的音スペクトルQAのうち目的音周波数FAに選別された各周波数fkの強度XA(k)を、周波数スペクトルPLRの当該周波数fkでの強度(主に目的音に由来する強度)から周波数スペクトルP0の当該周波数fkでの強度(主に非目的音に由来する強度)を減算した数値に設定する。以上のように周波数スペクトルPLRから周波数スペクトルP0を減算(スペクトルサブトラクション)することで各目的音周波数FAの強度XA(k)が算定されるから、周波数スペクトルPLRの目的音周波数FAに包含される非目的音の影響を効果的に低減した目的音スペクトルQAを生成することが可能である。もっとも、目的音が強調された周波数スペクトルPLRの強度を目的音スペクトルQAの強度XA(k)として設定する構成も好適である。目的音スペクトルQAのうち非目的音周波数FBに選別された各周波数fkの強度XA(k)はゼロに設定される。
As shown in FIG. 3, the non-target sound is emphasized in the frequency spectrum P0 (symbol B0), and the target sound is emphasized in the frequency spectrum PLR. Therefore, the
また、強度特定部36は、非目的音スペクトルQBのうち非目的音周波数FBに選別された各周波数fkにおける強度XB(k)を、周波数分析部20が生成した周波数スペクトルP1の当該周波数fkにおける強度に設定する。なお、非目的音スペクトルQBの非目的音周波数FBにおける強度XBを、周波数スペクトルP2の当該周波数fkにおける強度に設定する構成や、周波数スペクトルP0の当該周波数fkにおける強度(主に非目的音に由来する強度)から周波数スペクトルPLRの当該周波数fkにおける強度(主に目的音に由来する強度)を減算した数値に設定する構成も採用される。非目的音スペクトルQBのうち目的音周波数FAに選別された各周波数fkの強度XB(k)はゼロに設定される。
Further, the
ところで、非目的音周波数FBの成分(非目的音)には、時間的に定常(音量や音高などの音響的な特性の変化が少ない)な非目的定常音に加えて、目的音とは別方向から到来する非目的変動音が包含される。非目的定常音は、例えば空調設備の動作音や人込み内での雑踏音などの雑音であり、非目的変動音は、音量や音高などの音響的な特性が刻々と変化する音声や楽音などの妨害音である。図1の雑音推定部42は、非目的音スペクトルQB内の非目的変動音を抑制(理想的には除去)することで単位区間毎に雑音スペクトルNを生成する。第n番目の単位区間の雑音スペクトルNは、K個の周波数f1〜fKの各々における強度μn(1)〜μn(K)の系列である。
By the way, the component of the non-target sound frequency FB (non-target sound) includes the target sound in addition to the non-target stationary sound that is temporally steady (small change in acoustic characteristics such as volume and pitch). Non-target fluctuation sounds coming from other directions are included. Non-objective steady sound is noise such as operating noise of air conditioning equipment and crowded noise in crowds, and non-objective sound is voice or musical sound whose acoustic characteristics such as volume and pitch change every moment. It is a disturbance sound. The
図4は、雑音推定部42がn番目の単位区間の雑音スペクトルNを生成する動作のフローチャートである。図4の処理は単位区間毎に順次に実行される。図4の処理を開始すると、雑音推定部42は、変数kを1に初期化する(ステップS1)。変数kは、K個の周波数f1〜fKの何れかを指定する番号である。
FIG. 4 is a flowchart of an operation in which the
雑音推定部42は、周波数fkが非目的音周波数FBであるか否かを判定する(ステップS2)。周波数fkが非目的音周波数FBである場合、雑音推定部42は、第n番目の単位区間の非目的音スペクトルQBのうち周波数fk(非目的音周波数FB)における強度XB(k)が閾値XTHを上回るか否かを判定する(ステップS3)。
The
閾値XTHは、以下の数式(1)で定義されるように、雑音推定部42が直前(第(n-1)番目)の単位区間について生成した雑音スペクトルNの周波数fkにおける強度μn-1(k)と係数τとの乗算値である。係数τは、1を上回る所定値(例えば2)に設定される。したがって、閾値XTHは、強度μn-1(k)を上回る数値(強度μn-1(k)に応じた可変値)に設定される。なお、第1番目の単位区間については所定の初期値が強度μn-1(k)として適用される。
XTH=τ・μn-1(k) ……(1)
As defined by the following formula (1), the threshold value XTH is the intensity μn−1 () at the frequency fk of the noise spectrum N generated by the
XTH = τ ・ μn-1 (k) (1)
非目的変動音は非目的定常音と比較して強度が変化し易いから、非目的音スペクトルQBのうち非目的変動音が発生する周波数fkの強度XB(k)は経時的な変化が大きい。したがって、ステップS3における強度XB(k)と閾値XTHとの比較は、非目的音スペクトルQBにおける周波数fkに非目的変動音が発生したか否かを判定する処理に相当する。すなわち、強度XB(k)が閾値XTHを上回る場合、非目的音スペクトルQBの周波数fkの成分は非目的変動音に該当すると推定され、強度XB(k)が閾値XTHを下回る場合、非目的音スペクトルQBの周波数fkの成分は非目的変動音に該当しない(非目的定常音に該当する)と推定される。非目的変動音の発生時に強度XB(k)が閾値XTHを上回り、非目的定常音のみが存在する場合に強度XB(k)が閾値XTHを下回るように、数式(1)の係数τは統計的または実験的に選定される。 Since the intensity of the non-target fluctuation sound is likely to change compared to the non-target stationary sound, the intensity XB (k) of the frequency fk at which the non-target fluctuation sound is generated in the non-target sound spectrum QB varies greatly with time. Therefore, the comparison between the intensity XB (k) and the threshold value XTH in step S3 corresponds to a process of determining whether or not a non-target fluctuation sound is generated at the frequency fk in the non-target sound spectrum QB. That is, when the intensity XB (k) exceeds the threshold value XTH, the frequency fk component of the non-target sound spectrum QB is estimated to correspond to the non-target fluctuation sound, and when the intensity XB (k) is lower than the threshold value XTH, the non-target sound It is estimated that the component of the frequency fk of the spectrum QB does not correspond to the non-target fluctuation sound (corresponds to the non-target stationary sound). The coefficient τ in Equation (1) is statistical so that the intensity XB (k) exceeds the threshold value XTH when a non-target fluctuation sound is generated, and the intensity XB (k) falls below the threshold value XTH when only non-target stationary sound exists. Selected experimentally or experimentally.
非目的音スペクトルQBの強度XB(k)が閾値XTHを下回る場合(すなわち、周波数fkに非目的変動音が発生していない場合)、雑音推定部42は、第n番目の単位区間の非目的音スペクトルQBの周波数fkにおける強度XB(k)と、第(n-1)番目の単位区間の雑音スペクトルNの周波数fkにおける強度μn-1(k)とから、第n番目の雑音スペクトルNの周波数fkにおける強度μn(k)を算定する(ステップS4)。強度μn(k)は、例えば以下の数式(2)で定義されるように、第n番目の単位区間の非目的音スペクトルQBにおける強度XB(k)と、第(n-1)番目の単位区間の雑音スペクトルNにおける強度μn-1(k)との加重和(加重平均)として算定される。数式(2)の係数αは1を下回る正数(例えば0.9)に設定される。数式(2)から理解されるように、係数αが大きいほど、強度μn(k)に対する強度XB(k)の影響が減少する(過去の各単位区間における強度XB(k)の影響が増大する)。
μn(k)=α・μn-1(k)+(1−α)・XB(k) ……(2)
When the intensity XB (k) of the non-target sound spectrum QB is lower than the threshold value XTH (that is, when no non-target fluctuation sound is generated at the frequency fk), the
μn (k) = α ・ μn-1 (k) + (1-α) ・ XB (k) (2)
一方、非目的音スペクトルQBの強度XB(k)が閾値XTHを上回る場合(S3:YES)、雑音推定部42は、数式(3)に示すように、第(n-1)番目の雑音スペクトルNの周波数fkにおける強度μn-1(k)を、第n番目の雑音スペクトルNの周波数fk(非目的音周波数FB)における強度μn(k)として設定する(ステップS5)。すなわち、強度XB(k)が閾値XTHを上回る場合(周波数fkの非目的変動音の発生に起因して強度XB(k)が増加した場合)、非目的音スペクトルQBの強度XB(k)は強度μn(k)に反映されない。したがって、雑音スペクトルNにおいては、非目的音スペクトルQB内の非目的変動音が抑制(除去)される。
μn(k)=μn-1(k) ……(3)
On the other hand, when the intensity XB (k) of the non-target sound spectrum QB exceeds the threshold value XTH (S3: YES), the
μn (k) = μn-1 (k) (3)
周波数fkが目的音周波数FAである場合(S2:NO)、雑音推定部42は、数式(3)と同様に、第(n-1)番目の雑音スペクトルNの強度μn(k)を、第n番目の雑音スペクトルNの周波数fk(目的音周波数FA)における強度μn(k)として設定する(ステップS6)。
When the frequency fk is the target sound frequency FA (S2: NO), the
数式(2)および数式(3)から理解されるように、第n番目の単位区間における雑音スペクトルNの強度μn(k)は、過去(第(n-1)番目以前)の複数の単位区間について算定された雑音スペクトルNの強度を累積的に反映した数値となる。すなわち、雑音スペクトルNの強度μn(k)は、非目的音周波数FBに選別された周波数fkの強度XB(k)が閾値XTHを下回る複数の単位区間にわたって非目的音スペクトルQBの強度XB(k)を平滑化(平均化)した数値となる。 As understood from the equations (2) and (3), the intensity μn (k) of the noise spectrum N in the nth unit interval is a plurality of unit intervals in the past (before the (n-1) th) unit interval. It is a numerical value that cumulatively reflects the intensity of the noise spectrum N calculated for. That is, the intensity μn (k) of the noise spectrum N is equal to the intensity XB (k) of the non-target sound spectrum QB over a plurality of unit intervals where the intensity XB (k) of the frequency fk selected as the non-target sound frequency FB is lower than the threshold value XTH. ) Is a smoothed (averaged) value.
以上のように各ステップ(S4,S5,S6)で強度μn(k)を設定すると、雑音推定部42は、変数kが所定値Kに到達したか否かを判定する(ステップS7)。変数kが所定値Kに到達していない場合、雑音推定部42は、変数kに1を加算したうえで(ステップS8)、処理をステップS2に移行する。すなわち、K個の周波数f1〜fKの各々について強度μn(k)が順次に算定される。変数kが数値Kに到達した場合(すなわち、強度μn(1)〜μn(K)の算定が完了した場合)、雑音推定部42は図4の処理を終了する(S7:YES)。K個の周波数f1〜fKについての強度μn(1)〜μn(K)の系列が第n番目の単位区間の雑音スペクトルNに相当する。
As described above, when the intensity μn (k) is set in each step (S4, S5, S6), the
図1の雑音抑圧部44は、雑音推定部42が生成した雑音スペクトルNを、音源分離部30が生成した目的音スペクトルQAから減算(スペクトルサブトラクション)することで雑音抑圧スペクトルQCを生成する。具体的には、雑音抑圧部44は、第n番目の単位区間の目的音スペクトルQAにおける周波数fkの強度XA(k)から、当該単位区間について生成された雑音スペクトルNの周波数fkにおける強度μn(k)を減算することで雑音抑圧スペクトルQCを生成する。
The
すなわち、第n番目の単位区間について雑音抑圧スペクトルQCの周波数fkにおける強度XC(k)は数式(4a)で表現される。ただし、数式(4a)の右辺(XA(k)−μn(k))が負数となる周波数fkの強度XC(k)はゼロに設定される。また、雑音抑圧スペクトルQCは数式(4b)で表現される。数式(4b)の記号ejθ(k)は目的音スペクトルQAの位相成分である。数式(4a)および数式(4b)から理解されるように、雑音抑圧スペクトルQCは、方向D0からの到来音(目的音スペクトルQA)から非目的定常音(雑音スペクトルN)を抑圧した音響(すなわち目的音)のスペクトルに相当する。
XC(k)=XA(k)−μn(k) ……(4a)
QC={XA(k)−μn(k)}ejθ(k) ……(4b)
That is, the intensity XC (k) at the frequency fk of the noise suppression spectrum QC for the nth unit interval is expressed by the equation (4a). However, the intensity XC (k) of the frequency fk at which the right side (XA (k) −μn (k)) of the formula (4a) is a negative number is set to zero. In addition, the noise suppression spectrum QC is expressed by Equation (4b). The symbol e jθ (k) in the equation (4b) is a phase component of the target sound spectrum QA. As can be understood from the equations (4a) and (4b), the noise suppression spectrum QC is a sound obtained by suppressing the non-target stationary sound (noise spectrum N) from the incoming sound (target sound spectrum QA) from the direction D0 (ie, the noise spectrum N). This corresponds to the spectrum of the target sound.
XC (k) = XA (k) -μn (k) (4a)
QC = {XA (k) −μn (k)} e jθ (k) (4b)
信号合成部50は、雑音抑圧部44が生成した雑音抑圧スペクトルQCから時間領域の音信号SOUTを生成する。図1に示すように、信号合成部50は、調整部52と合成部54と逆変換部56とで構成される。調整部52は、音源分離部30が生成した非目的音スペクトルQBの各強度XB(1)〜XB(K)に係数pを乗算する。係数pは所定の正数(例えば0.01)に設定される。
The signal synthesis unit 50 generates a time-domain sound signal SOUT from the noise suppression spectrum QC generated by the
合成部54は、雑音抑圧部44が生成した雑音抑圧スペクトルQCと調整部52による処理後の非目的音スペクトルQBとを合成することで単位区間毎に出力スペクトルRを生成する。出力スペクトルRは、雑音抑圧スペクトルQCのうち目的音周波数FAに選別された各周波数fkの強度XC(k)と非目的音スペクトルQBのうち非目的音周波数FBに選別された各周波数fkの強度XB(k)とを周波数軸に沿って配列した系列である。すなわち、出力スペクトルRのうち目的音周波数FAに選別された各周波数fkの強度は、雑音抑圧スペクトルQCの強度XC(k)に設定され、出力スペクトルRのうち非目的音周波数FBに選別された各周波数fkの強度は、非目的スペクトルQBの強度XB(k)と係数pとの乗算値に設定される。以上のように、調整部52による調整後の非目的音スペクトルQBが雑音抑圧スペクトルQCに合成されるから、雑音抑圧スペクトルQCを出力スペクトルRとして出力する構成(再生音のうち非目的音周波数FBの強度がゼロに設定される構成)と比較して、聴感的に自然な再生音を生成することが可能である。
The
逆変換部56は、各単位区間の出力スペクトルRを逆FFT処理で時間領域の信号に変換し、各単位区間の変換後の信号を時間軸上で相互に連結することで音信号SOUTを生成する。放音機器(図示略)に音信号SOUTが供給されることで、非目的音が抑制されるとともに目的音が強調された再生音が放音される。
The
以上の形態においては、目的音の方向D0と非目的音の方向(DR,DL)との相違を利用して目的音周波数FAと非目的音周波数FBとが選別されるから、目的音と非目的音とで音響的な特徴が類似する場合であっても、目的音スペクトルQAと非目的音スペクトルQBとを高精度に分離できる。さらに、非目的音スペクトルQBから生成された雑音スペクトルNが目的音スペクトルQAから減算されるから、非目的定常音を効果的に低減した雑音抑圧スペクトルQC(さらには出力スペクトルRや再生音)を生成できるという利点がある。 In the above embodiment, the target sound frequency FA and the non-target sound frequency FB are selected using the difference between the direction D0 of the target sound and the direction (DR, DL) of the non-target sound. Even if the target sound has similar acoustic characteristics, the target sound spectrum QA and the non-target sound spectrum QB can be separated with high accuracy. Further, since the noise spectrum N generated from the non-target sound spectrum QB is subtracted from the target sound spectrum QA, the noise suppression spectrum QC (and the output spectrum R and reproduced sound) that effectively reduces the non-target steady sound is obtained. There is an advantage that it can be generated.
また、以上の形態においては、非目的音スペクトルQBの強度XB(k)が閾値XTHを上回る周波数fkについては雑音スペクトルNの強度μn(k)に強度XB(k)が反映されないから、非目的定常音および非目的変動音の双方が存在する環境においても、非目的定常音のみを高精度に抽出した雑音スペクトルNを生成することが可能である。本形態の効果を以下に詳述する。 Further, in the above form, the intensity XB (k) is not reflected in the intensity μn (k) of the noise spectrum N for the frequency fk where the intensity XB (k) of the non-target sound spectrum QB exceeds the threshold value XTH. Even in an environment where both stationary sound and non-target fluctuation sound exist, it is possible to generate a noise spectrum N obtained by extracting only non-target stationary sound with high accuracy. The effect of this form is explained in full detail below.
図5および図6は、各単位区間の雑音スペクトルNの時系列(スペクトログラム)である。図5は、第1実施形態における雑音スペクトルNの時系列であり、図6は、第1実施形態との対比例における雑音スペクトルNの時系列である。対比例は、非目的音周波数FBの強度XB(k)に拘わらず、雑音スペクトルNの強度μn(k)を数式(2)で算定する形態(すなわち、図4のステップS3とステップS5とを省略した形態)である。 5 and 6 are time series (spectrogram) of the noise spectrum N of each unit section. FIG. 5 is a time series of the noise spectrum N in the first embodiment, and FIG. 6 is a time series of the noise spectrum N in comparison with the first embodiment. In contrast, regardless of the intensity XB (k) of the non-target sound frequency FB, the intensity μn (k) of the noise spectrum N is calculated by the equation (2) (that is, steps S3 and S5 in FIG. (Omitted form).
図5および図6においては、雑音スペクトルNのうち強度が高い周波数fk(ピークの周波数)を時間軸に沿って連結した直線が図示されている。直線が太い地点ほど強度が高いことを意味する。図5および図6の例示では、経時的に変化しない非目的定常音が雑音スペクトルN(非目的音スペクトルQB)の低域側に存在する。また、図5および図6には、非目的変動音が発生した時点が図示されている。 5 and 6, a straight line in which the frequency fk (peak frequency) having a high intensity in the noise spectrum N is connected along the time axis is illustrated. A thicker straight line means higher strength. In the illustrations of FIGS. 5 and 6, the non-target stationary sound that does not change with time exists on the low frequency side of the noise spectrum N (non-target sound spectrum QB). 5 and 6 show the time when the non-target fluctuation sound is generated.
対比例においては、非目的音スペクトルQBの強度XB(k)に拘わらず(すなわち非目的変動音の有無に拘わらず)、雑音スペクトルNの強度μn(k)は数式(2)で算定される。したがって、雑音スペクトルNは非目的定常音および非目的変動音の双方を包含する。そして、数式(2)で算定される強度μn(k)には過去の強度μn-1(k)が累積的に反映されるから、雑音スペクトルNのうち特定の時点で非目的変動音が発生した周波数fkの強度μn(k)は、図6に示すように、非目的音変動音が停止した場合であっても、後続の複数の単位区間にわたって高い数値に維持される。したがって、目的音変動音が発生した周波数fkにおける目的音スペクトルQAの強度が雑音抑圧部44による処理で過剰に低減され、耳障りなミュージカルノイズの原因になる可能性がある。
In contrast, the intensity μn (k) of the noise spectrum N is calculated by the equation (2) regardless of the intensity XB (k) of the non-target sound spectrum QB (that is, regardless of the presence or absence of non-target fluctuation sound). . Therefore, the noise spectrum N includes both non-target stationary sounds and non-target fluctuation sounds. Since the past intensity μn-1 (k) is cumulatively reflected in the intensity μn (k) calculated by Equation (2), a non-target fluctuation sound is generated at a specific time in the noise spectrum N. As shown in FIG. 6, the intensity μn (k) of the frequency fk is maintained at a high value over a plurality of subsequent unit intervals even when the non-target sound fluctuation sound is stopped. Therefore, the intensity of the target sound spectrum QA at the frequency fk where the target sound fluctuation sound is generated is excessively reduced by the processing by the
対比例とは対照的に、第1実施形態においては、強度XB(k)が閾値XTHを上回る周波数fkの強度μn(k)には強度XB(k)(すなわち周波数fkの非目的変動音の強度)が反映されないから、図5に示すように、非目的変動音を抑制した雑音スペクトルNが生成される。したがって、目的音スペクトルQAのうち非目的変動音が発生した周波数fkの強度の過剰な低減が防止され、ミュージカルノイズの発生が抑制されるという利点がある。なお、雑音スペクトルNにおいては非目的変動音が抑制されているから、雑音抑圧部44による処理で非目的変動音が目的音スペクトルQAから低減される効果は少ない。しかし、方向DRや方向DLから到来する非目的変動音は音源分離部30による選別で目的音スペクトルQAから排除されているから、雑音抑圧部44で非目的変動音が低減されないとは言っても、非目的定常音および非目的変動音の双方を高精度に抑圧した再生音を生成することが可能である。
In contrast to the proportionality, in the first embodiment, the intensity Xn (k) of the frequency fk at which the intensity XB (k) exceeds the threshold value XTH has the intensity XB (k) (that is, the non-target fluctuation sound of the frequency fk). (Intensity) is not reflected, and as shown in FIG. 5, a noise spectrum N in which non-target fluctuation sound is suppressed is generated. Therefore, there is an advantage that the intensity of the frequency fk where the non-target fluctuation sound is generated in the target sound spectrum QA is prevented from being excessively reduced, and the generation of musical noise is suppressed. Since the non-target fluctuation sound is suppressed in the noise spectrum N, the effect of reducing the non-target fluctuation sound from the target sound spectrum QA by the processing by the
ところで、第1実施形態の強度特定部36は、目的音が強調された周波数スペクトルPLRから非目的音が強調された周波数スペクトルP0を減算することで目的音スペクトルQAを生成する。すなわち、強度特定部36による処理だけでも非目的音は抑制される。しかし、例えば方向D0からの到来音に非目的定常音が含まれる場合には、周波数スペクトルPLRから周波数スペクトルP0を減算しても非目的定常音は充分に抑圧されない。非目的定常音の雑音スペクトルNが目的音スペクトルQAから減算される第1実施形態によれば、強度特定部36による処理のみで非目的音を抑制する構成(すなわち雑音抑圧部44を省略した構成)と比較して非目的定常音が効果的に抑圧されるという利点がある。
Incidentally, the
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。なお、以下の各態様において作用や機能が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
<B: Second Embodiment>
Next, a second embodiment of the present invention will be described. In addition, about the element in which an effect | action and a function are equivalent to 1st Embodiment in each following aspect, the same code | symbol as the above is attached | subjected and each detailed description is abbreviate | omitted suitably.
第1実施形態においては、非目的音スペクトルQBの強度XB(k)が閾値XTHを上回る場合に、過去の雑音スペクトルNの強度μn-1(k)を第n番目の雑音スペクトルNの強度μn(k)に設定した。以上の構成によれば、非目的変動音の影響を雑音スペクトルNから除去できる一方、閾値XTHを上回る強度XB(k)で音処理装置100の動作中に新たに発生し始めて継続する非目的定常音(以下では特に「新規定常音」という)も雑音スペクトルNから除去される。したがって、新規定常音の抑圧が不足する可能性がある。第2実施形態は、以上の問題を解消する構成である。 In the first embodiment, when the intensity XB (k) of the non-target sound spectrum QB exceeds the threshold value XTH, the intensity μn−1 (k) of the past noise spectrum N is changed to the intensity μn of the nth noise spectrum N. Set to (k). According to the above configuration, the influence of the non-target fluctuation sound can be removed from the noise spectrum N, while the non-target steady state starts to be newly generated during the operation of the sound processing apparatus 100 with the intensity XB (k) exceeding the threshold value XTH. Sound (hereinafter particularly referred to as “new stationary sound”) is also removed from the noise spectrum N. Therefore, there is a possibility that the suppression of the new stationary sound is insufficient. The second embodiment is configured to solve the above problems.
第2実施形態においては図4のステップS5の処理が第1実施形態とは相違する。非目的音スペクトルQBの強度XB(k)が閾値XTHを上回る場合(すなわち、非目的変動音または新規定常音が発生した場合)、雑音推定部42は、第1実施形態の数式(3)に代えて、以下の数式(5)の演算を実行する。すなわち、雑音推定部42は、第(n-1)番目の雑音スペクトルNの強度μn-1(k)と係数βとの乗算値を、第n番目の雑音スペクトルNの強度μn(k)として設定する(ステップS5)。
μn(k)=β・μn-1(k) ……(5)
In the second embodiment, the process of step S5 in FIG. 4 is different from that of the first embodiment. When the intensity XB (k) of the non-target sound spectrum QB exceeds the threshold value XTH (that is, when a non-target fluctuation sound or a new stationary sound is generated), the
μn (k) = β ・ μn-1 (k) (5)
係数βは、1を上回る所定値(例えば1.01)に設定される。したがって、強度XB(k)が閾値XTHを上回る状態が継続する複数の単位区間において、雑音スペクトルNの強度μn(k)は経時的に増加して非目的音(非目的変動音または新規定常音)の強度に接近する。強度μn(k)は、係数βが大きいほど迅速に非目的定常音の強度に接近する。 The coefficient β is set to a predetermined value (for example, 1.01) exceeding 1. Therefore, in a plurality of unit intervals in which the state where the intensity XB (k) exceeds the threshold value XTH continues, the intensity μn (k) of the noise spectrum N increases with time, and the non-target sound (non-target fluctuation sound or new steady sound) ) The intensity μn (k) approaches the intensity of the non-target steady sound more rapidly as the coefficient β increases.
以上の形態においては、雑音スペクトルNの強度μn(k)が経時的に新規定常音の強度に接近するから、新規定常音の特性を反映した雑音スペクトルNが生成される。したがって、新規定常音を含む非目的音を目的音スペクトルQAから効果的に抑圧することが可能である。 In the above embodiment, since the intensity μn (k) of the noise spectrum N approaches the intensity of the new stationary sound over time, the noise spectrum N reflecting the characteristics of the new stationary sound is generated. Therefore, it is possible to effectively suppress non-target sounds including new stationary sounds from the target sound spectrum QA.
なお、新規定常音の発生時だけでなく非目的変動音の発生時にも、雑音スペクトルNの強度μn(k)は数式(5)の演算で経時的に増加する。すなわち、第2実施形態においては、非目的変動音の発生が雑音スペクトルNの強度μn(k)に反映される。しかし、非目的変動音は経時的に変化し易いから、長時間にわたって高い強度に維持される可能性は新規定常音と比較して充分に低い。つまり、非目的変動音が発生した場合であっても、雑音スペクトルNの強度μn(k)が非目的変動音に充分に接近する以前に、非目的変動音が閾値XTHを下回る強度に低下する(強度μn(k)の算定に数式(2)が適用される)ことで強度μn(k)の上昇は抑制される。したがって、強度XB(k)が閾値XTHを上回る場合に雑音スペクトルNの強度μn(k)が経時的に上昇するとは言っても、非目的変動音が発生した場合の強度μn(k)の上昇は充分に小さい。すなわち、第2実施形態によれば、新規定常音を反映した雑音スペクトルNを、非目的変動音の影響を充分に抑制しながら生成できるという利点がある。 Note that the intensity μn (k) of the noise spectrum N increases with time according to the calculation of Equation (5) not only when a new stationary sound is generated but also when a non-target fluctuation sound is generated. That is, in the second embodiment, the occurrence of non-target fluctuation sound is reflected in the intensity μn (k) of the noise spectrum N. However, since the non-target fluctuation sound is likely to change with time, the possibility of being maintained at a high intensity for a long time is sufficiently low as compared with the new stationary sound. That is, even when a non-target fluctuation sound is generated, before the intensity μn (k) of the noise spectrum N sufficiently approaches the non-target fluctuation sound, the non-target fluctuation sound decreases to an intensity below the threshold value XTH. (Equation (2) is applied to the calculation of the intensity μn (k)), thereby suppressing the increase in the intensity μn (k). Therefore, although the intensity μn (k) of the noise spectrum N increases with time when the intensity XB (k) exceeds the threshold value XTH, the intensity μn (k) increases when the non-target fluctuation sound is generated. Is small enough. That is, according to the second embodiment, there is an advantage that the noise spectrum N reflecting the new stationary sound can be generated while sufficiently suppressing the influence of the non-target fluctuation sound.
<C:変形例>
以上に例示した各形態には様々に変形される。具体的な変形の態様を以下に例示する。なお、以下の例示から2以上の態様を任意に選択して組合せてもよい。
<C: Modification>
Various modifications can be made to the embodiments exemplified above. Specific modifications are exemplified below. Two or more aspects may be arbitrarily selected from the following examples and combined.
(1)変形例1
雑音抑圧部44による処理の内容は適宜に変更される。例えば、雑音抑圧スペクトルQCの強度XC(k)の算定には、数式(4a)に代えて以下の数式(6)が利用される。ただし、数式(6)の右辺(XA(k)−γ・μn(k))が所定値δ・μn(k)を下回る場合、強度XC(k)はδ・μn(k)に設定される。係数γは、1以上の所定値(例えば3〜6)に設定され、係数δは1よりも充分に小さい正数(例えば0.01)に設定される。
XC(k)=XA(k)−γ・μn(k) ……(6)
(1)
The content of processing by the
XC (k) = XA (k) −γ ・ μn (k) (6)
数式(6)から理解されるように、雑音スペクトルNの強度μn(k)が過剰に強度XA(k)から減算(オーバーサブトラクション)されるから、非目的音(非目的定常音)が充分に抑圧された高品位な再生音を生成することが可能である。一方、数式(6)の右辺(XA(k)−γ・μn(k))が所定値δ・μn(k)を下回る周波数fkについては雑音抑圧スペクトルQXの強度XC(k)が所定値δ・μn(k)に設定されるから、強度XC(k)がゼロまで低下することを防止して自然な再生音の生成が可能となる。 As understood from the equation (6), the intensity μn (k) of the noise spectrum N is excessively subtracted from the intensity XA (k) (oversubtraction), so that the non-target sound (non-target steady sound) is sufficient. It is possible to generate a suppressed high-quality reproduced sound. On the other hand, the intensity XC (k) of the noise suppression spectrum QX is the predetermined value δ for the frequency fk where the right side (XA (k) −γ · μn (k)) of the equation (6) is lower than the predetermined value δ · μn (k). Since it is set to μn (k), it is possible to prevent the intensity XC (k) from decreasing to zero and generate a natural reproduced sound.
(2)変形例2
以下に例示するように数式(2)の係数αを雑音推定部42が可変に制御する構成も好適である。
雑音抑圧スペクトルQCは、目的音スペクトルQAから雑音スペクトルNを減算することで算定されるから、非目的定常音の特性(例えば音量)の変化とともに雑音スペクトルNが変化すると、雑音抑圧スペクトルQCの特性も変化する。一方、数式(2)から理解されるように、第n番目の単位区間における非目的音周波数FBの強度XB(k)の影響は、係数αが大きい(係数(1-α)が小さい)ほど抑制される。したがって、非目的音の音量が変化したときの再生音における目的音の音量の変化は、係数αが大きいほど低減される。
(2)
As exemplified below, a configuration in which the
Since the noise suppression spectrum QC is calculated by subtracting the noise spectrum N from the target sound spectrum QA, if the noise spectrum N changes with changes in the characteristics (for example, volume) of the non-target stationary sound, the characteristics of the noise suppression spectrum QC Also changes. On the other hand, as understood from the equation (2), the influence of the intensity XB (k) of the non-target sound frequency FB in the nth unit interval is larger as the coefficient α is larger (the coefficient (1-α) is smaller). It is suppressed. Therefore, the change in the volume of the target sound in the reproduced sound when the volume of the non-target sound is changed is reduced as the coefficient α is increased.
目的音が優勢である期間(目的音周波数FAが多い期間)にて目的音の音量が顕著に変動すると聴感上において不自然な印象となるから、第n番目の単位区間における目的音周波数FAの個数が多い(非目的音周波数FBの個数が少ない)ほど係数αが増加するように、雑音推定部42が係数αを可変に制御する構成が好適である。以上の構成によれば、目的音が優勢である期間においては非目的定常音の音量が変化しても目的音の音量の変化は抑制されるから、聴感上において自然な再生音を生成することが可能となる。
If the target sound volume fluctuates significantly during a period in which the target sound is dominant (a period in which the target sound frequency FA is large), an unnatural impression will occur, so that the target sound frequency FA in the nth unit section A configuration in which the
(3)変形例3
K個の周波数f1〜fKを目的音周波数FAと非目的音周波数FBとに選別する方法は適宜に変更される。具体的には、非特許文献1や特開平10-313497号公報に開示された技術(SAFIA)が目的音周波数FAと非目的音周波数FBとの選別に利用される。例えば、収音機器M1が収音機器M2と比較して目的音の音源に近く、収音機器M2が収音機器M1と比較して非目的音の音源に近い場合を想定する。音源分離部30は、周波数スペクトルP1と周波数スペクトルP2との間でK個の周波数f1〜fKの各々における強度を比較し、周波数スペクトルP1の強度が大きい周波数fkを目的音周波数FAに選別するとともに周波数スペクトルP2の強度が大きい周波数fkを非目的音周波数FBに選別する。以上の構成によれば、図2の信号処理部32が不要となるから音処理装置100の処理や構成が簡素化されるという利点がある。
(3)
The method of selecting the K frequencies f1 to fK into the target sound frequency FA and the non-target sound frequency FB is appropriately changed. Specifically, the technique (SAFIA) disclosed in
死角制御型のビームフォーマに代えて、遅延加算型のビームフォーマを信号処理部32(第1処理部321,第2処理部322,第3処理部323)に採用した以下の構成も好適である。第1処理部321は、周波数スペクトルP1と周波数スペクトルP2とを加算することで、方向D0の目的音が強調された周波数スペクトルP0を生成する。第2処理部322は、周波数スペクトルP2と遅延量Dを付加した周波数スペクトルP1とを加算することで、方向DRの非目的音が強調された周波数スペクトルPRを生成する。同様に、第3処理部323は、方向DLの非目的音が強調された周波数スペクトルPLを生成する。第1比較部341は、周波数スペクトルPLRの周波数fkにおける強度を、周波数スペクトルPRの周波数fkにおける強度と周波数スペクトルPLの周波数fkにおける強度とのうちの高い方の強度に設定される。したがって、周波数スペクトルPLRは、方向DRおよび方向DLの非目的音を強調したスペクトルとなる。そして、第2比較部342は、K個の周波数のうち周波数スペクトルPLRの強度が周波数スペクトルP0の強度を上回る周波数を非目的音周波数FBに選別するとともに、K個の周波数のうち周波数スペクトルP0の強度が周波数スペクトルPLRの強度を上回る周波数を目的音周波数FAに選別する。
Instead of the blind spot control type beamformer, the following configuration in which a delay addition type beamformer is adopted in the signal processing unit 32 (
また、時間領域の音信号S1および音信号S2を信号処理部32が処理する構成も採用される。すなわち、信号処理部32は、音信号S1から音信号S2を減算した信号S0と、遅延量Dを付与した音信号S1を音信号S2から減算した信号SRと、遅延量Dを付与した音信号S2を音信号S1から減算した信号SLとを生成する。信号処理部32の後段に配置された周波数分析部20は、信号S0を周波数スペクトルP0に変換し、信号SRを周波数スペクトルPRに変換し、信号SLを周波数スペクトルPLに変換する。
A configuration in which the
(4)変形例4
非目的音スペクトルQBの強度XB(k)が閾値XTHを下回る場合(S3:NO)に強度μn(k)を算定する方法は数式(2)に限定されない。例えば、第n番目の単位区間を含む所定個の単位区間にわたる強度XB(k)の平均(移動平均)が強度μn(k)として算定される。すなわち、強度μn(k)の算定に利用される雑音スペクトルNの個数(単位区間の個数)は任意に変更される。
(4) Modification 4
The method of calculating the intensity μn (k) when the intensity XB (k) of the non-target sound spectrum QB is lower than the threshold value XTH (S3: NO) is not limited to Expression (2). For example, the average (moving average) of the intensities XB (k) over a predetermined number of unit sections including the nth unit section is calculated as the intensity μn (k). That is, the number of noise spectra N (number of unit sections) used for calculating the intensity μn (k) is arbitrarily changed.
また、第2実施形態において、強度XB(k)が閾値XTHを上回る場合(S3:YES)に強度μn(k)を算定する方法は、過去の強度μn-1(k)と係数βとの乗算(数式(5))に限定されない。例えば、過去の強度μn-1(k)と所定の正数との加算値を強度μn(k)として算定する構成も採用される。すなわち、強度XB(k)が閾値XTHを上回る場合に、過去の雑音スペクトルNの強度μn-1(k)を上回る数値を強度μn(k)として設定する構成が好適である。 In the second embodiment, when the intensity XB (k) exceeds the threshold value XTH (S3: YES), the method of calculating the intensity μn (k) is based on the past intensity μn-1 (k) and the coefficient β. It is not limited to multiplication (Formula (5)). For example, a configuration in which an addition value of the past intensity μn−1 (k) and a predetermined positive number is calculated as the intensity μn (k) is also employed. That is, when the intensity XB (k) exceeds the threshold value XTH, a configuration in which a numerical value exceeding the intensity μn−1 (k) of the past noise spectrum N is set as the intensity μn (k) is preferable.
(5)変形例5
雑音抑圧部44が生成した雑音抑圧スペクトルQCを出力スペクトルRとして逆変換部56に出力する構成(調整部52や合成部54を省略した構成)も採用される。ただし、雑音抑圧スペクトルQCにおける非目的音周波数FBの強度はゼロとなるから、雑音抑圧スペクトルQCから生成される再生音は聴感上において不自然な印象となる可能性がある。したがって、自然な再生音の生成という観点からすると、調整部52による処理後の非目的音スペクトルQBを雑音抑圧スペクトルQCに合成する図1の構成が好適である。
(5)
A configuration in which the noise suppression spectrum QC generated by the
(6)変形例6
以上の各形態においては雑音スペクトルNを非目的定常音の抑圧(雑音抑圧スペクトルQCの生成)に使用したが、本発明に係る音処理装置の用途(雑音スペクトルNの用途)は非目的定常音の抑圧に限定されない。例えば、目的音と非目的定常音と非目的変動音との混合音から非目的定常音を抽出するための装置としても本発明の音処理装置が好適に使用される。
(6)
In each of the above embodiments, the noise spectrum N is used for suppression of the non-target stationary sound (generation of the noise suppression spectrum QC). However, the use of the sound processing apparatus according to the present invention (use of the noise spectrum N) is non-target stationary sound. It is not limited to repression. For example, the sound processing apparatus of the present invention is preferably used as an apparatus for extracting non-target stationary sound from a mixed sound of target sound, non-target stationary sound, and non-target fluctuation sound.
100……音処理装置、12……演算処理装置、14……記憶装置、20……周波数分析部、30……音源分離部、32……信号処理部、34……周波数選別部、36……強度特定部、42……雑音推定部、44……雑音抑圧部、50……信号合成部、52……調整部、54……合成部、56……逆変換部。
DESCRIPTION OF SYMBOLS 100 ... Sound processing device, 12 ... Arithmetic processing device, 14 ... Memory | storage device, 20 ... Frequency analysis part, 30 ... Sound source separation part, 32 ... Signal processing part, 34 ... Frequency selection part, 36 ... ... intensity specifying part, 42 ... noise estimating part, 44 ... noise suppressing part, 50 ... signal combining part, 52 ... adjusting part, 54 ... combining part, 56 ... inverse converting part.
Claims (4)
単位区間毎に雑音スペクトルを生成する雑音推定手段とを具備し、
前記雑音推定手段は、
第1単位区間における一の非目的音周波数の成分の強度が、前記第1単位区間の開始前の第2単位区間の雑音スペクトルにおける前記一の非目的音周波数での強度を超える閾値を下回る場合、前記第1単位区間の雑音スペクトルにおける前記一の非目的音周波数での強度を、前記第1単位区間における前記一の非目的音周波数の成分の強度と、前記第2単位区間の雑音スペクトルにおける前記一の非目的音周波数での強度とに応じて設定し、
前記第1単位区間における前記一の非目的音周波数の成分の強度が前記閾値を上回る場合、前記第1単位区間の雑音スペクトルにおける前記一の非目的音周波数での強度を、前記第1単位区間における前記一の非目的音周波数の成分の強度を反映させずに、前記第2単位区間の雑音スペクトルにおける前記一の非目的音周波数での強度を上回る数値に設定する
音処理装置。 From the multiple sound signals generated by multiple sound collection devices, specify the intensity of each non-target sound frequency component in which the non-target sound dominates from a different direction from the target sound among multiple frequencies for each unit section Sound source separation means to perform,
Noise estimation means for generating a noise spectrum for each unit section,
The noise estimation means includes
The intensity of the component of one non-target sound frequency in the first unit section is below a threshold value exceeding the intensity at the one non-target sound frequency in the noise spectrum of the second unit section before the start of the first unit section. , The intensity at the one non-target sound frequency in the noise spectrum of the first unit section, the intensity of the component of the one non-target sound frequency in the first unit section, and the noise spectrum of the second unit section. Set according to the intensity at the one non-target sound frequency,
When the intensity of the component of the one non-target sound frequency in the first unit section exceeds the threshold, the intensity at the one non-target sound frequency in the noise spectrum of the first unit section is determined as the first unit section. The sound processing device is set to a numerical value exceeding the intensity at the one non-target sound frequency in the noise spectrum of the second unit section without reflecting the intensity of the component of the one non-target sound frequency in.
請求項1の音処理装置。 When the intensity of one non-target sound frequency component in the first unit section exceeds the threshold value, the noise estimation means determines the intensity at the one non-target sound frequency in the noise spectrum of the second unit section as 1 Is set as the intensity at the one non-target sound frequency in the noise spectrum of the first unit section.
The sound processing apparatus according to claim 1 .
前記目的音スペクトルから前記雑音スペクトルを減算する雑音抑圧手段を具備する
請求項1または請求項2の音処理装置。 The sound source separation means generates a target sound spectrum composed of components of each target sound frequency in which the target sound is dominant among the plurality of frequencies,
The sound processing apparatus according to claim 1 or claim 2 comprising a noise suppression means for subtracting the noise spectrum from the target sound spectrum.
単位区間毎に雑音スペクトルを生成する処理であって、
第1単位区間における一の非目的音周波数の成分の強度が、前記第1単位区間の開始前の第2単位区間の雑音スペクトルにおける前記一の非目的音周波数での強度を超える閾値を下回る場合、前記第1単位区間の雑音スペクトルにおける前記一の非目的音周波数での強度を、前記第1単位区間における前記一の非目的音周波数の成分の強度と、前記第2単位区間の雑音スペクトルにおける前記一の非目的音周波数での強度とに応じて設定し、
前記第1単位区間における前記一の非目的音周波数の成分の強度が前記閾値を上回る場合、前記第1単位区間の雑音スペクトルにおける前記一の非目的音周波数での強度を、前記第1単位区間における前記一の非目的音周波数の成分の強度を反映させずに、前記第2単位区間の雑音スペクトルにおける前記一の非目的音周波数での強度を上回る数値に設定する雑音推定処理と
をコンピュータに実行させるプログラム。 From the multiple sound signals generated by multiple sound collection devices, specify the intensity of each non-target sound frequency component in which the non-target sound dominates from a different direction from the target sound among multiple frequencies for each unit section Sound source separation processing,
A process of generating a noise spectrum for each unit section,
The intensity of the component of one non-target sound frequency in the first unit section is below a threshold value exceeding the intensity at the one non-target sound frequency in the noise spectrum of the second unit section before the start of the first unit section. , The intensity at the one non-target sound frequency in the noise spectrum of the first unit section, the intensity of the component of the one non-target sound frequency in the first unit section, and the noise spectrum of the second unit section. Set according to the intensity at the one non-target sound frequency,
When the intensity of the component of the one non-target sound frequency in the first unit section exceeds the threshold, the intensity at the one non-target sound frequency in the noise spectrum of the first unit section is determined as the first unit section. Noise estimation processing for setting a numerical value exceeding the intensity at the one non-target sound frequency in the noise spectrum of the second unit interval without reflecting the intensity of the component at the one non-target sound frequency in the computer. The program to be executed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009064758A JP5321171B2 (en) | 2009-03-17 | 2009-03-17 | Sound processing apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009064758A JP5321171B2 (en) | 2009-03-17 | 2009-03-17 | Sound processing apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010217552A JP2010217552A (en) | 2010-09-30 |
JP5321171B2 true JP5321171B2 (en) | 2013-10-23 |
Family
ID=42976476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009064758A Expired - Fee Related JP5321171B2 (en) | 2009-03-17 | 2009-03-17 | Sound processing apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5321171B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5772151B2 (en) * | 2011-03-31 | 2015-09-02 | 沖電気工業株式会社 | Sound source separation apparatus, program and method |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04238399A (en) * | 1991-01-22 | 1992-08-26 | Ricoh Co Ltd | Voice recognition device |
WO2005124739A1 (en) * | 2004-06-18 | 2005-12-29 | Matsushita Electric Industrial Co., Ltd. | Noise suppression device and noise suppression method |
JP5034734B2 (en) * | 2007-07-13 | 2012-09-26 | ヤマハ株式会社 | Sound processing apparatus and program |
JP5034735B2 (en) * | 2007-07-13 | 2012-09-26 | ヤマハ株式会社 | Sound processing apparatus and program |
-
2009
- 2009-03-17 JP JP2009064758A patent/JP5321171B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010217552A (en) | 2010-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5347902B2 (en) | Sound processor | |
JP5284360B2 (en) | Apparatus and method for extracting ambient signal in apparatus and method for obtaining weighting coefficient for extracting ambient signal, and computer program | |
JP5018193B2 (en) | Noise suppression device and program | |
JP5528538B2 (en) | Noise suppressor | |
JP6019969B2 (en) | Sound processor | |
JP5435204B2 (en) | Noise suppression method, apparatus, and program | |
US11380312B1 (en) | Residual echo suppression for keyword detection | |
JP5034734B2 (en) | Sound processing apparatus and program | |
JP5187666B2 (en) | Noise suppression device and program | |
JP2003274492A (en) | Stereo acoustic signal processing method, stereo acoustic signal processor, and stereo acoustic signal processing program | |
JP5034735B2 (en) | Sound processing apparatus and program | |
JP3755739B2 (en) | Stereo sound signal processing method and apparatus, program, and recording medium | |
JP5321171B2 (en) | Sound processing apparatus and program | |
JP2008072600A (en) | Acoustic signal processing apparatus, acoustic signal processing program, and acoustic signal processing method | |
JP5609157B2 (en) | Coefficient setting device and noise suppression device | |
JP5316127B2 (en) | Sound processing apparatus and program | |
JP2014102317A (en) | Noise elimination device, noise elimination method, and program | |
JP5376635B2 (en) | Noise suppression processing selection device, noise suppression device, and program | |
JP7533440B2 (en) | Signal processing device, method, and program | |
JP2002175099A (en) | Method and device for noise suppression | |
JP2013250380A (en) | Acoustic processing device | |
JP5463924B2 (en) | Sound processor | |
JP2014102318A (en) | Noise elimination device, noise elimination method, and program | |
JP6409417B2 (en) | Sound processor | |
JP5641187B2 (en) | Sound processor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120120 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121024 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130618 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130701 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5321171 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |