Nothing Special   »   [go: up one dir, main page]

JP2005266797A - 音源信号分離装置及び方法、並びにピッチ検出装置及び方法 - Google Patents

音源信号分離装置及び方法、並びにピッチ検出装置及び方法 Download PDF

Info

Publication number
JP2005266797A
JP2005266797A JP2005041169A JP2005041169A JP2005266797A JP 2005266797 A JP2005266797 A JP 2005266797A JP 2005041169 A JP2005041169 A JP 2005041169A JP 2005041169 A JP2005041169 A JP 2005041169A JP 2005266797 A JP2005266797 A JP 2005266797A
Authority
JP
Japan
Prior art keywords
sound source
pitch
source signal
sound
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005041169A
Other languages
English (en)
Inventor
Tetsujiro Kondo
哲二郎 近藤
Tetsuhiko Arimitsu
哲彦 有光
Hiroshi Ichiki
洋 一木
Junichi Shima
淳一 嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2005041169A priority Critical patent/JP2005266797A/ja
Publication of JP2005266797A publication Critical patent/JP2005266797A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Stereophonic Arrangements (AREA)

Abstract

【課題】 複数の音源からの信号をステレオマイクロホンで集音して所望の音源信号を分離する。
【解決手段】 端子11からのステレオ音声がピッチ検出部12に入力され、ピッチの2波長分を検出単位としてピッチ検出が行われ、ピッチ及び同じピッチが連続する定常性部分が検出される。遅延補正加算部13では、所望の音源からの音声の位相を合わせるようにステレオ音声を遅延補正し、足し込むことにより、所望の音源信号が強調された信号を出力する。音源信号分離部19内の分離係数作成部14では、音源信号分離部19内のフィルタ演算回路15のフィルタ係数を、ピッチ検出部12で検出されたピッチに応じて作成する。分離係数作成部14で作成されたフィルタ係数がフィルタ演算回路15に送られ、フィルタ演算回路15では、検出されたピッチ毎に更新されるフィルタ係数により遅延補正加算部13からの出力信号をフィルタ処理することにより、所望の音源信号を分離した波形出力を得る。
【選択図】 図1

Description

本発明は、音源信号分離装置及び方法、並びにピッチ検出装置及び方法に関し、例えば、複数の音源からの音声信号をステレオマイクロホンにより良好に分離するための音源信号分離装置及び方法、並びに音源信号分離に適したピッチ検出を行うためのピッチ検出装置及び方法に関する。
複数種類の音源信号が混在した音響信号から所望の音源信号を分離することが知られている。これは、例えば図26に示すように、複数人、例えば3人の人物SPA,SPB,SPCから発生された音声を、音響−電気変換手段、例えば左右のステレオマイクロホンMCL,MCRで集音して、得られた音響信号から所望の一人の人物からの音声信号を分離するような技術である。
このような音源信号分離の従来技術として、特許文献1に開示される音響信号分離回路及びそれを用いたマイクロホン装置がある。これら音響信号分離回路及びそれを用いたマイクロホン装置においては、互いに線形独立な複数の音源信号が線形加算された複数の混合信号をフレーム分割し、フレーム毎に、分離回路によって分離された複数の信号相互間のラグタイムゼロの相関を最小にする混合行列の逆行列を乗算することにより、混合信号から元の音声信号をそれぞれ分離するようにしている。
また、特許文献2には、周囲に雑音が多い環境下において、所望の音声信号を抽出する場合に用いられる、所望の音源を推定する音源信号推定装置が開示されている。
さらに、音源信号の分離のために、ターゲット音声のピッチを求めることが考えられており、このピッチ検出の技術として、特許文献3に開示される音響信号分析方法及び装置並びに音声信号処理方法及び装置がある。これらの装置及び方法においては、入力信号を所定の時間長を持つフレーム毎に切り出して、各フレーム毎に周波数分析を行い、各フレームの周波数分析結果から各フレーム内での調波性評価を行うと共に各フレームの周波数分析結果の振幅のフレーム間差分に対して調波性評価を行い、これらの調波性評価の結果を使用して入力信号のピッチを検出するようにしている。
特開2001−222289号公報 特開平7−28492号公報 特開2000−181499号公報
一般に、複数音源を分離するには、音源の数以上のマイクロホンが必要とされ、そのような複数のマイクロホンを用いた検討が行われている。例えば、上述の特許文献1においては、2本のマイクロホンに対しては、2音源までしか分離が不可能であることが開示されている。また、上記特許文献2には、複数本のマイクロホン(マイクアレイ)を用いて目標とする音源からの音声信号を抽出する技術が開示されている。これらの技術においては、複数の音源信号が混合された混合信号から所望の音源信号を分離するために、音源の個数以上の本数のマイクロホン(マルチマイク)を用いることが必要とされる。
従って、このような従来技術によっては、例えばカメラ一体型VTR(いわゆるビデオカメラ)のような携帯型AV機器等に用いられるステレオマイクロホンの場合に、3音源以上の音源信号を分離することが困難である。
また、音源信号を分離するに先立ってターゲット音声のピッチを求める場合に、音源信号の分離に適したピッチ検出が望まれる。
本発明は、このような従来の実情に鑑みて提案されたものであり、ステレオマイクロホンのような少数個の集音手段を用いて、複数個の音源からの音声信号(一般的には音響信号)を集音し、目的とする所望の音源からの音声信号を有効に分離可能とするような音源信号分離装置及び方法、並びにピッチ検出装置及び方法を提供することを目的とする。
上述の課題を解決するために、本発明に係る音源信号分離装置は、複数の音源からの音響信号が混合されて複数の集音手段により集音された入力音響信号の内の所望の音源信号を強調する音源信号強調手段と、上記入力音響信号の内の上記所望の音源信号のピッチを検出するピッチ検出手段と、検出された上記ピッチと上記音源信号強調手段により強調された音源信号とに基づいて、上記入力音響信号から上記所望の音源信号を分離する音源信号分離手段とを有することを特徴とする。
そして、上記音源信号分離手段の一例として、上記音源信号強調手段からの出力信号から上記所望の音源信号を分離するフィルタ手段と、上記ピッチ検出手段からの検出情報に基づき、上記フィルタ手段のフィルタ係数を出力するフィルタ係数出力手段とを有することを特徴とする。
ここで、上記フィルタ係数出力手段は、上記フィルタ手段の周波数特性を、上記ピッチ検出手段により検出されたピッチの周波数の整数倍の周波数成分を通過させる特性とするフィルタ係数を出力することが好ましい。また、上記フィルタ係数出力手段は、予め何種類かのピッチに応じたフィルタ係数が蓄積された記憶手段を備え、上記ピッチ検出手段により検出されたピッチに応じて上記記憶手段から該ピッチに対応するフィルタ係数を読み出して出力することが好ましい。
また、上記音源信号強調手段からの出力信号の子音帯域を処理する高域処理手段と、上記音源信号強調手段からの出力信号の子音帯域を取り出して上記高域処理手段に送り、上記音源信号強調手段からの出力信号の子音以外の帯域を取り出して上記フィルタ手段に送り、上記音源信号強調手段からの出力信号の母音帯域を取り出して上記ピッチ検出手段に送るフィルタバンク手段とをさらに有することが好ましい。
また、上記複数の集音手段は、左右のステレオマイクロホンであることが挙げられる。また、上記音源信号強調手段は、上記複数の集音手段からの音響信号に対して、上記所望の音源から上記複数の集音手段までの音の伝搬の遅延時間差を補正して加算することにより、上記所望の音源からの音響信号のみを強調することが好ましい。さらに、上記ピッチ検出手段は、上記所望の音源信号のピッチの2波長分を検出単位としてピッチ検出を行うことが好ましい。
また、上記音源信号分離手段のその他の一例として、上記音源信号強調手段からの出力信号中の同じ若しくは略同じピッチが連続する定常性部分を用い、上記ピッチ検出手段からの検出情報に基づき、基本波形を作成する基本波形作成手段と、上記入力音響信号に基づく信号の少なくとも一部を、上記基本波形作成手段により作成された基本波形の繰り返し波形で置き換えて出力する基本波形置き換え手段とを有することを特徴とする。
ここで、上記ピッチ検出手段は、上記所望の音源信号のピッチの2波長分を検出単位としてピッチ検出を行うことが好ましい。また、上記複数の集音手段は、左右のステレオマイクロホンであることが挙げられる。また、上記音源信号強調手段は、上記複数の集音手段からの音響信号に対して、上記所望の音源から上記複数の集音手段までの音の伝搬の遅延時間差を補正して加算することにより、上記所望の音源からの音響信号のみを強調することが好ましい。さらに、上記基本波形作成手段は、上記所望の音源信号のピッチが連続する定常性部分について、ピッチの2波長分を単位として加算し平均化することにより基本波形を作成することが好ましい。
次に、本発明に係る音声信号分離方法は、上記目的を達成するため、複数の音源からの音響信号が混合されて複数の集音手段により集音された入力音響信号の内の所望の音源信号を強調する工程と、上記入力音響信号の内の上記所望の音源信号のピッチを検出する工程と、検出された上記ピッチと上記強調する工程で強調された音源信号とに基づいて、上記入力音響信号から上記所望の音源信号を分離する工程とを有することを特徴とする。
次に、本発明に係るピッチ検出装置は、上記目的を達成するため、複数の音源からの音響信号が混合されて複数の集音手段により集音された入力音響信号の所望の音源信号を強調する音源信号強調手段と、上記音源強調手段からの出力信号中のピッチの2波長分を検出単位として2波長周期を検出する周期検出手段と、上記周期検出手段により検出された2波長周期の変化に基づき同じ若しくは略同じピッチが連続しているか否かを判定し、判定結果に応じてピッチ情報を出力する連続判定手段とを有することを特徴とする。
ここで、上記複数の集音手段は、左右のステレオマイクロホンであることが挙げられる。また、上記音源信号強調手段は、上記複数の集音手段からの音響信号に対して、上記所望の音源から上記複数の集音手段までの音の伝搬の遅延時間差を補正して加算することにより、上記所望の音源からの音響信号のみを強調することが好ましい。
また、本発明に係るピッチ検出方法は、上記目的を達成するため、複数の音源からの音響信号が混合されて複数の集音手段により集音された入力音響信号の所望の音源信号を強調する音源信号強調工程と、上記音源強調工程により得られる出力信号中のピッチの2波長分を検出単位として2波長周期を検出する周期検出工程と、上記周期検出工程により検出された2波長周期の変化に基づき同じ若しくは略同じピッチが連続しているか否かを判定し、判定結果に応じてピッチ情報を出力する連続判定工程とを有することを特徴とする。
次に、本発明に係る音源信号分離装置は、上記目的を達成するため、複数の音源からの音響信号が混合されてなる入力音響信号の所望の音源信号のピッチの2の倍数の波長分を検出単位としてピッチ検出を行うピッチ検出手段と、検出された上記ピッチに基づいて所望の音源信号を分離する音源信号分離手段とを有することを特徴とする。
さらに、本発明に係る音源信号分離方法は、上記目的を達成するため、複数の音源からの音響信号が混合されてなる入力音響信号の所望の音源信号のピッチの2の倍数の波長分を検出単位としてピッチ検出を行う工程と、検出された上記ピッチに基づいて所望の音源信号を分離する工程とを有することを特徴とする。
本発明によれば、複数の音源からの音響信号が混合されて複数の集音手段により集音された入力音響信号の内の所望の音源信号を分離するためのフィルタについて、入力音響信号のピッチを検出し検出されたピッチに応じてフィルタ係数を更新しているため、目的とする音源からの音を良好に分離できる。
また、本発明によれば、入力信号のピッチの定常性部分に基づく基本波形を作成し、置き換えているため、目的とする音源からの音に近似した良好な音源信号を分離できる。
さらに、ピッチの2波長分を検出単位としてピッチ検出を行うことにより、信頼性が高く安定したピッチ検出が行える。
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
本発明の実施の形態に用いられる音源信号分離装置の具体例の概略構成を図1に示す。
この図1において、入力端子11には、マイクロホン等により集音された音響信号、具体的には例えばステレオマイクロホンにより集音されたステレオ音声信号が入力され、ピッチ検出部12及び所望の音源信号を強調する音源信号強調手段としての遅延補正加算部13に送られる。ピッチ検出部12からの出力は、音源信号分離部19内の分離係数作成部14に送られ、遅延補正加算部13からの出力は、必要に応じて中域以下の周波数帯域を出力するフィルタ(ローパスフィルタ)20Aを介し、音源信号分離部19内のフィルタ演算回路15に送られる。フィルタ演算回路15は、所望のターゲット音声を分離するフィルタであり、ピッチ検出部12で検出されたピッチが更新される度に、分離係数出力手段である分離係数作成部14が、検出されたピッチに応じたフィルタ係数を作成し、フィルタ演算回路15に送っている。また、遅延補正加算部13からの出力は、必要に応じて高域の周波数帯域を通すフィルタ(ハイパスフィルタ)20Bを介して高域処理部17に送られ、子音等の非定常波形に対して処理が施される。フィルタ演算回路15からの出力と、高域処理部17からの出力とは、加算器16で加算され、出力端子18より分離波形出力信号として取り出される。
このような構成を有する音源信号分離装置の具体例において、ピッチ検出部12は、音声信号における母音等のような同じ若しくは略同じピッチが連続する部分である定常性部分のピッチ(音の高さ)を検出するものであり、このピッチ検出部12からは、検出されたピッチが出力され、また必要に応じて上記定常性部分を示す情報(例えば連続する区間を示す時間軸上の座標情報)が出力される。遅延補正加算部13は、所望の音源信号を強調する音源信号強調手段の一例として用いられるものであり、複数(ステレオの場合は2本)のマイクロホンへの音源からの距離に応じた伝搬遅延時間の差に応じて、各マイクロホンからの信号に時間遅延を持たせて加算することにより、所望の音源からの信号を強め、他の信号を弱めるようなものであり、詳細は後述する。分離係数作成部14は、ピッチ検出部12で検出された定常性部分のピッチに応じて、所望の音源からの信号を分離するためのフィルタ係数を作成するものであり、詳細は後述する。フィルタ演算回路15は、分離係数作成部14からのフィルタ係数を用いて、遅延補正加算部13からの出力(必要に応じてフィルタ(ローパスフィルタ)20Aを介した出力)にフィルタ処理を施し、所望の音源からの信号を分離するものである。高域域処理部17は、遅延補正加算部13からの出力に、必要に応じて高域の周波数を通すフィルタ(ハイパスフィルタ)20Bを介した信号の、例えば子音等の非定常波形に対して所定の処理を施し、加算器16へ出力する。加算器16では、フィルタ演算回路15からの出力と高域処理部17からの出力を加算し、ターゲット音声の分離波形出力信号として出力端子18に送る。
次に、ピッチ検出部12の具体例の概略構成を図2に示す。この図2の入力端子21は、上記図1の入力端子11に相当し、例えばステレオマイクロホンにより集音されたステレオ音響信号が入力される。、ピッチが定常的に現れる例えば母音帯域を通過させるためのローパスフィルタ(LPF)22を介して、遅延補正加算部23に送られ、後述するように、所望の音源からの信号を強調するような指向性制御処理が施される。遅延補正加算部23からの出力は、極大値検出部24を介し、極大値のゼロクロス間最大値検出部25を介して、最大値間ピッチ検出部26に送られる。最大値間ピッチ検出部26からの出力は、連続判定部27に送られて、代表ピッチ出力が端子28から、上記定常性部分の区間を示す座標(時刻)出力が端子29からそれぞれ取り出される。
ここで、上記図1の遅延補正加算部13、あるいは図2の遅延補正加算部23の原理的な構成例について、図3を参照しながら説明する。この図3において、左右のステレオマイクロホンMCL、MCRからの信号が、左右のステレオ信号をそれぞれ遅延するバッファメモリ等を用いた遅延回路32L、32Rに送られている。上記図2の遅延補正加算部23の場合には、ピッチ検出の品質を高めるために、左右のステレオ信号を、音声信号における母音等の帯域を通過させるためのローパスフィルタ(LPF)22を介した後に、遅延補正加算部の遅延回路32L、32Rに送るようにすればよい。これらの遅延回路32L、32Rからの遅延信号は、加算器34で加算され、遅延補正加算信号として出力端子35より取り出される。また、必要に応じて、遅延回路32L、32Rからの遅延信号を減算器36で減算して、遅延補正減算信号として出力端子37より取り出すようにしてもよい。
この図3に示すような原理的構成を有する遅延補正加算部は、所望の分離しようとするターゲット音源からの音声信号のみを増強し、他の信号成分を減衰させるような指向性制御処理を施すものである。図3の例において、ステレオマイクロホンMCL、MCRに対して、左側に音源SL、中央に音源SC、右側に音源SRが配置されている場合に、例えば、右側の音源SRをターゲット音源とするとき、音源SRから発せられた音は、空気中を伝搬するのに要する時間遅延のため、音源に近い側のマイクロホンMCRに比べて、音源に遠い側のマイクロホンMCLには時間(物理的遅延量)τだけ遅れて集音される。このとき、バッファメモリ等を用いた遅延回路32L、32Rに対して、遅延回路32Lの遅延量を遅延回路32Rよりも時間τだけ長く設定することにより、遅延回路32L、32Rからの遅延量が補正された出力信号は、図4に示すように、ターゲット音源SRからのターゲット音声については左右の信号の相関係数が高くなり(位相が、より一致し)、その他の音声については相関係数が低くなる(位相が、より不一致となる)。また、中央の音源SCをターゲット音源とする場合には、音源SCから発せられた音はステレオマイクロホンMCL、MCRに同時に(遅延時間差なく)集音されるから、遅延回路32L、32Rの各遅延量を等しくすることにより、音源SCからのターゲット音声の相関性を高くし、他の音声の相関性を低くすることができる。このように、遅延回路32L、32Rの各遅延量を調整して、ターゲット音源からの音声のみについて相関性を高めることができる。
従って、遅延回路32L、32Rからの遅延出力信号を加算器34で加算することにより、相関性の高い音声のみが増強されることになる。特に、母音部分のような繰り返し波形部分では、位相が揃った波形を足し込むことで位相が揃った部分が強調され、位相の揃っていない部分は減衰されることになる。出力端子35からは、ターゲット音声のみが増強あるいは強調された信号が取り出される。また、遅延回路32L、32Rからの遅延出力信号を減算器36で減算する場合には、位相が揃った部分が引き算されることから、ターゲット音源からの音声のみが減衰されることになり、出力端子37からはターゲット音声のみ減衰された信号が取り出される。
上記相関係数について説明すると、2本のマイクロホンに入力された音声に対して上述のように遅延量補正された波形は、波形の一致度が高く、逆にその他の音声にのように、位相のずれた波形は一致度が低くなる。この一致度を表す相関係数corは、次の(1)式により求めることができる。この(1)式において、m1,m2は、ステレオマイクロホンMCL、MCRのそれぞれの時間サンプルを示し、n対のサンプル値(m11,m21),(m12,m22),・・・,(m1n,m2n)についての相関係数corを求めている。なお、S1,S2は標準偏差である。
Figure 2005266797
次に、上記ピッチ検出部12におけるピッチ検出動作について説明する。ピッチ検出部12の具体的な構成例は、上記図2に示した通りである。先ず、マイクロホンからの信号は、例えば図5のように、ターゲット音声とその他の音声とが混在したものとなる。この図5において、実線が実際に得られた信号波形を示し、破線がターゲット音声の信号波形を示している。これは、上述のような遅延補正加算による指向性制御処理を行ってターゲット音声を強調したとしても、その他の音声が残存しており、これらが混在した信号波形となる。ここで、図5におけるターゲット音声の破線に示す信号波形は、振幅方向(レベル方向)の変動が少なく規則的であるのに対して、実線に示す混在信号波形は、レベル方向にも変動が生じていることが分かる。しかしながら、混在信号波形は、ターゲット音声の波形と比較してみると、レベル方向には相関性はないが、時間方向ではピークの間隔が保存されていることが確認できる。
この図5に示すような信号波形のスペクトルをとると、例えば図6のようになり、ある基本周波数Fxの倍数構造を有していることが分かる。この基本周波数Fxは、一般的に音の高さを表すピッチに相当しており、ピッチ周波数とも称され、図5の信号波形における隣り合うピーク間の期間を1周期Tx(1波長λx)とするときの周期(ピッチ周期)の逆数に相当する。すなわち、Fx=1/Txである。図6の例では、例えばピッチ周波数Fxの倍の周波数2Fxの位置にもピークが現れており、一般的に周波数Fxの整数倍の位置にピークが現れる。
ところで、信号波形における隣り合うピーク間に相当するピッチ周期Tx(ピッチ波長λx)に対して、実際の波形信号にはこのピッチ周期よりも長い波長の成分も含まれており、特に2倍のピッチ周期Ty(=2Tx)の成分、すなわち図6のスペクトルでは、ピッチ周波数Fxの1/2の周波数Fy(=Fx/2)の成分が比較的有力に現れていることが分かる。このように1/2ピッチ周波数Fy(=Fx/2)の成分が比較的大きく現れることは、通常の音声信号の場合に一般的にいえることであり、例えば、図7、図8に示すピッチ周波数Fxが約650Hzの音声信号の例や、図9、図10に示すピッチ周波数Fxが約580Hzの音声信号の例でも同様に、ピッチの1/2の周波数Fy(=Fx/2)の成分が明瞭に確認できる。なお、図7、図9は時間軸上の音声信号波形を示し、図8、図10は周波数軸上のスペクトルを示している。
図11は、上述のようなピッチ周波数Fxの成分と、その1/2の周波数Fyの成分とを合成する場合の例を示す説明図である。この図11の(a)は、ピッチ周波数Fxの基本波形(例えば正弦波)を示し、(b)はピッチ波長の倍の波長、すなわち1/2の周波数Fy(=Fx/2)の基本波形を示している。これらの成分を図11の(c)のように合成すると、1波長おきに交互に同じ変動が生じ、例えば図11の(d)に示すように、1波長おきに交互に形状が似てくる場合が多くなる。このため、隣り合うピーク間の周期をとると、ばらつきが交互に現れるため、安定したピッチ検出が行えない。
そこで、本発明の実施の形態においては、ピーク間の周期Tx(ピッチ波長λx)の倍の周期Ty(=2Tx)を単位としてピッチ検出を行うようにしている。このように、2波長毎にピークを検出すると、信号波形の形状が似た時のピーク毎に検出できるため、誤差がより少なくなる傾向がある。またこの時、検出の開始のタイミングとしては、位相が1波長ずれていても統計的に同様の結果を得ることができる。なお、ピーク検出の間隔としては、2波長以外に、原理的には4波長、6波長、8波長、・・・のように偶数倍の波長とすることも可能である。ただし、例えば4波長毎にピークを検出する場合には、より誤差が少なくなるが、サンプル数を必要とするというデメリットがある。
次に、図12を参照しながら、ピッチ検出動作の具体例を説明する。この図12において、最初のステップS41でステレオ音声信号を入力し、ステップS42でローパスフィルタ処理し、ステップS43で上述した遅延補正加算処理による指向性処理を施す。これらは、上記図2の入力端子21(11)からの入力、LPF(ローパスフィルタ)22での処理、遅延補正加算部23での処理にそれぞれ対応する。
次のステップS44で、上記図2の極大値検出部24による極大値計算処理を行う。これは、図13の波形におけるxマークに示すような局所的なピークを求めるものであり、正側のピーク(極大点)と負側のピーク(極小点)とがあるが、この実施の形態では正側の局所的なピーク(極大点)を採用しており、時間軸方向の信号波形のサンプル値が増加から減少に変化した点を検出することで求めることができる。具体的には、信号波形の各サンプル点の時間軸上の座標(位置)をサンプル番号で表わす場合、位置n(すなわちサンプル番号n)のサンプル点のサンプル値をd(n)とし、前後のサンプル値間の差の閾値をthとするとき、
d(n)−d(n−1)>th、かつ、d(n+1)−d(n)<−th ・・・(2)
のときの点nを極大点、そのときのサンプル値を極大値とする。
次のステップS45では、上記図2の極大値のゼロクロス間最大値検出部25にて、上記ステップS44で求められた極大値の内、値が正となる範囲のゼロクロス間で最大となる極大値を検出する。すなわち、サンプル値が負から正になるゼロクロス点から始まり、次の正から負になるゼロクロス点までの間に存在する極大値の内で最大値をとるものを検出する。このゼロクロス間の極大値の最大値の点の時間軸上の座標(サンプル点の位置、サンプル番号)が記録される。
次のステップS46では、上記図2の最大値間ピッチ検出部26にて、上記ステップS45で求めた極大値の最大値の1つ目と3つ目との間隔、すなわち、1つおきの最大値間(2波長分)からピッチを検出する。すなわち、2波長分を検出単位としてピッチ検出を行っている。この場合のピッチ検出とは、2波長分の周期Ty(=2Tx)を検出することに相当し、この検出された周期Ty(あるいは周波数Fy=1/Ty)を、本来のピッチ周期Tx(あるいはピッチ周波数Fx)の代わりに用いている。ここで、信号波形の各サンプル点の時間軸上の座標をサンプル番号で表わすとき、上記ピッチ検出により求められる周期Tyはサンプル数(サンプル番号の差)で表すことができ、1つ目の極大値の最大値の時間軸上の座標(サンプル番号)をmax1、3つ目の極大値の最大値の時間軸上の座標をmax3とするとき、
Ty= max3 − max1 ・・・(3)
となる。
次のステップS47以降は、上記図2の連続性判定部27での処理に相当するものであり、先ずステップS47では、上記ピッチ検出の単位区間の前後のピッチを比較する。この場合のピッチとしては、上記ピッチ周期TxをTy/2から求めて用いるようにしてもよいが、上記ピッチ検出の際に検出された2波長分の周期Tyをそのまま用いるようにしてもよい。このとき、隣り合うピッチ検出単位毎のピッチ(あるいは周期Ty)の比率rを求めており、例えば上記2波長分の周期Tyを用いる場合に、現在のピッチ検出単位nの2波長分の周期をTy(n)とするとき、ピッチ比率(この実施の形態では周期Tyの比率)rは、
r(n)=Ty(n)/Ty(n−1) ・・・(4)
となる。
ここで、上記図5に示した信号波形の場合のピッチ検出結果の具体的な数値の例を図14に示す。この図14において、1番目のピッチ検出単位から順次2波長分の周期を検出しており、これらをTy(1)、Ty(2)、Ty(3)、・・・のように示し、各ピッチ検出単位において検出された2波長分の周期Tyをサンプル数で示した値、比率r、及び後述する連続性判定フラグを例示している。
次のステップS48では、上記ステップS47で求められたピッチ比率(周期Tyの比率)rがほぼ安定している区間(上記定常性部分)を検出するために、上記比率rの変化分Δr(=1−r)の絶対値|Δr|(=|1−r|)が、所定の閾値th_rより小さいか否かを判別しており、閾値th_rより小さい(YES)と判別されたとき、ステップS49に進んで、連続性判定フラグをセット(フラグを1に)し、あるいはピッチが連続する区間(定常性部分)を計測するためのカウンタをカウントアップする。ステップS48で、比率変化分の絶対値|Δr|が所定の閾値th_r以上である(NO)と判別されたときには、ステップS50に進んで、連続性判定フラグをリセット(フラグを0に)する。上記所定の閾値th_rとしては、例えば0.05等の値があげられ、図14の例では、Ty(2)が検出された単位区間ではrが1.00で|Δr|は0であるからフラグは1、Ty(3)が検出された単位区間ではrが0.97で|Δr|は0.03であるからフラグは1となり、・・・と進み、Ty(n)が検出された単位区間ではrが0.7で、|Δr|は0.3であるからフラグは0となっている。
次のステップS51では、上記検出されたピッチ(あるいは周期Ty)について、連続性があるか否かを判別している。ここで、例えば、ステップS49でセットされた連続性判定フラグが5回以上連続してカウントされた場合には、連続性ありと判別し、検出されたピッチ(あるいは周期Ty)は有効であると判断する。例えば、図14の例のように、周期Ty(2)から連続してTy(6)までフラグが1で連続している場合は有効であり、代表ピッチ、例えばTy(2)〜Ty(6)の平均値を出力する。
すなわち、ステップS51で連続性あり(YES)と判別されたときは、ステップS52に進んで、略々同じピッチが連続する区間(定常性部分)の時間軸上の座標(時刻)をサンプル番号で表したものを出力し、次のステップS53で代表ピッチ(例えば連続する区間の周期Tyの平均値)を出力した後、終了する。また、ステップS51で連続性なし(NO)と判別されたときは、そのまま終了する。この図12のような処理を繰り返し実行することにより、入力される信号波形に対するピッチ検出が継続して行われる。
以上の実施の形態におけるピッチ検出の動作をまとめると、ステレオマイクに対する2音源以上の音源を対象とし、ターゲット人物の音声の分離を行うため、混在波形の母音のような定常性部分のピッチを検出している。この時、声の高低や男性女性は問わない。その際、純粋な波形であれば、混じりけがないためレベル方向が保存されるので、自己相関などで周期がわかるが、混在波形の場合はレベル方向は保存されないため同様な手法が使いにくい。しかしながら、時間方向のピッチは保存されているのが確認できる。そこで、本発明の実施の形態においては、音声波形の特徴から、ピークツーピークを見て隣り合うピッチを求めるのではなく、2波長分でピッチ検出を行っており、これによって、信頼性が高く正確なピッチ検出が行え、その後の音声分離処理がしやすくなるような効果を得ることができる。
次に、上記図1の音源信号分離装置の動作の具体例について説明する。
この図1のピッチ検出部12としては、上述した実施の形態のような2波長分の周期からピッチ検出を行うものを用いることができるが、これに限定されず、1波長分の周期を検出するものや、4波長以上の偶数波長分の周期を検出するものを用いてもよい。
このピッチ検出部12では、ピッチ検出単位毎にピッチを求め、そのピッチが連続する連続区間あるいは定常性部分の座標(サンプル番号)を求めており、図1のステレオマイクロホンを用いた音声信号分離装置は、これらの情報から、2音源以上の信号波形を分離するようにしたものである。
ピッチ検出部12で求められたピッチは、分離係数作成部14に送られ、所望のターゲット音声を分離するための分離フィルタ(フィルタ演算回路15)のフィルタ係数(分離係数)が作成される。この分離係数作成部14において、ピッチ検出部12で得られた代表するピッチを基本周波数とすると、以下の(5)式に示すようなバンドパスフィルタ係数作成式により、分離フィルタのフィルタ係数(分離係数)を作成する。この(5)式において、タップ位置iのフィルタ係数をh[i]としており、フィルタタップ数はFIRLEN、HLFLENは(FIRLEN−1)/2、Piは円周率π、mは倍音個数、サンプリング周波数FS、例えば48KHz ならば48000である。Lo[n]、Hi[n]は各倍音次数の周波数におけるバンド幅を意味する。Lo[n]は低い方の周波数、Hi[n]は高い方の周波数である。バンド幅については任意であり分離性能にあわせる。mは倍音個数であるが、この倍音の個数はただ単に一定の個数でもよいが、例えば、最大周波数をmax_freqとし基本周波数をf[1]とすると、整数値m=max_freq/f[1]としてもよい。ただし、m=0の場合はf[0]=f[1]/2を適用する。また、基本周波数をf[0]としてもよい。
Figure 2005266797
図15は、分離係数作成部14にて作成したフィルタ係数を用いた分離フィルタ(フィルタ演算回路15)の周波数特性の具体例を示している。この図15に示す周波数特性を有するフィルタは、いわゆる櫛形のバンドパスフィルタであり、このバンドパスフィルタは、タップ数が多いほど山と谷が急峻であり、またバンド幅が小さいほど谷の領域が増えるので、分離の確率は高くなる。また、上記(5)式において作成したバンドパスフィルタ係数は、実際にはタップ軸上のタップ位置により図16のように表される。またこの時、より分離力を高めるために窓関数を選ぶ必要がある。
フィルタ演算回路15では中域以下を対象とし、分離係数作成部14により作成されたフィルタ係数を用い、積和演算を代表するようなFIRフィルタによりフィルタがかけられることにより、上記検出されたピッチ及びその倍音成分を含むターゲット音声の分離がなされる。
また、高域処理部17には、例えば子音のような非定常波形が入力される。高域と中域以下に分ける理由は、下記の通り音声の発生原理が異なるため、中域以下に集中する母音部分と高域に集中する子音部分というように帯域で処理を変えた方が、より定常性を判定しやすくなるからである。
音声の発生原理では、母音部分は声帯の周期運動を振動源として生成されるため、定常的な信号となる。しかし子音部分には、例えば摩擦音や破裂音などの声帯の振動を伴わないものもあり、子音の波形がランダムになる傾向にある。そのため、母音部分にランダムな波形が混在すると、ランダムな波形はノイズ成分となり、ピッチ検出に悪影響が出る。また、同じサンプル数でサンプリングした場合には、高周波は低周波に比べて信号の再現性に乏しいため、波形の崩れを招き、そのためにピッチの検出を誤る場合がある。
したがって、高域と中域以下に分けて、中域以下で定常性を判定する処理を行うことで、判定の精度を上げることができる。
高域処理部17では、例えばターゲット音声の定常性部分すなわち母音部分において、摩擦音や破裂音などの通常現れない子音によるランダムな高周波波形を取り除く処理が行われる。
音声では通常、母音部分にレベルの大きな子音が存在することはない。したがって、たとえ複数音源からなる音声信号の母音部分から、ターゲットの音声を分離できたとしても、その母音部分にランダムな高周波波形が加わると、実際のターゲット音声とは異なるものに聞こえる場合がある。そこで高域処理部17において、母音部分である定常性部分における高周波波形のゲインを下げる処理を行い、加算器16で出来るだけ加算されないようにすることで、よりターゲット音声に近い出力を得ることができる。
フィルタ演算回路15からの出力と、高域処理部17からの出力とは、加算器16で加算され、ターゲット音声の分離波形出力信号として出力端子18より取り出される。
ここで、ステレオマイクロホンと音源(人物等)との関係について説明する。ステレオマイクロホンの間隔は特に指定していないが、一般的に持ち運べる機器の場合には、数cm〜数十cm内である。例えば、カメラ一体型VTR(いわゆるビデオカメラ)などの携帯型機器に取り付けたステレオマイクロホンを用いて集音する場合、音源である人物を3つの区分(中央、左、右)に分けることにするとき、数十度ずつの区分であれば、どの位置に人物が配置されようともターゲット音源の分離の実現が可能である。マイクの間隔に関して、2本のマイクの到達間隔を考慮すると、間隔が広ければより多くの領域に分割することが可能であり、分離区分が多くなるが、持ち運びに不便であるという欠点がある。逆に、マイク間隔が狭くなると、区分は3つのように少なくなるが、持ち運びには便利になるという利点がある。
以上説明したような本発明の実施の形態において、ピッチ検出部12の図1のローパスフィルタ(LPF)22、図1のフィルタ20A、20Bは、1つのフィルタバンクにまとめるようにしてもよい。この場合、図2の遅延補正加算部23は、図1の遅延補正加算部13と共通化され、遅延補正加算部13からの出力をフィルタバンクに送って、ピッチ検出用の低域と、分離フィルタのための中域以下と、高域処理のための高域とに分離するようにすればよい。
図17は、上述したようなフィルタバンク部73を用いた音源信号分離装置の具体例を示すブロック図である。
この図17において、入力端子71には、ステレオマイクロホンにより集音されたステレオ音声信号が入力され、所望のターゲット音源信号を強調する音源信号強調手段としての遅延補正加算部72に送られる。この遅延補正加算部72としては、上記図3と共に説明した構成を用いることができる。遅延補正加算部72からの出力は、フィルタバンク部73に送られる。フィルタバンク部73は、帯域分割を行う部分であり、高域を出力するハイパスフィルタと、中域を出力するローパスフィルタと、低域を出力するローパスフィルタを用意する。例えば、高域とは子音帯域を通すような帯域であり、また中域以下は子音帯域以外の帯域であり、また低域とは中域よりも低い周波数帯域を示す。フィルタバンク部73で分割された各帯域の信号内、低域信号は定常性判定部74を介しピッチ検出器75に送られ、中域以下の信号はフィルタ演算回路77に送られ、高域信号は高域処理部79に送られる。
ここで、上記図2と共に説明したピッチ検出部は、この図17のフィルタバンク部73内の低域を出力するローパスフィルタと、定常性判定部74と、ピッチ検出器75とを含むものであり、また図2の遅延補正加算部23はローパスフィルタ(LPF)22の前段側に移されて、図17の遅延補正加算部72に相当している。すなわち、図17の定常性判定部74では、上述したように、連続する各ピッチが例えば誤差数%以内で連続する部分(定常性部分)を判定しており、この定常性部分が所定時間以上連続する(例えば2波長分の検出単位での連続性判定フラグが5回以上連続する)場合に、ピッチが有効であると判断し、そのときの代表ピッチをピッチ検出器75から出力する。
音源信号分離部191内の分離係数作成部76は、所望のターゲット音声を分離するための分離フィルタ(フィルタ演算回路77)のフィルタ係数(分離係数)を、例えば上記(5)式に従って作成するものであり、上述した図1の分離係数作成部14と同様である。この作成されたフィルタ係数が音源信号分離部191内のフィルタ演算回路77に送られ、フィルタ演算回路77では、フィルタバンク部73からの中域以下の成分を入力し、上記図1のフィルタ演算回路15と同様に、所望のターゲット音源からの音声信号を分離する。また、高域処理部79は、子音等の非定常波形に対して処理を行うものであり、上述した図1の高域処理部17と同様である。これらのフィルタ演算回路77からの出力と、高域処理部79からの出力とが加算器78で加算され、分離波形出力として出力端子80から取り出される。
このような実施の形態においては、定常性部分においてピッチを検出したが、実際の一人で話すような音声の特性上、混在波形にて定常性判定された部分を越えて時間軸に領域をもつ。上述の実施の形態においては、ピッチが検出される度に分離フィルタ係数を作成するものとしたが、実際に定常性判定部分のみにフィルタを適用するのでは、処理として不十分である。そこで、定常性判定の周辺にも係数を使い回すことで、より時間方向の分離力を高めるようにすることが好ましい。
例えば、図18には、横軸を時間とし、母音部分にて検出された2つ定常性部分を示しており、一番目の定常性判定部分をRA、二番目の定常性判定部分をRBとすると、その時に求められたフィルタ係数は各々異なる。このとき、定常性部分RAのフィルタ係数を該定常性部分RAの時間軸前後に適用し、定常性部分RBの係数を該定常性部分RBの時間軸前後に適用する。この時、前後に適用する領域に関しては、統計的データを用い、事前に決めることができる。例えば、高い周波数がピッチとして検出されれば、時間を長くもしくは短くし、低い周波数がピッチとして検出されれば、時間を短くもしくは長くといった具合いである。
図19は実際の時間軸上の信号波形の具体例を示しす。図19の(A)はフィルタをかける前の波形を示し、矢印の範囲Rpで定常性判定部分ならびに代表的なピッチが検出すなわち基本周波数が検出される。図19の(B)には、そのピッチを基準に作成したバンドパスフィルタを通した波形を示し、矢印の部分Rqにて同一係数を使用し領域をより拡大している。
更にターゲット音声の分離特性を向上させるために、ピッチ周波数の全ての倍音成分の帯域を通すと、ターゲット以外の音声が減衰しない場合がでてくるが、予め統計データを用いることで、ある倍音次数の帯域を足し込まないこともできる。
次に、本発明の実施の形態のさらに他の具体例について、図20を参照しながら説明する。この図20に示す音源信号分離装置は、上記図17と共に説明した音源信号分離装置の構成に、話者判定及び領域指定に関する構成を付加したものであり、また、分離係数出力手段として、図17の音源信号分離部191内の分離係数作成部76の代わりに、音源信号分離部192内に係数メモリ・係数選択部86を用いている。
この図20の分離係数出力手段としての係数メモリ・係数選択部86は、予め何種類かのピッチに応じて作成したおいた分離フィルタ係数をメモリに蓄積しておき、検出されたピッチに応じて対応する分離フィルタ係数を読み出すようにしたものである。これは、例えば、ピッチの値を複数の区分に分け、その区分内の代表ピッチに対して分離フィルタ係数を予め作成しておき、各区分毎の分離フィルタ係数をメモリに蓄積しておき、ピッチ検出によって求められたピッチが上記複数の区分のいずれの範囲内に入るかに応じて、対応する区分の分離フィルタ係数をメモリから読み出すようにすればよい。これによって、音源信号分離装置においては、検出されたピッチ毎に分離フィルタ係数を演算により作成する必要がなくなり、メモリアクセスによって高速に分離フィルタ係数を得ることができ、処理の高速化が図れる。
話者判定とは、複数の音源(複数の人)の内のターゲットとなる人からの音声(ターゲット音声)であるか否かを判別することであり、この実施の形態における話者判定部82においては、基本的にLPF(ローパスフィルタ)81を介した信号波形を用いている。このLPF81を介した低域信号は、上記フィルタバンク部73からピッチ検出するために取り出される低域と同様の帯域の信号とすればよい。本実施の形態の話者判定では、上述した図1、図3等の遅延補正加算の出力を用いて、上記(1)式と共に説明したような相関係数corの値を利用して一致度を見ることにより、ターゲットとなる人が話しているか否かを判定することができる。判定法の具体例としては、図21の(a)に示すように、上述した定常性部分となる定常性判定領域の区間全体の相関値そのものの閾値で判定する方法や、図21の(b)に示すように、定常性判定領域を細かく区分し所定の閾値以上の出現確率で判定する方法や、図21の(c)に示すように、定常性判定領域に対して重複を許して複数の区間に区切り、その相関値の閾値以上の出現確率で判定する方法等が挙げられ、この他、波形の特徴化したデータの相関性も含めて判定するようにしてもよい。なお、遅延補正加算における遅延量を調整することで、複数の音源(複数の人)の各方向に適用することができ、誰が話しているかを判別することも可能である。
話者判定部82からの出力は、定常性判定部74及び領域指定部83に送られる。定常性判定部74では、定常性である部分が判定されると、時間軸座標データが得られ、その座標データが領域指定部83に送られる。領域指定部83では、話者が判定されると、その定常性判定部の領域よりも一定間隔だけ広めにとるような処理を加え、バッファ84、85にそのタイミングを知らせることで、領域の調整をする。バッファ84はフィルタバンク部73と音源信号分離部192内のフィルタ演算回路77との間に挿入され、バッファ85はフィルタバンク部73と高域処理部79との間に挿入されている。領域指定部83により領域外と判定された時間(区間)に関しては、単にゲインを下げるだけで良い。ゲインの調整のしかたについては、例えば、フィルタ演算回路77と同様のタップを用意し、中心以外のタップをゼロにし、中心のタップのみ1以外の係数にすればよい。また、10分の1にするときは、中心のタップのみ0.1の係数にすればよい。
図20の他の構成は、上述した図17の構成と同様であるため、対応する部分に同じ指示符号を付して説明を省略する。
以上説明した本発明の音源信号分離装置の実施の形態の動作をまとめると、ステレオマイクに対する2音源以上の音源を対象とし、ターゲット人物の音声の分離を行うため、混在波形の母音のような定常性部分のピッチを検出している。この時、声の高低や男性女性は問わない。このピッチを基準としたターゲット音声の通過特性を得るためのバンドパス係数(分離フィルタ係数)を求めることで、ターゲット音声に関係する周波数軸上で山となる部分以外の帯域でターゲット音声以外の音が減衰される。また、演算速度を高めるために予め係数メモリを用意することで、係数の演算の手間が省ける。
次に、本発明の他の実施の形態に用いられる音源信号分離装置の具体例の概略構成を図22に示す。
この図22において、入力端子110には、マイクロホン等により集音された音響信号、具体的には例えばステレオマイクロホンにより集音されたステレオ音声信号が入力され、ピッチ検出部12及び所望の音源信号を強調する音源信号強調手段としての遅延補正加算部13に送られる。遅延補正加算部13からの出力は、音源信号分離部190内の基本波形作成部140及び基本波形置き換え部150に送られ、基本波形作成部14では、ピッチ検出部12で検出されたピッチに基づいて基本波形が作成される。基本波形作成部140からの基本波形は、基本波形置き換え部150に送られ、遅延補正加算部13からの音声信号の少なくとも一部(例えば後述する定常性部分)が基本波形に置き換えられて、出力端子160より分離波形出力信号として取り出される。
このような構成を有する音源信号分離装置の具体例において、ピッチ検出部12および遅延補正加算部13は上述した図1の構成と同様であるため、対応する部分に同じ指示符号を付して説明を省略する。
この図22のピッチ検出部12としては、上述した実施の形態のような2波長分の周期からピッチ検出を行うものを用いることができるが、これに限定されず、1波長分の周期を検出するものや、4波長以上の偶数波長分の周期を検出するものを用いてもよい。ピッチ検出の波長の数を多くとれば処理すべきサンプル数が増えるが、誤差が少なくなる利点がある。また、このようなピッチ検出部は、上記図22に示したような音源信号分離装置のみならず、ピッチを検出することで音源信号分離をするような種々の音源信号分離装置に広く用いることができる。
基本波形作成部140では、ピッチ検出部12で検出された定常性部分のピッチに基づいて基本波形が作成される。この基本波形としては、一般にピッチ波長の整数倍の波形が用いられるが、本実施の形態においては、後述するように、ピッチ波長の倍の波長の波形を用いている。次に、基本波形置き換え部150では、遅延補正加算部13(あるいは入力端子110)からの音声信号の例えば上記定常性部分を、基本波形作成部140で作成された基本波形の繰り返し波形に置き換えることにより、所望の音源からの音声信号のみが強調されたような分離波形出力信号として、出力端子160に送っている。
次に、上記図22の音源信号分離装置の動作の具体例について説明する。
このピッチ検出部12では、ピッチ検出単位毎にピッチを求め、そのピッチが連続する連続区間あるいは定常性部分の座標(サンプル番号)を求めており、図22のステレオマイクロホンを用いた音声信号分離装置は、これらの情報から、2音源以上の信号波形を分離するようにしたものである。
ここで、前述したように、マイクロホン毎にターゲット音声に対して遅延量補正を行って位相を合わせ、これらを足し込むことで、ターゲット音声を強調し、その他の音声は相対的に減衰される。この点を踏まえて、上記定常性部分の信号波形を上記ピッチ検出単位を周期として足し込むことで、この定常性部分の基本波形を作ることができる。
すなわち、図22の遅延補正加算部13では、上記図3と共に説明したように、ターゲット音源から各マイクロホンへの音の伝搬遅延時間の差をなくすように遅延量補正を行い、これらを加算して出力している。基本波形作成部140では、遅延補正加算部13からの出力信号波形を、ピッチ検出部12からの情報に基づいて処理することで基本波形作成を行っており、具体的には、上記ピッチ連続区間あるいは定常性部分の信号波形を、上記ピッチ検出単位を周期として足し込むことで、基本波形を作成している。図23の実線の波形aは、このようにして作成された基本波形の一例を示しており、上記図5に示したような2波長分の波形の6個分(例えば周期Ty(1)〜Ty(6)に相当)を足し込んで平均化した波形を示している。また、図23の破線の波形bは、参考として本来のターゲット音声の波形を示している。この図23から明らかなように、上記ピッチ連続区間あるいは定常性部分の信号波形をピッチ検出単位である2波長を周期として足し込むことにより作成された基本波形aは、本来のターゲット音声の波形bに極めて近似したものが得られていることが分かる。この基本波形は、ターゲット音声に関しては位相がずれずに足し込まれるので、保存または強調されるが、他の音に関しては、位相がずれた音声を足し込むことになるので、減衰効果を示す。この時、ピッチ検出を2波長単位で行い、基本波形作成も2波長単位で行うことが好ましい理由としては、作成された基本波形には、ピッチ周期Txよりも周期の長いTyの成分も保存されるからである。
次の基本波形置き換え部150では、遅延補正加算部13からの出力信号波形の内の上記ピッチ連続区間あるいは定常性部分を、上記基本波形作成部140で作成された基本波形の繰り返し波形で置き換えている。図24の実線の波形aは、基本波形置き換え部150にて置き換える基本波形の繰り返し波形の例を示しており、図24の破線の波形bは、参考として本来のターゲット音声の波形を示している。
このように、ピッチ連続区間あるいは定常性部分が基本波形で置き換えられた基本波形置き換え部150からの出力波形信号は、ターゲット音声の分離出力波形信号として、出力端子160より取り出される。
図25は、このような音声信号分離装置の動作を概略的に示すフローチャートである。この図25において、最初のステップS61で、例えば上述したような2波長分を検出単位とするピッチ検出を行い、次のステップS62で連続性ありか否かの判別を行い、NOのときはピッチ検出のステップS61に戻り、YESのときはステップS63以降に進む。ステップS63では、上記ピッチ検出により得られた各ピッチ検出単位の始点と終点の座標を入力し、ステップS64で、これらの各ピッチ検出単位の信号波形を足し込んで平均化することにより基本波形を作成し、次のステップS65で、上述したような基本波形の置き換え処理を行っている。
なお、ステレオマイクロホンと音源(人物等)との関係についは、前述と同様であるので説明を省略する。
以上説明した本発明の音源信号分離装置の実施の形態の動作をまとめると、ステレオマイクに対する2音源以上の音源を対象とし、ターゲット人物の音声の分離を行うため、混在波形の母音のような定常性部分のピッチを検出している。この時、声の高低や男性女性は問わない。この前ピッチとの誤差が少ない場合は連続性と判断し、その連続部分を足し込み平均をし、出来上がった波形を基本波形とし、もとの波形と置き換える。置き換え波形は足し込むほど混在波形は減衰し、ターゲットの音のみが強調され分離を実現することができる。
なお、本発明は上述した実施の形態のみに限定されるものではなく、例えば、上述したピッチ検出は、2波長周期のみならず、4波長等の2の倍数波長を周期として行うようにしてもよく、この場合、4波長以上とすると、より誤差が少なくなるが、処理すべきサンプル数が増えることを考慮して、適宜ピッチ検出周期を設定すればよい。また、このようなピッチ検出の構成は、上記実施の形態の音源信号分離装置だけでなく、ピッチを検出することで音源信号を分離する種々の装置に広く用いることが可能である。この他、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
本発明の実施の形態となる音源信号分離装置の概略構成を示すブロック図である。 本発明の実施の形態に用いられるピッチ検出装置の構成例を示すブロック図である。 本発明の実施の形態に用いられる遅延補正加算部の構成例を示すブロック図である。 本発明の実施の形態に用いられる遅延補正加算部の動作を説明するための音声信号波形を示す図である。 本発明の実施の形態に用いられる音声信号の時間軸上の波形を示す波形図である。 図5に示す音声信号の周波数軸上のスペクトルを示す図である。 ピッチ周波数が約650Hzの音声信号の時間軸上の波形を示す波形図である。 図7に示す音声信号の周波数軸上のスペクトルを示す図である。 ピッチ周波数が約580Hzの音声信号の時間軸上の波形を示す波形図である。 図9に示す音声信号の周波数軸上のスペクトルを示す図である。 本発明の実施の形態において2波長を検出単位としてピッチ検出を行う理由を説明するための音声信号波形を示す図である。 本発明の実施の形態におけるピッチ検出処理の動作の一例を説明するためのフローチャートである。 音声信号波形の極大値及び極小値を説明するための波形図である。 2波長分のピッチ検出単位毎に検出される情報の具体例を示す図である。 分離係数作成部にて作成したフィルタ係数を用いた分離フィルタの周波数特性の具体例を示す図である。 分離係数作成部にて作成したフィルタ係数の具体例を示す図である。 本発明の実施の形態における音源信号分離装置の他の具体例を示すブロック図である。 定常性部分のフィルタ係数の時間軸上での拡張を説明するために図である。 時間軸上の信号波形の具体例を示す波形図である。 本発明の実施の形態における音源信号分離装置のさらに他の具体例を示すブロック図である。 定常性判定領域と話者判定との関係を説明するための図である。 本発明の実施の形態となる音源信号分離装置の概略構成を示すブロック図である。 基本波形作成部により作成される基本波形の一例を示す波形図である。 基本波形置き換え部により置き換えられる基本波形の繰り返し波形の一例を示す波形図である。 本発明の実施の形態における音源信号分離処理の一例を説明するためのフローチャートである。 3人の人物を音源とするときのステレオマイクロホンによる集音の具体例を示す図である。
符号の説明
12 ピッチ検出部、 13,23,72 遅延補正加算部、 14,76 分離係数作成部、 15,77 フィルタ演算回路、 17,79 高域処理部、 19,190,191,192 音源信号分離部、 24 極大値検出部、 25 極大値のゼロクロス間最大値検出部、 26 最大値間ピッチ検出部、 27 連続判定部、 73 フィルタバンク部、 74 定常性判定部、 86 係数メモリ・係数選択部、 140 基本波形作成部、 150 基本波形置き換え部

Claims (20)

  1. 複数の音源からの音響信号が混合されて複数の集音手段により集音された入力音響信号の内の所望の音源信号を強調する音源信号強調手段と、
    上記入力音響信号の内の上記所望の音源信号のピッチを検出するピッチ検出手段と、
    検出された上記ピッチと上記音源信号強調手段により強調された音源信号とに基づいて、上記入力音響信号から上記所望の音源信号を分離する音源信号分離手段と
    を有することを特徴とする音源信号分離装置。
  2. 上記音源信号分離手段は、
    上記音源信号強調手段からの出力信号から上記所望の音源信号を分離するフィルタ手段と、
    上記ピッチ検出手段からの検出情報に基づき、上記フィルタ手段のフィルタ係数を出力するフィルタ係数出力手段と
    を有することを特徴とする請求項1記載の音源信号分離装置。
  3. 上記フィルタ係数出力手段は、上記フィルタ手段の周波数特性を、上記ピッチ検出手段により検出されたピッチの周波数の整数倍の周波数成分を通過させる特性とするフィルタ係数を出力することを特徴とする請求項2記載の音源信号分離装置。
  4. 上記フィルタ係数出力手段は、予め何種類かのピッチに応じたフィルタ係数が蓄積された記憶手段を備え、上記ピッチ検出手段により検出されたピッチに応じて上記記憶手段から該ピッチに対応するフィルタ係数を読み出して出力することを特徴とする請求項3記載の音源信号分離装置。
  5. 上記音源信号強調手段からの出力信号の子音帯域を処理する高域処理手段と、
    上記音源信号強調手段からの出力信号の子音帯域を取り出して上記高域処理手段に送り、上記音源信号強調手段からの出力信号の子音以外の帯域を取り出して上記フィルタ手段に送り、上記音源信号強調手段からの出力信号の母音帯域を取り出して上記ピッチ検出手段に送るフィルタバンク手段と
    をさらに有することを特徴とする請求項2記載の音源信号分離装置。
  6. 上記複数の集音手段は、左右のステレオマイクロホンであることを特徴とする請求項2記載の音源信号分離装置。
  7. 上記音源信号強調手段は、上記複数の集音手段からの音響信号に対して、上記所望の音源から上記複数の集音手段までの音の伝搬の遅延時間差を補正して加算することにより、上記所望の音源からの音響信号のみを強調することを特徴とする請求項2記載の音源信号分離装置。
  8. 上記ピッチ検出手段は、上記所望の音源信号のピッチの2波長分を検出単位としてピッチ検出を行うことを特徴とする請求項2記載の音源信号分離装置。
  9. 上記音源信号分離手段は、
    上記音源信号強調手段からの出力信号中の少なくともほぼ同じピッチが連続する定常性部分を用い、上記ピッチ検出手段からの検出情報に基づき、基本波形を作成する基本波形作成手段と、
    上記入力音響信号に基づく信号の少なくとも一部を、上記基本波形作成手段により作成された基本波形の繰り返し波形で置き換えて出力する基本波形置き換え手段と
    を有することを特徴とする請求項1記載の音源信号分離装置。
  10. 上記ピッチ検出手段は、上記所望の音源信号のピッチの2波長分を検出単位としてピッチ検出を行うことを特徴とする請求項9記載の音源信号分離装置。
  11. 上記複数の集音手段は、左右のステレオマイクロホンであることを特徴とする請求項9記載の音源信号分離装置。
  12. 上記音源信号強調手段は、上記複数の集音手段からの音響信号に対して、上記所望の音源から上記複数の集音手段までの音の伝搬の遅延時間差を補正して加算することにより、上記所望の音源からの音響信号のみを強調することを特徴とする請求項9記載の音源信号分離装置。
  13. 上記基本波形作成手段は、上記所望の音源信号のピッチが連続する定常性部分について、ピッチの2波長分を単位として加算し平均化することにより基本波形を作成することを特徴とする請求項9記載の音源信号分離装置。
  14. 複数の音源からの音響信号が混合されて複数の集音手段により集音された入力音響信号の内の所望の音源信号を強調する工程と、
    上記入力音響信号の内の上記所望の音源信号のピッチを検出する工程と、
    検出された上記ピッチと上記強調する工程で強調された音源信号とに基づいて、上記入力音響信号から上記所望の音源信号を分離する工程と
    を有することを特徴とする音源信号分離方法。
  15. 複数の音源からの音響信号が混合されて複数の集音手段により集音された入力音響信号の所望の音源信号を強調する音源信号強調手段と、
    上記音源強調手段からの出力信号中のピッチの2波長分を検出単位として2波長周期を検出する周期検出手段と、
    上記周期検出手段により検出された2波長周期の変化に基づき少なくともほぼ同じピッチが連続しているか否かを判定し、判定結果に応じてピッチ情報を出力する連続判定手段と
    を有することを特徴とするピッチ検出装置。
  16. 上記複数の集音手段は、左右のステレオマイクロホンであることを特徴とする請求項15記載のピッチ検出装置。
  17. 上記音源信号強調手段は、上記複数の集音手段からの音響信号に対して、上記所望の音源から上記複数の集音手段までの音の伝搬の遅延時間差を補正して加算することにより、上記所望の音源からの音響信号のみを強調することを特徴とする請求項15記載のピッチ検出装置。
  18. 複数の音源からの音響信号が混合されて複数の集音手段により集音された入力音響信号の所望の音源信号を強調する音源信号強調工程と、
    上記音源強調工程により得られる出力信号中のピッチの2波長分を検出単位として2波長周期を検出する周期検出工程と、
    上記周期検出工程により検出された2波長周期の変化に基づき少なくともほぼ同じピッチが連続しているか否かを判定し、判定結果に応じてピッチ情報を出力する連続判定工程と
    を有することを特徴とするピッチ検出方法。
  19. 複数の音源からの音響信号が混合されてなる入力音響信号の所望の音源信号のピッチの2の倍数の波長分を検出単位としてピッチ検出を行うピッチ検出手段と、
    検出された上記ピッチに基づいて所望の音源信号を分離する音源信号分離手段と
    を有することを特徴とする音源信号分離装置。
  20. 複数の音源からの音響信号が混合されてなる入力音響信号の所望の音源信号のピッチの2の倍数の波長分を検出単位としてピッチ検出を行う工程と、
    検出された上記ピッチに基づいて所望の音源信号を分離する工程と
    を有することを特徴とする音源信号分離方法。
JP2005041169A 2004-02-20 2005-02-17 音源信号分離装置及び方法、並びにピッチ検出装置及び方法 Pending JP2005266797A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005041169A JP2005266797A (ja) 2004-02-20 2005-02-17 音源信号分離装置及び方法、並びにピッチ検出装置及び方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004045237 2004-02-20
JP2004045238 2004-02-20
JP2005041169A JP2005266797A (ja) 2004-02-20 2005-02-17 音源信号分離装置及び方法、並びにピッチ検出装置及び方法

Publications (1)

Publication Number Publication Date
JP2005266797A true JP2005266797A (ja) 2005-09-29

Family

ID=35091338

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005041169A Pending JP2005266797A (ja) 2004-02-20 2005-02-17 音源信号分離装置及び方法、並びにピッチ検出装置及び方法

Country Status (1)

Country Link
JP (1) JP2005266797A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007032527A1 (ja) 2005-09-14 2007-03-22 Canon Kabushiki Kaisha メーリング用インク、該インクを用いたメーリング用インクタンク、メーリング用インクジェット記録方法及びメーリング用インクジェット記録装置
WO2009078454A1 (ja) 2007-12-18 2009-06-25 Sony Corporation データ処理装置、データ処理方法、及び記憶媒体
JP2009244703A (ja) * 2008-03-31 2009-10-22 Brother Ind Ltd 楽曲編集システムおよびプログラム
JP2012058360A (ja) * 2010-09-07 2012-03-22 Sony Corp 雑音除去装置および雑音除去方法
US8345884B2 (en) 2006-12-12 2013-01-01 Nec Corporation Signal separation reproduction device and signal separation reproduction method
WO2014133331A1 (ko) * 2013-02-27 2014-09-04 넥스트리밍(주) 가라오케 컨텐츠 생성 장치 및 그 방법
US8891780B2 (en) 2010-05-19 2014-11-18 Fujitsu Limited Microphone array device
WO2016024363A1 (ja) * 2014-08-14 2016-02-18 株式会社ピー・ソフトハウス オーディオ信号処理装置、オーディオ信号処理方法およびオーディオ信号処理プログラム
CN113066512A (zh) * 2021-03-24 2021-07-02 平安科技(深圳)有限公司 佛教音乐识别方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10191290A (ja) * 1996-12-27 1998-07-21 Kyocera Corp マイクロホン内蔵型ビデオカメラ
JP2002515609A (ja) * 1998-05-11 2002-05-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ピッチ検出の精密化
JP2003108200A (ja) * 2001-09-27 2003-04-11 Kenwood Corp 音声信号雑音除去装置、音声信号雑音除去方法及びプログラム
JP2003515281A (ja) * 1999-11-19 2003-04-22 ジェンテクス・コーポレーション 乗物用付属機器
JP2003280696A (ja) * 2002-03-19 2003-10-02 Matsushita Electric Ind Co Ltd 音声強調装置及び音声強調方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10191290A (ja) * 1996-12-27 1998-07-21 Kyocera Corp マイクロホン内蔵型ビデオカメラ
JP2002515609A (ja) * 1998-05-11 2002-05-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ピッチ検出の精密化
JP2003515281A (ja) * 1999-11-19 2003-04-22 ジェンテクス・コーポレーション 乗物用付属機器
JP2003108200A (ja) * 2001-09-27 2003-04-11 Kenwood Corp 音声信号雑音除去装置、音声信号雑音除去方法及びプログラム
JP2003280696A (ja) * 2002-03-19 2003-10-02 Matsushita Electric Ind Co Ltd 音声強調装置及び音声強調方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007032527A1 (ja) 2005-09-14 2007-03-22 Canon Kabushiki Kaisha メーリング用インク、該インクを用いたメーリング用インクタンク、メーリング用インクジェット記録方法及びメーリング用インクジェット記録装置
US8345884B2 (en) 2006-12-12 2013-01-01 Nec Corporation Signal separation reproduction device and signal separation reproduction method
WO2009078454A1 (ja) 2007-12-18 2009-06-25 Sony Corporation データ処理装置、データ処理方法、及び記憶媒体
US8169510B2 (en) 2007-12-18 2012-05-01 Sony Corporation Data processing device, data processing method, and storage medium
JP2009244703A (ja) * 2008-03-31 2009-10-22 Brother Ind Ltd 楽曲編集システムおよびプログラム
US10140969B2 (en) 2010-05-19 2018-11-27 Fujitsu Limited Microphone array device
US8891780B2 (en) 2010-05-19 2014-11-18 Fujitsu Limited Microphone array device
JP2012058360A (ja) * 2010-09-07 2012-03-22 Sony Corp 雑音除去装置および雑音除去方法
WO2014133331A1 (ko) * 2013-02-27 2014-09-04 넥스트리밍(주) 가라오케 컨텐츠 생성 장치 및 그 방법
US9881633B2 (en) 2014-08-14 2018-01-30 P Softhouse Co., Ltd. Audio signal processing device, audio signal processing method, and audio signal processing program
WO2016024363A1 (ja) * 2014-08-14 2016-02-18 株式会社ピー・ソフトハウス オーディオ信号処理装置、オーディオ信号処理方法およびオーディオ信号処理プログラム
CN113066512A (zh) * 2021-03-24 2021-07-02 平安科技(深圳)有限公司 佛教音乐识别方法、装置、设备及存储介质
CN113066512B (zh) * 2021-03-24 2024-02-23 平安科技(深圳)有限公司 佛教音乐识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
KR101122838B1 (ko) 음원 신호 분리 장치 및 방법, 및 피치 검출 장치 및 방법
US8889976B2 (en) Musical score position estimating device, musical score position estimating method, and musical score position estimating robot
JP2005266797A (ja) 音源信号分離装置及び方法、並びにピッチ検出装置及び方法
JP6019969B2 (ja) 音響処理装置
JP6174856B2 (ja) 雑音抑制装置、その制御方法、及びプログラム
JP5101316B2 (ja) 基本周波数の高調波及び分数調波の抑制を用いたピッチ抽出
EP2962299B1 (en) Audio signal analysis
JP2010249939A (ja) ノイズ低減装置、ノイズ判定方法
JP3914878B2 (ja) リズム情報に関するオーディオ信号を解析するための装置及び方法
KR101286168B1 (ko) 오디오 신호처리장치, 방법 및 그 방법을 기록한 기록매체
JP3033061B2 (ja) 音声雑音分離装置
JP2008072600A (ja) 音響信号処理装置、音響信号処理プログラム、音響信号処理方法
JP4552533B2 (ja) 音響信号処理装置及び音声度合算出方法
JP2002175099A (ja) 雑音抑制方法および雑音抑制装置
JP4125322B2 (ja) 基本周波数抽出装置、その方法、そのプログラム並びにそのプログラムを記録した記録媒体
JP5513074B2 (ja) グリッド検出装置及びプログラム
JP4249697B2 (ja) 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体
CN115206345B (zh) 基于时频结合的音乐人声分离方法、装置、设备及介质
JP5495858B2 (ja) 音楽音響信号のピッチ推定装置及び方法
JP4471780B2 (ja) 音声信号処理装置及びその方法
JP4360527B2 (ja) ピッチ検出方法
JP2004258422A (ja) 音源情報を用いた音源分離・抽出方法および装置
JP4710130B2 (ja) 音声信号分離方法及び装置
JP2010044117A (ja) 音響特性制御装置
JPH0420198B2 (ja)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100823

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110329