JP5529635B2

JP5529635B2 - 音声信号処理装置および音声信号処理方法

Info

Publication number: JP5529635B2
Application number: JP2010133349A
Authority: JP
Inventors: 正史木村
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2010-06-10
Filing date: 2010-06-10
Publication date: 2014-06-25
Anticipated expiration: 2030-06-10
Also published as: CN102280108B; EP2395774B1; KR101377470B1; JP2011257656A; US9386369B2; KR20110135343A; EP2395774A3; CN102280108A; US20110305351A1; EP2395774A2

Description

本発明は音声信号処理技術に関する。

近年音声信号処理装置として動画撮影可能なカメラが知られている。装置の内部駆動部の駆動による駆動音（雑音）の影響を受けないこと等が望まれる。前述の特性を得るために様々な撮影装置が提案されている。

例えば、特許文献１では雑音源の種類に応じて、適切なフィルタ（雑音低減手段）を選択することが開示されている。特許文献２では雑音の発生時間に応じて、複数の雑音低減手段を使い分けることが開示されている。特許文献３では、雑音発生期間の音声信号を、雑音発生期間の前後の音声信号に基づいて算出した算出信号に置換する（予測処理）技術により、ハードディスクの駆動雑音を低減することが開示されている。

特開平０４−２３３８７３号公報特開２００６−２０３３７６号公報特開２００６−２６２２４１号公報

しかしながら、上記の特許文献１，２に開示された技術では、複数の雑音低減手段から適当な手段を択一的に選択することは可能であるが、複数の雑音低減手段の長所を保ちつつ双方を利用することはできない。また、限られたリソースで複数の雑音低減処理を行う場合には、処理時間や処理能力などが問題になる。特に複数の雑音が発生する場合に、特許文献３のように全ての雑音を雑音発生期間の前後の音声信号に基づいて算出した算出信号に置換する予測処理により処理しようとすると演算負荷が増大し、コスト増加の一因となってしまう。

本発明は、適正に雑音が低減できるようにすることを目的とする。

本発明に係る音声信号処理装置は、複数の駆動部と、音声を集音して音声信号を取得する集音手段と、前記複数の駆動部の駆動を制御する駆動制御手段と、前記複数の駆動部の駆動に伴う駆動音が発生したタイミングである雑音区間の隣接する前および後の少なくとも一つの所定の区間の音声信号から取得した信号を前記雑音区間の音声信号に置換することにより、前記複数の駆動部の駆動に伴う駆動音成分を低減する第１の雑音低減手段と、前記雑音区間の隣接する前および後の少なくとも一つの所定の区間の音声信号を使用せずに、前記複数の駆動部の駆動に伴う駆動音成分を低減する第２の雑音低減手段と、前記複数の駆動部のうちの２つ以上が予め決められた期間以上の期間駆動した場合は、前記集音手段により取得された音声信号から前記複数の駆動部の駆動に伴う駆動音成分を前記第２の雑音低減手段により低減する処理が行われた後に、前記集音手段により取得された音声信号から前記複数の駆動部の駆動に伴う駆動音成分を前記第１の雑音低減手段によって低減するための制御を行う制御手段とを有する。

本発明によれば、効果的な雑音低減が実現できる。

本発明に係る実施形態の撮影装置の斜視図（ａ）および側断面図（ｂ）。撮影装置のブロック図。音声信号処理回路のブロック図。ＳＳ処理回路のブロック図（ａ）、フィルタ処理回路のブロック図（ｂ）、（ｃ）。音圧処理の説明図。ＬＰＣ処理の説明図。予測処理の説明図。近接する雑音に対する予測処理の説明図。雑音とフィルタの特性を示す図。フィルタ処理回路のブロック図。フィルタ処理の説明図。ミュート処理の説明図。ＰＬＣ処理の説明図。ブレ補正駆動回路が発生する音を例示する図。レンズの種類と雑音の特徴を例示する図。ＳＳ処理開始タイミングおよび複数の雑音処理の説明図。ＳＳ処理のフレームと減算ゲインの説明図。ＳＳ処理後に予測処理を実行した場合を例示する図。ＳＳ処理および予測処理による音声信号を例示する図。ＳＳ処理前に予測処理を実行した場合を例示する図。ＳＳ処理の強度およびタイミングが不適切な場合を例示する図。

以下に、添付図面を参照して本発明を実施するための形態について詳細に説明する。尚、以下に説明する実施の形態は、本発明を実現するための一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施の形態に限定されるものではない。

[実施形態１]以下、図１乃至図４を参照して、本発明の音声信号処理装置を撮影装置に適用した実施形態１について説明する。

図１において、１は撮影装置、２は撮影装置１に装着された撮影レンズ、３は撮影光学系、４はレンズの光軸、５はレンズ鏡筒、６は撮像素子、７は撮影装置１に設けられ、装置周囲の音声を集音するマイク、８は撮影装置１の背面に設けられた表示装置である。９は撮影光学系３の調整のための光学系駆動部、１０は撮影装置１と撮影レンズ２を接続する接点、１１はいわゆるクイックリターンミラー機構、１２はＡＦ（オートフォーカス）センサを含む焦点検出部、１４は装置１のブレを検出するブレセンサである。３１は操作ボタン、３２は装置１に設けられたマイク７の複数の開口部である。本実施形態の撮影装置は画像の取得と同時に、マイク７により音声を取得／記録することができる。３０はレリーズボタンである。本実施形態では、撮影レンズを着脱することができる撮影装置について説明するが、この撮影レンズは、着脱可能でなくてもよい。

なお、マイク７の開口部３２は、図１（ｂ）には投影されない箇所に設けられているが、マイク７とマイク開口部３２の位置を明確にするために、図１（ｂ）ではこれを模式的にマイク７およびマイク開口部３２として示している。

ここで、静止画の撮影動作について説明する。撮影装置１は撮影レンズ２と焦点検出部１２および不図示の露出検出部を用いて、焦点／露出検出を行うとともに、撮影光学系３の一部を駆動／調整することによって被写体像を撮像素子６の受光面近傍に結像させる。さらに、適正な露光になるように絞りを調整する。更にユーザによるレリーズボタン３０の操作に従い撮影の各種条件を設定し、レリーズボタンの操作と同期させて、撮像素子６により光電変換された被写体の画像情報を取得して図２に示すメモリ２４へ記録する。

次に、動画の撮影動作について説明する。動画の撮影に先立って、不図示のライブビューボタンを押すことで、撮像素子６で撮像された画像が表示装置８に表示される。ライブビューは、撮像素子６で撮像された画像情報を、表示装置８にリアルタイムで表示することである。撮影装置１は不図示の動画撮影ボタンの操作と同期させて、撮像素子６から画像情報を予め設定されたフレームレートで取得するとともに、マイク７から音声情報を取得して、これらを同期させてメモリ２４へ記録する。動画撮影中において、撮影光学系３の調整が必要となった場合は、適宜光学系駆動部９により調整を行う。そして、動画撮影ボタンの操作と同期させて撮影動作を終了する。また、撮影装置１は動画撮影中であっても、レリーズボタン３０の操作により任意のタイミングで静止画撮影が可能である。

次に、図２を参照して、撮影装置１としてのデジタルカメラと撮影レンズ２の構成について説明する。図２において、撮影装置１は主として、撮像系、画像処理系、音声処理系、記録再生系、制御系を有する。撮像系は、撮影光学系３および撮像素子６を含み、画像処理系は、Ａ／Ｄ変換回路２０および画像処理回路２１を含み、音声処理系はマイク７および音声信号処理回路２６を含む。記録再生系は、記録処理回路２３およびメモリ２４を含む。制御系は、カメラシステム制御回路２５、焦点検出部（ＡＦセンサ含む）１２、露出検出部（ＡＥセンサ含む）１３、ブレセンサ１４、操作検出回路２７、およびレンズシステム制御回路２８、レリーズボタン３０、光学系駆動部９を含む。光学系駆動部９は、焦点レンズ駆動回路９ａ、ブレ補正駆動回路９ｂ、絞り駆動回路９ｃなどから構成される。

撮像系は、被写体からの光を、撮影光学系３を介して撮像素子６の撮像面に結像する光学処理を行う。エイミングなどの撮影予備動作中は、クイックリターンミラー機構１１に設けられたミラーを介して、焦点検出部１２にも光束の一部が導かれる。また後述するように制御系によって適切に撮影光学系３が調整されることで、適正な光量の被写体光を撮像素子６に露光するとともに、撮像素子６の近傍で被写体像が結像する。画像処理回路２１は、Ａ／Ｄ変換回路２０を介して撮像素子６から取り込んだ画像信号の処理を行う、ホワイトバランス回路、ガンマ補正回路、補間演算による高解像度化を行う補間演算回路等を有する。

音声処理系は、マイク７からの音声信号に音声信号処理回路２６によって適切な処理を施して録音用音声信号を生成する。録音用音声信号は、動画撮影時においては、後述する記録処理回路２３により撮影画像と関連付けして圧縮処理される。記録処理回路２３は、メモリ２４へ画像信号を出力するとともに、表示部２２へ出力する表示信号を生成／保存する。また、記録処理回路２３は、予め決められた方法を用いて静止画、動画、音声などの関連付け／圧縮を行う。音声信号処理回路２６の機能は、例えば、音声処理専用のチップにより実現されていても良いし、カメラ全体を制御するＣＰＵとメモリにより実現されても良い。

カメラシステム制御回路２５は、撮像時のタイミング信号などを生成して撮像素子６へ出力する。焦点検出部１２は撮影光学系３の合焦状態を検出する。静止画撮影では露出検出部１３が直接検出し、動画撮影では撮像素子６からの画像信号を処理することで被写体の輝度を検出する。レンズシステム制御回路２８はカメラシステム制御回路２５からの制御信号に応じて適切にレンズ２を駆動させて撮影光学系３の調整を行う。本実施形態では、交換レンズタイプのカメラを前提にしており、交換レンズの駆動をレンズシステム制御回路２８により制御する例を説明している。交換レンズタイプでない場合は、レンズシステム制御回路２８の機能を、カメラシステム制御回路２５が代わりに実行しても良い。カメラシステム制御回路２５の機能は、撮像装置の全体を制御するためのメインＣＰＵとメモリの組み合わせにより実現されても良いし、全体を制御するマイクロコンピュータチップにより実現されても良い。

さらに、制御系は、ユーザの操作に応動して撮像系、画像処理系、記録再生系をそれぞれ制御する。例えば、レリーズボタン３０の押下を操作検出回路２７が検出して、撮像素子６の駆動、画像処理回路２１の動作、記録処理回路２３の圧縮処理などを制御する。さらに表示部２２によって光学ファインダー、液晶モニタ等に情報の表示を行うため表示部２２の各セグメントの状態を制御する。

ここで、上記制御系での撮影光学系の調整動作について説明する。カメラシステム制御回路２５には焦点検出部１２および露出検出部１３が接続されており、静止画撮影においてはこれらの信号を元に適切な焦点位置、絞り位置を求める。カメラシステム制御回路２５は、電気接点１０を介してレンズシステム制御回路２８に指令を出し、レンズシステム制御回路２８は焦点レンズ駆動回路９ａおよび絞り駆動回路９ｃを適切に制御する。一方、動画撮影においては、焦点レンズ駆動回路９ａにより焦点レンズを微動させるとともに、撮像素子６の信号を解析し、信号のコントラストから焦点位置を求める。さらに撮像素子６の信号レベルから絞り位置を求める。

さらにレンズシステム制御回路２８にはブレセンサ１４が接続されており、静止画撮影において手ブレ補正を行うモードでは、ブレセンサ１４からの検出信号を元にブレ補正駆動回路９ｂを適切に駆動制御する。一方、動画撮影おいて手ブレ補正を行うモードでは、静止画撮影と同様にブレ補正駆動回路９ｂを駆動可能であり、ブレセンサ１４の検出信号を元に撮像素子６の読み出し位置を変更するいわゆる電子防振を行うことも可能である。ブレセンサ１４は、例えば加速度検出センサであって、撮像装置の振動を検出するものである。

ここで、動画撮影などの音声記録を伴う撮影動作について説明する。音声記録を伴う撮影動作では、カメラ本体およびレンズなどの機械的な駆動に伴う音（以下、機械駆動音）は不要な音であり雑音となる。本明細書において雑音とは、ホワイトノイズのような背景雑音ではなく前述した機械駆動音を指すものとする。

図３を参照して、音声信号処理回路２６と雑音処理部について説明する。図３において、４１はゲイン調整部、４２はフィルタ、４３はＡ／Ｄコンバータ、４４は雑音処理部、４５はフィルタである。マイク７から得られた信号はゲイン調整部４１に出力される。ゲイン調整部４１はＡ／Ｄコンバータ４３のダイナミックレンジが十分に活用できるようにマイク７の信号レベルを調整する。つまり、マイク７の信号レベルが小さいときはゲインアップして信号を増幅し、マイク７の信号レベルが大きいときはゲインを下げて飽和を防ぐ。

フィルタ４２はＡ／Ｄコンバータ４３のサンプリング周波数を考慮して適切なカットオフ周波数をもつ低域通過フィルタなどで構成される。マイク７が特定の周波数を発する素子の近傍にある場合などは前述の低域通過フィルタに加えて適当なノッチフィルタを含む場合もある。Ａ／Ｄコンバータ４３はゲイン調整部４１およびフィルタ４２で処理された信号をデジタル変換する。

雑音処理部４４は複数の雑音処理手段で構成されている。図３の例ではＳＳ処理４４ａ、フィルタ処理４４ｂ、ミュート処理４４ｃ、音圧処理４４ｄ、ＰＬＣ処理４４ｅ、ＬＰＣ処理４４ｆから構成されている。ＳＳ処理とはスペクトルの減算（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ）に基づく処理であり、本明細書ではスペクトル減算による手法を便宜的にＳＳ法、ＳＳ法による処理をＳＳ処理と呼ぶが、正式な名称ではない。フィルタ処理４４ｂは低域通過や帯域通過などの適当な帯域を遮断／通過させる処理である。ミュート処理４４ｃは雑音成分の信号を無音に置換することによって雑音成分を除去する。音圧処理４４ｄは音声信号の包絡線を平滑化する処理である。ＰＬＣ処理４４ｅは、ＩＴＵ−ＴＲｅｃｏｍｍｅｎｄａｔｉｏｎＧ．７１１ − ＡｐｐｅｎｄｉｘＩに定められているパケットロス隠蔽（ＰＬＣ＝ＰａｃｋｅｔＬｏｓｓＣｏｎｃｅａｌｍｅｎｔ）に基づく処理である。ＬＰＣ処理４４ｆは、線形予測係数（ＬＰＣ＝ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｅｆｆｉｃｉｅｎｔ）を利用した線形予測フィルタに基づく処理である。各雑音処理手法の詳細については後述する。カメラシステム制御回路２５からの指令に応じて、複数の雑音処理手段を選択的にまたは組み合わせて動作させることができる。フィルタ４５は雑音処理を行った後に必要であれば適当なフィルタ処理を施すためのフィルタである。不要であれば雑音処理を行わずスルーまたは適当な遅延のみ行うこともできる。これらの雑音処理手段はカメラシステム制御回路２５から動作が制御されている。

本実施形態では、予測に基づく雑音低減処理（予測処理）であるＰＬＣ処理４４ｅおよびＬＰＣ処理４４ｆが第１の雑音低減手段、ＳＳ処理４４ａ、フィルタ処理４４ｂ、ミュート処理４４ｃおよび音圧処理４４ｄが第２の雑音低減手段となる。また、第２の雑音低減手段は必要に応じて複数用いても良い。

ここで、各雑音低減手段による雑音処理方法について説明する。ＳＳ法はその名のとおりスペクトルの減算を行う処理である。予め雑音スペクトル（本明細書では、雑音をフーリエ変換するなどして得たスペクトルを雑音スペクトルと呼ぶ。）を用意しておき、取得した音声スペクトルから減算する。本実施形態では雑音スペクトルは、予め同定して撮影装置１のメモリ２４に格納されているものとする。他の雑音スペクトルの取得方法としては、近傍の無音区間と思われる区間のスペクトルを用いることもできる。但し、本明細書で対象とする雑音は機械駆動音成分であり、これらのスペクトルは予め求めることが可能であるために、撮影装置１のメモリ２４に格納されているものとした。

ＳＳ法は雑音が加算的に被写体音に混入していると仮定しており、これを式で表すと、

となる。但し、ｘ（ｔ）は取得した音声を、ｓ（ｔ）は被写体音を、ｎ（ｔ）は雑音を、ｔは時間をそれぞれ示している。数１をフーリエ変換すると、

となる。但し、Ｘ（ω）、Ｓ（ω）、Ｎ（ω）は、それぞれｘ（ｔ）、ｓ（ｔ）、ｎ（ｔ）をフーリエ変換したものであり、ωは周波数である。撮影装置１においては、適当な窓関数を適用して音声信号をフレーム分割して、順次処理を行うが、ここでは簡略化のため、特定のフレームに着目して説明を行う。数２を見ると明らかなように、Ｓ（ω）を求めるにはＸ（ω）からＮ（ω）を減算すればよい。そこで、

但し、Ｎ’（ω）はＮ（ω）の推定値、Ｓ’（ω）はＮ’（ω）を用いて求めたＳ（ω）の推定値、βはフロアリング係数である。∠は複素数の偏角を求める演算を示している。数３から分かるように、スペクトルは予め求められた雑音スペクトルを利用して減算するとともに、位相はＸ（ω）の値をそのまま用いる。また、フロアリング係数βはＳＳ法による音声のひずみを抑制するために導入される係数である（オリジナルのＳＳ法はβ＝０である。）。数１で示したようにＳＳ法においては、ノイズは加算的に作用していると仮定している。しかしながら、実際には位相が反転して加算され取得音声では弱めあっている場合も有る。このため、Ｘ（ω）からＮ’（ω）を減算した差分値が負になることがある。そこで、ＳＳ法ではβよりも小さいときはβとなる様に処理する。

最後に、Ｓ’（ω）を逆フーリエ変換してｓ’（ｔ）を得てこれをＳＳ処理後の音声とする。

上述したＳＳ処理を図４（ａ）に模式的に示している。図４（ａ）において、ＦＦＴは窓関数処理を含めた高速フーリエ変換処理を、ＩＦＦＴは高速逆フーリエ変換を、Ｓ’（ω）推定は数３の処理をそれぞれ示している。図４（ａ）から明らかなようにＳＳ法は、単一チャンネル信号（モノラル音声）にも適用可能な手法である。一方で、事前に何らかの方法でＮ’（ω）を与える必要がある。

フィルタ処理は適当なスペクトル領域を遮断する処理である。ノイズのモデルはＳＳ法と同じく雑音が加算的に被写体音に混入していると仮定している。ここで数２の両辺にフィルタを適用すると、

となる。但し、Ｓ’（ω）はＳ（ω）の推定値、Ｆ（ω）はフィルタの周波数特性を示す値である。ここで、

を満たすようにＦ（ω）を決めることができれば、数４から明らかなようにＦ（ω）Ｘ（ω）はＳ（ω）と概略等しくなる。数５および数６は周波数領域で、被写体音が存在する領域と、雑音の存在する領域が分かれており、Ｆ（ω）は雑音の存在する領域を遮断するように設計されていることを意味する。最後に、Ｓ’（ω）を逆フーリエ変換してｓ’（ｔ）を得てこれをフィルタ処理後の音声とする。

実際の装置では、フーリエ変換を省くために、時間領域でフィルタを適用することも多く行われている。時間領域で数７を計算している。

但し、数７において＊は畳み込み積分を、ｓ’（ｔ）は被写体信号の推定値を示している。ｆ（ｔ）はＦ（ω）とほぼ等価な周波数特性をもつ時間領域のフィルタであり、ＲＥＭＥＺ法などのデジタルフィルタ設計法によって設計することが可能である。

フィルタ処理を周波数領域で行うか、時間領域で行うかは設計時に適当なものを選択している。フィルタ特性や性能を得るための時間領域フィルタの次数などを勘案して決定される。

フィルタ処理を周波数領域で行う場合を図４（ｂ）に模式的に示している。図４（ｂ）において、ＦＦＴは窓関数処理を含めた高速フーリエ変換処理を、ＩＦＦＴは高速逆フーリエ変換を、Ｓ’（ω）推定は数４の処理をそれぞれ示している。フィルタ処理を時間領域で行う場合を図４（ｃ）に模式的に示している。図４（ｃ）において、畳み込み積分は数７の処理を示している。図４（ｂ）および（ｃ）からも明らかなようにフィルタは、単一チャンネル信号（モノラル音声）にも適用可能な手法である。一方で、事前に何らかの方法でＦ（ω）またはｆ（ｔ）を与える必要がある。

ミュート処理は前述したように雑音成分の信号を無音に置換する処理のことである。つまり雑音が発生していると想定される時間において、

とする。但し、数８においてｓ’（ｔ）は被写体信号の推定値を示している。

ここで図５を参照して、音圧処理４４ｄについて説明する。図５において、（ａ）は音圧処理前の音声信号を、（ｂ）は（ａ）に示した信号の包絡線検出出力を、（ｃ）は音圧処理後の音声信号をそれぞれ示している。図５（ａ）〜（ｃ）の横軸は時間であり、時間位置は揃っている。図５（ａ）〜（ｃ）を貫く縦の破線は同じ時間を模式的に示す線である。図５（ａ）〜（ｃ）の縦軸は各信号のレベルを示している。

図５（ａ）において、４６は雑音発生前の音声信号を、４７は雑音発生中の音声信号を、４８は雑音発生後の音声信号をそれぞれ示している。音声信号４６および４８は被写体音または暗騒音からなっており、音声信号４７は被写体音に騒音が重畳している。このため後述する包絡線検出をしたときに突出した値を持つ。

図５（ｂ）において、４６ａ，４７ａ，４８ａはそれぞれ音声信号４６，４７，４８の包絡線検出出力である。４７ｂは音圧処理によって得られた、雑音発生区間の処理後の包絡線出力である。音圧処理においては、まず入力信号の包絡線検出を行い、図５（ａ）の信号から図５（ｂ）の信号を得る。次に、雑音発生区間前後の音声信号のレベルを検出する。これは４６ａおよび４８ａの雑音発生区間近傍の信号を見ればよい。雑音発生区間前後の音声信号のレベルが平滑に繋がるような包絡線を生成する。例えば、図５（ｂ）の包絡線検出出力４７ｂのように、直線で補間すればよい。

最後に雑音区間の包絡線が、４７ａから４７ｂになるように雑音発生中の音声信号４７を適当な区間に区切りながら信号のレベル制御を行う。このようにして得られた信号が図５（ｃ）の音声信号４７ｃである。上述した音圧処理では、雑音区間の被写体音のレベルに影響が出るが、雑音の影響を低減することができる。

また音圧処理においては、先行してフィルタ処理を施すことも都合がよい。フィルタ処理によって被写体音があまり存在しない帯域の雑音を低減した後に上述の音圧処理を実行することで、適正に機械駆動音成分を低減することができる。

次に図１３を参照して、ＰＬＣ処理４４ｅについて説明する。図１３はＩＴＵ−ＴＲｅｃｏｍｍｅｎｄａｔｉｏｎＧ．７１１ − ＡｐｐｅｎｄｉｘＩのＦｉｇｕｒｅＩ．１からの抜粋である。図１３において横軸は時間であり、縦軸は音声信号のレベルを示している。図１３の４つの波形は上から、入力信号、１０ｍｓ分の信号を補正した信号、隠蔽処理が完了した信号、元信号である。ＩＴＵ−ＴＲｅｃｏｍｍｅｎｄａｔｉｏｎＧ．７１１でのフレームサイズは１０ｍｓであり、図１３では２フレーム＝２０ｍｓの情報に欠落が起きた場合を示している。ＰＬＣ処理４４ｅではパケットロスが起きた箇所（図１３のＩｎｐｕｔ波形において、破線で囲まれた箇所）を前後の情報で隠蔽する。欠落が発生した時に、バッファに蓄えられた信号の正規化自己相関を計算する。正規化自己相関が最大となるピッチを当該信号の基本周波数とみなして、求めたピッチ分信号をずらしてコピーする。同時にコピー信号を挿入した箇所とその前方の信号が不連続とならないように、バッファに蓄えられた信号に対しても、コピー信号を延長して滑らかに加算する。一方パケットの欠落状態から回復して正常な通信が復帰したときには、同様に現在の信号からピッチを検出し、バッファに蓄えられた信号にピッチ分ずらして滑らかに加算する。このような操作を行うことで、図１３の隠蔽処理が完了した信号を得ることができる。

ＩＴＵ−ＴＲｅｃｏｍｍｅｎｄａｔｉｏｎＧ．７１１ − ＡｐｐｅｎｄｉｘＩでは音声の通信について定められているので、パケットの欠落とその隠蔽を考えている。撮影装置１に適用する場合には、パケットの欠落タイミング＝機械駆動音の発生タイミング、とすれば前述のＰＬＣ処理４４ｅをそのまま適用することができる。ＰＬＣという用語はパケットロスから命名されているので、機械駆動音の発生タイミングに合わせて隠蔽処理を行うことをＰＬＣと呼ぶのは正確ではない。しかしながら、ＰＬＣと同様の処理を施すという意味で本明細書では撮影装置に適用する場合であってもＰＬＣ処理と称して説明を行う。すなわち、雑音が発生すると思われるタイミングで、カメラシステム制御回路２５は適当な通信方法で、音声信号処理回路２６にＰＬＣ処理４４ｅを指示する。

ＰＬＣは前述したように近傍の信号を参照しながら、適当に近傍信号を複写するような手法である。また複写に際して雑音発生時の音声信号を破棄するので、雑音の大きさは問題にならないという特徴と持つ。一方で、ＰＬＣ処理区間は短いほうが良いという特徴を持っている。

次に図６を参照して、ＬＰＣ処理４４ｆについて説明する。図６において、横軸は時間であり、縦軸はマイク７の出力電圧を示し、（ａ）は処理前の音声信号を、（ｂ）は（ａ）の信号をＬＰＣ処理をする途中の段階での音声信号を、（ｃ）は（ａ）の信号をＬＰＣ処理した後の音声信号をそれぞれ示している。

ＬＰＣ処理４４ｆでは、まず図６（ｂ）に示すに機械駆動音が存在する区間の信号を破棄する。次に後述するように、学習動作と予測動作を行い、予測動作により求めた信号で雑音が存在する区間（＝予測区間）の信号を埋める（図６（ｃ）参照）。

ＬＰＣ処理４４ｆは、予測区間の信号を捨てる前後の学習区間から予測して信号を生成する、という特徴を持つ。このため、ＰＬＣ処理４４ｅと同様に、雑音の大きさは問題にならない、予測区間は短いほうが性能がよいという特徴を持っている。

ここで本実施形態の音声予測に用いる、線形予測係数の導出（学習動作）と線形予測係数を用いた信号の予測（予測動作）について説明する。

線形予測を用いるにあたっては、現在の信号とこれに隣接する有限個（ここではｐ個とおく）の標本値との間に次のような線形１次結合関係を仮定する。

但し、数９において、ε_tは平均値０、分散σ²の互いに無相関な確率変数である。ここでｘ_tが過去の値から予測されるように式を変形すると、

数１０においてｘ’_tはｘ_tの推定値である。数１０よると、ε_tが十分に小さければ、近傍ｐ個の線形和によって現在の値が表現される。ｘ_tを上記の予測によって求めた後、さらにその近似が十分によければｘ_t+1も同じく近傍ｐ個の線形和によって求められる。このようにε_tを十分に小さくすることができれば順次値を予測して信号を求めることができる。そこでε_tを最小にするようなα_iの求め方を考える。本実施形態ではε_tを最小にするようなα_iを求める動作を学習動作と呼ぶ。

前述した学習区間においてε_tの２乗和を最小化すればよい。学習の開始時間をｔ０、終了時間をｔ₁とすると、

但し、α₀＝１である。ここで式を簡単にするために、

とおく。数１１を最小化するようにα_iを決めるためには、数１１のα_j（ｊ＝１，２，・・・，ｐ）に関する偏微分を０として解けばよい。

数１３はｐ個の線形連立１次方程式を解けばα_iを決定できることを示している。数５のうちｃ_ijはｘ_t-1（ｉ＝１，２，・・・，ｐ）から求めることができる。すなわち数１３からα_iを求めることができる。

数１３に従ってα_iを決定した場合、ε_tの２乗和は最小化されている。このとき、数１０よりｘ_tの値はｘ’_tで良い近似を与えることができる。この近似が十分に良いものであれば、ｘ_tの代わりにｘ’_tを予測信号として用いることができる。さらにｘ_t+1についても同様に近傍のｐ−１個と予測によって求めた信号から近似値を得ることができる。これを順次繰り返すことで予測区間の信号を生成することができる。本実施形態では、求められたα_iから予測区間の近似を求める動作を予測動作と呼ぶ。

ここで好適な学習動作と予測動作について述べる。図６に示すように学習動作を行うにあたっては予測区間近傍の信号を用いる。これは音声信号が短時間の領域に着目すると比較的繰り返し性が高い性質を利用している。図６のように、雑音が存在する区間よりも前の時間に学習区間１を、雑音が存在する区間よりも後の時間に学習区間２を設ける。学習動作および予測動作においては、学習区間１、学習区間２の信号に対してそれぞれ独立に計算を行う。学習区間１で学習動作を行った後に予測区間の信号を生成することを前方からの予測と呼び、学習区間２で学習動作を行った後に予測区間の信号を生成することを後方からの予測と呼ぶことにする。予測区間の信号は、学習区間１に近い場合には前方からの予測による値の重みを重く、学習区間２に近い場合には後方からの予測による値の重みを重くなるように適当な演算を行って求めると良い。

上述したＰＬＣ処理４４ｅおよびＬＰＣ処理４４ｆは予測処理であり、各処理について説明したように、雑音発生時の音声信号を破棄する、雑音の大きさに影響を受けない、短いほうが好適であるという共通した特徴を持つ。本発明はこれらの特徴に着目したものである。以下に予測処理の特徴を生かした音声処理について詳述する。なお、ＰＬＣおよびＬＰＣは正式な名称ではなく、本明細書において便宜的に使用している用語である。

まず本実施形態において対象とする雑音源について説明する。雑音源の第１の例は図２に示す絞り駆動回路９ｃである。絞り駆動回路９ｃは、その基準線が光軸４と一致するようにレンズ２内に設けられている。絞り駆動回路９ｃは、不図示の駆動源に通電することで、絞り羽根を光路に進入させる絞込み動作を行う。

絞り羽根が光路に進入していない状態（開放状態）では、光線は絞り羽根以外の部分で規制される。一方、絞り羽根が光路に進入した状態（絞込み状態）では絞り羽根によって光線が規制される。

上記駆動源はステッピングモータであり、適切に励磁状態を制御することで、比較的簡単に位置決めを実現できる。つまり、適切な制御を行うことで絞り羽根の光路への進入量を調整可能である。その結果、撮像素子６での光量の調整を行うことが可能である。

次に雑音源としての絞り駆動回路９ｃが発生する音について説明する。前述した絞込み動作は比較的短時間で動作する。例えば、２０〜４０ｍｓ程度である。レリーズから露光までのタイムラグ短縮や連写速度向上のために、この程度高速にする必要がある。一方、絞込み動作に伴って発生する雑音は、ギアの衝突音や、絞り羽根の擦れる音などであり広帯域の雑音が発生する。

雑音源の第２の例は操作ボタン３１のクリック感発生部である。クリック感発生部はホイールを有し、ホイールは操作ボタン３１などと一体となって、ユーザの操作によって回転中心周りに回転する。このときホイール上の突起によってボールが押される。このため、ユーザは回転時に力を感じるとともに、ボールが突起の溝部に落ちるときに“カチッ”という感触を感じる。突起の形状等を適切に設計することで、いわゆるクリック感が生まれる。

次に雑音源としてのクリック感発生部が発生する音について説明する。上記突起の山部から溝部にボールが落下するときに衝突が発生するために、短時間に広帯域の雑音が発生する。

上述した雑音の特徴は、短時間かつ広帯域の雑音である。このような特徴を持つ雑音であれば、上記２つの例に関わらず、本発明を適用可能である。また、上述したように短時間かつ広帯域の雑音は予測処理との相性が良いため、予測処理を適切に行うことが可能である。

図７は短時間かつ広帯域の雑音と予測処理時間との関係を例示している。図７において、横軸は時間を、縦軸は音声信号のレベルを、７１ａ、７１ｂ，７１ｃは被写体音または暗騒音のみが存在する区間の音声信号を、７２ａ，７２ｂは雑音が発生する区間の音声信号を、７３ａ，７３ｂは予測処理後の音声信号をそれぞれ示している。図７では２箇所に雑音を含む音声信号７２ａおよび７２ｂが存在している。また図７において、（ａ）はマイク７によって取得される信号を、（ｂ）は１つ目の雑音を含む音声信号７２ａを処理した後の音声信号を、（ｃ）は続いて２つ目の雑音を含む音声信号７２ｂ処理した後の音声信号をそれぞれ示している。

第１の雑音低減手段は、ＰＬＣ処理４４ｅおよびＬＰＣ処理４４ｆで説明したように、予測処理には一定の処理時間が必要である。これを図７では予測処理時間として示している。図７の例では１つ目の雑音を含む音声信号７２ａの処理後、２つ目の雑音を含む音声信号７２ｂを処理するまでに、予測処理時間よりも長い時間があるため、予測処理が適正に実行される。１つ目の雑音を含む音声信号７２ａは予測処理後の音声信号７３ａに、２つ目の雑音を含む音声信号７２ｂは予測処理後の音声信号７３ｂにそれぞれ適正に処理される。被写体音または暗騒音のみが存在する区間の音声信号７１ａ、７１ｂ、７１ｃは特に処理する必要がないので、そのまま出力される。最終的に、図７（ｃ）のように、適正に雑音が低減された音声信号が得られる。

次に図８を参照して、本発明が着目した課題が発生する場面について説明する。図８は、図７と同様に２箇所に雑音を含む音声信号７２ａおよび７２ｂが存在する例である。図８において図７と同様の信号には同じ符号を付して示し、横軸は時間を、縦軸は音声信号のレベルをそれぞれ示している。また図８において、（ａ）はマイク７によって取得される信号を、（ｂ）は１つ目の雑音を含む音声信号７２ａを処理した後の音声信号をそれぞれ示している。

図８の例では１つ目の雑音を含む音声信号７２ａの処理後、２つ目の雑音を含む音声信号７２ｂを処理するまでの期間が予測処理時間よりも短い。つまり、複数の駆動部のうちの２つ以上が予め決められた期間以上の間を開けずに駆動した場合、２つ目の雑音を含む音声信号７２ｂが適正に処理されない。その結果、図８（ｂ）のように２つ目の雑音７２ｂが低減されない。その上、仮に２つ目の雑音が予測処理に必要な学習区間に含まれてしまうと、１つ目の雑音に対して予測処理が実行されたとしても２つ目の雑音の影響を受けた音声によって置換されてしまうことになる。

図８にて説明した音声信号を、例えば、撮影装置１をモニタにケーブルを介して接続して、撮影装置１を再生装置として動画を再生した場合、雑音７２ｂが被写体音に影響を与えてしまい、品位の低い音声となってしまう。すなわち、再生される音声の品位が低下してしまうおそれがある。

図９乃至図１２を参照して、本発明の要部について説明する。以下では、第２の雑音低減手段としてフィルタ処理４４ｂおよびミュート処理４４ｃを例に説明するが、ＳＳ処理４４ａ、音圧処理４４ｄなどを単独または組み合わせても良い。

図９は雑音のスペクトルとフィルタの特性を説明する図であり、図７と同様の信号には同じ符号を付して示している。また図９（ａ）の横軸は時間、縦軸はマイク出力を示している。図９（ｂ）の横軸は周波数、縦軸はパワースペクトルを示している。図９（ｃ）の横軸は周波数、縦軸はフィルタのゲインを示している。図９（ｂ）と図９（ｃ）の横軸は一致しており、図９（ｂ）と図９（ｃ）を貫いて延びる一点鎖線は同じ周波数であることを示している。図９（ｂ）において、８０は被写体音のレベルを、８２は雑音を含む音声信号７２ａ，７２ｂのパワースペクトルを、８２ａ，８２ｂはフィルタ適用後のパワースペクトルをそれぞれ示している。また、被写体音が主に存在する周波数帯域を、被写体音帯域として示した。図９（ｃ）において、８３はフィルタの特性を示している。第１の例や第２の例として説明した雑音は、広帯域の雑音なので、被写体音帯域を含む広い領域で高いパワースペクトルを持つ。図９の例では特に低周波側に強いパワーを持つように描いたが、高周波側に強いパワーを持っても良い。

図９（ｃ）に模式的に示したように、フィルタ処理４４ｂは、被写体音帯域を通過させ（＝０ｄＢ）その他の帯域は遮断する（＝低いゲイン）ように設計されている。前述したフィルタを、雑音を含む音声信号７２ａ，７２ｂに適用することで、図９（ｂ）の８２ａ，８２ｂで示したようなパワースペクトルに変化する。被写体音帯域ではフィルタ特性が０ｄＢなので、フィルタ適用前のパワースペクトル８２に一致している。その結果、被写体音帯域では機械駆動音成分が遮断されないが、その他の帯域では雑音が遮断される。これは完全ではないが、機械駆動音成分を低減できていることを意味する。

図１０はフィルタ処理４４ｂの具体的な構成を例示しており、トランスバーサルフィルタと呼ばれる形式のフィルタである。図１０において、８１は入力部を、８２は単位遅延器を、８３はフィルタ係数保持部を、８４は遅延器を、８５はスイッチを、８６は出力部をそれぞれ示している。図１０の回路は、数７で示した畳み込み積分を行うことは明らかである（数７のｆ（ｔ）と図１０のｈが対応している）。つまり入力部８１に入った信号はフィルタ処理４４ｂで適切にフィルタ処理される。一方、遅延器８４はフィルタ処理４４ｂと等価な遅延を与える。フィルタ処理４４ｂによる遅延はフィルタ係数によって異なるが、フィルタ次数の半分程度遅延することが一般的である。

スイッチ８５は雑音の発生に連動して切り替わる。図１０の例は雑音が発生していないときを示している。このときは、入力部８１に入った信号を単に遅延させた信号を得ている。雑音が発生すると、スイッチ８５が切り替わりフィルタ処理４４ｂの出力側に接続される。このときは、入力部８１に入った信号をフィルタ処理した信号を得ている。その結果、出力部８６では適切にフィルタ処理された信号が得られる。

図１０のようなフィルタは容易にハード化することが可能であり、リアルタイムで処理することが可能である。つまり、図９で説明したように効果は限定的であるが、処理時間は予測処理に比べて非常に高速である。この特徴を利用する。

次に図１１を参照して、フィルタ処理４４ｂによる雑音処理について説明する。図１１において図７と同様の信号には同じ符号を付して示し、横軸は時間を、縦軸は音声信号のレベルを、７４ａ、７４ｂはフィルタ処理によって処理された音声信号を、７５ａはフィルタ処理後に予測処理された音声信号をそれぞれ示している。また、図１１において、（ａ）はマイク７によって取得される信号を、（ｂ）はフィルタ処理された信号を、（ｃ）は１つ目のフィルタ処理後の音声信号７４ａを予測処理した音声信号をそれぞれ示している。

図１１の例は、図８に示した例と同じく１つ目の雑音を含む音声信号７２ａの処理後、２つ目の雑音を含む音声信号７２ｂを処理するまでに、予測処理時間よりも短い時間しかない場合を想定している。

本実施形態の音声信号処理装置では、まず雑音の発生に連動して、第２の雑音低減手段としてのフィルタ処理４４ｂを動作させる。その結果、雑音を含む音声信号７２ａ、７２ｂは、フィルタ処理された音声信号７４ａ、７４ｂのようになる。図９で説明したように、フィルタを適用することで、ある程度機械駆動音成分を低減できる。これを図１１（ｂ）では模式的に振幅で示している。

次に、前段に存在するフィルタ処理された音声信号７４ａに予測処理を施す。ここで、予測処理は元の音声信号を破棄するので、フィルタ処理を施したとしても影響がない（つまり悪影響が生じない）。

図１１の例では音声信号７４ａの処理後、音声信号７４ｂを処理するまでに、予測処理時間よりも短い時間しかない。音声信号７４ｂの箇所は予測処理がされない。その結果、図１１（ｃ）の信号が記録される。しかしながら、図８の例と見比べると、２つめの雑音を含む音声信号７２ｂに対してフィルタ処理がなされているので、機械駆動音成分を低減できていることが分かる。上述した撮影装置１を再生装置として動画を再生した場合、雑音７２ｂの影響が低減されており、音声の品位が向上する。

別の例としては、図１７のように予測処理が行われない箇所が発生したときは、その情報を所定の領域に記録しておいても良い。この場合は、撮影とは非同期に（撮影後の適当なタイミングに）予測処理を実行することができる。また、撮影装置１内部で適当なタイミングで処理することも可能である。

また、撮影装置１をパーソナルコンピュータ（ＰＣ）にケーブルを介して接続し、動画および前述の情報を送出し、適切なアプリケーションソフトによって処理することも可能である。その結果、より品位の高い音声を得ることができる。

またミュート処理４４ｃは、図１０の入力部８１、スイッチ８５、出力部８６から構成されていて、単に信号を０にするだけなので非常に簡易な構成である。これは、リアルタイムで処理することが可能である。

次に図１２を参照して、ミュート処理４４ｃによる雑音処理について説明する。図１２において図７と同様の信号には同じ符号を付して示し、横軸は時間を、縦軸は音声信号のレベル、７６ａ、７６ｂはミュート処理によって処理された音声信号を、７５ａはミュート処理後に予測処理された音声信号をそれぞれ示している。また、図１２において、（ａ）はマイク７によって取得される音声信号を、（ｂ）はミュート処理された信号を、（ｃ）は１つ目のミュート処理後の音声信号７６ａを予測処理した音声信号をそれぞれ示している。

ミュート処理では、当然ながら機械駆動音を完全に除去できる。一方で、被写体音も完全に除去されてしまう。被写体音が小さい場合には、ミュート処理により機械駆動音を除去して適正な音声を得ることができる。被写体音が大きい場合には、被写体音途切れてしまい違和感を与えてしまう。適切に処理できる場面が限られるという意味で、ミュート処理の効果は限定的である。

図１２の例においても、本発明を適用することで、図１１の場合と同様の効果が得られることは明らかである。つまり、予測処理を行う際に、予測処理で除去できない雑音に対して、予測処理前に予測処理以外の処理を実行しておくことで適正に雑音を低減している。

また、図１２においても予測処理後の音声信号に図１１と同様に７５ａを付しているが、これはミュート処理やフィルタ処理された信号の影響を受けずに、同じ信号が生成されることを意味している。

以上のように、予測処理において予測信号を算出することに使用する音声信号に雑音の影響の高い信号が含まれていると、予測信号自体にも雑音の影響が大きく出てしまう。これに対して、本実施形態のように、予測信号を算出するための雑音期間に隣接する雑音期間前後の区間（「学習区間」）の音声信号に対して予めある程度の雑音処理を実行しておくことで、予測信号への雑音の影響を低減した、雑音低減ができる。

特に、第２の雑音低減手段（ＳＳ処理、フィルタ処理、ミュート処理および音圧処理）を実行した後に、第１の雑音区間を包含するように予測処理による第１の雑音低減手段（ＰＬＣ処理およびＬＰＣ処理）を実行することで、演算負荷を低減しつつ、効果的な雑音低減ができる。

［実施形態２］次に、実施形態２について説明する。本実施形態の雑音処理部４４は、図３の構成のうち、ＳＳ処理４４ａ、フィルタ処理４４ｂ、ＰＬＣ処理４４ｅ、ＬＰＣ処理４４ｆから構成されており、その動作および機能は前述した通りである。

次に、本実施形態の雑音発生メカニズムについて説明する。雑音源であるブレ補正駆動回路９ｂは、２軸方向に駆動可能な補正光学系（レンズ）を有し、ブレセンサ１４の検出信号に応じて駆動部（コイル）により補正光学系を偏心させることで、手ブレを補正する。本実施形態のブレ補正駆動回路９ｂは、コイルに電流を供給しないときは重力方向に補正光学系が偏心してしまう。このような状態で光学ファインダーを見ると、品位の低下した像が見えてしまう。これを防止するためには、手ぶれ補正を行わないときには、補正光学系を光軸中心に保持することが望ましい。しかし、カメラのような携帯機器では省電力化が求められるので、補正光学系を光軸中心に常に保持することは困難である。

そこで、ブレ補正駆動回路９ｂには、フォトインタラプタなどを備えたロック機構が設けられており、フォトインタラプタへの信号が遮断されることでロック状態にあることを検知することができる。ロック状態では、補正光学系をほぼ光軸中心に保持する。ロック状態からアンロック状態に移行する場合には、ロック位置からステッピングモータを所定方向に所定量回転させる。アンロック状態では、ブレ補正駆動回路９ｂにより補正光学系を動作させることで、手ブレを補正できる。

ここで雑音源であるブレ補正駆動回路９ｂが発生する音について説明する。前述したロック機構のロック状態とアンロック状態の遷移時には短時間で大きな音が発生する一方、ブレ補正動作中はブレ補正駆動に伴い定常的で小さな音が発生する。

図１４はブレ補正駆動回路９ｂが発生する音声信号を例示しており、（ａ）の横軸は時間を、縦軸はマイク７の出力を示している。また、図１４（ｂ）は図１４（ａ）のいくつかの区間の音声信号をフーリエ変換した結果であり、横軸は周波数を、縦軸はパワースペクトルを示している。図１４（ａ）において、９１はいわゆる暗騒音区間を、９２はロック機構の動作音を、９３はブレ補正に伴う定常音をそれぞれ示している。図１４（ｂ）において、９１ａ，９２ａ，９３ａはそれぞれ、９１、９２、９３の箇所をフーリエ変換した結果を示している。９４ａはある周波数ｆ［Ｈｚ］における９３ａと９１ａの差を示している。暗騒音区間９１は音声信号のレベルが小さく、パワースペクトル９１ａも他の区間に比べて相対的に小さい。ロック機構の動作音を含む区間９２では、短時間に大きな第１の雑音（第１の駆動音成分）が発生する。また、衝突などが発生するために広い周波数帯域でノイズが発生する。このためパワースペクトル９２ａ広い範囲で大きな値を示す。ブレ補正区間９３では、第１の雑音より長時間続く定常的な第２の雑音（第２の駆動音成分）が発生する。またブレ補正駆動回路９ｂの種類に応じた特異な周波数帯のノイズが大きくなる。このためパワースペクトル９３ａは、いくつかのピークを持った形をしている。

図１４において、ＳＳ法を適用する場合には、９４ａで示したブレ補正区間でのパワースペクトル９３ａと暗騒音のパワースペクトル９１ａの差を周波数ごとに記憶しておく。ＳＳ処理時には前述したように、カメラシステム制御回路２５が記憶したパワースペクトルの差９４ａを与えればよい。

図１５を参照して、レンズの種類と雑音の特徴および雑音処理手法の選択方法について述べる。図１５はいくつかのレンズにおいて、ブレ補正中の雑音をフーリエ変換した結果であり、横軸は周波数を、縦軸はパワースペクトルを示している。また図１５に示すように、被写体音は適当な帯域に主な成分を持っているとする（図１５では被写体音帯域として図示した。）図１５において、９３ａ、９３ｂ、９３ｃはそれぞれ異なるレンズのパワースペクトルを、９５は被写体音のレベルを示している。

ブレ補正駆動回路９ｂが９３ａのようなパワースペクトルを持つ雑音を発生する場合を考える。このとき、被写体音帯域で被写体音のレベル９５に対して、ブレ補正駆動回路９ｂのパワースペクトル９３ａは被写体音に影響を与えるほどレベルが大きい。フィルタは帯域によって、被写体音と雑音を分離する方法なので、この場合はフィルタでの処理は困難である。

一方、ブレ補正駆動回路９ｂが９３ｂまたは９３ｃのようなパワースペクトルをもつ雑音を発生する場合を考える。このとき、被写体音帯域ではない箇所では、被写体音のレベル９５に対して、ブレ補正駆動回路９ｂのパワースペクトル９３ａは影響を与えるほどに大きい箇所があるものの、被写体音帯域では被写体音が支配的であると考えられる。このような場合はフィルタでの処理が適しているといえる。

すなわち、９３ｂのような雑音が発生する場合には、適当な高域通過フィルタを、９３ｃのような雑音が発生する場合には、適当な低域通過フィルタを用いればよい。これは、数５および数６を満たすようなフィルタを設定することと等価である。フィルタ処理時には前述したように、事前に雑音源のスペクトルを推定し、適当なフィルタをカメラシステム制御回路２５が与えればよい。

ＳＳ処理４４ａは被写体音に歪みをもたらす可能性があるが、帯域での分離が困難な雑音にも適用可能である。一方で、フィルタ処理４４ｂは帯域で分離可能であれば被写体音への影響を低減して雑音を低減できる。つまり、雑音源のパワースペクトルに着目して適宜ＳＳ処理４４ａ、フィルタ処理４４ｂを切り替えて使用すればよい。

ＳＳ処理４４ａ、フィルタ処理４４ｂの説明においては、角速度ωで説明した。一方、図１４および図１５の横軸は周波数であるが、これらは、２πｆ＝ω［ｒａｄ／ｓ］として換算すればよい。

本発明の音声信号処理装置および音声信号処理装置を備えた撮影装置においては、前段の雑音処理としてフィルタ処理４４ｂやＳＳ処理４４ａなどが考えられるが、以下の説明ではＳＳ処理４４ａを用いる場合について説明をする。

図１６を参照して、ＳＳ処理開始のタイミング合わせおよび複数の雑音処理の問題について説明する。図１６において、１つの枠は適当な時間の音声信号の塊を表している（例えば、１つの枠が１０ｍｓの音声信号などに対応する）。また横方向は時間を示している。図１６には凡例も示したが、１０１は被写体音または暗騒音のみが存在する区間の音声信号を、１０２はロック解除音が発生する区間の音声信号を、１０３はブレ補正駆動音が発生する区間の音声信号をそれぞれ示している。これは、図１４の９１，９２，９３に対応する。図１６において、１０４はロック音発生区間をＳＳ処理した音声信号を、１０５はブレ補正駆動音発生区間をＳＳ処理した音声信号を、１０６は被写体音または暗騒音のみの区間をＳＳ処理した音声信号をそれぞれ示している。図１６（ａ）は、ＳＳ処理を行う前の音声信号を、図１６（ｂ）はロック解除のタイミングに合わせてＳＳ処理を開始したときの音声信号を、図１６（ｃ）はロック解除よりも早いタイミングでＳＳ処理を開始した音声信号をそれぞれ示している。また、図１６（ｄ）はロック解除よりも遅れたタイミングでＳＳ処理を開始した音声信号を示している。

図１６（ｂ）において、ブレ補正駆動音発生区間をＳＳ処理した音声信号１０５は適正にＳＳ処理されているので、ブレ補正駆動に伴う雑音が適切に低減されている。一方で、ロック音発生区間をＳＳ処理した音声信号１０４は、図１４にて説明したように、ロック音は発生時間こそ短いが、広帯域に強いパワーを持つ。そのため、ブレ補正動作のパワースペクトルを用いてＳＳ処理を行っても十分に雑音を低減することができない。図１４の例では９２ａと９３ａの差がＳＳ処理を行った後も残留することになる。これは、ＳＳ処理が定常的な雑音であるブレ補正駆動に伴う雑音の低減を目的としているためである。

図１６（ｃ）において、被写体音または暗騒音のみの区間をＳＳ処理した音声信号１０６は被写体音が存在する場合には歪みが生じてしまう。ＳＳ処理は数３のように、推定雑音スペクトルを用いてスペクトルの減算を行うが、音声信号１０６の区間にはもともと雑音が存在しないために過剰に減算してしまう。その結果、被写体音に歪みが生じるのである。

図１６（ｄ）では、ロック音の先頭部分は何ら処理されずに残留する。一般的に衝突現象と伴うような雑音では図１４に示した例の様に、大きな音が発生した後に減衰するような形状を示す。この場合、先頭部分の大きな雑音がそのまま、被写体音に重畳してしまう。

ＳＳ処理の開始タイミングと雑音発生タイミングを完全に同期させることができれば、図１６（ｂ）の音声信号を得ることが出来る。しかしながら、撮影装置１においては、電気接点１０を介して撮影レンズ２に指令を送って光学系の調整を行うので、通信や割り込みのタイミングなどにより遅れが生じる。このためタイミングを完全に同期させてＳＳ処理を行うことは容易ではない。ＳＳ処理のタイミングがずれた場合は、図１６（ｃ）および図１６（ｄ）で説明したように、被写体音の歪みや、大きな雑音の重畳が生じてしまう。

図１７を参照して、ＳＳ処理のフレームと減算ゲインの問題について説明する。図１７は図１６と同様に、１つの枠は適当な時間の音声信号の塊を表し、横方向は時間を示し、図１４と同様の信号には同じ符号を付して示している。図１７において、１０１ａは被写体音または暗騒音のみの区間をＳＳ処理した音声信号を、１０５ａ、１０７はブレ補正駆動音発生区間をＳＳ処理した音声信号をそれぞれ示している。詳細な違いについては後述する。また図１７において縦に伸ばした点線は、ＳＳ処理において一度にＦＦＴを行う信号の区切りを示している（以下、ＳＳ処理のフレームと呼ぶ）。ＳＳ処理においては、前述したようにＦＦＴ、スペクトル減算、ＩＦＦＴを行う。このときＦＦＴは２の累乗のデータ数で有る必要があるので、適当なフレームで区切って処理を進める。図１７の例では３つのフレームが有り、時間順にフレーム１、フレーム２、フレーム３と呼ぶことにする。

図１７（ａ）は、ＳＳ処理を行う前の音声信号を、図１７（ｂ）はブレ補正駆動音発生区間１０３の処理が適正になるようにＳＳ処理を実行ときの音声信号を示している。図１７（ｃ）は被写体音または暗騒音のみの区間９１の処理が適正になるようにＳＳ処理したときの音声信号を示している。

図１７の例において、フレーム１はＳＳ処理を実行する必要はなく、フレーム３はカメラシステム制御回路２５において付加される、ＳＳ処理が未処理であることを示す情報を判別してＳＳ処理を実行すればよい。問題になるのはフレーム２の処理である。以下にフレーム２の処理とその問題点について説明する。

図１７（ｂ）では、ブレ補正駆動音発生区間１０３の処理が適正になるようにＳＳ処理されている。そのため、フレーム２に存在するブレ補正駆動音発生区間をＳＳ処理した音声信号１０５ａは適正にＳＳ処理され、ブレ補正駆動に伴う雑音が適切に低減されている。一方で、被写体音または暗騒音のみの区間をＳＳ処理した音声信号１０６は、図１２と同様に過剰に減算され被写体音に歪みが生じている。

図１７（ｃ）では、被写体音または暗騒音のみの区間１０１の処理が適正になるようにＳＳ処理されている。そのため、フレーム２に存在する被写体音または暗騒音のみの区間をＳＳ処理した音声信号１０１ａは適正に処理され被写体音のひずみは小さい。一方で、ブレ補正駆動音発生区間をＳＳ処理した音声信号１０７は減算が過小のため、雑音が十分に低減されない。

この問題を解決するために特許文献３では、雑音区間に対する雑音の混合比率を用いて、適当にスペクトル減算することが提案されている。しかしながら、雑音発生タイミングを正確に検知することは容易ではない。また、前述の混合比率を用いても図１７の１０１ａ，１０５ａに相当する音声信号を正確にＳＳ処理を行うことはできない（図１７の説明の中間的な結果しか得ることができない）。

図１６および図１７にて説明したように、複数の雑音が発生する場合には、１つの雑音処理では十分な効果を得ることが難しい、雑音処理のタイミングを合わせることが難しい、処理の開始時点での強度を決定することが難しいという問題があった。本発明はこれらの問題に対して、複数の異なる雑音処理手法を用いるとともに、その順序を適切に規定することにより、解決を試みるものである。

図６、図１６乃至図１９を参照して、本発明の要部について説明する。

本実施形態によると、第２の雑音低減手段としてのＳＳ処理４４ａまたはフィルタ処理４４ｂの後に、第１の雑音低減手段としてのＰＬＣ処理４４ｅやＬＰＣ処理４４ｆを実行する。例えば、ＳＳ処理４４ａを行った場合には図１６（ｂ）、（ｃ）、（ｄ）や図１７（ｂ）、（ｃ）のような音声信号が得られる。図１８に、ＳＳ処理４４ａを行った区間を包含するように予測区間を設定して予測処理を実行する例を示している。図１８において図１６および図１７と同様の信号には同じ符号を付して示し、１０８は予測生成された音声信号を示している。

図１６および図１７で説明したように被写体音または暗騒音のみが存在する区間の音声信号１０１は雑音の影響がなく、ブレ補正駆動音発生区間をＳＳ処理した音声信号１０５は適正に雑音が低減されている。一方その中間にある音声信号は十分に雑音が低減されていない可能性がある（例えば、図１６の音声信号１０２、１０６または図１７の音声信号１０７が該当する）。しかしながら、図６のように予測処理では元の信号を破棄する。そのため、雑音が低減されていない可能性が有る音声信号が破棄される。さらに、予測によって生成される信号は音声信号１０１および音声信号１０５から生成されるので機械駆動音成分を低減できている。

図１９は上述したＳＳ処理および予測処理による音声信号を示しており、横軸は時間を、縦軸はマイク７の出力を示している。図１９において、（ａ）は処理前の音声信号を、（ｂ）はロック解除よりも早いタイミングでＳＳ処理を開始した音声信号を、（ｃ）はロック解除よりも遅れたタイミングでＳＳ処理を開始した音声信号をそれぞれ示している。また、（ｄ）は予測処理中の音声信号を、（ｅ）は予測処理後の音声信号をそれぞれ示している。図１９では雑音の状況を明確にするために被写体音がない場合の波形を示しており、被写体音が存在するときでも処理方法や効果に変わりはない。

図１９において、１１１は被写体音または暗騒音のみが存在する区間の音声信号を、１１２はロック解除音が発生する区間の音声信号を、１１３はブレ補正駆動音が発生する区間の音声信号をそれぞれ示している。１１４はロック音発生区間をＳＳ処理した音声信号を、１１５はブレ補正駆動音発生区間をＳＳ処理した音声信号を、１１６は被写体音または暗騒音のみの区間をＳＳ処理した音声信号をそれぞれ示している。１１８ａは予測処理において信号を破棄した状態を、１１８は予測処理後の音声信号をそれぞれ示している。図１９の１１１から１１６は図１６の１０１から１０６にそれぞれ対応する。また１１８は図１８の１０８に対応する。図１９（ｄ）においては、信号の破棄を当該箇所の信号をゼロにすることで表現している。

図１９から明らかなように、被写体音に歪みが生じた音声信号１１６、十分に雑音が低減されていない音声信号１１２が存在しても、それらの信号を破棄し、予測生成された適当な音声信号１１８が得られていることが分かる。

図１９では図１６に対応させて説明をしたが、図１７の問題に関しても解決できることは明らかである。すなわち図１７のフレーム２を包含するように予測区間を設定することで、被写体音に歪みが生じた音声信号１１２、十分に雑音が低減されていない音声信号１０７が破棄され適当な音声信号を得ることができる。

最後に、予測処理とそれ以外の雑音処理の順番を反対にした場合について説明し、本発明のように順序を規定することの効果について明らかにする。

図２０は、ＳＳ処理前に予測処理を実行した場合を模式的に示しており、図１６および図１７と同様の信号には同じ符号を付して示している。図２０において、１０９は予測処理により生成された音声信号を示している。

ここで問題になるのは、ブレ補正駆動音発生区間の音声信号１０３を用いて生成された音声信号１０９である。つまり、この音声信号１０９にどの程度の雑音が残留しているかが明確ではないため、ＳＳ処理やフィルタ処理を実行する際にその強度が不明確となる。

もう１つの問題は、音声信号１０９において次第に雑音の影響が大きくなっていると仮定すると、ＳＳ処理やフィルタ処理をどの時点で開始するかという問題である。

これらの問題について図２１を参照して説明する。図２１の横軸は時間を、縦軸はマイク７の出力をそれぞれ示し、図１９と同様の信号には同じ符号を付して示している。図２１において、（ａ）は予測処理前の音声信号を、（ｂ）は予測処理中の音声信号を、（ｃ）は予測処理後の音声信号を、（ｄ）はＳＳ処理の強度が不適切な場合の音声信号を、（ｅ）はＳＳ処理のタイミングが不適切な場合の音声信号をそれぞれ示している。

図２１において、１１９ａは予測処理において信号を破棄した状態を、１１９は予測処理後の音声信号を、１２０ａは過剰なスペクトル減算により歪んだ音声信号を、１２０ｂは雑音が残留した音声信号を、１２１はＳＳ処理後の音声信号をそれぞれ示している。１１１〜１１５は図１６の信号１０１〜１０５に、１１９は図２０の信号１０９に対応している。

先に予測処理を行った場合、図２１（ｃ）の信号が得られる。図２１の例では、予測処理で生成された音声信号１１９は、前後からの予測信号を適切にオーバーラップ加算して生成されているが、図２１のように当該箇所における雑音の影響が不明確となっている。

音声信号１１５にＳＳ処理を施すと図２１（ｄ）のような信号が生成される。すなわち、音声信号１１９のうち、雑音の影響が音声信号１１５と同程度の箇所は適正に処理されて音声信号１２１が得られる。一方で、音声信号１１９のうち、雑音の影響が音声信号１１５よりも小さい箇所は過剰にＳＳ処理が施されて、被写体音に歪みがある音声信号１２０ａが得られる。

別の方法として、音声信号１１９のうち、雑音の影響が音声信号１１５と同程度の箇所からＳＳ処理を施すと図２１（ｅ）のような信号が得られる。この場合、雑音が残留した音声信号１２０ｂが得られる。

本実施形態では、雑音源としてブレ補正駆動回路９ｂを取り上げたが、本発明は、焦点レンズ駆動回路９ａなどの別の駆動部にも適用でき、この場合、焦点レンズ駆動回路９ａで可動する部分が機械的にストッパに衝突することを考えればよい。焦点レンズ駆動回路９ａの可動部分の駆動中はモータやギアなどにより定常的な雑音が発生しており、ストッパに衝突する時は短時間に大きい雑音が発生する。

以上のように、本実施形態によれば、第２の雑音低減手段としてのＳＳ処理４４ａやフィルタ処理４４ｂの後に、第１の雑音低減手段としてのＰＬＣ処理４４ｅやＬＰＣ処理４４ｆを実行するので、適正に雑音を低減した音声信号を得ることができる。その結果、ユーザの利便性向上に貢献する。

上述した各実施形態においては、本発明をデジタル（ビデオ）カメラに適用した場合を例に説明したが、これに限定されず、雑音源を持ち音声を録音する装置であれば適用可能である。

［他の実施形態］また、本発明は、以下の処理を実行することによっても実現される。即ち、上記実施形態の機能を実現するソフトウェア（プログラム）をネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムコードを読み出して実行する処理である。この場合、そのプログラム、および該プログラムを記憶した記憶媒体は本発明を構成することになる。

Claims

複数の駆動部と、
音声を集音して音声信号を取得する集音手段と、
前記複数の駆動部の駆動を制御する駆動制御手段と、
前記複数の駆動部の駆動に伴う駆動音が発生したタイミングである雑音区間の隣接する前および後の少なくとも一つの所定の区間の音声信号から取得した信号を前記雑音区間の音声信号に置換することにより、前記複数の駆動部の駆動に伴う駆動音成分を低減する第１の雑音低減手段と、
前記雑音区間の隣接する前および後の少なくとも一つの所定の区間の音声信号を使用せずに、前記複数の駆動部の駆動に伴う駆動音成分を低減する第２の雑音低減手段と、
前記複数の駆動部のうちの２つ以上が予め決められた期間以上の期間駆動した場合は、前記集音手段により取得された音声信号から前記複数の駆動部の駆動に伴う駆動音成分を前記第２の雑音低減手段により低減する処理が行われた後に、前記集音手段により取得された音声信号から前記複数の駆動部の駆動に伴う駆動音成分を前記第１の雑音低減手段によって低減するための制御を行う制御手段と
を有することを特徴とする音声信号処理装置。
前記第２の雑音低減手段は、前記集音手段により取得された音声信号から得られた音声スペクトルから雑音スペクトルを減算する処理を行うことを特徴とする請求項１に記載の音声信号処理装置。
前記第２の雑音低減手段は、前記集音手段により取得された音声信号について周波数又は時間を用いたフィルタ処理を行うことを特徴とする請求項１または２に記載の音声信号処理装置。
前記第２の雑音低減手段は、前記複数の駆動部の駆動に伴う駆動音成分を無音に置き換える処理を行うことを特徴とする請求項１から３のいずれか１項に記載の音声信号処理装置。
前記第２の雑音低減手段は、前記集音手段により取得された音声信号について包絡線検出を行うことにより、信号レベルを制御することを特徴とする請求項１から３のいずれか１項に記載の音声信号処理装置。
前記第１の雑音低減手段は、線形予測により算出した信号で前記雑音区間の音声信号を置換することを特徴とする請求項１から５のいずれか１項に記載の音声信号処理装置。
前記複数の駆動部としての撮影光学系を通して結像される被写体の光を取り込んで光電変換する撮像手段と、
前記撮像手段により生成された画像信号に信号処理を施す画像処理手段と、
前記画像処理手段により信号処理された画像信号と、前記音声信号処理装置により雑音が除去された音声信号とを関連付けして記録する記録処理手段と、を更に有することを特徴とする請求項１から６のいずれか１項に記載の音声信号処理装置。
複数の駆動部と、音声を集音して音声信号を取得する集音手段と、前記複数の駆動部の駆動を制御する駆動制御手段と、前記複数の駆動部の駆動に伴う駆動音成分を低減する第１および第２の雑音低減手段と、前記第１および第２の雑音低減手段の動作を制御する制御手段とを有する音声信号処理装置における音声信号処理方法であって、
前記第１の雑音低減手段が、前記複数の駆動部の駆動に伴う駆動音が発生したタイミングである雑音区間の隣接する前および後の少なくとも一つの所定の区間の音声信号から取得した信号を前記雑音区間の音声信号に置換することにより、前記複数の駆動部の駆動に伴う駆動音成分を低減する第１の雑音低減工程と、
前記第２の雑音低減手段が、前記雑音区間の隣接する前および後の少なくとも一つの所定の区間の音声信号を使用せずに、前記複数の駆動部の駆動に伴う駆動音成分を低減する第２の雑音低減工程と、
前記制御手段が、前記複数の駆動部のうちの２つ以上が予め決められた期間以上の期間駆動した場合は、前記集音手段により取得された音声信号から前記複数の駆動部の駆動に伴う駆動音成分を前記第２の雑音低減手段により低減する処理が行われた後に、前記集音手段により取得された音声信号から前記複数の駆動部の駆動に伴う駆動音成分を前記第１の雑音低減手段によって低減する制御工程と
を有することを特徴とする音声信号処理方法。