TWI559295B

TWI559295B - Elimination of non - steady - state noise

Info

Publication number: TWI559295B
Application number: TW103134971A
Authority: TW
Inventors: Tai Shih Chi; Chung Chien Hsu; Tse En Lin; Jian Hueng Chen; Yi Cheng Chen
Original assignee: Chunghwa Telecom Co Ltd
Priority date: 2014-10-08
Filing date: 2014-10-08
Publication date: 2016-11-21
Also published as: TW201614640A

Description

消除非穩態性雜訊方法

本發明是有關於一種消除非穩態性雜訊方法，特別是有關於一種結合背景訊號偵測之消除非穩態性雜訊方法。

聲控操作已逐漸成為日常生活中不可或缺的一部分，已經大量被應用在例如智慧型手機及平板電腦上，可取代傳統的鍵盤或觸控輸入，而語音及雜訊混淆訊號處理是影響聲控操作正確性最關鍵的因素，卻也是最需要解決的一部分，因為這與聲控操作的實用性及便利性是直接相關的。

近年來，在語音領域的應用中包含雜訊消除、語音分離，甚至是與音樂相關的歌聲分離或是樂器分離都有相當多的研究提出。而大部分的演算法在處理前都必須對目標聲音或是要消除的背景訊號(可能包含背景語音與背景雜訊)進行估測。然而，手持無線通訊系統中所遇到的常常是時變非穩態的環境，由於這種非穩態的雜訊都會隨時間改變，在一般過濾雜訊的過程中很容易導致原語音訊號因為背景雜訊估測錯誤導致語音失真。因此，如何消除非穩態性雜訊，以過濾出正確的目標語音，為本發明首要之目的。

有鑑於上述習知技藝之問題，本發明之目的就是在提供一種消除非穩態性雜訊方法，以解決習知在時變非穩態的環境中進行雜訊過濾時，容易導致原語音訊號因為背景雜訊估測錯誤而產生語音失真之問題。

根據本發明之目的，提出一種消除非穩態性雜訊方法，其包含下列步驟：輸入一聲音串流進行估測，以區別出一主要語音與包含了一背景語音及一背景雜訊之一背景訊號；使用基底式背景雜訊估測方法求得估測後之背景訊號之一頻譜特性基底；將頻譜特性基底進行基底式的雜訊分離，以取得消除背景雜訊之一乾淨訊號；以及利用人聲端點偵測方法從消除背景雜訊之乾淨訊號求得已雜訊消除之一乾淨語音訊號。

較佳地，此消除非穩態性雜訊方法更包含下列步驟：將聲音串流劃分成複數個音框，並以音框為單位求得聲音串流之一二維頻譜圖；及將二維頻譜圖帶入具有二維時、頻域之脈衝響應濾波器組，以求出一諧波頻率調變能量值，並將諧波頻率調變能量值與閥值進行比對，當諧波頻率調變能量值低於閥值，即視為背景雜訊，高於閥值則視為背景語音。

其中，閥值的計算是結合混合雜訊的語音訊號和雜訊訊號以及調整係數來更新。

其中，閥值的運算式為：γ=ρ．{M[FME _S+N(t)]-M[FME _N(t)]}+M[FME _N(t)]；其中，γ為閥值，FME _S+N(t)為整段語音中調變能量最大的前一時間的該諧波頻率調變能量值，FME _N(t)為整段語音中調變能量最小之該時間的該諧波頻率調變能量值，ρ為調整係數，M代表對該時間之該諧波頻率調變能量值取平均值。

其中，ρ可為0.25。

較佳地，此消除非穩態性雜訊方法更包含下列步驟：利用基底式雜訊分離方法將頻譜特性基底分離以求得語音結構及語音激發矩陣，進而取得消除背景雜訊之乾淨訊號。

承上所述，依本發明之消除非穩態性雜訊方法，其可具備下列一或多個特點：

1.習知的技術利用非語音區段估測雜訊有時無法做很精準的估測，尤其在估測非穩態雜訊並不準確，這也影響在訊號消除的效果。而本發明中結合語音諧波的頻率調變能量之背景訊號偵測，可從語音結構中分析來精確的找出預期分離的背景訊號，即使在目標語音及雜訊同時存在的區段也能有效區別雜訊，透過此精確的雜訊估測提高了後續的雜訊消除效能。

2.習知的技術為了提升雜訊消除的效果，都會在非語音段對雜訊進行估計，因此對於非穩態雜訊這種不可預期的訊號消除效果極差(因為非穩態雜訊只占非語音段落中一小部份)。而本發明針對自然界中聲音所具有的特定結構而做的分析，可找出非穩態雜訊語音結構之基底來消除，故得以應用在任何的聲音訊號上，消除非穩態雜訊干擾。

3.習知的語音端點偵測，在遭遇非穩態的雜訊干擾(雜訊中可能也混和外在背景語音的成分)無法區別出目標語音訊號，而本發明藉由加入消除非穩態性雜訊的方法，估測可能的非穩態雜訊並將其分離，除可有效提升語音端點偵測效能之外，並能消除語音中的非穩態背景訊號。

S11~S14‧‧‧步驟

第1圖為本發明之消除非穩態性雜訊方法之流程圖。

第2圖為本發明之聯合時域頻域脈衝響應之示意圖。

第3圖為本發明之噪音模型訓練及辨識之示意圖。

第4圖為本發明之實施例之雜訊消除範例圖。

為利貴審查員瞭解本發明之技術特徵、內容與優點及其所能達成之功效，茲將本發明配合附圖，並以實施例之表達形式詳細說明如下，而其中所使用之圖式，其主旨僅為示意及輔助說明書之用，未必為本發明實施後之真實比例與精準配置，故不應就所附之圖式的比例與配置關係解讀、侷限本發明於實際實施上的權利範圍，合先敘明。

請參閱第1圖，其係為本發明之消除非穩態性雜訊方法之流程圖。本發明之方法包含主要四個步驟，首先，步驟S11，是運用短時間傅立葉轉換(Short-time Fourier transform)來求得聲音的時頻表示法，輸入聲音串流並計算出每個音框的短時傅立葉頻譜，以得到整個聲音訊號二維頻譜圖，且使用多個經特別設計的二維時頻域脈衝響應帶通濾波器組。此分析方法的概念是來自於根據已知大腦皮質聽覺區的神經反應而建立的聽覺模型，此區域是代表語音片段識別中最具強健性的語音諧波的頻率調變能量，藉由此分析方法我們可以解析出語音特有的特徵，並以一個閥值(計算方式如下列式(4))來判斷語音或是非語音片段。接著，步驟S12將背景訊號片段輸入基底式稀疏非負矩陣分解的訓練過程，訓練出來屬於雜訊的基底 B _noise。B _noise是一個由數個背景雜訊基底向量所組成的二維矩陣，接著執行步驟S13，將訓練好的雜訊基底B _noise做語音與雜訊分離，透過稀疏性非負矩陣分解方法，最後得到乾淨語音，最後，執行步驟S14，再做一次語音或是非語音識別。方程式依序如下列式(1)~(3)，式(1)在做基底式稀疏非負矩陣分解的過程中，原始的混淆語音訊號X在可以近似分解成B和H，且為了避免資料過於稀疏時，所求的基底個數相對較多會造成B _noise誤差過大，因此加入稀疏性的參數λ作為H的約束條件(sparseness constraints)讓一些誤差較大基底的重要性降低(降低權重H)來減少B _noise誤差：

此部分包含許多參數，包含稀疏性的參數λ、雜訊基底B _noise個數、具時域特性的基底。根據非負矩陣分解方法可以將一個含語音及雜訊的訊號X用式(2)來近似。根據前面訓練出的基底B _noise經過基底式稀疏性非負矩陣分解的分離過程，經過疊代運算後可得語音的基底矩陣Bspeech以及激發矩陣Hspeech，接著使用語音基底矩陣與語音的激發矩陣來還原出較乾淨訊號如式(3)，並輸入第四部分的人聲端點偵測，此部分與第一部分功能相似但因為為較乾淨訊號，故能切出更準確的語音片段。

詳細地來說，本發明將一段聲音串流(steam)求得其傅立葉頻譜圖(Fourier spectrogram)，根據神經生理學的發現，在聽覺模型中可以假設大腦皮質聽覺區基本上是把中腦輸出的聽覺頻譜圖當作二維圖像來進行處理，因此我們針對傳統的傅立葉頻譜(Fourier spectrogram)，設計出兩個具有二維時、頻域脈衝響應濾波器組。第2圖即為本發明經挑選後最具鑑別力的兩個濾波器，左邊為對往下移動(downward)的FM信號(rate=1Hz，scale=5ms)有最大反應的濾波器脈衝響應，右邊為對往上移動(upward)的FM信號(rate=-1Hz，scale=5ms)有最大反應的濾波器脈衝響應。原則上並不限定濾波器數量，為了簡化運算量而在此階段實際上我們總共設計了2個二維帶通濾波器組，其頻率軸上封包的變化率及時間軸上封包的變化率分別為<5>ms及<1>Hz和<downward、upward>的組合，最後為這兩個濾波器求得的能量值來設定閥值，計算方式如式(4)來判斷每個音框中的訊號是屬於語音訊號或是雜訊。在取得部分雜訊訊號後，可以透過基底式雜訊估測來計算出雜訊的基底(亦可稱為雜訊的語音結構)，本發明使用非負矩陣運算來實現，如第3圖所示。至於為何挑選雜訊部分進行訓練的原因，一般來說語音的變化程度會較大，以致必須使用更高維度的基底才足以代表語音訊號的語音結構，相較之下從雜訊來估測基底，因為基底較小在計算量可以減少許多。透過基底式稀疏非負矩陣分解的訓練過程，可以得到雜訊的基底Bnoise(Noise bases)。當我們以上述方式訓練出雜訊之頻譜特性(也可稱基底)時，使用基底式的背景雜訊分離便能將混合語音分離出來，本發明使用非負矩陣分解之分離過程來消除雜訊，如式子(2)，現在只剩下Bspeech、Hspeech、Hnoise這三個部分需要更新，再利用基底式稀疏非負矩陣分解的分離過程求得Bspeech、Hspeech、Hnoise後，最後將求得的Bspeech、Hspeech代入式(3)求得分離出來之目標語音訊號Xspeech。

另外，如第4圖是一個實際案例的範例圖，這是在餐廳環境下手機所錄下含目標語音和人聲干擾雜訊的混合訊號。即正常使用下常遇見的情境，除了語音之外還有具不確定的人聲干擾，我們發現，由於語音具有的諧波性(harmonicity)及頻率調變的方向性(FM)，因此可以從圖四的諧波的頻率調變能量(FME)輪廓線來觀察是否有完全過濾掉人聲的干擾雜訊部分。直接觀察這10秒鐘的音檔，目標語音訊號出現在0.7秒到2.8秒之間，而其他部份則是必須過濾掉的人聲的干擾雜訊。如第4圖之諧波的頻率調變能量(FME)輪廓線所示，取一閥值來做第1圖之第一步的語音非語音識別，閥值γ的選擇如下式：γ=ρ．{M[FME _S+N(t)]-M[FME _N(t)]}+M[FME _N(t)]...式(4)。

其中，M為平均運算子，FME _S+N(t)為整段語音中調變能量最大的前250ms的FME值，FME _N(t)為整段語音中調變能量最小250ms的FME值，ρ為調整係數0.25，M代表對這250ms能量值取平均值。可發現在經過語音非語音識別處理後，第4圖上半部在未經非負矩陣分解處理前還是有一部分人聲干擾雜訊因為能量值高於設定的閥值γ，而被暫時視為一般語音訊號。此部分人聲雜訊雖然頻譜調變能量高於閥值，但其頻譜特性與其他背景人聲雜訊類似，所以透過將非語音部分輸入基底式稀疏非負矩陣分解的訓練過程來訓練出人聲干擾雜訊的頻譜基底Bnoise(Noise bases)，並以此特徵輸入第1圖步驟S13的基底式稀疏非負矩陣分解的分離部分，求得Bspeech、Hspeech，套用式(3)即可還原得到經背景雜訊消除之乾淨訊號Xspeech。最後，輸入第1圖之步驟S14的人聲端點偵測，結合被分離出來之目標語音訊號與閥值的更新公式(4)取得調變能量之閥值，當調變能量的訊號低於閥值，則將被過濾掉，透過此偵測方法即可取得經背景雜訊消除後的目標語音。此方法使用的閥值計算方式相同如式(4)，但由於FME _S+N(t)與FME _N(t)在這兩階段已經過雜訊消除，所以最後的閥值與前一次的結果並不相同，其結果如第4圖所示。可發現經過基底式稀疏非負矩陣分解處理後的訊號，其諧波的頻率調變能量會因為雜訊被消除掉，而輪廓線更容易將語音精準的切分出來。

綜合上述，本發明之消除非穩態性雜訊的方法，係透過背景訊號偵測方式以快速的找出背景訊號(包含背景語音及雜訊)，再將背景訊號標示出來並透過基底式背景估測來訓練出穩態或非穩態雜訊的頻譜基底，此方法即使在目標語音及雜訊同時存在的區段也能有效估計雜訊的頻譜特性。接著以訓練出來的雜訊頻譜基底，來對原始聲音串流做背景雜訊分離以消除非穩態性雜訊，最後輸入乾淨的語音訊號以進行人聲端點偵測，即可過濾出正確的目標語音。

以上所述僅為舉例性，而非為限制性者。任何未脫離本發明之精神與範疇，而對其進行之等效修改或變更，均應包含於後附之申請專利範圍中。

S11~S14‧‧‧步驟

Claims

一種消除非穩態性雜訊方法，其包含下列步驟：輸入一聲音串流進行估測，以區別出一主要語音與包含了一背景語音及一背景雜訊之一背景訊號；使用基底式背景雜訊估測方法對一背景訊號求得估測後之該背景訊號之一頻譜特性基底；將該背景訊號之一頻譜特性基底對一聲音串流進行基底式的雜訊分離，以取得消除該背景雜訊之一乾淨訊號；利用人聲端點偵測方法從消除該背景雜訊之該乾淨訊號求得已雜訊消除之一乾淨語音訊號；其中輸入該聲音串流進行估測，以區別出該主要語音與包含了該背景語音及該背景雜訊之該背景訊號更包含下列步驟：將該聲音串流劃分成複數個音框，並以該音框為單位求得該聲音串流之一二維頻譜圖；以及將該二維頻譜圖帶入具有二維時、頻域之脈衝響應濾波器組，以求出一諧波頻率調變能量值，並將該諧波頻率調變能量值與閥值進行比對，當該諧波頻率調變能量值低於閥值，即視為該背景雜訊，高於閥值則視為該背景語音。
如申請專利範圍第1項所述之消除非穩態性雜訊方法，其中閥值的計算是結合混合雜訊的語音訊號和雜訊訊號以及調整係數來更新。
如申請專利範圍第2項所述之消除非穩態性雜訊方法，其中閥值的運算式為： γ=ρ．{M[FME _S+N(t)]-M[FME _N(t)]}+M[FME _N(t)]；其中，γ為閥值，FME _S+N(t)為整段語音中調變能量最大的前一時間的該諧波頻率調變能量值，FME _N(t)為整段語音中調變能量最小之該時間的該諧波頻率調變能量值，ρ為調整係數，M代表對該時間之該諧波頻率調變能量值取平均值。
如申請專利範圍第3項所述之消除非穩態性雜訊方法，其中ρ為0.25。
如申請專利範圍第1項所述之消除非穩態性雜訊方法，其中使用基底式背景雜訊估測方法對該背景訊號求得估測後之該背景訊號之該頻譜特性基底更包含下列步驟：將該背景訊號進行訊號分解，求得該背景訊號之該頻譜特性基底及其激發態矩陣。
如申請專利範圍第1項所述之消除非穩態性雜訊方法，其中將該背景訊號之該頻譜特性基底對該聲音串流進行基底式的雜訊分離，以取得消除該背景雜訊之該乾淨訊號更包含下列步驟：利用基底式雜訊分離方法將該頻譜特性基底分離以求得語音結構及語音激發矩陣，進而取得消除該背景雜訊之該乾淨訊號。
如申請專利範圍第1項所述之消除非穩態性雜訊方法，其中利用人聲端點偵測方法從消除該背景雜訊之該乾淨訊號求得已雜訊消除之該乾淨語音訊號更包含下列步驟：將該聲音串流劃分成複數個音框，並以該音框為單位求得該聲音串流之該二維頻譜圖；將該二維頻譜圖帶入具有二維時、頻域之脈衝響應濾波器組，以求出該諧波頻率調變能量值，並將該諧波頻率調變能量值與閥值進行比對，當該諧波頻率調變能量值低於閥值，即視為該背景雜訊，高於閥值則視為該背景語音；對消除該背景雜訊之該乾淨訊號進行第二階段雜訊消除；對每個音框進行該諧波頻率調變能量值與閥值比對，高於閥值則視為乾淨語音訊號，低於閥值則視為背景雜訊；以及得到一聲音串流之一乾淨語音訊號。