TWI545561B

TWI545561B - 用於解碼具有頻率平鋪適應之編碼音源訊號的裝置

Info

Publication number: TWI545561B
Application number: TW103124629A
Authority: TW
Inventors: 薩斯洽帝斯奇; 拉夫紀哲爾; 克利斯汀漢姆瑞奇; 弗瑞德里克納吉爾; 高斯坦汀史密德; 米歇爾費斯傑
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2013-07-22
Filing date: 2014-07-17
Publication date: 2016-08-11
Also published as: CN104769671A; ES2959641T3; SG11201600401RA; BR112016000740B1; KR101822032B1; EP3017448A1; BR122022011238B1; RU2016105613A; CN105518777B; US20220270619A1; MY175978A; ES2728329T3; WO2015010950A1; WO2015010952A1; CA2918835C; CA2918810C; HK1211378A1; ES2667221T3; KR101807836B1; RU2016105473A

Description

用於解碼具有頻率平鋪適應之編碼音源訊號的裝置

本發明係有關於音源編碼/解碼，特別是有關於使用智慧型填隙技術(IGF)。

音源編碼係為訊號壓縮之領域，其使用心理聲學知識來消除訊號中多餘以及無關的部分。現今，音源轉碼器通常需要大約60kbps/聲道以對幾乎任何類型之音源訊號進行感知透明編碼。較新的轉碼器係藉由使用如頻寬延伸(BWE)的技術利用訊號中相似頻譜來減少編碼位元速率。BWE機制係使用低位元速率參數來設定代表音源訊號之高頻率(HF)成分。HF頻譜係從低頻率(LF)區向上填經調整的頻譜內容、頻譜形狀、平鋪(tilt)以及時間持續以維持原始訊號的色彩以及音色。此種BWE方法使得音源轉碼器在很低的位元率24kbps/聲道上仍保留好品質。

此創新的音源編碼系統在能廣範圍的位元率下對任意音源訊號進行有效地編碼。然而，針對高位元率，此創新的系統係聚焦於透明度，將低位元率的感知上令人不悅感能最小化。因此，可用的位元率之主要共用係用於編碼器中訊號之大部分與感知相關的結構的波形碼，所產生的頻譜間隙係在解碼器中以大略近似原始頻譜的訊號內容來填充。藉由從編碼器傳送到解碼器的專用側資訊以消耗一非常有限的位元預算來控制參數驅動所謂的頻譜智慧型填隙(IGF)。

音源訊號之儲存或是傳送係通常受限於嚴格位元率的約束。在過去，當僅能使用非常低位元率時，轉碼器係被迫激烈地降低傳輸音源的頻寬。

現代音源轉碼器可使用頻寬延伸(BWE)方法(文獻[1]所述) 來編碼寬頻帶訊號。這些演算法依賴高頻內容(HF)之參數表現，其係藉由將從解碼訊號之低頻部(LF)調換成HF頻譜區域(“修補”)編碼波形所產生，以及依賴參數驅動後處理之應用。在BWE機制中，在給定所謂的交越頻率上方的HF頻譜區域之再建係通常根據頻譜修補(patching)。通常，HF區域係由多個鄰近修補所構成，且每一修補係源自給定交越頻率下方的LF光譜之複數個帶通(BP)區域。目前最先進的系統係藉由複製從來源至目標區域的一組鄰近次頻帶係數，以有效地執行濾波器組表示內，例如正交鏡像濾波器組(QMF)的修補。

有另一技術的音源轉碼器係透過增加壓縮效率，使得在低位元率下能延伸音源頻寬，其係音源頻谱之合適部分的參數驅動合成替換。例如，原始音源訊號之類雜訊訊號部分可用解碼器產生且由側資訊參數縮放的人造雜訊來替換，而不會影響主觀品質。其中一範例係為MPEG-4先進音源編碼(AAC)[5]所包含的感知雜訊代替(PNS)工具。

而進一步的規範，其使得低位元率下的延伸音源頻寬為雜訊填充技術，係包含在MPEG-D統一語音與音源編碼(Unified Speech and Audio Coding，USAC)[7]中。由於量化器之過於粗略的量化而產生的無作用區(dead-zone)所推論出頻譜間隙(zeroes)，後續在解碼器係填充人造雜訊並藉由參數驅動後處理縮放。

另一先進系統被稱為精確頻譜替換(ASR)[2-4]。除了波形轉譯器，ASR使用專用訊號合成級，其在解碼器恢復訊號中感知上重要的正弦部分。而且，在[5]描述的系統係依賴在波形編碼器之HF區域中的正弦模組化，以使得延伸音源頻寬在低位元率具有還不錯的感知品質。這些所有方法包含數據從修改型離散餘弦轉換(MDCT)轉換成第二領域，以及用於維持HF正弦成分的相當複雜之分析/合成級。

第13a圖係繪示用於頻寬延伸技術之音源編碼器之示意圖，此音源編碼器係使用於高效率先進音源編碼(HE-AAC)。在線1300上的音源訊號係輸入至濾波器系統，其包含有低通濾波器1302以及高通濾波器1304。高通濾波器1304所輸出的訊號係輸入至一參數提取器/編碼器1306。參數提取器/編碼器1306係用於計算以及編碼參數，例如頻譜包絡線參數、雜訊增添參數、消失的諧波參數或是逆濾波參數。這些提取出的參數係輸入至一位元流多工器1308。低通濾波器之輸出訊號係輸入至一處理器，其通常包含降取樣器1310以及核心編碼器1312之功能。低通濾波器1302係將待編碼的頻寬限制成比線1300上的原始輸入音源訊號的頻寬顯著較小頻寬。由於發生在核心編碼器的全部功能僅必須操作在已減少頻寬的訊號上，所以此提供大幅的編碼增益。例如，當線1300上的音源訊號之頻寬為20kHz而，舉例而言，當低通濾波器1302具有4kHz頻寬，為了履行取樣定理，降取樣器之後的訊號具有8kHz之取樣頻率，其大致上減少至必須至少40kHz的音源訊號1300需要的取樣率。

第13b圖繪示相對應的頻寬延伸解碼器之示意圖。解碼器包含位元流解多工器1320。位元流解多工器1320提取一用於核心解碼器1322的輸入訊號以及一用於參數解碼器1324的輸入訊號。在上述範例中，核心解碼器之輸出訊號具有8kHz之取樣率以及4kHz之頻寬，因此，為了完成頻寬再建，高頻再建器1330的輸出訊號必須在20kHz，並需要至少40kHz之取樣率。為了使其可能，需要具有一升取樣器1325以及一濾波器組1326之功能的解碼處理器。然後，高頻再建器1330接收濾波器組1326所輸出的頻率分析低頻訊號，並使用高頻頻帶之參數表示重建第13a圖之高通濾波器1304所定義的頻率範圍。高頻再建器1330具有幾個功能，例如使用下頻率範圍中的來源範圍再生上頻率範圍、頻譜包絡線調整、增添雜訊功能以及在上頻率範圍中引進消失諧波的功能，以及為了解釋較高頻率範圍係通常不會與較低頻率範圍有相同音調，如果在第13a圖之編碼器中施加以及計算，則更包含逆濾波操作。在HE-AAC中，消失的諧波係在解碼器側上再合成，並精確地放置在再建頻帶之中間。因此，所有已經決定在特定再建頻帶中之消失的諧波線不會設置其位於原始訊號中的頻率值。取而代之地，那些消失的諧波線係設置在特定頻帶之中心位置的複數個頻率。如此，當原始訊號中的消失諧波線係設置非常接近原始訊號中的再建頻帶邊界，對於已經產生以及傳送的參數，在頻帶之中心的再建訊號中放置消失的諧波線而引進的頻率中的錯誤係接近個別再建頻帶之50%。

此外，即使典型的音源核心轉碼器係操作在頻譜領域，然而核心解碼器係產生一時間領域訊號再藉由濾波器組1326的功能將其轉換成頻譜領域。此引進額外的處理延遲，可能由於首次從頻譜域轉換成頻率域以及通常再次轉換成不同頻率域的串列處理而引進假造物，當然，當頻寬延伸技術應用於移動式裝置例如移動式電話、平板電腦或是筆記型電腦等等，此亦需要大量計算複雜度以及電源，這是一特別的議題。

目現的音源轉碼器係使用BWE作為編碼機制之整合部，以執行低位元率音源編碼。然而，BWE技術係限制僅能取代高頻率(HF)的內容。此外，不能讓在給定交越頻率上方的重要感知內容被進行波形編碼。因此，因為系統之大部分不考慮訊號之音調諧波之精確對準時，當實現BWE時，任一同時期的音源轉碼器將遺失HF細節或是音色。

BWE系統之目前狀態之另一缺點是需要將音源訊號轉換成新的域以執行BWE(例如從MDCT域轉換成QMF域)。此導致同步複雜、額外的計算複雜度以及增加記憶體需求。

音源訊號之儲存或是傳送係通常受限於嚴格位元率的約束。在過去，當僅能使用非常低位元率時，轉碼器係被迫激烈地降低傳輸音源的頻寬。現代音源轉碼器可使用頻寬延伸(BWE)方法[1-2]來編碼寬頻帶訊號。這些演算法依賴高頻內容(HF)之參數表示，其係藉由將從解碼訊號之低頻部(LF)調換成HF頻譜區域(“patching”)編碼波形所產生，以及依賴參數驅動後處理之應用。

在BWE機制中，在給定所謂的交越頻率上方的HF頻譜區域之再建係通常根據頻譜修補(patching)。其他機制係使用相鄰之所謂頻譜平鋪填充頻譜間隙，例如智慧型填隙(IGF)，以再生音源訊號HF光谱之部分。通常，HF區域係由多個鄰近修補或平鋪所構成，且每一修補或平鋪係源自給定交越頻率下方的LF光譜之複數個帶通(BP)區域。目前最先進的系統係藉由從一來源複製一組鄰近次頻帶係數至目標區域以有效地執行濾波器組表示內的修補或是平鋪。然而，針對一些訊號內容，從LF頻帶以及鄰近HF頻帶內之修補的再建訊號之集合可導致差拍、失調以及粗糙的聽覺感受。

因此，在文獻[19]，失調防護頻帶濾波之概念係呈現在以濾波器組為基礎的BWE系統之內容中。其建議在LF以及BWE再生HF之間的交越頻率上有效地應用大約1巴克(Bark)頻寬，以避免失調之可能性以及取代具有零訊號或是雜訊的頻譜內容。

然而，在文獻[19]中所建議的解決方案有一些缺點：首先，頻譜內容之嚴格更換任一零或是雜訊亦可能影響訊號之感知品質。而且，所建議的處理並非訊號適應性且可能在一些情況因此傷害感知品質。例如，如果訊號中包含有瞬變訊號，此可能導致前回音以及後回音。

第二，失調亦會發生在連續的HF修補之間的轉換。在文獻[19]中所建議的解決方案僅功能性的補救發生在LF以及BWE再生HF之間的交越頻率上的失調。

最後，相對於與文獻[19]所建議的系統相似的以濾波器組為基礎的系統，BWE系統亦會以轉換為基礎的實施方式來實現，像是例如修改型離散餘弦轉換(MDCT)。與MDCT相似的轉換係傾向於所謂的顫音(warbling)[20]或是響聲假造物，其發生於如果複製頻譜係數之帶通區域或是頻譜係數設定成與[19]所建議相似的零。

特別地，美國專利號8,412,365之專利揭露在以濾波器組為基礎的轉譯或是折疊中使用所謂的防護頻帶，其被插入一或是幾個被設定為零的子頻帶聲道，且由其製成。濾波器組聲道之數量係用作防護頻帶，且防護頻帶之頻寬應該為0.5巴克。這些失調防護頻帶係使用任意白雜訊訊號部分地再建，即，此些次頻帶係填入白雜訊代替零訊號。在不考慮現在訊號的情況下，防護頻帶係被插入處理。

本發明之目的係提供一種對編碼音源訊號解碼之改良概念。

此目的藉由申請專利範圍第1項所述之編碼音源訊號解碼裝置、申請專利範圍第16項之編碼音源訊號解碼方法、以及申請專利範圍第17項之電腦程式來達成。

根據本發明，執行頻率再生操作之前或之後，執行使用分析器分析解碼器側，用以分析解碼核心訊號，並提供一分析結果。然後，此分析結果係由頻率再生器使用，以再生不包含於解碼核心訊號的頻譜部分。

如此，相比於固定解碼器設定，本發明係以固定方法方法執行修補或是頻率平鋪，即，從核心訊號取得特定的來源範圍以及將特定的固定頻率邊界施加至來源範圍以及重建範圍之間的任一已設定的頻率，或是在重建範圍內兩個鄰近頻率修補或是平鋪之間的頻率邊界，以執行訊號相關修補或是平鋪，例如，可分析核心訊號以發現核心訊號內的局部最小值，然後選擇核心範圍使得核心範圍之頻率邊界與核心訊號光譜中的局部最小值相一致。

此外，可在初步再生訊號或是初步頻率修補或是平鋪訊號上執行訊號分析，其中，在初步頻率再生程序之後，分析在核心範圍以及重建範圍之間的邊界以為了偵測任何假造訊號部分，例如當再建時因彼此十分接近而產生差拍假造訊號的有疑問之音調部分。此外，邊界亦可用以下方式檢驗：偵測音調部分之中間削頻，並當再建時音調部分之削頻亦產生一假造訊號。為了避開這些流程，可訊號操作器藉由修改重建範圍之頻率邊界、及/或來源範圍之頻率邊界、及/或在重建範圍內的兩個個別頻率平鋪或修補之頻率邊界，以再次執行重新設定邊界的再建。

另外，或是另一選擇，頻率再生係根據分析而再生，藉此該頻率邊界係如原本地維持，而靠近來源範圍以及重建範圍之間的該頻率邊界，或是靠近重建範圍內兩個個別頻率平鋪或是修補之間的該頻率邊界的有疑問音調部分係被消除或是至少衰減。此種音調部分可為相接近的音調，其導致一差拍假造訊號或是可為中間削頻的音調部分。

特別的是，當使用非能量保存轉換，例如MDCT，則單一音調不直接映射至單一頻譜線。取而代之地，單一音調將映射至一群依音調相位而有特定振幅的頻譜線。當修補操作修剪此音調部分，即使MDCT再建器執行了完美的再建，在再建之後仍將導致一假造訊號。此係由於MDCT再建器需要一音調的完整音調圖樣，以最後正確地重建此音調。由於先發生削頻，所以將創造出時間變化的顫音假造訊號。基於本發明的分析，頻率再生器將藉由衰減完整的音調部分以創建假造訊號、或是如上述討論藉由改變複數個頻率的相對應邊界、或是使用兩者測量、或是根據音調圖樣上特定的預知來再建削頻部分，以避免此狀況。

另外或是另一選擇，交越濾波可用於對解碼核心訊號、具有從填隙頻率延伸至第一平鋪停止頻率的第一頻率平鋪進行頻譜上分相濾波，或是對第一頻率平鋪以及第二頻率平鋪進行頻譜上交越濾波。

交越濾波對於減少所謂的濾波響聲(filter ringing)是有用的。

本發明的方法係主要根據像是MDCT的轉換而應用於BWE內。然而，本發明的教示係通常適用於，例如以正交鏡像濾波器組(QMF)為基礎的系統，尤其如果此系統係嚴格取樣，例如實數值QMF表現。

如果接近轉換點(像是交越頻率或是修補邊界)的頻譜區域內的訊號內容係非常音調性，本發明的方法係根據所觀察到僅發生聽覺的粗糙、差拍以及失調。因此，針對在此技術領域狀態所發現的缺點的建議解決方案係包含在轉換區域中音調成分之訊號適應性偵測以及對此成分在後續衰減或除去。較佳地，成分之衰減或是除去可此成分之底對底做頻譜內插來完成，或是可選擇用零或是雜訊插入來完成。或者，此轉換之頻譜位置可由訊號適應性地選擇，使得轉換假造物最小化。

此外，此技術可用於減少或是甚至避免濾波響聲。尤其針對瞬變相似訊號，響聲係可聽見以及討厭的假造訊號。濾波響聲假造物係由於濾波器之所謂的磚牆式特性在轉換頻帶(在截止頻率從通過頻帶到停止頻帶的陡峭轉換)所造成。藉由在時間頻率轉換之頻率域中將一係數或是多組係數設定成零，此種濾波器可有效地實現。如此，在BWE之情形中，我們打算在多個修補之間或是核心頻帶與第一修補之間的每一個轉換頻率上使用一交越濾波器，以減少響聲效果。可在轉換領域中將頻譜權重應用合適的增益函式來實現交越濾波器。

根據本發明的進一步態樣，編碼音源訊號解碼裝置包含一核心解碼器、一平鋪產生器以及一分相濾波器。平鋪產生器使用解碼核心訊號之一頻譜部分來產生至少一具有複數個頻率但不包含在解碼核心訊號內的頻譜平鋪。交越濾波器用以對解碼核心訊號以及第一頻率平鋪進行頻譜上交越濾波。此第一頻率平鋪具有從填隙頻率延伸到第一平鋪停止頻率的複數個頻率；此分相濾波器亦或對一平鋪以及另一頻率平鋪進行頻譜上交越濾波，此另一頻率平鋪具有下邊界頻率，其係鄰近此頻率平鋪之上邊界頻率的頻率。

較佳地，此程序係主要根據像是MDCT的轉換而應用於頻寬延伸內。然而，本發明係通常且特別應用在依賴正交鏡像濾波器組(QMF)的頻寬延伸方案，特別是如果此系統係嚴格取樣，例如當有實數值QMF表現作為時間頻率轉換或是頻率時間轉換。

此實施例對瞬變相似訊號特別有用，因為對於此種瞬變相似訊號，響聲係一可聽見以及討厭的假造訊號。濾波響聲假造物係由濾波器之所謂的磚牆式特性在轉換頻帶，即在截止頻率從一通過頻帶到一停止頻帶的陡峭轉換所造成。藉由在時間頻率轉換之頻率域中將一係數或是多組係數設定成零，此種濾波器可有效地實現。因此，本發明可信賴在多個修補/平鋪之間或是一核心頻帶與一第一修補/平鋪之間的每一個轉換頻率上使用一交越濾波器，以減少響聲假造訊號。較佳地，使用在轉換領域中將頻譜權重應用合適的增益函式來實現交越濾波器。

較佳地，此交越濾波器係為訊號適應性以及由兩個濾波器所組成，一個是漸出濾波器，其應用於較低的頻譜區域；一個是漸入濾波器，其應用於較高的頻譜區域。依據特定實現而決定，此濾波器可為對稱或是不對稱。

在另一實施例，頻率平鋪或是頻率修補不僅受限於交越濾波，但是在執行交越濾波之前，平鋪產生器較佳地執行修補適應，其包含在頻譜最小值的該頻率邊界之設定，以及在轉換頻率周圍的轉換範圍內剩餘音調部分之除去或是衰減。

99‧‧‧音源訊號、音源輸入訊號、訊號、時間域音源訊號、輸入音源訊號

100‧‧‧時間頻譜轉換器

101‧‧‧頻譜表現、頻譜、頻譜分析器

102‧‧‧頻譜分析器

103‧‧‧第一組第一頻譜部分、核心頻帶以及音調成分

104‧‧‧參數計算器/參數化編碼器

105‧‧‧第二組第二頻譜部分

106‧‧‧頻譜域音源編碼器、頻譜域編碼器

107‧‧‧第一編碼表現

108‧‧‧位元流形成器、方塊、位元流多工器

109‧‧‧第二編碼表現、線

112‧‧‧頻譜域音源解碼器、方塊、頻譜域解碼器

114‧‧‧參數化解碼器、方塊

116‧‧‧頻率再生器

117‧‧‧線、再建的第二組頻譜部分

118‧‧‧頻譜時間轉換器

119‧‧‧時域表示

200‧‧‧解多工器/解碼器

202‧‧‧IGF方塊、IGF、IGF區塊

203、723、724、1007、1019‧‧‧線

204‧‧‧聯合聲道解碼、聯合聲道解碼方塊

206‧‧‧音調遮罩、音調遮罩方塊

208‧‧‧組合器、區塊

210‧‧‧方塊、逆TNS

212‧‧‧合成濾波器組、區塊

220‧‧‧分析濾波器組、音源訊號

222‧‧‧TNS方塊、方塊、TNS

224‧‧‧IGF參數抽取編碼、方塊

226‧‧‧音調遮罩方塊、頻譜分析器/音調遮罩

228‧‧‧聯合聲道編碼、聯合聲道編碼方塊、核心編碼器、聯合聲道編碼器

230‧‧‧位元流多工器

232‧‧‧熵編碼器

302‧‧‧編碼音調部分

304、305‧‧‧高解析度頻譜成分、編碼音調部分、頻譜部分、第一頻譜部分

306‧‧‧高解析度頻譜成分、編碼音調部分、第一頻譜部分、頻譜部分

307‧‧‧高解析度頻譜成分、編碼音調部分、頻譜成分、消失的諧波、頻譜部分、第一頻譜部分

307a、307b‧‧‧頻譜部分

309‧‧‧IGF開始頻率、智慧型填隙開始頻率、填隙開始頻率、填隙頻率

390‧‧‧頻率、再建頻率

391‧‧‧頻率錯誤

400‧‧‧倍率因子計算器

402‧‧‧心理聽覺模型

404‧‧‧量化處理器

410‧‧‧設零方塊、方塊、設零

412‧‧‧方塊、加權方塊、倍率因子加權

418‧‧‧方塊、設零方塊、設零

420‧‧‧量化器方塊、量化器

422‧‧‧設零方塊、方塊、設零

424‧‧‧頻譜分析器

502‧‧‧設窗器

504‧‧‧瞬變偵測器

506‧‧‧區塊轉換器、區塊

510‧‧‧訊框建立器/調整器區塊、訊框建立器/調整器、區塊

512‧‧‧區塊、逆區塊轉換/內極

514‧‧‧區塊、合成設置

516‧‧‧區塊、對先前時間訊框執行重疊/相加

522‧‧‧區塊、頻率平鋪產生器

523‧‧‧原始第二部分

524‧‧‧訊框建立器

526‧‧‧調整器

527‧‧‧增益參數

528‧‧‧增益參數計算器

600‧‧‧核心解碼器

602‧‧‧分析器

603‧‧‧分析結果

604‧‧‧頻率再生器

605‧‧‧參數數據、包絡數據、參數資訊、用於消失的頻譜部分的參數數據、2nd部分(重建頻帶)之參數資訊

612‧‧‧反量化級、熵解碼以及反量化

614‧‧‧頻譜分析器、分析器

616‧‧‧頻率再生器、頻率再生修補邊界係配置在來源頻帶及/或目標頻帶中的最小值

702‧‧‧初步訊號再生器、方塊

703‧‧‧初步再生訊號、初步再建訊號、訊號

704‧‧‧偵測器、方塊、偵測音調成分的偵測器

705‧‧‧來源數據

706‧‧‧轉換頻率調整器、方塊、轉換頻率調整

708‧‧‧移除器、邊界上的音調成分之移除器、方塊、轉換頻率調整

710‧‧‧交越濾波器

712‧‧‧頻譜包絡線塑形方塊、頻譜包絡線塑形器、方塊、再建頻帶內的頻譜包絡線塑形

718‧‧‧方塊、創造初步再生訊號

720‧‧‧偵測器、偵測造假成分

722‧‧‧操作器、以操作器操作訊號

802‧‧‧偵測器、偵測音調部分之開始以及結束

804‧‧‧插入器、開始處與結束處進行內插

806‧‧‧方塊、將音調部分換成內插結果

808‧‧‧方塊、頻譜線、隨機地產生頻譜線

810‧‧‧方塊、根據鄰近非音調頻譜部分以調整能量

820‧‧‧方塊、頻率平鋪產生器、平鋪產生器

822‧‧‧分析器、操作器

824‧‧‧操作器

826‧‧‧頻譜包絡線調整器、方塊

828‧‧‧頻率時間轉換器

900‧‧‧音源解碼器

901a‧‧‧第一組第一頻譜部分、第一組第一頻譜部分之編碼表現、控制數據

901b‧‧‧參數數據之編碼表現、編碼音源訊號

902‧‧‧第二組第二頻譜部分之解碼參數數據、第二頻譜部分參數

904‧‧‧解碼第一組第一頻譜部分、線、第一頻譜部分

906‧‧‧頻率再生器

908‧‧‧時間或頻率的分群數據

912‧‧‧計算器、區塊、殘留能量計算器

914‧‧‧計算器、消失能量計算器

916‧‧‧頻譜包絡線調整器、區塊

918‧‧‧計算器、區塊、平鋪能量計算器

920‧‧‧再建頻帶

921‧‧‧第一頻譜部分

922‧‧‧第二頻譜部分、頻譜部分、區塊、頻帶、頻譜值

923‧‧‧第二頻譜部分、頻譜部分、區塊、頻帶、頻譜值

940‧‧‧逆縮放方塊、逆縮放

941‧‧‧線、再建頻帶中的第一頻譜部分

942‧‧‧包絡線調整器/計算器

943‧‧‧編碼音源訊號的參數化輔助資訊、再建頻帶的能量資訊

1002‧‧‧時間/頻譜轉換器、方塊

1004‧‧‧頻譜分析器

1006‧‧‧參數計算器

1006a‧‧‧參數化計算器

1008‧‧‧音源編碼器

1012‧‧‧正規化器、正規化器適用於不同頻寬

1014‧‧‧能量數值計算器

1016‧‧‧方塊、計算兩個鄰近頻帶的能量數值

1018‧‧‧方塊、比較鄰近頻帶的能量數值

1020‧‧‧方塊、產生用於兩個頻帶的單一數值

1024‧‧‧編碼器位元率控制

1030‧‧‧增益功能

1031‧‧‧音調部分

1032‧‧‧音調部分、音調成分

1033‧‧‧內插

1100‧‧‧語音峰值

1200‧‧‧核心解碼器

1202‧‧‧控制頻率再生器、頻寬延伸平鋪

1204‧‧‧修補適應及後處理

1206‧‧‧方塊、參數驅動的頻寬包絡線塑形

1208‧‧‧合成轉換方塊、合成轉換

1220‧‧‧橢圓

1220a‧‧‧音調部分

1221‧‧‧橢圓、第二頻率平鋪

1225‧‧‧第一頻率平鋪、第一修補操作、頻率平鋪

1226‧‧‧音調部分

1227‧‧‧第二頻率平鋪、頻率平鋪

1250‧‧‧邊界頻率

1252‧‧‧來源範圍、來源區域

1254‧‧‧重建範圍

1300‧‧‧線、音源訊號

1302‧‧‧低通濾波器、低通

1304‧‧‧高通濾波器、高通

1306‧‧‧參數提取器/編碼器、參數器、擷取器、編碼器

1308‧‧‧位元流多工器

1310‧‧‧降取樣器

1312‧‧‧核心編碼器

1320‧‧‧位元流解多工器

1322‧‧‧核心解碼器

1324‧‧‧參數解碼器、參數器、解碼器

1325‧‧‧升取樣器

1326‧‧‧濾波器組

1330‧‧‧高頻再建器

1400‧‧‧核心解碼器

1401‧‧‧核心訊號、編碼核心訊號

1402‧‧‧頻率再生器

1404‧‧‧元件、平鋪產生器

1405‧‧‧轉換器、偵測器

1406‧‧‧元件、交越濾波器

1407‧‧‧參數化頻譜包絡線資訊

1408‧‧‧元件、包絡線調整器

1420‧‧‧濾波器、漸出子濾波器

1420a‧‧‧漸出子濾波器之特性、漸出功能、漸出函式

1421‧‧‧漸出子濾波器

1422‧‧‧濾波器、子濾波器、漸入子濾波器

1422a‧‧‧漸入子濾波器之特性、漸入功能

1424‧‧‧組合器

E1、E2‧‧‧能量資訊值、能量資訊

E3‧‧‧能量資訊值、能量資訊、能量數值

E4‧‧‧能量資訊值、能量資訊、能量

IN1‧‧‧第一輸入訊號

IN2‧‧‧第二輸入

NF2‧‧‧雜音填充能量

SCB、SCB1、SCB2、SCB3、SCB4、SCB5、SCB6、SCB7‧‧‧倍率因數頻帶、倍率因數

SF4、SF5、SF6、SF7‧‧‧倍率因數

第1a圖係繪示用於編碼一音源訊號的裝置。

第1b圖係繪示與第1a圖之編碼器相匹配的解碼器，其用於解碼一編碼音源訊號。

第2a圖係繪示解碼器之較佳實現方式。

第2b圖係繪示編碼器之較佳實現方式。

第3a圖係繪示由第1b圖之頻譜域解碼器產生的頻譜之示意表現圖。

第3b圖係繪示一代表複數個倍率因數頻帶之倍率因數以及用於雜訊填充頻帶之再建頻帶語雜訊填充資訊的能量之間的關係的表格。

第4a圖係繪示將所選之頻譜部分施加於第一組與第二組頻譜部分的此頻譜域編碼器之功能方塊圖。

第4b圖係繪示第4a圖之功能之實現方式之方塊圖。

第5a圖係繪示MDCT編碼器之功能方塊圖。

第5b圖係繪示具有MDCT技術的解碼器之功能方塊圖。

第5c圖係繪示此頻率再生器之實現。

第6a圖係繪示根據一實現方式的編碼音源訊號解碼裝置。

第6b圖係繪示編碼音源訊號解碼裝置之另一實施例。

第7a圖繪示第6a圖或是第6b圖之頻率再生器之較佳實現方式。

第7b圖繪示分析器以及頻率再生器之間的合作之另一實現方式。

第8a圖係繪示此頻率再生器之另一實現方式。

第8b圖係繪示本發明的另一實施例。

第9a圖係繪示針對再生頻率範圍使用能量值，具有頻率再生技術的解碼器。

第9b圖係繪示第9a圖之頻率再生器之更詳細的實現方式。

第9c圖係繪示第9b圖之功能示意圖。

第9d圖係繪示第9a圖之解碼器之另一實現方式。

第10a圖係繪示與第9a圖之解碼器相匹配的編碼器之方塊圖。

第10b圖係繪示第10a圖之參數計算器之另一功能的方塊圖。

第10c圖係繪示第10a圖之參數化計算器之另一功能的方塊圖。

第10d圖係繪示第10a圖之參數化計算器之另一功能的方塊圖。

第11a圖係繪示環繞一瞬變濾波響聲之頻譜。

第11b圖係繪示在使用頻寬延伸之後的一瞬變頻譜圖。

第11c圖係繪示在使用有濾波響聲減少的頻寬延伸之後的一瞬變頻譜圖。

第12a圖係繪示編碼音源訊號解碼裝置之方塊圖。

第12b圖係繪示一音調訊號、不須修補/平鋪適應的複製、具有改變該頻率邊界的複製、以及假造音調部分之額外消除之振幅頻譜(stylized)。

第12c圖係繪示交叉淡化函式的範例。

第13a圖係繪示具有頻寬延伸的習知編碼器。

第13b圖係繪示具有頻寬延伸的習知解碼器。

第14a圖係繪示另一個使用交越濾波器的編碼音源訊號解碼裝置。

第14b圖係繪示例示性交越濾波器之更詳細方塊圖。

第6a圖係繪示包含編碼核心訊號以及參數數據的編碼音源訊號解碼裝置。此裝置包含一核心解碼器600，用於解碼編碼核心訊號以取得解碼核心訊號；以及一分析器602，用於在執行頻率再生操作之前或之後分析解碼核心訊號。分析器602係用於提供分析結果603。頻率再生器604係使用解碼核心訊號之頻譜部分用於再生此解碼核心訊號不包含在內的頻譜部分，以及用於此消失的頻譜部分以及分析結果603的包絡數據605。如此，相比於過去的實現方式，此頻率再生並非在解碼器側上訊號單獨地執行，而是訊號相關地執行。此優點在於，當沒有問題存在，此頻率再生係正常執行，但是當有疑問的訊號部分存在，則藉由分析結果603以及頻率再生器604偵測此部分然後執行頻率再生之是適應性方法，例如，改變核心區域以及再建頻帶之間的最初頻率邊界或是改變在此再建頻帶內兩個個別平鋪/修補之間的頻率邊界。相反於防護頻帶之實現，此優點在於僅當需要時才執行特定流程，不像防護頻帶實現中所有時間都在執行且不須任何訊號相關性。

較佳地，核心解碼器600係實現作為一熵(例如Huffman或是演算解碼器)解碼以及反量化級612，如第6b圖所繪示。然後，核心解碼器600輸出核心訊號頻譜，由頻譜分析器614(與第6a圖之分析器602十分相似)分析此頻譜。如第6a圖所繪示，相比於任何分析器，所實現的頻譜分析器亦分析時間域訊號。第6b圖之實施例中，頻譜分析器用於分析頻譜訊號，以決定來源頻帶及/或目標頻帶(即頻率修補或是頻率平鋪)中的局部最小值。然後，如616所繪示，頻率再生器604執行頻率再生，修補邊界係配置在來源頻帶及/或目標頻帶中的最小值。

後續，討論第7a圖以描述第6a圖之頻率再生器604之較佳實現。初步訊號再生器702係從來源頻帶接收來源數據(作為一輸入)，以及另外接收初步修補資訊例如初步邊界複數個頻率。然後，產生初步再生訊號703，其由用於偵測初步再建訊號703內之音調成分的偵測器704所偵測。可選擇地或是另外，來源數據705亦可由對應於第6a圖之分析器602的偵測器所分析。然後，就不需要初步訊號再生步驟。當從來源數據到再建數據有明確的映射，然後可僅考量來源數據來偵測最小值或是音調部分是否有音調部分接近核心範圍之上邊界，或是接近兩個個別地產生的頻率平鋪之間的頻率邊界。之後將在第12b圖討論。

在靠近該頻率邊界已經發現有疑問的音調成分之情形中，轉換頻率調整器706執行轉換頻率之調整，例如核心頻帶以及再建頻帶之間，或是由再建頻帶中一以及相同來源數據所產生的個別頻率部分之間的轉換頻率或是交越頻率或是填隙開始頻率。方塊706的輸出訊號係轉發至在邊界上的音調成分之移除器708。移除器係用以移除經過方塊706作轉換頻率調整之後仍有的剩餘音調成分。然後，移除器708之結果轉發至交越濾波器710以解決濾波響聲的問題。然後交越濾波器710之結果輸入至頻譜包絡線塑形方塊712，以執行再建頻帶內的頻譜包絡線塑形。

如第7a圖所討論的內容，方塊704中的音調成分之偵測可在來源數據705上或初步再建訊號703上執行。此實施例係繪示在第7b圖，如方塊718內所示創造初步再生訊號。然後，將對應於第7a圖之訊號703的訊號轉發至偵測器720，以偵測假造成分。雖然偵測器720可用作偵測器偵測在頻率邊界的音調成分，如第7a圖所繪示的704，但偵測器亦可實現以偵測其他假造成分。此種頻譜成分可為音調成分以外的其他成分，為了發現所提供的假造成分，偵測是否已經創造假造訊號可藉由嘗試不同再生並比較不同再生結果的方式來執行。

偵測器720控制操作器722以操作訊號，即初步再生訊號。可由線723來實際處理初步再生訊號，或是重新執行再生，來完成此操作。但是現在有線724所繪示的修改後的轉換頻率。

如第7a圖所繪示的706調整轉換頻率，以實現此操作程序。可執行第8a圖繪示的另一實現方式，代替第7a圖之方塊706或是與方塊706一起使用。偵測器802係提供用於偵測有疑問的音調部分之開始頻率以及結束頻率。然後，插入器804用於在頻譜範圍內的音調部分之開始處與結束處進行內插，以及較佳地進行複內插。然後，如第8a圖所繪示，由方塊806將音調部分替換成內插結果。

第8a圖中方塊808與810係繪示另一實現方式。代替內插之執行，在音調部分之開始處與結束處之間執行頻譜線808之任意產生。然後，如810所繪示的執行隨機地產生的頻譜線之能量調整，以及設定隨機產生的頻譜線之能量使得此能量近似於鄰近非音調頻譜部分。然後，以包絡線調整隨機產生的頻譜線替換此音調部分。為了提供更換訊號是盡可能地非假造訊號，此頻譜線可隨機地產生或是偽隨機地產生。

第8b圖繪示另一實現方式。方塊820繪示第6a圖之位於頻率再生器內的頻率平鋪產生器。頻率平鋪產生器使用預設的頻率邊界。然後，分析器分析頻率平鋪產生器產生的訊號，而頻率平鋪產生器820較佳地用於執行多個平鋪操作以產生多個頻率平鋪。然後，第8b圖中的操作器824係根據分析器822所輸出的分析結果來操作頻率平鋪產生器之結果。此操作可為改變頻率邊界或是衰減個別部分。然後，頻譜包絡線調整器826使用參數資訊605來執行頻譜包絡線調整，參數資訊605已經在第6a圖之內容所討論。

然後，方塊826所輸出的頻譜調整訊號係輸入至頻率時間轉換器，且頻率時間轉換器另外接收第一頻譜部分，即核心解碼器600的輸出訊號之頻譜表現。然後，頻率時間轉換器828之輸出係用於儲存器或是傳送至揚聲器做聲音演示。

本發明可應用於已知的頻率再生流程，例如第13a圖與第13b圖所繪示；或是較佳地應用在智慧型填隙鄰近關係內，如第1a圖至第5b圖以及第9a圖至第10d圖所描述。

第1a圖繪示一編碼音源訊號99的裝置。音源訊號99係輸入至時間頻譜轉換器100用以將具有取樣率的音源訊號轉換成時間頻譜轉換器所輸出的頻譜表現101。頻譜101係輸入至頻譜分析器102以分析其頻譜表現101。頻譜分析器101係用於判斷第一組第一頻譜部分103，其待編碼成第一頻譜解析度，以及不同的第二組第二頻譜部分105，其待編碼成第二頻譜解析度。第二頻譜解析度係小於第一頻譜解析度。第二組第二頻譜部分105係輸入至參數計算器或是參數化編碼器104，用以計算具有第二頻譜解析度的頻譜包絡線資訊。此外，頻譜域音源編碼器106係用於產生具有第一頻譜解析度之第一組第一頻譜部分的第一編碼表現107。此外，參數計算器/參數化編碼器104係用於產生第二組第二頻譜部分之第二編碼表現109。第一編碼表現107以及第二編碼表現109係輸入至位元流多工器或是位元流形成器108(即方塊108)，最後輸出編碼音源訊號以傳送，或是儲存在儲存裝置上。

通常，第一頻譜部分(例如第3a圖之306)將由兩個第二頻譜部分(例如307a與307b)所環繞。此並非HE AAC的情況，在此核心編碼器頻率範圍係頻帶受限。

第1b圖係繪示與第1a圖之編碼器相匹配的解碼器。第一編碼表現107係輸入至頻譜域音源解碼器112用於產生第一組第一頻譜部分的第一解碼表現，此解碼表現具有第一頻譜解析度。此外，第二編碼表現109係輸入至參數化解碼器114用於產生第二組第二頻譜部分之第二解碼表現，此第二組第二頻譜部分具有低於第一頻譜解析度的第二頻譜解析度。

解碼器更包含頻率再生器116，用以使用第一頻譜部分再生一再建第二頻譜部分，其具有第一頻譜解析度。頻率再生器116係執行平鋪填充操作，即使用一平鋪或是第一組第一頻譜部分之一部分，並將第一組第一頻譜部分複製到重建範圍或具有第二頻譜部分的再建頻帶中。頻率再生器116係通常執行頻譜包絡線塑形或是由參數化解碼器114輸出的第二解碼表現所標示的另一操作，即使用第二組第二頻譜部分上的資訊。解碼的第一組第一頻譜部分以及再建的第二組頻譜部分，其標示在線117上之頻率再生器116之輸出，係輸入至頻譜時間轉換器118用於將第一解碼表現以及再建第二頻譜部分轉換成一時域表示119，其具有特定的高取樣率。

第2b圖係繪示第1a圖之編碼器的實現方式。音源輸入訊號99係輸入至對應於第1a圖之時間頻譜轉換器100的分析濾波器組220。然後，TNS方塊222係執行時域雜訊塑形操作。因此，當沒有使用時域雜訊塑形/時域平鋪塑形操作，輸入至對應於第2b圖之音調遮罩方塊226的第1a圖之頻譜分析器102可以是全部頻譜值中的任一個；當使用如第2b圖所繪示的方塊222之TNS操作時，該輸入可為頻譜剩餘數值。針對雙聲道訊號或是多聲道訊號，可另外執行聯合聲道編碼228，所以第1a圖之頻譜域編碼器106可包含此聯合聲道編碼方塊228。此外，熵編碼器232係執行無損漏數據壓縮，且其亦為第1a圖之頻譜域編碼器之一部分。

頻譜分析器/音調遮罩226係將TNS方塊222之輸出分離成核心頻帶以及對應於第一組第一頻譜部分103的音調成分，以及對應於第1a圖之第二組第二頻譜部分105的剩餘成分。標示為IGF參數抽取編碼的方塊224係對應第1a圖之參數化編碼器104，而位元流多工器230係對應第1a圖之位元流多工器108。

較佳地，分析濾波器組222係以MDCT(修改型離散餘弦轉換濾波器組)來實現，而此MDCT係以修改型離散餘弦轉換作為頻率分析工具，將訊號99轉換成時間頻率域。

較佳地，頻譜分析器226係使用一音調遮罩。音調遮罩估算級係用於區分訊號中的音調成分以及類雜訊成分。此讓核心編碼器228可將所有的音調成分與一心理聽覺模組進行編碼。音調遮罩估算級可實現在多個不同的方式，而較佳地係實現與正弦軌估算級的功能相似，此正弦軌估算級係用於語音/音源編碼(如文獻[8，9]所述)的正弦以及雜訊模組化，或是與以HILN模型為基礎的音源編碼器的功能相似，如文獻[10]所述。較佳地，使用一實現方式容易實現且不須維持增銷軌，但是可使用任何其他音調偵測器或是雜訊偵測器。

IGF模組係計算存在於來源區域以及目標區域之間的相似性。目標區域將由來自來源區域的頻譜來表現。來源區域以及目標區域之間的相似性之測量係使用交叉相關性方法來完成。目標區域係劃分成nTar未重疊頻率平鋪。針對目標區域內的每一平鋪，從一固定開始頻率創建nSrc來源平鋪。這些來源平鋪係依0以及1之間的參數來重疊，其中0表示0%重疊，而1表示100%重疊。每一來源平鋪係在各種延遲與目標平鋪進行相關計算，以發現與目標平鋪最匹配的來源平鋪。最匹配的平鋪值係儲存成tileNum[idx_tar]，目標區域最相關的延遲係儲存成xcorr_lag[idx_tar][idx_src]，以及相關性之符號係儲存成xcorr_sign[idx_tar][idx_src]。在高度負相關之情形中，在解碼器進行平鋪填充處理之前來源平鋪必須先乘-1。因為使用音調遮罩保存音調成分，所以IGF模組亦小心不重寫頻譜中的音調成分。帶狀能量參數係用於儲存目標區域之能量，致使能精確地重建頻譜。

此方法優於古典的SBR[1]的優點在於，核心編碼器能保存多音調訊號之諧波網格，而僅複數個正弦波之間的間隙填充來自來源區域之最匹配的“塑形雜訊”。相比於ASR(精確頻譜替換)[2-4]，此系統之另一優點在於欠缺一訊號合成級，其在解碼器中產生訊號之重要部分。取而代之地，此任務由核心編碼器接管，以維持頻譜之重要成分。所建議系統之另一優點係特徵提供的連續的可量測性。對於每一平鋪，僅使用tileNum[idx_tar]以及xcorr_lag=0，其被稱為總粒度匹配，且當做為每一平鋪之變數xcorr_lag時，可用於低位元率，使得能較佳地匹配目標頻譜以及來源頻譜。

此外，建議使用平鋪選擇穩定化技術，以移除頻率域假造物，例如三連雜音或音樂雜音。

在一對立體聲道之情形中，使用額外的聯合立體聲處理。此係必要的，因為對於特定的目的範圍，此訊號可為一相關性高的音源。在為特别區域選擇的來源區域非良好相關之情形中，雖然能量係匹配此目的區域，但此空間影像可能由於此非相關來源區域而受損。編碼器係分析每一個目的區域能量頻帶，通常執行頻譜值之一交叉相關性，且如果超過特定的門檻值，則為此能量頻帶設定聯合旗標。在此解碼器中，如果未設定聯合立體聲旗標，則個別地處理左聲道與右聲道能量頻帶。在設定聯合立體聲旗標之情形中，能量以及修補兩者係在聯合立體聲領域中執行。IGF 區域的聯合立體聲資訊係訊號化，且與核心編碼之聯合立體聲資訊相似，如果預測之方向係從降混到剩餘，則此核心編碼含有指示預測之情形的旗標；亦可反向操作。

此能量可從L/R領域中所傳送的能量來計算。

midNrg[k]=leftNrg[k]+rightNrg[k]；sideNrg[k]=leftNrg[k]-rightNrg[k]；其中，k為轉換領域的頻率參數。

另一解決方案係在聯合立體聲領域中針對頻帶直接計算以及傳送能量，在此頻帶中聯合立體聲係活躍的，所以在解碼器側不需要額外的能量轉換。

此來源平鋪總是根據此中間/側矩陣來創建；midTile[k]=0.5．(leftTile[k]+rightTile[k])

sideTile[k]=0.5．(leftTile[k]-rightTile[k])

能量調整：midTile[k]=midTile[k]＊midNrg[k]；sideTile[k]=sideTile[k]＊sideNrg[k]；聯合立體聲->LR轉換：如果沒有編碼額外的預測參數：leftTile[k]=midTile[k]+sideTile[k]

rightTile[k]=midTile[k]-sideTile[k]

如果編碼額外的預測參數且如果訊號化方向係從中間往側邊：sideTile[k]=sideTile[k]-predictionCoeff．midTile[k]

leftTile[k]=midTile[k]+sideTile[k]

rightTile[k]=midTile[k]-sideTile[k]

如果訊號化方向係從側邊往中間：midTile1[k]=midTile[k]-predictionCoeff．sideTile[k]

leftTile[k]=midTile1[k]-sideTile[k]

rightTile[k]=midTile1[k]+sideTile[k]

此處理係確保用於再生的平鋪與目的區域以及經淘選的目的區域為高度相關，即使來源區域不相關，但此結果左聲道以及右聲道仍然代表具相關性且經淘選的音源，以維護此種區域的立體聲影像。

換句話說，在此位元流中，傳送聯合立體聲旗標以表示是否將使用L/R或是M/S作為一般聯合立體聲編碼之舉例。在解碼器中，首先，核心訊號係解碼，其由核心頻帶之聯合立體聲旗標來標示。第二，核心訊號係儲存在L/R以及M/S表現。為了IGF平鋪填充，選擇來源平鋪表現以配合此目標平鋪表現，其由IGF頻帶之聯合立體聲資訊來標示。

時域雜訊塑形(TNS)係為一標準技術，且為AAC(如文獻[11-13]所述)的一部分。TNS被認為是感知編碼器之基本機制的延伸，在濾波器組以及量化級之間插入一可選擇的處理步驟。TNS模組之主要任務係隱藏在瞬變(像是訊號)之時域遮蔽區域中所製造的量化雜音，如此可導致更高效率的編碼機制。首先，TNS使用“向前預測”在轉換領域(例如MDCT)計算一組預測係數。然後，這些係數用於平坦化訊號之時域包絡線。當量化影響TNS所濾波的頻譜，量化雜音亦暫時地平坦。在解碼器側上使用逆TNS濾波，根據TNS濾波器之時域包絡線塑形量化雜音，因此量化雜音短暫的被遮蔽。

IGF係基於MDCT表現。為高效率的編碼，較佳地，必須使用大約20毫秒之長區塊。如果在此種長區內的訊號包含瞬變訊號，由於平鋪填充，在IGF頻譜帶中可聽見的預回音以及後回音。第7c圖顯示在IGF的瞬變撞擊之前的典型預先回音效果。在左側上，係顯示原始訊號之頻譜圖，在右側上顯示没有TNS濾波的頻寬延伸訊號之頻譜圖。

在IGF的鄰近關係中使用TNS以降低預回音效果。在此，當解碼器中的頻譜再生在TNS剩餘訊號上執行時，TNS係作為一時域平鋪塑形(TTS)工具。通常，使用編碼器側上的全部頻譜來計算以及使用所需要的TTS預測係數。TNS/TTS開始頻率以及停止頻率不受IGF工具之IGF開始頻率f _IGFstart的影響。相比於傳統的TNS，TTS停止頻率係增加至IGF工具之停止頻率，其係高於f _IGFstart。在解碼器側上，TNS/TTS係數係再次應用於全部頻譜上，即核心頻譜加上再生頻譜加上來自音調圖的音調成分(參見第7e圖)。必須使用TTS以形成再生頻譜之時域包絡線，以再次匹配原始訊號之包絡線。如此可降低所顯示的預先回音。此外，其仍然對低於f _IGFstart的訊號進行塑形量化雜音，如同TNS。

在傳統的解碼器中，音源訊號上的頻譜修補造成修補邊界上的頻譜相關性惡化，從而引進分散影響音源訊號之時域包絡線。因此，在剩餘訊號上執行IGF平鋪填充的另一好處是，在使用塑形濾波器之後平鋪邊界係無縫相關，導致訊號有更忠實的時域再現。

在本發明的編碼器中，除了音調成分之外，高於IGF開始頻率的訊號沒有經歷TNS/TTS濾波、音調遮罩處理以及IGF參數估算的頻譜。核心編碼器使用演算編碼以及預測編碼之原理來編碼此稀疏頻譜。這些編碼成分隨著訊號化位元而形成此音源之位元流。

第2a圖繪示相對應的解碼器實現方式。在第2a圖中的位元流對應於編碼音源訊號，且輸入至解多工器/解碼器，其係連接第1b圖之方塊112與114。位元流解多工器係將輸入音源訊號分離成第1b圖之第一編碼表現107以及第1b圖之第二編碼表現109。具有第一組第一頻譜部分的第一編碼表現係輸入至對應於第1b圖之頻譜域解碼器112的聯合聲道解碼方塊204。第二編碼表現係輸入至參數化解碼器114(第2a圖未繪示)，然後輸入至對應於第1b圖之頻率再生器116的IGF方塊202。頻率再生所需的第一組第一頻譜部分係經由線203輸入至IGF方塊202。此外，在聯合聲道解碼204之後，在音調遮罩方塊206使用特定的核心解碼，使得音調遮罩206之輸出能對應頻譜域解碼器112之輸出。然後，組合器208執行結合，即組合器208輸出之訊框架購現在具有全部範圍的頻譜，但是仍然在TNS/TTS濾波領域中。然後，在方塊210，使用線109提供之TNS/TTS濾波器資訊執行逆TNS/TTS操作，即TTS輔助資訊較佳地包含在頻譜域編碼器106(例如直接AAC或是USAC核心編碼器)所產生的第一編碼表現內；或是亦可包含在第二編碼表現內。在方塊210之輸出中，提供完整的到最高頻率的頻譜，其全部範圍頻率係由原始輸入訊號之取樣率所定義。然後，在合成濾波器組212中執行頻譜/時間轉換，以最後取得音源輸出訊號。

第3a圖繪示此頻譜之示意表現。此頻譜係在倍率因數頻帶SCB細分，在第3a圖之繪示範例中倍率因數頻帶SCB有七個倍率因數頻帶SCB1至SCB7。倍率因數頻帶可為AAC標準所定義的AAC倍率因數頻帶，以及有增加頻寬至上頻率，如第3a圖所大略地繪示。較佳地，不從頻譜此開始處(即低頻處)執行智慧型填隙，但是在309所繪示的IGF開始頻率上開始IGF操作。因此，核心頻帶從最低頻率核心頻帶延伸至IGF開始頻率。高於IGF開始頻率，頻譜分析係用以區分高解析度頻譜成分304、305、306與307，以以及第二組第二頻譜部分所表現的低解析度成分。第3a圖係繪示例示性地輸入至頻譜域編碼器106或聯合聲道編碼器228的頻譜，即核心編碼器運作在全部範圍，但是編碼大量的零頻譜值，即這些零頻譜值量化成零，或是在量化之前或之後設定為零。不管怎樣，核心編碼器運作在全部範圍，彷彿是所繪示的頻譜一樣，即此核心解碼器不知道具有低頻譜解析度之第二組第二頻譜部分之任何智慧型填隙或是編碼。

較佳地，當僅計算每一個比例因數帶的單一頻譜值而定義第二解析度或是低解析度，此高解析度係由頻譜線(例如MDCT線)之線狀編碼來定義。其中一個比例因數帶係覆蓋幾個頻率線。如此，相對於頻譜解析度，第二低解析度係低於線狀編碼所定義的第一解析度或是高解析度許多。核心編碼器(例如AAC核心編碼器或是USAC核心編碼器)係通常使用線狀編碼。

第3b圖係繪示關於倍率因數或是能量計算之狀況。由於編碼器為核心編碼器，但本發明不受限於此，以及由於每一個頻帶中的第一組頻譜部分之成分，此核心編碼器係為每一個頻帶計算倍率因數，不僅在低於IGF開始頻率309的核心範圍，也在高於IGF開始頻率直到最高頻率f _IGFstop。最高頻率f _IGFstop係小於或等於取樣頻率之一半，即fs/2。如此，第3a圖之編碼音調部分302、304、305、306與307，以及此實施例中的倍率因數SCB1至SCB7係對應於高解析度頻譜數據。低解析度頻譜數據係從 IGF開始頻率開始計算，且對應於能量資訊值E1、E2、E3與E4，其與倍率因數SF4至SF7一起傳送。

特別地，當核心編碼器係在低位元率之情況時，可額外使用核心頻帶中的額外雜音填充操作，即比IGF開始頻率更低的頻率，即在倍率因數頻帶SCB1至SCB3。在雜音填充，其存在幾個已經量化成零的相鄰近頻譜線。在解碼器側上，這些量化成零的頻譜值係再合成，且使用雜音填充能量(例如第3b圖之308所繪示的NF2)調整再合成頻譜值之振幅。雜音填充能量，其可相對於USAC中的倍率因數而用絕對用語或是相對用語特別地給定，係對應於該組量化成零的頻譜值之能量。這些雜音填充頻譜線亦可被認為是第三組第三頻譜部分，其係使用來自來源範圍以及能量資訊E1、E2、E3與E4的頻譜值，使用來自用於再建頻率平鋪的其他頻率的頻率平鋪而直接雜音填充合成，沒有使用任何依賴頻率再生的IGF操作。

較佳地，用於能量資訊的此頻帶係與倍率因數頻帶相一致地計算在其他實施例中，使用能量資訊數值分群，例如倍率因數頻帶4以及5，使得僅傳送單一能量資訊數值，但是在此實施例中，分群再建頻帶之邊界係與倍率因數頻帶之邊界相一致。如果使用不同頻帶分隔，然後使用特定的再計算或是計算，此可依據特定的實現方式而能被理解。

較佳地，第1a圖之頻譜域編碼器106係為心理聽覺驅動編碼器，如第4a圖所繪示。通常，如MPEG2/4 AAC標準或是MPEG1/2所繪示，第3層標準，被轉換成頻譜範圍(第4a圖中的401)之後，待編碼的音源訊號係轉發至倍率因子計算器400。倍率因子計算器係由心理聽覺模型所控制，其另外接收此待量化的音源訊號或是接收(在MPEG 1/2第3層或是MPEG AAC標準)音源訊號之複值頻譜表現。心理聽覺模型係針對每一個比例因子帶計算代表心理聽覺門檻值的倍率因子。然後，由內部迭代以及外部迭代或是任何其他合適的編碼程序來調整倍率因子，以執行特定的位元率情況。然後，一方面待量化的頻譜值，以及另一方面所計算的倍率因子係輸入至量化處理器404。在直接音源編碼器操作中，待量化的頻譜值係由倍率因子加權，然後加權頻譜值係輸入至固定量化器(其通常具有壓縮功能)到上振幅範圍。然後，在量化處理器之輸出存在量化參數，其係轉發到熵編碼器，其通常對鄰近頻率值的一組零量化參數有特定且非常高效率的編碼，或是此技術領域中亦被稱為零數值之“執行(run)”。

然而，在第1a圖之音源編碼器中，量化處理器通常從頻譜分析器接收第二頻譜部分上的資訊。如此，量化處理器404係確保，在量化處理器404之輸出，由頻譜分析器102識別出的第二頻譜部分係為零或是有由編碼器或是解碼器確認為零表示，其可為非常有效率的編碼，特別是當頻譜中存在零值的“執行”。

第4b圖繪示此量化處理器之一實現方式。MDCT頻譜值可輸入至一設零方塊410。然後，在方塊412執行倍率因子加權之前第二頻譜部分已經設定為零。在額外的實現方式，不提供方塊410，但是在加權方塊412之後在方塊418執行設零運作。在另一實現方式，設零操作亦可在量化器方塊420地量化之後，於設零方塊422執行。在此實現方式，將不出現方塊410以及418。通常，依據特定的實現方式來提供方塊410、418與422中的至少一個。

然後，在方塊422之輸出，對應於第3a圖中所繪示的取得量化頻譜。然後，量化頻譜係輸入至熵編碼器，例如第2b圖中的232，其可為一Huffman編碼器或是一演算編碼器，如USAC標準中所定義的。

設零方塊410、418與422係彼此可選擇地提供，或由頻譜分析器424平行控制。較佳地，頻譜分析器包含熟知的音調偵測器之任何實現方式，或包含任何不同種類的偵測器，其操作用於將頻譜分隔成高解析度之待編碼的成分以及低解析度之待編碼成分。在頻譜分析器中實現的其他演算法，可為聲音活動偵測器、雜音偵測器、語音偵測器或是任何其他依據不同頻譜部分之解析度需求上頻譜資訊或是相關聯的元數據而決定的偵測器。

第5a圖係繪示第1a圖之時間頻譜轉換器100較佳實現方式，例如以AAC或是USAC實現。時間頻譜轉換器100包含由瞬變偵測器504控制的設窗器(windower)502。當瞬變偵測器504偵測到一瞬變，然後從長視窗到短視窗的切換係訊號化到設窗器502。然後，設窗器502針對重疊區塊計算設窗的訊框，其中每一個設窗的訊框通常具有兩個N數值，例如2048數值。然後，執行在區塊轉換器506之內的轉換，而區塊轉換器通常另外提供一抽取(decimation)，以執行結合的抽取/轉換以取得具有N個數值的頻譜訊框，例如MDCT頻譜值。如此，為了長窗操作，在區塊506之輸入的訊框包含兩倍N個數值，例如2048個數值，而一頻譜訊框具有1024個數值。然而，當執行八個短區塊且相比於長窗每一個短區塊具有1/8設窗時間域數值，且相比於長區塊每一個頻譜區塊具有1/8頻譜值時，對短區塊執行切換。如此，當抽取與設窗器之50%重疊操作相結合時，此頻譜為時間域音源訊號99之嚴格取樣版本。

後續，參考第5b圖，其繪示第1b圖之頻率再生器116以及頻譜時間轉換器118，或是第2a圖之區塊208與212之結合操作之特定實現方式。在第5b圖，考量特定的再建頻帶，例如第3a圖之比例因子帶6。在再建頻帶中的第一頻譜部分，即第3a圖之第一頻譜部分306係輸入至訊框建立器/調整器區塊510。此外，為了比例因子帶6而再建的第二頻譜部分係一起輸入至訊框建立器/調整器510。此外，用於比例因子帶6的能量資訊，例如第3b圖之E3，亦輸入至區塊510。在再建頻帶中再建的第二頻譜部分已經由使用來源範圍的頻率平鋪填充產生，然後再建頻帶係對應目標範圍。現在，執行此訊框之能量調整，然後最終取得完整的具有N個數值的再建訊框，例如在第2a圖之組合器208之輸出取得。然後，在區塊512，執行逆區塊轉換/內插以取得248時間域數值，例如在區塊512之輸入上的124個頻譜值。然後，在區塊514執行一合成設窗操作，其由在編碼音源訊號中傳送作為輔助資訊之長窗/短窗指示再次控制。然後，在區塊516，對先前時間訊框執行重疊/相加操作。較佳地，MDCT係使用50%重疊，而為了每一個新的2N個數值的時間訊框，最後輸出N個時間域數值。由於在區塊516中重疊/相加操作，從一訊框到下一個訊框提供臨界取樣以及連續交越點，較佳的是50%重疊。

如第3a圖中的301所繪示，不僅在低於IGF開始頻率下另外使用雜音填充操作，但亦可高於IGF開始頻率，例如為考量再建頻帶與第3a圖之比例因子帶6相一致。然後，雜音填充頻譜值亦可輸入至訊框建立器/調整器510，而雜音填充頻譜值之調整亦可在區塊內應用或是在輸入至訊框建立器/調整器510之前可使用雜音填充能量調整雜音填充頻譜值。

較佳地，可在此完整的頻譜中使用IGF操作，即使用來自其他部分的頻譜值的頻率平鋪填充操作。如此，頻譜平鋪填充操作不僅可應用在高於IGF開始頻率的高頻帶，但亦可應用在低頻帶。此外，没有頻率平鋪填充的雜音填充亦可應用在低於IGF開始頻率，亦可高於IGF開始頻率。然而，其發現當雜音填充操作受限於低於IGF開始頻率的頻率範圍，以及當此頻率平鋪填充操作係受限於高於IGF開始頻率的頻率範圍，可如第3a圖所繪示，獲得高品質以及高效率音源編碼。

較佳地，目標平鋪(TT)(具有大於IGF開始頻率的頻率)係受制於全部比率編碼器之比例因子帶邊界。來源平鋪(ST)，其從資訊取得，即低於IGF開始頻率的頻率不受限於比例因子帶邊界。ST的尺寸應對應於相關聯的TT的尺寸。使用後續的範例作為繪示。TT[0]具有10個MDCT段。此係精確地對應兩個後續的SCBs(例如4+6)的長度。然後，所有可能待與TT[0]進行相關的ST也有10段之長度。鄰近TT[0]的第二目標平鋪TT[1]具有15段l(具有長度7+8的SCB)的長度。然後，相比於TT[0]的10段，此ST有15段長度。

此情形出現時，不能發現用於ST的TT具有此目標平鋪之長度(例如當TT之長度大於可取得的來源範圍)，然後不計算相關性且來源範圍係將一數量的時間複製進TT(此複製係逐一完成，使得用於第二複製之最低頻率的頻率線跟隨在第一複製之最高頻率之頻率線)，直到目標平鋪TT完全地填滿。

後續，參考第5c圖其繪示第1b圖實施例之頻率再生器116或是第2a圖之IGF區塊202之較佳實施例。區塊522係為頻率平鋪產生器，其不僅接收目標頻帶ID，也另外接收來源頻帶ID。例示性地，其已經決定在編碼器側上第3a圖之比例因子帶3係非常良好的適合再建比例因子帶7。如此，來源頻帶ID將是2，而目標頻帶ID將是7。基於此資訊，頻率平鋪產生器522係使用複製或是諧波平鋪填充操作或是任何其他平鋪填充操作，以產生頻譜成分之原始第二部分523。頻譜成分之原始第二部分具有頻率解析度，其與第一組第一頻譜部分中的頻率解析度相同。

然後，再建頻帶之第一頻譜部分，例如第3a圖之307，係輸入至訊框建立器524，而原始第二部分523亦輸入至訊框建立器524。然後，再建訊框係由調整器526使用再建頻帶之增益參數調整，此增益參數係由增益參數計算器528所計算。然而，重要地，訊框中的第一頻譜部分並不受調整器526影響，但是僅再建訊框之原始第二部分受調整器526影響。在此，增益參數計算器528係分析來源頻帶或是原始第二部分523，並另外分析在再建頻帶中的第一頻譜部分，以最終發現正確的增益參數527，使得當考量比例因子帶7時，調整器526所輸出的調整訊框之能量具有能量E4。

在此上下文中，非常重要的是相比於HE-AAC，評估本發明的高頻率再建準確性。第3a圖說明關於比例因子帶7。其假設習知編碼器，如第13a圖所繪示，係偵測具有高解析度之待編碼的頻譜部分307，作為一“消失的諧波”。然後，頻譜成分之能量將與再建頻帶之頻譜包絡線資訊(例如比例因子帶7)一起傳送給解碼器。然後，解碼器將再創建此消失的諧波。然而，在此頻譜數值上的消失的諧波307將由第13b圖之先前技術解碼器再建，而頻譜數值將在由再建頻率390標示的頻率的頻帶7中間。如此，本發明可避免第13d圖之先前解碼器引進的頻率錯誤391。

實施上，頻譜分析器亦實現計算第一頻譜部分以及第二頻譜部分之間的相似度，並基於此計算的相似度來判斷重建範圍內的第二頻譜部分，第一頻譜部分係盡可能地匹配第二頻譜部分。然後，在可改變來源範圍/目的範圍的實現方式，參數化編碼器將另外引進一匹配資訊到第二編碼表現，此匹配資訊係對每一個目的範圍指示一匹配來源範圍。然後，在解碼器側上，此資訊由第5c圖之頻率平鋪產生器522使用，第5c圖係繪示基於來源頻帶ID以及目標頻帶ID產生原始第二部分523。

此外，如第3a圖所繪示，頻譜分析器係用以分析頻譜表現，直到最高分析頻率，其僅是低於取樣頻率之一半的小數量，而較佳的是取樣頻率的至少一四分之一或是通常更高。

如圖所繪示，編碼器之運作不須降取樣，而解碼器之運作不須升取樣。換句話說，頻譜域音源編碼器係用以產生具有Nyquist頻率的頻譜表現，此Nyquist頻率係由最初輸入音源訊號之取樣率所定義。

此外，如第3a圖所繪示，頻譜分析器係用以分析從填隙開始頻率開始且結束於由最高頻率表現之最高頻率的頻譜表現。從最低頻率向上延伸到填隙開始頻率的頻譜部分係屬於第一組頻譜部分以及另一頻譜部分例如304、305、306與307，其具有高於填隙頻率的頻率值，另外係包含在第一組第一頻譜部分內。

如概述，頻譜域音源解碼器112係使得第一解碼表現中的頻譜數值的最高頻率表現等於包含在具有此取樣率的時域表示內的最高頻率，其中在第一組第一頻譜部分中的最高頻率的頻譜數值係為零或是不同於零。不管怎樣，對於第一組頻譜成分的最高頻率，存在比例因子帶之倍率因子，其不考慮是否此比例因子帶中的所有頻譜值係設為零而產生且傳送，如第3a圖以及第3b圖所討論的鄰近關係。

因此，相對於其他參數化技術係增加壓縮效率，例如雜音替換以及雜音填充(這些技術係專為像局部訊號內容的雜音之高效率表現)，本發明之優點在於讓音調成分之精確頻率再現。目前，沒有技術可以在低頻帶(LF)以及高頻帶(HF)中不須固定a-優先區段(a-priory division)的限制而解決任意的訊號內容之高效率參數表現。

本發明系統之實施例係改進目前技術之方法，從而提供高壓縮效率，甚至在低位元率的全部音源頻寬下沒有或是僅有小量的感知厭煩。

此一般系統包含：●全部頻帶核心編碼；●智慧型填隙(平鋪填充或是雜音填充)；●由音調遮罩選擇核心中的稀疏音調部分；●對含有平鋪填充的全部頻帶聯合立體聲對編碼；●平鋪上TNS；以及●在IGF範圍內的頻譜白化。

在更高效率系統的第一步驟係除去將頻譜數據轉換成不同於核心編碼器的第二轉換領域的需要。當多數音源轉碼器，例如AAC，使用MDCT作為基本轉換，在MDCT領域執行BWE亦是有用的。BWE系統之第二要求係需要保持音調網格，藉此甚至HF音調成分亦可保存而編碼音源之品質係優於現存的系統。為了小心處理BWE機制之上述兩者需求，所建議的新系統被稱為智慧型填隙(IGF)。第2b圖係顯示編碼器側上所建議的系統之方塊圖，以及第2a圖顯示解碼器側上的系統。

第9a圖繪示一編碼音源訊號解碼裝置，其包含第一組第一頻譜部分之編碼表現以及代表第二組第二頻譜部分之頻譜能量之參數數據的編碼表現。第9a圖中，第一組第一頻譜部分係標示為901a，而第9a圖中參數數據之編碼表現係標示為901b。音源解碼器900係用以解碼第一組第一頻譜部分之編碼表現901a，以取得一解碼第一組第一頻譜部分904，以及用以解碼參數數據之編碼表現以取得第二組第二頻譜部分之解碼參數數據902，其代表個別再建頻帶之個別能量。第二頻譜部分係位於再建頻帶中。此外，頻率再生器906係用以再建再建頻帶之頻譜值，其包含第二頻譜部分。頻率再生器906係使用第一組第一頻譜部分之第一頻譜部分以及用於再建頻帶的個別能量資訊。其中再建頻帶包含第一頻譜部分以及第二頻譜部分。頻率再生器906係包含計算器912用以判斷一包含有第一頻譜部分之累積能量的殘留能量資訊，其具有再建頻帶內的頻率。此外，頻率再生器906包含計算器918用以判斷此再建頻帶之另一頻譜部分之一平鋪能量資訊，而頻率值係不同於第一頻譜部分。這些頻率值有在再建頻帶內的頻率。另一頻譜部分係使用不同於再建頻帶內之第一頻譜部分的第一頻譜部分進行頻率再生而產生。

頻率再生器906更包含一計算器914用以計算再建頻帶內的消失能量，而計算器914係使用再建頻帶之個別能量以及由區塊912產生的殘留能量進行運作。此外，頻率再生器906包含一頻譜包絡線調整器916用以根據消失的能量資訊以及由區塊918產生的平鋪能量資訊，來調整再建頻帶中的另一頻譜部分。

參考第9c圖，其繪示特定的再建頻帶920。再建頻帶包含再建頻帶內的第一頻譜部分，例如第3a圖中大略地繪示成921的第一頻譜部分306。此外，使用一來源區域(例如從低於第3a圖之智慧型填隙開始頻率309的比例因子帶1、2與3)來產生再建頻帶920內的頻譜值之剩餘。頻率再生器906係用於產生第二頻譜部分922與923之原始頻譜值。然後，為了最後調整頻率頻帶922與923的原始頻譜值，如第9c圖所繪示計算增益參數g，以取得在再建頻帶920(其現在有相同頻譜解析度)中的再建以及調整第二頻譜部分，即與第一頻譜部分921相同的線距離。重要的是了解在第9c圖中的921繪示的再建頻帶中的第一頻譜部分，其係由音源解碼器900解碼且不受第9b圖之區塊916執行的包絡線調整影響。取而代之地，因為第一頻譜部分由全部頻寬或是經由線904的全率音源解碼器900輸出，所以標示為921的再建頻帶中的第一頻譜部分保留原貌。

後續，討論具有實數的特定範例。區塊912所計算的剩餘殘留能量係為五個能量單元，而此能量係為第一頻譜部分921中四條頻譜線例示性標示的能量。

此外，再建頻帶之能量數值E3，其對應於第3b圖或是第3a圖之比例因子帶6，係等於10個單元。重要地，能量數值不僅包含頻譜部分922與923之能量，也包含再建頻帶920之全部能量，如編碼器側上所計算的，即使用音調遮罩執行頻譜分析之前。因此，十個能量單元係覆蓋再建頻帶中的第一頻譜部分以及第二頻譜部分。然後，係假設用於區塊922與923、或是用於區塊922與923的原始目標範圍數據之來源範圍數據之能量係等於八個能量單元。如此，係計算五個單元之消失能量。

根據由平鋪能量tEk所劃分的消失能量，可計算出一增益參數0.79。然後，用於第二頻譜部分922與923的原始頻譜線係與所計算的增益參數相乘。如此，僅用於第二頻譜部分922與923的頻譜值被調整，而用於第一頻譜部分921的頻譜線不受包絡線調整影響。之後相乘第二頻譜部分922與923之原始頻譜值，則可計算出完整的再建頻帶，其由再建頻帶之第一頻譜部分組成，以及由再建頻帶920內第二頻譜部分922與923之頻譜線所組成。

較佳地，用於產生頻帶922與923之原始頻譜數據的來源範圍係在頻率上低於此IGF開始頻率309，而再建頻帶920係高於此IGF開始頻率309。

此外，較佳的是再建頻帶邊界與比例因子帶邊界相一致。如此，在一實施例中，一再建頻帶具有對應核心音源解碼器之倍率因子頻帶的尺寸，致使當使用能量配對時，再建頻帶之能量數值係提供兩個或更多數量的倍率因子頻帶之能量。如此，當假設為了比例因子帶4、比例因子帶5以及比例因子帶6執行能量累積，然後再建頻帶920之低頻率邊界係等於比例因子帶4之下邊界，而再建頻帶920之高頻邊界係與比例因子帶6之較高邊界相一致。

後續，討論第9d圖以顯示第9a圖之解碼器之另一功能。音源解碼器900係接收反量化頻譜值，其對應於第一組頻譜部分之第一頻譜部分。另外，如第3b圖所繪示的倍率因子頻帶之倍率因子係提供至一逆縮放方塊940。逆縮放方塊940係提供低於第3a圖之此IGF開始頻率309的所有第一組第一頻譜部分，另外，第一頻譜部分係高於此IGF開始頻率，即第3a圖之第一頻譜部分304、305、306與307，其係全部位於第9d圖之941所繪示的再建頻帶中。此外，在再建頻帶中用於頻率平鋪填充的來源頻帶之第一頻譜部分係提供至包絡線調整器/計算器942，而此方塊另外接收用於再建頻帶的能量資訊，其係提供作為第9d圖中的943所繪示之編碼音源訊號的參數化輔助資訊。然後，包絡線調整器/計算器942係提供第9b圖以及第9c圖之功能，最後輸出再建頻帶中用於第二頻譜部分之調整頻譜值。在再建頻帶中用於第二頻譜部分的這些調整頻譜值922與923以及再建頻帶中的第一頻譜部分921，其以第9d圖之線941標示，係共同代表再建頻帶之完整的頻譜表現。

後續，參考第10a圖至第10b圖，以說明音源編碼器之較佳實施例，其用於編碼一音源訊號以提供或是產生一編碼音源訊號。編碼器包含一時間/頻譜轉換器1002，其係輸入一頻譜分析器1004，而頻譜分析器1004係一方面連接至一參數計算器1006，而另一方面連接至一音源編碼器1008。音源編碼器1008係提供第一組第一頻譜部分之編碼表現，且不覆蓋第二組第二頻譜部分。在另一方面，參數計算器1006係提供用於再建頻帶的能量資訊，用以覆蓋第一頻譜部分以及第二頻譜部分。此外，音源編碼器1008係用於產生第一組第一頻譜部分之第一編碼表現，其具有第一頻譜解析度。其中音源編碼器1008係提供用於由方塊1002產生之頻譜表現之所有頻帶的倍率因子。另外，如第3b圖所繪示，編碼器係提供能量資訊，其係至少用於再建頻帶，其在頻率上高於第3a圖所繪示之此IGF開始頻率309。如此，再建頻帶較佳地與倍率因子頻帶相一致或是與多組倍率因子頻帶相一致，係給定兩個數值，即來自音源編碼器1008的對應的倍率因子以及參數計算器1006所輸出的能量資訊。

較佳地，音源編碼器具有不同頻寬的倍率因子頻帶，即不同數量之頻譜值。因此，參數化計算器包含一正規化器1012用以正規化用於不同頻寬的能量，其係相對於特定再建頻帶之頻寬。在此，正規化器1012係接收(作為輸入)在頻帶中的能量以及在頻帶中的頻譜值，然後對每個再建/比例因子帶輸出正規化能量。

此外，第10a圖之參數化計算器1006a係包含能量數值計算器，其接收來自如第10a圖之線1007所繪示的核心或音源編碼器1008的控制資訊。控制資訊可包含長/短區塊上的資訊，其由音源編碼器及/或分群資訊所使用。因此，當長/短區塊上的資訊以及短視窗上的分群資訊係有關於“時間”分群，此分群資訊可另外參考一頻譜分群，即兩個倍率因子頻帶分群成單一再建頻帶。因此，當僅頻譜部分分群，能量數值計算器1014係針對每一分群頻帶輸出單一能量數值，以覆蓋第一頻譜部分以及第二頻譜部分。

第10d圖係繪示實現頻譜分群的另一實施例。在此，方塊1016係用於計算兩個鄰近頻帶的能量數值。然後，方塊1018對鄰近頻帶的能量數值係相比較，當能量數值沒有非常不同或是差異小於一門檻值，方塊1020係產生用於兩個頻帶的單一(正規化)數值。如線1019所繪示，可忽略方塊1018此外，方塊1020可執行用於二個或更多頻帶的單一數值之產生，其可由編碼器位元率控制1024所控制。如此，當位元率降低，編碼器位元率控制1024係控制方塊1020以產生用於二個或更多頻帶的單一正規化數值，即使方塊1018內的比較將不讓能量資訊數值進行分群。

在音源編碼器執行二個或更多短視窗的分群之情形中，分群係應用於能量資訊。當核心編碼器執行二個或更多短區塊之分群，然後，為這些二個或更多區塊，僅計算且傳送單一組倍率因子。在解碼器側上，然後音源解碼器為兩個分群視窗使用相同組的倍率因子。

關於能量資訊計算，在再建頻帶內的頻譜值係累積於二個或更多短視窗。換句話說，其代表用於短區塊以及後續的短區塊之特定再建頻帶內的頻譜值累積一起，而為了覆蓋兩個短區塊的再建頻帶僅傳送單一能量資訊數值。然後，在解碼器側上，對於每一個短區塊，第9a圖至第9d圖所討論的包絡線調整並非個別地執行，而是對於該組分群的短視窗一起執行。

然後，再次使用相對應的正常化，使得即使已經執行任何頻率分群或是時間分群，對於解碼器側上的能量數值資訊計算，正常化容易地讓僅必須已知一方面的能量資訊數值、以及再建頻帶中的頻譜線之數量或是該組分群再建頻帶。

此外，其強調頻譜能量上的資訊、個別能量上的資訊或是個別能量資訊、殘留能量上的資訊或是殘留能量資訊、平鋪能量上的資訊或是平鋪能量資訊、消失能量上的資訊或是消失能量資訊可不僅包含能量數值，亦包含振幅數值(例如絕對)、等級數值或是任何其他數值，從其中可衍生最後的能量數值。因此，能量上的資訊可包含，例如能量數值本身、及/或位準之數值、及/或振幅、及/或絕對振幅。

第12a圖係繪示用於解碼之裝置的另一實現方式。位元流係由核心解碼器1200(例如AAC解碼器)所接收。此結果係用於執行頻寬延伸修補或是平鋪1202的級，其係對應於頻率再生器604。然後，執行修補/平鋪適應之程序以及後處理，當已經執行修補適應，則控制頻率再生器1202以執行另一頻率再生，例如調整該頻率邊界。此外，當執行修補處理，例如音調線之消除或是衰減，然後此結果係轉發至執行參數驅動頻寬包絡線塑形的方塊1206，例如在方塊712或是826之鄰近關係所討論的。然後，此結果係轉發至一合成轉換方塊1208，以執行轉換成最後輸出領域，例如如第12a圖所繪示的PCM輸出領域。

本發明的實施例之主要特徵係如下所示：較佳實施例係根據MDCT，如果音調頻譜區域係由不佳選擇的交越頻率及/或修補邊緣所修剪，或是音調成分被放置在太靠近修補邊界，則此實施例存在有高於參考顫音假造物。

第12b圖係顯示新建議的技術如何降低在目前技術之BWE方法中的假造物。在第12圖之面板(2)，係顯示同時BWE方法的輸出之格式化振幅頻譜。在此範例中，訊號被兩個附近音調造成的差拍在感知上影響，而且亦被一音調分離所影響。每一有疑問的頻譜區域係以一個圓圈標示。

為了克服這些問題，新的技術首先偵測包含在訊號中的音調成分之頻譜位置。然後，根據本發明的一態樣，其係嘗試以個別偏移(在給定的限制之內)來調整轉換頻率之間的LF以及所有的修補，使得音調成分之分離或是差拍最小化。為此目的，轉換頻率較佳地必須最低限度地匹配局部頻譜。第12b圖之面板(2)以及面板(3)顯示的步驟中，其導致轉換頻率f _x2係移向更高的頻率，成為f’ _x2。

根據本發明的另一態樣，如果有疑問的頻譜內容維持在轉換區域，則移除錯位的音調成分中的至少一個以減少轉換頻率上的差拍假造訊號或是顫音。如第12圖之面板(3)所示，經由頻譜插補法或是內插/濾波來完成。從而將音調成分從底點到底點的移除，即從其左邊局部最低值到右邊局部的最低值。第12b圖之面板(4)上係顯示本發明的技術應用之後的結果頻譜。

換句話說，第12b圖在左上角即面板(1)繪示原始訊號。在右上角，即面板(2)，顯示橢圓1220與1221所標示具有疑問的區域的比較頻寬延伸訊號。在左下角，即面板(3)繪示兩個較佳修補或是頻率平鋪處理特徵。已經由增加頻率邊界f’ _x2來解決音調部分之分離，使得不再有對應的音調部分之削頻。此外，使用用於消除音調部分1031與1032的增益功能1030，或是，另一選擇，由1033標示的內插。最後，第12b圖之右下角，即面板(4)繪示由平鋪/修補頻率之結合，以及有疑問的音調部分之消除或是至少衰減，所導致的改良訊號。

如之前所討論，第12b圖之面板(1)係繪示原始頻譜，而原始頻譜具有核心頻率範圍，其係到交越點或是間隙填充開始頻率f_x1。

如此，頻率f_x1係繪示來源範圍1252以及重建範圍1254之間的邊界頻率1250，該重建範圍1254係在邊界頻率1250以及最高頻率之間延伸，最高頻率係小於或是等於Nyquist頻率fNyquist。在編碼器側上，係假設訊號係頻寬受限在f_x1，或是當使用關於智慧型填隙的技術，其假設f_x1係對應第3a圖之填隙開始頻率309。依據此技術，高於f_x1的重建範圍將是空的(在第13a圖與第13b圖之實現方式中)或是將包含特定待編碼的第一頻譜部分，其具有高解析度，如第3a圖之鄰近關係所討論。

在第12b圖，面板(2)繪示一初步再生訊號，例如第7a圖之方塊702所產生，其具有兩個有疑問的部分。1220繪示一個有疑問的部分。在1220a所繪示的在核心區域內的音調部分以及在1220b繪示之頻率平鋪之開始處的音調部分之間的頻率距離係太小導致差拍假造訊號產生。另一問題係在第一修補操作或是1225繪示的頻率平鋪操作所產生的第一頻率平鋪之上邊界係為中間削頻或是分離音調部分1226。當音調部分1226與第12b圖中的其他音調部分相比，其係清楚，寬度係小於典型音調部分的寬度，而其代表音調部分已經由設定來源範圍1252中錯誤地方的第一頻率平鋪1225以及第二頻率平鋪1227之間的頻率邊界所分離。為了解決此爭議，邊界頻率f_x2已經修改變成稍微變大，如第12b圖之面板(3)所繪示，使得音調部分之削頻不會發生。

在另一方面，f’ _x2已經改變的程序不會有效地解決差拍問題，而是由濾波或是內插或是任何其他流程來除去音調成分所解決，如第7a圖之方塊708之鄰近關係所討論。如此，第12b圖係繪示轉換頻率調整706以及708繪示之邊界上的音調成分除去的後續應用。

另一選擇係設定轉換邊界f_x1，使得稍微降低而使音調部分1220a不再在核心範圍內。然後，藉由設定轉換頻率f_x1在較低的數值，音調部分1220a亦被移除或是消除。

此程序亦解決有疑問的音調成分1032的爭議。藉由將設定f’ _x2成更高，音調部分1032所在的頻譜部分已經在第一修補操作1225內再生，因此將不發生兩個鄰近或是相鄰的音調部分。

基本上，差拍問題係依據鄰近音調部分之頻率中的振幅以及距離而決定。偵測器704與720或是一般所述，分析器602較佳地以這種方式配置，其為了找出任何音調成分而分析位於頻率轉換頻率(例如f_x1、f_x2、f’ _x2)下方的頻率中較低頻譜部分之分析。此外，為了偵測音調成分，亦分析高於此轉換頻率的頻譜範圍。當此偵測導致兩個音調成分，在頻率上一個向轉換頻率之左邊，而一個向右邊(相對於上升頻率)，然後啟動第7a圖中的708所繪示在邊界的音調成分之移除器。此音調成分之偵測係在特定偵測範圍下執行，此偵測範圍係從此轉換頻率向兩方向延伸對應的頻帶之頻寬的至少20%，且較佳地僅向上延伸10%，以及向下延伸至轉換頻率之左邊，以及向上延伸至對應的頻寬之轉換頻率之右邊，即一方面之來源範圍之頻寬以及另一方面之重建範圍，或是當轉換頻率細微兩個頻率平鋪1225與1227之間的轉換頻率，對應的頻率平鋪之對應的10%數量。在另一實施例，預設偵測頻寬係一巴克(Bark)。其應該可能除去在修補邊界附近的1巴克範圍內的音調部分，使得完整的偵測範圍為2巴克，即在較低頻帶的1巴克以及在較高頻帶的1巴克。在此，較低頻帶的1巴克係立即鄰近較高頻帶的1巴克。

根據本發明的另一態樣，為了減少此濾波響聲假造訊號，頻率域中的交越濾波器係應用於兩個連續的頻譜區域，即核心頻帶以及第一修補之間或是兩個修補之間。較佳地，交越濾波器係訊號自適應性。

交越濾波器係由兩個濾波器所組成，一個漸出濾波器 h _out，其應用於較低頻譜區域；以及一個漸入濾波器 h _in，其應用於較高頻譜區域。

每一濾波器具有一長度N。

此外，兩個濾波器之斜率的特徵在於訊號自適應數值，其被稱為Xbias，判斷交越濾波器之凹槽特性，而0 Xbias N：如果Xbias=0，則兩個濾波器之總和等於1，即濾波結果中沒有陷頻濾波特性。

如果Xbias=N，則兩個濾波器完全地零。

交越濾波器之基本設計係受限於以下公式： h _out(k)= h _in(N-1-k), Xbias

h _out(k)+ h _in(k)=1,Xbias=0 k=0,1,...,N-1係為頻率參數。第12c圖係顯示此種交越濾波器之範例。

在此範例中，以下公式係用於產生此濾波器h _out：

下列公式係描述如何應用濾波器h _in以及h _out， Y (k _t-(N-1)+k)= LF (k _t-(N-1)+k)． h _out(k)+ HF (k _t-(N-1)+k)． h _in(k),k=0,1,...,N-1

Y 標示此組合的頻譜，k _t係轉換頻率， LF 係低頻內容以及 HF 係高頻率內容。

接著，將呈現此技術之優點的證據。下列範例中，原始訊號係為瞬變相似訊號，特別的是，其低通濾波版本具有22kHz截止頻率。首先，此瞬變係在轉換領域中頻帶受限至6kHz。接著，低通濾波原始訊號之頻寬係延伸至24kHz。透過複製LF頻帶三次以完全地填充此頻率範圍(在轉換內其可高於6kHz)，來完成頻寬延伸。

第11a圖係顯示訊號之頻譜，其可被認為是濾波響聲假造訊號之典型的頻譜，由於轉換(語音峰值1100)之磚牆式特性，所以此頻譜係其環繞瞬變。透過使用本發明的方法，濾波響聲在每一個轉換頻率係降低大約20dB(降低語音峰值)。

第11b圖與第11c圖係顯示相同效果，但不同繪示。第11b圖顯示具有濾波響聲假造訊號之所述轉瞬相似訊號之頻譜圖，其在使用上述BWE技術且沒有減少任何濾波響聲之後時序上係領先且接續瞬變。每一水平線表示在連續修補之間的轉換頻率上的濾波響聲。第6圖係顯示在BWE之內使用本發明的方法後的相同訊號。相比於先前圖示所顯示的訊號，透過使用響聲減少可降低濾波響聲大約20dB。

後續，第14a圖與第14b圖係繪示已經在分析器特徵之上下文中討論的交越濾波器之發明態樣。然而，交越濾波器710亦可單獨實現，如本發明的第6a圖與第7b圖之內容所討論的。

第14a圖係繪示包含編碼核心訊號以及參數數據上資訊的編碼音源訊號解碼裝置。此裝置包含一核心解碼器1400用以解碼編碼核心訊號以取得解碼核心訊號。在第13a圖之內容中解碼核心訊號可為頻寬受限的，而在第1圖至第5c圖，或第9a圖至第10d圖的內容中，第13b圖之實現方式或是核心解碼器可為全部頻率範圍或是全率編碼器。

此外，用於再生且頻率不包含解碼核心訊號的至少一頻譜平鋪的平鋪產生器1404，可使用解碼核心訊號之頻譜部分來產生。此平鋪可在再建頻帶之內再建第二頻譜部分，如第3a圖之內容所繪示，或其可包含待再建且有高解析度的第一頻譜部分，但是另一選擇，當此編碼器執行嚴格的頻帶限制(如第13a圖所繪示)時，此頻譜平鋪亦可包含完全空的頻帶。

此外，交越濾波器1406係提供以對解碼核心訊號以及第一頻率平鋪作頻譜上交越濾波，該第一頻率平鋪具有從填隙頻率309延伸到第一平鋪停止頻率的頻率；或是對第一頻率平鋪1225以及第二頻率平鋪1221作頻譜上交越濾波，該第二頻率平鋪具有下邊界頻率，其為頻率上鄰近第一頻率平鋪1225之上邊界頻率。

在另一實現方式，交越濾波器1406之輸出訊號係送入包絡線調整器1408，其使用包含在編碼音源訊號內的參數化頻譜包絡線資訊作為參數化輔助資訊，以最終取得包絡線調整再生訊號。元件1404、1406與1408可實現作為一頻率再生器，例如第13b圖、第1b圖或是第6a圖所繪示。

第14b圖係繪示交越濾波器1406之另一實現方式。交越濾波器1406係包含一漸出子濾波器用以接收第一輸入訊號IN1，以及一第二漸入子濾波器1422用以接收一第二輸入IN2，而兩個濾波器1420與1422之結果或是輸出係提供至一組合器1424，例如一加法器。加法器或是組合器1424係針對頻率窗輸出頻譜值。第12c圖係繪示交叉淡化函式之範例，其包含漸出子濾波器之特性1420a以及漸入子濾波器之特性1422a。在第12c圖之範例中，兩個濾波器有特定頻率重疊等於21，即N=21。如此，來源區域1252之其他頻率值不受影響。僅來源範圍1252之最高的21個頻率窗受漸出功能1420a的影響。

在另一方面，僅第一頻率平鋪1225之最低的21個頻率線受漸入功能1422a的影響。

另外，從交叉淡化函式可清楚的看到9至13之間的頻率線受到影響，但是漸入函式實際上不影響1到9之間的頻率線，而漸出函式1420a不影響13到21之間的頻率線。其代表僅頻率線9以及13之間的重疊是必要的，而交越頻率例如f_x1將放置在頻率取樣值或是頻率段11。如此，為了實現交越點或是交叉淡化函式，僅兩個頻率窗或是來源範圍以及第一頻率平鋪之間的頻率值有重疊。

依據此特定的實現方式，可使用更多的或是更少的重疊，另外可使用其他來自餘弦函式的淡化函式。此外，如第12c圖所繪示，其較佳地係在交越範圍使用特定的凹槽。不同地描述，由於兩個濾波器函數在邊界範圍沒有一致向上增加，所以在邊界範圍的能量將降低，而為無凹槽，交叉淡化函式。頻率平鋪之邊界的能量損耗，即第一頻率平鋪將在下邊界以及上邊界衰減，而能量更集中於頻帶中間。然而，頻譜包絡線調整係在交越濾波器處理之後執行，整體頻率並非受影響，但是由頻譜包絡數據所定義，例如第3a圖之內容中所討論的相對應倍率因子。換句話說，第9b圖之計算器918將計算“已經產生的原始目標範圍”，其為交越濾波器之輸出。此外，由於內插而除去音調部分的能量損耗亦將補償，其係因為除去將導致更低的平鋪能量而完整再建頻帶的增益參數將變成更高。然而，在另一方面，交越頻率係導致能量更集中在頻率平鋪中間，其結果是，可有效地降低假造物，特別是第11a圖至第11c圖之內容中討論的瞬變訊號所造成的。

第14b圖係繪示不同輸入結合。為了對來源頻率範圍以及頻率平鋪之間的邊界作濾波，輸入1係核心範圍之上頻譜部分，而輸入2係第一頻率平鋪或是單一頻率平鋪(當僅單一頻率平鋪存在)之下頻譜部分。此外，此輸入可為第一頻率平鋪，而轉換頻率可為第一平鋪之高頻率邊界，而子濾波器1422之輸入係為第二頻率平鋪之下方部分。當額外的第三頻率平鋪存在，另一轉換頻率將是第二頻率平鋪以及第三頻率平鋪之間的頻率邊界，而漸出子濾波器1421之輸入將是由濾波器參數決定的第二頻率平鋪之上頻譜範圍。當使用第12c圖之特性，則漸入子濾波器1422之輸入將是第三頻率平鋪之下方部分，在第12c圖之範例中即為最低的21個頻譜線。

如第12c圖所繪示，其較佳的是漸出子濾波器以及漸入子濾波器有相等的參數N。然而，此並非必要。N的數值可變化，而此結果係為濾波器的"凹槽"在下範圍以及上範圍之間將不對稱。另外，漸入/漸出函式不一定像第12c圖所示有相同的特性。取而代之地，亦可使用不對稱特性。

此外，較佳的是使交越濾波器特性有訊號自適應性。因此，根據訊號分析來適用濾波器特性。由於交越濾波器係特別有用於瞬變訊號，所以偵測是否有瞬變訊號發生。當瞬變訊號發生，可使用如第12c圖所繪示的濾波器特性。然而，當偵測到非瞬變訊號時，其較佳的是改變濾波器特性以減少交越濾波器之影響。例如，設定N為零或是設定Xbias為零，以使得兩個濾波器之總和等於1，即結果濾波器中沒有陷頻濾波器特性。或者，在非瞬變訊號之情形中直接忽略交越濾波器1406。然而，較佳的是，藉由改變參數N與Xbias以相對地緩慢改變濾波器特性，以避免因為快速改變濾波器特性而造成的假造物。此外，即使特定的瞬變/音調偵測器偵測到訊號有更快速的改變，低通濾波器較佳的是僅能做相對小的濾波器特性改變。第14b圖之1405係繪示偵測器。其可接收輸入訊號至平鋪產生器或是平鋪產生器1404之輸出訊號，或是其甚至可連接至核心解碼器1400以取得瞬變/非瞬變資訊，例如來自AAC解碼的短區塊指示。自然地，亦可使用任何不同於第12c圖所顯示的交越濾波器。

然後，根據瞬變偵測，或是根據音調偵測或是根據任何其他訊號特性的偵測，來改變交越濾波器1406之特性，如上述討論。

雖然一些態樣已經在編碼或是解碼裝置之內容中描述，清楚的是這些態樣亦代表相對應的方法之描述，而方塊或是裝置係對應方法步驟或是方法步驟之特徵。同樣地，在方法步驟之內容中描述的態樣亦代表相對應的方塊或是項目或是相對應裝置之特徵的描述。一些或所有的本方法步驟可藉由(或是使用)硬體裝置執行，例如像是微處理器、可程式化電腦或是電子電路。在一些實施例中，一些最重要的方法步驟可藉由此種裝置執行。

取決於特定的執行需求，本發明的實施例可在硬體或是在軟體上實現。此實現方式可使用非暫時性儲存媒體，例如數位儲存媒體，例如儲存有電子可讀取控制訊號的軟碟、Hard Disk Drive(HDD),a DVD、藍光、CD、ROM、PROM以及EPROM、EEPROM或是FLASH記憶體，其能與一可程式化電腦系統合作(或是能夠配合)以執行上述方法。因此，此數位儲存媒體係電腦可讀取。

根據本發明之一些實施例包含具有電子可讀取控制訊號的數據載體，其能夠與可程式化電腦系統配合，以執行上述方法中的其中一個。

通常，本發明之實施例可實現為一具有程式碼的電腦程式產品，當此電腦程式產品在一電腦上執行時此程式碼係操作以執行上述方法中的其中一個。例如，此程式碼可儲存在機器可讀取載體上。

其他實施例包含用以執行上述方法中的其中一個的電腦程式，其儲存在機器可讀取載體上。

換句話說，因此發明的方法之實施例係為具有當此電腦程式在電腦上執行時，能執行上述方法中的其中一個的程式碼的電腦程式。

因此，本發明的方法之另一實施例數據載體(或是數位儲存媒體或是電腦可讀取媒體)包含紀錄用以執行上述方法中的其中一個的電腦程式。此數據載體，此數位儲存媒體或是紀錄媒體係有形實體及/或非暫時的。

因此，本發明的方法之另一實施例係為一數據流或是一串訊號，其代表用於執行上述方法中的其中一個的電腦程式。例如，數據流或是此串訊號可配置經由數據通訊連接傳輸，例如網際網路。

另一實施例包含一處理裝置，例如，電腦或是可程式化邏輯裝置，用以或是採用執行上述方法中的其中一個。

另一實施例包含一安裝有用於執行上述方法中的其中一個之電腦程式的電腦。

根據本發明之另一實施例包含用以傳輸(例如電性或光學) 用於執行上述方法中的其中一個的電腦程式到接收器的裝置或是系統。例如，此接收器可為一電腦、移動式裝置、記憶體裝置或其他相似裝置。例如，此裝置或是系統可包含用於傳輸電腦程式至接收器的檔案伺服器。

在一些實施例中，可程式化邏輯裝置(例如場效可程式化閘極陣列)可用以執行上述方法之一些或是全部功能。在一些實施例中，為了執行上述方法中的其中一個，場效可程式化閘極陣列可配合微處理器。通常，此方法可藉由任何硬體裝置較佳執行。

在較佳實施例之詳細說明中所提出之具體實施例僅用以方便說明本發明之技術內容，而非將本發明狹義地限制於上述實施例，在不超出本發明之精神及以下申請專利範圍之情況，所做之種種變化實施，皆屬於本發明之範圍。

參考文獻：

[1] Dietz, L. Liljeryd, K. Kjörling and O. Kunz, “Spectral Band Replication, a novel approach in audio coding,” in 112th AES Convention, Munich, May 2002.

[2] Ferreira, D. Sinha, “Accurate Spectral Replacement”, Audio Engineering Society Convention, Barcelona, Spain 2005.

[3] D. Sinha, A. Ferreiral and E. Harinarayanan, “A Novel Integrated Audio Bandwidth Extension Toolkit (ABET)”, Audio Engineering Society Convention, Paris, France 2006.

[4] R. Annadana, E. Harinarayanan, A. Ferreira and D. Sinha, “New Results in Low Bit Rate Speech Coding and Bandwidth Extension”, Audio Engineering Society Convention, San Francisco, USA 2006.

[5] T. ernicki, M. Bartkowiak, “Audio bandwidth extension by frequency scaling of sinusoidal partials”, Audio Engineering Society Convention, San Francisco, USA 2008.

[6] J. Herre, D. Schulz, Extending the MPEG-4 AAC Codec by Perceptual Noise Substitution, 104th AES Convention, Amsterdam, 1998, Preprint 4720.

[7] M. Neuendorf, M. Multrus, N. Rettelbach, et al., MPEG Unified Speech and Audio Coding-The ISO/MPEG Standard for High-Efficiency Audio Coding of all Content Types, 132nd AES Convention, Budapest, Hungary, April, 2012.

[8] McAulay, Robert J., Quatieri, Thomas F. “Speech Analysis/Synthesis Based on a Sinusoidal Representation”. IEEE Transactions on Acoustics, Speech, And Signal Processing, Vol 34(4), August 1986.

[9] Smith, J.O., Serra, X. “PARSHL: An analysis/synthesis program for non-harmonic sounds based on a sinusoidal representation”, Proceedings of the International Computer Music Conference, 1987.

[10] Purnhagen, H.; Meine, Nikolaus, "HILN-the MPEG-4 parametric audio coding tools," Circuits and Systems, 2000. Proceedings. ISCAS 2000 Geneva. The 2000 IEEE International Symposium on, vol.3, no., pp.201,204 vol.3, 2000

[11] International Standard ISO/IEC 13818-3, Generic Coding of Moving Pictures and Associated Audio: Audio”, Geneva, 1998.

[12] M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, Oikawa: "MPEG-2 Advanced Audio Coding", 101st AES Convention, Los Angeles 1996

[13] J. Herre, “Temporal Noise Shaping, Quantization and Coding methods in Perceptual Audio Coding: A Tutorial introduction”, 17th AES International Conference on High Quality Audio Coding, August 1999

[14] J. Herre, “Temporal Noise Shaping, Quantization and Coding methods in Perceptual Audio Coding: A Tutorial introduction”, 17th AES International Conference on High Quality Audio Coding, August 1999

[15] International Standard ISO/IEC 23001-3:2010, Unified speech and audio coding Audio, Geneva, 2010.

[16] International Standard ISO/IEC 14496-3:2005, Information technology-Coding of audio-visual objects-Part 3: Audio, Geneva, 2005.

[17] P. Ekstrand, “Bandwidth Extension of Audio Signals by Spectral Band Replication”, in Proceedings of 1st IEEE Benelux Workshop on MPCA, Leuven, November 2002

[18] F. Nagel, S. Disch, S. Wilde, A continuous modulated single sideband bandwidth extension, ICASSP International Conference on Acoustics, Speech and Signal Processing, Dallas, Texas (USA), April 2010

[19] Liljeryd, Lars; Ekstrand, Per; Henn, Fredrik; Kjorling, Kristofer: Spectral translation/folding in the subband domain, United States Patent 8,412,365, April 2, 2013.

[20] Daudet, L.; Sandler, M.; "MDCT analysis of sinusoids: exact results and applications to coding artifacts reduction," Speech and Audio Processing, IEEE Transactions on, vol.12, no.3, pp. 302- 12, May 2004.

600‧‧‧核心解碼器

602‧‧‧分析器

603‧‧‧分析結果

604‧‧‧頻率再生器

605‧‧‧參數數據、用於消失的頻譜部分的參數數據

Claims

一種編碼音源訊號解碼裝置，該編碼音源訊號包含一編碼核心訊號以及參數數據，該編碼音源訊號解碼裝置包含：一核心解碼器(600)，用以解碼該編碼核心訊號以取得一解碼核心訊號；一分析器(602,614)，在一頻率再生操作之前或之後分析該解碼核心訊號，以提供一分析結果(603)；以及一頻率再生器(604)，係使用該解碼核心訊號之頻譜部分、該參數數據(605)以及該分析結果(603)，以再生出不包含在該解碼核心訊號內的複數個頻譜部分，其中該分析器(602)係用以偵測該解碼核心訊號之該頻譜部分中、該解碼核心訊號之一頻率邊界上的一再生訊號、或是在使用該解碼核心訊號之相同或不同頻譜部分產生之二個再生頻譜部分之間的一頻率邊界、或是該再生訊號之一最高頻率邊界的一峰部之一分離，以及其中該頻率再生器係用以改變在該解碼核心訊號與該再生訊號之間的該頻率邊界、或是在使用該解碼訊號之相同或不同頻譜部分產生的兩個再生頻譜部分之間的頻率邊界、或是改變該最高頻率，以減少或消除該分離。
如申請專利範圍第1項所述之裝置，其中該分析器(614)係在頻率再生之前或者之後分析該解碼核心訊號，以在頻率再生之前或者之後確認該解碼核心訊號中的至少一局部頻譜最小值位置，其中該分析器(614)係提供識別該局部頻譜最小值的該分析結果(603)，其中該頻率再生器(604，616)係再生該頻譜部分，其中該解碼訊號之該頻譜部分或者該再生頻譜部分中的至少一頻率平鋪邊緣係設定在該至少一頻譜最小值。
如申請專利範圍第1項所述之裝置，其中該頻率再生器(604)係使用該解碼核心訊號之至少一頻譜部分以產生具有不包含在該解碼核心訊號中的頻譜部分的一初步再生訊號(703)，以取得複數個再生頻譜部分，其中該頻率再生器(604)係用於偵測(704)靠近該解碼核心訊號與一再生頻譜部分之間的一頻率邊界或者靠近使用該解碼核心訊號之相同或不同頻譜部分所產生之兩個再生頻譜部分之間的一頻率邊界的複數個假造訊號部分；以及其中該頻率再生器(604)更包含一操作器(722)以操作該初步再生訊號或是操作控制數據，以使用不同於產生該初步再生訊號之控制數據的該操作控制數據重新產生一再生訊號。
如申請專利範圍第3項所述之裝置，其中該頻率再生器(604)包含一平鋪產生器(820)，該平鋪產生器(820)係使用該解碼訊號之該至少一頻譜部分以衍生該頻譜部分，以取得複數個原始頻譜部分(raw spectral portions)，其中該操作器(824)係操作該原始頻譜部分或是該頻率平鋪產生器(820)以取得複數個操縱頻譜部分，以及其中該頻率再生器(604)更包含一頻譜包絡線調整器(826)用以使用該參數數據(605)執行該複數個操縱頻譜部分之包絡線(envelope)調整。
如申請專利範圍第1項所述之裝置，其中該分析器(602)係偵測位於一頻率偵測範圍內的複數個音調訊號部分，該頻率偵測範圍係從一重建範圍之一頻率邊界延伸或是在該重建範圍內的相鄰近頻率平鋪之間延伸一預設偵測頻寬，該預設偵測頻寬係少於一來源頻率範圍之該頻寬或是該再建頻率範圍之20%，或者該預設偵測頻寬係為一巴克。
如申請專利範圍第5項所述之裝置，其中該操作器(824)係用以衰减或是除去包含有在該預設偵測頻寬中該再生訊號的音調部分的(708)頻譜部分。
如申請專利範圍第6項所述之裝置，其中該操作器(722，824)係用以判斷位於該音調訊號(802)之一開始頻率的一開始頻譜部分以及位於該音調訊號(802)之一結束頻率的一結束頻譜部分，以及在該開始頻率以及該結束頻率之間補添(804)以取得一補添訊號部分，以及用該補添訊號部分(806)取代在該開始頻率以及該結束頻率之間的該音調部分。
如申請專利範圍第6項所述之裝置，其中該操作器(822)係用以隨機地或是非隨機地產生複數條頻譜線(808)，該複數條頻譜線(808)係具有該解碼核心訊號之一非音調訊號部分或是該再生頻譜部分(810)之一非音調訊號部分決定的能量。
如申請專利範圍第3項所述之裝置，其中該分析器係用以用於偵測特定頻率的該假造訊號部分，其中該操作器(722，824)係用以控制一平鋪產生器使得該平鋪產生器改變該解碼核心訊號之該頻譜部分之一頻率邊界或是該再生頻譜部分之一頻率邊界，致使該假造訊號部分僅有較少的假造或是沒有假造。
如申請專利範圍第1項所述之裝置，其中該頻率再生器(604)包含一平鋪產生器(820)，其中該平鋪產生器(820)係使用該解碼核心訊號之相同或是不同頻譜部分以產生一第一頻譜部分之第一頻率平鋪、以及一第二頻譜部分之一第二頻率平鋪，其中該該第二頻率平鋪之該較低頻率邊界係與該第一頻率平鋪之一高頻率邊界相一致，其中該分析器(602)係用以偵測是否一峰頻譜部分被該第二頻率平鋪之該低頻率邊界、或是該第一頻率平鋪之該高頻率邊界、或是該第一頻率平鋪之該低頻率邊界以及該解碼核心訊號之一預設填隙開始頻率(309)所削頻(clipped)，以及其中該操作器(824)係用以控制該平鋪產生器(820)使得該平鋪產生器(820)產生具有經修改的開始或是停止頻率邊界之複數個經修改頻率平鋪，其中該複數個經修改頻率平鋪係修改以減少或是消除該削頻。
如申請專利範圍第1項所述之裝置，其中該核心解碼器係用以取得複數個頻域解碼頻譜部分，該複數個頻域解碼頻譜部分包含一第一組第一頻譜部分以及一第二組第二頻譜部分，該第一組第一頻譜部分係以不同於一零表示(zero representation)的複數個頻譜值所表示，該第二組第二頻譜部分係以該零表示之頻譜值所表示，其中該參數資訊係提供給該第二組第二頻譜部分，其中該頻率再生器(604)係從該第一組第一頻譜部分使用解碼頻譜部分以在一再建頻帶內再生出該頻譜部分，該第一組第一頻譜部分係不包含該再建頻帶，以及其中該裝置更包含一頻率時間轉換器(828)將該再生頻譜部分以及該解碼核心訊號之該頻譜部分轉換成一時域表示。
如申請專利範圍第1項所述之裝置，其中該核心解碼器(600)係用以輸出複數個修改型離散餘弦轉換(MDCT)頻譜值，以及其中該頻率時間轉換器(828)包含一處理器，該處理器係對一執行逆MDCT轉換(512，514，516)對後續取得之複數個MDCT訊框進行一重疊相加處理。
如申請專利範圍第1項所述之裝置，其中該頻率再生器(604)係用以產生(702)一初步再生訊號，其中該頻率再生器(604)係用以偵測(704)該初步再生訊號中的複數個音調成分；其中該頻率再生器係用以根據該偵測結果(704)來調整一來源範圍與一重建範圍之間、或該重建範圍中鄰近頻率平鋪之間的複數個轉換頻率，以產生一再生訊號，其中該頻率再生器更用以移除該轉換頻率周圍之一偵測範圍中的該複數個音調成分(708)；其中該頻率再生器更包含一交越濾波器(710)以對具有該轉換頻率周圍之一交越範圍中的移除音調成分的訊號進行交越濾波；以及其中該頻率再生器更包含一頻譜包絡線塑形器(712)以使用該參數數據(605)對該交越濾波器之結果進行頻譜包絡線塑形。
一種編碼音源訊號解碼方法，該編碼音源訊號包含一編碼核心訊號以及參數數據，該編碼音源訊號解碼方法包含：解碼(600)該編碼核心訊號以取得一解碼核心訊號；在一頻率再生操作之前或之後分析(602)該解碼核心訊號，以提供一分析結果(603)；以及使用該解碼核心訊號之頻譜部分、該參數數據(605)以及該分析結果(603)，再生(604)出不包含在該解碼核心訊號內的複數個頻譜部分，其中該分析(602)包括偵測該解碼核心訊號之該頻譜部分中、該解碼核心訊號之一頻率邊界上的一再生訊號、或是在使用該解碼核心訊號之相同或不同頻譜部分產生之二個再生頻譜部分之間的一頻率邊界、或是該再生訊號之一最高頻率邊界的一峰部之一分離，以及其中該再生包括改變在該解碼核心訊號與該再生訊號之間的該頻率邊界、或是在使用該解碼訊號之相同或不同頻譜部分產生的兩個再生頻譜部分之間的頻率邊界、或是改變該最高頻率，以減少或消除該分離。
一種編碼音源訊號解碼裝置，該編碼音源訊號包含一編碼核心訊號以及參數數據，該編碼音源訊號解碼裝置包含：一核心解碼器(600)，用以解碼該編碼核心訊號以取得一解碼核心訊號；一頻率再生器(604,718)，係使用該解碼核心訊號之一頻譜部分，以再生出不包含在該解碼核心訊號內的複數個頻譜部分，從而得到一再生訊號、該參數數據(605)以及一分析結果(603)，其中該頻率再生器(604,714)係使用初步再生之參數產生一初步再生訊號(703)；以及一分析器(602,614,720)係分析(704)該初步再生訊號以偵測複數個假造訊號部分，以作為該分析結果，其中該頻率再生器(604)更包含一操作器(722)以操作該初步再生訊號以得到該再生訊號，或者根據不同於該初步再生之該參數的參數執行一再次再生，以減少或者消除該再生訊號中的該假造訊號部分。
一種編碼音源訊號解碼方法，該編碼音源訊號包含一編碼核心訊號以及參數數據，該編碼音源訊號解碼方法包含：解碼(600)該編碼核心訊號以取得一解碼核心訊號；使用該解碼核心訊號之一頻譜部分、該參數數據(605)以及一分析結果(603)，再生(604)出不包含在該解碼核心訊號內的複數個頻譜部分；以及分析(704)一初步再生訊號以偵測複數個假造訊號部分，以作為該分析結果，其中該再生(604)包括操作(722)該初步再生訊號以得到一再生訊號，或者根據不同於該初步再生之該參數的參數執行一再次再生，以減少或者消除該再生訊號中的該假造訊號部分。
一種電腦程式，當該電腦程式在一電腦或者一處理器上執行時係執行申請專利範圍第14或16項所述之方法。