JP2009541797A - 種々の音声フレーム・レートの混合励振線形予測(melp)ボコーダ間でトランスコーディングするボコーダ及び関連した方法 - Google Patents
種々の音声フレーム・レートの混合励振線形予測(melp)ボコーダ間でトランスコーディングするボコーダ及び関連した方法 Download PDFInfo
- Publication number
- JP2009541797A JP2009541797A JP2009516670A JP2009516670A JP2009541797A JP 2009541797 A JP2009541797 A JP 2009541797A JP 2009516670 A JP2009516670 A JP 2009516670A JP 2009516670 A JP2009516670 A JP 2009516670A JP 2009541797 A JP2009541797 A JP 2009541797A
- Authority
- JP
- Japan
- Prior art keywords
- melp
- vocoder
- speech
- parameters
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000005284 excitation Effects 0.000 title claims abstract description 25
- 238000013139 quantization Methods 0.000 claims abstract description 31
- 238000000926 separation method Methods 0.000 claims abstract description 5
- 230000002123 temporal effect Effects 0.000 claims abstract description 4
- 230000003139 buffering effect Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 abstract description 7
- 239000013598 vector Substances 0.000 description 43
- 230000008569 process Effects 0.000 description 24
- 238000004422 calculation algorithm Methods 0.000 description 23
- 238000004891 communication Methods 0.000 description 20
- 230000000670 limiting effect Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 13
- 230000003595 spectral effect Effects 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 10
- 230000000737 periodic effect Effects 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 9
- 239000006185 dispersion Substances 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000002829 reductive effect Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 7
- 230000001755 vocal effect Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 230000007123 defense Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000002405 diagnostic procedure Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000005534 acoustic noise Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005562 fading Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 244000309464 bull Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
ボコーダ及び方法は、別々の音声フレーム・レートで使用するために、混合励振線形予測(MELP)符号化データをトランスコーディングする。入力データは、MELPパラメータ(第1のMELPボコーダによって使用されるものなど)に変換される(100)。前述のパラメータをバッファリングし(102)、時間補間(104)をパラメータに対して量子化によって行って離間点を予測する。符号化機能(106)を、ブロックとしての補間データに対して行って、第1のMELPボコーダとは異なる音声フレーム・レートの第2のMELPボコーダによって使用されるビット・レートにおける削減をもたらす。
Description
本発明は、通信に関し、特に、本発明は、通信において使用される音声コーダ(ボコーダ)に関する。
音声コーダ(ボコーダとも呼ばれる)は、音声信号が占める帯域幅を(例えば、音声圧縮手法を使用することによって)削減し、電子的に合成されたインパルスにより、音声信号を置き換える回路である。例えば、一部のボコーダでは、電子音声解析器又は合成器は、音声波形を、いくつかの同時アナログ信号に変換する。電子音声合成器は、アナログ制御信号に応じ、人工的な音を生成することが可能である。音声解析器は、アナログ波形を狭帯域ディジタル信号に変換することが可能である。前述の手法の一部を使用すれば、ボコーダを鍵生成器及び変調器/復調器装置とともに使用して、通常の狭帯域音声通信チャネルを介して、ディジタル形式で暗号化された音声信号を伝送することが可能である。その結果、ディジタル化された音声信号を伝送するための帯域幅要件は軽減される。
新たな軍事技術標準のボコーダ(MIL−STD−3005)のアルゴリズムは、2.4Kbpsで動作する混合励振線形予測(MELP)として表される。ボコーダは、前述のアルゴリズムを使用して動作させると、良性の誤りチャネルの下で好適な音声品質を有する。しかし、ボコーダを、マンパック無線機(MPR)の通常の電力出力を有するHFチャネルにさらすと、ボコーダの音声品質は劣化する。600bpsのボコーダは、2.4Kbpsのボコーダよりも、セキュアな音声の利用可能性がかなり高いことが明らかになっている。
通常の2.4Kbpsの線形予測符号化(LPC10e)ベースのシステムのものと比較して同じか、又はより好適な音声品質及び了解度を備えた低レートの音声ボコーダに対する必要性が存在している。600bpsでのMELP音声ボコーダは、現在の2.4kbpsのLPC10eの技術標準よりもロバストでかつビット・レートが低い波形を利用し、MELPボコーダ・パラメトリック・モデルのより良好な音声品質の便益も受ける。タクティカル・マンパック無線機(MPR)は通常、ディジタル音声を使用した、24時間の接続性を確実にするために、より低いビット・レートの波形を必要とする。HFユーザが、高信頼度の、好適な品質のディジタル音声を受信すると、広く受け入れられることにより、全てのユーザのよるセキュリティが向上する。更に、HFユーザは、ディジタル音声に固有のディジタル・スケルチ、及び、受信オーディオにおける大気雑音の除去の恩恵も受ける。
LPC10eの技術標準を使用した現在の2.4Kbpsのボコーダは、HFチャネル上で、暗号化音声システム内で広く使用されている。しかし、2.4kbpsシステムでは、狭帯域HFチャネル上での通信を首尾良く行うことができる可能性は限定的である。通常の3kHzチャネルは、標準的な2.4Kbpsビット・レートでの高信頼度でセキュアな通信を可能にするためには比較的高い信号対雑音比(SNR)を必要とする。2400bpsでのMIL−STD−188−110Bを使用しても、通常のフェージング・チャネルを介した使用可能な通信リンクを設けるために、+12dBを超える3kHz SNRがなお必要になる。
HFチャネルにより、通常、LPC10eを使用した2400bpsチャネルが比較的誤りがない状態が可能になる一方、音声品質はなお最低限のものである。前述のシステムの音声の了解度及び受容性は、マイクにおける背景雑音レベルの量に制限される。了解度は、軍事用H−250などの通信用受話器のローエンドの周波数応答により、更に劣化する。MELP音声モデルは、背景雑音及びローエンドの周波数ロールオフに対する、ボコーダにおける感度を改善する一体化された雑音前置処理器を有する。600bpsのMELPボコーダは、このタイプの雑音前置処理器、及びMELPモデルのローエンド周波数の低感度の向上の恩恵を受ける。
一部のシステムでは、ボコーダは縦続接続され、それにより、音声の了解度が低下する。いくつかの縦続接続により、了解度が、使用可能なレベル(例えば、RF6010標準)未満に低下し得る。縦続接続間のトランスコーディングにより、アナログの代わりにディジタル手法が使用される了解度損失が大きく削減される。しかし、フレーム・レート及び手法が異なるボコーダ間のトランスコーディングは困難であることが明らかになっている。「同様な」ボコーダ間でのトランスコーディングを行ってビット・レートを変える既知のシステムも存在している。先行技術の提案の1つにより、LPC10とMELPeとの間のトランスコーディングが提供されている。ソース・コードは、MELP1200システム及びMELP2400システム間のMELPトランスコーディングも提供することが可能である。
ボコーダ、及び関連した方法は、別々の音声フレーム・レートで使用するために、混合励振線形予測(MELP)符号化データのトランスコーディングを行う。入力データは、第1のMELPボコーダによって使用されるMELPパラメータに変換される。前述のパラメータがバッファリングされ、時間補間をパラメータに対して量子化によって行って、離間点を予測する。符号化機能を、ブロックとしての補間データに対して行って、第1のMELPボコーダとは異なる音声フレーム・レートで第2のMELPボコーダによって使用されるビット・レートを削減する。
更に別の局面は、ビット・レートは、MELP2400ボコーダにより、MELP600ボコーダで使用されるビット・レートへのトランスコーディングが行われる。MELPパラメータは、ブロック内の連続した複数のフレームの非量子化MELPパラメータから、音声データ・ブロックについて量子化することが可能である。符号化機能は、非量子化MELPパラメータを取得し、フレームを合成して、一MELP 600 BPSフレームを形成し、非量子化MELPパラメータを生成し、MELP600 BPSフレームのMELPパラメータを量子化し、これらをシリアル・データ・ストリームに符号化することによって行うことが可能である。入力データはMELP2400 パラメータに変換することが可能である。MELP2400パラメータは、一遅延フレームを使用してバッファリングすることが可能である。25ミリ秒の離間点を予測することが可能であり、一局面では、ビット・レートは1/4に削減される。
更に別の局面では、ボコーダ及び関連した方法は、異なる音声フレーム・レートで第2のMELPボコーダによって使用されるパラメータに応じて、入力データに対する復号化機能を行うことにより、混合励振線形予測(MELP)符号化データをトランスコーディングする。サンプリングされた音声パラメータは、補間され、バッファリングされ、補間パラメータに対する符号化機能を行ってビット・レートを増加させる。補間は、22.5ミリ秒でサンプリングされた音声パラメータで生じ得、補間パラメータのバッファリングは、約1フレームで生じ得る。ビット・レートは、4倍に増加することが可能である。
本発明の他の目的、特徴及び利点は、添付図面に照らして検討すると、本発明の以下の詳細な説明から明らかになるであろう。
次に、添付図面を参照して本発明を以下に更に詳細に説明する。本発明の好ましい実施例を示す。しかし、本発明は、種々の多くの形態において実施することができ、本明細書及び特許請求の範囲記載の実施例に限定されるものとして解されるべきでない。むしろ、前述の実施例は、本願の開示が詳細かつ完全であり、当業者に本発明の範囲を詳細に伝えるように記載される。同じ符号は、図を通して同じ構成要素を表す。
本発明を理解する目的での一般的な背景として、線形予測符号化(LPC)は、低ビット・レートで音声を符号化し、計算するために、音声パラメータの正確な推定値を提供する音声解析システム及び方法である。LPCは、音声音の品質の特徴成分としてのフォルマントを推定することにより、音声信号を解析することが可能である。例えば、いくつかの共鳴帯域は、時長価値のエネルギ集中特性を求める手助けをする。前述の影響は、音声信号から除去され、残りのブンブンいう音の強度及び周波数が推定される。フォルマントの除去を逆フィルタリングと呼び、残りの信号をレジデューと呼ぶことが可能である。フォルマント及びレジデューを表す数は、記憶するか、又は別の所に伝送することが可能である。
LPCは、処理を逆にし、レジデューを使用してソース信号を生成し、フォルマントを使用して、管を表すフィルタを生成し、フィルタを介してソースを流し、それにより、音声を生成することにより、音声信号を合成することが可能である。音声信号は時間とともに変動し、処理は、通常、毎秒30乃至50フレームの、フレームと呼ばれる、音声信号の小部分に対して行って、好適な圧縮により、高了解度の音声を生成する。
差分方程式は、音声信号からフォルマントを求めて、線形予測器(すなわち、線形予測符号化(LPC))を使用して、先行サンプルの線形の組合せとして信号の各サンプルを表すために使用することが可能である。予測信号と実際の信号との間の二乗平均誤差を最小にすることにより、LPCシステムが係数を推定することが可能であるように、予測係数としての、差分方程式の係数はフォルマントを特徴付けることが可能である。よって、係数値の行列の計算は、線形式の組の解で実現することが可能である。自己相関、共分散、又は再帰的格子定式化の手法を使用して、解への収束を確実にすることが可能である。
しかし、側枝を有する管には問題がある。例えば、通常母音の場合、声道は単一の管で表されるが、鼻音の場合、側岐が存在している。よって、鼻音の場合、より複雑なアルゴリズムが必要である。一部の子音は、乱流気流によって生成され、「ヒス」音を生じるが、LPC符号化器は通常、音源が、ブンブンいう音又はヒス音であるかを決定し、周波数及び強度を決定し、復号化器が工程をもとに戻すことが可能であるように情報を符号化しなければならない。LPC−10eアルゴリズムは、1つの数を使用してブンブンいう音の周波数を表し、0という数を使用してヒス音を表す。LPC−10eに加え、通常のレジデュー信号のテーブルとしてコードブックを使用することも可能である。解析器は、レジデューを、コードブック中のエントリと比較し、近い一致を有するエントリを選び、そのエントリのコードを送出することが可能である。これは、コード励振線形予測(CELP)と呼ぶことが可能である。LPC−10eアルゴリズムは、連邦政府標準1015に開示されており、CELPアルゴリズムは連邦政府標準1016に開示されており、これらの開示は、その内容全体を本明細書及び特許請求の範囲に援用する。
混合励振線形予測(MELP)ボコーダ・アルゴリズムは、米国国防総省(DOD)ディジタル音声処理コンソーシアム(DDVPC)によって選択された2400bpsの連邦政府技術標準の音声符号化器である。これは、ブンブンいう機械的な音がする高了解度音声を非常に低いビット・レートでボコーダが生成する、励振の夾雑(foreign)全極性合成フィルタとして周期ポスト列又は白色雑音を使用する伝統的なピッチ励振LPCボコーダとは多少異なる。これは通常、単純なパルス列が有声音声を再生することができないことによって生じる。
MELPボコーダは、伝統的なLPCパラメトリック・モデルに基づいた混合励振モデルを使用するが、混合励振、周期パルス、パルス分散、及びスペクトル強調という更なる特徴を含む。混合励振は、固定フィルタ・バンクに基づいた適応的フィルタリングで、周波数依存性発声強度をシミュレートして、ブンブンいう音を低減させるマルチバンド混合モデルを使用する。入力音声により、MELPボコーダは、周期パルス又は非周期パルスを使用して音声を合成する。パルス分散は、ピッチにより、励振エネルギを分散させる、スペクトルが平坦化された三角形パルスに基づいた固定パルス分散フィルタを使用して実現される。LPC声道フィルタの極に基づいた適応スペクトル強調フィルタは、合成音声におけるフォーマント構造を強調することが可能である。フィルタは、合成帯域通過波形と自然帯域通過波形との間の一致を改善し、音声出力に対して、より自然な特性をもたらすことが可能である。MELP符号化器は、音声品質及びベクトル量子化手法を改善してLPC及びフーリエ情報を符号化するために予測残差のフーリエ振幅符号化を使用することが可能である。
本発明の限定的でない例によれば、ボコーダは、MELPe2400の解析を行うことなく、600bpsの固定ビット・レートに、2400bpsの、MIL−STD−3005に規定された米国国防総省の軍事用ボコーダの技術標準をトランスコーディングする。この処理は、MELPe600をMELPe2400にトランスコーディングすることが可能であるように逆にすることが可能である。マルチホップ・ネットワークを使用する場合に、複数レートのビット・レート変更が必要な場合、電話システムの動作を改善することが可能である。別々のビット・レートのボコーダを縦続接続する場合の通常のアナログ・レートの変更により、音声品質はすばやく劣化し得る。本明細書及び特許請求の範囲記載の本発明は、ディジタル音声を激しく劣化させることなく、複数のレート変更(2400−>600−>2400−>600−>...)を可能にする。本明細書及び特許請求の範囲を通して、混乱を避けるために、末尾が「e」のMELPは、「e」なしのMELPと同義である。
ボコーダ及び関連した方法は、2400bps又は600bpsのビット・レートで動作する電話システムの音声の了解度及び品質を向上させることが可能である。ボコーダは、声道のパラメトリック混合励振線形予測モデルを使用した符号化処理を含む。結果として生じる600bpsの音声は、同様なビット・レートでのボコーダよりも非常に高い同韻診断テスト(DRT、音声了解度の尺度)及び診断受入可能性尺度(DAM、音声品質の尺度)を達成する。結果として生じる600bpsのボコーダは、非常に劣悪な信号対雑音比の下で、かつ/又は、低い送信電力状態の下で、高周波(HF)無線チャネル上の通信を可能にするセキュアな通信システムにおいて使用される。結果として生じるMELP600bpsのボコーダにより、MELP2400ベースのシステムよりも、一日の間に、より頻繁に、より多くの無線リンクを介して、セキュアな音声無線トラフィックが転送されることを可能にする通信システムがもたらされる。後方互換性は、より高いレートで実行するか、又はMELP600をサポートしないシステムについて、MELP600をMELP2400にトランスコーディングすることにより、生じ得る。
本発明の限定的でない例によれば、ディジタル・トランスコーダは、異なるアプリケーション形式又はビット・レート間の符号化又は復号化の処理としてのトランスコーディングを使用して、MELPe2400及びMELPe600において動作する。これは、ボコーダの縦続接続とはみなされない。本発明の限定的でない一例によれば、ボコーダ及び関連した方法は、レートの4倍への増加又はレートの4分の1への減少により、MELP2400データ形式及びMELP600データ形式間で、リアルタイムで変換する。トランスコーダは、符号化ビットストリームを使用することが可能である。処理は、最初のレート変更後に、複数のレート変更が、音声品質をすばやく低下させない場合にのみ、当初のレート変更の間、非可逆である。これは、MELPe2400のみに対応するシステムが、高周波(HF)HF MELPe600に対応するシステムとともに動作することを可能にする。
上記ボコーダ及び方法は、RF6010マルチホップHF−VHFリンク音声品質を向上させる。これは、上方/下方変換(レート変更)の数にかかわらず、リンク毎に一度実行されるボコーダ解析及び合成を備えた完全なディジタル・システムを使用することが可能である。音声歪みは最初のレート変更に最小化することが可能であり、音声歪みにおける最小の増加は、レート変更の数により、生じ得る。ネットワーク負荷は、64Kから2.4Kに減少し、ネットワークを介して圧縮音声を使用することが可能である。F2−Hは、トラスコーディングSWを必要とし、トランスコーディング中に、オーディオ遅延における、25msの増加を必要とする。
システムは、F2−H及びF2−F/F2−Vの無線のディジタル−VHF−HFのセキュアな音声再伝送を有し得、米国国防総省MELPeベースのVOIPシステムへの、MELPe600の動作を可能にする。システムは、MELPe600ボコーダ(ハリス社(本社:フロリダ州メルボルン))によって製造されたものなど)との互換性を米国国防総省/NATO MELP2400に与え得る。例証の目的で、RF6010の音声の例を下に示す。
ANALOG − トランスコーディングなし (4つの無線回路)
− CVSD−>CVSD−>ulaw−>RF6010−>ulaw−>M6−>M6
−>M6−>M6−>ulaw−>RF6010−>CVSD−>CVSD
DIGITAL − トランスコーディングあり (4つの無線回路)
−>M24−>バイパス−>RF6010−>M24から6−>M6
−>M6−>M6から24−>RF6010−>バイパス−>M24
バイパス−>データ・バイパスにおけるボコーダ。ディジタル・システムではulawは使用されない。
− CVSD−>CVSD−>ulaw−>RF6010−>ulaw−>M6−>M6
−>M6−>M6−>ulaw−>RF6010−>CVSD−>CVSD
DIGITAL − トランスコーディングあり (4つの無線回路)
−>M24−>バイパス−>RF6010−>M24から6−>M6
−>M6−>M6から24−>RF6010−>バイパス−>M24
バイパス−>データ・バイパスにおけるボコーダ。ディジタル・システムではulawは使用されない。
ボコーダ及び関連した方法は、MIL−STD/NATO MELPe 2400ボコーダとの間でデータを送受信するために、MELP600のボコーダの改良されたアルゴリズムを使用する。改良されたRF 6010システムは、トランスコーディング基本システムMELP解析を使用して、より好適な音声品質を可能にし得、合成は、マルチホップ・ネットワークを介して一度のみ、行われる。
本発明の限定的でない一例によれば、2400から600に下方トランスコーディングし、入力データをMELP2400パラメータにトランスコーディングすることが可能である。バッファ・パラメータには、一フレーム遅延があり、システム及び方法は、量子化により、パラメータの時間補間を行って25msの「離間点」を予測することが可能である。よって、4のブロックにより、補間データに対してMELP600の解析を行うことが可能である。これは、1/4への削減をもたらし、MELP2400データが受信され、MELP600のデータがシステムから送信されるようにMELP600のボコーダと互換であるビット・レートをもたらす。
600から2400に上方トランスコーディングし、入力データに対するMELPe600合成を行うことも可能である。ボコーダは、一フレームにおいて、22.5msでサンプリングされた音声パラメータ、及びバッファ補間されたパラメータを補間する。MELP2400の解析は、補間パラメータに対して行うことが可能である。これにより、ビット・レートは4倍に増加する。これは、MELP600データを受信し、MELP2400データを送信することを可能にするためにMIL−STD/NATO MELP 2400と互換である。
本発明の限定的でない局面によるボコーダ及び関連した方法は、音声フレーム・レートが異なるボコーダ間でビット・レートをトランスコーディングすることが可能である。解析ウィンドウは、異なるサイズであり得、レート変更間にロックしなくてよい。フレーム・レートが変更されても、初期レート変更後、更なる歪みは生じない。アルゴリズムは、RF6010のクロスネット・リンク上で、より良好な品質のディジタル音声を有することが可能である。AN/PRC−117Fは、MELPe600をサポートしないが、このアルゴリズムを使用して、RF6010システムを使用して無線で、MELPe600を実行するAN/PRC−150Cと通信する。AN/PRC−150Cはトランスコーディングを実行し、AN/PRC−15OCは、本発明の限定的でない一局面によるアルゴリズムを使用して送信トランスコーディング及び受信トランスコーディングを行うことができる。
次に、本発明とともに使用することが可能な通信システムの例を、図1に関して説明する。
前述のシステム及び方法とともに使用することが可能な無線機の例には、ハリス社(本社:フロリダ州メルボルン)が製造・販売するファルコン(商標)III無線機がある。
相対的に標準的なプロセッサ及びハードウェア構成部分で通常、実現することが可能なソフトウェア定義無線機を含む種々の無線機を使用することが可能である。1つの特定のクラスのソフトウェア無線機には、相対的に標準的な無線機及び処理ハードウェア、並びに、無線機が使用する通信波形を実現するために適切な波形ソフトウェアモジュールを含むジョイント・タクティカル無線機(JTR)がある。JTR無線機は、ソフトウェア通信アーキテクチャ(SCA)技術標準(www.itrs.saalt.mil。その内容全体を本明細書及び特許請求の範囲に援用する)に準拠したオペレーティング・システム・ソフトウェアも使用する。SCAは、種々の製造業者及び開発業者がそれぞれの構成部分を単一の装置に容易に一体化することが可能であるようにハードウェア構成部分及びソフトウェア構成部分がどのようにして相互作用するかを規定する開放型アーキテクチャ・フレームワークである。
相対的に標準的なプロセッサ及びハードウェア構成部分で通常、実現することが可能なソフトウェア定義無線機を含む種々の無線機を使用することが可能である。1つの特定のクラスのソフトウェア無線機には、相対的に標準的な無線機及び処理ハードウェア、並びに、無線機が使用する通信波形を実現するために適切な波形ソフトウェアモジュールを含むジョイント・タクティカル無線機(JTR)がある。JTR無線機は、ソフトウェア通信アーキテクチャ(SCA)技術標準(www.itrs.saalt.mil。その内容全体を本明細書及び特許請求の範囲に援用する)に準拠したオペレーティング・システム・ソフトウェアも使用する。SCAは、種々の製造業者及び開発業者がそれぞれの構成部分を単一の装置に容易に一体化することが可能であるようにハードウェア構成部分及びソフトウェア構成部分がどのようにして相互作用するかを規定する開放型アーキテクチャ・フレームワークである。
ジョイント・タクティカル無線機システム(JTRS)ソフトウェア構成部分アーキテクチャ(SCA)は、ソフトウェア定義無線機(SDR)を実現するために、共通オブジェクト・リクエスト・ブローカ・アーキテクチャ(CORBA)に、多くの場合、基づいたインタフェース及びプロトコルの組を定義する。部分的には、JTRS及びそのSCAは、ソフトウェアによって再プログラム可能な無線機のファミリーに使用される。そういうものとして、SCAは、ソフトウェア再プログラム可能なディジタル無線機を実現するための特定の規則、手法及び開発基準の組である。
JTRS SCA技術仕様は、JTRSジョイント・プログラム・オフィス(JPO)によって公表されている。JTRS SCAは、種々のJTRS SCA実現形態間でアプリケーション・ソフトウェアを移植することを可能にし、商用の技術標準を活用して開発費用を削減し、設計モジュールを再使用することができることにより、新たな波形の開発期間を削減し、進展する商用のフレームワーク及びアーキテクチャに基礎をおくよう構成されている。
JTRS SCAは、実現形態と無関係であることが意図されているのでシステム技術仕様でないが、所望のJTRSの目的を達成するようシステムの設計を制約する規則の組である。JTRS SCAのソフトウェア・フレームワークは、オペレーティング環境(OE)を定義し、その環境からアプリケーションが使用するサービス及びインタフェースを規定する。SCA OEは、関連したボード・サポート・パッケージとのポータブル・システム・インタフェース(POSIX)に基づいたオペレーティング・システム(OS)、コア・フレームワーク(CF)及びCORBAミドルウェアを含む。JTRS SCAは、アプリケーション・ソフトウェア構成部分間のアプリケーション・プログラム・インタフェース(API)を定義するためのビルディング・ブロック構造(API Supplementにおいて定義されている)も提供する。
JTRS SCAコア・フレームワーク(CF)は、組み込み型の分散計算機通信システムにおけるソフトウェア・アプリケーション構成部分の展開、管理、相互接続及び相互通信を可能にする重要な、「コア」の組のオープン・ソフトウェア・インタフェース及びプロファイルを定義するアーキテクチャ概念である。インタフェースは、JTRS SCA技術仕様において定義され得る。しかし、開発業者はその一部を実現することができ、一部は非コア・アプリケーション(すなわち、波形等)によって実現することができ、一部は、ハードウェア装置提供者によって実現することができる。
説明の目的のみで、本発明の恩恵を受ける通信システムの例の簡単な説明を、図1に示す、限定的でない例に関して説明する。通信システム50のこの概要レベルのブロック図は、本発明に使用するために修正することが可能な無線メッセージ端末、及び基地局部分52を含む。基地局部分52は、VHFネット64又はHFネット66(それぞれは、それぞれのVHF無線機68及びHF無線機70をいくつか含み、無線機68、70に接続されたパソコン・ワークステーション72を含む)に無線リンクを介して音声又はデータを通信し、送信する。アドホック通信ネットワーク73は、例証する種々の構成部分と相互運用する。よって、HFネットワーク又はVHFネットワークは、インフラがなく、アドホック通信ネットワークとして動作するHFネット部分及びVHFネット部分を含む。UHF無線機及びネット部分は図示していないが、これらを含めることが可能である。
HF無線機は、復調器回路62a及び適切な畳込符号化器回路62bと、ブロック・インタリーブ器62cと、データ・ランダム化器回路62dと、データ及びフレーミング回路62eと、変調回路62fと、マッチド・フィルタ回路62gと、適切なクランピング装置を備えたブロック又はシンボル等化器回路62hと、デインタリーバ及び復号化器回路62iと、モデム62jと、電力適合化回路62kとを限定的でない例として含み得る。ボコーダ回路621は、記載された種々の回路の組合せ、又は別個の回路であり得る変換装置、並びに、復号化機能及び符号化機能を組み入れることが可能である。前述及び他の回路は、本発明に必要な機能、及び、当業者が考え出す他の機能を行うよう動作する。例証された他の無線機(VHF移動体無線機、及び送信局及び受信局を含む)は同様な機能別回路を有し得る。
基地局部分52は、PABX82に接続する公衆交換電話網(PSTN)80への地上通信線接続を含む。衛星地上局などの衛星インタフェース84はPABX82に接続し、PABX82は、無線ゲートウェイ86a、86bを形成するプロセッサに接続する。これらは、VHF無線機60又はHF無線機62それぞれに相互接続する。プロセッサはローカル・エリア・ネットワークを介してPABX82及び電子メール・クライアント90に接続される。無線機は、適切な信号生成器及び変調器を含む。
イーサネット(登録商標)/TCP−IPローカル・エリア・ネットワークは「無線」電子メール・サーバとして動作することが可能である。電子メール・メッセージは、無線リンク及びローカル・エア・ネットワークを介して、第2世代プロトコル/波形としてのSTANAG−5066(この開示はその全体を本明細書及び特許請求の範囲に援用する)を用いて、かつ、当然、好ましくは、第3世代の相互運用性標準によって送出することが可能である。相互運用性標準(FED−STD−1052。この開示はその全体を本明細書及び特許請求の範囲に援用する)は、レガシー無線装置に用いることが可能である。本発明において使用することが可能な機器の例には、ハリス社(本社:フロリダ州メルボルン)によって製造された種々の無線ゲートウェイ及び無線機がある。前述の機器は、限定的でない例として、RF5800、5022、7210、5710、5285、並びに、PRC117及び138シリーズの機器及び装置を含み得る。
前述のシステムは、RF−5710A高周波(HF)モデムにより、かつ、STANAG4539(この開示は、その内容全体を本明細書及び特許請求の範囲に援用する)として知られているNATO標準によって動作可能である。これにより、最大9600bpsのレートでの、長距離HF無線回路の伝送を可能にする。モデム技術に加えて、前述のシステムは、高ストレス・タクティカル・チャネル(STANAG4538やSTANAG5066など。この開示はその全体を本明細書及び特許請求の範囲に援用する)のために設計され、改良されたデータリンク・プロトコル・スイートを使用する無線電子メール製品を使用することが可能である。無線機をISBモードにセットし、HFモデムを固定データ・レートにセットして、最高19200bpsの固定の非適応的データ・レートを使用することも可能である。符号合成法及びARQを使用することも可能である。
図2は、MELP2400からMELP600に下方トランスコーディングするための基本的な細部、及び復号化として、2400パラメータなどのMELPパラメータに入力データを変換する基本工程を示す参照符号の100シリーズで始まる概要レベルのフロー図である。工程102に示すように、一フレームの遅延などを伴ってバッファリングされる。MELPパラメータの時間補間が、ブロック104に示す量子化によって行われる。ビット・レートが削減され、補間データに対して符号化が行われる(ブロック106)。この工程では、符号化は、本発明の出願人に譲渡された米国特許第6917914号明細書記載のものなどのMELP600符号化アルゴリズム(この開示はその全体を本明細書及び特許請求の範囲に援用する)を使用して実現することが可能である。
図3は、本発明の限定的でない例による、MELP2400からMELP600への下方トランスコーディングの更なる詳細を示す。
図3に表す工程に示すように、対抗手段に電子的に対抗する手段(ECCOM)により、MELP2400チャネル・パラメータが復号化される(ブロック110)。線スペクトル周波数(LSF)から予測係数が生成される(ブロック112)。知覚逆電力スペクトル重みが生成される(ブロック114)。現在のMELP2400パラメータが指し示される(ブロック116)。フレーム数が2以上の場合(ブロック118)、補間値の更新が行われる(ブロック120)。新たなパラメータの補間は、ピッチ、線スペクトル周波数、利得、ジッタ、帯域通過音声、無声並びに有声のデータ及び重みを含む(ブロック122)。ブロック118の工程で回答がいいえの場合、ブロック120及び122の工程を飛ばす。フレーム数が求められ(ブロック124)、MELP600符号化処理が行われる(ブロック126)。好ましくは、上記「914特許」において開示されたものなどのMELP600のアルゴリズムが使用される。先行入力パラメータが保存され(ブロック128)、状態が進められ(ブロック130)、リターンが行われる(ブロック132)。
図4は、MELP600からMELP2400への上方トランスコーディングを示し、基本的な概要レベルの機能を示す概要レベルのフロー図である。ブロック150に示すように、入力データは、内容を本明細書及び特許請求の範囲に援用する「914特許」に開示された処理などのMELPボコーダのパラメータを使用して復号化される。ブロック152では、サンプリングされた音声パラメータは補間され、補間されたパラメータは、ブロック154に示すようにバッファリングされる。ビット・レートを、ブロック156に示すように、補間パラメータに対する符号化によって増加させる。
MELP600からMELP2400への上方トランスコーディングの更なる詳細は、限定的でない例として図5に示す。
MELPe600の復号化機能は、「914特許」に開示された処理などのデータに対して行われる(ブロック170)。現在のフレーム復号化パラメータが指し示され(ブロック172)、22.5ミリ秒のフレームの数がこの反復について求められる(ブロック174)。
このフレームの補間値が得られ(ブロック176)、新たなパラメータが補間される(ブロック178)。最小線連続周波数(LSF)は最小値に強いられ(ブロック180)、MELP2400の符号化が行われる(ブロック182)。符号化ECCM MELP2400ビットストリームが書き込まれ(ブロック184)、フレーム・カウントが更新される(ブロック186)。この反復において、より多くの22.5ミリ秒のフレームが存在している場合(ブロック188)、処理はもう一度、ブロック176で始まる。否定の場合、比較が行われ(ブロック190)、25ミリ秒のフレームのカウンタが更新される(ブロック192)。リターンが行われる(ブロック194)。
前述のアルゴリズムの擬似コードの例を以下に記載する。
SIG_LENGTH=327
BUFSIZE24=7
X025_Q15=8192
LPC_ORD=10
NUM_GAINFR=2
NUM_BANDS=5
NUM_HARM=10
BWMIN_Q15=50.0
//melp_param format
//structure melp_param{/* MELP parameters */
// var pitch;
// var lsf[LPC_ORD];
// var gain[NUM_GAINFR];
// var jitter;
// var bpvc[NUM_BANDS];
// var uv_flag;
// var fs_mag[NUM_HARM];
// var weights[LPC_ORD];
//};
structure melp_param cur_par, prev_par
var top_lpc[LPC_ORD]
var interp600_down[10][2]=
{//prev, cur
{0.0000,1.0000},
{0.0000,0.0000},
{0.8888,0.1111),
{0.7777,0.2222},
{0.6666,0.3333},
{0.5555,0.4444},
{0.4444,0.5555},
{0.3333,0.6666},
{0.2222,0.7777},
{0.1111,0.8888}
}
var interp600_up[10][2]=
{//prev,cur
{0.1000,0.9000},
{0.2000,0.8000},
{0.3000,0.7000},
{0.4000,0.6000},
{0.5000,0.5000},
{0.6000,0.4000},
{0.7000,0.3000},
{0.8000,0.2000},
{0.9000,0.1000},
{0.0000, 1.0000}
}
/* convert MELPe 2400 encoded data to MELPe 600 encoded data */ function transcode600_down()
{ var num frames=0
var lsp[10]
varlpc[ll]
var i,alpha_cur,alpha_prev,numBits
1. MELPe2400符号化データを読み出し、復号化する
melp_chn_read(&quant_par,&melp_par[0],&prev_par,&chbuf[0])
2. 復号化パラメータから知覚逆電力スペクトル重みを生成する
lsp[i]=melp_par−>lsf[i] i=0,..,9
lpc_lsp2pred(lsp,lpc,LPC_ORD)
vq_lspw(&melp_par−>weights[O],lsp,lpc,LPC_ORD)
3. 現行フレーム・パラメータを指し示す
cur_par=melp_par[0]
4. if num frames < 2 goto step 7
if(num_frames < 2) goto step 7
5. この反復の補間値を得る
alpha cur=interp600_down[num_frames][l]
alpha_prev=interp600_down[num_frames][0]
6. MELPe音声パラメータを補間する
melp_par−>pitch=alpha_cur*cur_par.pitch
+alpha_prev*prev_par.pitch
melp_par−>lsf[i]=alpha_cur*cur_par.lsf[i]
+alpha_prev*prev_par.lsf[i] i=0,..,9
melp_par−>gain[i]=alpha_cur*cur_par.gain[i]
+alpha_prev*prev_par.gain[i] i=0,..,l
melp_par−>jitter=0
melp_par−>bpvc[i]=alpha_cur*cur_par.bpvc[i]
+alpha_prev*prev_par.bpvc[i] i=0,..,4
if(melp_par−>bpvc[i]>=8192) then melp_par−>bpvc[i]=16384 i=0,..,4
else melp_par−>bpvc[i]=0
melp_par−>uv_flag=alpha_cur*cur_par.uv_
flag
+alpha_prev*prev_par.uv_flag
if(melp_par−>uv_flag>=16384) then melp_par−>uv_flag=1
else melp_par−>uv_flag=0
melp_par−>fs_mag[i]=alpha_cur*cur_par.fs_mag[i]
+alpha_prev*prev_par.fs_mag[i] i=0,..,9
melp_par−>weights[i]=alpha_cur*cur_par.weights[i]
+alpha_prev*prev_par.weights[i] i=0,..,9
7. num_frames<>1の場合、Melp600をコールし、符号化ビット・カウントnumBitsを戻す
if(num_frames<>1) then numBits=Melp600Encode()
else numBits=0
8. 次回使用するために現行パラメータを保存する
prev_par=cur_par
9. num_framesを更新する
num_frames=num_frame+1
if(num_frames==10) then num_frames=0
10. 符号化MELPe600の数を戻す。このブロックはnumBitsを戻す
11. 次の入力ブロックを処理する
function transcode600_up()
{
var frame,i,frame_cnt
var lpc[LPC_ORD + 1], weights[LPC_ORD]
var lsp[10]
var num_frames22P5ms=0,num_frames25ms=0
var Frame22P5MSCount[9]={l,l,l,l,l,l,l,l,2}
var alpha_cur,alpha_prev
1. MELPe600符号化パラメータを復号化する
Melp600Decode()
2. このフレームのMELPe600音声パラメータを指し示す
cur_par=melp_par[0]
3. 処理する対象のこの反復フレーム数を得る
frame_cnt=Frame22P5MSCount[num_frames25ms]
frame=0
4. このフレーム補間値を得る
alpha_cur=interp600_up[num_frames22P5ms][l]
alpha_prev=interp6OO_up[num_frames22P5ms][0]
5. (Melp600復号化から)新たなMELPe音声パラメータを補間する
melp_par−>pitch=alpha_cur*cur_par.pitch
+alpha_prev*prev_par.pitch
melp_par−>lsf[i]=alpha_cur*cur_par.lsf[i]
+alpha_prev*prev_par.lsf[i] i=0,..,9
melp_par−>gain[i]=alpha_cur*cur_par.gain[i]
+alpha_prev*prev_par.gain[i] i=0,..,l
melp_par−>jitter=alpha_cur*cur_par.jitter
+alpha_prev*prev_par.jitter
if(melp_par−>jitter>=4096)then melp_par−>jitter=8192
else melp_par−>jitter=0
melp_par−>bpvc[i]=alpha_cur*cur_par.bpvc[i]
+alpha_prev*prev_par.bpvc[i] i=0,..,4
if(melp_par−>bpvc[i]>=8192)then melp_par−>bpvc[i]=16384 i=0,..,4
else melp_par−>bpvc[i]=0
melp_par−>uv_flag=alpha_cur*cur_par.uv_flag
+alpha_prev*prev_par.uv_flag
if(melp_par−>uv_flag>=16384) then melp_par−>uv_flag=1
else melp_par−>uv_flag=0
melp_par−>fs_mag[i]=alpha_cur*cur_par.fs_mag[i]
+alpha_prev*prev_par.fs_mag[i] i=0,..,9
6. 新たな補間LSFの最小帯域幅を制限する
lpc_clamp(melp_par−>lsf,BWMIN_Q15,LPC_ORD)
7. 新たなLSFを使用して、新たな知覚逆電力スペクトル重みを生成する
lsp[i]=melp_par−>lsf[i] i=0,..,9
Ipc_lsp2pred(lsp,lpc,LPC ORD)
vq_lspw(weights,lsp,lpc,LPC_ORD)
8. 解析を行うことなく、新たなMELPe音声パラメータを符号化する
melp2400_encode()
10. 符号化MELPe2400ビットストリームを書き込む
melp_chn_write(&quant_par,&chbuf[frame*BUFSIZE24])
11. 22.5msフレーム・カウンタを更新する
num_frames22P5ms=num_frames22P5ms+1
if(num_frames22P5ms==10) num_frames22P5ms=0
12. フレームを1増やす
frame=frame+1
13. frame<>frame_cntの場合、ステップ4に進む
If frame<>frame_cnt then goto step 4
14. 先行する反復からの現行パラメータを保存する
prev_par=cur_par
15. 25msのフレーム・カウンタを更新する
num_frames25ms=num_frames25ms+ 1
if(num_frames25ms==9) num_frames25ms=0
16. このフレームのMELP2400ビットの正しい数を戻す
if(frame_cnt==2) then return(108)
else return(54)
17. 次の入力ブロックを処理する
MELP2400ボコーダは、音声品質及びベクトル量子化手法を向上させてLPCフーリエ情報を符号化するために予測残差のフーリエ振幅符号化を使用することが可能である。MELP2400ボコーダは、22.5ミリ秒のフレーム・サイズ及び8kHzのサンプリング・レートを含み得る。解析器は、約60Hzのカットオフ周波数及び約30dBの阻止域減衰量を有する4次チェビシェフ・タイプIIフィルタなどの高域通過フィルタを有し得る。バターワース・フィルタは、帯域通過音声解析に使用することが可能である。解析器は、ハミング符号による誤り保護及び線形予測解析を含み得る。合成器は、フィルタリング・パルス及び雑音励振の和による混合励振生成を使用することが可能である。雑音、及び長さが一ピッチ周期の逆離散フーリエ変換を使用することが可能であり、一様な乱数の生成器を使用することが可能である。パルス・フィルタは、有声周波数帯域の帯域通過フィルタ係数の和を有し得、雑音フィルタは、無声周波数帯域の帯域通過フィルタ係数の和を有し得る。適応スペクトル強調フィルタを使用することが可能である。直接表現型フィルタ及びパルス分散による線形予測合成も存在し得る。
BUFSIZE24=7
X025_Q15=8192
LPC_ORD=10
NUM_GAINFR=2
NUM_BANDS=5
NUM_HARM=10
BWMIN_Q15=50.0
//melp_param format
//structure melp_param{/* MELP parameters */
// var pitch;
// var lsf[LPC_ORD];
// var gain[NUM_GAINFR];
// var jitter;
// var bpvc[NUM_BANDS];
// var uv_flag;
// var fs_mag[NUM_HARM];
// var weights[LPC_ORD];
//};
structure melp_param cur_par, prev_par
var top_lpc[LPC_ORD]
var interp600_down[10][2]=
{//prev, cur
{0.0000,1.0000},
{0.0000,0.0000},
{0.8888,0.1111),
{0.7777,0.2222},
{0.6666,0.3333},
{0.5555,0.4444},
{0.4444,0.5555},
{0.3333,0.6666},
{0.2222,0.7777},
{0.1111,0.8888}
}
var interp600_up[10][2]=
{//prev,cur
{0.1000,0.9000},
{0.2000,0.8000},
{0.3000,0.7000},
{0.4000,0.6000},
{0.5000,0.5000},
{0.6000,0.4000},
{0.7000,0.3000},
{0.8000,0.2000},
{0.9000,0.1000},
{0.0000, 1.0000}
}
/* convert MELPe 2400 encoded data to MELPe 600 encoded data */ function transcode600_down()
{ var num frames=0
var lsp[10]
varlpc[ll]
var i,alpha_cur,alpha_prev,numBits
1. MELPe2400符号化データを読み出し、復号化する
melp_chn_read(&quant_par,&melp_par[0],&prev_par,&chbuf[0])
2. 復号化パラメータから知覚逆電力スペクトル重みを生成する
lsp[i]=melp_par−>lsf[i] i=0,..,9
lpc_lsp2pred(lsp,lpc,LPC_ORD)
vq_lspw(&melp_par−>weights[O],lsp,lpc,LPC_ORD)
3. 現行フレーム・パラメータを指し示す
cur_par=melp_par[0]
4. if num frames < 2 goto step 7
if(num_frames < 2) goto step 7
5. この反復の補間値を得る
alpha cur=interp600_down[num_frames][l]
alpha_prev=interp600_down[num_frames][0]
6. MELPe音声パラメータを補間する
melp_par−>pitch=alpha_cur*cur_par.pitch
+alpha_prev*prev_par.pitch
melp_par−>lsf[i]=alpha_cur*cur_par.lsf[i]
+alpha_prev*prev_par.lsf[i] i=0,..,9
melp_par−>gain[i]=alpha_cur*cur_par.gain[i]
+alpha_prev*prev_par.gain[i] i=0,..,l
melp_par−>jitter=0
melp_par−>bpvc[i]=alpha_cur*cur_par.bpvc[i]
+alpha_prev*prev_par.bpvc[i] i=0,..,4
if(melp_par−>bpvc[i]>=8192) then melp_par−>bpvc[i]=16384 i=0,..,4
else melp_par−>bpvc[i]=0
melp_par−>uv_flag=alpha_cur*cur_par.uv_
flag
+alpha_prev*prev_par.uv_flag
if(melp_par−>uv_flag>=16384) then melp_par−>uv_flag=1
else melp_par−>uv_flag=0
melp_par−>fs_mag[i]=alpha_cur*cur_par.fs_mag[i]
+alpha_prev*prev_par.fs_mag[i] i=0,..,9
melp_par−>weights[i]=alpha_cur*cur_par.weights[i]
+alpha_prev*prev_par.weights[i] i=0,..,9
7. num_frames<>1の場合、Melp600をコールし、符号化ビット・カウントnumBitsを戻す
if(num_frames<>1) then numBits=Melp600Encode()
else numBits=0
8. 次回使用するために現行パラメータを保存する
prev_par=cur_par
9. num_framesを更新する
num_frames=num_frame+1
if(num_frames==10) then num_frames=0
10. 符号化MELPe600の数を戻す。このブロックはnumBitsを戻す
11. 次の入力ブロックを処理する
function transcode600_up()
{
var frame,i,frame_cnt
var lpc[LPC_ORD + 1], weights[LPC_ORD]
var lsp[10]
var num_frames22P5ms=0,num_frames25ms=0
var Frame22P5MSCount[9]={l,l,l,l,l,l,l,l,2}
var alpha_cur,alpha_prev
1. MELPe600符号化パラメータを復号化する
Melp600Decode()
2. このフレームのMELPe600音声パラメータを指し示す
cur_par=melp_par[0]
3. 処理する対象のこの反復フレーム数を得る
frame_cnt=Frame22P5MSCount[num_frames25ms]
frame=0
4. このフレーム補間値を得る
alpha_cur=interp600_up[num_frames22P5ms][l]
alpha_prev=interp6OO_up[num_frames22P5ms][0]
5. (Melp600復号化から)新たなMELPe音声パラメータを補間する
melp_par−>pitch=alpha_cur*cur_par.pitch
+alpha_prev*prev_par.pitch
melp_par−>lsf[i]=alpha_cur*cur_par.lsf[i]
+alpha_prev*prev_par.lsf[i] i=0,..,9
melp_par−>gain[i]=alpha_cur*cur_par.gain[i]
+alpha_prev*prev_par.gain[i] i=0,..,l
melp_par−>jitter=alpha_cur*cur_par.jitter
+alpha_prev*prev_par.jitter
if(melp_par−>jitter>=4096)then melp_par−>jitter=8192
else melp_par−>jitter=0
melp_par−>bpvc[i]=alpha_cur*cur_par.bpvc[i]
+alpha_prev*prev_par.bpvc[i] i=0,..,4
if(melp_par−>bpvc[i]>=8192)then melp_par−>bpvc[i]=16384 i=0,..,4
else melp_par−>bpvc[i]=0
melp_par−>uv_flag=alpha_cur*cur_par.uv_flag
+alpha_prev*prev_par.uv_flag
if(melp_par−>uv_flag>=16384) then melp_par−>uv_flag=1
else melp_par−>uv_flag=0
melp_par−>fs_mag[i]=alpha_cur*cur_par.fs_mag[i]
+alpha_prev*prev_par.fs_mag[i] i=0,..,9
6. 新たな補間LSFの最小帯域幅を制限する
lpc_clamp(melp_par−>lsf,BWMIN_Q15,LPC_ORD)
7. 新たなLSFを使用して、新たな知覚逆電力スペクトル重みを生成する
lsp[i]=melp_par−>lsf[i] i=0,..,9
Ipc_lsp2pred(lsp,lpc,LPC ORD)
vq_lspw(weights,lsp,lpc,LPC_ORD)
8. 解析を行うことなく、新たなMELPe音声パラメータを符号化する
melp2400_encode()
10. 符号化MELPe2400ビットストリームを書き込む
melp_chn_write(&quant_par,&chbuf[frame*BUFSIZE24])
11. 22.5msフレーム・カウンタを更新する
num_frames22P5ms=num_frames22P5ms+1
if(num_frames22P5ms==10) num_frames22P5ms=0
12. フレームを1増やす
frame=frame+1
13. frame<>frame_cntの場合、ステップ4に進む
If frame<>frame_cnt then goto step 4
14. 先行する反復からの現行パラメータを保存する
prev_par=cur_par
15. 25msのフレーム・カウンタを更新する
num_frames25ms=num_frames25ms+ 1
if(num_frames25ms==9) num_frames25ms=0
16. このフレームのMELP2400ビットの正しい数を戻す
if(frame_cnt==2) then return(108)
else return(54)
17. 次の入力ブロックを処理する
MELP2400ボコーダは、音声品質及びベクトル量子化手法を向上させてLPCフーリエ情報を符号化するために予測残差のフーリエ振幅符号化を使用することが可能である。MELP2400ボコーダは、22.5ミリ秒のフレーム・サイズ及び8kHzのサンプリング・レートを含み得る。解析器は、約60Hzのカットオフ周波数及び約30dBの阻止域減衰量を有する4次チェビシェフ・タイプIIフィルタなどの高域通過フィルタを有し得る。バターワース・フィルタは、帯域通過音声解析に使用することが可能である。解析器は、ハミング符号による誤り保護及び線形予測解析を含み得る。合成器は、フィルタリング・パルス及び雑音励振の和による混合励振生成を使用することが可能である。雑音、及び長さが一ピッチ周期の逆離散フーリエ変換を使用することが可能であり、一様な乱数の生成器を使用することが可能である。パルス・フィルタは、有声周波数帯域の帯域通過フィルタ係数の和を有し得、雑音フィルタは、無声周波数帯域の帯域通過フィルタ係数の和を有し得る。適応スペクトル強調フィルタを使用することが可能である。直接表現型フィルタ及びパルス分散による線形予測合成も存在し得る。
次に、MELPパラメータの継承(inherit)フレーム間冗長度を利用することが可能な600bpsMELPボコーダ・アルゴリズムを説明する。これは、本発明の、限定的でない例による前述のアルゴリズムとともに使用することが可能である。MIL−STD−188−110B波形でボコーダを使用する場合の通常のHFチャネル上の信号対雑音比(SNR)に関する診断受入可能性尺度(DAM)及び同韻診断テスト(DTR)における利点を示すデータの一部を提示する。このタイプのボコーダを、本発明のシステム及び方法に使用することが可能である。
600bpsシステムは、通常のMELPボコーダのフロントエンド、MELPパラメータの複数のフレームを蓄積するブロック・バッファ、及びMELPパラメータの個別ブロック・ベクトル量子化器を使用する。MELPの低レート実現形態は、25msフレーム長、及びブロック持続時間が100msの、4フレームのブロック・バッファを使用する。これにより、持続時間が100msのブロック毎に合計60ビット(すなわち、毎秒600ビット)がもたらされる。符号化される通常のMELPパラメータの例を表1に示す。
LPC音声モデルというものが存在している。LPC10eが普及しているが、これは、了解度情報の大半を維持するからであり、パラメータが、声道の人間の音声生成に密接に関係し得るからである。LPC10eは、周波数領域ではなく時間領域において音声スペクトルを表すよう規定することが可能である。LPC10e解析処理又は送信側は、先行音声サンプルの線形の組合せとして人間の声道フィルタをモデル化した予測子係数を生成する。前述の予測子係数は、反射係数に変換して、量子化、補間、並びに、安定度の評価及び補正の向上を可能にすることができる。LPC10eからの合成出力音声は、有声音声部分について、推定されたピッチ・レートで反復される予め準備された(canned)声帯パルス、又は、無声音を表すランダム・ノイズとの畳込を有する前述の予測子係数の利得スケーリングされた畳込であり得る。
LPC10e音声モデルは、2つの半フレーム・ボイシング決定、現在の22.5msのフレーム・ピッチ・レートの推定、フレームのRMSエネルギ、及び、10次予測フィルタによって表す短時間スペクトルを使用している。フレームのより重要なビットの小部分は単純なハミング符号とともに符号化して、一定の度合いの、ビット誤りに対する耐性を可能にすることができる。無声フレームの間、より多くのビットが空き状態であり、より多くのフレームをチャネル誤りから保護するために使用される。
LPC10eモデルは、高い度合いの了解度をもたらす。しかし、音声は、非常に人工的な音のように聞こえ得、多くの場合、ブンブンいう音を含み得る。より低いレートへのこのモデルのベクトル量子化はなお、人工的な音のように聞こえる同じ音声を含む。合成音声は通常、レートが低減されるにつれ、劣化するに過ぎない。MELP音声モデルに基づいたボコーダは、LPC10eに基づいたものよりも、好適な音のように聞こえる品質の音声を提供することができる。MELPモデルのベクトル量子化が可能である。
MELP音声モデルも存在している。MELPは、狭帯域のセキュアな音声符号化の次の標準として、米国政府DoD(国防総省)ディジタル音声処理コンソーシアム(DDVPC)によって開発された。この新たな音声モデルは、2.4kbpsのデータ・レートでの音声品質及び了解度における改良を表す。アルゴリズムは、HMMV、ヘリコプタ、戦車などの耳障りな音響雑音においてうまく機能する。通常、LPC10eモデルのブンブンいう音に聞こえる音声は、受入可能なレベルに低減される。MELPモデルは、帯域が制約されたチャネルにおける音声処理の次世代を表す。
MIL−STD−3005に規定されたMELPモデルは、伝統的なLPC10eパラメトリック・モデルに基づくが、更なる5つの特徴も含む。これらは、有声励振のフーリエ振幅スケーリング、混合励振、非周期パルス、パルス分散、及び適応スペクトル強調である。
混合励振は、5帯域混合モデルを使用して実現される。モデルは、固定フィルタ・バンクを使用して周波数依存性発声強度をシミュレートすることが可能である。このマルチバンド混合励振の主たる効果は、LPC10eボコーダに通常関連したブンブンいう音を低減させるというものである。音声は多くの場合、有声信号及び無声信号の複合である。MELPは、複合信号の、LPC10eの有声/無声のブーリアン決定よりも好適な近似を行う。
MELPボコーダは、周期パルス又は非周期パルスを使用して有声音声を合成することが可能である。非周期パルスは、音声信号の有声部分と非有声部分との間の遷移領域中で最も多く使用される。この特徴は、トーナルな雑音をもたらすことなく、不規則な声帯パルスを合成器が再生することを可能にする。
パルス分散は、スペクトルが平坦化された三角パルスに基づいた固定パルス分散フィルタを使用して実現することが可能である。フィルタは、固定の有限インパルス応答(FIR)フィルタとして実現される。フィルタは、ピッチ周期内に励振エネルギを分散させる効果を有する。パルス分散フィルタは、ピッチ・パルス間の信号をより緩慢に減衰させることにより、フォルマントなしの領域における元の音声と合成音声との間のより好適な一致をもたらすことを目的とする。フィルタは、合成音声の耳障りな特性を低減させる。
適応スペクトル強調フィルタは、LPC声道フィルタの極に基づき、合成音声におけるフォルマントを強調するために使用される。フィルタは、合成帯域通過波形と自然帯域通過波形との間の一致を改善し、音声出力に対して、より自然な特性をもたらすことが可能である。
最初の10個のフーリエ振幅は、LPC残差信号のFFTにおけるピークを位置特定することによって得られる。前述の係数に実施された情報は、知覚的に重要な、より低い周波数における音声生成モデルの精度を向上させる。振幅を使用して、10次LPC処理において失われたエネルギの一部を回復するよう有声励振をスケーリングする。これにより、符号化音声の知覚品質が、特に、男性の場合、及び背景雑音の存在下で向上する。
MELP2400のパラメータ・エントロピも存在している。エントロピ値は、MELPボコーダ音声モデルにおける既存の冗長度を示し得る。MELPのエントロピは以下の表2に示す。ビット数でのエントロピは、マサチューセッツ工科大学(MIT)、SRIインターナショナル社、及びテキサス・インスツルメンツ(TI)社によって開発された音韻バランス文のTIMIT音声データベースを使用して測定された。TIMITは、音韻の豊富な10個の文をそれぞれが発話する、米語の8つの主要方言による、630名の発話者からの音声を含む。600bpsでのブロック量子化についてブロック長の好適な選択肢を求めるために、連続した数のフレームのエントロピも調査された。パラメータ毎に選ばれるブロック長は、以下の部分で説明する。
音声パラメータのベクトル量子化は、現在の研究において、非常に広範囲にわたって研究されているテーマである。低い量子化レートでは、できる限り少ないビットを使用したパラメータの効率的な量子化は必須である。適切なコードブック構造を使用すれば、メモリの複雑度も計算量の複雑度も低減させることが可能である。魅力的なコードブック構造の1つには、複数段階コードブックの使用がある。更に、コードブック構造は、ビット誤りへのコードブック係数の効果を最小にするよう選択することが可能である。コードブックは、TIMIT音声データベースを訓練ベクトルとして使用して平均加重二乗平均誤りを最小にするための一般化されたロイド・アルゴリズムを使用して設計することが可能である。一般化されたロイド・アルゴリズムは、特定のセントロイドの組についての決定領域に訓練組を反復的に区分する工程を含む。新たなセントロイドは次いで、特定の決定領域にわたる歪みを最小にするよう再最適化される。一般化されたロイド・アルゴリズムは以下の通りであり得る。
初期のコードブック値の組(Yi(0))i=1,M及び訓練ベクトルの組{Xn}n=1,N、
k=0、D(0)=0が使用され、閾値εが選択される。
k=0、D(0)=0が使用され、閾値εが選択される。
量子化領域{Vi (k)}i=1,Mは、Vi(k)={Xn:d(Xn,Yi)<d(Xn,Yj) j≠i} i=l,2,..,M;
訓練ベクトルと代表的なコードブック値との間の平均歪みD(k)が計算される;
(D(k)−D(k−l))/D(k)< εの場合、プログラムは停止する;さもなければ、プログラムは続行し;
k=k+lである。各量子化領域Vi (k−l)の要素の平均値である新たなコードブック値(Yi (k))i=1,Mが求められる。
訓練ベクトルと代表的なコードブック値との間の平均歪みD(k)が計算される;
(D(k)−D(k−l))/D(k)< εの場合、プログラムは停止する;さもなければ、プログラムは続行し;
k=k+lである。各量子化領域Vi (k−l)の要素の平均値である新たなコードブック値(Yi (k))i=1,Mが求められる。
非周期パルスは、再構成された音声における孤立した短音のLPC合成アーチファクトを除去するよう設計される。これは主に、再構成音声が純粋に周期的である場合、わずかに発話された音声の領域において生じる。非周期フラグは、ブルブル震えた発声の状態が音声フレーム内に存在していることを示す。発声がブルブル震えている場合、励振のパルス位置は、純粋に周期的な平均位置付近の一様な分布に基づいて合成中にランダム化される。
非周期状態のランレングスの調査により、ランレングスは通常、TIMIT音声データベースにわたり、かつ、検査されるいくつかの雑音条件の下で、3フレームよりも少ない旨が示される。更に、非周期発声フレームのランが生じている場合、同じ4フレーム・ブロック内で第2のランが生じる可能性は低い。音声品質に対する影響は、残りのMELPパラメータをよりうまく量子化するほど大きくなかったので、チャネルを介して非周期ビットを送出しない旨が決定された。
帯域通過発声(BPV)強度は、励振の5つの帯域のうちのどれがMELPモデルにおいて有声又は無声であるかを制御する。最下位ビットがピッチとともに符号化されている間、MELP標準は最上位の4ビットを個々に送出する。表3は、5つの帯域通過発声ビットの確率密度関数の例を示す。前述の5ビットは容易に、通常、可聴の歪みがわずかな状態で2ビットのみに下方量子化することが可能である。更なる削減は、発声決定のフレーム間冗長度を利用することにより、得ることが可能である。現在の低レート符号化器は、4ビットのコードブックを使用して、4フレームのブロックにわたって生じる、最も確率の高い発声遷移を量子化することが可能である。5ビットの帯域通過発声強度の4フレームからのレート削減を4ビットに削減することが可能である。4ビットでは、特定の可聴差が量子化音声において聴かれる。しかし、帯域通過発声による歪みは不快でない。
MELP2400の場合、2つの個々の利得値がフレーム周期毎に送信される。第1の利得値は、10.0乃至77.0dBに及ぶ32値の一様な量子化器を使用して5ビットに量子化される。第2の利得値は、適応アルゴリズムを使用して3ビットに量子化される。MELP600bpsモデルでは、4フレームにわたり、MELPの利得値の両方のベクトルが量子化される。2048個の要素のコードブックを使用すれば、フレーム毎のエネルギ・ビットは、MELP2400のフレーム毎の8ビットから、MELP600のフレーム毎の2.909ビットに削減される。エネルギのフレーム毎の2.909ビット未満の量子化値が調査されているが、量子化歪みは、合成出力音声において可聴になり、単語の開始及び終了(offset)における了解度に影響を及ぼしている。
励振情報は、LPC残差信号のフーリエ係数を含めることによって補われる。前述の係数又は振幅は、LPCパラメータによってモデリングされない励振のスペクトル形状をもたらしている。前述のフーリエ振幅は、LPC残差信号に対するFFTを使用して推定される。FFTは、ピッチ周波数の高調波でサンプリングされる。現在のMIL−STD−3005では、より低い10個の高調波は、より重要とみなされ、22.5msフレームの8ビット・ベクトル量子化器を使用して符号化される。
フーリエ振幅ベクトルは、2つのベクトルのうちの1つに量子化される。無声フレームの場合、送信されたフーリエ振幅を表すよう、スペクトルが平坦なベクトルが選択される。有声フレームの場合、単一のベクトルを使用して、有声フレーム全てを表す。有声フレーム・ベクトルは、低レート・ボコーダに残っている耳障りな特性の一部を低減させるよう選択することが可能である。残りのMELPパラメータのレート低減により、フーリエ振幅に対する、より高いデータ・レートにおいてみられる影響が軽減される。上記量子化を行うために、ビットは必要でない。
MELPモデルは、1kHz低域通過フィルタリングされた音声のエネルギ正規化相関を使用してフレームのピッチを推定する。MELPモデルは、分数のピッチ値を補間することにより、ピッチを更に精緻化する。精緻化された分数ピッチ値を次いで、実際のピッチ値の倍数から生じるピッチ誤りについて検査する。ベクタ量子化のためにMELP600ボコーダが使用するのはこの最終ピッチ値である。
MELPの最終ピッチ値は、ピッチ輪郭の低レート表現が、より自然な音に聞こえることを可能にするよう遷移の一部が平滑化されるように、まずメジアン・フィルタリング(3次)される。平滑化されたピッチ値の連続した4つのフレームが、128個の要素を有するコードブックを使用してベクトル量子化される。コードブックは、K平均手法を使用して訓練することが可能である。結果として生じるコードブックがサーチされ、ピッチの発声フレームの二乗平均誤りを最小にするベクトルが生じる。
MELPのLPCスペクトルは、LPCスペクトルの、より普及している高集約性表現の1つである線スペクトル(LSF)に変換される。LSFは、4段階ベクトル量子化アルゴリズムによって量子化される。第1の段階は7ビットを有する一方、残りの3つの段階は、それぞれ6ビットを使用する。結果として生じる量子化ベクトルは、4つの段階それぞれからのベクトルと、平均ベクトルとの和である。サーチ処理中の各段階で、VQサーチは、知覚加重ユークリッド距離を使用して、元のものとの「M個の最善の」最も近い一致を位置特定する。前述のM個の最善のベクトルは、次の段階を求めるサーチにおいて使用される。4つの段階それぞれの最後の最善のものの係数により、最終の量子化LSFが求められる。
スペクトルの低レート量子化は、LSFの4つのフレームを順次、4段階のベクトル量子化処理を使用して量子化する。コードブックの最初の2つの段階は10ビットを使用する一方、残りの2段階はそれぞれ、9ビットを使用する。最善のベクトルを求めるサーチは、MIL−STD−3005ボコーダに使用されるものと同様な知覚重み付けを備えた同様な「M個の最善の」手法を使用する。4つのスペクトル・フレームは、38ビットのみに量子化される。
コードブック生成処理は、K平均及び一般化されたロイド手法を使用する。K平均コードブックは、一般化されたロイド処理への入力として使用される。スライディング・ウィンドウを、訓練音声の選択された組に対して使用して、4フレーム・ブロックにわたるスペクトル遷移が最終コードブックに適切に表されることを可能にすることができる。コードブックを訓練する処理には、入力音声コンテンツの正しいバランスの選択においてかなりの努力を必要とし得る。訓練データの選択は、コードブックを反復的に生成し、上記平均歪みにより、ベクトルをロギングすることにより、生成することが可能である。この処理は、歪み全体を、受入可能でないレベルに増加させることなく、遷移フレームで表すことが可能な低確率遷移及び固定フレームを除去することが可能である。
診断受入可能性尺度(DAM)及び同韻診断テスト(DRT)を使用して、MELPボコーダの性能を既存のLPCベースのシステムと比較する。何れのテストも、音声符号化器の性能を数量化するために米国政府によって広範囲に使用されている。DAMは、信号自体の基本知覚特性及び高度知覚特性の多様性の検出可能性を聴取者が判断することを必要とする。DRTは、音声中の、了解度に適切な情報が、わずかな数の弁別的特徴によって収容されるという原理に基づいた、2つの選択肢の了解度テストである。DRTは、2値の6つの弁別的特徴(発声、鼻音性、持続性、歯擦音性、低音調性、及び集約性)の状態に関する情報が、試験されている通信システムにより、どの程度よく維持されているかを測定するよう企図されている。
両方のMELPベースのボコーダのDRT性能は、大半のテスト条件の場合、LPCボコーダの了解度を超える。600bpsのMELP DRTは、より高いビット・レートのMELPシステムのわずか3.5ポイント以内にある。MELPのベクトル量子化によるレート低減は、モデルの了解度にあまり影響を与えていない。HMMWVのDRTスコアは、MELPボコーダの雑音前置処理装置が、音響雑音が存在している状態において、より好適な了解度を可能にすることを明らかにしている。
セキュアな音声の利用可能性は、ボコーダのデータを転送するために使用される波形のビット誤りレート性能、及びビット誤りに対するボコーダの耐性に直接関係する。1%のビット誤りレートにより、表5の例で分かるように、MELPベースの符号化器及びLPCベースの符号化器の音声の了解度及び品質が低下する。したがって、有用な範囲は、MELPベースのボコーダの場合、ビット誤りレートが約3%未満であり、LPCベースのボコーダの場合、約1%未満である。
MIL−STD−188―110B波形の1%のビット誤りレートは、図6及び図7それぞれに示すグラフにおけるガウシアン・チャネル、及びCCIRが劣悪なチャネルについて分かり得る。曲線は、2400bpsの標準に対して600bpsの波形を使用することにより、約7dBの利得を達成することが可能である旨を示す。一日のより長い部分の間、HFリンクが機能することを可能にするのは、SNRがより低いこの領域においてである。実際に、多くの2400bpsのリンクは、伝搬及び電力レベルに基づいて、日中は何れの時点でも、1%ビット誤りレート未満で機能することは可能でない。10−20Wの電力レベルを使用する通常のマンパック無線機は、ボコーダ・レートにおける選択を更にミッション・クリティカルにする。
2400bpsのMELPソース・コードの例は、ハリス社によって製造されたMELP600ボコーダと組み合わせたテキサス・インスツルメント社の54Xアセンブリ言語ソース・コードを含み得る。限定的でない一例におけるこのコードは、FAR CALLINGランタイム環境を使用してTMS320VC5416上で実行するよう修正されている。これにより、DSPプログラムが、64K超に及ぶ。コードは、MELPの変数を初期化するためのTF C初期化機構を使用したCコール環境に一体化され、ハリス社固有のDSPオペレーティング・システムと組み合わせられている。
MELP2400標的システム上へのランタイム・ローディングは、解析が24.4%ロード状態で実行され、雑音前置処理器が12.44%ロード状態で実行され、合成が8.88%ロード状態で実行されることを可能にする。非常にわずかなロードの増加が、MELP600合成の一部として生じるが、それは、処理が、テーブル・ルックアップに過ぎないからである。MELP600ボコーダの更なるサイクルは、スペクトル解析のベクトル量子化に含まれる。
新たなMIL−STD−3005ボコーダの音声品質は、より旧いFED−STD−1015よりも良好である。ベクトル量子化手法を、米国MIL−STD−188−110Bに規定されているように、600bps波形の使用と組み合わせた新たな標準のボコーダ上で使用することが可能である。HF性能における5乃至7dBの向上が、一部のフェージング・チャネル上で可能であり得る旨を結果が示しているようである。更に、600bpsボコーダの音声品質は通常、いくつかのテスト条件に対して、既存の2400bpsのLPC10e標準よりも良好である。提示されたシミュレーション結果を検証するために、更なるオンエア・テストが必要になる。オンエア・テストにより、結果が確認された場合、MELPの低レート符号化を、MIL−STD−3005とともに、困難なHFリンクを介した、マンパック無線機に対する通信の改良、及び利用可能性の拡張のために使用することが可能である。
Claims (10)
- 第2のMELPボコーダにおける別の音声フレーム・レートで使用するために、第1のMELP音声符号化器(ボコーダ)からの音声フレーム・レートとして、混合励振線形予測(MELP)符号化音声データをトランスコーディングする方法であって、
前記第1のMELPボコーダによって使用されるMELP音声パラメータに、音声を表す入力データを変換する工程と、
前記MELPパラメータをバッファリングする工程と、
量子化により、音声データ・フレームからの前記MELPパラメータの時間補間を行う工程と、
音声データ・フレームに対応するビット・ブロックとしての補間データに対して符号化機能を行って、前記第1のMELPボコーダとは別の音声フレーム・レートでの前記第2のMELPボコーダによって使用されるビット・レートの低減を行う工程とを含む方法。 - 請求項1記載の方法であって、MELP2400ボコーダで使用されるビット・レートを、MELP600ボコーダで使用されるビット・レートに下方トランスコーディングする工程を更に含む方法。
- 請求項1記載の方法であって、
ブロック内の連続した複数のフレームの非量子化MELPパラメータから、音声データ・ブロックについてMELPパラメータを量子化する工程を更に含む方法。 - 請求項1記載の方法であって、符号化機能を行う工程は、非量子化MELPパラメータを取得し、フレームを合成して、1つのMELP600bpsフレームを形成する工程と、非量子化MELPパラメータを作成する工程と、前記MELP600bpsフレームの前記MELPパラメータを量子化する工程と、それらをシリアル・データ・ストリームに符号化する工程とを含む方法。
- 請求項1記載の方法であって、一遅延フレームを使用して前記MELPパラメータをバッファリングする工程を更に含む方法。
- 請求項1記載の方法であって、25ミリ秒の離間点を予測する工程を更に含む方法。
- 第2のMELPボコーダにおける別の音声フレーム・レートで使用するために、第1のMELP音声符号化器(ボコーダ)からの音声フレーム・レートとして符号化された混合励振線形予測(MELP)音声データをトランスコーディングするボコーダであって、
前記第1のMELPボコーダによって使用されるMELP音声パラメータに、音声を表す入力データを復号化する復号化器回路と、
前記MELPパラメータをバッファリングし、量子化により、音声データ・フレームからの前記MELPパラメータの時間補間を行う変換装置と、
音声データ・フレームに対応するビット・ブロックとしての補間データを符号化して、別の音声フレーム・レートでの前記第2のMELPボコーダによって使用されるビット・レートの低減を行う符号化器回路とを備えるボコーダ。 - 請求項7記載の復号化器であって、前記符号化器回路は、ブロック内の連続した複数のフレームの非量子化MELPパラメータから、音声データ・ブロックについてMELPパラメータを量子化するよう動作する復号化器。
- 請求項7記載のボコーダであって、前記符号化器回路は、非量子化MELPパラメータを取得し、フレームを合成してMELP600bpsフレームを形成し、非量子化MELPパラメータを作成し、前記MELP600bpsフレームの前記MELPパラメータを量子化し、それらをシリアル・データ・ストリームに符号化するよう動作するボコーダ。
- 請求項9記載のボコーダであって、MELP2400符号化データがMELP600符号化データに下方トランスコーディングされるボコーダ。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/425,437 US8589151B2 (en) | 2006-06-21 | 2006-06-21 | Vocoder and associated method that transcodes between mixed excitation linear prediction (MELP) vocoders with different speech frame rates |
PCT/US2007/071534 WO2007149840A1 (en) | 2006-06-21 | 2007-06-19 | Vocoder and associated method that transcodes between mixed excitation linear prediction (melp) vocoders with different speech frame rates |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009541797A true JP2009541797A (ja) | 2009-11-26 |
Family
ID=38664457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009516670A Withdrawn JP2009541797A (ja) | 2006-06-21 | 2007-06-19 | 種々の音声フレーム・レートの混合励振線形予測(melp)ボコーダ間でトランスコーディングするボコーダ及び関連した方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US8589151B2 (ja) |
EP (1) | EP2038883B1 (ja) |
JP (1) | JP2009541797A (ja) |
CN (1) | CN101506876A (ja) |
CA (1) | CA2656130A1 (ja) |
IL (1) | IL196093A (ja) |
WO (1) | WO2007149840A1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070011009A1 (en) * | 2005-07-08 | 2007-01-11 | Nokia Corporation | Supporting a concatenative text-to-speech synthesis |
JP5248867B2 (ja) * | 2006-01-31 | 2013-07-31 | 本田技研工業株式会社 | 会話システムおよび会話ソフトウェア |
US7937076B2 (en) * | 2007-03-07 | 2011-05-03 | Harris Corporation | Software defined radio for loading waveform components at runtime in a software communications architecture (SCA) framework |
US8521520B2 (en) * | 2010-02-03 | 2013-08-27 | General Electric Company | Handoffs between different voice encoder systems |
CN101887727B (zh) * | 2010-04-30 | 2012-04-18 | 重庆大学 | 从help编码到melp编码的语音编码数据转换系统及方法 |
CN103827965B (zh) * | 2011-07-29 | 2016-05-25 | Dts有限责任公司 | 自适应语音可理解性处理器 |
KR20130114417A (ko) * | 2012-04-09 | 2013-10-17 | 한국전자통신연구원 | 훈련 함수 생성 장치, 훈련 함수 생성 방법 및 그것을 이용한 특징 벡터 분류 방법 |
US9672811B2 (en) | 2012-11-29 | 2017-06-06 | Sony Interactive Entertainment Inc. | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection |
CN103050122B (zh) * | 2012-12-18 | 2014-10-08 | 北京航空航天大学 | 一种基于melp的多帧联合量化低速率语音编解码方法 |
US9105270B2 (en) * | 2013-02-08 | 2015-08-11 | Asustek Computer Inc. | Method and apparatus for audio signal enhancement in reverberant environment |
SG11201608787UA (en) * | 2014-03-28 | 2016-12-29 | Samsung Electronics Co Ltd | Method and device for quantization of linear prediction coefficient and method and device for inverse quantization |
LT3751566T (lt) | 2014-04-17 | 2024-07-25 | Voiceage Evs Llc | Būdai, kodavimo įrenginys ir dekoderis, skirti garso signalų linijiniam nuspėjamajam kodavimui ir dekodavimui pereinant tarp kadrų su skirtingais diskretizavimo dažniais |
KR102244612B1 (ko) * | 2014-04-21 | 2021-04-26 | 삼성전자주식회사 | 무선 통신 시스템에서 음성 데이터를 송신 및 수신하기 위한 장치 및 방법 |
KR20230149335A (ko) | 2014-05-07 | 2023-10-26 | 삼성전자주식회사 | 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치 |
US10679140B2 (en) | 2014-10-06 | 2020-06-09 | Seagate Technology Llc | Dynamically modifying a boundary of a deep learning network |
US11593633B2 (en) * | 2018-04-13 | 2023-02-28 | Microsoft Technology Licensing, Llc | Systems, methods, and computer-readable media for improved real-time audio processing |
US11869482B2 (en) | 2018-09-30 | 2024-01-09 | Microsoft Technology Licensing, Llc | Speech waveform generation |
CN112614495A (zh) * | 2020-12-10 | 2021-04-06 | 北京华信声远科技有限公司 | 一种软件无线电多制式语音编解码器 |
US12060148B2 (en) | 2022-08-16 | 2024-08-13 | Honeywell International Inc. | Ground resonance detection and warning system and method |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5602961A (en) * | 1994-05-31 | 1997-02-11 | Alaris, Inc. | Method and apparatus for speech compression using multi-mode code excited linear predictive coding |
US5987506A (en) * | 1996-11-22 | 1999-11-16 | Mangosoft Corporation | Remote access and geographically distributed computers in a globally addressable storage environment |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
CN1371512A (zh) | 1998-12-01 | 2002-09-25 | 加利福尼亚大学董事会 | 增强型波形内插编码器 |
US6453287B1 (en) * | 1999-02-04 | 2002-09-17 | Georgia-Tech Research Corporation | Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders |
US6691082B1 (en) | 1999-08-03 | 2004-02-10 | Lucent Technologies Inc | Method and system for sub-band hybrid coding |
US6581032B1 (en) * | 1999-09-22 | 2003-06-17 | Conexant Systems, Inc. | Bitstream protocol for transmission of encoded voice signals |
US7315815B1 (en) * | 1999-09-22 | 2008-01-01 | Microsoft Corporation | LPC-harmonic vocoder with superframe structure |
US7010482B2 (en) | 2000-03-17 | 2006-03-07 | The Regents Of The University Of California | REW parametric vector quantization and dual-predictive SEW vector quantization for waveform interpolative coding |
US7363219B2 (en) * | 2000-09-22 | 2008-04-22 | Texas Instruments Incorporated | Hybrid speech coding and system |
US20030028386A1 (en) * | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
US6757648B2 (en) * | 2001-06-28 | 2004-06-29 | Microsoft Corporation | Techniques for quantization of spectral data in transcoding |
US20030195006A1 (en) * | 2001-10-16 | 2003-10-16 | Choong Philip T. | Smart vocoder |
US6934677B2 (en) * | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
US6829579B2 (en) * | 2002-01-08 | 2004-12-07 | Dilithium Networks, Inc. | Transcoding method and system between CELP-based speech codes |
US6917914B2 (en) * | 2003-01-31 | 2005-07-12 | Harris Corporation | Voice over bandwidth constrained lines with mixed excitation linear prediction transcoding |
US20040192361A1 (en) | 2003-03-31 | 2004-09-30 | Tadiran Communications Ltd. | Reliable telecommunication |
US7668712B2 (en) * | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
US8457958B2 (en) * | 2007-11-09 | 2013-06-04 | Microsoft Corporation | Audio transcoder using encoder-generated side information to transcode to target bit-rate |
-
2006
- 2006-06-21 US US11/425,437 patent/US8589151B2/en active Active
-
2007
- 2007-06-19 JP JP2009516670A patent/JP2009541797A/ja not_active Withdrawn
- 2007-06-19 CA CA002656130A patent/CA2656130A1/en not_active Abandoned
- 2007-06-19 WO PCT/US2007/071534 patent/WO2007149840A1/en active Application Filing
- 2007-06-19 CN CNA2007800305050A patent/CN101506876A/zh active Pending
- 2007-06-19 EP EP07784473.6A patent/EP2038883B1/en active Active
-
2008
- 2008-12-21 IL IL196093A patent/IL196093A/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
WO2007149840A1 (en) | 2007-12-27 |
CN101506876A (zh) | 2009-08-12 |
WO2007149840B1 (en) | 2008-03-13 |
IL196093A (en) | 2014-03-31 |
EP2038883B1 (en) | 2016-03-16 |
EP2038883A1 (en) | 2009-03-25 |
CA2656130A1 (en) | 2007-12-27 |
IL196093A0 (en) | 2009-09-01 |
US8589151B2 (en) | 2013-11-19 |
US20070299659A1 (en) | 2007-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8589151B2 (en) | Vocoder and associated method that transcodes between mixed excitation linear prediction (MELP) vocoders with different speech frame rates | |
US10249313B2 (en) | Adaptive bandwidth extension and apparatus for the same | |
US6694293B2 (en) | Speech coding system with a music classifier | |
JP5373217B2 (ja) | 可変レートスピーチ符号化 | |
KR100804461B1 (ko) | 보이스화된 음성을 예측적으로 양자화하는 방법 및 장치 | |
JP5343098B2 (ja) | スーパーフレーム構造のlpcハーモニックボコーダ | |
JP4870313B2 (ja) | 可変レート音声符号器におけるフレーム消去補償方法 | |
JP3881943B2 (ja) | 音響符号化装置及び音響符号化方法 | |
US5778335A (en) | Method and apparatus for efficient multiband celp wideband speech and music coding and decoding | |
KR100574031B1 (ko) | 음성합성방법및장치그리고음성대역확장방법및장치 | |
US20010016817A1 (en) | CELP-based to CELP-based vocoder packet translation | |
JP4302978B2 (ja) | 音声コーデックにおける擬似高帯域信号の推定システム | |
RU2636685C2 (ru) | Решение относительно наличия/отсутствия вокализации для обработки речи | |
CN101006495A (zh) | 语音编码装置、语音解码装置、通信装置以及语音编码方法 | |
JP2004287397A (ja) | 相互使用可能なボコーダ | |
Chamberlain | A 600 bps MELP vocoder for use on HF channels | |
EP2951824B1 (en) | Adaptive high-pass post-filter | |
AU6533799A (en) | Method for transmitting data in wireless speech channels | |
Gomez et al. | Recognition of coded speech transmitted over wireless channels | |
JP2004301954A (ja) | 音響信号の階層符号化方法および階層復号化方法 | |
Gardner et al. | Survey of speech-coding techniques for digital cellular communication systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20101007 |