JP2884163B2

JP2884163B2 - 符号化伝送装置

Info

Publication number: JP2884163B2
Application number: JP62037304A
Authority: JP
Inventors: 智彦谷口; 衡平伊勢田; 晃二岡崎; 文雄天野; 重之海上
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1987-02-20
Filing date: 1987-02-20
Publication date: 1999-04-19
Anticipated expiration: 2014-04-19
Also published as: US4890325A; EP0279451A2; EP0279451A3; EP0279451B1; DE3883799T2; DE3883799D1; CA1301072C; JPS63204300A

Description

【発明の詳細な説明】〔概要〕本発明は、符号化伝送装置に関し、異なる圧縮方法で
処理した情報を混在させて伝送する場合に、その圧縮率
と伸長率を一定にするため、有声音と無声音間で、圧縮
率及び伸長率を同一にし、有声音の場合は、ｎピッチ周
期分（ｎは２以上）の音声信号を１ピッチ周期分の音声
信号に圧縮する符号化、無声音の場合はｎサンプル周期
分の音声を１サンプル周期分の音声信号に圧縮する符号
化をそれぞれ行い、また、滑らかな音声信号再生を行う
ため、有声音についてはｎピッチ周期分の音声信号の最
初と最後の振幅が保存される窓関数処理を行い、無声音
については間引きされた１サンプル周期分の音声信号か
らｎサンプル周期分の音声信号の再生を、１サンプル前
あるいは後の音声信号の影響を考慮した補間を行い、圧
縮率・伸長率ともに有声音・無声音間で同一であるこ
と、及び滑らかな、音声再生を行うこと、の２点を特徴
とし、再生音全体の明瞭度を向上させる。〔産業上の利用分野〕本発明は音声信号の符号化伝送装置に係り、特に音声
信号のピッチ周期における繰り返しを利用して時間軸方
向に圧縮，伸長を行うTDHS（Time Domain Harmonic Sca
ling）方式高能率音声符号化伝送装置に関する。〔従来の技術〕 TDHS方式は、音声波形のピッチ周期による周期性を利
用して時間軸方向に帯域の圧縮，伸長を行う符号化方式
であって、下記の文献（１），（２）に詳細に記載され
ており、また文献（３）にその概要が記載されている。
また文献（４）は同様に時間軸方向の圧縮，伸長を行う
方式でTDHS方式の改良案の一つと言えるものである。高能率音声符号化伝送装置はこのようなTDHS方式を用
い、音声信号をその品質を保ったまま情報圧縮を行う装
置である。移動通信，衛星通信あるいは企業内通信等における音
声情報の伝送においては、回線コストの削減が重要であ
り、音声蓄積，音声応答システム等において音声情報の
蓄積を行う場合には、蓄積用メモリ容量の削減が重要で
あるが、高能率音声符号化伝送装置はこれらの要求を可
能にするものである。しかしながら、TDHS方式を用いた高能率音声符号化伝
送装置においては、無声音に対して再生音声の明瞭度が
悪いという問題があるため、このような音声の品質低下
を生じないような音声信号の符号化伝送装置が要望され
る。〔参考文献〕（１）D.Malah,“Time−domain algolithms for harmon
ic bandwidth reduction and time scaling of speech
signals"IEEE Trans.Acoust.Speech,Signal Processin
g,vol.ASSP−27,pp.121−133 Apr.1979 （２）R.V.Cox et al.,“An Implementation of Time D
omain Harmonic Scaling with Application to Speech
Coding"ICC 82,pp.4G.1.1−４（３）古井貞熈「ディジタル音声処理」p.122−124 東
海大学出版会（４）森田，板倉“自己相関法による音声の時間軸での
伸縮方式とその評価”電気音響研究会資料 EA86−５第５図は、従来のTDHS方式を用いた音声符号化伝送装
置の模式的ブロック構成図を示したものであって、１は
時間軸圧縮部（TDHC部）、２はピッチ周期抽出部、３は
符号化部、４は伝送路、５は復号化部、６は時間軸伸長
部（TDHE部）である。第５図において、音声信号入力Ｓ（ｎ）はピッチ周期
抽出部２において、そのピッチ周期を抽出される。時間
軸圧縮部（TDHC部）１は抽出されたピッチ周期に応じて
入力Ｓ（ｎ）を時間軸方向に圧縮し、圧縮信号Sc（ｎ）
を生じる。圧縮信号Sc（ｎ）は符号化部３に加えられ
て、任意の符号化方式で符号化される。符号化された信号は伝送路４を経て伝送される。受信
側においては、復号化部５においてこれを復号して圧縮
再生信号ｃ（ｎ）を生じる。この圧縮再生信号ｃ
（ｎ）は時間軸伸長部（TDHE部）６に加えられて別に伝
送されたピッチ周期の信号を用いて時間軸方向に伸長さ
れて、再生出力（ｎ）を生じる。第６図は第５図の符号化伝送装置における時間軸圧縮
と時間軸伸長の処理の例を説明するものであって、
（ａ）は時間軸圧縮を示し、（ｂ）は時間軸伸長を示し
ている。すなわち時間軸圧縮を行う場合は、第６図（ａ）に示
すように抽出されたピッチ周期Ｐごとに入力Ｓ（ｎ）を
切り出し、２周期を１組として前の周期の信号には重み
窓Ｗ（ｍ）をかけ、後の周期の信号には逆特性の重み窓
１−Ｗ（ｍ）をかけた出力をそれぞれ発生し、これを平
均化して１周期の信号を得ることによって、1/2に圧縮
が行われた圧縮信号Sc（ｎ）が得られる。一方時間軸伸長を行う場合は、第６図（ｂ）に示すよ
うに圧縮再生信号ｃ（ｎ）を３周期分とり、前の２周
期に重み窓１−Ｗ（ｍ）をかけ、後の２周期に重み窓Ｗ
（ｍ）をかけた出力をそれぞれ発生し、これを平均化す
ることによって２周期の再生信号（ｎ）を得ることに
よって、もとの帯域に伸長される。従来のTDHS方式においては、音声信号の周期性を抽出
するための評価関数として、下記の（１）式に示すよう
に波形の相関を算出するもの、または下記の（２）式に
示すように波形の類似性を算出するものを用い、これに
よって最も相関が大きくなる周期をピッチ周期としてい
た。 S₁（Ｎ）＝Σx_j・x_j-N/Σx_j ² …（１） S₂（Ｎ）＝Σ|x_j−x_j-N| …（２）またこのようなピッチ周期の探索の範囲としては、ピ
ッチ周波数の上限，下限を規定し、例えば16≦Ｎ≦200
程度の範囲で探索を行っていた。このような探索方法では、周期性のない無声音のよう
な場合、正しく周期の抽出を行うことができず、従って
ランダムな値に設定されたピッチ周期に応じて圧縮，伸
長が行われるため、波形の性質が保存されず再生音声の
明瞭度が悪くなる等の品質劣化を生じていた。〔発明が解決しようとする課題〕本発明の目的は無声音に対する再生音声品質が改善さ
れ、再生音全体の明瞭度を向上させることができる符号
化伝送装置を提供することにある。〔課題を解決するための手段〕本発明の符号化伝送装置は、第１図に示す原理的構成
を有し、音声信号を帯域圧縮して符号化して伝送し、復
号信号をもとの帯域に伸長して再生する音声信号の符号
化伝送装置において、音声識別部10と、ピッチ周期抽出
部２と、時間軸圧縮部１と、間引き部７とを送信側に具
えるとともに、時間軸伸長部６と、補間部８とを受信側
に具えたものである。音声識別部10は、音声信号の有声音の区間と無声音の
区間とを識別する。ピッチ周期抽出部２は、有声音の区間において音声信
号のピッチ周期を抽出する。時間軸圧縮部１は、複数ピッチ周期分の音声信号から
１ピッチ周期分をとり出して伝送する。間引き部７は、無声音の区間において複数サンプル周
期分の音声信号から１サンプル周期分をとり出して伝送
する。時間軸伸長部６は、１ピッチ周期分の信号からもとの
複数ピッチ周期分に伸長する。補間部８は、１サンプル周期分の信号からもとの複数
サンプル周期分に伸長する。従って、本発明の構成は以下に示す通りである。即
ち、音声信号を帯域圧縮して符号化して送信し、受信し
た帯域圧縮された音声信号を復号化して再生する音声信
号の符号化伝送装置において、音声信号の有声音の区間と無声音の区間とを識別する
音声識別識別手段（10）と、有声音の区間において音声信号のピッチ周期を抽出す
るピッチ周期抽出手段（２）と、該ピッチ周期の複数個分の有声音の区間の音声信号
を、最初と最後の振幅を保存しながら１ピッチ周期分の
有声音の区間の音声信号に圧縮する時間軸圧縮手段
（１）と、無声音の区間において、前記１ピッチ周期分に圧縮さ
れた有声音の区間の音声信号のピッチ周期数と同数のサ
ンプル周期数分の無声音の区間の音声信号を平均化して
１サンプル周期分の無声音の区間の音声信号に圧縮する
間引き手段（７）とを送信側に具えるとともに、該１ピッチ周期分の有声音の区間の音声信号からもと
の複数ピッチ周期分の有声音の区間の音声信号に、最初
と最後の振幅値を復元して伸長する時間軸伸長手段
（６）と、該１サンプル周期分の無声音の区間の音声信号からも
との複数サンプル周期分の無声音の区間の音声信号に、
該音声信号の１サンプル前の音声信号あるいは１サンプ
ル後の音声信号に基づいて補間する補間手段（８）とを
受信側に具えてなることを特徴とする符号化伝送装置と
しての構成を有する。〔作用〕音声信号の有声音の区間と無声音の区間とを識別し、
異なる圧縮方法で処理した情報を混在させて伝送する場
合には、この圧縮率と伸長率を一定にする必要があり、
そのため、有声音と無声音間で、圧縮率及び伸長率を同
一にしている。有声音の場合は、ｎピッチ周期分（ｎは
２以上）の音声信号を１ピッチ周期分の音声信号に圧縮
する符号化、無声音の場合はｎサンプル周期分の音声を
１サンプル周期分の音声信号に圧縮する符号化をそれぞ
れ行う。また、滑らかな音声信号再生を行うため、有声音につ
いてはｎピッチ周期分の音声信号の最初と最後の振幅が
保存される窓関数処理を行う。また、無声音については間引きされた１サンプル周期
分の音声信号からｎサンプル周期分の音声信号の再生
を、１サンプル前あるいは後の音声信号の影響を考慮し
た補間を行う。圧縮率・伸長率ともに有声音・無声音間で同一である
こと、及び滑らかな、音声再生を行うことによって有声
音と無声音の両方の区間において、信号の時間軸方向の
圧縮と伸長が正しく行われるので、再生音全体の明瞭度
が向上する。〔実施例〕第２図は本発明の一実施例としての符号化伝送装置の
模式的ブロック構成図を示したものであって、第５図に
おけると同じ部分を同じ番号で示し、７は間引き部、８
は補間部、9₁,9₂はスイッチである。第３図は第２図の実施例における間引き部7,補間部８
の処理を説明する図である。また第４図は第２図の実施例におけるピッチ周期抽出
部２の構成例を示したものであって、11は共分散算出
部、12は最大値検出部、13は共分散閾値設定部、14は比
較部、15は判定部、16₁,16₂はスイッチである。第２図において、ピッチ周期抽出部２は入力Ｓ（ｎ）
の周期性を検出して、周期性が大きい有性音の部分に対
してはそのピッチ周期Ｐ＝ｐ（ｐはピッチ周期に対応す
るサンプリング周波数）を抽出して出力し、周期性が小
さい有声音の部分に対してはピッチ周期Ｐ＝１を出力す
る。スイッチ9₁,9₂はピッチ周期Ｐ≠１のときは、それぞ
れ時間軸圧縮部1,時間軸伸長部６の側に切り替えられ、
時間軸圧縮部１はピッチ周期Ｐ＝ｐによって第５図の場
合と同様にして時間軸圧縮を行い、時間軸伸長部６は同
様にピッチ周期Ｐ＝ｐによって時間軸伸長の処理を行
う。一方ピッチ周期Ｐ＝１のときは、スイッチ9₁,9₂はそ
れぞれ間引き部7,補間部８の側に切り替えられ、ピッチ
周期Ｐ＝１によって間引きと補間の処理を行う。ここで
ピッチ周期Ｐ＝１は音声のサンプリング周期によって処
理を行うことを意味する。間引き処理においては、下記
の（３）式に示すように２サンプリング周期の音声信号
の平均値を算出し、１サンプリング周期の圧縮信号Sc
（ｎ）を発生することによって、1/2に圧縮された圧縮
信号Sc（ｎ）を得る。 Sc（ｉ）＝（Ｓ（ｉ）＋Ｓ（ｉ＋１））/2 …（３）第３図（ａ）は、このような処理を模式的に示してい
る。補間部８においては、圧縮再生信号ｃ（ｉ）に対し
１サンプリング周期後の信号を用いて（４−１），（４
−２）式に従って補間処理を行って、１サンプリング周
期の圧縮再生信号ｃ（ｎ）から２サンプリング周期の
再生出力（ｎ）を再生することによって、もとの帯域
に伸長する。（2i−１）＝（ｃ（ｉ−１）＋3・ｃ（i））/4
…（４−１）（2i）＝（３・ｃ（ｉ）＋ｃ（ｉ＋１））/4…
（４−２）第３図（ｂ）は、このような処理を模式的に示してい
る。またこの場合におけるピッチ周期の抽出は、第４図に
示すようにして行われる。すなわち共分散算出部11は入力Ｓ（ｎ）に対して、下
記の（５）式の定義される共分散をM₁次からM₂次まで算
出する。ここで通常M₁＝16,M₂＝200程度である。最大値検出部
12は、このようにして求められたＣ（M₁）〜Ｃ（M₂）の
うちの最大値maxC（ｉ）（ｉ＝M₁〜M₂）を検出して、共
分散値Ｃ（Ｐ）とする。ここでＰはピッチ周期である。このようにして検出された共分散値Ｃ（Ｐ）を比較部
14に加え、共分散値閾値設定部13に設定された一定の閾
値Cthと比較する。比較部14はＣ（Ｐ）＜CthまたはＣ
（Ｐ）≧Cthに応じて出力を発生する。ここでＣ（Ｐ）
＜Cthならば周期性が小さいので無声音であり、Ｃ
（Ｐ）≧Cthならば周期性が大きいので有声音であるか
ら、判定部15は比較部14の出力に応じて無声音、有声音
の判定を行って、有声音の場合にピッチ周期Ｐ＝ｐ（ｐ
はサンプリング周期数で示されたピッチ周期）を出力
し、無声音の場合はＰ＝１を出力する。この場合、共分
散値閾値設定部13に設計される閾値Cthの値は、通常0.6
〜0.7程度である。〔発明の効果〕以上説明したように本発明によれば、有声音と無声音
間で、圧縮率及び伸長率を同一にしており、有声音の場
合は、ｎピッチ周期分（ｎは２以上）の音声信号を１ピ
ッチ周期分の音声信号に圧縮する符号化、無声音の場合
はｎサンプル周期分の音声を１サンプル周期分の音声信
号に圧縮する符号化をそれぞれ行い、また、滑らかな音
声信号再生を行うため、有声音についてはｎピッチ周期
分の音声信号の最初と最後の振幅が保存される窓関数処
理を行い、また、無声音については間引きされた１サン
プル周期分の音声信号からｎサンプル周期分の音声信号
の再生を、１サンプル前あるいは後の音声信号の影響を
考慮した補間を行ため、圧縮率・伸長率ともに有声音・
無声音間で同一であり、滑らかな音声再生を行うことが
でき、無声音に対する再生音声品質が改善され、再生音
全体の明瞭度を向上させることができる。

【図面の簡単な説明】第１図は本発明の符号化伝送装置の原理的構成を示す
図、第２図は本発明の一実施例としての符号化伝送装置の模
式的ブロック構成を示す図、第３図は第２図の実施例における間引き部７と補間部８
の処理を説明する図、第４図は第２図の実施例におけるピッチ周期抽出部２の
構成例を示す図、第５図は従来のTDHS方式を用いた符号化伝送装置の模式
的ブロック構成を示す図、第６図は第５図の符号化伝送装置における（ａ）時間軸
圧縮と（ｂ）時間軸伸長の処理の例を説明する図であ
る。１……時間軸圧縮部（TDHC部）２……ピッチ周期抽出部３……符号化部４……伝送路５……復号化部６……時間軸伸長部（TDHE部）７……間引き部８……補間部 9₁,9₂……スイッチ 10……音声識別部 11……共分散算出部 12……最大値検出部 13……共分散閾値設定部 14……比較部 15……判定部 16₁,16₂……スイッチ

───────────────────────────────────────────────────── フロントページの続き (72)発明者天野文雄川崎市中原区上小田中1015番地富士通株式会社内 (72)発明者海上重之川崎市中原区上小田中1015番地富士通株式会社内 (56)参考文献特開昭59−82608（ＪＰ，Ａ) 特開昭57−58198（ＪＰ，Ａ) 特開昭54−16105（ＪＰ，Ａ) 特公昭59−41599（ＪＰ，Ｂ２) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 - 3/02 G10L 9/00 - 9/18

Claims

(57)【特許請求の範囲】１．音声信号を帯域圧縮して符号化して送信し、受信し
た帯域圧縮された音声信号を復号化して再生する音声信
号の符号化伝送装置において、音声信号の有声音の区間と無声音の区間とを識別する音
声識別識別手段と、有声音の区間において音声信号のピッチ周期を抽出する
ピッチ周期抽出手段と、該ピッチ周期の複数個分の有声音の区間の音声信号を、
最初と最後の振幅を保存しながら１ピッチ周期分の有声
音の区間の音声信号に圧縮する時間軸圧縮手段と、無声音の区間において、前記１ピッチ周期分に圧縮され
た有声音の区間の音声信号のピッチ周期数と同数のサン
プル周期数分の無声音の区間の音声信号を平均化して１
サンプル周期分の無声音の区間の音声信号に圧縮する間
引き手段とを送信側に具えるとともに、該１ピッチ周期分の有声音の区間の音声信号からもとの
複数ピッチ周期分の有声音の区間の音声信号に、最初と
最後の振幅値を復元して伸長する時間軸伸長手段と、該１サンプル周期分の無声音の区間の音声信号からもと
の複数サンプル周期分の無声音の区間の音声信号に、該
音声信号の１サンプル前の音声信号あるいは１サンプル
後の音声信号に基づいて補間する補間手段とを受信側に
具えてなることを特徴とする符号化伝送装置。