JP2007108440A

JP2007108440A - 音声信号圧縮装置、音声信号復元装置、音声信号圧縮方法、音声信号復元方法及びプログラム

Info

Publication number: JP2007108440A
Application number: JP2005299346A
Authority: JP
Inventors: Yasushi Sato; 寧佐藤
Original assignee: Kenwood KK
Current assignee: Kenwood KK
Priority date: 2005-10-13
Filing date: 2005-10-13
Publication date: 2007-04-26
Anticipated expiration: 2025-10-13
Also published as: JP4736699B2

Abstract

【課題】人が発する音声を表す成分を含んだデータのデータ容量を効率よく圧縮することを可能にするための音声信号圧縮装置等を提供することである。
【解決手段】コンピュータＣ１は、圧縮する音声データの単位ピッチ分にあたる区間の時間長を同一に揃えることによりピッチ波形信号を生成し、このピッチ波形信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成する。そして、このサブバンド信号を、所定の基準に合致する程度の周期性を有する成分からなる連続成分と、その他の成分からなるランダム成分とに分離し、連続成分に、エントロピー符号化又は線形予測符号化を施す。
【選択図】図１

Description

この発明は、音声信号圧縮装置、音声信号復元装置、音声信号圧縮方法、音声信号復元方法及びプログラムに関する。

テキストデータなどを音声へと変換する音声合成の手法が、カーナビゲーション等の分野で近年行われるようになっている。
音声合成では、例えば、テキストデータが表す文に含まれる単語、文節及び文節相互の係り受け関係が特定され、特定された単語、文節及び係り受け関係に基づいて、文の読み方が特定される。そして、特定した読み方を表す表音文字列に基づき、音声を構成する音素の波形や継続時間やピッチ（基本周波数）のパターンが決定され、決定結果に基づいて漢字かな混じり文全体を表す音声の波形が決定され、決定された波形を有するような音声が出力される。

上述した音声合成の手法において、音声の波形を特定するためには、音声の波形を表す音声データを集積した音声辞書を検索する。合成する音声を自然なものにするためには、音声辞書が膨大な数の音声データを集積していなければならない。

加えて、カーナビゲーション装置等、小型化が求められる装置にこの手法を応用する場合は、一般的に、装置が用いる音声辞書を記憶する記憶装置もサイズの小型化が必要になる。そして、記憶装置のサイズを小型化すれば、一般的にはその記憶容量の小容量化も避けられない。

そこで、記憶容量が小さな記憶装置にも十分な量の音声データを含んだ音素辞書を格納できるようにするため、音声データにデータ圧縮を施し、音声データ１個あたりのデータ容量を小さくすることが行われていた（例えば、特許文献１参照）。
特表２０００−５０２５３９号公報

しかし、データの規則性に着目してデータを圧縮する手法であるエントロピー符号化の手法（具体的には、算術符号化やハフマン符号化など）を用いて、人が発する音声を表す音声データを圧縮する場合、人が発声した音声を表す音声データにはある程度の規則性がみられるため効率のよい圧縮が行えるものの、人が発声した音声に起因しない成分（例えば、楽器が発する音を表す成分など）を含む音声データは、全体としては必ずしも明確な周期性を有していないため、圧縮の効率が低かった。

また、人が発声した音声を表す音声データをエントロピー符号化する際には、ピッチのゆらぎも問題になっていた。ピッチは、人間の感情や意識に影響されやすく、ある程度は一定とみなせる周期であるものの、現実には微妙にゆらぎを生じる。従って、同一話者が同じ言葉（音素）を複数ピッチ分発声した場合、ピッチの間隔は通常、一定しない。従って、１個の音素を表す波形にも正確な規則性がみられない場合が多く、このためにエントロピー符号化による圧縮の効率が低くなる場合が多かった。

この発明は上記実状に鑑みてなされたものであり、人が発する音声を表す成分を含んだデータのデータ容量を効率よく圧縮することを可能にするための音声信号圧縮装置、音声信号圧縮方法及びプログラムを提供すること、また、このような音声信号圧縮装置及び音声信号圧縮方法により圧縮されたデータを復元するための音声信号復元装置、音声信号復元方法及びプログラムを提供することを目的とする。

上記目的を達成すべく、この発明の第１の観点に係る音声信号圧縮装置は、
音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成するサブバンド抽出手段と、
前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離する成分分離手段と、
前記連続成分にエントロピー符号化又は線形予測符号化を施す符号化手段と、を備える、
ことを特徴とする。

また、この発明の第２の観点に係る音声信号圧縮装置は、
音声の波形を表す圧縮対象の音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工する音声信号加工手段と、
前記ピッチ波形信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成するサブバンド抽出手段と、
前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離する成分分離手段と、
前記連続成分にエントロピー符号化又は線形予測符号化を施す符号化手段と、を備える、
ことを特徴とする。

前記音声信号圧縮装置は、前記圧縮対象の音声信号より、前記音声のピッチ成分を抽出するピッチ成分抽出手段を備えていてもよく、
前記成分分離手段は、抽出された前記ピッチ成分の強度に基づき、前記連続成分及び前記ランダム成分を分離するか否かを決定し、分離すると決定したとき、前記連続成分及び前記ランダム成分を前記サブバンド信号より分離するものであってもよい。

前記成分分離手段は、前記連続成分及び前記ランダム成分を分離しないと決定したとき、前記サブバンド信号を前記連続成分として扱うことを決定するものであってもよい。

前記符号化手段は、前記連続成分を非線形量子化した結果、及び／又は前記ランダム成分を非線形量子化した結果にエントロピー符号化を施すものであってもよい。

前記符号化手段は、前記非線形量子化の量子化特性を示すデータを生成するものであってもよい。

前記符号化手段は、過去にエントロピー符号化された連続成分及び／又はランダム成分のデータ量に基づいて、前記非線形量子化の量子化特性を決定し、決定した量子化特性に合致するように前記非線形量子化を行うものであってもよい。

また、この発明の第３の観点に係る音声信号復元装置は、
音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号のうち所定の基準に合致する程度の周期性を有する連続成分を抽出してエントロピー符号化又は線形予測符号化を施したものに相当する入力信号を取得し、当該入力信号を復号化することにより当該連続成分を復元する復号化手段と、
復元された前記連続成分を前記サブバンド信号より除いたものに相当するランダム成分を取得し、当該連続成分に当該ランダム成分を加算することにより、当該サブバンド信号を復元するサブバンド信号復元部と、
復元されたサブバンド信号に基づいて前記圧縮対象の音声信号を復元する音声信号復元手段と、を備える、
ことを特徴とする。

また、この発明の第４の観点に係る音声信号圧縮方法は、
音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成し、
前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離し、
前記連続成分にエントロピー符号化又は線形予測符号化を施す、
ことを特徴とする。

また、この発明の第５の観点に係る音声信号圧縮方法は、
音声の波形を表す圧縮対象の音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工し、
前記ピッチ波形信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成し、
前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離し、
前記連続成分にエントロピー符号化又は線形予測符号化を施す、
ことを特徴とする。

また、この発明の第６の観点に係る音声信号復元方法は、
音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号のうち所定の基準に合致する程度の周期性を有する連続成分を抽出してエントロピー符号化又は線形予測符号化を施したものに相当する入力信号を取得し、当該入力信号を復号化することにより当該連続成分を復元し、
復元された前記連続成分を前記サブバンド信号より除いたものに相当するランダム成分を取得し、当該連続成分に当該ランダム成分を加算することにより、当該サブバンド信号を復元し、
復元されたサブバンド信号に基づいて前記圧縮対象の音声信号を復元する、
ことを特徴とする。

また、この発明の第７の観点に係るプログラムは、
コンピュータを、
音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成するサブバンド抽出手段と、
前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離する成分分離手段と、
前記連続成分にエントロピー符号化又は線形予測符号化を施す符号化手段と、
して機能させるためのものであることを特徴とする。

また、この発明の第８の観点に係るプログラムは、
コンピュータを、
音声の波形を表す圧縮対象の音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工する音声信号加工手段と、
前記ピッチ波形信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成するサブバンド抽出手段と、
前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離する成分分離手段と、
前記連続成分にエントロピー符号化又は線形予測符号化を施す符号化手段と、
して機能させるためのものであることを特徴とする。

また、この発明の第９の観点に係るプログラムは、
コンピュータを、
音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号のうち所定の基準に合致する程度の周期性を有する連続成分を抽出してエントロピー符号化又は線形予測符号化を施したものに相当する入力信号を取得し、当該入力信号を復号化することにより当該連続成分を復元する復号化手段と、
復元された前記連続成分を前記サブバンド信号より除いたものに相当するランダム成分を取得し、当該連続成分に当該ランダム成分を加算することにより、当該サブバンド信号を復元するサブバンド信号復元部と、
復元されたサブバンド信号に基づいて前記圧縮対象の音声信号を復元する音声信号復元手段と、
して機能させるためのものであることを特徴とする。

この発明によれば、人が発する音声を表す成分を含んだデータのデータ容量を効率よく圧縮することを可能にするための音声信号圧縮装置、音声信号圧縮方法及びプログラムが実現され、また、このような音声信号圧縮装置及び音声信号圧縮方法により圧縮されたデータを復元するための音声データ復元装置、音声データ復元方法及びプログラムが実現される。

以下に、図面を参照して、この発明の実施の形態を説明する。
（第１の実施の形態）
図１は、この発明の第１の実施の形態に係る音声データ圧縮システムの構成を示す図である。図示するように、この音声データ圧縮システムは、記録媒体（例えば、フレキシブルディスクやＣＤ−Ｒ（Compact Disc-Recordable）など）に記録されたデータを読み取る記録媒体ドライブ装置（フレキシブルディスクドライブや、ＣＤ−ＲＯＭドライブなど）ＳＭＤと、記録媒体ドライブ装置ＳＭＤに接続されたコンピュータＣ１とより構成されている。

図示するように、コンピュータＣ１は、ＣＰＵ（Central Processing Unit）やＤＳＰ（Digital Signal Processor）等からなるプロセッサや、ＲＡＭ（Random Access Memory）等からなる揮発性メモリや、ハードディスク装置等からなる不揮発性メモリや、キーボード等からなる入力部や、液晶ディスプレイ等からなる表示部や、ＵＳＢ（Universal Serial Bus）インターフェース回路等からなっていて外部とのシリアル通信を制御するシリアル通信制御部などからなっている。

コンピュータＣ１は音声データ圧縮プログラムを予め記憶しており、この音声データ圧縮プログラムを実行することにより後述する処理を行う。

（第１の実施の形態：動作）
次に、この音声データ圧縮システムの動作を、図２及び図３を参照して説明する。図２及び図３は、図１の音声データ圧縮システムの動作の流れを示す図である。

ユーザが、音声の波形を表す音声データを記録した記録媒体を記録媒体ドライブ装置ＳＭＤにセットして、コンピュータＣ１に、音声データ圧縮プログラムの起動を指示すると、コンピュータＣ１は、音声データ圧縮プログラムの処理を開始する。

すると、まず、コンピュータＣ１は、記録媒体ドライブ装置ＳＭＤを介し、記録媒体より音声データを読み出す（図２、ステップＳ１０１）。なお、音声データは、例えばＰＣＭ（Pulse Code Modulation）変調されたディジタル信号の形式を有しており、音声のピッチより十分短い一定の周期でサンプリングされた音声を表しているものとする。

次に、コンピュータＣ１は、記録媒体より読み出された音声データをフィルタリングすることにより、フィルタリングされた音声データ（ピッチ信号）を生成する（ステップＳ１０２）。ピッチ信号は、音声データのサンプルリング間隔と実質的に同一のサンプリング間隔を有するディジタル形式のデータからなるものとする。

なお、コンピュータＣ１は、ピッチ信号を生成するために行うフィルタリングの特性を、後述するピッチ長と、ピッチ信号の瞬時値が０となる時刻（ゼロクロスする時刻）とに基づくフィードバック処理を行うことにより決定する。

すなわち、コンピュータＣ１は、読み出した音声データに、例えば、ケプストラム解析や、自己相関関数に基づく解析を施すことにより、この音声データが表す音声の基本周波数を特定し、この基本周波数の逆数の絶対値（すなわち、ピッチ長）を求める（ステップＳ１０３）。（あるいは、コンピュータＣ１は、ケプストラム解析及び自己相関関数に基づく解析の両方を行うことにより基本周波数を２個特定し、これら２個の基本周波数の逆数の絶対値の平均をピッチ長として求めるようにしてもよい。）

なお、ケプストラム解析としては、具体的には、まず、読み出した音声データの強度を、元の値の対数（対数の底は任意）に実質的に等しい値へと変換し、値が変換された音声データのスペクトル（すなわち、ケプストラム）を、高速フーリエ変換の手法（あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法）により求める。そして、このケプストラムの極大値を与える周波数のうちの最小値を基本周波数として特定する。

一方、自己相関関数に基づく解析としては、具体的には、読み出した音声データを用いてまず、数式１の右辺により表される自己相関関数ｒ（ｌ）を特定する。そして、自己相関関数ｒ（ｌ）をフーリエ変換した結果得られる関数（ピリオドグラム）の極大値を与える周波数のうち、所定の下限値を超える最小の値を基本周波数として特定する。

一方、コンピュータＣ１は、ピッチ信号がゼロクロスする時刻が来るタイミングを特定する（ステップＳ１０４）。そして、コンピュータＣ１は、ピッチ信号のゼロクロスの周期とピッチ長とが互いに所定量以上異なっているか否かを判別し（ステップＳ１０５）、異なっていないと判別した場合は、ゼロクロスの周期の逆数を中心周波数とするようなバンドパスフィルタの特性で上述のフィルタリングを行うこととする（ステップＳ１０６）。一方、所定量以上異なっていると判別した場合は、ピッチ長の逆数を中心周波数とするようなバンドパスフィルタの特性で上述のフィルタリングを行うこととする（ステップＳ１０７）。なお、いずれの場合も、フィルタリングの通過帯域幅は、通過帯域の上限が音声データの表す音声の基本周波数の２倍以内に常に収まるような通過帯域幅であることが望ましい。

次に、コンピュータＣ１は、生成したピッチ信号の単位周期（例えば１周期）の境界が来るタイミング（具体的には、ピッチ信号がゼロクロスするタイミング）で、記録媒体から読み出した音声データを区切る（ステップＳ１０８）。そして、区切られてできる区間のそれぞれについて、この区間内の音声データの位相を種々変化させたものとこの区間内のピッチ信号との相関を求め、最も相関が高くなるときの音声データの位相を、この区間内の音声データの位相として特定する（ステップＳ１０９）。そして、音声データのそれぞれの区間を、互いが実質的に同じ位相になるように移相する（ステップＳ１１０）。

具体的には、コンピュータＣ１は、それぞれの区間毎に、例えば、数式２の右辺により表される値ｃｏｒを、位相を表すφ（ただし、φは０以上の整数）の値を種々変化させた場合それぞれについて求める。そして、値ｃｏｒが最大になるようなφの値Ψを、この区間内の音声データの位相を表す値として特定する。この結果、この区間につき、ピッチ信号との相関が最も高くなる位相の値が定まる。そして、コンピュータＣ１は、この区間内の音声データを、（−Ψ）だけ移相する。

音声データを上述の通り移相することにより得られるデータが、ピッチ波形データである。ピッチ波形データが表す波形の一例を図４（ｃ）に示す。図４（ａ）に示す移相前の音声データの波形のうち、「＃１」及び「＃２」として示す２個の区間は、図４（ｂ）に示すように、ピッチのゆらぎの影響により互いに異なる位相を有している。これに対し、移相された音声データ（すなわち、ピッチ波形データ）が表す波形の区間＃１及び＃２は、図４（ｃ）に示すように、ピッチのゆらぎの影響が除去されて位相が揃っている。また、図４（ａ）に示すように、各区間の始点の値は０に近い値となっている。

なお、区間の時間的な長さは、１ピッチ分程度であることが望ましい。区間が長いほど、区間内のサンプル数が増えて、ピッチ波形データのデータ量が増大し、あるいは、サンプリング間隔が増大してピッチ波形データが表す音声が不正確になる、という問題が生じる。

次に、コンピュータＣ１は、ピッチ波形データを補間する（ステップＳ１１１）。すなわち、ピッチ波形データのサンプル間を補間する値を表す補間データを生成してピッチ波形データに追加することにより、補間後のピッチ波形データを生成する。

次に、コンピュータＣ１は、補間後のピッチ波形データの各区間をサンプリングし直す（リサンプリングする）。また、各区間の元のサンプル数を示すデータであるサンプル数データも生成する（ステップＳ１１２）。なお、コンピュータＣ１は、ピッチ波形データの各区間のサンプル数が互いにほぼ等しくなるようにして、同一区間内では等間隔になるようリサンプリングするものとする。
記録媒体より読み出した音声データのサンプリング間隔が既知であるものとすれば、サンプル数データは、この音声データの単位ピッチ分の区間の元の時間長を表す情報として機能する。

次に、コンピュータＣ１は、リサンプリングされたピッチ波形データにＤＣＴ（Discrete Cosine Transform）等の直交変換を施すことにより、サブバンドデータ群を生成する（ステップＳ１１３）。サブバンドデータ群は、リサンプリングされたピッチ波形データが表す音声の基本周波数成分の強度の時間変化を表すデータ（０番目のサブバンドデータ）と、この音声のｎ個（ｎは自然数）の高調波成分の強度の時間変化を表すｎ個のデータ（１番目〜ｎ番目のサブバンドデータ）とより構成されている。（従って、サブバンドデータは、音声の基本周波数成分（又は高調波成分）の強度の時間変化がないとき、この基本周波数成分（又は高調波成分）の強度を、直流信号の形で表す。）

次に、コンピュータＣ１は、ステップＳ１０２で生成されたピッチ信号の振幅が所定量に達しているか否かを判別し（ステップＳ１１４）、達していないと判別した場合は、ステップＳ１１３で生成したサブバンドデータ群に含まれるサブバンドデータをそれぞれフィルタリングすることにより、各々のサブバンドデータのうち一定程度以上に強い周期性を有する成分を表すデータ（以下、連続成分データと呼ぶ）を生成し、また、当該サブバンドデータから連続成分を除いた成分を表すデータ（以下、ランダム成分データと呼ぶ）も生成して（ステップＳ１１５）、ステップＳ１１７に処理を移す。
（なお、以下では、ｋ番目（ｋは０以上ｎ以下の整数）のサブバンドデータより分離された連続成分データをｋ番目の連続成分データと呼び、また、ｋ番目のサブバンドデータより分離されたランダム成分データをｋ番目のランダム成分データと呼ぶ。）

一方、ピッチ信号の振幅が所定量に達しているとステップＳ１１４で判別した場合、コンピュータＣ１は、ｋ番目のサブバンドデータをそのままｋ番目の連続成分データとして扱うことと決定し（ステップＳ１１６）、処理をステップＳ１１７に移す。

一般に、人が発声する音声には、周期性のあるピッチ成分が多く含まれているのに対し、その他の音（例えば、楽器が発生する音など）には、周期性のある成分が多く含まれない。従って、上述の連続成分データは、サブバンドデータのうち人が発声する音声に起因する成分を表すとみることができ、一方、上述のランダム成分データは、人が発声する音声に起因しない成分を表すとみることができる。
そして、ステップＳ１１４でコンピュータＣ１が行う処理は、「サブバンドデータ群のうち人が発声する音声に起因しない成分の存在を無視し、サブバンドデータ群の全成分を、人が発声する音声の成分を表すものとして扱ってよいか否か」を判定する処理に相当するものであって、人が発声する音声に起因しない成分を無視できない（具体的には、ピッチ信号の振幅が所定量に達していない）と判別した場合には、サブバンドデータを、人が発声する音声に起因すると考えられる成分と、起因しないと考えられる成分とに分離する、という処理に相当するものである。

次に、コンピュータＣ１は、ステップＳ１１５又はＳ１１６で得られた（ｎ＋１）個の連続成分データ及びステップＳ１１５で得られた（ｎ＋１）個のランダム成分データを用いて（ｎ＋１）個の非線形量子化連続成分データ及び（ｎ＋１）個の非線形量子化ランダム成分データを生成し（ステップＳ１１７）、ステップＳ１１７で得られた（ｎ＋１）個の非線形量子化連続成分データを含むデータ及び（ｎ＋１）個の非線形量子化ランダム成分データを含むデータをそれぞれエントロピー符号化することにより後述の連続成分圧縮データ及びランダム成分圧縮データを生成して（ステップＳ１１８）、連続成分データの圧縮率（つまり、（ｎ＋１）個の連続成分データ及び（ｎ＋１）個のランダム成分データのデータ量の総計に対する、連続成分圧縮データ及びランダム成分圧縮データのデータ量の総計の比）と、所定の目標値との大小関係を判別する（ステップＳ１１９）、という処理を、連続成分データ及びランダム成分データの圧縮率が当該目標値に至るまで繰り返す。

コンピュータＣ１は、具体的には、例えばまずステップＳ１１７で、ステップＳ１１５又はＳ１１６で得られた（ｎ＋１）個の連続成分データのそれぞれが表す波形の瞬時値に非線形な圧縮を施して得られる値（具体的には、たとえば、瞬時値を上に凸な関数に代入して得られる値）を量子化したものに相当する合計（ｎ＋１）個のデータを、上述の（ｎ＋１）個の非線形量子化連続成分データとして生成する。また、ステップＳ１１７でコンピュータＣ１は、ステップＳ１１５で得られた（ｎ＋１）個のランダム成分データのそれぞれが表す波形の瞬時値に当該非線形な圧縮を施して得られる値を量子化したものに相当する合計（ｎ＋１）個のデータを、上述の（ｎ＋１）個の非線形量子化ランダム成分データとして生成する。

ステップＳ１１７でコンピュータＣ１が行う非線形な圧縮の圧縮特性（すなわち、瞬時値の圧縮前の値と圧縮後の値との対応関係）は、過去最も新しく実行されたステップＳ１１９の処理の結果に基づいて、コンピュータＣ１が決定する。具体的には、ステップＳ１１９で求めた圧縮率が目標値より大きいと判別すると、圧縮率が現在より小さくなるように圧縮特性を決定する。一方、求めた圧縮率が目標値より小さいと判別すると、圧縮率が現在より大きくなるように、圧縮特性を決定する。ただし、ステップＳ１１９の処理がまだ実行されていない場合は、所定の初期特性を圧縮特性として圧縮を行う。
また、ステップＳ１１７でコンピュータＣ１は、決定した圧縮特性を示す圧縮特性データを作成する。

ステップＳ１１７で圧縮特性を決定する手順のより具体的な例を説明すると、コンピュータＣ１は、例えば数式３の右辺に含まれる関数ｇｌｏｂａｌ＿ｇａｉｎ（ｘｉ）を、過去最も新しく実行されたステップＳ１１９の処理の結果に基づいて決定する。そして、非線形圧縮後の各連続成分データや各ランダム成分データの瞬時値を、数式３の右辺に示す関数Ｘｒｉ（ｘｉ）を量子化した値に実質的に等しくなるようなものへと変更することにより非線形量子化を行う。一方でコンピュータＣ１は、決定した関数ｇｌｏｂａｌ＿ｇａｉｎ（ｘｉ）を表すデータを、上述の圧縮特性データとして作成する。

（数３）Ｘｒｉ（ｘｉ）＝ｓｇｎ（ｘｉ）・｜ｘｉ｜^４／３・２^{｛ｇｌｏｂａｌ＿ｇａｉｎ（ｘｉ）｝／４}
（ただし、ｓｇｎ（α）＝（α／｜α｜）、ｘｉは、連続成分データの波形の瞬時値、ｇｌｏｂａｌ＿ｇａｉｎ（ｘｉ）は、フルスケールを設定するためのｘｉの関数）

次に、ステップＳ１１８でコンピュータＣ１は、ステップＳ１１７で得られた（ｎ＋１）個の非線形量子化連続成分データと圧縮特性データとをエントロピー符号化する（具体的には、例えば算術符号（arithmetic code）あるいはハフマン符号へと変換する）ことにより、連続成分圧縮データを生成する。また、ステップＳ１１８でコンピュータＣ１は、ステップＳ１１７で得られた（ｎ＋１）個の非線形量子化ランダム成分データをエントロピー符号化することにより、ランダム成分圧縮データを生成する。

次に、ステップＳ１１９でコンピュータＣ１は、ステップＳ１１４で得られた（ｎ＋１）個の連続成分データ及び（ｎ＋１）個のランダム成分データのデータ量の総計に対する、ステップＳ１１８で得られた連続成分圧縮データ及びランダム成分圧縮データのデータ量の総計の比を圧縮率として求め、求めた圧縮率が、上述の目標値（たとえば、１００分の１）より大きいか、小さいか、あるいは当該目標値に実質的に等しいか、を判別する。そして、求めた圧縮率が目標値より大きいか又は小さいと判別すると、処理をステップＳ１１７に戻す。

一方、求めた圧縮率が目標値に実質的に等しいと判別すると、コンピュータＣ１は、ステップＳ１１８で生成した連続成分圧縮データ及びランダム成分圧縮データと、ステップＳ１１２で生成したサンプル数データとを、自己のシリアル通信制御部を介して外部に出力する（ステップＳ１２０）。

以上説明した処理を行う結果、この音声データ圧縮システムは、圧縮の対象である音声データを、所定の基準に合致する程度の周期性を有する連続成分データと、その他の成分を表すランダム成分データとに分離し、連続成分データ及びランダム成分データに別個にエントロピー符号化を施す。このため、この音声データのうち人が発する音声に起因する成分と起因しない成分とが別個にエントロピー符号化され、音声データは全体として効率的に圧縮される。従ってこの音声データ圧縮システムは、例えば、人の発した音声と背景音楽とを含んだ音声を表すボイスメールなどを、効率よく圧縮することができる。

また、音声データはピッチ波形データへと加工されることにより単位ピッチ分の区間の長さや振幅が規格化され、ピッチのゆらぎの影響が除去されている。このため、ピッチ波形データのうち人が発する音声に起因する成分は強い周期性を有するものとなり、この成分は、成分分離部Ｅ４によって連続成分データとして正確に抽出される。抽出されたこの連続成分データは強い周期性を有しているため、連続成分データのエントロピー符号化は効率的に行われる。

また、この音声データ圧縮システムが生成するピッチ波形データの各区間の元の時間長は、サンプル数データを用いて特定することが可能である。このため、連続成分圧縮データやランダム成分データを取得した外部の装置は、これらの連続成分圧縮データやランダム成分データを用いてピッチ波形データを復元した後、復元されたピッチ波形データの各区間の時間長を元の音声データにおける時間長へと復元することによって、元の音声データを容易に復元できる。

なお、この音声データ圧縮システムの構成は上述のものに限られない。
たとえば、コンピュータＣ１は、外部からシリアル伝送される音声データを、シリアル通信制御部を介して取得するようにしてもよい。また、電話回線、専用回線、衛星回線等の通信回線を介して外部より音声データを取得するようにしてもよく、この場合、コンピュータＣ１は、例えばモデムやＤＳＵ（Data Service Unit）等を備えていればよい。また、記録媒体ドライブ装置ＳＭＤ以外から音声データを取得するならば、コンピュータＣ１は必ずしも記録媒体ドライブ装置ＳＭＤを備えている必要はない。

また、コンピュータＣ１は、マイクロフォン、ＡＦ増幅器、サンプラー、Ａ／Ｄ（Analog-to-Digital）コンバータ及びＰＣＭエンコーダなどからなる集音装置を備えていてもよい。集音装置は、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングしてＡ／Ｄ変換した後、サンプリングされた音声信号にＰＣＭ変調を施すことにより、音声データを取得すればよい。なお、コンピュータＣ１が取得する音声データは、必ずしもＰＣＭ信号である必要はない。

また、コンピュータＣ１は、連続成分圧縮データ、ランダム成分圧縮データ及びサンプル数データの一部又は全部を、記録媒体ドライブ装置ＳＭＤにセットされた記録媒体に、記録媒体ドライブ装置ＳＭＤを介して書き込むようにしてもよい。あるいは、ハードディスク装置等からなる外部の記憶装置に書き込むようにしてもよい。これらの場合、コンピュータＣ１は、記録媒体ドライブ装置や、ハードディスクコントローラ等の制御回路を備えていればよい。

また、コンピュータＣ１は、ケプストラム解析又は自己相関係数に基づく解析のいずれかを行わなくてもよく、この場合は、ケプストラム解析又は自己相関係数に基づく解析のうち一方の手法で求めた基本周波数の逆数をそのままピッチ長として扱うようにすればよい。

また、コンピュータＣ１が音声データの各区間内の音声データを移相する量は（−Ψ）である必要はなく、例えば、コンピュータＣ１は、初期位相を表す各区間に共通な実数をδとして、それぞれの区間につき、（−Ψ＋δ）だけ、音声データを移相するようにしてもよい。また、コンピュータＣ１が音声データを区切る位置は、必ずしもピッチ信号がゼロクロスするタイミングである必要はなく、例えば、ピッチ信号が０でない所定の値となるタイミングであってもよい。
しかし、初期位相αを０とし、且つ、ピッチ信号がゼロクロスするタイミングで音声データを区切るようにすれば、各区間の始点の値は０に近い値になるので、音声データを各区間へと区切ることに各区間が含むようになるノイズの量が少なくなる。

また、ピッチ波形データの補間は必ずしもラグランジェ補間の手法により行われる必要はなく、例えば直線補間の手法によってもよいし、補間自体を省略してもよい。
また、圧縮する対象の音声データのピッチのゆらぎが無視できる程度であれば、コンピュータＣ１は、当該音声データの移相を行う必要はなく、当該音声データをピッチ波形データと同視してステップＳ１１３以降の処理を行うようにしてもよい。また、音声データの補間やリサンプリングも、必ずしも必要な処理ではない。

また、コンピュータＣ１はステップＳ１１４で、ピッチ信号の振幅が所定量に達しているか否かを判別する代わりに、ピッチ波形信号の振幅に対するピッチ信号の振幅の比率が所定量に達しているか否かを判別してもよい。この場合コンピュータＣ１は、当該比率が所定量に達していないと判別した場合はステップＳ１１５に処理を移し、達していると判別した場合はステップＳ１１６に処理を移すようにすればよい。

また、コンピュータＣ１は、必ずしも圧縮特性データをエントロピー符号化しなくてもよく、この場合、コンピュータＣ１は、ステップＳ１１８では例えば非線形量子化連続成分データのみをエントロピー符号化して連続成分圧縮データを生成するものとし、ステップＳ１２０では、ステップＳ１１８で生成した連続成分圧縮データ及びランダム成分圧縮データと、ステップＳ１１２で生成したサンプル数データと、ステップＳ１１７で生成した圧縮特性データと、を出力するようにすればよい。

また、コンピュータＣ１は、ステップＳ１１９の処理を省略してもよく、この場合例えば、ステップＳ１１７では所定の圧縮特性で非線形量子化連続成分データ及び非線形量子化ランダム成分データを生成し、ステップＳ１１８では、ステップＳ１１７で得られた非線形量子化連続成分データ及び圧縮特性データとをエントロピー符号化することにより連続成分圧縮データを生成し、ステップＳ１１７で得られた非線形量子化ランダム成分データをエントロピー符号化することによりランダム成分圧縮データを生成して、処理をステップＳ１２０へと移すようにしてもよい。なお、コンピュータＣ１は、ステップＳ１１７において所定の圧縮特性で非線形量子化連続成分データ及び非線形量子化ランダム成分データを生成する場合は、当該所定の圧縮特定を示す圧縮特性データをあらかじめ記憶するようにしてもよく、あるいは、圧縮特性データのエントロピー符号化ないし外部への出力を省略してもよい。

また、コンピュータＣ１は、ステップＳ１１８で、非線形量子化連続成分データのエントロピー符号化を行う代わりに、ステップＳ１１５若しくはＳ１１６で得られた（ｎ＋１）個の連続成分データ（又は、ステップＳ１１７で得られた（ｎ＋１）個の非線形量子化連続成分データ）を線形予測符号化することにより連続成分圧縮データを生成するようにしてもよい。このように、音声を表すサブバンドデータからランダム成分データ（人が発する音声に起因しないと考えられる成分）を除いた成分を表す連続成分データについて線形予測符号化を行うようにすれば、人が発する音声を表すデータが、人が発する音声に起因しない成分による影響を実質的に受けることなく、的確且つ効率的に線形予測符号化される。

なお、コンピュータＣ１は専用のシステムである必要はなく、パーソナルコンピュータ等であってよい。また、音声データ圧縮プログラムは、音声データ圧縮プログラムを格納した媒体（ＣＤ−ＲＯＭ、ＭＯ、フレキシブルディスク等）からコンピュータＣ１へとインストールするようにしてもよいし、通信回線の掲示板（ＢＢＳ）に音声データ圧縮プログラムをアップロードし、これを通信回線を介して配信してもよい。また、音声データ圧縮プログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調して音声データ圧縮プログラムを復元するようにしてもよい。

また、音声データ圧縮プログラムは、ＯＳの制御下に、他のアプリケーションプログラムと同様に起動してコンピュータＣ１に実行させることにより、上述の処理を実行することができる。なお、ＯＳが上述の処理の一部を分担する場合、記録媒体に格納される音声データ圧縮プログラムは、当該処理を制御する部分を除いたものであってもよい。

（第２の実施の形態）
次に、この発明の第２の実施の形態に係る音声データ再生システムを説明する。
この音声データ再生システムは、図１に示す音声データ圧縮システムの構成と実質的に同一の物理的構成を有している。ただし、この音声データ再生システムを構成するコンピュータＣ１は音声データ再生プログラムを予め記憶していて、この音声データ再生プログラムを実行することにより、後述する処理を行うものとする。

次に、この音声データ再生システムの動作を、図５を参照して説明する。図５は、この音声データ再生システムの動作の流れを示す図である。

ユーザが、例えば上述の第１の実施の形態における連続成分圧縮データ、ランダム成分圧縮データ及びサンプル数データを記録した記録媒体を記録媒体ドライブ装置ＳＭＤにセットして、コンピュータＣ１に、音声データ再生プログラムの起動を指示すると、コンピュータＣ１は、音声データ再生プログラムの処理を開始する。

すると、まず、コンピュータＣ１は、記録媒体ドライブ装置ＳＭＤを介し、記録媒体より連続成分圧縮データ、ランダム成分圧縮データ及びサンプル数データを読み出す（図５、ステップＳ２０１）。

次に、コンピュータＣ１は、読み出した連続成分圧縮データを復号化することにより、（ｎ＋１）個の非線形量子化連続成分データと、圧縮特性データとを復元する（ステップＳ２０２）。また、ステップＳ２０２でコンピュータＣ１は、読み出したランダム成分圧縮データを復号化することにより、（ｎ＋１）個の非線形量子化ランダム成分データを復元する。

次に、コンピュータＣ１は、復元された（ｎ＋１）個の非線形量子化連続成分データ及び（ｎ＋１）個の非線形量子化ランダム成分データが表す波形の瞬時値を、復元された圧縮特性データが示す圧縮特性と互いに逆変換の関係にある特性に従って変更することにより、非線形量子化される前の（ｎ＋１）個の連続成分データ及び（ｎ＋１）個のランダム成分データを復元する（ステップＳ２０３）。

なお、ステップＳ２０２で連続成分圧縮データから圧縮特性データを得られなかった場合、ステップＳ２０３でコンピュータＣ１は、非線形量子化連続成分データ及び非線形量子化ランダム成分データが表す波形の瞬時値を所定の特性に従って変更することにより連続成分データ及びランダム成分データを復元してもよい。あるいは、非線形量子化連続成分データ及び非線形量子化ランダム成分データを成分データ及びランダム成分データとみなして、ステップＳ２０２から直ちにステップＳ２０４へと処理を移してもよい。

次に、コンピュータＣ１は、ステップＳ２０３で復元したｋ番目（ｋは０以上ｎ以下の各整数）のランダム成分データ及びｋ番目の連続成分データが示す各瞬時値同士の和（ただし、実質上互いに同一の時刻における瞬時値同士の和）を示す信号を生成する（ステップＳ２０４）。

ステップＳ２０４で生成される、ｋ番目のランダム成分データが示す瞬時値と、ｋ番目の連続成分データが示す瞬時値との和を示す信号は、ステップＳ２０１で読み出した連続成分圧縮データ、ランダム成分圧縮データ及びサンプル数データがたとえば上述の第１の実施の形態の音声データ圧縮システムにより生成されたものである場合、当該音声データ圧縮システムが上述のステップＳ１１３で生成したｋ番目のサブバンドデータに相当する信号である。なお、ｋ番目のランダム成分データが存在しない場合、ステップＳ２０４でコンピュータＣ１は、ｋ番目の連続成分をそのままｋ番目のサブバンドデータとして扱うことと決定すればよい。

次に、コンピュータＣ１は、ステップＳ２０４で生成された計（ｎ＋１）個のサブバンドデータに変換を施すことにより、これらのサブバンドデータにより各周波数成分の強度が表されるピッチ波形データを復元する（ステップＳ２０５）。

コンピュータＣ１がステップＳ２０５でサブバンドデータに施す変換は、このサブバンドデータを生成するために音声データに施した変換に対して実質的に逆変換の関係にあるような変換である。従って、例えばこのサブバンドデータが上述のステップＳ１１３で生成されたものである場合、ステップＳ２０５でコンピュータＣ１は、ステップＳ１１３でピッチ波形データに施された変換の逆変換を施せばよい。具体的には、たとえばこのサブバンドデータがピッチ波形データにＤＣＴを施して生成されたものである場合、ステップＳ２０５でコンピュータＣ１は、このサブバンドデータにＩＤＣＴ（Inverse DCT）を施すようにすればよい。

次に、コンピュータＣ１は、ステップＳ２０５で復元したピッチ波形データの各区間のサンプル数を、ステップＳ２０２で復元したサンプル数データが示すサンプル数になるよう変更することにより、各区間の時間長を変更する（ステップＳ２０６）。
そして、コンピュータＣ１は、各区間の時間長を変更されたピッチ波形データ、すなわち復元された音声データを出力する（ステップＳ２０７）。

なお、ステップＳ２０７でンピュータＣ１が音声データを出力する手法は任意であり、例えば、コンピュータＣ１は、復元された音声データを自己のシリアル通信制御部を介して外部に出力してもよいし、記録媒体ドライブ装置ＳＭＤにセットされた記録媒体に、記録媒体ドライブ装置ＳＭＤを介して書き込むようにしてもよい。ハードディスクコントローラ等の制御回路を備えている場合は、ハードディスク装置等からなる外部の記憶装置に書き込むようにしてもよい。また、コンピュータＣ１が自ら実行している他の処理へと、音声データを引き渡すようにしてもよい。

以上説明した処理を行う結果、この音声データ再生システムは、第１の実施の形態の音声データ圧縮システムにより圧縮された音声データ（あるいは、後述する第３の実施の形態の音声データ圧縮システムにより圧縮された音声データや、その他任意の手法によって上述の連続成分圧縮データ、ランダム成分データ及びサンプル数データへと変換された音声データ）を復元する。

なお、この音声データ再生システムの構成も、上述のものに限られない。
たとえば、この音声データ再生システムを構成するコンピュータＣ１も、外部からシリアル伝送される連続成分圧縮データ、ランダム成分圧縮データ及びサンプル数データを、シリアル通信制御部を介して取得するようにしてもよい。また、通信回線を介して外部より連続成分圧縮データ、ランダム成分圧縮データ及びサンプル数データを取得するようにしてもよく、この場合、コンピュータＣ１は、例えばモデムやＤＳＵ等を備えていればよい。また、記録媒体ドライブ装置ＳＭＤ以外から連続成分圧縮データ、ランダム成分データ及びサンプル数データを取得するならば、コンピュータＣ１は必ずしも記録媒体ドライブ装置ＳＭＤを備えている必要はない。

また、コンピュータＣ１は、Ｄ／Ａ（Digital-to-Analog）変換器、ＡＦ増幅器及びスピーカなどからなる音声再生装置を備えていてもよい。この場合、ステップＳ２０７で音声再生装置が、復元された音声データをＤ／Ａ変換してアナログ形式の音声データを生成し、このアナログ形式の音声データを増幅して自己のスピーカを駆動することにより、音声データが表す音声を再生してもよい。

また、コンピュータＣ１は、復元された音声データを、記録媒体ドライブ装置ＳＭＤにセットされた記録媒体に、記録媒体ドライブ装置ＳＭＤを介して書き込むようにしてもよい。あるいは、ハードディスク装置等からなる外部の記憶装置に書き込むようにしてもよい。これらの場合、コンピュータＣ１は、記録媒体ドライブ装置や、ハードディスクコントローラ等の制御回路を備えていればよい。

また、コンピュータＣ１はステップＳ２０６で、ステップＳ２０５で復元したピッチ波形データのそれぞれの区間内のサンプルの間隔を調整することにより、当該区間の時間長を、ステップＳ２０２で復元したサンプル数データより特定される時間長へと変更するようにしてもよい。

なお、この音声データ再生システムを構成するコンピュータＣ１も専用のシステムである必要はなく、パーソナルコンピュータ等であってよい。また、音声データ再生プログラムは、音声データ圧縮プログラムを格納した媒体からコンピュータＣ１へとインストールするようにしてもよいし、通信回線の掲示板に音声データ再生プログラムをアップロードし、これを通信回線を介して配信してもよい。また、音声データ再生プログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調して音声データ再生プログラムを復元するようにしてもよい。また、音声データ再生プログラムは、ＯＳの制御下に、他のアプリケーションプログラムと同様に起動してコンピュータＣ１に実行させることにより、上述の処理を実行することができる。なお、ＯＳが上述の処理の一部を分担する場合、記録媒体に格納される音声データ再生プログラムは、当該処理を制御する部分を除いたものであってもよい。

（第３の実施の形態）
次に、この発明の第３の実施の形態を説明する。
図６は、この発明の第３の実施の形態に係る音声データ圧縮システムの構成を示す図である。図示するように、この音声データ圧縮システムは、音声入力部Ｅ１と、ピッチ波形抽出部Ｅ２と、サブバンド解析部Ｅ３と、成分分離部Ｅ４と、データ圧縮部Ｅ５と、出力部Ｅ６とより構成されている。

音声入力部Ｅ１は、例えば、第１の実施の形態における記録媒体ドライブ装置ＳＭＤと同様の記録媒体ドライブ装置等より構成されている。
音声入力部Ｅ１は、音声の波形を表す音声データを、この音声データが記録された記録媒体から読み取る等して取得し、ピッチ波形抽出部Ｅ２に供給する。なお、音声データは、ＰＣＭ変調されたディジタル信号の形式を有しており、音声のピッチより十分短い一定の周期でサンプリングされた音声を表しているものとする。

ピッチ波形抽出部Ｅ２、サブバンド解析部Ｅ３、成分分離部Ｅ４及びデータ圧縮部Ｅ５は、いずれも、ＤＳＰやＣＰＵ等のプロセッサや、このプロセッサが実行するためのプログラムを記憶するメモリなどより構成されている。
なお、ピッチ波形抽出部Ｅ２、サブバンド解析部Ｅ３、成分分離部Ｅ４及びデータ圧縮部Ｅ５の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。

ピッチ波形抽出部Ｅ２は、音声入力部Ｅ１より供給された音声データを、この音声データが表す音声の単位ピッチ分（たとえば、１ピッチ分）にあたる区間へと分割する。そして、分割されてできた各区間を移相及びリサンプリングすることにより、各区間の時間長及び位相を互いに実質的に同一になるように揃える。そして、各区間の位相及び時間長を揃えられた音声データ（ピッチ波形データ）を、サブバンド解析部Ｅ３に供給する。
また、ピッチ波形抽出部Ｅ２は、後述するピッチ信号を生成し、後述するように自らこのピッチ信号を用いるととともに、このピッチ信号を成分分離部Ｅ４へと供給する。
また、ピッチ波形抽出部Ｅ２は、この音声データの各区間の元のサンプル数を示すサンプル数データを生成し、出力部Ｅ６へと供給する。

ピッチ波形抽出部Ｅ２は、機能的には、例えば図７に示すように、ケプストラム解析部Ｅ２０１と、自己相関解析部Ｅ２０２と、重み計算部Ｅ２０３と、ＢＰＦ（バンドパスフィルタ）係数計算部Ｅ２０４と、バンドパスフィルタＥ２０５と、ゼロクロス解析部Ｅ２０６と、波形相関解析部Ｅ２０７と、位相調整部Ｅ２０８と、補間部Ｅ２０９と、ピッチ長調整部Ｅ２１０とより構成されている。

なお、ケプストラム解析部Ｅ２０１、自己相関解析部Ｅ２０２、重み計算部Ｅ２０３、ＢＰＦ係数計算部Ｅ２０４、バンドパスフィルタＥ２０５、ゼロクロス解析部Ｅ２０６、波形相関解析部Ｅ２０７、位相調整部Ｅ２０８、補間部Ｅ２０９及びピッチ長調整部Ｅ２１０の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。

ピッチ波形抽出部Ｅ２は、ケプストラム解析と、自己相関関数に基づく解析とを併用して、ピッチの長さを特定する。
すなわち、まず、ケプストラム解析部Ｅ２０１は、音声入力部Ｅ１より供給される音声データにケプストラム解析を施すことにより、この音声データが表す音声の基本周波数を特定し、特定した基本周波数を示すデータを生成して重み計算部Ｅ２０３へと供給する。

具体的には、ケプストラム解析部Ｅ２０１は、音声入力部Ｅ１より音声データを供給されると、まず、この音声データの強度を、元の値の対数に実質的に等しい値へと変換する。（対数の底は任意である。）
次に、ケプストラム解析部Ｅ２０１は、値が変換された音声データのスペクトル（すなわち、ケプストラム）を、高速フーリエ変換の手法（あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法）により求める。
そして、このケプストラムの極大値を与える周波数のうちの最小値を基本周波数として特定し、特定した基本周波数を示すデータを生成して重み計算部Ｅ２０３へと供給する。

一方、自己相関解析部Ｅ２０２は、音声入力部Ｅ１より音声データを供給されると、音声データの波形の自己相関関数に基づいて、この音声データが表す音声の基本周波数を特定し、特定した基本周波数を示すデータを生成して重み計算部Ｅ２０３へと供給する。

具体的には、自己相関解析部Ｅ２０２は、音声入力部Ｅ１より音声データを供給されるとまず、上述した自己相関関数ｒ（ｌ）を特定する。そして、特定した自己相関関数ｒ（ｌ）をフーリエ変換した結果得られるピリオドグラムの極大値を与える周波数のうち、所定の下限値を超える最小の値を基本周波数として特定し、特定した基本周波数を示すデータを生成して重み計算部Ｅ２０３へと供給する。

重み計算部Ｅ２０３は、ケプストラム解析部Ｅ２０１及び自己相関解析部Ｅ２０２より基本周波数を示すデータを１個ずつ合計２個供給されると、これら２個のデータが示す基本周波数の逆数の絶対値の平均を求める。そして、求めた値（すなわち、平均ピッチ長）を示すデータを生成し、ＢＰＦ係数計算部Ｅ２０４へと供給する。

ＢＰＦ係数計算部Ｅ２０４は、平均ピッチ長を示すデータを重み計算部Ｅ２０３より供給され、ゼロクロス解析部Ｅ２０６より後述のゼロクロス信号を供給されると、供給されたデータやゼロクロス信号に基づき、平均ピッチ長とゼロクロスの周期とが互いに所定量以上異なっているか否かを判別する。そして、異なっていないと判別したときは、ゼロクロスの周期の逆数を中心周波数（バンドパスフィルタＥ２０５の通過帯域の中央の周波数）とするように、バンドパスフィルタＥ２０５の周波数特性を制御する。一方、所定量以上異なっていると判別したときは、平均ピッチ長の逆数を中心周波数とするように、バンドパスフィルタＥ２０５の周波数特性を制御する。

バンドパスフィルタＥ２０５は、中心周波数が可変なＦＩＲ（Finite Impulse Response）型のフィルタの機能を行う。
具体的には、バンドパスフィルタＥ２０５は、自己の中心周波数を、ＢＰＦ係数計算部Ｅ２０４の制御に従った値に設定する。そして、音声入力部Ｅ１より供給される音声データをフィルタリングして、フィルタリングされた音声データ（ピッチ信号）を、ゼロクロス解析部Ｅ２０６、波形相関解析部Ｅ２０７及び成分分離部Ｅ４の後述する連続成分抽出部Ｅ４１−０〜Ｅ４１−ｎへと供給する。ピッチ信号は、音声データのサンプルリング間隔と実質的に同一のサンプリング間隔を有するディジタル形式のデータからなるものとする。
なお、バンドパスフィルタＥ２０５の帯域幅は、バンドパスフィルタＥ２０５の通過帯域の上限が音声データの表す音声の基本周波数の２倍以内に常に収まるような帯域幅であることが望ましい。

ゼロクロス解析部Ｅ２０６は、バンドパスフィルタＥ２０５から供給されたピッチ信号の瞬時値が０となる時刻（ゼロクロスする時刻）が来るタイミングを特定し、特定したタイミングを表す信号（ゼロクロス信号）を、ＢＰＦ係数計算部Ｅ２０４へと供給する。このようにして、音声データのピッチの長さが特定される。
ただし、ゼロクロス解析部Ｅ２０６は、ピッチ信号の瞬時値が０でない所定の値となる時刻が来るタイミングを特定し、特定したタイミングを表す信号を、ゼロクロス信号に代えてＢＰＦ係数計算部Ｅ２０４へと供給するようにしてもよい。

波形相関解析部Ｅ２０７は、音声入力部Ｅ１より音声データを供給され、バンドパスフィルタＥ２０５よりピッチ信号を供給されると、ピッチ信号の単位周期（例えば１周期）の境界が来るタイミングで音声データを区切る。そして、区切られてできる区間のそれぞれについて、この区間内の音声データの位相を種々変化させたものとこの区間内のピッチ信号との相関を求め、最も相関が高くなるときの音声データの位相を、この区間内の音声データの位相として特定する。このようにして、各区間につき音声データの位相が特定される。

具体的には、波形相関解析部Ｅ２０７は、例えば、それぞれの区間毎に、上述した値Ψを特定し、値Ψを示すデータを生成して、この区間内の音声データの位相を表す位相データとして位相調整部Ｅ２０８に供給する。なお、区間の時間的な長さは、１ピッチ分程度であることが望ましい。

位相調整部Ｅ２０８は、音声入力部Ｅ１より音声データを供給され、波形相関解析部Ｅ２０７より音声データの各区間の位相Ψを示すデータを供給されると、それぞれの区間の音声データの位相を（−Ψ）だけ移相することにより、各区間の位相を揃える。そして、移相された音声データを補間部Ｅ２０９へと供給する。

補間部Ｅ２０９は、位相調整部Ｅ２０８より供給された音声データ（移相された音声データ）にラグランジェ補間を施して、ピッチ長調整部Ｅ２１０へと供給する。

ピッチ長調整部Ｅ２１０は、ラグランジェ補間を施された音声データを補間部Ｅ２０９より供給されると、供給された音声データの各区間をリサンプリングすることにより、各区間の時間長を互いに実質的に同一になるように揃える。そして、各区間の時間長を揃えられた音声データ（すなわち、ピッチ波形データ）をサブバンド解析部Ｅ３へと供給する。

また、ピッチ長調整部Ｅ２１０は、この音声データの各区間の元のサンプル数（音声入力部Ｅ１からピッチ長調整部Ｅ２１０へと供給された時点におけるこの音声データの各区間のサンプル数）を示すサンプル数データを生成し、出力部Ｅ６へと供給する。

サブバンド解析部Ｅ３は、ピッチ長調整部Ｅ２１０より供給されたピッチ波形データにＤＣＴ等の直交変換を施すことにより、０番目〜ｎ番目までの計（ｎ＋１）このサブバンドデータからなるサブバンドデータ群を生成し、このサブバンドデータ群を成分分離部Ｅ４へと供給する。

成分分離部Ｅ４は、機能的には、例えば図８に示すように、（ｎ＋１）個の連続成分抽出部Ｅ４１−０〜Ｅ４１−ｎと、（ｎ＋１）個のランダム成分抽出部Ｅ４２−０〜Ｅ４２−ｎとより構成されている。

連続成分抽出部Ｅ４１−０〜Ｅ４１−ｎは、それぞれ、たとえばＬＭＳ（Least Mean Square）フィルタあるいはその他の適応フィルタ（適応型フィルタ）の機能を行うものである。
連続成分抽出部Ｅ４１−ｋ（ｋは０以上ｎ以下の整数）は、バンドパスフィルタＥ２０５より供給されるピッチ信号の振幅が所定量に達しているか否かを判別する。そして、所定量に達していないと判別された期間は、サブバンド解析部Ｅ３より供給されるサブバンドデータ群に含まれるｋ番目のサブバンドデータをフィルタリングすることにより、ｋ番目のサブバンドデータのうち一定程度以上に強い周期性を有する成分（以下、ｋ番目の連続成分データと呼ぶ）を抽出し、抽出されたｋ番目の連続成分データを、ランダム成分抽出部Ｅ４２−ｋ及びデータ圧縮部Ｅ５へと供給する。
一方、ピッチ信号の振幅が所定量に達していると判別された期間は、ｋ番目のサブバンドデータのフィルタリングを行う代わりに、ｋ番目のサブバンドデータをそのままｋ番目の連続成分データとしてランダム成分抽出部Ｅ４２−ｋ及びデータ圧縮部Ｅ５へと供給する。

ランダム成分抽出部Ｅ４２−ｋは、サブバンド解析部Ｅ３より供給されたｋ番目のサブバンドデータが示す瞬時値と、連続成分抽出部Ｅ４２−ｋより供給されたｋ番目の連続成分データが示す瞬時値との差（ただし、実質上互いに同一の時刻における瞬時値同士の差）を示す信号（以下、ｋ番目のランダム成分データ）を生成して、データ圧縮部Ｅ５へと供給する。

連続成分抽出部Ｅ４１−ｋの行う動作は、ｋ番目のサブバンドデータについて、人が発声する音声に起因しない成分（楽器の音などの成分）を無視できないと判別した場合には、当該ｋ番目のサブバンドデータのうち一定程度の強い周期性のある成分をｋ番目の連続成分データとして抽出し、また、人が発声する音声に起因しない成分を無視できると判別した場合には、ｋ番目のサブバンドデータがそのままｋ番目の連続成分データであると見なす（つまり、人が発声する音声に起因しない成分は存在しないものと見なす）、という動作に相当する。
従って、ｋ番目のサブバンドデータについて、人が発声する音声に起因しない成分を無視できない判別されている場合には、当該ｋ番目のサブバンドデータのうち周期性が一定程度に達しない成分がｋ番目のランダム成分データとなり、また、ｋ番目のサブバンドデータが人の発声した音声の成分のみからなるとみなしてよい旨判別されている場合には、ｋ番目の連続成分データの強度は実質的に０となる。

データ圧縮部Ｅ５は、機能的には、例えば図９に示すように、非線形量子化部Ｅ５１と、圧縮率設定部Ｅ５２と、エントロピー符号化部Ｅ５３とより構成されている。

非線形量子化部Ｅ５１は、（ｎ＋１）個の連続成分データを連続成分抽出部Ｅ４１−０〜Ｅ４１−ｎより供給されると、これらの連続成分データのそれぞれが表す波形の瞬時値に非線形な圧縮を施して得られる値（具体的には、たとえば、瞬時値を上に凸な関数に代入して得られる値）を量子化したものに相当する（ｎ＋１）個の非線形量子化連続成分データを生成する。また、（ｎ＋１）個のランダム成分データを連続成分抽出部Ｅ４１−０〜Ｅ４１−ｎより供給されると、これらのランダム成分データのそれぞれが表す波形の瞬時値に当該非線形な圧縮を施して得られる値を量子化したものに相当する（ｎ＋１）個の非線形量子化ランダム成分データを生成する。
そして、非線形量子化部Ｅ５１は、生成したこれらの非線形量子化連続成分データ及び非線形量子化ランダム成分データを、エントロピー符号化部Ｅ５３へと供給する。ただし強度が０であるランダム成分については、非線形量子化ランダム成分データを生成する必要はない。

なお、非線形量子化部Ｅ５１は、瞬時値の圧縮前の値と圧縮後の値との対応関係を特定するための圧縮特性データを圧縮率設定部Ｅ５２より取得し、このデータにより特定される対応関係に従って圧縮を行うものとする。具体的には、例えば、非線形量子化部Ｅ５１は、上述の関数ｇｌｏｂａｌ＿ｇａｉｎ（ｘｉ）を特定するデータを、圧縮特性データとして圧縮率設定部Ｅ５２より取得する。そして、非線形圧縮後の各連続成分データや各ランダム成分データの瞬時値を、上述の関数Ｘｒｉ（ｘｉ）を量子化した値に実質的に等しくなるようなものへと変更することにより非線形量子化を行う。

圧縮率設定部Ｅ５２は、非線形量子化部Ｅ５１による瞬時値の圧縮前の値と圧縮後の値との対応関係（以下、圧縮特性と呼ぶ）を特定するための上述の圧縮特性データを生成し、非線形量子化部Ｅ５１及びエントロピー符号化部Ｅ５３に供給する。具体的には、例えば、上述の関数ｇｌｏｂａｌ＿ｇａｉｎ（ｘｉ）を特定する圧縮特性データを生成して、非線形量子化部Ｅ５１及びエントロピー符号化部Ｅ５３に供給する。

なお、圧縮率設定部Ｅ５２は、圧縮特性を決定するため、たとえば、エントロピー符号化部Ｅ５３より、後述の連続成分圧縮データ及びランダム成分圧縮データを取得する。そして、成分分離部Ｅ４より取得した（ｎ＋１）個の連続成分データ及び（ｎ＋１）個のランダム成分データのデータ量の総計に対する、エントロピー符号化部Ｅ５３より取得した連続成分圧縮データ及びランダム成分圧縮データのデータ量の総計の比を求め、求めた比が、目標とする所定の圧縮率より大きいか否かを判別する。求めた比が目標とする圧縮率より大きいと判別すると、圧縮率設定部Ｅ５２は、圧縮率が現在より小さくなるように圧縮特性を決定する。一方、求めた比が目標とする圧縮率以下であると判別すると、圧縮率が現在より大きくなるように、圧縮特性を決定する。

エントロピー符号化部Ｅ５３は、非線形量子化部Ｅ５１より供給された（ｎ＋１）個の非線形量子化連続成分データ、及び、圧縮率設定部Ｅ５２より供給された圧縮特性データをエントロピー符号化し、エントロピー符号化されたこれらのデータを、連続成分圧縮データとして、圧縮率設定部Ｅ５２及び出力部Ｅ６へと供給する。また、エントロピー符号化部Ｅ５３は、非線形量子化部Ｅ５１より供給された（ｎ＋１）個の非線形量子化ランダム成分データをエントロピー符号化し、エントロピー符号化されたこれらのデータを、ランダム成分圧縮データとして、圧縮率設定部Ｅ５２及び出力部Ｅ６へと供給する。

出力部Ｅ６は、たとえば、ＵＳＢ等の規格に準拠して外部とのシリアル通信を制御する制御回路より構成されている。なお、ピッチ波形抽出部Ｅ２、サブバンド解析部Ｅ３、成分分離部Ｅ４及びデータ圧縮部Ｅ５の一部又は全部の機能を行うプロセッサが、出力部Ｅ６の機能を更に行うようにしてもよい。

出力部Ｅ６は、データ圧縮部Ｅ５が生成した連続成分圧縮データ及びランダム成分圧縮データと、ピッチ波形抽出部Ｅ２のピッチ長調整部Ｅ２１０が生成したサンプル数データとを供給されると、これらの連続成分圧縮データ、ランダム成分圧縮データ及びサンプル数データを出力する。

図６の音声データ圧縮システムも、圧縮の対象である音声データを、所定の基準に合致する程度の周期性を有する連続成分データと、その他の成分であるランダム成分データとに分離し、両者のそれぞれを別個にエントロピー符号化する。このため、この音声データのうち人が発する音声に起因する成分と起因しない成分とが別個にエントロピー符号化され、音声データは全体として効率的に圧縮される。

また、音声データはピッチ波形データへと加工されることにより単位ピッチ分の区間の長さや振幅が規格化され、ピッチのゆらぎの影響が除去されている。このため、ピッチ波形データのうち人が発する音声に起因する成分は強い周期性を有するものとなり、この成分は、成分分離部Ｅ４によって連続成分として正確に抽出される。抽出されたこの連続成分は強い周期性を有しているため、連続成分のエントロピー符号化は効率的に行われる。

更に、サンプル数データを用いてピッチ波形データの各区間の元の時間長を特定することができるため、ピッチ波形データの各区間の時間長を元の音声データにおける時間長へと復元することにより、元の音声データを容易に復元できる。

なお、この音声データ圧縮システムの構成も上述のものに限られない。
たとえば、音声入力部Ｅ１は、電話回線、専用回線、衛星回線等の通信回線を介して外部より音声データを取得するようにしてもよい。この場合、音声入力部Ｅ１は、例えばモデムやＤＳＵ等からなる通信制御部を備えていればよい。

また、音声入力部Ｅ１は、マイクロフォン、ＡＦ増幅器、サンプラー、Ａ／Ｄコンバータ及びＰＣＭエンコーダなどからなる集音装置を備えていてもよい。集音装置は、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングしてＡ／Ｄ変換した後、サンプリングされた音声信号にＰＣＭ変調を施すことにより、音声データを取得すればよい。なお、音声入力部Ｅ１が取得する音声データは、必ずしもＰＣＭ信号である必要はない。

また、このピッチ波形抽出部Ｅ２は、ケプストラム解析部Ｅ２０１（又は自己相関解析部Ｅ２０２）を備えていなくてもよく、この場合、重み計算部Ｅ２０３は、ケプストラム解析部Ｅ２０１（又は自己相関解析部Ｅ２０２）が求めた基本周波数の逆数をそのまま平均ピッチ長として扱うようにすればよい。

また、ゼロクロス解析部Ｅ２０６は、バンドパスフィルタＥ２０５から供給されたピッチ信号を、そのままゼロクロス信号としてＢＰＦ係数計算部Ｅ２０４へと供給するようにしてもよい。

また、位相調整部Ｅ２０８が音声データの各区間内の音声データを移相する量は（−Ψ）である必要はなく、また、波形相関解析部Ｅ２０７が音声データを区切る位置は、必ずしもピッチ信号がゼロクロスするタイミングである必要はない。
また、補間部Ｅ２０９は移相された音声データの補間を必ずしもラグランジェ補間の手法により行う必要はなく、例えば直線補間の手法によってもよいし、補間部Ｅ２０９を省略し、位相調整部Ｅ２０８は音声データを直ちにピッチ長調整部Ｅ２１０に供給してもよい。

また、出力部Ｅ６は、音素データやサンプル数データ、通信回線等を介して外部に出力するようにしてもよい。通信回線を介してデータを出力する場合、出力部Ｅ６は、例えばモデムやＤＳＵ等からなる通信制御部を備えていればよい。
また、出力部Ｅ６は、記録媒体ドライブ装置を備えていてもよく、この場合、出力部Ｅ６は、連続成分圧縮データやランダム成分圧縮データやサンプル数データを、この記録媒体ドライブ装置にセットされた記録媒体の記憶領域に書き込むようにしてもよい。
なお、単一のモデムやＤＳＵや記録媒体ドライブ装置が音声入力部Ｅ１及び出力部Ｅ６を構成していてもよい。

また、連続成分抽出部Ｅ４１−ｋは、ピッチ信号の振幅が所定量に達しているか否かを判別する代わりに、ピッチ波形信号の振幅に対するピッチ信号の振幅の比率が所定量に達しているか否かを判別してもよい。

また、エントロピー符号化部Ｅ５３は、必ずしも圧縮特性データをエントロピー符号化しなくてもよく、この場合は例えば、圧縮率設定部Ｅ５２が、自己が生成した圧縮特性データを非線形量子化部Ｅ５１及び出力部Ｅ６に供給するものとし、出力部Ｅ６は、連続成分圧縮データ、ランダム成分圧縮データと及びサンプル数データに加え、圧縮率設定部Ｅ５２より供給された圧縮特性データも出力するものとすればよい。

また、データ圧縮部Ｅ５は必ずしも圧縮率設定部Ｅ５２を備えている必要はなく、この場合は例えば、非線形量子化部Ｅ５１が所定の圧縮特性で非線形量子化連続成分データ及び非線形量子化ランダム成分データを生成し、エントロピー符号化部Ｅ５３が、当該所定の圧縮特性を示す圧縮特性データと、非線形量子化部Ｅ５１が生成した非線形量子化連続成分データとをエントロピー符号化することにより連続成分圧縮データを生成するものとしてもよい。また、エントロピー符号化部Ｅ５３は、圧縮特性データのエントロピー符号化を省略してもよい。

また、エントロピー符号化部Ｅ５３は、非線形量子化連続成分データのエントロピー符号化を行う代わりに、連続成分データ又は非線形量子化連続成分データを線形予測符号化することにより連続成分圧縮データを生成するようにしてもよい。

（第４の実施の形態）
次に、この発明の第４の実施の形態を、音声データ再生システムを例として説明する。
この音声データ再生システムは、図１０に示すように、データ入力部Ｄ１と、エントロピー符号復号化部Ｄ２と、非線形逆量子化部Ｄ３と、成分結合部Ｄ４と、サブバンド合成部Ｄ５と、音声データ復元部Ｄ６と、音声合成部Ｄ７とより構成されている。

データ入力部Ｄ１、エントロピー符号復号化部Ｄ２、非線形逆量子化部Ｄ３、成分結合部Ｄ４、サブバンド合成部Ｄ５及び音声データ復元部Ｄ６は、いずれも、ＤＳＰやＣＰＵ等のプロセッサや、このプロセッサが実行するためのプログラムを記憶するメモリなどより構成されている。なお、データ入力部Ｄ１、エントロピー符号復号化部Ｄ２、非線形逆量子化部Ｄ３、成分結合部Ｄ４、サブバンド合成部Ｄ５及び音声データ復元部Ｄ６の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。

データ入力部Ｄ１は、上述の連続成分圧縮データ、ランダム成分圧縮データ及びサンプル数データを外部から取得し、取得したこれらのデータのうち、連続成分圧縮データ及びランダム成分圧縮データをエントロピー符号復号化部Ｄ２に供給し、サンプル数データを音声データ復元部Ｄ６へと供給する。

なお、データ入力部Ｄ１が連続成分圧縮データ、ランダム成分圧縮データ及びサンプル数データを取得する手法は任意であり、たとえばコンピュータ読み取り可能な記録媒体に記録されている圧縮音素データを読み取ることにより取得してもよく、あるいはEthernet（登録商標）、ＵＳＢ、ＩＥＥＥ１３９４若しくはＲＳ２３２Ｃ等の規格に準拠した態様でシリアル伝送されたこれらのデータ、若しくはパラレル伝送されたこれらのデータを受信することにより取得してもよい。データ入力部Ｄ１は、外部のサーバが記憶しているこれらのデータを、インターネット等のネットワークを介してダウンロードする等の手法により取得してもよい。

なお、データ入力部Ｄ１は、連続成分圧縮データ、ランダム成分圧縮データあるいはサンプル数データを記録媒体から読み取る場合、例えば、記録媒体からのデータの読み取りをプロセッサ等の指示に従って行う記録媒体ドライブ装置を更に備えていればよい。また、シリアル伝送されたこれらのデータを受信する場合は、Ethernet（登録商標）、ＵＳＢ、ＩＥＥＥ１３９４若しくはＲＳ２３２Ｃ等の規格に準拠して外部とのシリアル通信を制御する制御回路を更に備えていればよい。

エントロピー符号復号化部Ｄ２は、データ入力部Ｄ１より供給された連続成分圧縮データを復号化することにより、（ｎ＋１）個の非線形量子化連続成分データと、圧縮特性データとを復元する。そして、復元されたこれらのデータを非線形逆量子化部Ｄ３へと供給する。また、エントロピー符号復号化部Ｄ２は、データ入力部Ｄ１より供給されたランダム成分圧縮データを復号化することにより、（ｎ＋１）個の非線形量子化ランダム成分データを復元し、復元された非線形量子化ランダム成分データも非線形逆量子化部Ｄ３へと供給する。

非線形逆量子化部Ｄ３は、エントロピー符号復号化部Ｄ２より（ｎ＋１）個の非線形量子化連続成分データ、（ｎ＋１）個の非線形量子化ランダム成分データ及び圧縮特性データを供給されると、これらの非線形量子化連続成分データ及び非線形量子化ランダム成分データが表す波形の瞬時値を、この圧縮特性データが示す圧縮特性と互いに逆変換の関係にある特性に従って変更することにより、非線形量子化される前の（ｎ＋１）個の連続成分データ及び（ｎ＋１）個のランダム成分データを復元する。そして、復元したこれらの連続成分データ及びランダム成分データを成分結合部Ｄ４へと供給する。

なお、エントロピー符号復号化部Ｄ２が連続成分圧縮データから圧縮特性データを得られなかった場合、非線形逆量子化部Ｄ３は、非線形量子化連続成分データ及び非線形量子化ランダム成分データが表す波形の瞬時値を所定の特性に従って変更することにより連続成分データ及びランダム成分データを復元してもよいし、あるいは、非線形量子化連続成分データ及び非線形量子化ランダム成分データを連続成分データ及びランダム成分データとみなしてそのまま成分結合部Ｄ４へと供給してもよい。

成分結合部Ｄ４は、非線形逆量子化部Ｄ３より（ｎ＋１）個の連続成分データ及び（ｎ＋１）個のランダム成分データを供給されると、非線形逆量子化部Ｄ３より供給されたｋ番目のランダム成分データ及びｋ番目の連続成分データが示す各瞬時値同士の和（ただし、実質上互いに同一の時刻における瞬時値同士の和）を示す信号を生成して、サブバンド合成部Ｄ５へと供給する。ｋ番目のランダム成分データが示す瞬時値と、ｋ番目の連続成分データが示す瞬時値との和を示すこの信号は、上述のサブバンド解析部Ｅ３が生成したｋ番目のサブバンドデータに相当する信号である。なお、ｋ番目のランダム成分データが存在しない場合、成分結合部Ｄ４は、ｋ番目の連続成分データをそのままｋ番目のサブバンドデータとして扱えばよい。

サブバンド合成部Ｄ５は、計（ｎ＋１）個のサブバンドデータを成分結合部Ｄ４より供給されると、これらのサブバンドデータに変換を施すことにより、これらのサブバンドデータにより各周波数成分の強度が表されるピッチ波形データを復元し、復元されたピッチ波形データを、音声データ復元部Ｄ６へと供給する。

サブバンド合成部Ｄ５がサブバンドデータに施す変換は、このサブバンドデータを生成するために音声データに施した変換に対して実質的に逆変換の関係にあるような変換である。従って、たとえばこのサブバンドデータが上述のサブバンド解析部Ｅ３（あるいは、上述のステップＳ１１３の処理）により生成されたものである場合、サブバンド合成部Ｄ５は、サブバンド解析部Ｅ３（あるいは、上述のステップＳ１１３の処理）で施された変換の逆変換を施せばよい。具体的には、たとえばこのサブバンドデータが音素にＤＣＴを施して生成されたものである場合、サブバンド合成部Ｄ５は、このサブバンドデータにＩＤＣＴ（Inverse DCT）を施すようにすればよい。

音声データ復元部Ｄ６は、サブバンド合成部Ｄ５より供給されたピッチ波形データのそれぞれの区間のサンプル数あるいはサンプルの間隔を調整して、当該区間の時間長を、データ入力部Ｄ１より供給されるサンプル数データより特定される時間長になるようにする。
そして、音声データ復元部Ｄ６は、各区間の時間長を変更されたピッチ波形データ、すなわち復元された音声データを出力する。

なお、音声データ復元部Ｄ６が音声データを出力する手法は任意であり、例えば、図示しないＤ／Ａ（Digital-to-Analog）変換器やスピーカを介して、この音声データが表す音声を再生するようにしてもよい。また、図示しないインターフェース回路を介して外部の装置やネットワークに送出してもよいし、図示しない記録媒体ドライブ装置にセットされた記録媒体へ、この記録媒体ドライブ装置を介して書き込んでもよい。また、音声データ復元部Ｄ６の機能を行っているプロセッサが、自ら実行している他の処理へと、音声データを引き渡すようにしてもよい。

この発明の第１の実施の形態に係る音声データ圧縮システムの構成を示すブロック図である。図１の音声データ圧縮システムの動作の流れの前半を示す図である。図１の音声データ圧縮システムの動作の流れの後半を示す図である。（ａ）及び（ｂ）は、移相される前の音声データの波形を示すグラフであり、（ｃ）は、移相された後の音声データの波形を表すグラフである。この発明の第２の実施の形態に係る音声データ再生システムの動作の流れの前半を示す図である。この発明の第３の実施の形態に係る音声データ圧縮システムの構成を示すブロック図である。図６の音声データ圧縮システムのピッチ波形抽出部の構成を示すブロック図である。図６の音声データ圧縮システムの成分分離部の構成を示すブロック図である。図６の音声データ圧縮システムのデータ圧縮部の構成を示すブロック図である。この発明の第４の実施の形態に係る音声データ再生システムの構成を示すブロック図である。

符号の説明

Ｃ１コンピュータ
ＳＭＤ記録媒体ドライブ装置
Ｅ１音声入力部
Ｅ２ピッチ波形抽出部
Ｅ２０１ケプストラム解析部
Ｅ２０２自己相関解析部
Ｅ２０３重み計算部
Ｅ２０４ＢＰＦ係数計算部
Ｅ２０５バンドパスフィルタ
Ｅ２０６ゼロクロス解析部
Ｅ２０７波形相関解析部
Ｅ２０８位相調整部
Ｅ２０９補間部
Ｅ２１０ピッチ長調整部
Ｅ３サブバンド解析部
Ｅ４成分分離部
Ｅ４１−０〜Ｅ４１−ｎ連続成分抽出部
Ｅ４２−０〜Ｅ４２−ｎランダム成分抽出部
Ｅ５データ圧縮部
Ｅ５１非線形量子化部
Ｅ５２圧縮率設定部
Ｅ５３エントロピー符号化部
Ｅ６出力部
Ｄ１データ入力部
Ｄ２エントロピー符号復号化部
Ｄ３非線形逆量子化部
Ｄ４成分結合部
Ｄ５サブバンド合成部
Ｄ６音素データ復元部
Ｄ７音声合成部

Claims

音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成するサブバンド抽出手段と、
前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離する成分分離手段と、
前記連続成分にエントロピー符号化又は線形予測符号化を施す符号化手段と、を備える、
ことを特徴とする音声信号圧縮装置。
音声の波形を表す圧縮対象の音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工する音声信号加工手段と、
前記ピッチ波形信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成するサブバンド抽出手段と、
前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離する成分分離手段と、
前記連続成分にエントロピー符号化又は線形予測符号化を施す符号化手段と、を備える、
ことを特徴とする音声信号圧縮装置。
前記圧縮対象の音声信号より、前記音声のピッチ成分を抽出するピッチ成分抽出手段を備え、
前記成分分離手段は、抽出された前記ピッチ成分の強度に基づき、前記連続成分及び前記ランダム成分を分離するか否かを決定し、分離すると決定したとき、前記連続成分及び前記ランダム成分を前記サブバンド信号より分離する、
ことを特徴とする請求項１又は２に記載の音声信号圧縮装置。
前記成分分離手段は、前記連続成分及び前記ランダム成分を分離しないと決定したとき、前記サブバンド信号を前記連続成分として扱うことを決定する、
ことを特徴とする請求項３に記載の音声信号圧縮装置。
前記符号化手段は、前記連続成分を非線形量子化した結果、及び／又は前記ランダム成分を非線形量子化した結果にエントロピー符号化を施す、
ことを特徴とする請求項１乃至４のいずれか１項に記載の音声信号圧縮装置。
前記符号化手段は、前記非線形量子化の量子化特性を示すデータを生成する、
ことを特徴とする請求項５に記載の音声信号圧縮装置。
前記符号化手段は、過去にエントロピー符号化された連続成分及び／又はランダム成分のデータ量に基づいて、前記非線形量子化の量子化特性を決定し、決定した量子化特性に合致するように前記非線形量子化を行う、
ことを特徴とする請求項５又は６に記載の音声信号圧縮装置。
音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号のうち所定の基準に合致する程度の周期性を有する連続成分を抽出してエントロピー符号化又は線形予測符号化を施したものに相当する入力信号を取得し、当該入力信号を復号化することにより当該連続成分を復元する復号化手段と、
復元された前記連続成分を前記サブバンド信号より除いたものに相当するランダム成分を取得し、当該連続成分に当該ランダム成分を加算することにより、当該サブバンド信号を復元するサブバンド信号復元部と、
復元されたサブバンド信号に基づいて前記圧縮対象の音声信号を復元する音声信号復元手段と、を備える、
ことを特徴とする音声信号復元装置。
音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成し、
前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離し、
前記連続成分にエントロピー符号化又は線形予測符号化を施す、
ことを特徴とする音声信号圧縮方法。
音声の波形を表す圧縮対象の音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工し、
前記ピッチ波形信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成し、
前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離し、
前記連続成分にエントロピー符号化又は線形予測符号化を施す、
ことを特徴とする音声信号圧縮方法。
音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号のうち所定の基準に合致する程度の周期性を有する連続成分を抽出してエントロピー符号化又は線形予測符号化を施したものに相当する入力信号を取得し、当該入力信号を復号化することにより当該連続成分を復元し、
復元された前記連続成分を前記サブバンド信号より除いたものに相当するランダム成分を取得し、当該連続成分に当該ランダム成分を加算することにより、当該サブバンド信号を復元し、
復元されたサブバンド信号に基づいて前記圧縮対象の音声信号を復元する、
ことを特徴とする音声信号復元方法。
コンピュータを、
音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成するサブバンド抽出手段と、
前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離する成分分離手段と、
前記連続成分にエントロピー符号化又は線形予測符号化を施す符号化手段と、
して機能させるためのプログラム。
コンピュータを、
音声の波形を表す圧縮対象の音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工する音声信号加工手段と、
前記ピッチ波形信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成するサブバンド抽出手段と、
前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離する成分分離手段と、
前記連続成分にエントロピー符号化又は線形予測符号化を施す符号化手段と、
して機能させるためのプログラム。
コンピュータを、
音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号のうち所定の基準に合致する程度の周期性を有する連続成分を抽出してエントロピー符号化又は線形予測符号化を施したものに相当する入力信号を取得し、当該入力信号を復号化することにより当該連続成分を復元する復号化手段と、
復元された前記連続成分を前記サブバンド信号より除いたものに相当するランダム成分を取得し、当該連続成分に当該ランダム成分を加算することにより、当該サブバンド信号を復元するサブバンド信号復元部と、
復元されたサブバンド信号に基づいて前記圧縮対象の音声信号を復元する音声信号復元手段と、
して機能させるためのプログラム。