Nothing Special   »   [go: up one dir, main page]

JP2007108440A - 音声信号圧縮装置、音声信号復元装置、音声信号圧縮方法、音声信号復元方法及びプログラム - Google Patents

音声信号圧縮装置、音声信号復元装置、音声信号圧縮方法、音声信号復元方法及びプログラム Download PDF

Info

Publication number
JP2007108440A
JP2007108440A JP2005299346A JP2005299346A JP2007108440A JP 2007108440 A JP2007108440 A JP 2007108440A JP 2005299346 A JP2005299346 A JP 2005299346A JP 2005299346 A JP2005299346 A JP 2005299346A JP 2007108440 A JP2007108440 A JP 2007108440A
Authority
JP
Japan
Prior art keywords
component
data
signal
audio
subband
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005299346A
Other languages
English (en)
Other versions
JP4736699B2 (ja
Inventor
Yasushi Sato
寧 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kenwood KK
Original Assignee
Kenwood KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kenwood KK filed Critical Kenwood KK
Priority to JP2005299346A priority Critical patent/JP4736699B2/ja
Publication of JP2007108440A publication Critical patent/JP2007108440A/ja
Application granted granted Critical
Publication of JP4736699B2 publication Critical patent/JP4736699B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】人が発する音声を表す成分を含んだデータのデータ容量を効率よく圧縮することを可能にするための音声信号圧縮装置等を提供することである。
【解決手段】コンピュータC1は、圧縮する音声データの単位ピッチ分にあたる区間の時間長を同一に揃えることによりピッチ波形信号を生成し、このピッチ波形信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成する。そして、このサブバンド信号を、所定の基準に合致する程度の周期性を有する成分からなる連続成分と、その他の成分からなるランダム成分とに分離し、連続成分に、エントロピー符号化又は線形予測符号化を施す。
【選択図】図1

Description

この発明は、音声信号圧縮装置、音声信号復元装置、音声信号圧縮方法、音声信号復元方法及びプログラムに関する。
テキストデータなどを音声へと変換する音声合成の手法が、カーナビゲーション等の分野で近年行われるようになっている。
音声合成では、例えば、テキストデータが表す文に含まれる単語、文節及び文節相互の係り受け関係が特定され、特定された単語、文節及び係り受け関係に基づいて、文の読み方が特定される。そして、特定した読み方を表す表音文字列に基づき、音声を構成する音素の波形や継続時間やピッチ(基本周波数)のパターンが決定され、決定結果に基づいて漢字かな混じり文全体を表す音声の波形が決定され、決定された波形を有するような音声が出力される。
上述した音声合成の手法において、音声の波形を特定するためには、音声の波形を表す音声データを集積した音声辞書を検索する。合成する音声を自然なものにするためには、音声辞書が膨大な数の音声データを集積していなければならない。
加えて、カーナビゲーション装置等、小型化が求められる装置にこの手法を応用する場合は、一般的に、装置が用いる音声辞書を記憶する記憶装置もサイズの小型化が必要になる。そして、記憶装置のサイズを小型化すれば、一般的にはその記憶容量の小容量化も避けられない。
そこで、記憶容量が小さな記憶装置にも十分な量の音声データを含んだ音素辞書を格納できるようにするため、音声データにデータ圧縮を施し、音声データ1個あたりのデータ容量を小さくすることが行われていた(例えば、特許文献1参照)。
特表2000−502539号公報
しかし、データの規則性に着目してデータを圧縮する手法であるエントロピー符号化の手法(具体的には、算術符号化やハフマン符号化など)を用いて、人が発する音声を表す音声データを圧縮する場合、人が発声した音声を表す音声データにはある程度の規則性がみられるため効率のよい圧縮が行えるものの、人が発声した音声に起因しない成分(例えば、楽器が発する音を表す成分など)を含む音声データは、全体としては必ずしも明確な周期性を有していないため、圧縮の効率が低かった。
また、人が発声した音声を表す音声データをエントロピー符号化する際には、ピッチのゆらぎも問題になっていた。ピッチは、人間の感情や意識に影響されやすく、ある程度は一定とみなせる周期であるものの、現実には微妙にゆらぎを生じる。従って、同一話者が同じ言葉(音素)を複数ピッチ分発声した場合、ピッチの間隔は通常、一定しない。従って、1個の音素を表す波形にも正確な規則性がみられない場合が多く、このためにエントロピー符号化による圧縮の効率が低くなる場合が多かった。
この発明は上記実状に鑑みてなされたものであり、人が発する音声を表す成分を含んだデータのデータ容量を効率よく圧縮することを可能にするための音声信号圧縮装置、音声信号圧縮方法及びプログラムを提供すること、また、このような音声信号圧縮装置及び音声信号圧縮方法により圧縮されたデータを復元するための音声信号復元装置、音声信号復元方法及びプログラムを提供することを目的とする。
上記目的を達成すべく、この発明の第1の観点に係る音声信号圧縮装置は、
音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成するサブバンド抽出手段と、
前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離する成分分離手段と、
前記連続成分にエントロピー符号化又は線形予測符号化を施す符号化手段と、を備える、
ことを特徴とする。
また、この発明の第2の観点に係る音声信号圧縮装置は、
音声の波形を表す圧縮対象の音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工する音声信号加工手段と、
前記ピッチ波形信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成するサブバンド抽出手段と、
前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離する成分分離手段と、
前記連続成分にエントロピー符号化又は線形予測符号化を施す符号化手段と、を備える、
ことを特徴とする。
前記音声信号圧縮装置は、前記圧縮対象の音声信号より、前記音声のピッチ成分を抽出するピッチ成分抽出手段を備えていてもよく、
前記成分分離手段は、抽出された前記ピッチ成分の強度に基づき、前記連続成分及び前記ランダム成分を分離するか否かを決定し、分離すると決定したとき、前記連続成分及び前記ランダム成分を前記サブバンド信号より分離するものであってもよい。
前記成分分離手段は、前記連続成分及び前記ランダム成分を分離しないと決定したとき、前記サブバンド信号を前記連続成分として扱うことを決定するものであってもよい。
前記符号化手段は、前記連続成分を非線形量子化した結果、及び/又は前記ランダム成分を非線形量子化した結果にエントロピー符号化を施すものであってもよい。
前記符号化手段は、前記非線形量子化の量子化特性を示すデータを生成するものであってもよい。
前記符号化手段は、過去にエントロピー符号化された連続成分及び/又はランダム成分のデータ量に基づいて、前記非線形量子化の量子化特性を決定し、決定した量子化特性に合致するように前記非線形量子化を行うものであってもよい。
また、この発明の第3の観点に係る音声信号復元装置は、
音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号のうち所定の基準に合致する程度の周期性を有する連続成分を抽出してエントロピー符号化又は線形予測符号化を施したものに相当する入力信号を取得し、当該入力信号を復号化することにより当該連続成分を復元する復号化手段と、
復元された前記連続成分を前記サブバンド信号より除いたものに相当するランダム成分を取得し、当該連続成分に当該ランダム成分を加算することにより、当該サブバンド信号を復元するサブバンド信号復元部と、
復元されたサブバンド信号に基づいて前記圧縮対象の音声信号を復元する音声信号復元手段と、を備える、
ことを特徴とする。
また、この発明の第4の観点に係る音声信号圧縮方法は、
音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成し、
前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離し、
前記連続成分にエントロピー符号化又は線形予測符号化を施す、
ことを特徴とする。
また、この発明の第5の観点に係る音声信号圧縮方法は、
音声の波形を表す圧縮対象の音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工し、
前記ピッチ波形信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成し、
前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離し、
前記連続成分にエントロピー符号化又は線形予測符号化を施す、
ことを特徴とする。
また、この発明の第6の観点に係る音声信号復元方法は、
音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号のうち所定の基準に合致する程度の周期性を有する連続成分を抽出してエントロピー符号化又は線形予測符号化を施したものに相当する入力信号を取得し、当該入力信号を復号化することにより当該連続成分を復元し、
復元された前記連続成分を前記サブバンド信号より除いたものに相当するランダム成分を取得し、当該連続成分に当該ランダム成分を加算することにより、当該サブバンド信号を復元し、
復元されたサブバンド信号に基づいて前記圧縮対象の音声信号を復元する、
ことを特徴とする。
また、この発明の第7の観点に係るプログラムは、
コンピュータを、
音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成するサブバンド抽出手段と、
前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離する成分分離手段と、
前記連続成分にエントロピー符号化又は線形予測符号化を施す符号化手段と、
して機能させるためのものであることを特徴とする。
また、この発明の第8の観点に係るプログラムは、
コンピュータを、
音声の波形を表す圧縮対象の音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工する音声信号加工手段と、
前記ピッチ波形信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成するサブバンド抽出手段と、
前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離する成分分離手段と、
前記連続成分にエントロピー符号化又は線形予測符号化を施す符号化手段と、
して機能させるためのものであることを特徴とする。
また、この発明の第9の観点に係るプログラムは、
コンピュータを、
音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号のうち所定の基準に合致する程度の周期性を有する連続成分を抽出してエントロピー符号化又は線形予測符号化を施したものに相当する入力信号を取得し、当該入力信号を復号化することにより当該連続成分を復元する復号化手段と、
復元された前記連続成分を前記サブバンド信号より除いたものに相当するランダム成分を取得し、当該連続成分に当該ランダム成分を加算することにより、当該サブバンド信号を復元するサブバンド信号復元部と、
復元されたサブバンド信号に基づいて前記圧縮対象の音声信号を復元する音声信号復元手段と、
して機能させるためのものであることを特徴とする。
この発明によれば、人が発する音声を表す成分を含んだデータのデータ容量を効率よく圧縮することを可能にするための音声信号圧縮装置、音声信号圧縮方法及びプログラムが実現され、また、このような音声信号圧縮装置及び音声信号圧縮方法により圧縮されたデータを復元するための音声データ復元装置、音声データ復元方法及びプログラムが実現される。
以下に、図面を参照して、この発明の実施の形態を説明する。
(第1の実施の形態)
図1は、この発明の第1の実施の形態に係る音声データ圧縮システムの構成を示す図である。図示するように、この音声データ圧縮システムは、記録媒体(例えば、フレキシブルディスクやCD−R(Compact Disc-Recordable)など)に記録されたデータを読み取る記録媒体ドライブ装置(フレキシブルディスクドライブや、CD−ROMドライブなど)SMDと、記録媒体ドライブ装置SMDに接続されたコンピュータC1とより構成されている。
図示するように、コンピュータC1は、CPU(Central Processing Unit)やDSP(Digital Signal Processor)等からなるプロセッサや、RAM(Random Access Memory)等からなる揮発性メモリや、ハードディスク装置等からなる不揮発性メモリや、キーボード等からなる入力部や、液晶ディスプレイ等からなる表示部や、USB(Universal Serial Bus)インターフェース回路等からなっていて外部とのシリアル通信を制御するシリアル通信制御部などからなっている。
コンピュータC1は音声データ圧縮プログラムを予め記憶しており、この音声データ圧縮プログラムを実行することにより後述する処理を行う。
(第1の実施の形態:動作)
次に、この音声データ圧縮システムの動作を、図2及び図3を参照して説明する。図2及び図3は、図1の音声データ圧縮システムの動作の流れを示す図である。
ユーザが、音声の波形を表す音声データを記録した記録媒体を記録媒体ドライブ装置SMDにセットして、コンピュータC1に、音声データ圧縮プログラムの起動を指示すると、コンピュータC1は、音声データ圧縮プログラムの処理を開始する。
すると、まず、コンピュータC1は、記録媒体ドライブ装置SMDを介し、記録媒体より音声データを読み出す(図2、ステップS101)。なお、音声データは、例えばPCM(Pulse Code Modulation)変調されたディジタル信号の形式を有しており、音声のピッチより十分短い一定の周期でサンプリングされた音声を表しているものとする。
次に、コンピュータC1は、記録媒体より読み出された音声データをフィルタリングすることにより、フィルタリングされた音声データ(ピッチ信号)を生成する(ステップS102)。ピッチ信号は、音声データのサンプルリング間隔と実質的に同一のサンプリング間隔を有するディジタル形式のデータからなるものとする。
なお、コンピュータC1は、ピッチ信号を生成するために行うフィルタリングの特性を、後述するピッチ長と、ピッチ信号の瞬時値が0となる時刻(ゼロクロスする時刻)とに基づくフィードバック処理を行うことにより決定する。
すなわち、コンピュータC1は、読み出した音声データに、例えば、ケプストラム解析や、自己相関関数に基づく解析を施すことにより、この音声データが表す音声の基本周波数を特定し、この基本周波数の逆数の絶対値(すなわち、ピッチ長)を求める(ステップS103)。(あるいは、コンピュータC1は、ケプストラム解析及び自己相関関数に基づく解析の両方を行うことにより基本周波数を2個特定し、これら2個の基本周波数の逆数の絶対値の平均をピッチ長として求めるようにしてもよい。)
なお、ケプストラム解析としては、具体的には、まず、読み出した音声データの強度を、元の値の対数(対数の底は任意)に実質的に等しい値へと変換し、値が変換された音声データのスペクトル(すなわち、ケプストラム)を、高速フーリエ変換の手法(あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法)により求める。そして、このケプストラムの極大値を与える周波数のうちの最小値を基本周波数として特定する。
一方、自己相関関数に基づく解析としては、具体的には、読み出した音声データを用いてまず、数式1の右辺により表される自己相関関数r(l)を特定する。そして、自己相関関数r(l)をフーリエ変換した結果得られる関数(ピリオドグラム)の極大値を与える周波数のうち、所定の下限値を超える最小の値を基本周波数として特定する。
Figure 2007108440
一方、コンピュータC1は、ピッチ信号がゼロクロスする時刻が来るタイミングを特定する(ステップS104)。そして、コンピュータC1は、ピッチ信号のゼロクロスの周期とピッチ長とが互いに所定量以上異なっているか否かを判別し(ステップS105)、異なっていないと判別した場合は、ゼロクロスの周期の逆数を中心周波数とするようなバンドパスフィルタの特性で上述のフィルタリングを行うこととする(ステップS106)。一方、所定量以上異なっていると判別した場合は、ピッチ長の逆数を中心周波数とするようなバンドパスフィルタの特性で上述のフィルタリングを行うこととする(ステップS107)。なお、いずれの場合も、フィルタリングの通過帯域幅は、通過帯域の上限が音声データの表す音声の基本周波数の2倍以内に常に収まるような通過帯域幅であることが望ましい。
次に、コンピュータC1は、生成したピッチ信号の単位周期(例えば1周期)の境界が来るタイミング(具体的には、ピッチ信号がゼロクロスするタイミング)で、記録媒体から読み出した音声データを区切る(ステップS108)。そして、区切られてできる区間のそれぞれについて、この区間内の音声データの位相を種々変化させたものとこの区間内のピッチ信号との相関を求め、最も相関が高くなるときの音声データの位相を、この区間内の音声データの位相として特定する(ステップS109)。そして、音声データのそれぞれの区間を、互いが実質的に同じ位相になるように移相する(ステップS110)。
具体的には、コンピュータC1は、それぞれの区間毎に、例えば、数式2の右辺により表される値corを、位相を表すφ(ただし、φは0以上の整数)の値を種々変化させた場合それぞれについて求める。そして、値corが最大になるようなφの値Ψを、この区間内の音声データの位相を表す値として特定する。この結果、この区間につき、ピッチ信号との相関が最も高くなる位相の値が定まる。そして、コンピュータC1は、この区間内の音声データを、(−Ψ)だけ移相する。
Figure 2007108440
音声データを上述の通り移相することにより得られるデータが、ピッチ波形データである。ピッチ波形データが表す波形の一例を図4(c)に示す。図4(a)に示す移相前の音声データの波形のうち、「#1」及び「#2」として示す2個の区間は、図4(b)に示すように、ピッチのゆらぎの影響により互いに異なる位相を有している。これに対し、移相された音声データ(すなわち、ピッチ波形データ)が表す波形の区間#1及び#2は、図4(c)に示すように、ピッチのゆらぎの影響が除去されて位相が揃っている。また、図4(a)に示すように、各区間の始点の値は0に近い値となっている。
なお、区間の時間的な長さは、1ピッチ分程度であることが望ましい。区間が長いほど、区間内のサンプル数が増えて、ピッチ波形データのデータ量が増大し、あるいは、サンプリング間隔が増大してピッチ波形データが表す音声が不正確になる、という問題が生じる。
次に、コンピュータC1は、ピッチ波形データを補間する(ステップS111)。すなわち、ピッチ波形データのサンプル間を補間する値を表す補間データを生成してピッチ波形データに追加することにより、補間後のピッチ波形データを生成する。
次に、コンピュータC1は、補間後のピッチ波形データの各区間をサンプリングし直す(リサンプリングする)。また、各区間の元のサンプル数を示すデータであるサンプル数データも生成する(ステップS112)。なお、コンピュータC1は、ピッチ波形データの各区間のサンプル数が互いにほぼ等しくなるようにして、同一区間内では等間隔になるようリサンプリングするものとする。
記録媒体より読み出した音声データのサンプリング間隔が既知であるものとすれば、サンプル数データは、この音声データの単位ピッチ分の区間の元の時間長を表す情報として機能する。
次に、コンピュータC1は、リサンプリングされたピッチ波形データにDCT(Discrete Cosine Transform)等の直交変換を施すことにより、サブバンドデータ群を生成する(ステップS113)。サブバンドデータ群は、リサンプリングされたピッチ波形データが表す音声の基本周波数成分の強度の時間変化を表すデータ(0番目のサブバンドデータ)と、この音声のn個(nは自然数)の高調波成分の強度の時間変化を表すn個のデータ(1番目〜n番目のサブバンドデータ)とより構成されている。(従って、サブバンドデータは、音声の基本周波数成分(又は高調波成分)の強度の時間変化がないとき、この基本周波数成分(又は高調波成分)の強度を、直流信号の形で表す。)
次に、コンピュータC1は、ステップS102で生成されたピッチ信号の振幅が所定量に達しているか否かを判別し(ステップS114)、達していないと判別した場合は、ステップS113で生成したサブバンドデータ群に含まれるサブバンドデータをそれぞれフィルタリングすることにより、各々のサブバンドデータのうち一定程度以上に強い周期性を有する成分を表すデータ(以下、連続成分データと呼ぶ)を生成し、また、当該サブバンドデータから連続成分を除いた成分を表すデータ(以下、ランダム成分データと呼ぶ)も生成して(ステップS115)、ステップS117に処理を移す。
(なお、以下では、k番目(kは0以上n以下の整数)のサブバンドデータより分離された連続成分データをk番目の連続成分データと呼び、また、k番目のサブバンドデータより分離されたランダム成分データをk番目のランダム成分データと呼ぶ。)
一方、ピッチ信号の振幅が所定量に達しているとステップS114で判別した場合、コンピュータC1は、k番目のサブバンドデータをそのままk番目の連続成分データとして扱うことと決定し(ステップS116)、処理をステップS117に移す。
一般に、人が発声する音声には、周期性のあるピッチ成分が多く含まれているのに対し、その他の音(例えば、楽器が発生する音など)には、周期性のある成分が多く含まれない。従って、上述の連続成分データは、サブバンドデータのうち人が発声する音声に起因する成分を表すとみることができ、一方、上述のランダム成分データは、人が発声する音声に起因しない成分を表すとみることができる。
そして、ステップS114でコンピュータC1が行う処理は、「サブバンドデータ群のうち人が発声する音声に起因しない成分の存在を無視し、サブバンドデータ群の全成分を、人が発声する音声の成分を表すものとして扱ってよいか否か」を判定する処理に相当するものであって、人が発声する音声に起因しない成分を無視できない(具体的には、ピッチ信号の振幅が所定量に達していない)と判別した場合には、サブバンドデータを、人が発声する音声に起因すると考えられる成分と、起因しないと考えられる成分とに分離する、という処理に相当するものである。
次に、コンピュータC1は、ステップS115又はS116で得られた(n+1)個の連続成分データ及びステップS115で得られた(n+1)個のランダム成分データを用いて(n+1)個の非線形量子化連続成分データ及び(n+1)個の非線形量子化ランダム成分データを生成し(ステップS117)、ステップS117で得られた(n+1)個の非線形量子化連続成分データを含むデータ及び(n+1)個の非線形量子化ランダム成分データを含むデータをそれぞれエントロピー符号化することにより後述の連続成分圧縮データ及びランダム成分圧縮データを生成して(ステップS118)、連続成分データの圧縮率(つまり、(n+1)個の連続成分データ及び(n+1)個のランダム成分データのデータ量の総計に対する、連続成分圧縮データ及びランダム成分圧縮データのデータ量の総計の比)と、所定の目標値との大小関係を判別する(ステップS119)、という処理を、連続成分データ及びランダム成分データの圧縮率が当該目標値に至るまで繰り返す。
コンピュータC1は、具体的には、例えばまずステップS117で、ステップS115又はS116で得られた(n+1)個の連続成分データのそれぞれが表す波形の瞬時値に非線形な圧縮を施して得られる値(具体的には、たとえば、瞬時値を上に凸な関数に代入して得られる値)を量子化したものに相当する合計(n+1)個のデータを、上述の(n+1)個の非線形量子化連続成分データとして生成する。また、ステップS117でコンピュータC1は、ステップS115で得られた(n+1)個のランダム成分データのそれぞれが表す波形の瞬時値に当該非線形な圧縮を施して得られる値を量子化したものに相当する合計(n+1)個のデータを、上述の(n+1)個の非線形量子化ランダム成分データとして生成する。
ステップS117でコンピュータC1が行う非線形な圧縮の圧縮特性(すなわち、瞬時値の圧縮前の値と圧縮後の値との対応関係)は、過去最も新しく実行されたステップS119の処理の結果に基づいて、コンピュータC1が決定する。具体的には、ステップS119で求めた圧縮率が目標値より大きいと判別すると、圧縮率が現在より小さくなるように圧縮特性を決定する。一方、求めた圧縮率が目標値より小さいと判別すると、圧縮率が現在より大きくなるように、圧縮特性を決定する。ただし、ステップS119の処理がまだ実行されていない場合は、所定の初期特性を圧縮特性として圧縮を行う。
また、ステップS117でコンピュータC1は、決定した圧縮特性を示す圧縮特性データを作成する。
ステップS117で圧縮特性を決定する手順のより具体的な例を説明すると、コンピュータC1は、例えば数式3の右辺に含まれる関数global_gain(xi)を、過去最も新しく実行されたステップS119の処理の結果に基づいて決定する。そして、非線形圧縮後の各連続成分データや各ランダム成分データの瞬時値を、数式3の右辺に示す関数Xri(xi)を量子化した値に実質的に等しくなるようなものへと変更することにより非線形量子化を行う。一方でコンピュータC1は、決定した関数global_gain(xi)を表すデータを、上述の圧縮特性データとして作成する。
(数3) Xri(xi)=sgn(xi)・|xi|4/3・2{global_gain(xi)}/4
(ただし、sgn(α)=(α/|α|)、xiは、連続成分データの波形の瞬時値、global_gain(xi)は、フルスケールを設定するためのxiの関数)
次に、ステップS118でコンピュータC1は、ステップS117で得られた(n+1)個の非線形量子化連続成分データと圧縮特性データとをエントロピー符号化する(具体的には、例えば算術符号(arithmetic code)あるいはハフマン符号へと変換する)ことにより、連続成分圧縮データを生成する。また、ステップS118でコンピュータC1は、ステップS117で得られた(n+1)個の非線形量子化ランダム成分データをエントロピー符号化することにより、ランダム成分圧縮データを生成する。
次に、ステップS119でコンピュータC1は、ステップS114で得られた(n+1)個の連続成分データ及び(n+1)個のランダム成分データのデータ量の総計に対する、ステップS118で得られた連続成分圧縮データ及びランダム成分圧縮データのデータ量の総計の比を圧縮率として求め、求めた圧縮率が、上述の目標値(たとえば、100分の1)より大きいか、小さいか、あるいは当該目標値に実質的に等しいか、を判別する。そして、求めた圧縮率が目標値より大きいか又は小さいと判別すると、処理をステップS117に戻す。
一方、求めた圧縮率が目標値に実質的に等しいと判別すると、コンピュータC1は、ステップS118で生成した連続成分圧縮データ及びランダム成分圧縮データと、ステップS112で生成したサンプル数データとを、自己のシリアル通信制御部を介して外部に出力する(ステップS120)。
以上説明した処理を行う結果、この音声データ圧縮システムは、圧縮の対象である音声データを、所定の基準に合致する程度の周期性を有する連続成分データと、その他の成分を表すランダム成分データとに分離し、連続成分データ及びランダム成分データに別個にエントロピー符号化を施す。このため、この音声データのうち人が発する音声に起因する成分と起因しない成分とが別個にエントロピー符号化され、音声データは全体として効率的に圧縮される。従ってこの音声データ圧縮システムは、例えば、人の発した音声と背景音楽とを含んだ音声を表すボイスメールなどを、効率よく圧縮することができる。
また、音声データはピッチ波形データへと加工されることにより単位ピッチ分の区間の長さや振幅が規格化され、ピッチのゆらぎの影響が除去されている。このため、ピッチ波形データのうち人が発する音声に起因する成分は強い周期性を有するものとなり、この成分は、成分分離部E4によって連続成分データとして正確に抽出される。抽出されたこの連続成分データは強い周期性を有しているため、連続成分データのエントロピー符号化は効率的に行われる。
また、この音声データ圧縮システムが生成するピッチ波形データの各区間の元の時間長は、サンプル数データを用いて特定することが可能である。このため、連続成分圧縮データやランダム成分データを取得した外部の装置は、これらの連続成分圧縮データやランダム成分データを用いてピッチ波形データを復元した後、復元されたピッチ波形データの各区間の時間長を元の音声データにおける時間長へと復元することによって、元の音声データを容易に復元できる。
なお、この音声データ圧縮システムの構成は上述のものに限られない。
たとえば、コンピュータC1は、外部からシリアル伝送される音声データを、シリアル通信制御部を介して取得するようにしてもよい。また、電話回線、専用回線、衛星回線等の通信回線を介して外部より音声データを取得するようにしてもよく、この場合、コンピュータC1は、例えばモデムやDSU(Data Service Unit)等を備えていればよい。また、記録媒体ドライブ装置SMD以外から音声データを取得するならば、コンピュータC1は必ずしも記録媒体ドライブ装置SMDを備えている必要はない。
また、コンピュータC1は、マイクロフォン、AF増幅器、サンプラー、A/D(Analog-to-Digital)コンバータ及びPCMエンコーダなどからなる集音装置を備えていてもよい。集音装置は、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングしてA/D変換した後、サンプリングされた音声信号にPCM変調を施すことにより、音声データを取得すればよい。なお、コンピュータC1が取得する音声データは、必ずしもPCM信号である必要はない。
また、コンピュータC1は、連続成分圧縮データ、ランダム成分圧縮データ及びサンプル数データの一部又は全部を、記録媒体ドライブ装置SMDにセットされた記録媒体に、記録媒体ドライブ装置SMDを介して書き込むようにしてもよい。あるいは、ハードディスク装置等からなる外部の記憶装置に書き込むようにしてもよい。これらの場合、コンピュータC1は、記録媒体ドライブ装置や、ハードディスクコントローラ等の制御回路を備えていればよい。
また、コンピュータC1は、ケプストラム解析又は自己相関係数に基づく解析のいずれかを行わなくてもよく、この場合は、ケプストラム解析又は自己相関係数に基づく解析のうち一方の手法で求めた基本周波数の逆数をそのままピッチ長として扱うようにすればよい。
また、コンピュータC1が音声データの各区間内の音声データを移相する量は(−Ψ)である必要はなく、例えば、コンピュータC1は、初期位相を表す各区間に共通な実数をδとして、それぞれの区間につき、(−Ψ+δ)だけ、音声データを移相するようにしてもよい。また、コンピュータC1が音声データを区切る位置は、必ずしもピッチ信号がゼロクロスするタイミングである必要はなく、例えば、ピッチ信号が0でない所定の値となるタイミングであってもよい。
しかし、初期位相αを0とし、且つ、ピッチ信号がゼロクロスするタイミングで音声データを区切るようにすれば、各区間の始点の値は0に近い値になるので、音声データを各区間へと区切ることに各区間が含むようになるノイズの量が少なくなる。
また、ピッチ波形データの補間は必ずしもラグランジェ補間の手法により行われる必要はなく、例えば直線補間の手法によってもよいし、補間自体を省略してもよい。
また、圧縮する対象の音声データのピッチのゆらぎが無視できる程度であれば、コンピュータC1は、当該音声データの移相を行う必要はなく、当該音声データをピッチ波形データと同視してステップS113以降の処理を行うようにしてもよい。また、音声データの補間やリサンプリングも、必ずしも必要な処理ではない。
また、コンピュータC1はステップS114で、ピッチ信号の振幅が所定量に達しているか否かを判別する代わりに、ピッチ波形信号の振幅に対するピッチ信号の振幅の比率が所定量に達しているか否かを判別してもよい。この場合コンピュータC1は、当該比率が所定量に達していないと判別した場合はステップS115に処理を移し、達していると判別した場合はステップS116に処理を移すようにすればよい。
また、コンピュータC1は、必ずしも圧縮特性データをエントロピー符号化しなくてもよく、この場合、コンピュータC1は、ステップS118では例えば非線形量子化連続成分データのみをエントロピー符号化して連続成分圧縮データを生成するものとし、ステップS120では、ステップS118で生成した連続成分圧縮データ及びランダム成分圧縮データと、ステップS112で生成したサンプル数データと、ステップS117で生成した圧縮特性データと、を出力するようにすればよい。
また、コンピュータC1は、ステップS119の処理を省略してもよく、この場合例えば、ステップS117では所定の圧縮特性で非線形量子化連続成分データ及び非線形量子化ランダム成分データを生成し、ステップS118では、ステップS117で得られた非線形量子化連続成分データ及び圧縮特性データとをエントロピー符号化することにより連続成分圧縮データを生成し、ステップS117で得られた非線形量子化ランダム成分データをエントロピー符号化することによりランダム成分圧縮データを生成して、処理をステップS120へと移すようにしてもよい。なお、コンピュータC1は、ステップS117において所定の圧縮特性で非線形量子化連続成分データ及び非線形量子化ランダム成分データを生成する場合は、当該所定の圧縮特定を示す圧縮特性データをあらかじめ記憶するようにしてもよく、あるいは、圧縮特性データのエントロピー符号化ないし外部への出力を省略してもよい。
また、コンピュータC1は、ステップS118で、非線形量子化連続成分データのエントロピー符号化を行う代わりに、ステップS115若しくはS116で得られた(n+1)個の連続成分データ(又は、ステップS117で得られた(n+1)個の非線形量子化連続成分データ)を線形予測符号化することにより連続成分圧縮データを生成するようにしてもよい。このように、音声を表すサブバンドデータからランダム成分データ(人が発する音声に起因しないと考えられる成分)を除いた成分を表す連続成分データについて線形予測符号化を行うようにすれば、人が発する音声を表すデータが、人が発する音声に起因しない成分による影響を実質的に受けることなく、的確且つ効率的に線形予測符号化される。
なお、コンピュータC1は専用のシステムである必要はなく、パーソナルコンピュータ等であってよい。また、音声データ圧縮プログラムは、音声データ圧縮プログラムを格納した媒体(CD−ROM、MO、フレキシブルディスク等)からコンピュータC1へとインストールするようにしてもよいし、通信回線の掲示板(BBS)に音声データ圧縮プログラムをアップロードし、これを通信回線を介して配信してもよい。また、音声データ圧縮プログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調して音声データ圧縮プログラムを復元するようにしてもよい。
また、音声データ圧縮プログラムは、OSの制御下に、他のアプリケーションプログラムと同様に起動してコンピュータC1に実行させることにより、上述の処理を実行することができる。なお、OSが上述の処理の一部を分担する場合、記録媒体に格納される音声データ圧縮プログラムは、当該処理を制御する部分を除いたものであってもよい。
(第2の実施の形態)
次に、この発明の第2の実施の形態に係る音声データ再生システムを説明する。
この音声データ再生システムは、図1に示す音声データ圧縮システムの構成と実質的に同一の物理的構成を有している。ただし、この音声データ再生システムを構成するコンピュータC1は音声データ再生プログラムを予め記憶していて、この音声データ再生プログラムを実行することにより、後述する処理を行うものとする。
次に、この音声データ再生システムの動作を、図5を参照して説明する。図5は、この音声データ再生システムの動作の流れを示す図である。
ユーザが、例えば上述の第1の実施の形態における連続成分圧縮データ、ランダム成分圧縮データ及びサンプル数データを記録した記録媒体を記録媒体ドライブ装置SMDにセットして、コンピュータC1に、音声データ再生プログラムの起動を指示すると、コンピュータC1は、音声データ再生プログラムの処理を開始する。
すると、まず、コンピュータC1は、記録媒体ドライブ装置SMDを介し、記録媒体より連続成分圧縮データ、ランダム成分圧縮データ及びサンプル数データを読み出す(図5、ステップS201)。
次に、コンピュータC1は、読み出した連続成分圧縮データを復号化することにより、(n+1)個の非線形量子化連続成分データと、圧縮特性データとを復元する(ステップS202)。また、ステップS202でコンピュータC1は、読み出したランダム成分圧縮データを復号化することにより、(n+1)個の非線形量子化ランダム成分データを復元する。
次に、コンピュータC1は、復元された(n+1)個の非線形量子化連続成分データ及び(n+1)個の非線形量子化ランダム成分データが表す波形の瞬時値を、復元された圧縮特性データが示す圧縮特性と互いに逆変換の関係にある特性に従って変更することにより、非線形量子化される前の(n+1)個の連続成分データ及び(n+1)個のランダム成分データを復元する(ステップS203)。
なお、ステップS202で連続成分圧縮データから圧縮特性データを得られなかった場合、ステップS203でコンピュータC1は、非線形量子化連続成分データ及び非線形量子化ランダム成分データが表す波形の瞬時値を所定の特性に従って変更することにより連続成分データ及びランダム成分データを復元してもよい。あるいは、非線形量子化連続成分データ及び非線形量子化ランダム成分データを成分データ及びランダム成分データとみなして、ステップS202から直ちにステップS204へと処理を移してもよい。
次に、コンピュータC1は、ステップS203で復元したk番目(kは0以上n以下の各整数)のランダム成分データ及びk番目の連続成分データが示す各瞬時値同士の和(ただし、実質上互いに同一の時刻における瞬時値同士の和)を示す信号を生成する(ステップS204)。
ステップS204で生成される、k番目のランダム成分データが示す瞬時値と、k番目の連続成分データが示す瞬時値との和を示す信号は、ステップS201で読み出した連続成分圧縮データ、ランダム成分圧縮データ及びサンプル数データがたとえば上述の第1の実施の形態の音声データ圧縮システムにより生成されたものである場合、当該音声データ圧縮システムが上述のステップS113で生成したk番目のサブバンドデータに相当する信号である。なお、k番目のランダム成分データが存在しない場合、ステップS204でコンピュータC1は、k番目の連続成分をそのままk番目のサブバンドデータとして扱うことと決定すればよい。
次に、コンピュータC1は、ステップS204で生成された計(n+1)個のサブバンドデータに変換を施すことにより、これらのサブバンドデータにより各周波数成分の強度が表されるピッチ波形データを復元する(ステップS205)。
コンピュータC1がステップS205でサブバンドデータに施す変換は、このサブバンドデータを生成するために音声データに施した変換に対して実質的に逆変換の関係にあるような変換である。従って、例えばこのサブバンドデータが上述のステップS113で生成されたものである場合、ステップS205でコンピュータC1は、ステップS113でピッチ波形データに施された変換の逆変換を施せばよい。具体的には、たとえばこのサブバンドデータがピッチ波形データにDCTを施して生成されたものである場合、ステップS205でコンピュータC1は、このサブバンドデータにIDCT(Inverse DCT)を施すようにすればよい。
次に、コンピュータC1は、ステップS205で復元したピッチ波形データの各区間のサンプル数を、ステップS202で復元したサンプル数データが示すサンプル数になるよう変更することにより、各区間の時間長を変更する(ステップS206)。
そして、コンピュータC1は、各区間の時間長を変更されたピッチ波形データ、すなわち復元された音声データを出力する(ステップS207)。
なお、ステップS207でンピュータC1が音声データを出力する手法は任意であり、例えば、コンピュータC1は、復元された音声データを自己のシリアル通信制御部を介して外部に出力してもよいし、記録媒体ドライブ装置SMDにセットされた記録媒体に、記録媒体ドライブ装置SMDを介して書き込むようにしてもよい。ハードディスクコントローラ等の制御回路を備えている場合は、ハードディスク装置等からなる外部の記憶装置に書き込むようにしてもよい。また、コンピュータC1が自ら実行している他の処理へと、音声データを引き渡すようにしてもよい。
以上説明した処理を行う結果、この音声データ再生システムは、第1の実施の形態の音声データ圧縮システムにより圧縮された音声データ(あるいは、後述する第3の実施の形態の音声データ圧縮システムにより圧縮された音声データや、その他任意の手法によって上述の連続成分圧縮データ、ランダム成分データ及びサンプル数データへと変換された音声データ)を復元する。
なお、この音声データ再生システムの構成も、上述のものに限られない。
たとえば、この音声データ再生システムを構成するコンピュータC1も、外部からシリアル伝送される連続成分圧縮データ、ランダム成分圧縮データ及びサンプル数データを、シリアル通信制御部を介して取得するようにしてもよい。また、通信回線を介して外部より連続成分圧縮データ、ランダム成分圧縮データ及びサンプル数データを取得するようにしてもよく、この場合、コンピュータC1は、例えばモデムやDSU等を備えていればよい。また、記録媒体ドライブ装置SMD以外から連続成分圧縮データ、ランダム成分データ及びサンプル数データを取得するならば、コンピュータC1は必ずしも記録媒体ドライブ装置SMDを備えている必要はない。
また、コンピュータC1は、D/A(Digital-to-Analog)変換器、AF増幅器及びスピーカなどからなる音声再生装置を備えていてもよい。この場合、ステップS207で音声再生装置が、復元された音声データをD/A変換してアナログ形式の音声データを生成し、このアナログ形式の音声データを増幅して自己のスピーカを駆動することにより、音声データが表す音声を再生してもよい。
また、コンピュータC1は、復元された音声データを、記録媒体ドライブ装置SMDにセットされた記録媒体に、記録媒体ドライブ装置SMDを介して書き込むようにしてもよい。あるいは、ハードディスク装置等からなる外部の記憶装置に書き込むようにしてもよい。これらの場合、コンピュータC1は、記録媒体ドライブ装置や、ハードディスクコントローラ等の制御回路を備えていればよい。
また、コンピュータC1はステップS206で、ステップS205で復元したピッチ波形データのそれぞれの区間内のサンプルの間隔を調整することにより、当該区間の時間長を、ステップS202で復元したサンプル数データより特定される時間長へと変更するようにしてもよい。
なお、この音声データ再生システムを構成するコンピュータC1も専用のシステムである必要はなく、パーソナルコンピュータ等であってよい。また、音声データ再生プログラムは、音声データ圧縮プログラムを格納した媒体からコンピュータC1へとインストールするようにしてもよいし、通信回線の掲示板に音声データ再生プログラムをアップロードし、これを通信回線を介して配信してもよい。また、音声データ再生プログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調して音声データ再生プログラムを復元するようにしてもよい。また、音声データ再生プログラムは、OSの制御下に、他のアプリケーションプログラムと同様に起動してコンピュータC1に実行させることにより、上述の処理を実行することができる。なお、OSが上述の処理の一部を分担する場合、記録媒体に格納される音声データ再生プログラムは、当該処理を制御する部分を除いたものであってもよい。
(第3の実施の形態)
次に、この発明の第3の実施の形態を説明する。
図6は、この発明の第3の実施の形態に係る音声データ圧縮システムの構成を示す図である。図示するように、この音声データ圧縮システムは、音声入力部E1と、ピッチ波形抽出部E2と、サブバンド解析部E3と、成分分離部E4と、データ圧縮部E5と、出力部E6とより構成されている。
音声入力部E1は、例えば、第1の実施の形態における記録媒体ドライブ装置SMDと同様の記録媒体ドライブ装置等より構成されている。
音声入力部E1は、音声の波形を表す音声データを、この音声データが記録された記録媒体から読み取る等して取得し、ピッチ波形抽出部E2に供給する。なお、音声データは、PCM変調されたディジタル信号の形式を有しており、音声のピッチより十分短い一定の周期でサンプリングされた音声を表しているものとする。
ピッチ波形抽出部E2、サブバンド解析部E3、成分分離部E4及びデータ圧縮部E5は、いずれも、DSPやCPU等のプロセッサや、このプロセッサが実行するためのプログラムを記憶するメモリなどより構成されている。
なお、ピッチ波形抽出部E2、サブバンド解析部E3、成分分離部E4及びデータ圧縮部E5の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。
ピッチ波形抽出部E2は、音声入力部E1より供給された音声データを、この音声データが表す音声の単位ピッチ分(たとえば、1ピッチ分)にあたる区間へと分割する。そして、分割されてできた各区間を移相及びリサンプリングすることにより、各区間の時間長及び位相を互いに実質的に同一になるように揃える。そして、各区間の位相及び時間長を揃えられた音声データ(ピッチ波形データ)を、サブバンド解析部E3に供給する。
また、ピッチ波形抽出部E2は、後述するピッチ信号を生成し、後述するように自らこのピッチ信号を用いるととともに、このピッチ信号を成分分離部E4へと供給する。
また、ピッチ波形抽出部E2は、この音声データの各区間の元のサンプル数を示すサンプル数データを生成し、出力部E6へと供給する。
ピッチ波形抽出部E2は、機能的には、例えば図7に示すように、ケプストラム解析部E201と、自己相関解析部E202と、重み計算部E203と、BPF(バンドパスフィルタ)係数計算部E204と、バンドパスフィルタE205と、ゼロクロス解析部E206と、波形相関解析部E207と、位相調整部E208と、補間部E209と、ピッチ長調整部E210とより構成されている。
なお、ケプストラム解析部E201、自己相関解析部E202、重み計算部E203、BPF係数計算部E204、バンドパスフィルタE205、ゼロクロス解析部E206、波形相関解析部E207、位相調整部E208、補間部E209及びピッチ長調整部E210の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。
ピッチ波形抽出部E2は、ケプストラム解析と、自己相関関数に基づく解析とを併用して、ピッチの長さを特定する。
すなわち、まず、ケプストラム解析部E201は、音声入力部E1より供給される音声データにケプストラム解析を施すことにより、この音声データが表す音声の基本周波数を特定し、特定した基本周波数を示すデータを生成して重み計算部E203へと供給する。
具体的には、ケプストラム解析部E201は、音声入力部E1より音声データを供給されると、まず、この音声データの強度を、元の値の対数に実質的に等しい値へと変換する。(対数の底は任意である。)
次に、ケプストラム解析部E201は、値が変換された音声データのスペクトル(すなわち、ケプストラム)を、高速フーリエ変換の手法(あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法)により求める。
そして、このケプストラムの極大値を与える周波数のうちの最小値を基本周波数として特定し、特定した基本周波数を示すデータを生成して重み計算部E203へと供給する。
一方、自己相関解析部E202は、音声入力部E1より音声データを供給されると、音声データの波形の自己相関関数に基づいて、この音声データが表す音声の基本周波数を特定し、特定した基本周波数を示すデータを生成して重み計算部E203へと供給する。
具体的には、自己相関解析部E202は、音声入力部E1より音声データを供給されるとまず、上述した自己相関関数r(l)を特定する。そして、特定した自己相関関数r(l)をフーリエ変換した結果得られるピリオドグラムの極大値を与える周波数のうち、所定の下限値を超える最小の値を基本周波数として特定し、特定した基本周波数を示すデータを生成して重み計算部E203へと供給する。
重み計算部E203は、ケプストラム解析部E201及び自己相関解析部E202より基本周波数を示すデータを1個ずつ合計2個供給されると、これら2個のデータが示す基本周波数の逆数の絶対値の平均を求める。そして、求めた値(すなわち、平均ピッチ長)を示すデータを生成し、BPF係数計算部E204へと供給する。
BPF係数計算部E204は、平均ピッチ長を示すデータを重み計算部E203より供給され、ゼロクロス解析部E206より後述のゼロクロス信号を供給されると、供給されたデータやゼロクロス信号に基づき、平均ピッチ長とゼロクロスの周期とが互いに所定量以上異なっているか否かを判別する。そして、異なっていないと判別したときは、ゼロクロスの周期の逆数を中心周波数(バンドパスフィルタE205の通過帯域の中央の周波数)とするように、バンドパスフィルタE205の周波数特性を制御する。一方、所定量以上異なっていると判別したときは、平均ピッチ長の逆数を中心周波数とするように、バンドパスフィルタE205の周波数特性を制御する。
バンドパスフィルタE205は、中心周波数が可変なFIR(Finite Impulse Response)型のフィルタの機能を行う。
具体的には、バンドパスフィルタE205は、自己の中心周波数を、BPF係数計算部E204の制御に従った値に設定する。そして、音声入力部E1より供給される音声データをフィルタリングして、フィルタリングされた音声データ(ピッチ信号)を、ゼロクロス解析部E206、波形相関解析部E207及び成分分離部E4の後述する連続成分抽出部E41−0〜E41−nへと供給する。ピッチ信号は、音声データのサンプルリング間隔と実質的に同一のサンプリング間隔を有するディジタル形式のデータからなるものとする。
なお、バンドパスフィルタE205の帯域幅は、バンドパスフィルタE205の通過帯域の上限が音声データの表す音声の基本周波数の2倍以内に常に収まるような帯域幅であることが望ましい。
ゼロクロス解析部E206は、バンドパスフィルタE205から供給されたピッチ信号の瞬時値が0となる時刻(ゼロクロスする時刻)が来るタイミングを特定し、特定したタイミングを表す信号(ゼロクロス信号)を、BPF係数計算部E204へと供給する。このようにして、音声データのピッチの長さが特定される。
ただし、ゼロクロス解析部E206は、ピッチ信号の瞬時値が0でない所定の値となる時刻が来るタイミングを特定し、特定したタイミングを表す信号を、ゼロクロス信号に代えてBPF係数計算部E204へと供給するようにしてもよい。
波形相関解析部E207は、音声入力部E1より音声データを供給され、バンドパスフィルタE205よりピッチ信号を供給されると、ピッチ信号の単位周期(例えば1周期)の境界が来るタイミングで音声データを区切る。そして、区切られてできる区間のそれぞれについて、この区間内の音声データの位相を種々変化させたものとこの区間内のピッチ信号との相関を求め、最も相関が高くなるときの音声データの位相を、この区間内の音声データの位相として特定する。このようにして、各区間につき音声データの位相が特定される。
具体的には、波形相関解析部E207は、例えば、それぞれの区間毎に、上述した値Ψを特定し、値Ψを示すデータを生成して、この区間内の音声データの位相を表す位相データとして位相調整部E208に供給する。なお、区間の時間的な長さは、1ピッチ分程度であることが望ましい。
位相調整部E208は、音声入力部E1より音声データを供給され、波形相関解析部E207より音声データの各区間の位相Ψを示すデータを供給されると、それぞれの区間の音声データの位相を(−Ψ)だけ移相することにより、各区間の位相を揃える。そして、移相された音声データを補間部E209へと供給する。
補間部E209は、位相調整部E208より供給された音声データ(移相された音声データ)にラグランジェ補間を施して、ピッチ長調整部E210へと供給する。
ピッチ長調整部E210は、ラグランジェ補間を施された音声データを補間部E209より供給されると、供給された音声データの各区間をリサンプリングすることにより、各区間の時間長を互いに実質的に同一になるように揃える。そして、各区間の時間長を揃えられた音声データ(すなわち、ピッチ波形データ)をサブバンド解析部E3へと供給する。
また、ピッチ長調整部E210は、この音声データの各区間の元のサンプル数(音声入力部E1からピッチ長調整部E210へと供給された時点におけるこの音声データの各区間のサンプル数)を示すサンプル数データを生成し、出力部E6へと供給する。
サブバンド解析部E3は、ピッチ長調整部E210より供給されたピッチ波形データにDCT等の直交変換を施すことにより、0番目〜n番目までの計(n+1)このサブバンドデータからなるサブバンドデータ群を生成し、このサブバンドデータ群を成分分離部E4へと供給する。
成分分離部E4は、機能的には、例えば図8に示すように、(n+1)個の連続成分抽出部E41−0〜E41−nと、(n+1)個のランダム成分抽出部E42−0〜E42−nとより構成されている。
連続成分抽出部E41−0〜E41−nは、それぞれ、たとえばLMS(Least Mean Square)フィルタあるいはその他の適応フィルタ(適応型フィルタ)の機能を行うものである。
連続成分抽出部E41−k(kは0以上n以下の整数)は、バンドパスフィルタE205より供給されるピッチ信号の振幅が所定量に達しているか否かを判別する。そして、所定量に達していないと判別された期間は、サブバンド解析部E3より供給されるサブバンドデータ群に含まれるk番目のサブバンドデータをフィルタリングすることにより、k番目のサブバンドデータのうち一定程度以上に強い周期性を有する成分(以下、k番目の連続成分データと呼ぶ)を抽出し、抽出されたk番目の連続成分データを、ランダム成分抽出部E42−k及びデータ圧縮部E5へと供給する。
一方、ピッチ信号の振幅が所定量に達していると判別された期間は、k番目のサブバンドデータのフィルタリングを行う代わりに、k番目のサブバンドデータをそのままk番目の連続成分データとしてランダム成分抽出部E42−k及びデータ圧縮部E5へと供給する。
ランダム成分抽出部E42−kは、サブバンド解析部E3より供給されたk番目のサブバンドデータが示す瞬時値と、連続成分抽出部E42−kより供給されたk番目の連続成分データが示す瞬時値との差(ただし、実質上互いに同一の時刻における瞬時値同士の差)を示す信号(以下、k番目のランダム成分データ)を生成して、データ圧縮部E5へと供給する。
連続成分抽出部E41−kの行う動作は、k番目のサブバンドデータについて、人が発声する音声に起因しない成分(楽器の音などの成分)を無視できないと判別した場合には、当該k番目のサブバンドデータのうち一定程度の強い周期性のある成分をk番目の連続成分データとして抽出し、また、人が発声する音声に起因しない成分を無視できると判別した場合には、k番目のサブバンドデータがそのままk番目の連続成分データであると見なす(つまり、人が発声する音声に起因しない成分は存在しないものと見なす)、という動作に相当する。
従って、k番目のサブバンドデータについて、人が発声する音声に起因しない成分を無視できない判別されている場合には、当該k番目のサブバンドデータのうち周期性が一定程度に達しない成分がk番目のランダム成分データとなり、また、k番目のサブバンドデータが人の発声した音声の成分のみからなるとみなしてよい旨判別されている場合には、k番目の連続成分データの強度は実質的に0となる。
データ圧縮部E5は、機能的には、例えば図9に示すように、非線形量子化部E51と、圧縮率設定部E52と、エントロピー符号化部E53とより構成されている。
非線形量子化部E51は、(n+1)個の連続成分データを連続成分抽出部E41−0〜E41−nより供給されると、これらの連続成分データのそれぞれが表す波形の瞬時値に非線形な圧縮を施して得られる値(具体的には、たとえば、瞬時値を上に凸な関数に代入して得られる値)を量子化したものに相当する(n+1)個の非線形量子化連続成分データを生成する。また、(n+1)個のランダム成分データを連続成分抽出部E41−0〜E41−nより供給されると、これらのランダム成分データのそれぞれが表す波形の瞬時値に当該非線形な圧縮を施して得られる値を量子化したものに相当する(n+1)個の非線形量子化ランダム成分データを生成する。
そして、非線形量子化部E51は、生成したこれらの非線形量子化連続成分データ及び非線形量子化ランダム成分データを、エントロピー符号化部E53へと供給する。ただし強度が0であるランダム成分については、非線形量子化ランダム成分データを生成する必要はない。
なお、非線形量子化部E51は、瞬時値の圧縮前の値と圧縮後の値との対応関係を特定するための圧縮特性データを圧縮率設定部E52より取得し、このデータにより特定される対応関係に従って圧縮を行うものとする。具体的には、例えば、非線形量子化部E51は、上述の関数global_gain(xi)を特定するデータを、圧縮特性データとして圧縮率設定部E52より取得する。そして、非線形圧縮後の各連続成分データや各ランダム成分データの瞬時値を、上述の関数Xri(xi)を量子化した値に実質的に等しくなるようなものへと変更することにより非線形量子化を行う。
圧縮率設定部E52は、非線形量子化部E51による瞬時値の圧縮前の値と圧縮後の値との対応関係(以下、圧縮特性と呼ぶ)を特定するための上述の圧縮特性データを生成し、非線形量子化部E51及びエントロピー符号化部E53に供給する。具体的には、例えば、上述の関数global_gain(xi)を特定する圧縮特性データを生成して、非線形量子化部E51及びエントロピー符号化部E53に供給する。
なお、圧縮率設定部E52は、圧縮特性を決定するため、たとえば、エントロピー符号化部E53より、後述の連続成分圧縮データ及びランダム成分圧縮データを取得する。そして、成分分離部E4より取得した(n+1)個の連続成分データ及び(n+1)個のランダム成分データのデータ量の総計に対する、エントロピー符号化部E53より取得した連続成分圧縮データ及びランダム成分圧縮データのデータ量の総計の比を求め、求めた比が、目標とする所定の圧縮率より大きいか否かを判別する。求めた比が目標とする圧縮率より大きいと判別すると、圧縮率設定部E52は、圧縮率が現在より小さくなるように圧縮特性を決定する。一方、求めた比が目標とする圧縮率以下であると判別すると、圧縮率が現在より大きくなるように、圧縮特性を決定する。
エントロピー符号化部E53は、非線形量子化部E51より供給された(n+1)個の非線形量子化連続成分データ、及び、圧縮率設定部E52より供給された圧縮特性データをエントロピー符号化し、エントロピー符号化されたこれらのデータを、連続成分圧縮データとして、圧縮率設定部E52及び出力部E6へと供給する。また、エントロピー符号化部E53は、非線形量子化部E51より供給された(n+1)個の非線形量子化ランダム成分データをエントロピー符号化し、エントロピー符号化されたこれらのデータを、ランダム成分圧縮データとして、圧縮率設定部E52及び出力部E6へと供給する。
出力部E6は、たとえば、USB等の規格に準拠して外部とのシリアル通信を制御する制御回路より構成されている。なお、ピッチ波形抽出部E2、サブバンド解析部E3、成分分離部E4及びデータ圧縮部E5の一部又は全部の機能を行うプロセッサが、出力部E6の機能を更に行うようにしてもよい。
出力部E6は、データ圧縮部E5が生成した連続成分圧縮データ及びランダム成分圧縮データと、ピッチ波形抽出部E2のピッチ長調整部E210が生成したサンプル数データとを供給されると、これらの連続成分圧縮データ、ランダム成分圧縮データ及びサンプル数データを出力する。
図6の音声データ圧縮システムも、圧縮の対象である音声データを、所定の基準に合致する程度の周期性を有する連続成分データと、その他の成分であるランダム成分データとに分離し、両者のそれぞれを別個にエントロピー符号化する。このため、この音声データのうち人が発する音声に起因する成分と起因しない成分とが別個にエントロピー符号化され、音声データは全体として効率的に圧縮される。
また、音声データはピッチ波形データへと加工されることにより単位ピッチ分の区間の長さや振幅が規格化され、ピッチのゆらぎの影響が除去されている。このため、ピッチ波形データのうち人が発する音声に起因する成分は強い周期性を有するものとなり、この成分は、成分分離部E4によって連続成分として正確に抽出される。抽出されたこの連続成分は強い周期性を有しているため、連続成分のエントロピー符号化は効率的に行われる。
更に、サンプル数データを用いてピッチ波形データの各区間の元の時間長を特定することができるため、ピッチ波形データの各区間の時間長を元の音声データにおける時間長へと復元することにより、元の音声データを容易に復元できる。
なお、この音声データ圧縮システムの構成も上述のものに限られない。
たとえば、音声入力部E1は、電話回線、専用回線、衛星回線等の通信回線を介して外部より音声データを取得するようにしてもよい。この場合、音声入力部E1は、例えばモデムやDSU等からなる通信制御部を備えていればよい。
また、音声入力部E1は、マイクロフォン、AF増幅器、サンプラー、A/Dコンバータ及びPCMエンコーダなどからなる集音装置を備えていてもよい。集音装置は、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングしてA/D変換した後、サンプリングされた音声信号にPCM変調を施すことにより、音声データを取得すればよい。なお、音声入力部E1が取得する音声データは、必ずしもPCM信号である必要はない。
また、このピッチ波形抽出部E2は、ケプストラム解析部E201(又は自己相関解析部E202)を備えていなくてもよく、この場合、重み計算部E203は、ケプストラム解析部E201(又は自己相関解析部E202)が求めた基本周波数の逆数をそのまま平均ピッチ長として扱うようにすればよい。
また、ゼロクロス解析部E206は、バンドパスフィルタE205から供給されたピッチ信号を、そのままゼロクロス信号としてBPF係数計算部E204へと供給するようにしてもよい。
また、位相調整部E208が音声データの各区間内の音声データを移相する量は(−Ψ)である必要はなく、また、波形相関解析部E207が音声データを区切る位置は、必ずしもピッチ信号がゼロクロスするタイミングである必要はない。
また、補間部E209は移相された音声データの補間を必ずしもラグランジェ補間の手法により行う必要はなく、例えば直線補間の手法によってもよいし、補間部E209を省略し、位相調整部E208は音声データを直ちにピッチ長調整部E210に供給してもよい。
また、出力部E6は、音素データやサンプル数データ、通信回線等を介して外部に出力するようにしてもよい。通信回線を介してデータを出力する場合、出力部E6は、例えばモデムやDSU等からなる通信制御部を備えていればよい。
また、出力部E6は、記録媒体ドライブ装置を備えていてもよく、この場合、出力部E6は、連続成分圧縮データやランダム成分圧縮データやサンプル数データを、この記録媒体ドライブ装置にセットされた記録媒体の記憶領域に書き込むようにしてもよい。
なお、単一のモデムやDSUや記録媒体ドライブ装置が音声入力部E1及び出力部E6を構成していてもよい。
また、連続成分抽出部E41−kは、ピッチ信号の振幅が所定量に達しているか否かを判別する代わりに、ピッチ波形信号の振幅に対するピッチ信号の振幅の比率が所定量に達しているか否かを判別してもよい。
また、エントロピー符号化部E53は、必ずしも圧縮特性データをエントロピー符号化しなくてもよく、この場合は例えば、圧縮率設定部E52が、自己が生成した圧縮特性データを非線形量子化部E51及び出力部E6に供給するものとし、出力部E6は、連続成分圧縮データ、ランダム成分圧縮データと及びサンプル数データに加え、圧縮率設定部E52より供給された圧縮特性データも出力するものとすればよい。
また、データ圧縮部E5は必ずしも圧縮率設定部E52を備えている必要はなく、この場合は例えば、非線形量子化部E51が所定の圧縮特性で非線形量子化連続成分データ及び非線形量子化ランダム成分データを生成し、エントロピー符号化部E53が、当該所定の圧縮特性を示す圧縮特性データと、非線形量子化部E51が生成した非線形量子化連続成分データとをエントロピー符号化することにより連続成分圧縮データを生成するものとしてもよい。また、エントロピー符号化部E53は、圧縮特性データのエントロピー符号化を省略してもよい。
また、エントロピー符号化部E53は、非線形量子化連続成分データのエントロピー符号化を行う代わりに、連続成分データ又は非線形量子化連続成分データを線形予測符号化することにより連続成分圧縮データを生成するようにしてもよい。
(第4の実施の形態)
次に、この発明の第4の実施の形態を、音声データ再生システムを例として説明する。
この音声データ再生システムは、図10に示すように、データ入力部D1と、エントロピー符号復号化部D2と、非線形逆量子化部D3と、成分結合部D4と、サブバンド合成部D5と、音声データ復元部D6と、音声合成部D7とより構成されている。
データ入力部D1、エントロピー符号復号化部D2、非線形逆量子化部D3、成分結合部D4、サブバンド合成部D5及び音声データ復元部D6は、いずれも、DSPやCPU等のプロセッサや、このプロセッサが実行するためのプログラムを記憶するメモリなどより構成されている。なお、データ入力部D1、エントロピー符号復号化部D2、非線形逆量子化部D3、成分結合部D4、サブバンド合成部D5及び音声データ復元部D6の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。
データ入力部D1は、上述の連続成分圧縮データ、ランダム成分圧縮データ及びサンプル数データを外部から取得し、取得したこれらのデータのうち、連続成分圧縮データ及びランダム成分圧縮データをエントロピー符号復号化部D2に供給し、サンプル数データを音声データ復元部D6へと供給する。
なお、データ入力部D1が連続成分圧縮データ、ランダム成分圧縮データ及びサンプル数データを取得する手法は任意であり、たとえばコンピュータ読み取り可能な記録媒体に記録されている圧縮音素データを読み取ることにより取得してもよく、あるいはEthernet(登録商標)、USB、IEEE1394若しくはRS232C等の規格に準拠した態様でシリアル伝送されたこれらのデータ、若しくはパラレル伝送されたこれらのデータを受信することにより取得してもよい。データ入力部D1は、外部のサーバが記憶しているこれらのデータを、インターネット等のネットワークを介してダウンロードする等の手法により取得してもよい。
なお、データ入力部D1は、連続成分圧縮データ、ランダム成分圧縮データあるいはサンプル数データを記録媒体から読み取る場合、例えば、記録媒体からのデータの読み取りをプロセッサ等の指示に従って行う記録媒体ドライブ装置を更に備えていればよい。また、シリアル伝送されたこれらのデータを受信する場合は、Ethernet(登録商標)、USB、IEEE1394若しくはRS232C等の規格に準拠して外部とのシリアル通信を制御する制御回路を更に備えていればよい。
エントロピー符号復号化部D2は、データ入力部D1より供給された連続成分圧縮データを復号化することにより、(n+1)個の非線形量子化連続成分データと、圧縮特性データとを復元する。そして、復元されたこれらのデータを非線形逆量子化部D3へと供給する。また、エントロピー符号復号化部D2は、データ入力部D1より供給されたランダム成分圧縮データを復号化することにより、(n+1)個の非線形量子化ランダム成分データを復元し、復元された非線形量子化ランダム成分データも非線形逆量子化部D3へと供給する。
非線形逆量子化部D3は、エントロピー符号復号化部D2より(n+1)個の非線形量子化連続成分データ、(n+1)個の非線形量子化ランダム成分データ及び圧縮特性データを供給されると、これらの非線形量子化連続成分データ及び非線形量子化ランダム成分データが表す波形の瞬時値を、この圧縮特性データが示す圧縮特性と互いに逆変換の関係にある特性に従って変更することにより、非線形量子化される前の(n+1)個の連続成分データ及び(n+1)個のランダム成分データを復元する。そして、復元したこれらの連続成分データ及びランダム成分データを成分結合部D4へと供給する。
なお、エントロピー符号復号化部D2が連続成分圧縮データから圧縮特性データを得られなかった場合、非線形逆量子化部D3は、非線形量子化連続成分データ及び非線形量子化ランダム成分データが表す波形の瞬時値を所定の特性に従って変更することにより連続成分データ及びランダム成分データを復元してもよいし、あるいは、非線形量子化連続成分データ及び非線形量子化ランダム成分データを連続成分データ及びランダム成分データとみなしてそのまま成分結合部D4へと供給してもよい。
成分結合部D4は、非線形逆量子化部D3より(n+1)個の連続成分データ及び(n+1)個のランダム成分データを供給されると、非線形逆量子化部D3より供給されたk番目のランダム成分データ及びk番目の連続成分データが示す各瞬時値同士の和(ただし、実質上互いに同一の時刻における瞬時値同士の和)を示す信号を生成して、サブバンド合成部D5へと供給する。k番目のランダム成分データが示す瞬時値と、k番目の連続成分データが示す瞬時値との和を示すこの信号は、上述のサブバンド解析部E3が生成したk番目のサブバンドデータに相当する信号である。なお、k番目のランダム成分データが存在しない場合、成分結合部D4は、k番目の連続成分データをそのままk番目のサブバンドデータとして扱えばよい。
サブバンド合成部D5は、計(n+1)個のサブバンドデータを成分結合部D4より供給されると、これらのサブバンドデータに変換を施すことにより、これらのサブバンドデータにより各周波数成分の強度が表されるピッチ波形データを復元し、復元されたピッチ波形データを、音声データ復元部D6へと供給する。
サブバンド合成部D5がサブバンドデータに施す変換は、このサブバンドデータを生成するために音声データに施した変換に対して実質的に逆変換の関係にあるような変換である。従って、たとえばこのサブバンドデータが上述のサブバンド解析部E3(あるいは、上述のステップS113の処理)により生成されたものである場合、サブバンド合成部D5は、サブバンド解析部E3(あるいは、上述のステップS113の処理)で施された変換の逆変換を施せばよい。具体的には、たとえばこのサブバンドデータが音素にDCTを施して生成されたものである場合、サブバンド合成部D5は、このサブバンドデータにIDCT(Inverse DCT)を施すようにすればよい。
音声データ復元部D6は、サブバンド合成部D5より供給されたピッチ波形データのそれぞれの区間のサンプル数あるいはサンプルの間隔を調整して、当該区間の時間長を、データ入力部D1より供給されるサンプル数データより特定される時間長になるようにする。
そして、音声データ復元部D6は、各区間の時間長を変更されたピッチ波形データ、すなわち復元された音声データを出力する。
なお、音声データ復元部D6が音声データを出力する手法は任意であり、例えば、図示しないD/A(Digital-to-Analog)変換器やスピーカを介して、この音声データが表す音声を再生するようにしてもよい。また、図示しないインターフェース回路を介して外部の装置やネットワークに送出してもよいし、図示しない記録媒体ドライブ装置にセットされた記録媒体へ、この記録媒体ドライブ装置を介して書き込んでもよい。また、音声データ復元部D6の機能を行っているプロセッサが、自ら実行している他の処理へと、音声データを引き渡すようにしてもよい。
この発明の第1の実施の形態に係る音声データ圧縮システムの構成を示すブロック図である。 図1の音声データ圧縮システムの動作の流れの前半を示す図である。 図1の音声データ圧縮システムの動作の流れの後半を示す図である。 (a)及び(b)は、移相される前の音声データの波形を示すグラフであり、(c)は、移相された後の音声データの波形を表すグラフである。 この発明の第2の実施の形態に係る音声データ再生システムの動作の流れの前半を示す図である。 この発明の第3の実施の形態に係る音声データ圧縮システムの構成を示すブロック図である。 図6の音声データ圧縮システムのピッチ波形抽出部の構成を示すブロック図である。 図6の音声データ圧縮システムの成分分離部の構成を示すブロック図である。 図6の音声データ圧縮システムのデータ圧縮部の構成を示すブロック図である。 この発明の第4の実施の形態に係る音声データ再生システムの構成を示すブロック図である。
符号の説明
C1 コンピュータ
SMD 記録媒体ドライブ装置
E1 音声入力部
E2 ピッチ波形抽出部
E201 ケプストラム解析部
E202 自己相関解析部
E203 重み計算部
E204 BPF係数計算部
E205 バンドパスフィルタ
E206 ゼロクロス解析部
E207 波形相関解析部
E208 位相調整部
E209 補間部
E210 ピッチ長調整部
E3 サブバンド解析部
E4 成分分離部
E41−0〜E41−n 連続成分抽出部
E42−0〜E42−n ランダム成分抽出部
E5 データ圧縮部
E51 非線形量子化部
E52 圧縮率設定部
E53 エントロピー符号化部
E6 出力部
D1 データ入力部
D2 エントロピー符号復号化部
D3 非線形逆量子化部
D4 成分結合部
D5 サブバンド合成部
D6 音素データ復元部
D7 音声合成部

Claims (14)

  1. 音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成するサブバンド抽出手段と、
    前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離する成分分離手段と、
    前記連続成分にエントロピー符号化又は線形予測符号化を施す符号化手段と、を備える、
    ことを特徴とする音声信号圧縮装置。
  2. 音声の波形を表す圧縮対象の音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工する音声信号加工手段と、
    前記ピッチ波形信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成するサブバンド抽出手段と、
    前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離する成分分離手段と、
    前記連続成分にエントロピー符号化又は線形予測符号化を施す符号化手段と、を備える、
    ことを特徴とする音声信号圧縮装置。
  3. 前記圧縮対象の音声信号より、前記音声のピッチ成分を抽出するピッチ成分抽出手段を備え、
    前記成分分離手段は、抽出された前記ピッチ成分の強度に基づき、前記連続成分及び前記ランダム成分を分離するか否かを決定し、分離すると決定したとき、前記連続成分及び前記ランダム成分を前記サブバンド信号より分離する、
    ことを特徴とする請求項1又は2に記載の音声信号圧縮装置。
  4. 前記成分分離手段は、前記連続成分及び前記ランダム成分を分離しないと決定したとき、前記サブバンド信号を前記連続成分として扱うことを決定する、
    ことを特徴とする請求項3に記載の音声信号圧縮装置。
  5. 前記符号化手段は、前記連続成分を非線形量子化した結果、及び/又は前記ランダム成分を非線形量子化した結果にエントロピー符号化を施す、
    ことを特徴とする請求項1乃至4のいずれか1項に記載の音声信号圧縮装置。
  6. 前記符号化手段は、前記非線形量子化の量子化特性を示すデータを生成する、
    ことを特徴とする請求項5に記載の音声信号圧縮装置。
  7. 前記符号化手段は、過去にエントロピー符号化された連続成分及び/又はランダム成分のデータ量に基づいて、前記非線形量子化の量子化特性を決定し、決定した量子化特性に合致するように前記非線形量子化を行う、
    ことを特徴とする請求項5又は6に記載の音声信号圧縮装置。
  8. 音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号のうち所定の基準に合致する程度の周期性を有する連続成分を抽出してエントロピー符号化又は線形予測符号化を施したものに相当する入力信号を取得し、当該入力信号を復号化することにより当該連続成分を復元する復号化手段と、
    復元された前記連続成分を前記サブバンド信号より除いたものに相当するランダム成分を取得し、当該連続成分に当該ランダム成分を加算することにより、当該サブバンド信号を復元するサブバンド信号復元部と、
    復元されたサブバンド信号に基づいて前記圧縮対象の音声信号を復元する音声信号復元手段と、を備える、
    ことを特徴とする音声信号復元装置。
  9. 音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成し、
    前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離し、
    前記連続成分にエントロピー符号化又は線形予測符号化を施す、
    ことを特徴とする音声信号圧縮方法。
  10. 音声の波形を表す圧縮対象の音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工し、
    前記ピッチ波形信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成し、
    前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離し、
    前記連続成分にエントロピー符号化又は線形予測符号化を施す、
    ことを特徴とする音声信号圧縮方法。
  11. 音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号のうち所定の基準に合致する程度の周期性を有する連続成分を抽出してエントロピー符号化又は線形予測符号化を施したものに相当する入力信号を取得し、当該入力信号を復号化することにより当該連続成分を復元し、
    復元された前記連続成分を前記サブバンド信号より除いたものに相当するランダム成分を取得し、当該連続成分に当該ランダム成分を加算することにより、当該サブバンド信号を復元し、
    復元されたサブバンド信号に基づいて前記圧縮対象の音声信号を復元する、
    ことを特徴とする音声信号復元方法。
  12. コンピュータを、
    音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成するサブバンド抽出手段と、
    前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離する成分分離手段と、
    前記連続成分にエントロピー符号化又は線形予測符号化を施す符号化手段と、
    して機能させるためのプログラム。
  13. コンピュータを、
    音声の波形を表す圧縮対象の音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工する音声信号加工手段と、
    前記ピッチ波形信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号を生成するサブバンド抽出手段と、
    前記サブバンド信号より、所定の基準に合致する程度の周期性を有する連続成分、及び、当該サブバンド信号より前記連続成分を除いたものに相当するランダム成分を分離する成分分離手段と、
    前記連続成分にエントロピー符号化又は線形予測符号化を施す符号化手段と、
    して機能させるためのプログラム。
  14. コンピュータを、
    音声の波形を表す圧縮対象の音声信号の基本周波数成分及び高調波成分の強度の時間変化を表すサブバンド信号のうち所定の基準に合致する程度の周期性を有する連続成分を抽出してエントロピー符号化又は線形予測符号化を施したものに相当する入力信号を取得し、当該入力信号を復号化することにより当該連続成分を復元する復号化手段と、
    復元された前記連続成分を前記サブバンド信号より除いたものに相当するランダム成分を取得し、当該連続成分に当該ランダム成分を加算することにより、当該サブバンド信号を復元するサブバンド信号復元部と、
    復元されたサブバンド信号に基づいて前記圧縮対象の音声信号を復元する音声信号復元手段と、
    して機能させるためのプログラム。
JP2005299346A 2005-10-13 2005-10-13 音声信号圧縮装置、音声信号復元装置、音声信号圧縮方法、音声信号復元方法及びプログラム Expired - Fee Related JP4736699B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005299346A JP4736699B2 (ja) 2005-10-13 2005-10-13 音声信号圧縮装置、音声信号復元装置、音声信号圧縮方法、音声信号復元方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005299346A JP4736699B2 (ja) 2005-10-13 2005-10-13 音声信号圧縮装置、音声信号復元装置、音声信号圧縮方法、音声信号復元方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2007108440A true JP2007108440A (ja) 2007-04-26
JP4736699B2 JP4736699B2 (ja) 2011-07-27

Family

ID=38034345

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005299346A Expired - Fee Related JP4736699B2 (ja) 2005-10-13 2005-10-13 音声信号圧縮装置、音声信号復元装置、音声信号圧縮方法、音声信号復元方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4736699B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2014084162A1 (ja) * 2012-11-27 2017-01-05 国立大学法人九州工業大学 信号雑音除去装置、その方法及びプログラム
JP2017501427A (ja) * 2013-10-18 2017-01-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号のスペクトルのスペクトル係数のコード化
CN112908345A (zh) * 2019-01-29 2021-06-04 桂林理工大学南宁分校 一种物联网语音压缩与解压方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305388A (ja) * 1995-04-28 1996-11-22 Matsushita Electric Ind Co Ltd 音声区間検出装置
JP2004294969A (ja) * 2003-03-28 2004-10-21 Kenwood Corp 音声信号圧縮装置、音声信号圧縮方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305388A (ja) * 1995-04-28 1996-11-22 Matsushita Electric Ind Co Ltd 音声区間検出装置
JP2004294969A (ja) * 2003-03-28 2004-10-21 Kenwood Corp 音声信号圧縮装置、音声信号圧縮方法及びプログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2014084162A1 (ja) * 2012-11-27 2017-01-05 国立大学法人九州工業大学 信号雑音除去装置、その方法及びプログラム
JP2017501427A (ja) * 2013-10-18 2017-01-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号のスペクトルのスペクトル係数のコード化
US9892735B2 (en) 2013-10-18 2018-02-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Coding of spectral coefficients of a spectrum of an audio signal
US10115401B2 (en) 2013-10-18 2018-10-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Coding of spectral coefficients of a spectrum of an audio signal
JP2018205758A (ja) * 2013-10-18 2018-12-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号のスペクトルのスペクトル係数のコード化
US10847166B2 (en) 2013-10-18 2020-11-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Coding of spectral coefficients of a spectrum of an audio signal
JP2020190751A (ja) * 2013-10-18 2020-11-26 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号のスペクトルのスペクトル係数のコード化
JP7218329B2 (ja) 2013-10-18 2023-02-06 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号のスペクトルのスペクトル係数のコード化
CN112908345A (zh) * 2019-01-29 2021-06-04 桂林理工大学南宁分校 一种物联网语音压缩与解压方法
CN112908345B (zh) * 2019-01-29 2022-05-31 桂林理工大学南宁分校 一种物联网语音压缩与解压方法

Also Published As

Publication number Publication date
JP4736699B2 (ja) 2011-07-27

Similar Documents

Publication Publication Date Title
US7630883B2 (en) Apparatus and method for creating pitch wave signals and apparatus and method compressing, expanding and synthesizing speech signals using these pitch wave signals
KR100848324B1 (ko) 음성 부호화 장치 및 그 방법
JP2006011456A (ja) 低ビット率符号化/復号化方法及び装置並びにコンピュータ可読媒体
EP1422693A1 (en) PITCH WAVEFORM SIGNAL GENERATION APPARATUS, PITCH WAVEFORM SIGNAL GENERATION METHOD, AND PROGRAM
RU2289858C2 (ru) Способ и устройство кодирования аудиосигнала с использованием извлечения гармоник
JP3881932B2 (ja) 音声信号補間装置、音声信号補間方法及びプログラム
JP4736699B2 (ja) 音声信号圧縮装置、音声信号復元装置、音声信号圧縮方法、音声信号復元方法及びプログラム
JP2009253706A (ja) 符号化装置、復号装置、符号化方法、復号方法及びプログラム
JP4256189B2 (ja) 音声信号圧縮装置、音声信号圧縮方法及びプログラム
JP3994332B2 (ja) 音声信号圧縮装置、音声信号圧縮方法、及び、プログラム
JP2000132193A (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP4407305B2 (ja) ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム
JP3875890B2 (ja) 音声信号加工装置、音声信号加工方法及びプログラム
JP2004246038A (ja) 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム
JP3976169B2 (ja) 音声信号加工装置、音声信号加工方法及びプログラム
KR100928966B1 (ko) 저비트율 부호화/복호화방법 및 장치
JP2002049399A (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP3994333B2 (ja) 音声辞書作成装置、音声辞書作成方法、及び、プログラム
KR100359528B1 (ko) 엠피 쓰리 인코더/디코더
KR20080092823A (ko) 부호화/복호화 장치 및 방법
KR20080112000A (ko) 음색 유사성을 활용한 부호화/복호화 방법
JP2003216171A (ja) 音声信号加工装置、信号復元装置、音声信号加工方法、信号復元方法及びプログラム
JP2000132195A (ja) 信号符号化装置及び方法
KR100940532B1 (ko) 저비트율 복호화방법 및 장치
KR20050058024A (ko) 오디오 신호 코딩장치 및 코딩방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081008

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110215

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110418

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees