JPH11219199A - 位相検出装置及び方法、並びに音声符号化装置及び方法 - Google Patents
位相検出装置及び方法、並びに音声符号化装置及び方法Info
- Publication number
- JPH11219199A JPH11219199A JP10019962A JP1996298A JPH11219199A JP H11219199 A JPH11219199 A JP H11219199A JP 10019962 A JP10019962 A JP 10019962A JP 1996298 A JP1996298 A JP 1996298A JP H11219199 A JPH11219199 A JP H11219199A
- Authority
- JP
- Japan
- Prior art keywords
- phase
- waveform
- input signal
- pitch
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000001514 detection method Methods 0.000 title claims description 24
- 238000004458 analytical method Methods 0.000 claims description 24
- 230000015572 biosynthetic process Effects 0.000 claims description 24
- 238000003786 synthesis reaction Methods 0.000 claims description 24
- 230000005236 sound signal Effects 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims 4
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 238000001228 spectrum Methods 0.000 description 23
- 238000013139 quantization Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 108010076504 Protein Sorting Signals Proteins 0.000 description 5
- 230000005284 excitation Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000001308 synthesis method Methods 0.000 description 2
- 238000002940 Newton-Raphson method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
(57)【要約】
【課題】 サイン波合成符号化の際等の入力信号の位相
情報を簡単な処理により検出する。 【解決手段】 入力端子20からの音声信号に基づく入
力信号の波形を波形切り出し部21で時間軸上で1ピッ
チ周期分だけ切り出し、ゼロ詰め部22により1ピッチ
周期分波形データにゼロ詰めを施して、全体で2N サン
プル(Nは整数、2N は上記1ピッチ周期のサンプル数
以上)とする。このゼロ詰めされた波形データに対して
FFT(高速フーリエ変換)部23でFFT処理し、F
FT処理されたデータの実部と虚部とを用いてtan-1 部
24でtan-1 の計算を行って位相を求め、これを補間部
25で線形補間することにより、入力信号の各高調波毎
の位相を求める。
情報を簡単な処理により検出する。 【解決手段】 入力端子20からの音声信号に基づく入
力信号の波形を波形切り出し部21で時間軸上で1ピッ
チ周期分だけ切り出し、ゼロ詰め部22により1ピッチ
周期分波形データにゼロ詰めを施して、全体で2N サン
プル(Nは整数、2N は上記1ピッチ周期のサンプル数
以上)とする。このゼロ詰めされた波形データに対して
FFT(高速フーリエ変換)部23でFFT処理し、F
FT処理されたデータの実部と虚部とを用いてtan-1 部
24でtan-1 の計算を行って位相を求め、これを補間部
25で線形補間することにより、入力信号の各高調波毎
の位相を求める。
Description
【0001】
【発明の属する技術分野】本発明は、サイン波合成符号
化等における各高調波(ハーモニクス)成分の位相を検
出するための位相検出装置及び方法、並びに音声符号化
装置及び方法に関する。
化等における各高調波(ハーモニクス)成分の位相を検
出するための位相検出装置及び方法、並びに音声符号化
装置及び方法に関する。
【0002】
【従来の技術】オーディオ信号(音声信号や音響信号を
含む)の時間領域や周波数領域における統計的性質と人
間の聴感上の特性を利用して信号圧縮を行うような符号
化方法が種々知られている。この符号化方法としては、
大別して時間領域での符号化、周波数領域での符号化、
分析合成符号化等が挙げられる。
含む)の時間領域や周波数領域における統計的性質と人
間の聴感上の特性を利用して信号圧縮を行うような符号
化方法が種々知られている。この符号化方法としては、
大別して時間領域での符号化、周波数領域での符号化、
分析合成符号化等が挙げられる。
【0003】音声信号等の高能率符号化の例としては、
ハーモニック(Harmonic)符号化、MBE(Multiband
Excitation:マルチバンド励起)符号化等のサイン波分
析合成符号化(Sinusoidal Coding) や、SBC(Sub-
band Coding:帯域分割符号化)、LPC(Linear Predi
ctive Coding: 線形予測符号化)、あるいはDCT(離
散コサイン変換)、MDCT(モデファイドDCT)、
FFT(高速フーリエ変換)等が知られている。
ハーモニック(Harmonic)符号化、MBE(Multiband
Excitation:マルチバンド励起)符号化等のサイン波分
析合成符号化(Sinusoidal Coding) や、SBC(Sub-
band Coding:帯域分割符号化)、LPC(Linear Predi
ctive Coding: 線形予測符号化)、あるいはDCT(離
散コサイン変換)、MDCT(モデファイドDCT)、
FFT(高速フーリエ変換)等が知られている。
【0004】
【発明が解決しようとする課題】ところで、入力音声信
号に対して上記MBE符号化、ハーモニック符号化や、
STC(Sinusoidal Transform Coding) 等のサイン波
合成符号化(SinusoidalCoding) を用いるような、又
は、入力音声信号のLPC(線形予測符号化)残差に対
してこれらのサイン波合成符号化を用いるような音声高
能率符号化においては、分析合成の要素となる各サイン
波(ハーモニクス、高調波)の振幅、あるいはスペクト
ルエンベロープに関する情報を伝送しているが、位相に
ついては伝送しておらず、合成時に適宜に位相を算出し
ているのが実情である。
号に対して上記MBE符号化、ハーモニック符号化や、
STC(Sinusoidal Transform Coding) 等のサイン波
合成符号化(SinusoidalCoding) を用いるような、又
は、入力音声信号のLPC(線形予測符号化)残差に対
してこれらのサイン波合成符号化を用いるような音声高
能率符号化においては、分析合成の要素となる各サイン
波(ハーモニクス、高調波)の振幅、あるいはスペクト
ルエンベロープに関する情報を伝送しているが、位相に
ついては伝送しておらず、合成時に適宜に位相を算出し
ているのが実情である。
【0005】そのため、復号されて再生される音声波形
は、元の入力音声信号の波形と異なることになる、とい
う問題がある。すなわち、元の波形の波形再生を実現す
るためには、各ハーモニクス(高調波)成分の位相情報
をフレーム毎に検出して伝送することが必要とされる。
は、元の入力音声信号の波形と異なることになる、とい
う問題がある。すなわち、元の波形の波形再生を実現す
るためには、各ハーモニクス(高調波)成分の位相情報
をフレーム毎に検出して伝送することが必要とされる。
【0006】本発明は、このような実情に鑑みてなされ
たものであり、元の波形の波形再現性を実現するための
位相検出装置及び方法、並びにこの位相検出の技術を用
いた音声符号化装置及び方法の提供を目的とする。
たものであり、元の波形の波形再現性を実現するための
位相検出装置及び方法、並びにこの位相検出の技術を用
いた音声符号化装置及び方法の提供を目的とする。
【0007】
【課題を解決するための手段】本発明に係る位相検出装
置及び方法は、上述した課題を解決するために、音声信
号に基づく入力信号波形を時間軸上で1ピッチ周期分だ
け切り出し、切り出された1ピッチ周期分のサンプルに
対してFFT等の直交変換を施し、直交変換されたデー
タの実部と虚部とに基づいて上記入力信号の各高調波成
分の位相情報を検出することを特徴としている。
置及び方法は、上述した課題を解決するために、音声信
号に基づく入力信号波形を時間軸上で1ピッチ周期分だ
け切り出し、切り出された1ピッチ周期分のサンプルに
対してFFT等の直交変換を施し、直交変換されたデー
タの実部と虚部とに基づいて上記入力信号の各高調波成
分の位相情報を検出することを特徴としている。
【0008】また、本発明は、上記特徴を有する位相検
出を、サイン波合成符号化等の音声合成に適用すること
を特徴としている。
出を、サイン波合成符号化等の音声合成に適用すること
を特徴としている。
【0009】ここで、上記入力信号波形としては、音声
信号波形そのもの、あるいは音声信号の短期予測残差の
信号波形を用いることができる。
信号波形そのもの、あるいは音声信号の短期予測残差の
信号波形を用いることができる。
【0010】また、上記切り出された波形データにゼロ
詰めを施して全体で2N サンプル(Nは整数、2N は上
記1ピッチ周期のサンプル数以上)として、直交変換す
ることが好ましく、この直交変換としては高速フーリエ
変換が好ましい。
詰めを施して全体で2N サンプル(Nは整数、2N は上
記1ピッチ周期のサンプル数以上)として、直交変換す
ることが好ましく、この直交変換としては高速フーリエ
変換が好ましい。
【0011】さらに、上記位相検出は、上記直交変換に
より得られたデータの実部と虚部とを用いて逆正接(ta
n-1) を求める計算により位相を求め、この位相を補間
処理して各高調波毎の位相を求めることが好ましい。
より得られたデータの実部と虚部とを用いて逆正接(ta
n-1) を求める計算により位相を求め、この位相を補間
処理して各高調波毎の位相を求めることが好ましい。
【0012】
【発明の実施の形態】本発明に係る位相検出装置及び方
法は、例えばマルチバンド励起(MultibandExcitation:
MBE)符号化、サイン波変換符号化(Sinusoidal Tr
ansform Coding:STC)、ハーモニック符号化(Harmo
nic coding )等のサイン波合成符号化方式に適用され
るものであり、又はLPC(Linear Predictive Codin
g)残差に上記サイン波合成符号化を用いた符号化方式
に適用されるものである。
法は、例えばマルチバンド励起(MultibandExcitation:
MBE)符号化、サイン波変換符号化(Sinusoidal Tr
ansform Coding:STC)、ハーモニック符号化(Harmo
nic coding )等のサイン波合成符号化方式に適用され
るものであり、又はLPC(Linear Predictive Codin
g)残差に上記サイン波合成符号化を用いた符号化方式
に適用されるものである。
【0013】ここで、本発明の実施の形態の説明に先立
ち、本発明に係る位相検出装置あるいは方法が適用され
る装置としてのサイン波分析合成符号化を行うような音
声符号化装置について説明する。
ち、本発明に係る位相検出装置あるいは方法が適用され
る装置としてのサイン波分析合成符号化を行うような音
声符号化装置について説明する。
【0014】図1は、上述した位相検出装置あるいは方
法が適用される音声符号化装置の具体例の概略構成を示
している。
法が適用される音声符号化装置の具体例の概略構成を示
している。
【0015】図1の音声信号符号化装置は、入力信号に
対して、サイン波分析(sinusoidalanalysis )符号
化、例えばハーモニックコーディング(harmonic codin
g )を行う第1の符号化部110と、入力信号に対し
て、例えば合成による分析法を用いて最適ベクトルのク
ローズドループサーチによるベクトル量子化を用いた符
号励起線形予測(CELP)符号化を施す第2の符号化
部120とを有し、入力信号の有声音(V:Voiced)の
部分の符号化に第1の符号化部110を用い、入力信号
の無声音(UV:Unvoiced)の部分の符号化には第2の
符号化部120を用いるようにしている。本発明に係る
位相検出の実施の形態は、第1の符号化部110に対し
て適用されている。なお、図1の例では、入力音声信号
の短期予測残差例えばLPC(線形予測符号化)残差を
求めた後に第1の符号化部110に送られるようにして
いる。
対して、サイン波分析(sinusoidalanalysis )符号
化、例えばハーモニックコーディング(harmonic codin
g )を行う第1の符号化部110と、入力信号に対し
て、例えば合成による分析法を用いて最適ベクトルのク
ローズドループサーチによるベクトル量子化を用いた符
号励起線形予測(CELP)符号化を施す第2の符号化
部120とを有し、入力信号の有声音(V:Voiced)の
部分の符号化に第1の符号化部110を用い、入力信号
の無声音(UV:Unvoiced)の部分の符号化には第2の
符号化部120を用いるようにしている。本発明に係る
位相検出の実施の形態は、第1の符号化部110に対し
て適用されている。なお、図1の例では、入力音声信号
の短期予測残差例えばLPC(線形予測符号化)残差を
求めた後に第1の符号化部110に送られるようにして
いる。
【0016】図1において、入力端子101に供給され
た音声信号は、LPC逆フィルタ131及びLPC分析
部132に送られ、また、第1の符号化部110のオー
プンループピッチサーチ部111にも送られる。LPC
分析部132は、入力信号波形の256サンプル程度の
長さ(分析長)を1ブロックとしてハミング窓をかけ
て、自己相関法により線形予測係数、いわゆるαパラメ
ータを求める。データ出力の単位となるフレーミングの
間隔は、160サンプル程度とする。ここで、入力音声
信号のサンプリング周波数fsが例えば8kHzのとき、
1フレーム間隔は160サンプルで20msec となる。
た音声信号は、LPC逆フィルタ131及びLPC分析
部132に送られ、また、第1の符号化部110のオー
プンループピッチサーチ部111にも送られる。LPC
分析部132は、入力信号波形の256サンプル程度の
長さ(分析長)を1ブロックとしてハミング窓をかけ
て、自己相関法により線形予測係数、いわゆるαパラメ
ータを求める。データ出力の単位となるフレーミングの
間隔は、160サンプル程度とする。ここで、入力音声
信号のサンプリング周波数fsが例えば8kHzのとき、
1フレーム間隔は160サンプルで20msec となる。
【0017】LPC分析部132からのαパラメータ
は、例えばα→LSP変換により線スペクトル対(LS
P)パラメータに変換される。これは、直接型のフィル
タ係数として求まったαパラメータを、例えば10個、
すなわち5対のLSPパラメータに変換する。変換は例
えばニュートン−ラプソン法等を用いて行う。このLS
Pパラメータに変換するのは、αパラメータよりも補間
特性に優れているからである。このLSPパラメータ
は、LSP量子化器133によりマトリクスあるいはベ
クトル量子化される。このとき、フレーム間差分をとっ
てからベクトル量子化してもよく、複数フレーム分をま
とめてマトリクス量子化してもよい。ここでは、20m
sec を1フレームとし、20msec 毎に算出されるLS
Pパラメータを2フレーム分まとめて、マトリクス量子
化及びベクトル量子化している。
は、例えばα→LSP変換により線スペクトル対(LS
P)パラメータに変換される。これは、直接型のフィル
タ係数として求まったαパラメータを、例えば10個、
すなわち5対のLSPパラメータに変換する。変換は例
えばニュートン−ラプソン法等を用いて行う。このLS
Pパラメータに変換するのは、αパラメータよりも補間
特性に優れているからである。このLSPパラメータ
は、LSP量子化器133によりマトリクスあるいはベ
クトル量子化される。このとき、フレーム間差分をとっ
てからベクトル量子化してもよく、複数フレーム分をま
とめてマトリクス量子化してもよい。ここでは、20m
sec を1フレームとし、20msec 毎に算出されるLS
Pパラメータを2フレーム分まとめて、マトリクス量子
化及びベクトル量子化している。
【0018】このLSP量子化器133からの量子化出
力、すなわちLSP量子化のインデクスは、端子102
を介して取り出され、また量子化済みのLSPベクトル
は、例えばLSP補間やLSP→α変換を介してLPC
のαパラメータとされて、LPC逆フィルタ131や、
後述する第2の符号化部120の聴覚重み付きのLPC
合成フィルタ122及び聴覚重み付けフィルタ125に
送られる。
力、すなわちLSP量子化のインデクスは、端子102
を介して取り出され、また量子化済みのLSPベクトル
は、例えばLSP補間やLSP→α変換を介してLPC
のαパラメータとされて、LPC逆フィルタ131や、
後述する第2の符号化部120の聴覚重み付きのLPC
合成フィルタ122及び聴覚重み付けフィルタ125に
送られる。
【0019】また、LPC分析部132からのαパラメ
ータは、聴覚重み付けフィルタ算出部134に送られて
聴覚重み付けのためのデータが求められ、この重み付け
データが後述する聴覚重み付きのベクトル量子化器11
6と、第2の符号化部120の聴覚重み付きのLPC合
成フィルタ122及び聴覚重み付けフィルタ125とに
送られる。
ータは、聴覚重み付けフィルタ算出部134に送られて
聴覚重み付けのためのデータが求められ、この重み付け
データが後述する聴覚重み付きのベクトル量子化器11
6と、第2の符号化部120の聴覚重み付きのLPC合
成フィルタ122及び聴覚重み付けフィルタ125とに
送られる。
【0020】LPC逆フィルタ131では、上記αパラ
メータを用いて、入力音声信号の線形予測残差(LPC
残差)を取り出すような逆フィルタリング処理を行って
いる。このLPC逆フィルタ131からの出力は、サイ
ン波分析符号化、具体的には例えばハーモニック符号化
を行う第1の符号化部110の、DFT(離散フーリエ
変換)回路等の直交変換部112及び位相検出部140
に送られる。
メータを用いて、入力音声信号の線形予測残差(LPC
残差)を取り出すような逆フィルタリング処理を行って
いる。このLPC逆フィルタ131からの出力は、サイ
ン波分析符号化、具体的には例えばハーモニック符号化
を行う第1の符号化部110の、DFT(離散フーリエ
変換)回路等の直交変換部112及び位相検出部140
に送られる。
【0021】また、符号化部110のオープンループピ
ッチサーチ部111には、上記入力端子101からの入
力音声信号が供給されている。オープンループピッチサ
ーチ部111では、入力信号のLPC残差をとってオー
プンループによる比較的ラフなピッチのサーチが行わ
れ、抽出された粗ピッチデータは高精度ピッチサーチ部
113に送られて、後述するようなクローズドループに
よる高精度のピッチサーチ(ピッチのファインサーチ)
が行われる。また、オープンループピッチサーチ部11
1からは、上記粗ピッチデータと共にLPC残差の自己
相関の最大値をパワーで正規化した正規化自己相関最大
値r(p) が取り出され、V/UV(有声音/無声音)判
定部114に送られている。
ッチサーチ部111には、上記入力端子101からの入
力音声信号が供給されている。オープンループピッチサ
ーチ部111では、入力信号のLPC残差をとってオー
プンループによる比較的ラフなピッチのサーチが行わ
れ、抽出された粗ピッチデータは高精度ピッチサーチ部
113に送られて、後述するようなクローズドループに
よる高精度のピッチサーチ(ピッチのファインサーチ)
が行われる。また、オープンループピッチサーチ部11
1からは、上記粗ピッチデータと共にLPC残差の自己
相関の最大値をパワーで正規化した正規化自己相関最大
値r(p) が取り出され、V/UV(有声音/無声音)判
定部114に送られている。
【0022】直交変換部112では例えばDFT(離散
フーリエ変換)等の直交変換処理が施されて、時間軸上
のLPC残差が周波数軸上のスペクトル振幅データに変
換される。この直交変換部112からの出力は、高精度
ピッチサーチ部113及びスペクトル振幅あるいはエン
ベロープを評価するためのスペクトルエンベロープ評価
部115に送られる。
フーリエ変換)等の直交変換処理が施されて、時間軸上
のLPC残差が周波数軸上のスペクトル振幅データに変
換される。この直交変換部112からの出力は、高精度
ピッチサーチ部113及びスペクトル振幅あるいはエン
ベロープを評価するためのスペクトルエンベロープ評価
部115に送られる。
【0023】高精度(ファイン)ピッチサーチ部113
には、オープンループピッチサーチ部111で抽出され
た比較的ラフな粗ピッチデータと、直交変換部112に
より例えばDFTされた周波数軸上のデータとが供給さ
れている。この高精度ピッチサーチ部113では、上記
粗ピッチデータ値を中心に、0.2〜0.5きざみで±数サ
ンプルずつ振って、最適な小数点付き(フローティン
グ)のファインピッチデータの値へ追い込む。このとき
のファインサーチの手法として、いわゆる合成による分
析 (Analysis by Synthesis)法を用い、合成されたパワ
ースペクトルが原音のパワースペクトルに最も近くなる
ようにピッチを選んでいる。このようなクローズドルー
プによる高精度のピッチサーチ部146からのピッチデ
ータについては、スペクトルエンベロープ評価部11
5、位相検出部141、及び切換部107に送ってい
る。
には、オープンループピッチサーチ部111で抽出され
た比較的ラフな粗ピッチデータと、直交変換部112に
より例えばDFTされた周波数軸上のデータとが供給さ
れている。この高精度ピッチサーチ部113では、上記
粗ピッチデータ値を中心に、0.2〜0.5きざみで±数サ
ンプルずつ振って、最適な小数点付き(フローティン
グ)のファインピッチデータの値へ追い込む。このとき
のファインサーチの手法として、いわゆる合成による分
析 (Analysis by Synthesis)法を用い、合成されたパワ
ースペクトルが原音のパワースペクトルに最も近くなる
ようにピッチを選んでいる。このようなクローズドルー
プによる高精度のピッチサーチ部146からのピッチデ
ータについては、スペクトルエンベロープ評価部11
5、位相検出部141、及び切換部107に送ってい
る。
【0024】スペクトルエンベロープ評価部115で
は、LPC残差の直交変換出力としてのスペクトル振幅
及びピッチに基づいて各ハーモニクスの大きさ及びその
集合であるスペクトルエンベロープが評価され、高精度
ピッチサーチ部113、V/UV(有声音/無声音)判
定部114及びスペクトルエンベロープ量子化部116
に送られる。スペクトルエンベロープ量子化部116と
しては、聴覚重み付きのベクトル量子化器が用いられ
る。
は、LPC残差の直交変換出力としてのスペクトル振幅
及びピッチに基づいて各ハーモニクスの大きさ及びその
集合であるスペクトルエンベロープが評価され、高精度
ピッチサーチ部113、V/UV(有声音/無声音)判
定部114及びスペクトルエンベロープ量子化部116
に送られる。スペクトルエンベロープ量子化部116と
しては、聴覚重み付きのベクトル量子化器が用いられ
る。
【0025】V/UV(有声音/無声音)判定部114
は、直交変換部112からの出力と、高精度ピッチサー
チ部113からの最適ピッチと、スペクトルエンベロー
プ評価部115からのスペクトル振幅データと、オープ
ンループピッチサーチ部111からの正規化自己相関最
大値r(p) とに基づいて、当該フレームのV/UV判定
が行われる。さらに、MBEの場合の各バンド毎のV/
UV判定結果の境界位置も当該フレームのV/UV判定
の一条件としてもよい。このV/UV判定部115から
の判定出力は、出力端子105を介して取り出される。
は、直交変換部112からの出力と、高精度ピッチサー
チ部113からの最適ピッチと、スペクトルエンベロー
プ評価部115からのスペクトル振幅データと、オープ
ンループピッチサーチ部111からの正規化自己相関最
大値r(p) とに基づいて、当該フレームのV/UV判定
が行われる。さらに、MBEの場合の各バンド毎のV/
UV判定結果の境界位置も当該フレームのV/UV判定
の一条件としてもよい。このV/UV判定部115から
の判定出力は、出力端子105を介して取り出される。
【0026】ところで、スペクトル評価部115の出力
部あるいはスペクトルエンベロープ量子化部116の入
力部には、データ数変換(一種のサンプリングレート変
換)部が設けられている。このデータ数変換部は、上記
ピッチに応じて周波数軸上での分割帯域数が異なり、デ
ータ数が異なることを考慮して、エンベロープの振幅デ
ータ|Am| を一定の個数にするためのものである。す
なわち、例えば有効帯域を3400kHzまでとすると、
この有効帯域が上記ピッチに応じて、8バンド〜63バ
ンドに分割されることになり、これらの各バンド毎に得
られる上記振幅データ|Am| の個数も8〜63と変化
することになる。このため上記データ数変換部で、この
可変個数の振幅データを一定個数、例えば44個、のデ
ータに変換している。
部あるいはスペクトルエンベロープ量子化部116の入
力部には、データ数変換(一種のサンプリングレート変
換)部が設けられている。このデータ数変換部は、上記
ピッチに応じて周波数軸上での分割帯域数が異なり、デ
ータ数が異なることを考慮して、エンベロープの振幅デ
ータ|Am| を一定の個数にするためのものである。す
なわち、例えば有効帯域を3400kHzまでとすると、
この有効帯域が上記ピッチに応じて、8バンド〜63バ
ンドに分割されることになり、これらの各バンド毎に得
られる上記振幅データ|Am| の個数も8〜63と変化
することになる。このため上記データ数変換部で、この
可変個数の振幅データを一定個数、例えば44個、のデ
ータに変換している。
【0027】このスペクトルエンベロープ評価部115
の出力部あるいはスペクトルエンベロープ量子化部11
6の入力部に設けられたデータ数変換部からの上記一定
個数(例えば44個)の振幅データあるいはエンベロー
プデータが、スペクトルエンベロープ量子化部116に
より、所定個数、例えば44個のデータ毎にまとめられ
てベクトルとされ、重み付きベクトル量子化が施され
る。この重みは、聴覚重み付けフィルタ算出回路134
からの出力により与えられる。スペクトルエンベロープ
量子化部116からの上記エンベロープのインデクス
は、切換部107に送られる。
の出力部あるいはスペクトルエンベロープ量子化部11
6の入力部に設けられたデータ数変換部からの上記一定
個数(例えば44個)の振幅データあるいはエンベロー
プデータが、スペクトルエンベロープ量子化部116に
より、所定個数、例えば44個のデータ毎にまとめられ
てベクトルとされ、重み付きベクトル量子化が施され
る。この重みは、聴覚重み付けフィルタ算出回路134
からの出力により与えられる。スペクトルエンベロープ
量子化部116からの上記エンベロープのインデクス
は、切換部107に送られる。
【0028】位相検出部141では、後述するようにサ
イン波分析合成符号化の各ハーモニクス(高調波)毎の
位相や位相の固定遅延成分等の位相情報を検出し、この
位相情報を位相量子化部142に送って量子化し、量子
化された位相データを切換部107に送っている。
イン波分析合成符号化の各ハーモニクス(高調波)毎の
位相や位相の固定遅延成分等の位相情報を検出し、この
位相情報を位相量子化部142に送って量子化し、量子
化された位相データを切換部107に送っている。
【0029】切換部107は、V/UV判定部115か
らのV/UV判定出力に応じて、第1の符号化部110
のピッチ、スペクトルエンベロープのベクトル量子化イ
ンデクス、位相の各データと、第2の符号化部120か
らの後述するシェイプ、ゲインの各データとを切り換え
て、端子103より出力する。
らのV/UV判定出力に応じて、第1の符号化部110
のピッチ、スペクトルエンベロープのベクトル量子化イ
ンデクス、位相の各データと、第2の符号化部120か
らの後述するシェイプ、ゲインの各データとを切り換え
て、端子103より出力する。
【0030】図1の第2の符号化部120は、この例で
はCELP(符号励起線形予測)符号化構成を有してお
り、雑音符号帳121からの出力を、重み付きの合成フ
ィルタ122により合成処理し、得られた重み付き音声
を減算器123に送り、入力端子101に供給された音
声信号を聴覚重み付けフィルタ125を介して得られた
音声との誤差を取り出し、この誤差を距離計算回路12
4に送って距離計算を行い、誤差が最小となるようなベ
クトルを雑音符号帳121でサーチするような、合成に
よる分析(Analysis by Synthesis )法を用いたクロー
ズドループサーチを用いた時間軸波形のベクトル量子化
を行っている。このCELP符号化は、上述したように
無声音部分の符号化に用いられており、雑音符号帳12
1からのUVデータとしてのコードブックインデクス
は、上記V/UV判定部115からのV/UV判定結果
が無声音(UV)のとき切り換えられる切換部107を
介して、出力端子107より取り出される。
はCELP(符号励起線形予測)符号化構成を有してお
り、雑音符号帳121からの出力を、重み付きの合成フ
ィルタ122により合成処理し、得られた重み付き音声
を減算器123に送り、入力端子101に供給された音
声信号を聴覚重み付けフィルタ125を介して得られた
音声との誤差を取り出し、この誤差を距離計算回路12
4に送って距離計算を行い、誤差が最小となるようなベ
クトルを雑音符号帳121でサーチするような、合成に
よる分析(Analysis by Synthesis )法を用いたクロー
ズドループサーチを用いた時間軸波形のベクトル量子化
を行っている。このCELP符号化は、上述したように
無声音部分の符号化に用いられており、雑音符号帳12
1からのUVデータとしてのコードブックインデクス
は、上記V/UV判定部115からのV/UV判定結果
が無声音(UV)のとき切り換えられる切換部107を
介して、出力端子107より取り出される。
【0031】次に、本発明に係る好ましい実施の形態に
ついて、以下に説明する。この本発明に係る位相検出装
置及び方法の実施の形態は、上記図1に示した音声信号
符号化装置の位相検出部141に用いられるものである
が、これに限定されないことは勿論である。
ついて、以下に説明する。この本発明に係る位相検出装
置及び方法の実施の形態は、上記図1に示した音声信号
符号化装置の位相検出部141に用いられるものである
が、これに限定されないことは勿論である。
【0032】先ず、図2は、本発明に係る好ましい実施
の形態となる位相検出装置の概略構成を示すブロック
図、図3は、本発明に係る好ましい実施の形態となる位
相検出方法を説明するためのフローチャートである。
の形態となる位相検出装置の概略構成を示すブロック
図、図3は、本発明に係る好ましい実施の形態となる位
相検出方法を説明するためのフローチャートである。
【0033】図2の入力端子20に供給される入力信号
としては、ディジタル化した音声信号そのもの、あるい
は上述した図1の例のLPC逆フィルタ131からの信
号のようなディジタル音声信号の短期予測残差信号(L
PC残差信号)が用いられる。この入力信号に対して、
波形切り出し部21により、図3のステップS21に示
すように、1ピッチ周期分の波形信号を切り出してい
る。これは、図4に示すように、入力信号(音声信号あ
るいはLPC残差信号)s(i) の分析ブロック中の分析
点(時刻)nから1ピッチ周期に相当するサンプル数
(ピッチラグ)pchを切り出す処理である。この図4の
例では、分析ブロック長を256サンプルとしている
が、これに限定されない。また、図4の横軸は分析ブロ
ック中の位置あるいは時刻をサンプル数で表しており、
上記分析点の位置あるいは時刻nは、分析開始からnサ
ンプル目であることを示している。
としては、ディジタル化した音声信号そのもの、あるい
は上述した図1の例のLPC逆フィルタ131からの信
号のようなディジタル音声信号の短期予測残差信号(L
PC残差信号)が用いられる。この入力信号に対して、
波形切り出し部21により、図3のステップS21に示
すように、1ピッチ周期分の波形信号を切り出してい
る。これは、図4に示すように、入力信号(音声信号あ
るいはLPC残差信号)s(i) の分析ブロック中の分析
点(時刻)nから1ピッチ周期に相当するサンプル数
(ピッチラグ)pchを切り出す処理である。この図4の
例では、分析ブロック長を256サンプルとしている
が、これに限定されない。また、図4の横軸は分析ブロ
ック中の位置あるいは時刻をサンプル数で表しており、
上記分析点の位置あるいは時刻nは、分析開始からnサ
ンプル目であることを示している。
【0034】この切り出された1ピッチ分の波形信号に
対して、ゼロ詰め処理部22により、図3のステップS
22のゼロ詰め処理が施される。これは、図5に示すよ
うに、上記1ピッチラグ分のpch サンプルの信号波形を
先頭に配置し、信号長が2Nサンプル、この実施の形態
では、28 =256サンプルとなるように、残りをゼロ
詰めした信号列re(i) (ただし、0≦i<2N) を得る
処理である。
対して、ゼロ詰め処理部22により、図3のステップS
22のゼロ詰め処理が施される。これは、図5に示すよ
うに、上記1ピッチラグ分のpch サンプルの信号波形を
先頭に配置し、信号長が2Nサンプル、この実施の形態
では、28 =256サンプルとなるように、残りをゼロ
詰めした信号列re(i) (ただし、0≦i<2N) を得る
処理である。
【0035】
【数1】
【0036】次に、このゼロ詰めされた信号列re(i) を
実数部とし、虚数信号列im(i) として、 im(i) = 0 (0≦i<2N) を用い、FFT処理部23により、図3のステップS2
3に示すように、これらの実数信号列re(i) 及び虚数信
号列im(i) に対して2N ポイントのFFT(高速フーリ
エ変換)を実行する。
実数部とし、虚数信号列im(i) として、 im(i) = 0 (0≦i<2N) を用い、FFT処理部23により、図3のステップS2
3に示すように、これらの実数信号列re(i) 及び虚数信
号列im(i) に対して2N ポイントのFFT(高速フーリ
エ変換)を実行する。
【0037】このFFTの実行結果に対して、tan-1 処
理部24により、図3のステップS24に示すようにta
n-1 (逆正接)を計算して位相を求める。これは、FF
Tの実行結果の実数部をRe(i)、虚数部をIm(i)とする
とき、0≦i<2N-1 の成分が、周波数軸上で0〜π
(rad) の成分に相当することから、この周波数軸上の
ω=0〜πの範囲の位相φ(ω)を、次の(2)式により
2N-1 ポイント求めるものである。求められた位相の具
体例を図6の実線に示す。
理部24により、図3のステップS24に示すようにta
n-1 (逆正接)を計算して位相を求める。これは、FF
Tの実行結果の実数部をRe(i)、虚数部をIm(i)とする
とき、0≦i<2N-1 の成分が、周波数軸上で0〜π
(rad) の成分に相当することから、この周波数軸上の
ω=0〜πの範囲の位相φ(ω)を、次の(2)式により
2N-1 ポイント求めるものである。求められた位相の具
体例を図6の実線に示す。
【0038】
【数2】
【0039】ところで、上記時刻n(サンプル)を中心
とする分析ブロックのピッチラグがpch(サンプル) で
あるので、時刻nにおける基本周波数(角周波数)ω0
は、 ω0 = 2π/pch (3) となる。周波数軸上のω=0〜πの範囲にハーモニクス
(高調波)がω0 間隔にM本並んでいる。このMは、 M = pch/2 (4) となる。
とする分析ブロックのピッチラグがpch(サンプル) で
あるので、時刻nにおける基本周波数(角周波数)ω0
は、 ω0 = 2π/pch (3) となる。周波数軸上のω=0〜πの範囲にハーモニクス
(高調波)がω0 間隔にM本並んでいる。このMは、 M = pch/2 (4) となる。
【0040】上記tan-1 処理部24により求められた位
相φ(ω)は、ピッチラグpch や基本周波数ω0 とは無関
係に、分析ブロック長とサンプリング周波数によって決
まる周波数軸上の2N-1 点の位相である。そこで、上記
基本周波数ω0 間隔の各ハーモニクスの位相を求めるた
めに、補間処理部25で図3のステップS25に示す補
間処理を実行する。この処理は、m番目のハーモニクス
の位相φm=φ(m×ω0) (ただし、1≦m≦M)を、上
記求められた2N-1 ポイントの位相φ(ω)に基づき線形
補間等により求めている。補間された各ハーモニクスの
位相データは、出力端子26より取り出される。
相φ(ω)は、ピッチラグpch や基本周波数ω0 とは無関
係に、分析ブロック長とサンプリング周波数によって決
まる周波数軸上の2N-1 点の位相である。そこで、上記
基本周波数ω0 間隔の各ハーモニクスの位相を求めるた
めに、補間処理部25で図3のステップS25に示す補
間処理を実行する。この処理は、m番目のハーモニクス
の位相φm=φ(m×ω0) (ただし、1≦m≦M)を、上
記求められた2N-1 ポイントの位相φ(ω)に基づき線形
補間等により求めている。補間された各ハーモニクスの
位相データは、出力端子26より取り出される。
【0041】ここで、例えば線形補間の場合を図7及び
図8を参照しながら説明すると、これらの図に示す各値
id,idL,idH,phaseL,phaseHは、それぞれ次の
ようなものである。
図8を参照しながら説明すると、これらの図に示す各値
id,idL,idH,phaseL,phaseHは、それぞれ次の
ようなものである。
【0042】
【数3】
【0043】すなわち、上記求められた2N-1 ポイント
の位相に対応する周波数軸上の位置を整数値(サンプル
番号)で表し、これらの2N-1 ポイントの内の隣り合う
2つの位置idL,idH間にm番目のハーモニクスの周波
数id(=m×ω0) が存在するとき、各位置idL,id
Hのそれぞれの位相phaseL,phaseHを用いて線形補間
によりm番目のハーモニクスの周波数idでの位相φm
を計算する。この線形補間の計算式は次の通りである。
の位相に対応する周波数軸上の位置を整数値(サンプル
番号)で表し、これらの2N-1 ポイントの内の隣り合う
2つの位置idL,idH間にm番目のハーモニクスの周波
数id(=m×ω0) が存在するとき、各位置idL,id
Hのそれぞれの位相phaseL,phaseHを用いて線形補間
によりm番目のハーモニクスの周波数idでの位相φm
を計算する。この線形補間の計算式は次の通りである。
【0044】
【数4】
【0045】図7は、上記2N-1 ポイントの内の隣り合
う2つの位置idL,idHのそれぞれの位相phaseL,pha
seHを単純に線形補間してm番目のハーモニクス位置i
dでの位相φm を計算する場合を示している。
う2つの位置idL,idHのそれぞれの位相phaseL,pha
seHを単純に線形補間してm番目のハーモニクス位置i
dでの位相φm を計算する場合を示している。
【0046】これに対して、図8は、位相の不連続を考
慮した補間処理の例を示している。これは、tan-1 の計
算を行って得られる位相φm が2π周期で連続すること
から、周波数軸上の位置idLの位相phaseL(a点) に
2πを加算した値(b点)と、位置idHの位相phaseH
とを用いた線形補間により、m番目のハーモニクス位置
idでの位相φm を計算している。このように2πを加
算して位相の連続性を保つ処理を、位相のアンラップ処
理という。
慮した補間処理の例を示している。これは、tan-1 の計
算を行って得られる位相φm が2π周期で連続すること
から、周波数軸上の位置idLの位相phaseL(a点) に
2πを加算した値(b点)と、位置idHの位相phaseH
とを用いた線形補間により、m番目のハーモニクス位置
idでの位相φm を計算している。このように2πを加
算して位相の連続性を保つ処理を、位相のアンラップ処
理という。
【0047】図6の曲線上の×印は、このようにして求
められた各ハーモニクスの位相を示している。
められた各ハーモニクスの位相を示している。
【0048】図9は、上述したような各ハーモニクスの
位相φm を線形補間により計算する処理手順を示すフロ
ーチャートである。この図9のフローチャートにおい
て、最初のステップS51では、ハーモニクスの番号m
を初期化(m=1)し、次のステップS52で、m番目
のハーモニクスについての上記各値id,idL,idH,
phaseL,phaseHを計算し、次のステップS53で位相
の連続性を判別する。このステップS53で不連続と判
別された場合にはステップS54に進み、連続と判別さ
れた場合にはステップS55に進んでいる。すなわち、
不連続の場合にはステップS54に進んで、周波数軸上
の位置idLの位相phaseL に2πを加算した値と、位置
idHの位相phaseH とを用いた線形補間により、m番目
のハーモニクスの位相φm を求めており、連続の場合に
はステップS55に進んで、各位相phaseL,phaseHを
単純に線形補間してm番目のハーモニクスの位相φm を
求めている。次のステップS56では、ハーモニクスの
番号mが上記Mに達したか否かを判別して、NOの場合
はmをインクリメント(m=m+1)してステップS5
2に戻り、YESの場合は処理を終了している。
位相φm を線形補間により計算する処理手順を示すフロ
ーチャートである。この図9のフローチャートにおい
て、最初のステップS51では、ハーモニクスの番号m
を初期化(m=1)し、次のステップS52で、m番目
のハーモニクスについての上記各値id,idL,idH,
phaseL,phaseHを計算し、次のステップS53で位相
の連続性を判別する。このステップS53で不連続と判
別された場合にはステップS54に進み、連続と判別さ
れた場合にはステップS55に進んでいる。すなわち、
不連続の場合にはステップS54に進んで、周波数軸上
の位置idLの位相phaseL に2πを加算した値と、位置
idHの位相phaseH とを用いた線形補間により、m番目
のハーモニクスの位相φm を求めており、連続の場合に
はステップS55に進んで、各位相phaseL,phaseHを
単純に線形補間してm番目のハーモニクスの位相φm を
求めている。次のステップS56では、ハーモニクスの
番号mが上記Mに達したか否かを判別して、NOの場合
はmをインクリメント(m=m+1)してステップS5
2に戻り、YESの場合は処理を終了している。
【0049】次に、上述のようにして求められた位相情
報を用いてサイン波合成を行う場合の具体例について図
10を参照しながら説明する。ここでは、時刻n1から
n2までのフレーム間隔L=n2−n1の時間波形をサイ
ン波合成(Sinusoidal合成)により再生する場合につい
て説明する。
報を用いてサイン波合成を行う場合の具体例について図
10を参照しながら説明する。ここでは、時刻n1から
n2までのフレーム間隔L=n2−n1の時間波形をサイ
ン波合成(Sinusoidal合成)により再生する場合につい
て説明する。
【0050】時刻n1 のピッチラグがpch1(サンプ
ル)、時刻n2 のピッチラグがpch2(サンプル)である
とき、時刻n1,n2 のピッチ周波数ω1,ω2 (rad/サンフ゜
ル) は、それぞれ、 ω1 = 2π/pch1 (11) ω2 = 2π/pch2 (12) である。また、各ハーモニクス成分の振幅データを、時
刻n1 では、A11,A12,A13,...、時刻n2 では、
A21,A22,A23,...とし、各ハーモニクス成分の位相デ
ータを時刻n1 では、φ11,φ12,φ13,...、時刻n2 で
は、φ21,φ22,φ23,...とする。
ル)、時刻n2 のピッチラグがpch2(サンプル)である
とき、時刻n1,n2 のピッチ周波数ω1,ω2 (rad/サンフ゜
ル) は、それぞれ、 ω1 = 2π/pch1 (11) ω2 = 2π/pch2 (12) である。また、各ハーモニクス成分の振幅データを、時
刻n1 では、A11,A12,A13,...、時刻n2 では、
A21,A22,A23,...とし、各ハーモニクス成分の位相デ
ータを時刻n1 では、φ11,φ12,φ13,...、時刻n2 で
は、φ21,φ22,φ23,...とする。
【0051】ピッチが連続している場合には、時刻n
(n1≦n≦n2)における第m番目のハーモニクス成分
の振幅は、時刻n1,n2 における振幅データの線形補間
によって、次の(13)式により得られる。
(n1≦n≦n2)における第m番目のハーモニクス成分
の振幅は、時刻n1,n2 における振幅データの線形補間
によって、次の(13)式により得られる。
【0052】
【数5】
【0053】時刻n1,n2 の間でのm番目のハーモニク
ス成分の周波数変化を、次の(14)式で示すように、
(線形変化分)+(固定変動分)であると仮定する。
ス成分の周波数変化を、次の(14)式で示すように、
(線形変化分)+(固定変動分)であると仮定する。
【0054】
【数6】
【0055】このとき、第m番目のハーモニクス成分の
時刻nにおける位相θm(n)(rad)は、次の(15)式
で表されるから、これを計算して(17)式が得られ
る。
時刻nにおける位相θm(n)(rad)は、次の(15)式
で表されるから、これを計算して(17)式が得られ
る。
【0056】
【数7】
【0057】よって、時刻n2 におけるm番目のハーモ
ニクスの位相φm2(rad) は、次の(19)式で表され
る。従って各ハーモニクス成分の周波数変化の変動分Δ
ωm(rad/サンフ゜ル) は、次の(20)式に示すようにな
る。
ニクスの位相φm2(rad) は、次の(19)式で表され
る。従って各ハーモニクス成分の周波数変化の変動分Δ
ωm(rad/サンフ゜ル) は、次の(20)式に示すようにな
る。
【0058】
【数8】
【0059】
【数9】
【0060】第m番目のハーモニクス成分について、時
刻n1,n2 における位相φm1,φm2が与えられているの
で、上記(20)式より、周波数変化の固定変動分Δω
m を求め、上記(17)式により各時刻nの位相θm が
求まれば、第m番目のハーモニクスによる時間波形W
m(n)は、 Wm(n) = Am(n)cos(θm(n)) (n1≦n≦n2) (21) となる。このようにして得られた全てのハーモニクスに
関する時間波形の総和をとったものが、次の(22)
式、(23)式に示すように、合成波形V(n) となる。
刻n1,n2 における位相φm1,φm2が与えられているの
で、上記(20)式より、周波数変化の固定変動分Δω
m を求め、上記(17)式により各時刻nの位相θm が
求まれば、第m番目のハーモニクスによる時間波形W
m(n)は、 Wm(n) = Am(n)cos(θm(n)) (n1≦n≦n2) (21) となる。このようにして得られた全てのハーモニクスに
関する時間波形の総和をとったものが、次の(22)
式、(23)式に示すように、合成波形V(n) となる。
【0061】
【数10】
【0062】次に、ピッチ不連続の場合について説明す
る。ピッチ不連続の場合は、周波数変化の連続性は考慮
せずに、時刻n1 より前向きにサイン波合成した次の
(24)式に示す波形V1(n)と、時刻n2 より後ろ向き
にサイン波合成した次の(25)式に示す波形V2(n)と
にそれぞれ窓をかけて重畳加算(overlap add) する。
る。ピッチ不連続の場合は、周波数変化の連続性は考慮
せずに、時刻n1 より前向きにサイン波合成した次の
(24)式に示す波形V1(n)と、時刻n2 より後ろ向き
にサイン波合成した次の(25)式に示す波形V2(n)と
にそれぞれ窓をかけて重畳加算(overlap add) する。
【0063】
【数11】
【0064】
【数12】
【0065】以上説明したような位相検出装置によれ
ば、予め検出されたピッチ周波数を用いて、FFTと線
形補間により、所望のハーモニクス成分の位相を高速に
検出できる。これにより、音声信号のサイン波合成符号
化、又は音声信号のLPC残差にサイン波合成符号化を
用いる音声符号化において、波形再現性を実現できる。
ば、予め検出されたピッチ周波数を用いて、FFTと線
形補間により、所望のハーモニクス成分の位相を高速に
検出できる。これにより、音声信号のサイン波合成符号
化、又は音声信号のLPC残差にサイン波合成符号化を
用いる音声符号化において、波形再現性を実現できる。
【0066】なお、本発明は上記実施の形態のみに限定
されるものではなく、例えば上記図1の構成について
は、各部をハードウェア的に記載しているが、いわゆる
DSP(ディジタル信号プロセッサ)等を用いてソフト
ウェアプログラムにより実現することも可能である。
されるものではなく、例えば上記図1の構成について
は、各部をハードウェア的に記載しているが、いわゆる
DSP(ディジタル信号プロセッサ)等を用いてソフト
ウェアプログラムにより実現することも可能である。
【0067】
【発明の効果】以上の説明から明らかなように、本発明
に係る位相検出装置及び方法によれば、音声信号に基づ
く入力信号波形を時間軸上で1ピッチ周期分だけ切り出
し、切り出された1ピッチ周期分のサンプルに対してF
FT等の直交変換を施し、直交変換されたデータの実部
と虚部とに基づいて上記入力信号の各高調波成分の位相
情報を検出することにより、元の波形の位相情報を検出
でき、波形再現性を高めることができる。
に係る位相検出装置及び方法によれば、音声信号に基づ
く入力信号波形を時間軸上で1ピッチ周期分だけ切り出
し、切り出された1ピッチ周期分のサンプルに対してF
FT等の直交変換を施し、直交変換されたデータの実部
と虚部とに基づいて上記入力信号の各高調波成分の位相
情報を検出することにより、元の波形の位相情報を検出
でき、波形再現性を高めることができる。
【0068】特に、予め検出されたピッチを用いて、F
FT(高速フーリエ変換)と線形補間とを用いることに
より、各ハーモニクス(高調波)成分の位相を高速に検
出できる。これによって、サイン波合成符号化等の音声
符号化に適用した場合に、波形再現性を高めることがで
き、例えば合成音が不自然になることを未然に防止でき
る。
FT(高速フーリエ変換)と線形補間とを用いることに
より、各ハーモニクス(高調波)成分の位相を高速に検
出できる。これによって、サイン波合成符号化等の音声
符号化に適用した場合に、波形再現性を高めることがで
き、例えば合成音が不自然になることを未然に防止でき
る。
【図1】本発明に係る位相検出装置及び方法の実施の形
態が適用される音声符号化装置の一例の概略構成を示す
ブロック図である。
態が適用される音声符号化装置の一例の概略構成を示す
ブロック図である。
【図2】本発明に係る実施の形態となる位相検出装置の
概略構成を示すブロック図である。
概略構成を示すブロック図である。
【図3】本発明に係る実施の形態となる位相検出方法を
説明するためのフローチャートである。
説明するためのフローチャートである。
【図4】位相検出の対象となる入力信号の一例を示す波
形図である。
形図である。
【図5】1ピッチ分の波形データにゼロ詰めを施した信
号の一例を示す波形図である。
号の一例を示す波形図である。
【図6】検出された位相の一例を示す図である。
【図7】位相が連続するときの補間処理の一例を説明す
るための図である。
るための図である。
【図8】位相が不連続のときの補間処理の一例を説明す
るための図である。
るための図である。
【図9】位相の線形補間の処理手順の一例を説明するた
めのフローチャートである。
めのフローチャートである。
【図10】位相情報が得られたときのサイン波合成の一
例を説明するための図である。
例を説明するための図である。
21 波形切り出し部、 22 ゼロ詰め処理部、 2
3 FFT処理部、24 tan-1部 、 25 補間処理
部、 110 第1の符号化部、 111オープンルー
プピッチサーチ部、 112 直交変換部、 113
高精度ピッチサーチ部、 114 V/UV判定部、
115 スペクトルエンベロープ評価部、 116 ス
ペクトルエンベロープ量子化部、 120 第2の符号
化部、 131 LPC逆フィルタ、 132 LPC
分析部、 133 LSP量子化部、 141 位相検
出部、 142 位相量子化部
3 FFT処理部、24 tan-1部 、 25 補間処理
部、 110 第1の符号化部、 111オープンルー
プピッチサーチ部、 112 直交変換部、 113
高精度ピッチサーチ部、 114 V/UV判定部、
115 スペクトルエンベロープ評価部、 116 ス
ペクトルエンベロープ量子化部、 120 第2の符号
化部、 131 LPC逆フィルタ、 132 LPC
分析部、 133 LSP量子化部、 141 位相検
出部、 142 位相量子化部
Claims (18)
- 【請求項1】 音声信号に基づく入力信号波形を時間軸
上で1ピッチ周期分だけ切り出す波形切り出し手段と、 切り出された1ピッチ周期分の波形データに対して直交
変換を施す直交変換手段と、 この直交変換手段からのデータの実部と虚部とに基づい
て上記入力信号の各高調波成分の位相情報を検出する位
相検出手段とを有することを特徴とする位相検出装置。 - 【請求項2】 上記入力信号波形は音声信号波形である
ことを特徴とする請求項1記載の位相検出装置。 - 【請求項3】 上記入力信号波形は音声信号の短期予測
残差の信号波形であることを特徴とする請求項1記載の
位相検出装置。 - 【請求項4】 上記波形切り出し手段からの切り出し波
形データにゼロ詰めを施して全体で2N サンプル(Nは
整数、2N は上記1ピッチ周期のサンプル数以上)と
し、上記直交変換手段に送ることを特徴とする請求項1
記載の位相検出装置。 - 【請求項5】 上記直交変換手段は、高速フーリエ変換
回路であることを特徴とする請求項1記載の位相検出装
置。 - 【請求項6】 上記位相検出手段は、上記直交変換手段
からのデータの実部と虚部とを用いて逆正接(tan-1)
を求める計算により位相を求め、この位相を補間処理し
て各高調波毎の位相を求めることを特徴とする請求項1
記載の位相検出装置。 - 【請求項7】 音声信号に基づく入力信号波形を時間軸
上で1ピッチ周期分だけ切り出す波形切り出し工程と、 切り出された1ピッチ周期分の波形データに対して直交
変換を施す直交変換工程と、 この直交変換工程により得られたデータの実部と虚部と
に基づいて上記入力信号の各高調波成分の位相情報を検
出する位相検出工程とを有することを特徴とする位相検
出方法。 - 【請求項8】 上記波形切り出し工程により得られた切
り出し波形データにゼロ詰めを施して全体で2N サンプ
ル(Nは整数、2N は上記1ピッチ周期のサンプル数以
上)とし、上記直交変換手段に送ることを特徴とする請
求項7記載の位相検出方法。 - 【請求項9】 上記位相検出工程では、上記直交変換工
程により得られたデータの実部と虚部とを用いて逆正接
(tan-1) を求める計算により位相を求め、この位相を
補間処理して各高調波毎の位相を求めることを特徴とす
る請求項7記載の位相検出方法。 - 【請求項10】 音声信号に基づく入力信号を時間軸上
でブロック単位で区分し、区分された各ブロック毎にピ
ッチを求めると共に、各ブロック単位でサイン波分析合
成符号化を施す音声符号化装置において、 上記入力信号の波形を時間軸上で上記ピッチの1ピッチ
周期分だけ切り出す波形切り出し手段と、 切り出された1ピッチ周期分の波形データに対して直交
変換を施す直交変換手段と、 この直交変換手段からのデータの実部と虚部とに基づい
て上記入力信号の上記サイン波合成のための各高調波成
分の位相情報を検出する位相検出手段とを有することを
特徴とする音声符号化装置。 - 【請求項11】 上記入力信号は音声信号であることを
特徴とする請求項10記載の音声符号化装置。 - 【請求項12】 上記入力信号は音声信号の短期予測残
差信号であることを特徴とする請求項10記載の音声符
号化装置。 - 【請求項13】 上記波形切り出し手段からの切り出し
波形データにゼロ詰めを施して全体で2N サンプル(N
は整数、2N は上記1ピッチ周期のサンプル数以上)と
し、上記直交変換手段に送ることを特徴とする請求項1
0記載の音声符号化装置。 - 【請求項14】 上記直交変換手段は、高速フーリエ変
換回路であることを特徴とする請求項10記載の音声符
号化装置。 - 【請求項15】 上記位相検出手段は、上記直交変換手
段からのデータの実部と虚部とを用いて逆正接(ta
n-1) を求める計算により位相を求め、この位相を補間
処理して各高調波毎の位相を求めることを特徴とする請
求項10記載の音声符号化装置。 - 【請求項16】 音声信号に基づく入力信号を時間軸上
でブロック単位で区分し、区分された各ブロック毎にピ
ッチを求めると共に、各ブロック単位でサイン波分析合
成符号化を施す音声符号化方法において、 上記入力信号の波形を時間軸上で上記ピッチの1ピッチ
周期分だけ切り出す波形切り出し工程と、 切り出された1ピッチ周期分の波形データに対して直交
変換を施す直交変換工程と、 この直交変換工程により得られたデータの実部と虚部と
に基づいて上記入力信号の各高調波成分の位相情報を検
出する位相検出工程とを有することを特徴とする音声符
号化方法。 - 【請求項17】 上記波形切り出し工程により得られた
切り出し波形データにゼロ詰めを施して全体で2N サン
プル(Nは整数、2N は上記1ピッチ周期のサンプル数
以上)とし、上記直交変換手段に送ることを特徴とする
請求項16記載の音声符号化方法。 - 【請求項18】 上記位相検出工程では、上記直交変換
工程により得られたデータの実部と虚部とを用いて逆正
接(tan-1) を求める計算により位相を求め、この位相
を補間処理して各高調波毎の位相を求めることを特徴と
する請求項16記載の音声符号化方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10019962A JPH11219199A (ja) | 1998-01-30 | 1998-01-30 | 位相検出装置及び方法、並びに音声符号化装置及び方法 |
US09/236,868 US6278971B1 (en) | 1998-01-30 | 1999-01-26 | Phase detection apparatus and method and audio coding apparatus and method |
EP99300677A EP0933757A3 (en) | 1998-01-30 | 1999-01-29 | Phase detection for an audio signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10019962A JPH11219199A (ja) | 1998-01-30 | 1998-01-30 | 位相検出装置及び方法、並びに音声符号化装置及び方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11219199A true JPH11219199A (ja) | 1999-08-10 |
Family
ID=12013832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10019962A Withdrawn JPH11219199A (ja) | 1998-01-30 | 1998-01-30 | 位相検出装置及び方法、並びに音声符号化装置及び方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US6278971B1 (ja) |
EP (1) | EP0933757A3 (ja) |
JP (1) | JPH11219199A (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6621860B1 (en) * | 1999-02-08 | 2003-09-16 | Advantest Corp | Apparatus for and method of measuring a jitter |
EP1199711A1 (en) * | 2000-10-20 | 2002-04-24 | Telefonaktiebolaget Lm Ericsson | Encoding of audio signal using bandwidth expansion |
KR100788706B1 (ko) * | 2006-11-28 | 2007-12-26 | 삼성전자주식회사 | 광대역 음성 신호의 부호화/복호화 방법 |
KR101131880B1 (ko) * | 2007-03-23 | 2012-04-03 | 삼성전자주식회사 | 오디오 신호의 인코딩 방법 및 장치, 그리고 오디오 신호의디코딩 방법 및 장치 |
US8792592B2 (en) * | 2009-05-29 | 2014-07-29 | Thomson Licensing | Feed-forward carrier recovery system and method |
EP2360680B1 (en) * | 2009-12-30 | 2012-12-26 | Synvo GmbH | Pitch period segmentation of speech signals |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5504833A (en) | 1991-08-22 | 1996-04-02 | George; E. Bryan | Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications |
US5884253A (en) * | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
JP3528258B2 (ja) | 1994-08-23 | 2004-05-17 | ソニー株式会社 | 符号化音声信号の復号化方法及び装置 |
JP3152109B2 (ja) | 1995-05-30 | 2001-04-03 | 日本ビクター株式会社 | オーディオ信号の圧縮伸張方法 |
BE1010336A3 (fr) * | 1996-06-10 | 1998-06-02 | Faculte Polytechnique De Mons | Procede de synthese de son. |
JPH11219198A (ja) * | 1998-01-30 | 1999-08-10 | Sony Corp | 位相検出装置及び方法、並びに音声符号化装置及び方法 |
-
1998
- 1998-01-30 JP JP10019962A patent/JPH11219199A/ja not_active Withdrawn
-
1999
- 1999-01-26 US US09/236,868 patent/US6278971B1/en not_active Expired - Fee Related
- 1999-01-29 EP EP99300677A patent/EP0933757A3/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
EP0933757A3 (en) | 2000-02-23 |
US6278971B1 (en) | 2001-08-21 |
EP0933757A2 (en) | 1999-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH11224099A (ja) | 位相量子化装置及び方法 | |
EP0770987B1 (en) | Method and apparatus for reproducing speech signals, method and apparatus for decoding the speech, method and apparatus for synthesizing the speech and portable radio terminal apparatus | |
US4937873A (en) | Computationally efficient sine wave synthesis for acoustic waveform processing | |
KR100452955B1 (ko) | 음성부호화방법, 음성복호화방법, 음성부호화장치, 음성복호화장치, 전화장치, 피치변환방법 및 매체 | |
JPH0833754B2 (ja) | デジタル音声符号化および復号方法および装置 | |
JP4121578B2 (ja) | 音声分析方法、音声符号化方法および装置 | |
WO1993004467A1 (en) | Audio analysis/synthesis system | |
JPH0744193A (ja) | 高能率符号化方法 | |
JP3687181B2 (ja) | 有声音/無声音判定方法及び装置、並びに音声符号化方法 | |
JPH10149199A (ja) | 音声符号化方法、音声復号化方法、音声符号化装置、音声復号化装置、電話装置、ピッチ変換方法及び媒体 | |
JP2003050600A (ja) | 線スペクトル平方根を発生し符号化するための方法と装置 | |
JPH11219198A (ja) | 位相検出装置及び方法、並びに音声符号化装置及び方法 | |
EP1099215B1 (en) | Audio signal transmission system | |
JPH11219199A (ja) | 位相検出装置及び方法、並びに音声符号化装置及び方法 | |
JPH05281996A (ja) | ピッチ抽出装置 | |
JP3297751B2 (ja) | データ数変換方法、符号化装置及び復号化装置 | |
JP3218679B2 (ja) | 高能率符号化方法 | |
JPH11219200A (ja) | 遅延検出装置及び方法、並びに音声符号化装置及び方法 | |
US6662153B2 (en) | Speech coding system and method using time-separated coding algorithm | |
JPH0792998A (ja) | 音声信号の符号化方法及び復号化方法 | |
JP3321933B2 (ja) | ピッチ検出方法 | |
JP3223564B2 (ja) | ピッチ抽出方法 | |
JP3398968B2 (ja) | 音声分析合成方法 | |
JP3297750B2 (ja) | 符号化方法 | |
JP3271193B2 (ja) | 音声符号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20050405 |