JP3346404B2 - Audio coding device - Google Patents
Audio coding deviceInfo
- Publication number
- JP3346404B2 JP3346404B2 JP2000328620A JP2000328620A JP3346404B2 JP 3346404 B2 JP3346404 B2 JP 3346404B2 JP 2000328620 A JP2000328620 A JP 2000328620A JP 2000328620 A JP2000328620 A JP 2000328620A JP 3346404 B2 JP3346404 B2 JP 3346404B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- channel
- access unit
- prediction
- linear prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Signal Processing For Digital Recording And Reproducing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【0001】[0001]
【発明の属する技術分野】本発明は、マルチチャネルの
音声信号を可変長で圧縮するための音声符号化装置に関
する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an audio encoding device for compressing a multi-channel audio signal with a variable length.
【0002】[0002]
【従来の技術】音声信号を可変長で圧縮する方法とし
て、本発明者は先の出願(特願平9−289159号)
において1チャネルの原デジタル音声信号に対して、特
性が異なる複数の予測器により時間領域における過去の
信号から現在の信号の複数の線形予測値を算出し、原デ
ジタル音声信号と、この複数の線形予測値から予測器毎
の予測残差を算出し、予測残差の最小値を選択する予測
符号化方法を提案している。2. Description of the Related Art As a method of compressing an audio signal with a variable length, the present inventor has filed a prior application (Japanese Patent Application No. 9-289159).
Calculates a plurality of linear prediction values of a current signal from a past signal in the time domain by using a plurality of predictors having different characteristics with respect to the one-channel original digital audio signal. A prediction encoding method for calculating a prediction residual for each predictor from a prediction value and selecting a minimum value of the prediction residual has been proposed.
【0003】なお、上記方法では原デジタル音声信号が
サンプリング周波数=96kHz、量子化ビット数=2
0ビット程度の場合にある程度の圧縮効果を得ることが
できるが、近年のDVDオーディオディスクではこの2
倍のサンプリング周波数(=192kHz)が使用さ
れ、また、量子化ビット数も24ビットが使用される傾
向があるので、圧縮率を改善する必要がある。また、マ
ルチチャネルにおけるサンプリング周波数と量子化ビッ
ト数はチャネル毎に異なることもある。In the above method, the original digital audio signal has a sampling frequency = 96 kHz and the number of quantization bits = 2.
Although a certain degree of compression effect can be obtained in the case of about 0 bits, in recent DVD audio discs, this 2
Since a double sampling frequency (= 192 kHz) is used and the number of quantization bits tends to be 24 bits, it is necessary to improve the compression ratio. Further, the sampling frequency and the number of quantization bits in the multi-channel may be different for each channel.
【0004】[0004]
【発明が解決しようとする課題】ところで、予測符号化
方式のような圧縮方式は圧縮率が可変(VBR:バリア
ブル・ビット・レート)であるので、マルチチャネルの
音声信号を予測符号化するとチャネル毎のデータ量が時
間的に大きく変化する。また、このようなデータを伝送
する場合には、チャネル毎にパラレルではなくデータス
トリームとして伝送される。By the way, since a compression rate such as a predictive coding method has a variable compression ratio (VBR: variable bit rate), when predictive coding of a multi-channel audio signal is performed, Of data greatly changes over time. When transmitting such data, the data is transmitted as a data stream instead of parallel for each channel.
【0005】したがって、再生側(デコード側)におい
てこのような可変長のデータストリームをチャネル毎に
同期して再生(プレゼンテーション)可能にするために
は、入力バッファに蓄積されたデータストリームを読み
出してデコーダに出力するためのタイミングを示すデコ
ード時間と、出力バッファに蓄積されたデコード後のデ
ータを読み出してスピーカなどに出力(プレゼンテーシ
ョン)するためのタイミングを示す再生時間を管理しな
ければならない。また、再生側でこのような可変長のデ
ータストリームをサーチ再生するための時間を管理しな
ければならない。Therefore, in order to allow such a variable-length data stream to be reproduced (presented) on the reproduction side (decoding side) in synchronization with each channel, the data stream stored in the input buffer is read out and the decoder is read out. It is necessary to manage a decoding time indicating a timing for outputting the data to the output buffer and a reproduction time indicating a timing for reading out the decoded data stored in the output buffer and outputting (presenting) the data to a speaker or the like. In addition, the playback side must manage the time for searching and playing back such a variable-length data stream.
【0006】そこで本発明は、マルチチャネルの音声信
号を可変の圧縮率で符号化する場合に再生側の処理時間
を管理することができる音声符号化装置を提供すること
を目的とする。SUMMARY OF THE INVENTION It is an object of the present invention to provide an audio encoding apparatus capable of managing a processing time on a reproduction side when encoding a multi-channel audio signal at a variable compression ratio.
【0007】[0007]
【課題を解決するための手段】本発明は上記目的を達成
するために、以下に記載の手段よりなる。すなわち、The present invention, in order to achieve the above object, comprises the following means. That is,
【0008】マルチチャネルの音声信号を、そのままの
チャネル又は互いに相関をとったチャネル毎に、入力さ
れる音声信号に応答して、先頭サンプル値を得ると共
に、特性が異なる複数の線形予測方法により時間領域の
過去の信号から現在の信号の線形予測値がそれぞれ予測
され、その予測される線形予測値と前記音声信号とから
得られる予測残差が最小となるような線形予測方法を選
択して圧縮する圧縮手段と、前記圧縮データの所定時間
前又は所定時間後のアクセスユニットをサーチ再生する
ためのアクセスユニット・サーチポインタを生成するタ
イミング生成手段と、前記アクセスユニット・サーチポ
インタを含むプライベートヘッダと、前記アクセスユニ
ットを含む前記圧縮データと、を含むユーザデータを有
するパケットにフォーマット化する手段とを、有する音
声符号化装置。In response to an input audio signal, a multi-channel audio signal is obtained for each channel as it is or for each channel correlated with each other , a leading sample value is obtained, and time is calculated by a plurality of linear prediction methods having different characteristics. Predict linear predictions of the current signal from past signals in the region
From the predicted linear prediction value and the audio signal
Compression means and the predetermined time of the compressed data prediction residual obtained is compressed by selecting the linear prediction method that minimizes
Search and play back the access unit before or after a predetermined time
To generate an access unit search pointer for
An access unit / search port
A private header including an interface and the access unit.
Have a user data, including, and the compressed data, including Tsu door
Means for formatting a packet to be encoded.
【0009】[0009]
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図1は本発明に係る音声符号化装
置とそれに対応する音声復号装置の第1の実施形態を示
すブロック図、図2は図1の符号化部を詳しく示すブロ
ック図、図3は図1、図2の符号化部により符号化され
たビットストリームを示す説明図、図4はDVDのパッ
クのフォーマットを示す説明図、図5はDVDのオーデ
ィオパックのフォーマットを示す説明図、図6は図1の
復号化部を詳しく示すブロック図、図7は図6の入力バ
ッファの書き込み/読み出しタイミングを示すタイミン
グチャート、図8はアクセスユニット毎の圧縮データ量
を示す説明図、図9はアクセスユニットとプレゼンテー
ションユニットを示す説明図である。Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing a first embodiment of a speech encoding apparatus according to the present invention and a speech decoding apparatus corresponding thereto, FIG. 2 is a block diagram showing the encoding unit of FIG. 1 in detail, and FIG. FIG. 4 is an explanatory diagram showing a bit stream encoded by the encoding unit in FIG. 2, FIG. 4 is an explanatory diagram showing a DVD pack format, FIG. 5 is an explanatory diagram showing a DVD audio pack format, and FIG. FIG. 7 is a timing chart showing the write / read timing of the input buffer of FIG. 6, FIG. 8 is an explanatory diagram showing the amount of compressed data for each access unit, and FIG. 9 is an access unit and presentation. It is explanatory drawing which shows a unit.
【0010】ここで、マルチチャネル方式としては、例
えば次の4つの方式が知られている。 (1)4チャネル方式 ドルビーサラウンド方式の
ように、前方L、C、Rの3チャネル+後方Sの1チャ
ネルの合計4チャネル (2)5チャネル方式 ドルビーAC−3方式のS
Wチャネルなしのように、前方L、C、Rの3チャネル
+後方SL、SRの2チャネルの合計5チャネル (3)6チャネル方式 DTS(Digital Theater
System)方式や、ドルビーAC−3方式のように6チャ
ネル(L、C、R、SW(Lfe)、SL、SR) (4)8チャネル方式 SDDS(Sony Dynamic D
igital Sound)方式のように、前方L、LC、C、R
C、R、SWの6チャネル+後方SL、SRの2チャネ
ルの合計8チャネルHere, for example, the following four systems are known as multi-channel systems. (1) Four-channel system As in the Dolby surround system, a total of four channels including three channels of front L, C, and R + one channel of rear S (2) Five-channel system S in the Dolby AC-3 system
Like without W channel, 3 channels of front L, C and R + 2 channels of rear SL and SR, total 5 channels (3) 6 channel system DTS (Digital Theater)
6) (L, C, R, SW (Lfe), SL, SR) such as the Dolby AC-3 system (4) 8-channel system SDDS (Sony Dynamic D
digital sound), forward L, LC, C, R
6 channels of C, R, SW + 2 channels of rear SL, SR, total 8 channels
【0011】図1に示す符号化側の6チャネル(ch)ミ
クス&マトリクス回路1’は、マルチチャネル信号の一
例としてフロントレフト(Lf)、センタ(C)、フロ
ントライト(Rf)、サラウンドレフト(Ls)、サラ
ウンドライト(Rs)及びLfe(Low Frequency Effe
ct)の6chのPCMデータを次式(1)により前方グル
ープに関する2ch「1」、「2」と他のグループに関す
る4ch「3」〜「6」に分類して変換し、2ch「1」、
「2」を第1符号化部2’−1に、また、4ch「3」〜
「6」を第2符号化部2’−2に出力する。 「1」=Lf+Rf 「2」=Lf−Rf 「3」=C−(Ls+Rs)/2 「4」=Ls+Rs 「5」=Ls−Rs 「6」=Lfe−a×C ただし、0≦a≦1 …(1)The 6-channel (ch) mixing and matrix circuit 1 'on the encoding side shown in FIG. 1 includes a front left (Lf), a center (C), a front right (Rf), a surround left ( Ls), surround light (Rs) and Lfe (Low Frequency Effe)
ct), the 6-channel PCM data is classified and converted into 2ch “1” and “2” for the front group and 4ch “3” to “6” for the other group by the following equation (1), and converted into 2ch “1”.
"2" is assigned to the first encoding unit 2'-1, and 4ch "3" to
"6" is output to the second encoding unit 2'-2. “1” = Lf + Rf “2” = Lf−Rf “3” = C− (Ls + Rs) / 2 “4” = Ls + Rs “5” = Ls−Rs “6” = Lfe−a × C where 0 ≦ a ≦ 1 ... (1)
【0012】符号化部2’を構成する第1及び第2符号
化部2’−1、2’−2はそれぞれ、図2に詳しく示す
ように2ch「1」、「2」と4ch「3」〜「6」のPC
Mデータを予測符号化し、予測符号化データを図3に示
すようなビットストリームで記録媒体5や通信媒体6を
介して復号側に伝送する。復号側では復号化部3’を構
成する第1及び第2復号化部3’−1、3’−2によ
り、図6に詳しく示すようにそれぞれ前方グループに関
する2ch「1」、「2」と他のグループに関する4ch
「3」〜「6」の予測符号化データをPCMデータに復
号する。As shown in detail in FIG. 2, the first and second encoding units 2'-1 and 2'-2 constituting the encoding unit 2 'respectively have 2ch "1", "2" and 4ch "3". "~" 6 "PC
The M data is predictively coded, and the predicted coded data is transmitted to the decoding side via the recording medium 5 and the communication medium 6 in a bit stream as shown in FIG. On the decoding side, the first and second decoding units 3'-1 and 3'-2 constituting the decoding unit 3 'respectively provide 2ch "1" and "2" for the forward group as shown in detail in FIG. 4ch for other groups
The predictive encoded data of “3” to “6” is decoded into PCM data.
【0013】次いでミクス&マトリクス回路4’により
式(1)に基づいて元の6ch(Lf、C、Rf、Ls、
Rs、Lfe)を復元するとともに、この元の6chと係
数mij(i=1,2,j=1,2〜6)により次式
(2)のようにステレオ2chデータ(L、R)を生成す
る。 L=m11・Lf+m12・Rf+m13・C +m14・Ls+m15・Rs+m16・Lfe R=m21・Lf+m22・Rf+m23・C +m24・Ls+m25・Rs+m26・Lfe …(2 )Next, the original 6 ch (Lf, C, Rf, Ls,
Rs, Lfe) are restored, and stereo 2-ch data (L, R) is generated from the original 6 ch and coefficient mij (i = 1, 2, j = 1, 2 to 6) as in the following equation (2). I do. L = m11 · Lf + m12 · Rf + m13 · C + m14 · Ls + m15 · Rs + m16 · Lfe R = m21 · Lf + m22 · Rf + m23 · C + m24 · Ls + m25 · Rs + m26 · Lfe (2)
【0014】図2を参照して符号化部2’−1、2’−
2について詳しく説明する。各ch「1」〜「6」のPC
Mデータは1フレーム毎に1フレームバッファ10に格
納される。そして、1フレームの各ch「1」〜「6」の
サンプルデータがそれぞれ予測回路13D1、13D
2、15D1〜15D4に印加されるとともに、各ch
「1」〜「6」の各フレームの先頭サンプルデータがフ
ォーマット化回路19に印加される。予測回路13D
1、13D2、15D1〜15D4はそれぞれ、各ch
「1」〜「6」のPCMデータに対して、特性が異なる
複数の予測器(不図示)により時間領域における過去の
信号から現在の信号の複数の線形予測値を算出し、次い
で原PCMデータと、この複数の線形予測値から予測器
毎の予測残差を算出する。続くバッファ・選択器14D
1、14D2、16D1〜16D4はそれぞれ、予測回
路13D1、13D2、15D1〜15D4により算出
された各予測残差を一時記憶して、選択信号/DTS
(デコーディング・タイム・スタンプ)生成器17によ
り指定されたサブフレーム毎に予測残差の最小値を選択
する。Referring to FIG. 2, encoding sections 2'-1, 2'-
2 will be described in detail. PC for each channel "1" to "6"
The M data is stored in one frame buffer 10 for each frame. Then, the sample data of each of the channels “1” to “6” of one frame are respectively supplied to the prediction circuits 13D1 and 13D.
2, 15D1 to 15D4 and each channel
The first sample data of each frame of “1” to “6” is applied to the formatting circuit 19. Prediction circuit 13D
1, 13D2, 15D1 to 15D4 are each channel
For the PCM data of “1” to “6”, a plurality of linear prediction values of a current signal are calculated from a past signal in a time domain by a plurality of predictors (not shown) having different characteristics, and then the original PCM data Then, a prediction residual for each predictor is calculated from the plurality of linear prediction values. Following buffer / selector 14D
1, 14D2, 16D1 to 16D4 temporarily store the prediction residuals calculated by the prediction circuits 13D1, 13D2, 15D1 to 15D4, respectively, and select the selection signal / DTS.
(Decoding Time Stamp) The minimum value of the prediction residual is selected for each subframe specified by the generator 17.
【0015】選択信号/DTS生成器17は予測残差の
ビット数フラグをパッキング回路18とフォーマット化
回路19に対して印加し、また、予測残差が最小の予測
器を示す予測器選択フラグと、式(1)における相関係
数aと、復号化側が入力バッファ22a(図6)からス
トリームデータを取り出す時間を示すDTSをフォーマ
ット化回路19に対して印加する。パッキング回路18
はバッファ・選択器14D1、14D2、16D1〜1
6D4により選択された6ch分の予測残差を、選択信号
/DTS生成器17により指定されたビット数フラグに
基づいて指定ビット数でパッキングする。またPTS生
成器17cは、復号化側が出力バッファ110(図6)
からPCMデータを取り出す時間を示すPTS(プレゼ
ンテーション・タイム・スタンプ)を生成してフォーマ
ット化回路19に出力する。The selection signal / DTS generator 17 applies a bit number flag of the prediction residual to the packing circuit 18 and the formatting circuit 19, and outputs a predictor selection flag indicating a predictor having the minimum prediction residual. To the formatting circuit 19, the correlation coefficient a in the equation (1) and the DTS indicating the time at which the decoding side takes out the stream data from the input buffer 22a (FIG. 6). Packing circuit 18
Are buffer / selectors 14D1, 14D2, 16D1-1.
The prediction residual for 6 ch selected by 6D4 is packed with the specified bit number based on the bit number flag specified by the selection signal / DTS generator 17. In the PTS generator 17c, the decoding side is the output buffer 110 (FIG. 6).
A PTS (Presentation Time Stamp) indicating the time at which the PCM data is to be extracted from the PCM is generated and output to the formatting circuit 19.
【0016】続くフォーマット化回路19は図3〜図5
に示すようなユーザデータにフォーマット化する。図3
に示すユーザデータ(サブパケット)は、前方グループ
に関する2ch「1」、「2」の予測符号化データを含む
可変レートビットストリーム(サブストリーム)BS0
と、他のグループに関する4ch「3」〜「6」の予測符
号化データを含む可変レートビットストリーム(サブス
トリーム)BS1と、サブストリームBS0、BS1の
前に設けられたビットストリームヘッダ(リスタートヘ
ッダ)により構成されている。また、サブストリームB
S0、BS1の1フレーム分は ・フレームヘッダと、 ・各ch「1」〜「6」の1フレームの先頭サンプルデー
タと、 ・各ch「1」〜「6」のサブフレーム毎の予測器選択フ
ラグと、 ・各ch「1」〜「6」のサブフレーム毎のビット数フラ
グと、 ・各ch「1」〜「6」の予測残差データ列(可変ビット
数)と、 ・ch「6」の係数aが多重化されている。このような予
測符号化によれば、原信号が例えばサンプリング周波数
=96kHz、量子化ビット数=24ビット、6チャネ
ルの場合、71%の圧縮率を実現することができる。The following formatting circuit 19 is shown in FIGS.
Format as user data as shown in FIG.
Is a variable-rate bit stream (sub-stream) BS0 including 2ch “1” and “2” prediction coded data related to the forward group.
And a variable-rate bit stream (substream) BS1 including 4ch “3” to “6” prediction coded data relating to other groups, and a bitstream header (restart header) provided before substreams BS0 and BS1 ). Also, substream B
One frame of S0 and BS1 includes: a frame header; first sample data of one frame of each channel “1” to “6”; and selection of a predictor for each subframe of each channel “1” to “6”. A flag; a bit number flag for each subframe of each ch “1” to “6”; a prediction residual data string (variable bit number) for each ch “1” to “6”; Are multiplexed. According to such predictive coding, when the original signal has, for example, a sampling frequency of 96 kHz, the number of quantization bits = 24 bits, and 6 channels, a compression ratio of 71% can be realized.
【0017】図2に示す符号化部2’−1、2’−2に
より予測符号化された可変レートビットストリームデー
タを、記録媒体の一例としてDVDオーディオディスク
に記録する場合には、図4に示すオーディオ(A)パッ
クにパッキングされる。このパックは2034バイトの
ユーザデータ(Aパケット、Vパケット)に対して4バ
イトのパックスタート情報と、6バイトのSCR(Syst
em Clock Reference:システム時刻基準参照値)情報
と、3バイトのMux レート(rate)情報と1バイトのス
タッフィングの合計14バイトのパックヘッダが付加さ
れて構成されている(1パック=合計2048バイ
ト)。この場合、タイムスタンプであるSCR情報を、
先頭パックでは「1」として同一タイトル内で連続とす
ることにより同一タイトル内のAパックの時間を管理す
ることができる。When the variable rate bit stream data predictively encoded by the encoding units 2'-1 and 2'-2 shown in FIG. 2 is recorded on a DVD audio disc as an example of a recording medium, FIG. The audio (A) pack shown is packed. This pack has 4 bytes of pack start information and 6 bytes of SCR (Syst) for 2034 bytes of user data (A packet, V packet).
em Clock Reference (system time reference value) information, a 3-byte Mux rate (rate) information, and a 1-byte stuffing that add a pack header of a total of 14 bytes (1 pack = 2048 bytes in total) . In this case, the time stamp SCR information is
In the first pack, the time of the A-pack in the same title can be managed by setting it to “1” so as to be continuous within the same title.
【0018】圧縮PCMのAパケットは図5に詳しく示
すように、19又は14バイトのパケットヘッダと、圧
縮PCMのプライベートヘッダと、図3に示すフォーマ
ットの1ないし2011バイトのオーディオデータ(圧
縮PCM)により構成されている。そして、DTSとP
TSは図5のパケットヘッダ内に(具体的にはパケット
ヘッダの10〜14バイト目にPTSが、15〜19バ
イト目にDTSが)セットされる。圧縮PCMのプライ
ベートヘッダは、 ・1バイトのサブストリームIDと、 ・2バイトのUPC/EAN−ISRC(Universal Pr
oduct Code/European Article Number-International S
tandard Recording Code)番号、及びUPC/EAN−
ISRCデータと、 ・1バイトのプライベートヘッダ長と、 ・2バイトの第1アクセスユニットポインタと、 ・8バイトのオーディオデータ情報(ADI)と、 ・0〜7バイトのスタッフィングバイトとに、より構成
されている。そして、ADI内に1秒後のアクセスユニ
ットをサーチするための前方アクセスユニット・サーチ
ポインタと、1秒前のアクセスユニットをサーチするた
めの後方アクセスユニット・サーチポインタがともに1
バイトで(具体的にはADIの7バイト目に前方アクセ
スユニット・サーチポインタが、8バイト目に後方アク
セスユニット・サーチポインタが)セットされる。As shown in detail in FIG. 5, the A packet of the compressed PCM has a packet header of 19 or 14 bytes, a private header of the compressed PCM, and audio data (compressed PCM) of 1 to 2011 bytes in the format shown in FIG. It consists of. And DTS and P
The TS is set in the packet header of FIG. 5 (specifically, the PTS is set in the 10th to 14th bytes and the DTS is set in the 15th to 19th bytes). The private header of the compressed PCM is: 1-byte substream ID, 2 bytes of UPC / EAN-ISRC (Universal Prism).
oduct Code / European Article Number-International S
tandard Recording Code) number and UPC / EAN-
ISRC data, 1-byte private header length, 2-byte first access unit pointer, 8-byte audio data information (ADI), and 0 to 7 stuffing bytes. ing. The forward access unit search pointer for searching for the access unit one second later and the backward access unit search pointer for searching for the access unit one second earlier in the ADI are both 1
A byte (specifically, a forward access unit search pointer is set at the seventh byte of the ADI, and a backward access unit search pointer is set at the eighth byte).
【0019】次に図6を参照して復号化部3’−1、
3’−2について説明する。上記フォーマットの可変レ
ートビットストリームデータBS0、BS1は、デフォ
ーマット化回路21により分離される。そして、各ch
「1」〜「6」の1フレームの先頭サンプルデータと予
測器選択フラグはそれぞれ予測回路24D1、24D
2、23D1〜23D4に印加され、各ch「1」〜
「6」のビット数フラグはアンパッキング回路22に印
加される。また、SCRと、DTSと予測残差データ列
は入力バッファ22aに印加され、PTSは出力バッフ
ァ110に印加される。ここで、予測回路24D1、2
4D2、23D1〜23D4内の複数の予測器(不図
示)はそれぞれ、符号化側の予測回路13D1、13D
2、15D1〜15D4内の複数の予測器と同一の特性
であり、予測器選択フラグにより同一特性のものが選択
される。Next, referring to FIG. 6, the decoding units 3'-1,
3′-2 will be described. The variable rate bit stream data BS0 and BS1 in the above format are separated by the deformatting circuit 21. And each channel
The head sample data of one frame of "1" to "6" and the predictor selection flag are respectively stored in the prediction circuits 24D1 and 24D.
2, 23D1 to 23D4, and each channel “1” to
The bit number flag of “6” is applied to the unpacking circuit 22. The SCR, the DTS, and the prediction residual data string are applied to the input buffer 22a, and the PTS is applied to the output buffer 110. Here, the prediction circuits 24D1, 2D2
A plurality of predictors (not shown) in 4D2 and 23D1 to 23D4 are respectively provided on the prediction circuits 13D1 and 13D on the encoding side.
2, the same characteristics as those of the plurality of predictors in 15D1 to 15D4, and those having the same characteristics are selected by the predictor selection flag.
【0020】デフォーマット化回路21により分離され
たストリームデータ(予測残差データ列)は、図7に示
すようにSCRによりアクセスユニット毎に入力バッフ
ァ22aに取り込まれて蓄積される。ここで、1つのア
クセスユニットのデータ量は、例えばfs=96kHz
の場合には(1/96kHz)秒分であるが、図8、図
9(a)に詳しく示すように可変長である。そして、入
力バッファ22aに蓄積されたストリームデータはDT
Sに基づいてFIFOで読み出されてアンパッキング回
路22に印加される。The stream data (prediction residual data string) separated by the reformatting circuit 21 is fetched and stored in the input buffer 22a for each access unit by the SCR as shown in FIG. Here, the data amount of one access unit is, for example, fs = 96 kHz.
In the case of (1), it is (1/96 kHz) seconds, but as shown in detail in FIGS. 8 and 9A, the length is variable. The stream data accumulated in the input buffer 22a is DT
Based on S, the data is read out from the FIFO and applied to the unpacking circuit 22.
【0021】アンパッキング回路22は各ch「1」〜
「6」の予測残差データ列をビット数フラグ毎に基づい
て分離してそれぞれ予測回路24D1、24D2、23
D1〜23D4に出力する。予測回路24D1、24D
2、23D1〜23D4ではそれぞれ、アンパッキング
回路22からの各ch「1」〜「6」の今回の予測残差
データと、内部の複数の予測器の内、予測器選択フラグ
により選択された各1つにより予測された前回の予測値
が加算されて今回の予測値が算出され、次いで1フレー
ムの先頭サンプルデータを基準として各サンプルのPC
Mデータが算出されて出力バッファ110に蓄積され
る。出力バッファ110に蓄積されたPCMデータはP
TSに基づいて読み出されて出力される。したがって、
図9(a)に示す可変長のアクセスユニットが伸長され
て、図9(b)に示す一定長のプレゼンテーションユニ
ットが出力される。The unpacking circuit 22 is provided for each channel "1" to
The prediction residual data string of “6” is separated based on each bit number flag, and is divided into prediction circuits 24D1, 24D2, and 23, respectively.
It outputs to D1-23D4. Prediction circuits 24D1, 24D
2, 23D1 to 23D4, the current prediction residual data of each of the channels “1” to “6” from the unpacking circuit 22 and each of the plurality of internal predictors selected by the predictor selection flag. The previous predicted value predicted by one frame is added to calculate the current predicted value, and then the PC of each sample is determined based on the first sample data of one frame.
M data is calculated and stored in the output buffer 110. PCM data stored in the output buffer 110 is P
Read and output based on TS. Therefore,
The variable length access unit shown in FIG. 9A is decompressed, and a fixed length presentation unit shown in FIG. 9B is output.
【0022】ここで、操作部101を介してサーチ再生
が指示された場合には、制御部100により図5に示す
ADI内に置かれる1秒先を示す前方アクセスユニット
・サーチポインタと1秒後を示す後方アクセスユニット
・サーチポインタに基づいてアクセスユニットを再生す
る。このサーチポインタとしては、1秒先、1秒前の代
わりに2秒先、2秒前のものでよい。Here, when a search reproduction is instructed via the operation unit 101, the control unit 100 sets a forward access unit search pointer indicating one second ahead in the ADI shown in FIG. The access unit is reproduced on the basis of the backward access unit search pointer indicating. The search pointer may be one second ahead, two seconds ahead, two seconds ahead instead of one second ahead.
【0023】図2に示す符号化部2’−1、2’−2に
より予測符号化された可変レートビットストリームデー
タをネットワークを介して伝送する場合には、符号化側
では図10に示すように伝送用にパケット化し(ステッ
プS41)、次いでパケットヘッダを付与し(ステップ
S42)、次いでこのパケットをネットワーク上に送り
出す(ステップS43)。When variable-rate bit stream data predictively coded by the coding units 2'-1 and 2'-2 shown in FIG. 2 is transmitted via a network, the coding side performs the processing shown in FIG. (Step S41), add a packet header (step S42), and send this packet out onto the network (step S43).
【0024】復号側では図11(A)に示すようにヘッ
ダを除去し(ステップS51)、次いでデータを復元し
(ステップS52)、次いでこのデータをメモリに格納
して復号を待つ(ステップS53)。そして、復号を行
う場合には図11(B)に示すように、デフォーマット
化を行い(ステップS61)、次いで入力バッファ22
aの入出力制御を行い(ステップS62)、次いでアン
パッキングを行う(ステップS63)。なお、このと
き、サーチ再生指示がある場合にはサーチポインタをデ
コードする。次いで予測器をフラグに基づいて選択して
デコードを行い(ステップS64)、次いで出力バッフ
ァ110の入出力制御を行い(ステップS65)、次い
で元のマルチチャネルを復元し(ステップS66)、次
いでこれを出力し(ステップS67)、以下、これを繰
り返す。On the decoding side, the header is removed as shown in FIG. 11A (step S51), the data is restored (step S52), and the data is stored in a memory and decoding is waited (step S53). . Then, when decoding is performed, as shown in FIG. 11B, deformatting is performed (step S61), and then the input buffer 22
The input / output control of a is performed (step S62), and then the unpacking is performed (step S63). At this time, if there is a search reproduction instruction, the search pointer is decoded. Next, a predictor is selected and decoded based on the flag (step S64), input / output control of the output buffer 110 is performed (step S65), and the original multi-channel is restored (step S66). This is output (step S67), and thereafter, this is repeated.
【0025】なお、上記実施形態では、前方グループに
関する2ch「1」、「2」を 「1」=Lf+Rf 「2」=Lf−Rf により変換して予測符号化したが、代わりに式(2)に
よりマルチチャネルをダウンミクスしてステレオ2chデ
ータ(L、R)を生成し、次いで次式(1)’ 「1」=L+R 「2」=L−R 「3」〜「5」は同じ 「6」=Lfe−C …(1)’ により変換して予測符号化するようにしてもよい(第2
の実施形態)。この場合には、復号化側のミクス&マト
リクス回路4’はチャネル「1」、「2」を加算するこ
とによりチャネルLを、減算することによりチャネルR
を生成することができる。In the above embodiment, 2ch "1" and "2" relating to the front group are converted by "1" = Lf + Rf "2" = Lf-Rf and are predictively coded. , Down-mixing the multi-channels to generate stereo 2-ch data (L, R), and then the following equation (1) ′ “1” = L + R “2” = LR “3” to “5” are the same as “6”. = Lfe-C (1) ′ and may be subjected to predictive coding (second
Embodiment). In this case, the mix & matrix circuit 4 ′ on the decoding side adds the channels “1” and “2” to the channel L, and subtracts the channel R by adding the channels “1” and “2”.
Can be generated.
【0026】また、第3の実施形態として図12に示す
ように、2ch「1」、「2」の代わりに式(2)により
マルチチャネルをダウンミクスしてステレオ2chデータ
(L、R)を生成して、このステレオ2ch(L、R)と
4ch「3」〜「6」を予測符号化するようにしてもよ
い。なお、第2、第3の実施形態では、フロントレフト
(Lf)とフロントライト(Rf)が復号化側に伝送さ
れないので、復号化側ではこれを式(1)、(2)によ
り生成する。As a third embodiment, as shown in FIG. 12, multi-channel downmixing is performed according to equation (2) instead of 2ch "1" and "2", and stereo 2ch data (L, R) is obtained. The stereo 2ch (L, R) and the 4ch “3” to “6” may be generated and predictively coded. In the second and third embodiments, since the front left (Lf) and the front right (Rf) are not transmitted to the decoding side, the decoding side generates them according to equations (1) and (2).
【0027】次に図13、図14を参照して第4の実施
形態について説明する。上記の実施形態では、1グルー
プの相関性の信号「1」〜「6」を予測符号化するよう
に構成されているが、この第4の実施形態では複数グル
ープの相関性のある信号を生成して予測符号化し、圧縮
率が最も高いグループの予測符号化データを選択するよ
うに構成されている。このため図13に示す符号化部で
は、第1〜第nの相関回路1−1〜1−nが設けられ、
このn個の相関回路1−1〜1−nは例えば6ch(L
f、C、Rf、Ls、Rs、Lfe)のPCMデータ
を、相関性が異なるn種類の6ch信号「1」〜「6」に
変換する。Next, a fourth embodiment will be described with reference to FIGS. In the above embodiment, one group of correlated signals "1" to "6" are configured to be predictively coded. In the fourth embodiment, a plurality of groups of correlated signals are generated. Then, it is configured to perform predictive encoding and select predictive encoded data of a group having the highest compression ratio. Therefore, the encoding unit shown in FIG. 13 includes first to n-th correlation circuits 1-1 to 1-n,
The n correlation circuits 1-1 to 1-n have, for example, 6 channels (L
f, C, Rf, Ls, Rs, and Lfe) PCM data are converted into n types of 6-channel signals “1” to “6” having different correlations.
【0028】例えば第1の相関回路1−1は以下のよう
に変換し、 「1」=Lf 「2」=C−(Ls+Rs)/2 「3」=Rf−Lf 「4」=Ls−a×Lfe 「5」=Rs−b×Rf 「6」=Lfe また、第nの相関回路1−nは以下のように変換する。 「1」=Lf+Rf 「2」=C−Lf 「3」=Rf−Lf 「4」=Ls−Lf 「5」=Rs−Lf 「6」=Lfe−CFor example, the first correlation circuit 1-1 converts as follows: "1" = Lf "2" = C- (Ls + Rs) / 2 "3" = Rf-Lf "4" = Ls-a × Lfe “5” = Rs−b × Rf “6” = Lfe Further, the n-th correlation circuit 1-n performs conversion as follows. “1” = Lf + Rf “2” = C−Lf “3” = Rf−Lf “4” = Ls−Lf “5” = Rs−Lf “6” = Lfe−C
【0029】また、相関回路1−1〜1−n毎に予測回
路15とバッファ・選択器16が設けられ、グループ毎
の予測残差の最小値のデータ量に基づいて圧縮率が最も
高いグループが相関選択信号生成器17bにより選択さ
れる。このとき、フォーマット化回路19はその選択フ
ラグ(相関回路選択フラグ、その相関回路の相関係数
a、b)を追加して多重化する。A prediction circuit 15 and a buffer / selector 16 are provided for each of the correlation circuits 1-1 to 1-n, and the group having the highest compression ratio is determined based on the data amount of the minimum prediction residual for each group. Are selected by the correlation selection signal generator 17b. At this time, the formatting circuit 19 adds and multiplexes the selection flag (correlation circuit selection flag, correlation coefficients a and b of the correlation circuit).
【0030】また、図14に示す復号化側では、符号化
側の相関回路1−1〜1−nに対してn個の相関回路4
−1〜4−n(又は係数a、bが変更可能な図示省略の
1つの相関回路)が設けられる。なお、図13に示すn
グループの予測回路が同一の構成である場合、復号装置
では図14に示すようにnグループ分の予測回路を設け
る必要はなく、1つのグループ分の予測回路でよい。そ
して、符号化装置から伝送された選択フラグに基づいて
相関回路4−1〜4−nの1つを選択、又は係数a、b
を設定して元の6ch(Lf、C、Rf、Ls、Rs、L
fe)を復元し、また、式(2)によりマルチチャネル
をダウンミクスしてステレオ2chデータ(L、R)を生
成する。On the decoding side shown in FIG. 14, n correlating circuits 4 are provided for the correlating circuits 1-1 to 1-n on the encoding side.
−1 to 4-n (or one correlation circuit (not shown) whose coefficients a and b can be changed) are provided. Note that n shown in FIG.
When the prediction circuits of the groups have the same configuration, the decoding device does not need to provide the prediction circuits of n groups as shown in FIG. 14, and may use the prediction circuits of one group. Then, one of the correlation circuits 4-1 to 4-n is selected based on the selection flag transmitted from the encoding device, or the coefficients a and b are selected.
And set the original 6 ch (Lf, C, Rf, Ls, Rs, L
fe), and down-mixes the multi-channels according to equation (2) to generate stereo 2-ch data (L, R).
【0031】また、上記の第1の実施形態では、1種類
の相関性の信号「1」〜「6」を予測符号化するように
構成されているが、この信号「1」〜「6」のグループ
と原信号(Lf、C、Rf、Ls、Rs、Lfe)のグ
ループを予測符号化し、圧縮率が高い方のグループを選
択するようにしてもよい。In the first embodiment, one kind of correlation signal "1" to "6" is configured to be predictively coded. However, the signals "1" to "6" are encoded. And the group of the original signals (Lf, C, Rf, Ls, Rs, Lfe) may be predictively coded and the group with the higher compression ratio may be selected.
【0032】[0032]
【発明の効果】以上説明したように本発明によれば、ア
クセスユニットサーチポインタをパケットヘッダにセッ
トしたので、マルチチャネルの音声信号を可変の圧縮率
で符号化する場合に再生側がサーチ再生することができ
る。As described above, according to the present invention, since the access unit search pointer is set in the packet header, when the multi-channel audio signal is encoded at a variable compression ratio, the reproducing side performs search reproduction. Can be.
【図1】本発明に係る音声符号化装置とそれに対応した
音声復号装置の第1の実施形態を示すブロック図であ
る。FIG. 1 is a block diagram showing a first embodiment of a speech encoding apparatus according to the present invention and a speech decoding apparatus corresponding thereto.
【図2】図1の符号化部を詳しく示すブロック図であ
る。FIG. 2 is a block diagram illustrating an encoding unit of FIG. 1 in detail.
【図3】図1、図2の符号化部により符号化されたビッ
トストリームを示す説明図である。FIG. 3 is an explanatory diagram showing a bit stream encoded by an encoding unit shown in FIGS. 1 and 2;
【図4】DVDのパックのフォーマットを示す説明図で
ある。FIG. 4 is an explanatory diagram showing a format of a DVD pack.
【図5】DVDのオーディオパックのフォーマットを示
す説明図である。FIG. 5 is an explanatory diagram showing a format of a DVD audio pack.
【図6】図1の復号化部を詳しく示すブロック図であ
る。FIG. 6 is a block diagram illustrating a decoding unit of FIG. 1 in detail;
【図7】図6の入力バッファの書き込み/読み出しタイ
ミングを示すタイミングチャートである。FIG. 7 is a timing chart showing write / read timings of the input buffer of FIG. 6;
【図8】アクセスユニット毎の圧縮データ量を示す説明
図である。FIG. 8 is an explanatory diagram showing the amount of compressed data for each access unit.
【図9】アクセスユニットとプレゼンテーションユニッ
トを示す説明図である。FIG. 9 is an explanatory diagram showing an access unit and a presentation unit.
【図10】音声伝送方法を示すフローチャートである。FIG. 10 is a flowchart showing a voice transmission method.
【図11】音声伝送方法を示すフローチャートである。FIG. 11 is a flowchart showing a voice transmission method.
【図12】第3の実施形態の音声符号化装置とそれに対
応した音声復号装置を示すブロック図である。FIG. 12 is a block diagram illustrating a speech encoding device according to a third embodiment and a speech decoding device corresponding thereto.
【図13】第4の実施形態の音声符号化装置を示すブロ
ック図である。FIG. 13 is a block diagram illustrating a speech encoding device according to a fourth embodiment.
【図14】第4の実施形態の音声復号装置を示すブロッ
ク図である。FIG. 14 is a block diagram illustrating a speech decoding device according to a fourth embodiment.
1’ 6chミクス&マトリクス回路 13D1,13D2,15D1〜15D4 予測回路
(バッファ・選択器14D1,14D2,16D1〜1
6D4と共に圧縮手段を構成する。) 14D1,14D2,16D1〜16D4 バッファ・
選択器 17 選択信号/DTS生成器(タイミング生成手段) 17c PTS生成器(タイミング生成手段) 19 フォーマット化回路(フォーマット化手段) 21 デフォーマット化回路(分離手段) 22 アンパッキング回路 22a 入力バッファ 24D1,24D2,23D1〜23D4 予測回路
(伸長手段) 100 制御部(読み出し手段) 110 出力バッファ1 '6ch Mix & Matrix Circuit 13D1, 13D2, 15D1-15D4 Prediction Circuit (Buffer / Selector 14D1, 14D2, 16D1-1
A compression means is constituted together with 6D4. 14D1, 14D2, 16D1-16D4 buffer
Selector 17 Selection signal / DTS generator (timing generating means) 17c PTS generator (timing generating means) 19 Formatting circuit (Formatting means) 21 Deformatting circuit (Separating means) 22 Unpacking circuit 22a Input buffer 24D1, 24D2, 23D1 to 23D4 Prediction circuit (expansion means) 100 Control unit (reading means) 110 Output buffer
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 19/00 - 19/14 G11B 20/10 - 20/12 H03M 7/30 - 7/40 ──────────────────────────────────────────────────続 き Continued on the front page (58) Field surveyed (Int. Cl. 7 , DB name) G10L 19/00-19/14 G11B 20/10-20/12 H03M 7 /30-7/40
Claims (1)
チャネル又は互いに相関をとったチャネル毎に、入力さ
れる音声信号に応答して、先頭サンプル値を得ると共
に、特性が異なる複数の線形予測方法により時間領域の
過去の信号から現在の信号の線形予測値がそれぞれ予測
され、その予測される線形予測値と前記音声信号とから
得られる予測残差が最小となるような線形予測方法を選
択して圧縮する圧縮手段と、 前記圧縮データの所定時間前又は所定時間後のアクセス
ユニットをサーチ再生するためのアクセスユニット・サ
ーチポインタを生成するタイミング生成手段と、前記アクセスユニット・サーチポインタ を含むプライベ
ートヘッダと、前記アクセスユニットを含む前記圧縮デ
ータと、を含むユーザデータを有するパケットにフォー
マット化する手段とを、 有する音声符号化装置。A plurality of linear prediction methods for obtaining a leading sample value in response to an input audio signal for a multi-channel audio signal as it is or for each channel correlated with each other, and having different characteristics. linear prediction value of the current signal is predicted from each of the past signal in the time domain by
From the predicted linear prediction value and the audio signal
Compression means for selecting and compressing a linear prediction method that minimizes the obtained prediction residual; and accessing the compressed data before or after a predetermined time.
Access unit support for searching and reproducing units
Timing generation means for generating a search pointer, and a private address including the access unit search pointer.
And over preparative header, the compression de-including the access unit
And a means for formatting into a packet having user data including the data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000328620A JP3346404B2 (en) | 2000-10-27 | 2000-10-27 | Audio coding device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000328620A JP3346404B2 (en) | 2000-10-27 | 2000-10-27 | Audio coding device |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP34239598A Division JP3341992B2 (en) | 1998-11-16 | 1998-11-16 | Optical recording medium, audio decoding device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001188588A JP2001188588A (en) | 2001-07-10 |
JP3346404B2 true JP3346404B2 (en) | 2002-11-18 |
Family
ID=18805450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000328620A Expired - Fee Related JP3346404B2 (en) | 2000-10-27 | 2000-10-27 | Audio coding device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3346404B2 (en) |
-
2000
- 2000-10-27 JP JP2000328620A patent/JP3346404B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001188588A (en) | 2001-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3341992B2 (en) | Optical recording medium, audio decoding device | |
JP3346398B2 (en) | Audio encoding method and audio decoding method | |
JP3346399B2 (en) | Optical recording medium and audio decoding device | |
JP3346395B2 (en) | Optical recording medium and audio decoding device | |
JP3346404B2 (en) | Audio coding device | |
JP3346405B2 (en) | Audio coding method | |
JP3346403B2 (en) | Optical recording medium and audio decoding device | |
JP3346401B2 (en) | Audio coding method | |
JP3346397B2 (en) | Audio coding method | |
JP3346392B2 (en) | Audio coding device | |
JP3346400B2 (en) | Audio coding device | |
JP3346406B2 (en) | Audio encoding method and audio decoding method | |
JP3346396B2 (en) | Audio coding device | |
JP3346402B2 (en) | Audio encoding method and audio decoding method | |
JP3346393B2 (en) | Audio coding method | |
JP3346394B2 (en) | Audio encoding method and audio decoding method | |
JP2001343999A (en) | Sound signal transmission method | |
JP2004139102A (en) | Optical recording medium and voice decoding device | |
JP3346547B2 (en) | Audio encoding method and audio decoding method | |
JP3346545B2 (en) | Audio coding device | |
JP3346390B2 (en) | Audio coding method | |
JP3344569B2 (en) | Optical recording medium, audio decoding device | |
JP3346383B2 (en) | Audio coding device | |
JP3344570B2 (en) | Recording medium, audio decoding device | |
JP3346546B2 (en) | Audio coding method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080906 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080906 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090906 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090906 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100906 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100906 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110906 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120906 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120906 Year of fee payment: 10 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120906 Year of fee payment: 10 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120906 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130906 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |