JP5466618B2 - Encoding device, decoding device, encoding method, decoding method, and program thereof - Google Patents
Encoding device, decoding device, encoding method, decoding method, and program thereof Download PDFInfo
- Publication number
- JP5466618B2 JP5466618B2 JP2010234728A JP2010234728A JP5466618B2 JP 5466618 B2 JP5466618 B2 JP 5466618B2 JP 2010234728 A JP2010234728 A JP 2010234728A JP 2010234728 A JP2010234728 A JP 2010234728A JP 5466618 B2 JP5466618 B2 JP 5466618B2
- Authority
- JP
- Japan
- Prior art keywords
- code
- lossless
- bit string
- mode information
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本発明は入力信号を符号化し出力符号を伝送する符号化装置及び符号化方法、出力符号を入力符号として受け取り復号し出力信号を生成する復号装置及び復号方法、そのプログラムに関する。 The present invention relates to an encoding apparatus and encoding method for encoding an input signal and transmitting an output code, a decoding apparatus and decoding method for receiving an output code as an input code and generating an output signal, and a program thereof.
<スケーラブル符号化>
音声信号をスケーラブル符号化、復号する従来技術として、非特許文献1記載のG.711.1が知られている。非特許文献1に記載されたG.711.1の符号化装置10及び復号装置20の動作について、図1を用いて説明する。
<Scalable coding>
G.711.1 described in Non-Patent
サンプリング周期16kHzでサンプリングされ、16bitで量子化されたN個のディジタル信号サンプルによる列X(1),X(2),…,X(N)がG.711.1符号化装置10に入力される。なお、Nは1フレーム内に含まれるサンプル数とし、N=80とする。
A sequence X (1), X (2),..., X (N) of N digital signal samples sampled with a sampling period of 16 kHz and quantized with 16 bits is G.G. 711.1 is input to the
G.711.1符号化装置10は、入力信号X(1),X(2),…,X(N)をスケーラブル符号化し、G.711ビット列L0と80bitの低域補強ビット列L1と80bitの高域強調ビット列L2を出力する。G.711ビット列L0はG.711準拠のサンプリング周波数8kHz、8bitで表されるサンプルによる列S(1),S(2),…,S(N/2)であり、320bit(8bit×40サンプル)である。
The G.711.1 encoding
G.711ビット列L0、低域補強ビット列L1及び高域強調ビット列L2を実時間で伝送するには、それぞれ64kbit/s(1秒あたり、8bit×8000サンプル、または、320bit×200列)、16kbit/s(1秒あたり、80bit×200列)及び16kbit/s(1秒あたり、80bit×200列)の伝送帯域が必要である。なお、伝送帯域とは単位時間当たりに伝送できる情報量を意味する。 G. In order to transmit the 711 bit string L0, the low band reinforcement bit string L1 and the high band emphasizing bit string L2 in real time, 64 kbit / s (8 bits × 8000 samples or 320 bits × 200 columns per second), 16 kbit / s ( Transmission bandwidths of 80 bits × 200 columns per second and 16 kbit / s (80 bits × 200 columns per second) are required. The transmission band means the amount of information that can be transmitted per unit time.
G.711.1を用いる場合は、ビット列を伝送する際に利用する中継装置(ルータやゲートウェイ等)や通信回線等の伝送帯域(以下「利用伝送帯域」という)や復号装置の性能(G.711.1に対応しているか否か等)に応じて、符号化装置10が出力したビット列L0、L1及びL2の一部を選択して伝送し、復号装置に入力することがある。
G. When 711.1 is used, a relay device (router, gateway, etc.) used when transmitting a bit string, a transmission band such as a communication line (hereinafter referred to as “used transmission bandwidth”), and a decoding device performance (G.711. Depending on whether or not it corresponds to 1), some of the bit strings L0, L1, and L2 output from the
G.711.1復号装置20は、入力されたビット列に応じて、下記のモードA〜Dの何れかの動作を行う。
(A)モードA
G.711ビット列L0だけが入力されたG.711.1復号装置20は、入力されたビット列L0を復号し、復号により得られたサンプリング周波数が8kHzである電話帯域音声サンプルの列Y(1),Y(2),…,Y(N/2)を出力する。
(B)モードB
G.711ビット列L0と低域補強ビット列L1が入力されたG.711.1復号装置20は、入力されたビット列L0及びL1を復号し、復号により得られたサンプリング周波数は8kHzであるもののサンプル列Y(1),Y(2),…,Y(N/2)よりも聴覚品質の良い電話帯域音声サンプルの列V(1),V(2),…,V(N/2)を出力する。
(C)モードC
G.711ビット列L0と高域強調ビット列L2が入力されたG.711.1復号装置20は、入力されたビット列L0及びL2を復号し、復号により得られたサンプリング周波数が16kHzである広帯域音声サンプルの列W(1),W(2),…,W(N)を出力する。
(D)モードD
G.711ビット列L0と低域補強ビット列L1と高域強調ビット列L2が入力されたG.711.1復号装置20は、入力されたビット列L0、L1及びL2を復号し、復号により得られたサンプリング周波数は16kHzであるもののサンプル列W(1),W(2),…,W(N)よりも聴覚品質の良い広帯域音声サンプルの列U(1),U(2),…,U(N)を出力する。
G. The 711.1
(A) Mode A
G. G. 711 in which only the 711 bit string L0 is input. 711.1
(B) Mode B
G. 711 bit string L0 and low band reinforcement bit string L1 are input. The 711.1
(C) Mode C
G. 711 bit string L0 and high frequency emphasis bit string L2 are input. 711.1
(D) Mode D
G. 711 bit string L0, low band reinforcement bit string L1, and high band emphasizing bit string L2 are input. 711.1
図2に示すように、利用伝送帯域が64kbit/s未満の場合には、G.711.1のビット列を実時間で伝送することはできない。 As shown in FIG. 2, when the used transmission band is less than 64 kbit / s, G.I. The 711.1 bit string cannot be transmitted in real time.
利用伝送帯域が64kbit/s以上、80kbit/s未満の場合は、G.711ビット列L0だけを実時間で伝送することができる。この場合は、G.711.1復号装置20ではモードAのみが使用可能である。
When the used transmission band is 64 kbit / s or more and less than 80 kbit / s, the G. Only the 711 bit string L0 can be transmitted in real time. In this case, G. In the 711.1
利用伝送帯域が80kbit/s以上96kbit/s未満の場合は、G.711ビット列L0だけを伝送するか、G.711ビット列L0と低域補強ビット列L1を伝送するか、G.711ビット列L0と高域強調ビット列L2を伝送するかの3通りから所望の聴覚品質を得るためのビット列を選択して実時間で伝送することができる。この場合は、G.711.1復号装置20では、入力されたビット列に応じて、モードA、モードB、モードCの何れかの動作により得られる音声サンプルの列を出力として得ることができる。
When the used transmission band is 80 kbit / s or more and less than 96 kbit / s, 711 bit string L0 only, or G. 711 bit string L0 and low band reinforcement bit string L1 are transmitted. A bit string for obtaining a desired auditory quality can be selected and transmitted in real time from three ways of transmitting the 711 bit string L0 and the high-frequency emphasized bit string L2. In this case, G. The 711.1
利用伝送帯域が96kbit/s以上の場合は、G.711ビット列L0を伝送するか、G.711ビット列L0と低域補強ビット列L1を伝送するか、G.711ビット列L0と高域強調ビット列L2を伝送するか、G.711ビット列L0と低域補強ビット列L1と高域強調ビット列L2を伝送するかの4通りから所望の聴覚品質を得るためのビット列を選択して実時間で伝送することができる。この場合は、G.711.1復号装置20では、入力されたビット列に応じて、モードA、モードB、モードC、モードDの何れかの動作により得られる音声サンプルの列を出力として得ることができる。
When the used transmission band is 96 kbit / s or more, G. 711 bit string L0 or G. 711 bit string L0 and low band reinforcement bit string L1 are transmitted. 711 bit string L0 and high-frequency emphasis bit string L2 are transmitted. A bit string for obtaining desired auditory quality can be selected and transmitted in real time from the four types of transmission of the 711 bit string L0, the low band reinforcement bit string L1, and the high band emphasizing bit string L2. In this case, G. The 711.1
このようにスケーラブル符号化は、利用伝送帯域により決まる伝送可能なビット列のみを伝送することにより、または、利用伝送帯域により決まる伝送可能なビット列の組合せから所望の組合せを選択することにより、所望の聴覚品質を得ることができる。
<ロスレス符号化>
音声信号をロスレス符号化、復号する従来技術として、非特許文献2記載のG.711.0が知られている。非特許文献2に記載されたG.711.0の符号化装置30及び復号装置40の動作について、図3を用いて説明する。
In this way, scalable coding is performed by transmitting only a transmittable bit string determined by the use transmission band, or by selecting a desired combination from the combinations of transmittable bit strings determined by the use transmission band. Quality can be obtained.
<Lossless coding>
G.711.0 described in Non-Patent
G.711準拠の8bitで表されるサンプルの列S(1),S(2),…,S(I)が入力信号としてG.711.0符号化装置30に入力される。なお、Iは1フレーム内に含まれるサンプル数とし、40、80、160、240、320の何れかである。I=N/2の場合は、入力信号は上記のS(1),S(2),…S(N/2)、すなわちG.711ビット列L0である。G.711.0符号化装置30は入力信号L0をロスレス符号化し、可変長であるロスレスビット列LLを出力する。
G. , S (I) is a G.711-compliant sample string S (1), S (2),. It is input to the 711.0
なお、G.711.0符号化装置30が出力したロスレスビット列LLには、フレーム毎(I毎)に1バイト(8ビット)の接頭コードが必要になる。そのため、必要な利用伝送帯域は、I=40のときは65.6kbit/s(ペイロード64kbit+接頭コード1.6kbit)以下、I=80のときは64.8kbit/s(ペイロード64kbit+接頭コード0.8kbit)以下、I=160のときは64.4kbit/s(ペイロード64kbit+接頭コード0.4kbit)以下、I=240のときは64.267kbit/s(ペイロード64kbit+接頭コード0.247kbit)以下、I=320のときは64.2kbit/s(ペイロード64kbit+接頭コード0.2kbit)以下である。なお、接頭コードには、フレーム長(フレームに含まれるバイト数)やどのようなロスレス符号化を行ったか等の情報が含まれる。
In addition, G. The lossless bit string LL output from the 711.0
ロスレスビット列LLが入力されたG.711.0復号装置40は、入力されたロスレスビット列LLを復号し、復号により得られたG.711準拠の8bitで表されるサンプルの列L0を出力する。
G. to which the lossless bit string LL is input. The 71.10
スケーラブル符号化は、出力信号の品質を高めるために、より大きな利用伝送帯域を必要とするという問題がある。また、ロスレス符号化は、その最悪値に対応するために、ロスレス符号化を利用しない場合よりも大きい利用伝送帯域を必要とするという問題がある。 The scalable coding has a problem that a larger transmission bandwidth is required to improve the quality of the output signal. In addition, lossless encoding has a problem that a larger transmission bandwidth is required than in the case where lossless encoding is not used in order to cope with the worst value.
本発明は、ロスレス符号化によるビット削減効果を有効に利用し、スケーラブル符号化の拡張階層符号をより多く伝送することができる符号化技術を提供することを目的とする。また、そのような符号化がなされた入力符号を復号する復号技術を提供することを目的とする。 An object of the present invention is to provide an encoding technique that can effectively use the bit reduction effect of lossless encoding and transmit more enhancement layer codes of scalable encoding. It is another object of the present invention to provide a decoding technique for decoding an input code that has been encoded.
上記の課題を解決するために、本発明に係る符号化は、ディジタル入力信号をスケーラブル符号化し、基本階層符号と1以上の拡張階層符号とを生成し、基本階層符号をロスレス符号化し、ロスレス符号を生成し、ロスレス符号と拡張階層符号との複数種類の組合せの中から、単位時間当たりの符号量が利用伝送帯域以下であって、かつ、単位時間当たりの符号量が最も大きい組合せを選択する。 In order to solve the above problems, the coding according to the present invention performs scalable coding of a digital input signal, generates a base layer code and one or more extension layer codes, performs lossless coding of the base layer code, and generates a lossless code. And select a combination having a code amount per unit time that is less than or equal to the use transmission band and having the largest code amount per unit time from among a plurality of combinations of lossless codes and enhancement layer codes. .
また本発明に係る復号は、モード情報を用いて、省略符号における省略規則、または、拡張階層符号とロスレス符号の組合せを判定し、入力符号に省略符号が含まれる場合には、省略符号の省略された部分に所定の値を挿入したものを基本階層符号とし、入力符号に拡張階層符号とロスレス符号の組合せが含まれる場合には、ロスレス符号を復号して基本階層符号を得て、所定の値を挿入して得られた基本階層符号、または、ロスレス符号を復号して得られた基本階層符号と拡張階層符号、を復号して出力信号を得る。 The decoding according to the present invention uses the mode information to determine the omission rule in the omission code or the combination of the enhancement layer code and the lossless code. If the omission code is included in the input code, the omission code is omitted. If the input layer includes a combination of an extended layer code and a lossless code, the lossless code is decoded to obtain a base layer code. An output signal is obtained by decoding a base layer code obtained by inserting a value or a base layer code and an enhancement layer code obtained by decoding a lossless code.
本発明に係る符号化技術はスケーラブル符号化の拡張階層符号をより多く伝送することができるという効果を奏する。また、本発明に係る復号装置はより多くの拡張階層符号を含んだ入力符号を復号し、品質の高い信号を出力することができるという効果を奏する。 The encoding technique according to the present invention has an effect that more scalable enhancement layer codes can be transmitted. In addition, the decoding apparatus according to the present invention has an effect that it can decode an input code including a larger number of enhancement layer codes and output a high-quality signal.
<発明のポイント>
スケーラブル符号化により得られる基本階層符号をロスレス符号化し、その符号量を減らし、ロスレス符号とスケーラブル符号化により得られる拡張階層符号とから成る符号の単位時間当たりの符号量を、利用伝送帯域以下にすることができれば、小さい符号量で品質の高い信号を伝送することができる。
<Points of invention>
The basic layer code obtained by scalable coding is lossless coded, the code amount is reduced, and the code amount per unit time of the code composed of the lossless code and the extended layer code obtained by scalable coding is less than the use transmission band. If possible, a high-quality signal can be transmitted with a small code amount.
例えば、G.711.0のロスレス符号化によって、G.711ビット列L0の単位時間当たりに換算した符号量を16kbit/s以上を削減できれば、低域補強ビット列L1または高域強調ビット列L2を伝送しても64kbit/s以内に収まる(図4参照)。またG.711.0のロスレス符号化によって、G.711ビット列L0の単位時間当たりに換算した符号量を32kbit/s以上を削減できれば、低域補強ビット列L1及び高域強調ビット列L2を伝送しても64kbit/s以内に収まる(図5参照)。 For example, G. 711.0 lossless coding allows G. If the code amount converted per unit time of the 711 bit string L0 can be reduced by 16 kbit / s or more, even if the low-frequency reinforcement bit string L1 or the high-frequency emphasis bit string L2 is transmitted, it is within 64 kbit / s (see FIG. 4). G. 711.0 lossless coding allows G. If the code amount converted per unit time of the 711 bit string L0 can be reduced by 32 kbit / s or more, the low band reinforcing bit string L1 and the high band emphasizing bit string L2 can be transmitted within 64 kbit / s (see FIG. 5).
以下、本発明の実施の形態について、詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail.
<符号化装置100>
図6及び図7を用いて実施例1に係る符号化装置100を説明する。符号化装置100はスケーラブル符号化部110とロスレス符号化部120を有する。本実施例では、G.711.1のスケーラブル符号化、G.711.0のロスレス符号化を用いた場合について説明し、スケーラブル符号の基本階層符号をG.711ビット列L0とし、拡張階層符号を低域補強ビット列L1と高域強調ビット列L2とし、ロスレス符号をロスレスビット列とする。但し、他のスケーラブル符号化及びロスレス符号化を用いてもよい。
<
The
符号化装置100は入力信号X(1),X(2),…,X(N)を符号化し出力符号(ロスレス符号化されたG.711ビット列LL、低域補強ビット列L1及び高域強調ビット列L2)を伝送する。
The
<スケーラブル符号化部110>
スケーラブル符号化部110は、ディジタル入力信号X(1),X(2),…,X(N)をG.711.1により符号化し、G.711ビット列L0と低域補強ビット列L1と高域強調ビット列L2とを生成する(s110)。スケーラブル符号化部110は、L0をロスレス符号化部120に送り、L1及びL2を復号装置20に伝送する(s122)。スケーラブル符号化部110は、例えば、図1のG.711.1符号化装置10と同様に動作する(非特許文献1参照)。
<
The
<ロスレス符号化部120>
ロスレス符号化部120は、G.711ビット列L0をG.711.0により符号化し、ロスレスビット列LLを生成し(s120)、復号装置20に伝送する(s122)。ロスレス符号化部120は、例えば、図3のG.711.0符号化装置30と同様に動作する(非特許文献2参照)。
<
The
ここで、G.711ビット列L0の符号量からロスレスビット列LLの符号量を減算した値、すなわち、G.711.0のロスレス符号化によって削減できた符号量、を単位時間当たりに換算したものを(d)kbit/sとする。例えば、1フレームが5msである場合は、G.711ビット列L0の符号量からロスレスビット列LLの符号量を減算した値を200倍した値をdとする。このとき、G.711準拠に相当する情報が(64−d)kbit/sの利用伝送帯域で実時間伝送できることになる。 Here, G. A value obtained by subtracting the code amount of the lossless bit string LL from the code amount of the 711 bit string L0, that is, G. (D) kbit / s is obtained by converting the amount of code that can be reduced by the lossless encoding of 711.0 per unit time. For example, if one frame is 5 ms, G. A value obtained by multiplying the value obtained by subtracting the code amount of the lossless bit string LL from the code amount of the 711 bit string L0 by 200 is defined as d. At this time, G. Information corresponding to 711 can be transmitted in real time in the transmission transmission band of (64-d) kbit / s.
利用伝送帯域が(64−d)kbit/s未満の場合には、符号化装置100が出力したビット列を実時間で伝送することはできない。
利用伝送帯域が(64−d)kbit/s以上(80−d)kbit/s未満の場合は、符号化装置100が出力したビット列のうちロスレスビット列LLだけを実時間で伝送することができる。
When the used transmission band is less than (64-d) kbit / s, the bit string output by the
When the used transmission band is (64-d) kbit / s or more and less than (80-d) kbit / s, only the lossless bit string LL among the bit strings output by the
利用伝送帯域が(80−d)kbit/s以上(96−d)kbit/s未満の場合は、符号化装置100が出力したビット列のうちロスレスビット列LLだけを伝送するか、ロスレスビット列LLと低域補強ビット列L1を伝送するか、ロスレスビット列LLと高域強調ビット列L2を伝送するかの3通りから所望の聴覚品質を得るためのビット列を選択して実時間で伝送することができる。
When the used transmission band is not less than (80-d) kbit / s and less than (96-d) kbit / s, only the lossless bit string LL is transmitted among the bit strings output by the
利用伝送帯域が(96−d)kbit/s以上の場合は、符号化装置100が出力したビット列のうちロスレスビット列LLだけを伝送するか、ロスレスビット列LLと低域補強ビット列L1を伝送するか、ロスレスビット列LLと高域強調ビット列L2を伝送するか、ロスレスビット列LLと低域補強ビット列L1と高域強調ビット列L2を伝送するかの4通りから所望の聴覚品質を得るためのビット列を選択して実時間で伝送することができる。
When the used transmission band is equal to or greater than (96-d) kbit / s, whether only the lossless bit string LL is transmitted among the bit strings output by the
<復号装置200>
図6及び図8を用いて実施例1に係る復号装置200を説明する。復号装置200はロスレス復号部230とスケーラブル復号部250を有する。復号装置200は、符号化装置100の出力ビット列を入力ビット列(例えば、LLのみ、LLとL1、LLとL2、または、LLとL1とL2)として受け取り復号し出力信号を生成し、出力する。
<
The
<ロスレス復号部230>
ロスレス復号部230は、入力ビット列に拡張階層符号(低域補強ビット列L1と高域強調ビット列L2)とロスレスビット列LLの組合せ(LLのみ、LLとL1、LLとL2、または、LLとL1とL2)が含まれる場合には、ロスレスビット列LLを復号してG.711ビット列L0を得る(s230)。なお、LLのみも、拡張階層符号とロスレスビット列の組合せの1つとする。復号して得られたG.711ビット列L0をスケーラブル復号部250に出力する。ロスレス復号部230は、例えば、図3のG.711.0復号装置40と同様に動作する(非特許文献2参照)。
<
The
<スケーラブル復号部250>
スケーラブル復号部250は、G.711ビット列L0と低域補強ビット列L1と高域強調ビット列L2を復号して、出力信号を得て(s255)、これを出力する。スケーラブル復号部250は、例えば、図1のG.711.1復号装置20と同様に動作する(非特許文献1参照)。
<
The
例えば、復号装置200のスケーラブル復号部250は、L0のみ受信しているため(s251、s253)、モードAのスケーラブル復号を行い(s255A)、復号により得られた出力信号(サンプリング周波数が8kHzである電話帯域音声サンプルの列Y(1),Y(2),…,Y(N/2))を出力する。
For example, since
また、復号装置200のスケーラブル復号部250は、L0とL1を受信しているため(s251、s252)、モードAまたはBのスケーラブル復号を行い(s255B)、復号により得られた出力信号(前述のY(1),Y(2),…,Y(N/2)、または、サンプリング周波数は8kHzで聴覚品質の良い電話帯域音声サンプルの列V(1),V(2),…,V(N/2))を出力する。
Since
また、復号装置200のスケーラブル復号部250は、L0とL2を受信しているため(s251、s253)、モードAまたはCのスケーラブル復号を行い(s255C)、復号により得られた出力信号(前述のY(1),Y(2),…,Y(N/2)、または、サンプリング周波数が16kHzである広帯域音声サンプルの列W(1),W(2),…,W(N))を出力する。
Since
また、復号装置200のスケーラブル復号部250は、L0とL1とL2を受信しているため(s251、s252)、モードA〜D何れかのスケーラブル復号を行い(s255D)、復号により得られた出力信号(前述のY(1),Y(2),…,Y(N/2)、または、V(1),V(2),…,V(N/2)、または、W(1),W(2),…,W(N)、または、サンプリング周波数が16kHzで聴覚品質の良い広帯域音声サンプルの列U(1),U(2),…,U(N))を出力する。
Since the
<効果>
このような構成とすることによって、スケーラブル符号化の拡張階層符号をより多く伝送することができる。また、より多くの拡張階層符号を含んだ入力符号を復号し、品質の高い信号を出力することができるという効果を奏する。
<Effect>
By adopting such a configuration, it is possible to transmit more enhancement layer codes of scalable coding. In addition, there is an effect that a high quality signal can be output by decoding an input code including a larger number of enhancement layer codes.
<符号化装置300>
図9から図11を用いて実施例2に係る符号化装置300を説明する。なお、符号化装置100と異なる部分のみを説明する。符号化装置300は、スケーラブル符号化部110とロスレス符号化部120に加え、ビット列選択部330を有する。
符号化装置300は、ロスレスビット列LLと低域補強ビット列L1と高域強調ビット列L2を得た後に、利用伝送帯域に応じて出力するビット列を選択する。
<
A
After obtaining the lossless bit string LL, the low band reinforcement bit string L1, and the high band emphasizing bit string L2, the
<ビット列選択部330>
ビット列選択部330は、ロスレスビット列LLと拡張階層符号(低域補強ビット列L1と高域強調ビット列L2)との複数種類の組合せ(LLのみ、LLとL1、LLとL2、または、LLとL1とL2)の中から、単位時間当たりに換算した符号量が利用伝送帯域以下であって、かつ、単位時間当たりに換算した符号量が最も大きい組合せを選択する(s330)。
<
The bit
ビット列選択部330には、ロスレス符号化部120からロスレスビット列LLが入力され、スケーラブル符号化部110から低域補強ビット列L1と高域強調ビット列L2が入力される。また、出力符号を伝送する前に、利用伝送帯域が入力される。利用伝送帯域が既知の場合は、利用伝送帯域をビット列選択部330の中の記憶部331に記憶しておけばよい。
The lossless bit sequence LL is input from the
ビット列選択部330は、ロスレスビット列LLの単位時間当たりに換算した符号量が(利用伝送帯域−16kbit/s)より大きい場合は(s332)、ロスレスビット列LLのみを出力ビット列Lとして出力する(s333)。また、ロスレスビット列LLの単位時間当たりに換算した符号量が(利用伝送帯域−32kbit/s)より大きく(s332)、かつ、(利用伝送帯域−16kbit/s)以下である場合は(s334)、ロスレスビット列LLと低域補強ビット列L1、または、ロスレスビット列LLと高域強調ビット列L2を出力ビット列Lとして出力する(s336)。また、ロスレスビット列LLの単位時間当たりに換算した符号量が(利用伝送帯域−32kbit/s)以下である場合は(s332、s334)、ロスレスビット列LLと低域補強ビット列L1と高域強調ビット列L2を出力ビット列Lとして出力する(s335)。
When the code amount converted per unit time of the lossless bit string LL is larger than (used transmission band−16 kbit / s) (s332), the bit
なお、上記では、ロスレスビット列LLの単位時間当たりに換算した符号量と(利用伝送帯域−xkbit/s)とを用いて比較や判断を行っているが(例えばxは16または32である)、(ロスレスビット列LLの単位時間当たりに換算した符号量+xkbit/s)と利用伝送帯域を上記と等価になるように比較や判断を行ってもよい。また、ロスレスビット列LLの符号量と、利用伝送帯域とxkbit/sのそれぞれをロスレスビット列LLと同じ時間長のときの値に換算して得られる符号量と、を用いて、上記と等価な比較や判断を行ってもよい。1秒の時間長での比較や判断を行う場合は、1秒分のロスレスビット列LLの符号量と、1秒分の利用伝送帯域とxkbit/sとを用いることが可能である。 In the above description, the comparison and determination are performed using the code amount converted per unit time of the lossless bit string LL and (used transmission bandwidth−xkbit / s) (for example, x is 16 or 32). The comparison and determination may be performed so that (the code amount converted per unit time of the lossless bit string LL + xkbit / s) and the used transmission band are equivalent to the above. In addition, a comparison equivalent to the above is made using the code amount of the lossless bit string LL and the code amount obtained by converting each of the used transmission band and xkbit / s into a value at the same time length as the lossless bit string LL. You may make judgments. When performing comparison or determination with a time length of 1 second, it is possible to use the code amount of the lossless bit string LL for 1 second, the used transmission band for 1 second, and xkbit / s.
伝送ビットレートが64kbit/sの場合は、ビット列選択部330は例えば図7のように機能する。G.711.0によって削減できたビットレートdが16kbit/s以上の場合は、モードBまたはモードCを、G.711.0によって削減できたビットレートdが32以上kbit/sの場合はモードDを選択することになる。
When the transmission bit rate is 64 kbit / s, the bit
s336において、ロスレスビット列LLの単位時間当たりに換算した符号量が(利用伝送帯域−32kbit/s)より大きく、かつ、(利用伝送帯域−16kbit/s)以下である場合には、ロスレスビット列LLと共に出力ビット列に含める拡張階層符号を、低域補強ビット列L1または高域強調ビット列L2から選択することが可能である。選択方法としては、例えば下記の2つの方法がある。
(1)選択方法1
選択規則(例えば、「常に低域補強ビット列L1を選択する」や、「常に高域強調ビット列L2を選択する」する等)を予め記憶部331に記憶しておき、その選択規則に従って、拡張階層符号を選択する。
(2)選択方法2
G.711.1により規定された高域強調ビット列L2には、高域を強調する際のゲイン(MDCT gain)に対応する情報(8ビット)が含まれる。
In s336, when the code amount converted per unit time of the lossless bit string LL is larger than (used transmission band−32 kbit / s) and equal to or smaller than (used transmission band−16 kbit / s), it is combined with the lossless bit string LL. The extended hierarchical code included in the output bit string can be selected from the low band reinforcement bit string L1 or the high band emphasizing bit string L2. As a selection method, for example, there are the following two methods.
(1)
Selection rules (for example, “always select the low-frequency reinforcement bit string L1”, “always select the high-frequency emphasis bit string L2”, etc.) are stored in the
(2)
G. The high frequency emphasis bit string L2 defined by 711.1 includes information (8 bits) corresponding to a gain (MDCT gain) for emphasizing the high frequency.
ビット列選択部330は、MDCT gainが閾値T1(例えばT1=1)以下の場合には(s336a)、ロスレスビット列LLと低域補強ビット列L1の組合せを選択し、出力ビット列Lとして出力する(s336b)。一方、MDCT gainが閾値T1より大きい場合には(s336a)、ロスレスビット列LLと高域強調ビット列L2の組合せを選択し、出力ビット列Lとして出力する(s336c)。
When the MDCT gain is equal to or less than the threshold value T 1 (for example, T 1 = 1) (s336a), the bit
これは、MDCT gainが小さい場合は広帯域拡張を行っても聴覚品質の向上効果が小さいからである。なお、MDCT gainに対応する情報とMDCT gainとは、一対一に対応している。そのため、MDCT gainに対応する情報を復号してMDCT gainの値を得ないでも、予め閾値T1よりも大きいMDCT gainに対応する情報を記憶部331等に記憶しておき、記憶部331に取得したMDCT gainに対応する情報があるか否かを判定し、MDCT gainが閾値T1以下であるか否かを判定してもよい。
This is because when MDCT gain is small, the effect of improving the auditory quality is small even if wideband expansion is performed. Note that information corresponding to MDCT gain and MDCT gain correspond one-to-one. Therefore, even if the information corresponding to the MDCT gain is not decoded and the value of the MDCT gain is not obtained, the information corresponding to the MDCT gain larger than the threshold T 1 is stored in the
このような構成とすることによって、入力信号に応じた適切な拡張階層符号を選択することができ、聴覚品質の向上させることができる。
なお、ビット列選択部330は、出力ビット列Lの他に、何れのビット列の組合せを出力ビット列Lとしたかを示す情報をモード情報として出力してもよい。
符号化装置300が出力したビット列Lは、実施例1で説明した復号装置200で復号することができる。
With such a configuration, it is possible to select an appropriate enhancement layer code according to the input signal, and to improve the auditory quality.
In addition to the output bit string L, the bit
The bit string L output from the
<効果>
このような構成とすることによって、実施例1と同様の効果を得ることができる。さらに、利用伝送帯域とロスレスビット列LLの符号量に応じて出力するビット列を選択することにより、利用伝送帯域を最大限に活用した高い音質を得ることができる。
<Effect>
By adopting such a configuration, the same effect as in the first embodiment can be obtained. Furthermore, by selecting a bit string to be output according to the used transmission band and the code amount of the lossless bit string LL, it is possible to obtain high sound quality utilizing the used transmission band to the maximum.
例えば、G.711ビット列L0をG.711.0によってロスレスビット列LLにすることにより、その単位時間当たりに換算した符号量を16kbit/s以上削減できれば、ロスレスビット列LLに加えて低域補強ビット列L1または高域強調ビット列L2を伝送しても64kbit/s以内に収まる(図4参照)。またG.711ビット列L0をG.711.0によってロスレスビット列LLにすることにより、その単位時間当たりに換算した符号量を32kbit/s以上削減できれば、ロスレスビット列LLと低域補強ビット列L1と高域強調ビット列L2の全てを64kbit/s以内で伝送することができる(図5参照)。 For example, G. 711 bit string L0 to G. If the code amount converted per unit time can be reduced by 16 kbit / s or more by making the lossless bit string LL by 711.0, the low-frequency reinforcement bit string L1 or the high-frequency emphasized bit string L2 is transmitted in addition to the lossless bit string LL. Is within 64 kbit / s (see FIG. 4). G. 711 bit string L0 to G. If the code amount converted per unit time can be reduced by 32 kbit / s or more by making the lossless bit string LL by 711.0, all of the lossless bit string LL, the low-frequency reinforcement bit string L1, and the high-frequency emphasis bit string L2 are 64 kbit / s. (See FIG. 5).
<変形例>
本実施例では、ビット列選択部330において、利用伝送帯域が既知の場合について説明しているが、未知であってもよい。例えば、出力ビット列Lの伝送に先立ち、図示しない利用伝送帯域測定部において、利用伝送帯域を調べ、記憶部331に記憶する構成としてもよい。また、既存のSIPサーバ等に問い合わせて利用伝送帯域を取得してもよい。
<Modification>
In the present embodiment, the case where the use transmission band is known in the bit
G.711.1のスケーラブル符号をIP伝送路で伝送する場合は、図12Aに示すように、G.711ビット列L0、低域補強ビット列L1、高域強調ビット列L2のそれぞれをIPペイロードとし、それぞれにIPヘッダを付して伝送すればよい。また、実施例1または実施例2の出力ビット列LをIP伝送路で伝送する場合は、図12Bに示すように、ロスレスビット列LL、低域補強ビット列L1、高域強調ビット列L2のそれぞれをIPペイロードとし、それぞれにIPヘッダを付して伝送すればよい。 G. When the scalable code of 711.1 is transmitted through the IP transmission path, as shown in FIG. Each of the 711 bit string L0, the low-frequency reinforcement bit string L1, and the high-frequency emphasis bit string L2 may be an IP payload, and each may be transmitted with an IP header. When the output bit string L of the first or second embodiment is transmitted through the IP transmission path, as shown in FIG. 12B, each of the lossless bit string LL, the low band reinforcement bit string L1, and the high band emphasizing bit string L2 is transferred to the IP payload. And each may be transmitted with an IP header.
本実施例では、直列のデジタルデータの伝送路でバイト単位のみの同期がとれる通信路、(例えば、ISDN網や構内無線網のように64kbit/s以下で実時間通信を行う通信路)への適用を想定する。このような通信網は、本来サンプリング周期8kHzでサンプリングされ、8bitで量子化されたディジタル音声信号(電話帯域音声)のサンプルの列を64kbit/sで伝送するものであるが、本実施例ではロスレス符号化とスケーラブル符号化を組合せて利用することにより、可能な限りより帯域の広い音声を伝送することが可能となる。 In this embodiment, a serial digital data transmission path can be synchronized only in byte units (for example, a communication path that performs real-time communication at 64 kbit / s or less like an ISDN network or a private wireless network). Assume application. Such a communication network transmits a sequence of samples of a digital voice signal (telephone band voice) that is originally sampled at a sampling period of 8 kHz and quantized at 8 bits at 64 kbit / s. By using a combination of coding and scalable coding, it is possible to transmit speech with a wider bandwidth as much as possible.
<符号化装置500>
図14〜図18を用いて実施例3に係る符号化装置500を説明する。なお、符号化装置300と異なる部分のみを説明する。符号化装置500は、スケーラブル符号化部110とロスレス符号化部120に加え、さらに同期語挿入部550を有し、ビット列選択部530の処理内容が異なる。
<
A
<ビット列選択部530>
ビット列選択部530は、モード情報生成部533を備え、ロスレスビット列LLと拡張階層符号(低域補強ビット列L1と高域強調ビット列L2)との複数種類の組合せの中から、単位時間当たりに換算した符号量が利用伝送帯域以下であって、かつ、単位時間当たりに換算した符号量が最も大きい組合せを選択し、内部に備えたモード情報生成部533において、選択する組合せを示すモード情報を生成する(s530)。なお、図14中、s332〜s336については、実施例2のビット列選択部530と同様の処理を行う。
<Bit
The bit
例えば、ビット列選択部530で選択したビット列がロスレスビット列LLのみである場合(s333)、すなわち、後述する復号装置600をモードAのみで動作させられる場合、モード情報生成部533は、出力ビット列がロスレスビット列LLのみから成ることを示すモード情報(モードα)を生成する(s538)。
For example, when the bit string selected by the bit
ビット列選択部530で選択したビット列がロスレスビット列LLと低域補強ビット列L1とである場合(s336)、すなわち、復号装置600をモードAまたはモードBで動作させられる場合、モード情報生成部533は、出力ビット列がロスレスビット列LLと低域補強ビット列L1とから成ることを示すモード情報(モードβ)を生成する(s539)。
When the bit string selected by the bit
ビット列選択部530で選択したビット列がロスレスビット列LLと高域強調ビット列L2とである場合(s336)、すなわち、復号装置600をモードAまたはモードCで動作させられる場合、モード情報生成部533は、出力ビット列がロスレスビット列LLと高域強調ビット列L2とから成ることを示すモード情報(モードγ)を生成する(s539)。
When the bit string selected by the bit
ビット列選択部530で選択したビット列がロスレスビット列LLと低域補強ビット列L1と高域強調ビット列L2とである場合(s335)、すなわち、復号装置600をモードA〜Dの全てのモードで動作させられる場合、出力ビット列がロスレスビット列LLと低域補強ビット列L1と高域強調ビット列L2とから成ることを示すモード情報(モードδ)を生成する(s537)。
例えば、4通りのモードを区別できるように、モード情報に2ビットを割り当てる。ビット列選択部530は、選択したビット列とモード情報を同期語挿入部550に出力する。
When the bit strings selected by the bit
For example, 2 bits are assigned to the mode information so that four modes can be distinguished. The bit
<同期語挿入部550>
同期語挿入部550は、フレーム内の予め定められた位置に、所定の同期語を挿入する(s550)。なお、同期語とは「0」と「1」のビットの組合せから成る所定のビットパターンである。
<Synchronous
The synchronization
同期語挿入部550は、固定のフレーム長Jバイトに対し(例えばJ=40)、Kバイトの同期語と、ビット列選択部530が出力したm(但し、mは0<m≦8を満たす整数)ビットのモード情報と、選択されたビット列とを含めたものを符号化装置500の出力ビット列Lとして出力する。フレーム長Jバイトから同期語のKバイトとモード情報のmビットを引いた残り((J−K)×8−m)ビット内に、選択したビット列が含まれる。そのため、出力ビット列Lの伝送に必要な実質的な利用伝送帯域は、(N’/N)×((J−K)×8−m)kbit/sとなる。なお、N’は単位時間当たりのサンプル数を、Nは前述の通り1フレーム内に含まれるサンプル数を、(N’/N)は単位時間当たりのフレーム数を表す。従って、サンプリング周期8kHzでサンプリングされたディジタル音声信号のサンプルの列を伝送する場合の実質的な利用伝送帯域(言い換えると、ディジタル音声信号のサンプルの列自体を表す信号を伝送するための利用伝送帯域)は、フレーム長Jが40バイトであり、同期語が1バイトであり、モード情報が2ビットであり、1サンプルが1バイトの場合(このとき、J=Nとなる)、62kbit/sとなる。
The synchronization
なお、ビット列選択部530で選択したビット列は必ず((J−K)×8−m)ビット以下であるが、選択したビット列がちょうど((J−K)×8−m))ビットであることは稀である。そこで、選択したビット列が((J−K)×8−m))ビット未満である場合には、同期語挿入部550は、出力ビット列LがJバイトとなるように、余ったビットにダミービット(例えば、0または1)を格納する。
The bit string selected by the bit
同期語挿入部550は、図15〜図18に示すように、同期語とモード情報とビット列選択部530で選択されたビット列とを含む出力ビット列Lを出力する。前述の通り、出力ビット列Lに必要に応じてダミービットが含まれ、各図中の「ダミー」は上記の「ダミービット」を指し、0または1が格納される。
As shown in FIGS. 15 to 18, the synchronization
<復号装置600>
図19及び図20を用いて、実施例3に係る復号装置600を説明する。なお、復号装置200と異なる部分のみを説明する。復号装置600は、ロスレス符号化部230に加え、さらに同期語判定部610及びモード判定部620を有し、スケーラブル復号部650の処理内容が異なる。
<
A
<同期語判定部610>
同期語判定部610は、符号化装置500の出力ビット列Lを入力ビット列として入力され、フレーム内の予め定められた位置に、所定の同期語が存在するか否かを判定し(s610)、存在する場合には、同期が確立されたものとみなして、フレーム毎のビット列部分を特定し、入力ビット列Lをモード判定部620に出力する。なお、その際に、フレーム内の同期語及びダミービットを削除して、モード判定部620に出力する構成としてもよい。同期語が存在しない場合、エラー処理を行う(s661)。エラー処理として、通信を終了したり、再度符号化装置500と同期処理を行ってもよい。
<Synchronous
The synchronization
<モード判定部620>
モード判定部620は、モード情報を用いて、拡張階層符号(低域補強ビット列L1と高域強調ビット列L2)とロスレスビット列LLの組合せを判定する(s620)。
<
The
モード判定部620は、モード情報がモードδを表わすものである場合には(s620D)、モード情報とロスレスビット列LLと低域補強ビット列L1と高域強調ビット列L2とを出力する。モード情報がモードγを表わすものである場合には(s620C)、モード情報とロスレスビット列LLと高域強調ビット列L2とを出力する。モード情報がモードβを表わすものである場合には(s620B)モード情報とロスレスビット列LLと低域補強ビット列L1とを出力する。モード情報がβ、γ、δの何れでもない場合(s620B)、つまり、モードαを表わすものである場合には、モード情報とロスレスビット列LLとを出力する。
When the mode information represents the mode δ (s620D), the
出力したロスレスビット列LLはロスレス復号部230に入力され、ロスレスビット列LL以外はスケーラブル復号部650に入力される。
ロスレス復号部230は、入力されるロスレスビット列LLを復号してG.711ビット列L0を得て(s230A〜s230D)、スケーラブル復号部650に出力する。
The output lossless bit string LL is input to the
The
<スケーラブル復号部650>
スケーラブル復号部650は、モード情報と各モード情報に対応するビット列(L0、L0とL1、L0とL2、または、L0とL1とL2の何れか)を入力され、入力されたモード情報が表わすモードα〜δから特定される復号可能なモード(少なくともモードAを含む、モードA〜Dの何れかモード)のうちの所望のモードを選択して復号を行い(s655A〜s655D)、復号により得られた音声サンプルの列を出力する。復号により得られた出力信号は実施例1のスケーラブル復号部250と同様である。
<
<効果>
このような構成とすることによって、実施例2と同様の効果を得ることができる。さらに、現在普及している電話回線の伝送帯域(64kbit/s)で、G.711よりも高品質な音声を実時間で伝送するができる。
<Effect>
By adopting such a configuration, the same effect as in the second embodiment can be obtained. Furthermore, in the transmission band (64 kbit / s) of the currently popular telephone line, G. It is possible to transmit higher quality voice than 711 in real time.
G.711.1は、実時間伝送で電話音声帯域のG.711よりも高い音質を得るためには、必ず80kbit/s以上の伝送帯域を確保する必要があり、伝送帯域が64kbit/sの電話回線でG.711よりも高い音質を得ることができなかった。一方、G.711.0では平均データレートは削減できるので、なるべく多くのビットを伝送し、復号側では得られたビットだけから復号を行う利用形態や、復号側で一旦蓄積してから復号を行う利用形態、すなわち、ベストエフォート型ではメリットはある。しかし、固定レートで実時間伝送する場合はデータレートの最悪値(65.6kbit/s)を超える伝送帯域を確保した回線が必要であり、普及している伝送帯域が64kbit/sの回線で利用することができなかった。本実施例の構成によりこのような問題を解決することができる。 G. 711.1 is a real-time transmission and G.G. In order to obtain a sound quality higher than 711, it is necessary to ensure a transmission band of 80 kbit / s or more. A sound quality higher than 711 could not be obtained. On the other hand, G. In 711.0, the average data rate can be reduced, so that as many bits as possible are transmitted and the decoding side uses only the obtained bits to decode, or the decoding side temporarily accumulates on the decoding side and then uses the decoding. That is, the best effort type has advantages. However, in the case of real-time transmission at a fixed rate, a line that secures a transmission band exceeding the worst value (65.6 kbit / s) of the data rate is required, and the prevailing transmission band is used with a line of 64 kbit / s. I couldn't. Such a problem can be solved by the configuration of this embodiment.
実施例3では、ロスレスビット列LLの1フレーム分の符号量が、((J−K)×8−m)ビットを超える場合は、64kbit/s以下での実時間通信を行うためのビット列を生成することができない。本実施例は、ロスレス符号化の効果が無い場合などのロスレスビット列LLの1フレーム分の符号量が((J−K)×8−m)ビットを超える場合に、一部のサンプルのビットを省略することによって規定の利用伝送帯域で情報を伝送する。 In the third embodiment, when the code amount for one frame of the lossless bit string LL exceeds ((J−K) × 8−m) bits, a bit string for performing real-time communication at 64 kbit / s or less is generated. Can not do it. In this embodiment, when the code amount for one frame of the lossless bit string LL exceeds ((J−K) × 8−m) bits, such as when there is no effect of lossless encoding, the bits of some samples are converted. By omitting, the information is transmitted in the specified use transmission band.
<符号化装置700>
図21及び図22を用いて実施例4に係る符号化装置700を説明する。なお、符号化装置500と異なる部分のみを説明する。符号化装置700は、スケーラブル符号化部110とロスレス符号化部120に加え、さらに省略符号生成部760を有し、ビット列選択部730及び同期語挿入部750の処理内容が異なる。
<Encoding device 700>
A coding apparatus 700 according to the fourth embodiment will be described with reference to FIGS. 21 and 22. Only parts different from the
<ビット列選択部730>
ビット列選択部730のモード情報生成部740は、ビット列選択部730で選択した組合せを示すモード情報、または、後述する省略符号生成部760で省略ビット列を生成する際の生成規則を示すモード情報を生成する(s730)。
<Bit
The mode information generation unit 740 of the bit
ビット列選択部730は、ロスレスビット列LLの単位時間当たりに換算した符号量が64kbit/s以下か否かを判定し(s731)、64kbit/s以下の場合には、ビット列選択部530と同様の処理(s332〜s539)を行い、ビット列選択部530は、選択したビット列とビット列選択部730で選択した組合せを示すモード情報を同期語挿入部550に出力する。
The bit
64kbit/sより大きい場合(つまり、ロスレスビット列LLの単位時間当たりに換算した符号量が利用伝送帯域よりも大きい場合)には、ビット列選択部730は、省略符号生成部760で省略ビット列を生成する際の生成規則を示すモード情報を生成する(s733)。ビット列選択部530は、省略ビット列を生成する際の生成規則を示すモード情報を同期語挿入部550に出力する。
When the bit rate is greater than 64 kbit / s (that is, when the code amount converted per unit time of the lossless bit sequence LL is larger than the used transmission band), the bit
なお、モード情報は、ビット列選択部730で選択した組合せ、または、後述する省略符号生成部760で省略ビット列を生成する際の生成規則を示す情報なので、実施例3よりもモード情報を表わすためのビット数が増えることになる。
Note that the mode information is information indicating a combination selected by the bit
<同期語挿入部750>
(モードα〜δの場合)
選択したビット列とビット列選択部730で選択した組合せを示すモード情報を入力された場合、同期語挿入部750は、フレーム内の予め定められた位置に、所定の同期語を挿入する(s550)。さらに、同期語挿入部750は、同期語と、ビット列選択部730が出力したモード情報と、選択されたビット列とを含めたものを出力ビット列Lとして出力する。また、選択したビット列が((J−K)×8−m))ビット未満である場合には、同期語挿入部750は、出力ビット列LがJバイトとなるように、余ったビットにダミービット(例えば、0または1)を格納する。
(モード1〜8の場合)
省略ビット列を生成する際の生成規則を示すモード情報を入力された場合、同期語挿入部750は、フレームを作成し、フレーム内の予め定められた位置に、所定の同期語を挿入する(s750)。同期語が挿入されたフレームに対し、省略ビット列を生成する際の生成規則を示すモード情報を格納し、省略符号生成部760に出力する。
<Synchronous
(In the case of modes α to δ)
When mode information indicating the selected bit string and the combination selected by the bit
(
When mode information indicating a generation rule for generating an abbreviated bit string is input, the synchronization
<省略符号生成部760>
省略符号生成部760は、同期語、省略ビット列L00を生成する際の生成規則を示すモード情報及びスケーラブル符号化部110の出力であるG.711ビット列L0を入力される。
<Omitted Code Generation Unit 760>
The abbreviated code generation unit 760 includes a synchronization word, mode information indicating a generation rule when generating the abbreviated bit string L00, and an output from the
省略符号生成部760は、G.711ビット列L0から聴覚的に影響の少ない部分を省略し、単位時間当たりに換算した符号量が利用伝送帯域以下となる省略ビット列L00を生成する(s760)。例えば、聴覚的に影響の少ない部分とは、G.711ビット列L0において各サンプルを示す1バイト(8ビット)の内の最下位ビットである。 The abbreviated code generation unit 760 uses G. A portion having little auditory influence is omitted from the 711 bit string L0, and an abbreviated bit string L00 in which the code amount converted per unit time is equal to or less than the use transmission band is generated (s760). For example, the part with a little auditory influence is G.I. It is the least significant bit in 1 byte (8 bits) indicating each sample in the 711-bit string L0.
省略符号生成部760は、G.711ビット列L0の各サンプルに対応するビットのうち最下位1ビットを((J−K)×8−m)ビットを超えるビット数だけ省略して得られる((J−K)×8−m)ビットの省略ビット列L00を生成する(s760)。そして、省略符号生成部760は、省略ビット列L00と省略ビット列L00を生成する際の生成規則を示すモード情報とを出力ビット列L00として出力する。 The abbreviated code generation unit 760 uses G. It is obtained by omitting the least significant bit out of the bits corresponding to each sample of the 711 bit string L0 by the number of bits exceeding ((J−K) × 8−m) bits ((J−K) × 8−m). An abbreviated bit string L00 of bits is generated (s760). Then, the abbreviated code generation unit 760 outputs the abbreviated bit string L00 and the mode information indicating the generation rule when generating the abbreviated bit string L00 as the output bit string L00.
なお、復号装置で省略ビット列L00からG.711ビット列L0’を生成するときは、省略されたビットに0か1を挿入する。 Note that the abbreviated bit string L00 to G.I. When generating the 711 bit string L0 ', 0 or 1 is inserted into the omitted bits.
G.711ビット列L0が((J−K)×8−m)ビット以下に圧縮できない場合は、G.711ビット列L0に対応する音響信号の振幅が大きく、予測のきかない雑音的な信号である。このような信号の振幅を表す符号の最下位ビットは音声品質に与える影響がきわめて少ないことから、省略ビット列L00を用いることによる音質劣化はきわめて小さい。 G. When the 711 bit string L0 cannot be compressed to ((J−K) × 8−m) bits or less, G. The acoustic signal corresponding to the 711-bit string L0 has a large amplitude and is a noisy signal that cannot be predicted. Since the least significant bit of the code representing the amplitude of such a signal has very little influence on the voice quality, the sound quality degradation caused by using the omitted bit string L00 is extremely small.
G.711ビット列L0から省略ビット列L00を生成する際には、フレーム中のどの位置にあるサンプルの最下位の1ビットを省略するかを予め決めておいてもよいし、フレーム中のどの位置のサンプルの最下位の1ビットを省略するかは選択肢を複数用意し、劣化が少ないものを選択してもよい。 G. When generating the abbreviated bit string L00 from the 711 bit string L0, it may be determined in advance which position in the frame the least significant bit of the sample is omitted, or the position of the sample in the frame. Whether to omit the least significant bit may be prepared by selecting a plurality of options and selecting one with less deterioration.
選択肢からの選択の際には、後述する復号装置800で再構成した場合のG.711ビット列L0’の振幅値とスケーラブル符号化部110の出力であるG.711ビット列L0の振幅値の差が最も小さいものを選択することが望ましい。よって、伝送に先立ち、省略符号生成部760内で生成した省略ビット列L00を再構成し、G.711ビット列L0’を求め、L0との差を計算し、最も小さい選択肢を求めてもよい。なお、このときの振幅値は対数のままでの数値の差でよい。実際に再生される波形での違いは対数から線形に変換した領域での違いになるので、下位1ビットの変形は振幅の大きいサンプルでの差が大きくなる。しかし聴覚的には振幅の大きいサンプルでは差が大きくても劣化は比較的小さいため、対数領域の数値の差で比較することで聴覚的劣化と対応がとれる。
When selecting from the choices, the G.D. 711 which is the amplitude value of the 711 bit string L0 'and the output of the
省略ビット列L00を生成する方法(以下、「生成規則」という)として、予め決めておいたり、複数の選択肢に含めておいたりする方法としては、例えば以下のモード1〜8が挙げられる。すなわち、これらのうちの1つを予め決めておいたり、これらのうちの一部または全部を選択肢に含めておいたりすることになる。
As a method for generating the abbreviated bit string L00 (hereinafter referred to as “generation rule”), as a method for determining in advance or including it in a plurality of options, for example, the following
モード1〜4は、G.711ビット列L0のうちの連続するサンプルの最下位ビットを省略する方法であり、図23に模式図を示す。モード1では、G.711ビット列L0のうちの先頭から(K×8−m)個のサンプルの最下位1ビットを省略する。復号装置800では省略されたビットに0を挿入する。モード2では、G.711ビット列L0のうちの最後から(K×8−m)個のサンプルの最下位1ビットを省略する。復号装置800では省略されたビットに0を挿入する。モード3では、G.711ビット列L0のうちの先頭から(K×8−m)個のサンプルの最下位1ビットを省略する。復号装置800では省略されたビットに1を挿入する。モード4では、G.711ビット列L0のうちの最後から(K×8−m)個のサンプルの最下位1ビットを省略する。復号装置800では省略されたビットに1を挿入する。
Modes 1-4 are G. This is a method of omitting the least significant bit of consecutive samples in the 711-bit string L0, and a schematic diagram is shown in FIG. In
モード5〜8は、G.711ビット列L0のうちの飛び飛びのサンプルの最下位ビットを省略する方法であり、図24に模式図を示す。モード5では、G.711ビット列L0のうちの先頭から偶数番目にある(K×8−m)個のサンプルの最下位1ビットを省略する。復号装置800では省略されたビットに0を挿入する。モード6では、G.711ビット列L0のうちの先頭から奇数番目にある(K×8−m)個のサンプルの最下位1ビットを省略する。復号装置800では省略されたビットに0を挿入する。モード7では、G.711ビット列L0のうちの先頭から偶数番目にある(K×8−m)個のサンプルの最下位1ビットを省略する。復号装置800では省略されたビットに1を挿入する。モード8では、G.711ビット列L0のうちの先頭から奇数番目にある(K×8−m)個のサンプルの最下位1ビットを省略する。復号装置800では省略されたビットに1を挿入する。
Modes 5 to 8 are G. This is a method of omitting the least significant bit of the skipped sample in the 711-bit string L0, and FIG. 24 shows a schematic diagram. In mode 5, G. In the 711-bit string L0, the least significant bit of (K × 8-m) samples that are even-numbered from the beginning is omitted. The decoding device 800
<復号装置800>
図25及び図26を用いて実施例4に係る復号装置800を説明する。なお、復号装置600と異なる部分のみを説明する。復号装置800は、同期語判定部610及びロスレス復号部230に加え、さらに挿入部840を有し、モード判定部820及びスケーラブル復号部850の処理内容が異なる。
<Decoding device 800>
A decoding apparatus 800 according to the fourth embodiment will be described with reference to FIGS. 25 and 26. Only parts different from the
<モード判定部820>
モード判定部820は、同期語判定部610の出力である入力ビット列LまたはL00を入力され、入力ビット列に含まれるモード情報を用いて、省略ビット列L00における省略規則、または、拡張階層符号(低域補強ビット列L1と高域強調ビット列L2)とロスレスビット列LLの組合せを判定する(s820)。ここで、省略ビット列L00の省略規則とは、符号化装置700における省略ビット列L00を生成した際の生成規則と一対一に対応する規則のことである。
<
The
モード情報がモードα〜δを示す場合(s820)、復号装置600と同様の処理を行う(s620〜s655)。
モード情報が省略ビット列L00における省略規則を示す場合(s820)、つまりモード情報がモード1〜8を示す場合、モード情報と省略ビット列L00を挿入部840に出力する。
When the mode information indicates the modes α to δ (s820), the same processing as that of the
When the mode information indicates an omission rule in the omitted bit string L00 (s820), that is, when the mode information indicates
<挿入部840>
挿入部840は、モード情報と省略ビット列L00を入力され、省略符号生成部760で説明したように(図23及び図24参照)、省略された部分に所定の値を挿入し、G.711ビット列L0’とする(s840)。
<Insert
The
<スケーラブル復号部850>
モード情報がモードα〜δを示す場合(s820)、スケーラブル復号部850の処理内容は、実施例3のスケーラブル復号部650と同様である。
モード情報がモード1〜8の場合、挿入部840で得られたG.711ビット列L0’を復号して、出力信号を得る(モードAの復号)。そして、スケーラブル復号部850は、復号により得られた出力信号(サンプリング周波数が8kHzである電話帯域音声サンプルの列Y’(1),Y’(2),…,Y’(N/2))を出力する。
<
When the mode information indicates the modes α to δ (s820), the processing content of the
When the mode information is
<効果>
このような構成とすることによって、実施例3と同様の効果を得ることができる。さらに、ロスレス圧縮の効果がある場合はモードα〜δの何れかを用いて、ロスレス圧縮の効果が無い場合にはモード1〜8の何れかを用いて、出力信号を得ることができるので、設定された伝送帯域で情報を伝送することができるという効果を奏する。
<Effect>
By adopting such a configuration, the same effect as in the third embodiment can be obtained. Furthermore, when there is an effect of lossless compression, an output signal can be obtained using any of modes α to δ, and when there is no effect of lossless compression, an output signal can be obtained. There is an effect that information can be transmitted in the set transmission band.
[変形例1]
<符号化装置700A>
図21及び図22を用いて実施例4の変形例1に係る符号化装置700Aを説明する。なお、符号化装置700と異なる部分のみを説明する。符号化装置700Aは、ビット列選択部730内のモード情報生成部740Aの処理内容が異なる。
[Modification 1]
<Encoder 700A>
An encoding apparatus 700A according to the first modification of the fourth embodiment will be described with reference to FIGS. 21 and 22. Only parts different from the encoding apparatus 700 will be described. The encoding apparatus 700A is different in processing contents of the mode information generation unit 740A in the bit
<モード情報生成部740A>
モード情報生成部740Aは、ビット列選択部730で選択した組合せ(モードα〜δ)を示すモード情報、または、省略符号生成部で省略ビット列L00を生成する際の生成規則(モード1〜8)を示すモード情報を生成し、生成規則(モード1〜8)を示すモード情報が組合せ(モードα〜δ)を示すモード情報よりも符号量が少なくなるように生成する(s537〜s539、s733)。つまり、図27及び図28に示すようにモード情報を可変長符号とする。
<Mode information generation unit 740A>
The mode information generation unit 740A sets the mode information indicating the combinations (modes α to δ) selected by the bit
モードα〜δは、モード情報に割り当てるビットが多くてもG.711以上の聴覚品質を得られるモードである。一方、モード1から8は、モード情報に割り当てるビットが多ければ多いほど、下位ビットを多く省略することになるため、G.711に比べて聴覚品質が悪くなる。そこで、G.711ビット列の下位ビットを省略するモードであるモード1〜8を表わすモード情報のビット数が、G.711ビット列の下位ビットを省略しないモードであるモードα〜δを表わすモード情報のビット数よりも少なくなるようにモード情報を可変長符号化する。これにより下位ビット省略の聴覚品質への影響を小さくすることができる。
In the modes α to δ, the G. In this mode, an auditory quality of 711 or higher can be obtained. On the other hand, in
図27は、G.711ビット列L0の下位ビットを省略するモードとしてモード1〜3の3種類を用意し、G.711ビット列L0の下位ビットを省略しないモードとしてモードα〜δの4種類を含む、7種類の中からモードが選択される場合の、モードとモード情報の例である。G.711ビット列L0の下位ビットを省略するモードであるモード1、2、3のそれぞれには2ビットの符号“00”、“01”、“10”をモード情報として割り当てる。一方、G.711ビット列の下位ビットを省略しないモードであるモードα、β、γ、δのそれぞれには4ビットの符号“1100”、“1101”、“1110”、“1111”をモード情報として割り当てる。
FIG. Three
図28は、G.711ビット列の下位ビットL0を省略するモードとしてモード1〜8の8種類を用意し、G.711ビット列の下位ビットL0を省略しないモードとしてモードα〜δの4種類を含む、12種類の中からモードが選択される場合の、モードとモード情報の例である。
FIG. Eight
G.711ビット列L0の下位ビットを省略するモードであるモード1〜7のそれぞれには3ビットの符号“000”、“001”、“010”、“011”、“100”、“101”、“110”をモード情報として割り当て、モード8には4ビットの符号“1110”をモード情報として割り当てる。一方、G.711ビット列の下位ビットを省略しないモードであるモードα、β、γ、δのそれぞれには6ビットの符号“111100”、“111101”、“111110”、“111111”をモード情報として割り当てる。
G. In
<復号装置800>
図25及び図26を用いて実施例4の変形例1に係る復号装置800は、実施例1と同様の処理を行う。但し、省略ビット列における省略規則(モード1〜8)を示すモード情報は、拡張階層符号とロスレスビット列の組合せ(モードα〜δ)を示すモード情報よりも符号量が少ない点が異なる。以下、具体的に説明する。
<Decoding device 800>
The decoding device 800 according to the first modification of the fourth embodiment performs the same process as the first embodiment with reference to FIGS. 25 and 26. However, the mode information indicating the omission rule (
復号装置800中のモード判定部820において、符号化装置700A中のモード情報生成部740Aが生成するモード情報の可変長符号化と対応するように、G.711ビット列の下位ビットを省略するモードであるモード1〜8を表わすモード情報のビット数が、G.711ビット列の下位ビットを省略しないモードであるモードα〜δを表わすモード情報のビット数よりも少ない可変長符号で表わされたモード情報の復号を行う。
In the
モード判定部820は、図27の場合は、モード情報が2ビットの符号“00”、“01”、“10”である場合は、それぞれモード1、2、3であると判定し、モード情報が4ビットの符号“1100”、“1101”、“1110”、“1111”である場合は、それぞれモードα、β、γ、δであると判定する。
In the case of FIG. 27, the
モード判定部820は、図28の例の場合は、モード情報が3ビットの符号“000”、“001”、“010”、“011”、“100”、“101”、“110”である場合は、それぞれモード1、2、3、4、5、6であると判定し、モード情報が4ビットの符号“1110”である場合はモード8であると判定し、モード情報が6ビットの符号“111100”、“111101”、“111110”、“111111”である場合は、それぞれモードα、β、γ、δであると判定する。
In the case of the example of FIG. 28, the
<効果>
このような構成とすることで実施例4と同様の効果を得ることができる。さらに、モード1〜8を表わすモード情報のビット数が、モードα〜δを表わすモード情報のビット数よりも少なくなるようにモード情報を可変長符号化することで、下位ビット省略の聴覚品質への影響を小さくすることができるという効果を奏する。
<Effect>
By adopting such a configuration, the same effect as in the fourth embodiment can be obtained. Further, the mode information is variable length encoded so that the number of bits of the mode information representing the
[変形例2]
<符号化装置700B>
図21及び図22を用いて実施例4の変形例2に係る符号化装置700Bを説明する。なお、符号化装置700と異なる部分のみを説明する。符号化装置700Bは、同期語挿入部750B及び省略符号生成部760Bの処理内容が異なる。
[Modification 2]
<Encoder 700B>
An encoding apparatus 700B according to the second modification of the fourth embodiment will be described with reference to FIGS. 21 and 22. Only parts different from the encoding apparatus 700 will be described. In the encoding device 700B, the processing contents of the synchronization
<同期語挿入部750B>
同期語挿入部750Bは、省略符号生成部で省略ビット列L00を生成する際の生成規則(モード1〜8)を示すモード情報を受け取った場合(つまり、ロスレスビット列LLを単位時間当たりに変換した符号量が利用伝送帯域よりも大きい場合)、フレーム内の予め定められた位置に、特定の同期語を挿入する(s750B)。この特定の同期語とは、省略符号生成部760で省略ビット列L00を生成する際の生成規則を示す同期語を意味する。つまり、特定の同期語内に省略ビット列L00を生成する際の生成規則を示すモード情報が含まれる。同期語挿入部750Bは、空のフレームに特定の同期語を挿入し、省略符号生成部760に出力する。
<Synchronous
When the synchronization
同期語挿入部750Bは、モード情報生成部740からビット列選択部730で選択した組合せ(モードα〜δ)を示すモード情報を受け取った場合(つまり、ロスレスビット列LLを単位時間当たりに変換した符号量が利用伝送帯域以下の場合)、フレーム内の予め定められた位置に、ロスレスビット列LLを単位時間当たりに変換した符号量が利用伝送帯域以下の場合に共通する所定の同期語(以下、単に「所定の同期語」という)を挿入する(s550)。なお、所定の同期語は、拡張階層符号(低域補強ビット列L1と高域強調ビット列L2)とロスレスビット列LLの複数種類の組合せ全てに対応する1つの同期語である。同期語挿入部750Bは、同期語と、モード情報と、選択されたビット列とを含めたものを符号化装置700の出力ビット列Lとして出力する。
When the synchronization
<省略符号生成部760B>
省略符号生成部760Bは、特定の同期語を挿入されたフレームの残り部分に、スケーラブル符号化部110から受け取ったG.711ビット列L0を格納し、G.711ビット列から聴覚的に影響の少ない部分を省略して、単位時間当たりに換算した符号量が利用伝送帯域以下となる省略ビット列を生成する(s760B)。
<Omission Code Generation Unit 760B>
The abbreviated code generation unit 760 </ b> B receives the G.D. signal received from the
変形例2では、変形例1と同様の目的で、省略符号生成部で省略ビット列L00を生成する際の生成規則(モード1〜8)を示す同期語を生成する。
In the second modification, for the same purpose as in the first modification, a synchronization word indicating a generation rule (
モード情報生成部740からビット列選択部730で選択した組合せ(モードα〜δ)を示すモード情報を受け取った場合に用いる同期語と、省略符号生成部で省略ビット列L00を生成する際の生成規則(モード1〜8)を示すモード情報を受け取った場合に用いる同期語は異なるビットパターンを用いて表す。
A synchronization word used when mode information indicating the combination (modes α to δ) selected by the bit
図29、図30及び図31に示すように、生成規則(モード1〜8)を示すモード情報を受け取った場合に、モード情報のために省略するビット数を実質0ビットとすることができ、下位ビット省略の聴覚品質への影響を小さくすることができる。すなわち、生成規則(モード1〜8)を示すモード情報を受け取った場合に、K=1、m=0と設定しモード情報を同期語に埋め込んで同期語と合わせて8ビットとすることで、まれに現れるG.711ビット列L0の下位ビットを省略するモードを指定するビットを実質0bitにする。つまり、「所定の同期語」(同期語の後にモード情報はある)と「特定の同期語」(同期語の後にモード情報がない。この場合、省略符号生成部760Bにおいて所定の8サンプルだけ下位1ビットを省略する)という2種類の同期語を使う。
As shown in FIG. 29, FIG. 30 and FIG. 31, when the mode information indicating the generation rule (
図30は、G.711ビット列の下位ビットを省略するモードとしてモード1のみの1種類を用意し、G.711ビット列の下位ビットを省略しないモードとしてモードα〜δの4種類を含む、5種類の中からモードが選択される場合の、モードとモード情報の例である。G.711ビット列の下位ビットを省略しないモードであるモードα、β、γ、δのそれぞれには、8ビットの「所定の同期語」である“11111111”が同期語として割り当てられ、2ビットの符号“00”、“01”、“10”、“11”のうちの何れか1つをモード情報として割り当てる。G.711ビット列の下位ビットを省略するモードであるモード1には、8ビットの「特定の同期語」である“11111110”が同期語として割り当てられ、モード情報は割り当てられない。
FIG. As a mode in which the lower bits of the 711 bit string are omitted, only one
図31は、G.711ビット列の下位ビットを省略するモードとしてモード1〜3の3種類を用意し、G.711ビット列の下位ビットを省略しないモードとしてモードα〜δの4種類を含む、7種類の中からモードが選択される場合の、モードとモード情報の例である。G.711ビット列の下位ビットを省略しないモードであるモードα、β、γ、δのそれぞれには、8ビットの「所定の同期語」である“11111111”が同期語として割り当てられ、2ビットの符号“00”、“01”、“10”、“11”のうちの何れか1つがモード情報として割り当てる。G.711ビット列の下位ビットを省略するモードであるモード1〜3のそれぞれには、8ビットの「特定の同期語」である“11111100”、“11111101”、“1111110”が同期語として割り当てられ、モード情報は割り当てられない。
FIG. Three
<復号装置800B>
図25及び図26を用いて実施例4の変形例2に係る復号装置800Bを説明する。なお、復号装置800と異なる部分についてのみを説明する。復号装置800Bは、同期語判定部810B、モード判定部820Bの処理内容が異なる。
<Decoding device 800B>
A decoding apparatus 800B according to the second modification of the fourth embodiment will be described with reference to FIGS. 25 and 26. Only parts different from the decoding device 800 will be described. In the decoding device 800B, the processing contents of the synchronization word determination unit 810B and the mode determination unit 820B are different.
<同期語判定部810B>
同期語判定部810Bは、フレーム内の予め定められた位置に、同期語が存在するか否かを判定し(s810)、さらに、同期語が、省略規則を示す特定の同期語か、拡張階層符号(低域補強ビット列L1と高域強調ビット列L2)とロスレスビット列LLの複数種類の組合せ全てに対応する1つの所定の同期語と、の何れかであるかを判定する。同期語が所定の同期語の場合には、拡張階層符号とロスレスビット列LLの組合せ(モードα〜δ)を示すモード情報が存在すると考えられるため、入力ビット列をモード判定部820に出力する。(s820B)。
<Synchronous word determination unit 810B>
The synchronization word determination unit 810B determines whether or not there is a synchronization word at a predetermined position in the frame (s810), and whether the synchronization word is a specific synchronization word indicating an abbreviated rule or an extended hierarchy It is determined whether the code (low band reinforcement bit string L1 and high band emphasizing bit string L2) or one predetermined synchronization word corresponding to all of a plurality of combinations of the lossless bit string LL is determined. When the synchronization word is a predetermined synchronization word, it is considered that there is mode information indicating a combination of the extended hierarchical code and the lossless bit string LL (modes α to δ), and therefore the input bit string is output to the
同期判定部800Bは、図示しない記憶部に予め「所定の同期語」と省略規則を示す「特定の同期語」を記憶しておき、入力ビット列に含まれる同期語が特定の同期語である場合には、その特定の同期語が何れの省略規則を示すものであるかを判定し、対応するモード情報と入力ビット列をモード判定部820に出力する。
The synchronization determination unit 800B stores a “predetermined synchronization word” and a “specific synchronization word” indicating an abbreviation rule in advance in a storage unit (not shown), and the synchronization word included in the input bit string is a specific synchronization word Is determined which omission rule the specific synchronization word indicates, and outputs the corresponding mode information and input bit string to the
モード判定部820は、所定の同期語を含む入力ビット列を受け取った場合、モード情報がモードα〜δを示すので(s820)、復号装置600と同様の処理を行う(s620〜s655)。
When the
モード判定部820は、特定の同期語を含む入力ビット列を受け取った場合、モード情報が省略ビット列L00における省略規則を示すので(s820B)、モード情報と省略ビット列L00を挿入部840に出力する。なお、同期語判定部810Bとモード判定部820を一体化してもよい。つまり、モード判定部820の内部に同期語判定部810Bを設け、同期語判定部810Bが、特定の同期語を含む入力ビット列を受け取った場合、モード情報と省略ビット列L00を直接、挿入部840に出力してもよい。
When the
図30の例の場合であれば、同期語が“11111111”であるか否かを判定し、同期語が“11111111”である場合はモード情報が“00”、“01”、“10”、“11”のうちの何れであるかによりモードα〜δの何れであるかを判定し、同期語が“11111110”である場合はモード1であると判定する。
In the case of the example of FIG. 30, it is determined whether or not the synchronization word is “11111111”. If the synchronization word is “11111111”, the mode information is “00”, “01”, “10”, It is determined which mode is α to δ depending on which one is “11”, and when the synchronization word is “11111110”, it is determined that the
図31の例の場合であれば、同期語が“11111111”であるか否かを判定し、同期語が“11111111”である場合はモード情報が“00”、“01”、“10”、“11”のうちの何れであるかによりモードα〜δの何れであるかを判定し、同期語が“11111100”である場合はモード1、同期語が“11111101”である場合はモード2、同期語が“11111110”である場合はモード3であると判定する。
In the case of the example of FIG. 31, it is determined whether or not the synchronization word is “11111111”. If the synchronization word is “11111111”, the mode information is “00”, “01”, “10”, It is determined which of the modes α to δ depending on which of “11”,
<効果>
このような構成とすることで実施例4と同様の効果を得ることができる。さらに、省略符号生成部で省略ビット列を生成する際の生成規則(モード1〜8)を示すモード情報は、同期語に含まれるため、モード1〜8を表わすモード情報のビット数を実質0ビットとすることができ、下位ビット省略の聴覚品質への影響を小さくすることができるという効果を奏する。
<Effect>
By adopting such a configuration, the same effect as in the fourth embodiment can be obtained. Furthermore, since the mode information indicating the generation rule (
<シミュレーション結果>
図32は、実施例1の符号化装置100を用いて符号化を行った場合の圧縮後の1フレーム当たりのバイト数を示す。ほとんどのフレームで(単位時間当たりに換算した場合に)16kbit/s以上の符号量を削減できているので、低域補強ビット列L1か高域強調ビット列L2を一緒に伝送することができ、G.711ビット列L0のみを伝送する場合よりも品質の高い信号を伝送することができる。
<Simulation results>
FIG. 32 shows the number of bytes per frame after compression when encoding is performed using the
<その他の変形例>
IPパケットを用いた伝送の場合は、図33のようなIPパケット構成とすればよい。すなわち、1つのIPヘッダに対してIPペイロードとしてビット列LL、L1、L2を含め、モード情報はIPヘッダに含めて伝送すればよい。この場合は、全てのモードのモード情報を同一のビット数で表わす固定長符号を用いてもよいし、図27や図28のような可変長符号を用いてもよい。また、図12Bに示すように、ビット列LL、L1、L2をそれぞれ別のIPパケットとし、LLを含むIPパケットのヘッダにモード情報を含めて伝送してもよい。
<Other variations>
In the case of transmission using IP packets, an IP packet configuration as shown in FIG. 33 may be used. That is, the bit information LL, L1, and L2 may be included as an IP payload for one IP header, and the mode information may be included in the IP header for transmission. In this case, a fixed-length code representing the mode information of all modes with the same number of bits may be used, or a variable-length code as shown in FIGS. 27 and 28 may be used. Also, as shown in FIG. 12B, the bit strings LL, L1, and L2 may be different IP packets, and the mode information may be included in the header of the IP packet including the LL.
また、スケーラブル符号化及びロスレス符号化としては、G.711.1やG.711.0以外の符号化であってもよく、また、異なるメディアの符号化(映像符号化)であるMPEG−4SVCとMPEG−4ALS(音響符号化)を組合せてもよい。 Further, as scalable coding and lossless coding, G.I. 711.1 and G.I. The encoding may be other than 711.0, and MPEG-4SVC and MPEG-4ALS (acoustic encoding), which are encodings of different media (video encoding), may be combined.
<プログラム>
コンピュータを上述した符号化装置及び復号装置として機能させてもよい。この場合はコンピュータに、目的とする装置(各種実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
<Program>
The computer may function as the above-described encoding device and decoding device. In this case, each process of a program for causing a computer to function as a target device (a device having the functional configuration shown in the drawings in various embodiments) or a processing procedure (shown in each embodiment) is processed by the computer. A program to be executed by the computer may be downloaded from a recording medium such as a CD-ROM, a magnetic disk, or a semiconductor storage device or via a communication line into the computer, and the program may be executed.
100、300、500、700、700A、700B 符号化装置
200、600、800、800B 復号装置
110 スケーラブル符号化部
120 ロスレス符号化部
230 ロスレス復号部
250、650、850 スケーラブル復号部
330、530、730 ビット列選択部
533、740、740A モード情報生成部
550、750、750B 同期語挿入部
610、810B 同期語判定部
620、820 モード判定部
760、760B 省略符号生成部
840 挿入部
100, 300, 500, 700, 700A,
Claims (14)
前記基本階層符号をロスレス符号化し、ロスレス符号を生成するロスレス符号化部と、
前記ロスレス符号と前記拡張階層符号との複数種類の組合せの中から、単位時間当たりの符号量が利用伝送帯域以下であって、かつ、単位時間当たりの符号量が最も大きい組合せを選択する符号選択部と、
前記ロスレス符号の単位時間当たりの符号量が利用伝送帯域よりも大きい場合、前記基本階層符号から聴覚的または視覚的に影響の少ない部分を省略し、単位時間当たりの符号量が利用伝送帯域以下となる省略符号を生成する省略符号生成部と、
前記符号選択部で選択した組合せを示すモード情報、または、前記省略符号生成部で前記省略符号を生成する際の生成規則を示すモード情報を生成するモード情報生成部とを含み、
前記モード情報生成部が生成するモード情報は、前記生成規則を示すモード情報の方が前記組合せを示すモード情報よりも符号量が少ない、
ことを特徴とする符号化装置。 A scalable encoding unit that performs scalable encoding of a digital input signal and generates a base layer code and one or more enhancement layer codes;
A lossless encoding unit for lossless encoding the base layer code to generate a lossless code;
Code selection for selecting a combination having a code amount per unit time that is equal to or less than a use transmission band and having the largest code amount per unit time from a plurality of types of combinations of the lossless code and the enhancement layer code And
When the amount of code per unit time of the lossless code is larger than the use transmission band, the portion of the base layer code that is not affected acoustically or visually is omitted, and the code amount per unit time is equal to or less than the use transmission band. An ellipsis generator for generating an ellipsis,
Mode information indicating a combination selected by the code selection unit, or a mode information generation unit that generates mode information indicating a generation rule when generating the abbreviated code by the abbreviated code generation unit,
The mode information generated by the mode information generation unit has less code amount in the mode information indicating the generation rule than in the mode information indicating the combination.
An encoding apparatus characterized by that.
前記基本階層符号をロスレス符号化し、ロスレス符号を生成するロスレス符号化部と、
前記ロスレス符号と前記拡張階層符号との複数種類の組合せの中から、単位時間当たりの符号量が利用伝送帯域以下であって、かつ、単位時間当たりの符号量が最も大きい組合せを選択する符号選択部と、
前記ロスレス符号の単位時間当たりの符号量が利用伝送帯域よりも大きい場合、前記基本階層符号から聴覚的または視覚的に影響の少ない部分を省略し、単位時間当たりの符号量が利用伝送帯域以下となる省略符号を生成する省略符号生成部と、を含み、
前記ロスレス符号の単位時間当たりの符号量が利用伝送帯域よりも大きい場合は、前記省略符号生成部で前記省略符号を生成する際の生成規則を示す特定の同期語を、上記以外の場合は、上記以外の場合に共通する同期語を、フレーム内の予め定められた位置に挿入する同期語挿入部を備える、
ことを特徴とする符号化装置。 A scalable encoding unit that performs scalable encoding of a digital input signal and generates a base layer code and one or more enhancement layer codes;
A lossless encoding unit for lossless encoding the base layer code to generate a lossless code;
Code selection for selecting a combination having a code amount per unit time that is equal to or less than a use transmission band and having the largest code amount per unit time from a plurality of types of combinations of the lossless code and the enhancement layer code And
When the amount of code per unit time of the lossless code is larger than the use transmission band, the portion of the base layer code that is not affected acoustically or visually is omitted, and the code amount per unit time is equal to or less than the use transmission band. An abbreviated code generation unit that generates an abbreviated code
When the code amount per unit time of the lossless code is larger than the use transmission band, a specific synchronization word indicating a generation rule when generating the abbreviated code in the abbreviated code generation unit, otherwise, A synchronization word insertion unit that inserts a synchronization word common to cases other than the above at a predetermined position in the frame,
An encoding apparatus characterized by that.
前記基本階層符号をロスレス符号化し、ロスレス符号を生成するロスレス符号化部と、
前記ロスレス符号と前記拡張階層符号との複数種類の組合せの中から、単位時間当たりの符号量が利用伝送帯域以下であって、かつ、単位時間当たりの符号量が最も大きい組合せを選択する符号選択部と、を含み、
前記拡張階層符号は低域補強符号と高域強調符号からなり、前記高域強調符号には高域を強調する際のゲインに対応する情報が含まれ、
前記符号選択部において、前記ロスレス符号と前記低域補強符号の組合せ、または、前記ロスレス符号と前記高域強調符号の組合せを選択する際に、前記ゲインが閾値以下の場合には前記ロスレス符号と前記低域補強符号の組合せを選択する、
ことを特徴とする符号化装置。 A scalable encoding unit that performs scalable encoding of a digital input signal and generates a base layer code and one or more enhancement layer codes;
A lossless encoding unit for lossless encoding the base layer code to generate a lossless code;
Code selection for selecting a combination having a code amount per unit time that is equal to or less than a use transmission band and having the largest code amount per unit time from a plurality of types of combinations of the lossless code and the enhancement layer code And
The enhancement layer code includes a low-frequency reinforcement code and a high-frequency emphasis code, and the high-frequency emphasis code includes information corresponding to a gain when emphasizing a high frequency,
In the code selection unit, when selecting a combination of the lossless code and the low-frequency reinforcement code, or a combination of the lossless code and the high-frequency emphasis code, if the gain is equal to or less than a threshold, the lossless code Selecting a combination of the low-frequency reinforcement codes;
An encoding apparatus characterized by that.
入力符号に前記省略符号が含まれる場合には、前記省略符号の省略された部分に所定の値を挿入したものを基本階層符号とする挿入部と、
入力符号に前記拡張階層符号と前記ロスレス符号の組合せが含まれる場合には、前記ロスレス符号を復号して基本階層符号を得るロスレス復号部と、
前記挿入部で得られた基本階層符号、または、前記ロスレス復号部で得られた基本階層符号と前記拡張階層符号、を復号して出力信号を得るスケーラブル復号部と、
を有する復号装置。 The input code is a combination of one or more enhancement layer codes of a predetermined scalable coding and a lossless code obtained by lossless coding of the base layer code of the scalable coding, or auditory or visual from the base layer code. In addition, the input code includes mode information indicating a combination of the enhancement layer code and the lossless code, or mode information indicating an abbreviation rule in the abbreviated code. A mode determination unit that determines an abbreviation rule in the abbreviation code, or a combination of the enhancement layer code and the lossless code, using the mode information;
When the abbreviation code is included in the input code, an insertion unit having a base layer code that is obtained by inserting a predetermined value in a portion where the abbreviation code is omitted;
When the input code includes a combination of the enhancement layer code and the lossless code, a lossless decoding unit that decodes the lossless code to obtain a base layer code;
A scalable decoding unit that obtains an output signal by decoding the base layer code obtained by the insertion unit, or the base layer code obtained by the lossless decoding unit and the enhancement layer code;
A decoding device.
前記省略符号における省略規則を示すモード情報は、前記拡張階層符号と前記ロスレス符号の組合せを示すモード情報よりも符号量が少ない、
ことを特徴とする復号装置。 The decoding device according to claim 4, wherein
The mode information indicating the omission rule in the abbreviation code has a smaller code amount than the mode information indicating the combination of the enhancement layer code and the lossless code.
A decoding device characterized by the above.
前記入力符号はフレーム内の予め定められた位置に同期語を有し、前記同期語は前記省略符号における省略規則を示す特定の同期語と、前記拡張階層符号と前記ロスレス符号の複数種類の組合せの全てに対応する1つの所定の同期語と、の何れかであり、
フレーム内の予め定められた位置に存在する同期語が、前記何れの同期語であるかを判定し、前記同期語が前記省略規則を示す特定の同期語である場合は、該同期語が何れの省略規則を示すものであるかを判定する同期語判定部を備える、
ことを特徴とする復号装置。 The decoding device according to claim 4, wherein
The input code has a synchronization word at a predetermined position in a frame, the synchronization word is a specific synchronization word indicating an abbreviation rule in the abbreviation code, and a plurality of combinations of the enhancement layer code and the lossless code One of the predetermined synchronization words corresponding to all of
It is determined which sync word is a sync word existing at a predetermined position in a frame, and when the sync word is a specific sync word indicating the omission rule, which sync word is A synchronization word determination unit that determines whether the omission rule is shown.
A decoding device characterized by the above.
前記基本階層符号をロスレス符号化し、ロスレス符号を生成するロスレス符号化ステップと、
前記ロスレス符号と前記拡張階層符号との複数種類の組合せの中から、単位時間当たりの符号量が利用伝送帯域以下であって、かつ、単位時間当たりの符号量が最も大きい組合せを選択する符号選択ステップと、
前記ロスレス符号の単位時間当たりの符号量が利用伝送帯域よりも大きい場合、前記基本階層符号から聴覚的または視覚的に影響の少ない部分を省略し、単位時間当たりの符号量が利用伝送帯域以下となる省略符号を生成する省略符号生成ステップと、
前記符号選択ステップで選択した組合せを示すモード情報、または、前記省略符号生成ステップで前記省略符号を生成する際の生成規則を示すモード情報を生成するモード情報生成ステップを含み、
前記生成規則を示すモード情報が、前記組合せを示すモード情報よりも符号量が少ない、
ことを特徴とする符号化方法。 A scalable encoding step of scalable encoding a digital input signal to generate a base layer code and one or more enhancement layer codes;
A lossless encoding step of lossless encoding the base layer code to generate a lossless code;
Code selection for selecting a combination having a code amount per unit time that is equal to or less than a use transmission band and having the largest code amount per unit time from a plurality of types of combinations of the lossless code and the enhancement layer code Steps,
When the amount of code per unit time of the lossless code is larger than the use transmission band, the portion of the base layer code that is not affected acoustically or visually is omitted, and the code amount per unit time is equal to or less than the use transmission band. An abbreviated code generation step for generating an abbreviated code
A mode information generation step for generating mode information indicating a combination selected in the code selection step, or mode information indicating a generation rule when generating the abbreviated code in the abbreviated code generation step;
The mode information indicating the generation rule has a smaller code amount than the mode information indicating the combination.
An encoding method characterized by the above.
前記基本階層符号をロスレス符号化し、ロスレス符号を生成するロスレス符号化ステップと、
前記ロスレス符号と前記拡張階層符号との複数種類の組合せの中から、単位時間当たりの符号量が利用伝送帯域以下であって、かつ、単位時間当たりの符号量が最も大きい組合せを選択する符号選択ステップと、
前記ロスレス符号の単位時間当たりの符号量が利用伝送帯域よりも大きい場合、前記基本階層符号から聴覚的または視覚的に影響の少ない部分を省略し、単位時間当たりの符号量が利用伝送帯域以下となる省略符号を生成する省略符号生成ステップと、
前記ロスレス符号の単位時間当たりの符号量が利用伝送帯域よりも大きい場合は、前記省略符号生成ステップで前記省略符号を生成する際の生成規則を示す特定の同期語を、上記以外の場合は、上記以外の場合に共通する同期語を、フレーム内の予め定められた位置に挿入する同期語挿入ステップを含む、
ことを特徴とする符号化方法。 A scalable encoding step of scalable encoding a digital input signal to generate a base layer code and one or more enhancement layer codes;
A lossless encoding step of lossless encoding the base layer code to generate a lossless code;
Code selection for selecting a combination having a code amount per unit time that is equal to or less than a use transmission band and having the largest code amount per unit time from a plurality of types of combinations of the lossless code and the enhancement layer code Steps,
When the amount of code per unit time of the lossless code is larger than the use transmission band, the portion of the base layer code that is not affected acoustically or visually is omitted, and the code amount per unit time is equal to or less than the use transmission band. An abbreviated code generation step for generating an abbreviated code
When the code amount per unit time of the lossless code is larger than the use transmission band, a specific synchronization word indicating a generation rule when generating the abbreviated code in the abbreviated code generation step, otherwise, Including a synchronization word insertion step of inserting a synchronization word common to cases other than the above at a predetermined position in the frame,
An encoding method characterized by the above.
前記基本階層符号をロスレス符号化し、ロスレス符号を生成するロスレス符号化ステップと、
前記ロスレス符号と前記拡張階層符号との複数種類の組合せの中から、単位時間当たりの符号量が利用伝送帯域以下であって、かつ、単位時間当たりの符号量が最も大きい組合せを選択する符号選択ステップとを含み、
前記拡張階層符号は低域補強符号と高域強調符号からなり、前記高域強調符号には高域を強調する際のゲインに対応する情報が含まれ、
前記符号選択ステップにおいて、前記ロスレス符号と前記低域補強符号の組合せ、または、前記ロスレス符号と前記高域強調符号の組合せを選択する際に、前記ゲインが閾値以下の場合には前記ロスレス符号と前記低域補強符号の組合せを選択する、
ことを特徴とする符号化方法。 A scalable encoding step of scalable encoding a digital input signal to generate a base layer code and one or more enhancement layer codes;
A lossless encoding step of lossless encoding the base layer code to generate a lossless code;
Code selection for selecting a combination having a code amount per unit time that is equal to or less than a use transmission band and having the largest code amount per unit time from a plurality of types of combinations of the lossless code and the enhancement layer code Including steps,
The enhancement layer code includes a low-frequency reinforcement code and a high-frequency emphasis code, and the high-frequency emphasis code includes information corresponding to a gain when emphasizing a high frequency,
In the code selection step, when the combination of the lossless code and the low-frequency reinforcement code, or the combination of the lossless code and the high-frequency emphasis code is selected, if the gain is equal to or less than a threshold, the lossless code Selecting a combination of the low-frequency reinforcement codes;
An encoding method characterized by the above.
前記モード情報を用いて、前記省略符号における省略規則、または、前記拡張階層符号と前記ロスレス符号の組合せを判定するモード判定ステップと、
入力符号に前記省略符号が含まれる場合には、前記省略符号の省略された部分に所定の値を挿入したものを基本階層符号とする挿入ステップと、
入力符号に前記拡張階層符号と前記ロスレス符号の組合せが含まれる場合には、前記ロスレス符号を復号して基本階層符号を得るロスレス復号ステップと、
前記挿入ステップで得られた基本階層符号、または、前記ロスレス復号ステップで得られた基本階層符号と前記拡張階層符号、を復号して出力信号を得るスケーラブル復号ステップと、
を有する復号方法。 The input code is a combination of one or more enhancement layer codes of a predetermined scalable coding and a lossless code obtained by lossless coding of the base layer code of the scalable coding, or auditory or visual from the base layer code. In addition, the input code includes mode information indicating a combination of the enhancement layer code and the lossless code, or mode information indicating an abbreviation rule in the abbreviated code. Including
A mode determination step of determining an abbreviation rule in the abbreviation code or a combination of the enhancement layer code and the lossless code using the mode information;
When the input code includes the abbreviation code, an insertion step in which a predetermined value is inserted into a portion where the abbreviation code is omitted is a base layer code;
If the input code includes a combination of the enhancement layer code and the lossless code, a lossless decoding step of decoding the lossless code to obtain a base layer code;
A scalable decoding step of obtaining an output signal by decoding the base layer code obtained in the insertion step, or the base layer code obtained in the lossless decoding step and the enhancement layer code;
A decryption method.
前記省略符号における省略規則を示すモード情報は、前記拡張階層符号と前記ロスレス符号の組合せを示すモード情報よりも符号量が少ない、
ことを特徴とする復号方法。 The decoding method according to claim 10, wherein
The mode information indicating the omission rule in the abbreviation code has a smaller code amount than the mode information indicating the combination of the enhancement layer code and the lossless code.
A decoding method characterized by the above.
前記入力符号はフレーム内の予め定められた位置に同期語を有し、前記同期語は前記省略符号における省略規則を示す特定の同期語と、前記拡張階層符号と前記ロスレス符号の複数種類の組合せ全てに対応する1つの所定の同期語と、の何れかであり、
フレーム内の予め定められた位置に存在する同期語が、前記何れの同期語であるかを判定し、前記同期語が前記省略規則を示す特定の同期語である場合は、該同期語が何れの省略規則を示すものであるかを判定する同期語判定ステップを備える、
ことを特徴とする復号方法。 The decoding method according to claim 10, wherein
The input code has a synchronization word at a predetermined position in a frame, the synchronization word is a specific synchronization word indicating an abbreviation rule in the abbreviation code, and a plurality of combinations of the enhancement layer code and the lossless code One of the predetermined sync words corresponding to all,
It is determined which sync word is a sync word existing at a predetermined position in a frame, and when the sync word is a specific sync word indicating the omission rule, which sync word is A synchronization word determination step of determining whether the omission rule is
A decoding method characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010234728A JP5466618B2 (en) | 2010-10-19 | 2010-10-19 | Encoding device, decoding device, encoding method, decoding method, and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010234728A JP5466618B2 (en) | 2010-10-19 | 2010-10-19 | Encoding device, decoding device, encoding method, decoding method, and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012088502A JP2012088502A (en) | 2012-05-10 |
JP5466618B2 true JP5466618B2 (en) | 2014-04-09 |
Family
ID=46260189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010234728A Active JP5466618B2 (en) | 2010-10-19 | 2010-10-19 | Encoding device, decoding device, encoding method, decoding method, and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5466618B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6575407B2 (en) * | 2016-03-22 | 2019-09-18 | ヤマハ株式会社 | Audio equipment and acoustic signal transfer method |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1762099B (en) * | 2003-04-28 | 2010-10-13 | 日本电信电话株式会社 | Floating point type digital signal reversible encoding method, decoding method and devices |
EP2228791B1 (en) * | 2004-03-25 | 2015-05-06 | DTS, Inc. | Scalable lossless audio codec and authoring tool |
-
2010
- 2010-10-19 JP JP2010234728A patent/JP5466618B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012088502A (en) | 2012-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7668723B2 (en) | Scalable lossless audio codec and authoring tool | |
KR100717600B1 (en) | Audio file format conversion | |
US8374858B2 (en) | Scalable lossless audio codec and authoring tool | |
US7835906B1 (en) | Encoding method, apparatus and device and decoding method | |
JP4056466B2 (en) | Audio encoding method, decoding method, encoding apparatus and decoding apparatus capable of adjusting bit rate | |
KR20030014752A (en) | Audio coding | |
JP2004272260A (en) | Encoding method and its device, and decoding method and its device for digital data using band expansion technology | |
JP6356360B2 (en) | Voice communication system | |
JP2011512563A (en) | Method and means for encoding background noise information | |
JP5446013B2 (en) | Coding apparatus and decoding apparatus for adaptive differential pulse code modulation | |
JP4647923B2 (en) | Method and apparatus for encoding / decoding digital data | |
JP4022111B2 (en) | Signal encoding apparatus and signal encoding method | |
KR101207110B1 (en) | A method of encoding scalable lossless bitstream | |
JP2010146006A (en) | Encoding apparatus and decoding apparatus | |
JP5466618B2 (en) | Encoding device, decoding device, encoding method, decoding method, and program thereof | |
JP2020524293A (en) | Audio signal encoding and decoding | |
US20080118164A1 (en) | Method for image compression coding | |
JP3365331B2 (en) | Vector quantization apparatus and vector quantization method | |
JP3071388B2 (en) | Variable rate speech coding | |
JP2005151327A (en) | Pcm data compressing/decompressing method and apparatus | |
JPH069345B2 (en) | Speech analysis / synthesis device | |
JP2004138789A (en) | Digital signal coding method, decoding method, encoder, decoder, and programs therefor | |
JP4256364B2 (en) | Signal encoding device, signal encoding method, signal encoding program, and recording medium | |
JP2005043761A (en) | Information amount conversion device and information amount conversion system | |
JPH0730462A (en) | Audio transmission method and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130910 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131101 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140124 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5466618 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |