JP2006086863A - Image stream transforming apparatus - Google Patents
Image stream transforming apparatus Download PDFInfo
- Publication number
- JP2006086863A JP2006086863A JP2004270105A JP2004270105A JP2006086863A JP 2006086863 A JP2006086863 A JP 2006086863A JP 2004270105 A JP2004270105 A JP 2004270105A JP 2004270105 A JP2004270105 A JP 2004270105A JP 2006086863 A JP2006086863 A JP 2006086863A
- Authority
- JP
- Japan
- Prior art keywords
- encoding
- picture
- image stream
- syntax
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
本発明は、画像符号化されたビットストリーム(画像ビットストリーム、画像ストリーム、符号化ストリームなどと呼ばれることもある)に対して、再変換処理を行い解像度・符号化ビットレート・符号化方式などを変換することが可能な画像ストリーム変換装置(トランスコーダとも呼ばれる)に関し、特に、画像の特性を考慮した良好な変換方法を実現することが可能な画像ストリーム変換装置に関する。 The present invention performs a re-conversion process on an image-encoded bit stream (sometimes called an image bit stream, an image stream, an encoded stream, etc.) to obtain a resolution, an encoding bit rate, an encoding method, and the like. More particularly, the present invention relates to an image stream conversion apparatus capable of realizing a good conversion method in consideration of image characteristics.
近年、デジタル化された画像信号に対して高能率符号化による圧縮された情報を用いて、衛星波、地上波、電話回線などの様々な伝送路を通じて、情報を配信するサービスが実用化されている。このようなサービスでは、動画像・音声などの情報を配信する際、動画像・音声の高能率符号化方式として、国際規格であるMPEG2(Moving Picture Experts Group Phase 2)が用いられている。MPEG2は、画像信号の隣接画素間(空間方向)の相関や、隣接フレーム間又は隣接フィールド間(時間方向)の相関を利用して、画像信号の情報量を圧縮する符号化方式である。 In recent years, services that distribute information through various transmission paths such as satellite waves, terrestrial waves, and telephone lines using information compressed by high-efficiency coding for digitized image signals have been put into practical use. Yes. In such a service, when distributing information such as moving images / sounds, MPEG2 (Moving Picture Experts Group Phase 2), which is an international standard, is used as a high-efficiency encoding method for moving images / sounds. MPEG2 is an encoding method that compresses the information amount of an image signal by using a correlation between adjacent pixels (spatial direction) of an image signal and a correlation between adjacent frames or adjacent fields (time direction).
MPEG2規格における画像符号化は、下記のようなアルゴリズムで処理される。まず、時間的に連続する画像フレームを、基準フレームと予測フレームに振り分ける。基準フレームは、空間方向の相関のみを用いて符号化することで、そのフレームの符号化データのみで、元の画像を復元することができる。一方、予測フレームは、基準となるフレームからの時間方向の相関と空間方向の相関とを用いて符号化することにより、基準フレームに比べて高い符号化効率を実現することができる。なお、予測フレームの符号化データは、復元された基準フレームと、予測フレームの符号化データとによって復元される。 Image encoding in the MPEG2 standard is processed by the following algorithm. First, temporally continuous image frames are divided into a reference frame and a prediction frame. By encoding the reference frame using only the spatial correlation, the original image can be restored using only the encoded data of the frame. On the other hand, the prediction frame is encoded using the correlation in the time direction and the correlation in the spatial direction from the reference frame, thereby realizing higher encoding efficiency than the reference frame. Note that the encoded data of the prediction frame is recovered by the recovered reference frame and the encoded data of the prediction frame.
次に、具体的なMPEG2画像符号化で用いられる符号化体系について、図4を用いて説明する。なお、図4では、必要に応じて、識別可能となるように各ピクチャタイプに番号を付している。図4(A)中に『I』と示されている基準フレームであるIピクチャ(Iフレーム)は、定期的に存在し、復号処理の基準となる情報である。一方、予測フレームには、図4(A)中に『P』と示されている、時間的に前(過去)の基準フレームからの予測のみで符号化されるPピクチャ(Pフレーム)と、図4(A)中に『B』と示されている、時間的に前後(過去と未来)の2つの基準フレームから予測符号化されるBピクチャ(Bフレーム)とが存在する。なお、図4(A)中の矢印は、Pピクチャ及びBピクチャに係る予測方向を示すものである。Pピクチャは、自身が予測フレームであるとともに、他のPピクチャやBピクチャの基準フレームとしても利用される。 Next, a specific encoding system used in MPEG2 image encoding will be described with reference to FIG. In FIG. 4, numbers are assigned to the picture types as necessary so that they can be identified. An I picture (I frame), which is a reference frame indicated as “I” in FIG. 4A, is periodically present and is information serving as a reference for decoding processing. On the other hand, in the prediction frame, a P picture (P frame) encoded by only prediction from a temporally previous (past) reference frame, indicated by “P” in FIG. There is a B picture (B frame) that is predictively encoded from two reference frames before and after (past and future) in time, which are indicated as “B” in FIG. Note that arrows in FIG. 4A indicate prediction directions related to the P picture and the B picture. The P picture itself is a prediction frame and is also used as a reference frame for other P pictures and B pictures.
Iピクチャの画像信号は、輝度信号に基づいて水平16画素×垂直16画素のマクロブロックと呼ばれる処理単位に分割される。分割されたマクロブロックのデータは、更に8画素×8画素単位の2次元ブロックに分割され、直交変換の一種であるDCT(Discrete Cosine Transform:離散コサイン変換)処理が行われる。 An I-picture image signal is divided into processing units called macroblocks of horizontal 16 pixels × vertical 16 pixels based on the luminance signal. The divided macroblock data is further divided into two-dimensional blocks of 8 pixels × 8 pixels and subjected to DCT (Discrete Cosine Transform) processing which is a kind of orthogonal transform.
DCT処理後の信号は、その2次元ブロックの周波数成分に準じた値を示すため、一般的な画像では低域に成分が集中する。また、高周波数成分の情報劣化は低周波数成分の情報劣化よりも視覚的に目立ちにくい性質がある。よって、低域成分を細かく、高域成分を粗く量子化し、その係数成分と成分が無い係数0の連続する長さを可変長符号化することにより、情報量を圧縮している。 Since the signal after the DCT processing shows a value according to the frequency component of the two-dimensional block, the component is concentrated in a low band in a general image. In addition, information degradation of high frequency components has a property that is visually less noticeable than information degradation of low frequency components. Therefore, the amount of information is compressed by finely quantizing the low frequency components and coarsely quantizing the high frequency components, and variable length coding the coefficient component and the continuous length of coefficient 0 having no component.
Pピクチャの画像信号も、Iピクチャと同様に、輝度信号に基づいて水平16画素×垂直16画素のマクロブロックの単位に分割される。Pピクチャでは、マクロブロックごとに基準フレームとの間の動きベクトルが計算される。動きベクトルの検出は、一般的にブロックマッチングにより求められる。このブロックマッチングでは、マクロブロックの各画素と、動きベクトル値だけマクロブロックの存在する水平・垂直の位置を動かした場所の基準フレームを水平16画素×垂直16画素にブロック化した各画素との差分絶対値総和(あるいは差分2乗総和)が求められ、その最小値を取る動きベクトルの値が、検出された動きベクトルとして出力される。 Similarly to the I picture, the P picture image signal is also divided into units of macroblocks of horizontal 16 pixels × vertical 16 pixels based on the luminance signal. In the P picture, a motion vector between the reference frame and each macroblock is calculated. Motion vector detection is generally obtained by block matching. In this block matching, the difference between each pixel of the macroblock and each pixel obtained by blocking the reference frame where the horizontal / vertical position where the macroblock exists by the motion vector value is moved into 16 horizontal pixels × 16 vertical pixels. The absolute value sum (or the sum of squared differences) is obtained, and the value of the motion vector taking the minimum value is output as the detected motion vector.
マクロブロックの各画素は、動きベクトルにより切り出された2次元ブロックの各画素との差分が取られる。正確な動きベクトルが検出された場合には、差分ブロックの情報量は元のマクロブロックの持っている情報量よりも大幅に少なくなるため、Iピクチャよりも粗い量子化処理が可能となる。実際には、差分ブロックを符号化するか、あるいは非差分ブロック(イントラ(Intra)ブロック)を符号化するかが選択され(予測モード判定)、選択されたブロックに対してIピクチャと同様のDCT・可変長符号化処理が施されて情報量が圧縮される。 Each pixel of the macro block is subjected to a difference from each pixel of the two-dimensional block cut out by the motion vector. When an accurate motion vector is detected, the information amount of the difference block is significantly smaller than the information amount of the original macroblock, so that coarser quantization processing than that of the I picture is possible. Actually, it is selected whether to encode a differential block or a non-differential block (intra block) (prediction mode determination), and DCT similar to an I picture is selected for the selected block. A variable length encoding process is performed to compress the amount of information.
また、Bピクチャに関しても、Pピクチャと同様の処理が行われるが、基準フレームであるI、Pピクチャが時間的に前後に存在しており、各基準フレームとの間で動きベクトルの検出が行われる。Bピクチャでは予測の選択肢が、前基準フレームからの予測(フォワード(Forward)予測)・後基準フレームからの予測(バックワード(Backward)予測)・2つの予測ブロックの画素ごとの平均値(アベレージ(Average)予測)の3種類存在し、イントラブロックのみで復号を行う方式を合わせた4種類の方式の中から予測モード判定が行われる。 In addition, the same processing as that for the P picture is performed for the B picture, but the I and P pictures that are the reference frames exist before and after the time frame, and motion vectors are detected between the reference frames. Is called. In the B picture, prediction options are prediction from a previous reference frame (forward prediction), prediction from a subsequent reference frame (backward prediction), and an average value (average (average (2)) of two prediction blocks. There are three types of (average) prediction), and prediction mode determination is performed from among four types of schemes including a scheme for decoding only by intra blocks.
Bピクチャは、時間的に前後の基準フレームから予測が可能となるため、Pピクチャよりも更に予測効率が向上する。したがって、一般的に、Bピクチャは、Pピクチャよりも更に粗く量子化される。なお、Bピクチャとして選択されたブロックは、I、Pピクチャと同様の符号化処理が行われる。 B pictures can be predicted from temporally preceding and following reference frames, so that prediction efficiency is further improved than P pictures. Therefore, in general, a B picture is quantized more coarsely than a P picture. The block selected as the B picture is subjected to the same encoding process as the I and P pictures.
Bピクチャの復号処理では、時間的に後の基準フレームからの予測処理も行われるため、この基準フレームは、Bピクチャに先行して符号化される必要がある。このため、符号化処理の際に、記録入力された画像信号は、図4(B)に示されるように、Bピクチャの基準フレームであるIピクチャ又はPピクチャの後にBピクチャが配置されるように、順序の並べ替えが行われて符号化される。すなわち、符号化処理時には、復号処理時の符号化順序に鑑みて、原画像の入力オーダの順序の並べ替えが行われる。一方、復号処理では、図4(C)に示すように、図4(B)の順序に対して逆の並べ替えを行って出力することにより、入力された画像信号の順序で復号画像が再生可能となる。 In the decoding process of a B picture, a prediction process from a later reference frame is also performed, and thus this reference frame needs to be encoded before the B picture. For this reason, in the encoding process, as shown in FIG. 4B, the image signal recorded and input is arranged such that the B picture is arranged after the I picture or P picture which is the reference frame of the B picture. Then, the order is rearranged and encoded. That is, during the encoding process, the order of the input order of the original image is rearranged in view of the encoding order during the decoding process. On the other hand, in the decoding process, as shown in FIG. 4C, the decoded image is reproduced in the order of the input image signals by performing the reverse rearrangement with respect to the order of FIG. It becomes possible.
次に、MPEG2画像符号化を実現するための一般的な符号化装置と復号装置について説明する。まず、従来の技術において一般的な符号化装置について説明する。図5は、従来の技術に係る一般的な符号化装置の一例を示すブロック図である。図5において、入力端子201から入力されたデジタル画像信号(入力画像信号)は、入力画像メモリ202に供給されて記憶され、符号化シンタックスに従って符号化される順番に並べ替えを行うために遅延される。そして、入力画像メモリ202から出力されたデジタル画像信号は、2次元ブロック変換回路203において、マクロブロックの切り出し処理が行われる。
Next, a general encoding device and decoding device for realizing MPEG2 image encoding will be described. First, a general encoding apparatus in the prior art will be described. FIG. 5 is a block diagram showing an example of a general encoding apparatus according to the conventional technique. In FIG. 5, the digital image signal (input image signal) input from the
基準フレームに関するマクロブロックデータは、減算器204を介して直交変換回路205に供給され、ここで、水平8画素×垂直8画素単位でDCT処理が行われて、DCT係数が算出される。DCT係数は、さらに輝度信号に基づいて水平16画素×垂直16画素のマクロブロック単位にまとめられて、量子化回路206に送られる。量子化回路206においては、例えば、周波数成分ごとに異なる値を持つ量子化マトリクスによって、DCT係数ごとに異なる値で除算することにより、量子化処理が行われる。量子化処理されたDCT係数は符号化回路214に送られ、符号化回路214において、符号化テーブル215の係数に対応したアドレスを参照することにより、可変長又は固定長の符号化が行われる。そして、マルチプレクサ216において、上記の符号化回路214における処理後の符号化データと、2次元ブロック変換回路203からの画面内でのマクロブロックの場所などを示す付加情報とが多重化され、画像ストリームバッファ218にいったん格納された後、ビットストリーム(出力画像ビットストリーム)として出力端子219から出力される。
Macroblock data relating to the reference frame is supplied to the
また、量子化回路206において量子化されたDCT係数は、逆量子化回路212及び逆直交変換回路213において逆量子化処理及び逆DCT処理が行われて、量子化されたDCT係数が復号され、加算器210及びデブロック回路211を介して参照画像メモリ209に供給されて格納される。この参照画像メモリ209に格納された画像は、予測フレームの符号化処理時に利用される。
Also, the DCT coefficients quantized by the
一方、予測フレームに関しては、入力画像メモリ202から切り出されたマクロブロックデータと参照画像メモリ209に格納されている画像との間で、動きベクトル検出回路207によって画像間における動きベクトルが求められる。動きベクトル検出回路207において求められた動きベクトルは、動き補償予測回路208に供給され、ここで、参照画像メモリ209からの参照画像から予測ブロックの切り出し処理が行われる。動き補償予測回路208では、切り出された複数の予測ブロックに従って、最適な予測モードの選択が行われ、符号化すべき入力画像ブロックとの差分信号が、直交変換回路205に送出される。この差分信号に関しては、上述の基準フレームの各ブロックと同様の処理が行われ、DCT係数が量子化処理されて、動きベクトルや予測モードと共に出力画像ビットストリームとしてマルチプレクサ216から、画像ストリームバッファ218を経て、出力端子219より出力される。
On the other hand, for the predicted frame, a motion vector between images is obtained by the motion
なお、符号量の制御に関しては、符号量制御回路217において、マルチプレクサ216から出力されたビットストリームの符号量と、目標とする符号量(目標符号量)との比較が行われ、目標符号量に近づけるために量子化回路206の量子化の細かさ(量子化スケール)の制御が行われる。そして、上述した3種類の情報量の異なるピクチャタイプ(フレームタイプ)に対し、設定された符号化ビットレートに対する各ピクチャタイプの性質及び出現頻度を用いて、各フレームに対する目標符号量が算出される。
Regarding the control of the code amount, the code
また、目標符号量は、仮想的に復号装置シミュレートされたストリームバッファ(VBV(Video Buffer Verifier)バッファと呼ばれる)に対して、バッファのオーバーフロー・アンダーフローが起きないように制限される。また、量子化スケールは、スケールと出力符号量とが一般的にほぼ反比例の関係があることを利用して、フレームタイプごとに目標符号量に対する量子化スケール値が計算されて、量子化処理が行われる。そして、ブロックごとに目標符号量に近づく方向に量子化スケールを変動させることによって、目標符号量内に符号化ストリームを抑えるように制御される。 Also, the target code amount is limited so that a buffer overflow / underflow does not occur in a stream buffer (called a VBV (Video Buffer Verifier) buffer) virtually simulated by a decoding device. In addition, the quantization scale is calculated by calculating the quantization scale value for the target code amount for each frame type by utilizing the fact that the scale and the output code amount are generally inversely proportional. Done. Then, by controlling the quantization scale in a direction approaching the target code amount for each block, control is performed to suppress the encoded stream within the target code amount.
次に、従来の技術において一般的な復号装置について説明する。図6は、従来の技術に係る一般的な復号装置の一例を示すブロック図である。図6において、まず、入力端子101から入力された画像ビットストリーム(画像ストリーム)が、画像ストリームバッファ102に蓄えられる。なお、画像ビットストリームには仮想的にシミュレートされたバッファ値が書かれており、そのバッファ値分だけ、画像ビットストリームが画像ストリームバッファ102に蓄えられてから下記の復号処理が行われるようにすることによって、バッファが破綻して復号処理が止まることを防ぐことが可能となる。画像ストリームバッファ102から出力された画像ビットストリームは、可変長復号回路103において、量子化スケール、予測モード、動きベクトルなどの付加情報が分離されるとともに、量子化されたDCT係数の復号が行われる。
Next, a general decoding device in the prior art will be described. FIG. 6 is a block diagram illustrating an example of a general decoding device according to the related art. In FIG. 6, first, an image bit stream (image stream) input from the
復号されたDCT係数に関しては、符号化回路(図5に示す符号化装置)内の逆量子化回路212及び逆直交変換回路213と同様の処理が行われ、逆量子化回路105及び逆直交変換回路111において逆量子化処理及び逆DCT処理が行われ、イントラブロック又は差分ブロックが復号されて、加算器107に供給される。また、予測ブロックの場合には、可変長復号回路103で復号された予測モードと動きベクトル値とにより、動き補償予測回路106において、参照画像メモリ109から読み出された参照画像信号(当該処理の前に、既に格納されたIピクチャやPピクチャの画像信号)から予測ブロックの切り出し処理が行われる。これにより、復号されたイントラブロック又は差分ブロックと、動き補償予測回路106において切り出された予測ブロックとの加算が加算器107にて行われ、マクロブロックの画像信号が復元される。
The decoded DCT coefficients are processed in the same manner as the
加算器107における加算処理によって復元されたマクロブロックデータ(マクロブロックの画像信号)は、デブロック回路108に供給されて、画像スキャン順に画像信号に戻される。このとき、I又はPピクチャの場合には、参照画像メモリ109に書き込まれ、Bピクチャの場合には、出力フレームメモリ110にいったん蓄えられた後、画像信号(出力画像信号)として出力される。なお、参照画像メモリ109に蓄積されたI又はPピクチャの画像データは、図4(A)〜(C)に示すような画像出力タイミングに従って、出力フレームメモリ110にいったん蓄積された後、Bピクチャと同様に画像信号(出力画像信号)として出力される。
The macroblock data (macroblock image signal) restored by the addition processing in the
また、上述のような画像符号化技術を用いて、画像情報の配信を行うシステムにおいては、いったん符号化されたビットストリームを復号した後、再度符号化処理を行う必要性が存在する。例えば、情報を取材・記録した場所から情報を配信する場所に伝送する場合、伝送路としては有線・無線の通信回線や記録媒体が考えられるが、情報を取材・記録した場所から情報を配信する場所に伝送するための伝送路の帯域幅と、情報を配信するシステムの伝送路の帯域幅とが異なるような場合には、再度符号化処理を行って、ビットストリームのビットレートを変更する必要がある。例えば、放送局が取材を行ってVTRなどに記録した画像データを編集した後、放送する場合がこのような条件に当てはまる。また、放送などで送られてきた符号化ストリームを所定の記録メディアに記録したい場合にも、記録メディアの記録容量・記録レートに合わせた形で画像ストリームを再符号化することが必要となることもある。上述のような再符号化処理を行う装置は、トランスコーダ(画像ストリーム変換装置)と呼ばれる。トランスコーダにおける復号装置及び符号化装置の基本構成は、例えば、復号装置の画像出力(例えば、図6に示す出力端子112)と符号化装置の画像入力(例えば、図5に示す入力端子201)とが、直接接続された構成によって実現可能である。
Further, in a system that distributes image information using the above-described image encoding technology, there is a need to perform encoding processing again after decoding a once encoded bitstream. For example, when transmitting information from a place where information is collected / recorded to a place where information is distributed, a wired / wireless communication line or recording medium may be considered as a transmission path, but information is distributed from the place where information is collected / recorded. If the bandwidth of the transmission path for transmitting to the location is different from the bandwidth of the transmission path of the system that distributes information, it is necessary to re-encode and change the bit rate of the bit stream There is. For example, such a condition applies to a case where a broadcast station conducts interviewing and edits image data recorded on a VTR and then broadcasts. In addition, when it is desired to record an encoded stream sent by broadcasting or the like on a predetermined recording medium, it is necessary to re-encode the image stream according to the recording capacity and recording rate of the recording medium. There is also. An apparatus that performs the re-encoding process as described above is called a transcoder (image stream conversion apparatus). The basic configuration of the decoding device and the encoding device in the transcoder includes, for example, an image output of the decoding device (for example, the
このようなトランスコーダでは、再符号化時の符号化劣化を少なくするために、トランスコーダで伝送される画像信号(復号されたベースバンド信号)上に、符号化された際のピクチャタイプなどのフレーム情報やマクロブロック付加情報(以降、符号化情報と呼ぶ)を重畳させて伝送する方式が考えられている。例えば、MPEG2符号化においては、Iピクチャ、Pピクチャ、Bピクチャの順で画像信号の品質が劣化している場合が一般的である。Iピクチャは基準となるフレームであるため、他のフレームより細かく量子化されているとともに、他の画像からの参照がないため、参照フレーム劣化の影響を受けない。一方、PピクチャやBピクチャに関しては、Pピクチャ、Bピクチャの順で、粗く量子化され、参照フレーム劣化の影響を受けやすい。 In such a transcoder, in order to reduce encoding degradation at the time of re-encoding, the picture type at the time of encoding on the image signal (decoded baseband signal) transmitted by the transcoder A scheme is considered in which frame information and macroblock additional information (hereinafter referred to as encoded information) are transmitted in a superimposed manner. For example, in MPEG2 encoding, the quality of an image signal generally deteriorates in the order of I picture, P picture, and B picture. Since the I picture is a reference frame, it is quantized more finely than other frames and is not affected by reference frame deterioration because there is no reference from other images. On the other hand, the P picture and the B picture are roughly quantized in the order of the P picture and the B picture, and are easily affected by reference frame deterioration.
トランスコーダでは、上述の符号化情報を有効に利用することによって、再符号化処理後の符号化データの品質向上や、効率的な再符号化処理を図ることが可能である。例えば、トランスコーダにおける再符号化の際に、符号化情報を参照して、トランスコーダにおける復号前の符号化データにおけるピクチャタイプと、再符号化時のピクチャタイプとを合わせることによって、上記の劣化要因を低減させることが可能である。また、マクロブロック付加情報を参照することによって、動きベクトル検出のための処理量を削減できるとともに、量子化スケール及び符号化ビット数を参照することによって、マクロブロックの持っている情報量の指針が得られ、ビットレート変換時に良好な符号量コントロールを行うことが可能となる。 In the transcoder, it is possible to improve the quality of encoded data after the re-encoding process and to efficiently perform the re-encoding process by effectively using the above-described encoded information. For example, at the time of re-encoding in the transcoder, referring to the encoding information, the picture type in the encoded data before decoding in the transcoder and the picture type at the time of re-encoding are matched, thereby Factors can be reduced. Also, by referring to the macroblock additional information, the processing amount for motion vector detection can be reduced, and by referring to the quantization scale and the number of encoded bits, a guideline for the information amount possessed by the macroblock can be obtained. As a result, good code amount control can be performed at the time of bit rate conversion.
ここで、上述のような符号化情報を伝送するトランスコーダにおける復号装置及び符号化装置の構成について説明する。図7は、従来の技術に係る一般的なストリーム変換記録装置の一例を示すブロック図である。なお、基本的には、図7に示すストリーム変換記録装置は、図5に図示されている符号化装置と、図6に図示されている復号装置とをつなげた構成であり、以下では、図7に示すストリーム変換記録装置において付加された機能ブロックについてのみ説明するとともに、画像符号化に関する部分についてのみ説明する。 Here, the configuration of the decoding apparatus and the encoding apparatus in the transcoder that transmits the encoding information as described above will be described. FIG. 7 is a block diagram showing an example of a general stream conversion recording apparatus according to the prior art. Note that the stream conversion recording apparatus shown in FIG. 7 basically has a configuration in which the encoding apparatus shown in FIG. 5 and the decoding apparatus shown in FIG. 6 are connected. Only the functional blocks added in the stream conversion recording apparatus shown in FIG. 7 will be described, and only the part related to image coding will be described.
画像ストリーム変換装置の構成要素である復号装置100の可変長復号回路2(図6に示す可変長復号回路103に対応)は、画像ストリームを復号した際のフレーム情報、マクロブロック付加情報、マクロブロックの符号化ビット数を算出し、算出データを符号化情報生成回路7に供給する。符号化情報生成回路7は、フレーム情報及びマクロブロック付加情報をフレームごとにまとめてフォーマットし、符号化情報メモリ8に格納する。
The variable-length decoding circuit 2 (corresponding to the variable-
符号化情報メモリ8は、I、P、Bピクチャの出力並び替えに対応するように、出力フレームメモリ3(図6に示す出力フレームメモリ110に対応)が蓄える複数フレーム分の記憶容量を備えている。符号化情報メモリ8に格納されたフレーム情報及びマクロブロック付加情報からなる符号化情報は、符号化情報重畳回路10に供給され、符号化情報重畳回路10において、ピクチャタイプにより取り出す符号化情報の順番が変更され、復号装置100内の出力フレームメモリ3から出力される画像データ(出力画像信号)と同期して出力される。すなわち、符号化情報重畳回路10から出力されるデータは、復号装置100内の出力フレームメモリ3から出力される画像データに付随した符号化情報である。この符号化情報重畳回路10から出力された符号化情報は、符号化情報メモリ11に格納される。また、このとき、画像ストリーム変換装置の構成要素である符号化装置200において、出力フレームメモリ3から出力された画像データ(画像信号)が入力フレームメモリ14(図5に示す入力画像メモリ202に対応)に格納される。
The encoded
符号化情報メモリ11に格納された符号化情報は、符号化情報分離回路12によって読み取られる。そして、符号化情報分離回路12は、符号化情報からフレーム情報及びマクロブロック付加情報を分離し、符号化シンタックス制御回路13とマクロブロック情報生成回路15へ送る。符号化シンタックス制御回路13では、送られてきたフレーム情報からフレームタイプを検出して、入力画像を符号化順に並べ替える制御が行われる。なお、符号化情報分離回路12において、フレームの符号化情報を抜き取ることができなかった場合には、符号化情報分離回路12から符号化シンタックス制御回路13に非検出信号が送られ、符号化シンタックス制御回路13において、通常の符号化処理と同様に符号化装置200内で符号化シンタックスが構成されて、符号化処理が行われる。一方、マクロブロック情報生成回路15は、符号化情報分離回路12において符号化シンタックスに応じて順序が入れ替えられたマクロブロック付加情報を、符号化情報分離回路12から受け取る。
The encoded information stored in the encoded
マクロブロック情報生成回路15は、符号化情報分離回路12から受け取った符号化情報を、符号化装置200内の動き補償予測回路16(図5に示す動き補償予測回路208に対応)及び符号量制御回路17(図5に示す符号量制御回路217に対応)に供給する。動き補償予測回路16は、符号化情報に存在する動きベクトルと予測モードを用いて、参照画像メモリ18(図5に示す参照画像メモリ209に対応)から予測ブロックを切り出して減算器19(図5に示す減算器204に対応)に供給し、ここで、符号化する入力フレームメモリ14からの入力画像ブロックとの差分信号を生成して、その差分信号を直交変換回路20(図5に示す直交変換回路205に対応)に送出する。なお、符号化情報分離回路12において、ピクチャの符号化情報あるいはマクロブロックごとの符号化情報を抜き取ることができなかった場合には、符号化情報分離回路12からマクロブロック情報生成回路15に非検出信号が送られ、符号化装置200内において、通常の符号化処理と同様の動きベクトル検出及び予測モード選択処理が行われる。
The macroblock
また、符号量制御回路17は、符号化時におけるマクロブロックごとの量子化スケールと、この処理に要したビット数とが符号化情報として供給され、これらの供給された情報と、現在制御ターゲットとなっている符号化ビットレートでの設定符号量との比較処理を行う。これにより、符号量制御回路17において、適切な量子化スケールが決定されて、符号化処理が行われる。なお、上述の説明では、符号化情報メモリ8、11を別々に設けているが、復号装置100と符号化装置200とが一体となっているトランスコーダなどにおいては、これらの符号化情報メモリ8、11を1つにまとめることが可能である。
Further, the code
また、上述のトランスコーダにおける処理とは異なり、符号化情報の抽出は行わず、入力画像ストリームのピクチャタイプを再符号化の際のピクチャタイプとして常に継承できるようにすることによって、MPEG符号化における復号回路や符号化回路の並べ替え処理の削減を図る方法も存在する。この方法は、例えば、下記の特許文献1に開示されている。
従来の画像ストリーム変換装置では、再符号化を行う際は、入力される画像ストリームの符号化処理が理想の符号化処理に近いという想定に基づいて、画像ストリームから抽出される符号化情報やピクチャタイプなどを正しい情報として取り扱い、再符合化の際にこれらの情報をそのまま反映させることが一般的である。例えば、上述の特許文献1に開示されている技術もこの考え方に基づいていると言える。
In a conventional image stream conversion apparatus, when re-encoding is performed, encoding information and pictures extracted from an image stream are based on the assumption that the encoding process of an input image stream is close to an ideal encoding process. In general, the type is handled as correct information, and the information is reflected as it is when re-encoding. For example, it can be said that the technique disclosed in
しかしながら、例えば、入力された画像ストリームの素性が悪く、最善の符号化処理がなされていないような場合に、入力された画像ストリームに係る符号化情報を再符号化時に引き継いでしまうと、再符号化された画像ストリームにおいても、入力された画像ストリームに見られる悪い影響(品質劣化などの影響)を引き継いでしまうことになり、精度の悪い画像ストリーム変換処理が行われるという弊害が起こることがある。すなわち、従来の技術のように、オリジナルの画像ストリームを再符号化する際に、オリジナルの画像ストリームに係るパラメータをそのまま引き継いで反映させた場合、状況によっては、オリジナルの画像ストリームが有する都合の悪いパラメータもそのまま引き継がれてしまうという問題がある。 However, for example, when the input image stream has poor characteristics and the best encoding process is not performed, if the encoding information related to the input image stream is taken over at the time of re-encoding, re-encoding is performed. Even in the converted image stream, a bad influence (an influence of quality degradation, etc.) seen in the input image stream is taken over, and there is a possibility that an inaccurate image stream conversion process is performed. . That is, when re-encoding an original image stream as in the conventional technique, if parameters relating to the original image stream are taken over and reflected as they are, in some circumstances, the original image stream has inconvenience. There is a problem that parameters are also carried over as they are.
また、例えば、放送などを通じて受信した画像ストリームを圧縮して、記録メディアに記録する場合など、入力された画像ストリームに対して符号化ビットレートを大幅に変更して、符号化ビットレートに則さない再符号化処理を行う場合(特に低い符号化ビットレートに変換するような場合)には、適切かつ充分な圧縮処理を行うことができず、再符号化処理の際に、画像品質が大幅に劣化してしまうという問題がある。 In addition, for example, when compressing an image stream received through broadcasting or the like and recording it on a recording medium, the encoding bit rate is significantly changed for the input image stream to comply with the encoding bit rate. When re-encoding is not performed (especially when converting to a low encoding bit rate), appropriate and sufficient compression cannot be performed, and image quality is greatly reduced during re-encoding. There is a problem of deterioration.
上記の問題に鑑み、本発明は、1度符号化処理が行われた画像の符号化ストリームを復号するとともに、再度必要な符号量・画像サイズなどに変換して再符号化する画像ストリーム変換処理において、再符号化時に良好な符号化ストリームを生成することが可能な画像ストリーム変換装置を提供することを目的とする。 In view of the above problems, the present invention decodes an encoded stream of an image that has been encoded once, and converts it again into a necessary code amount, image size, etc., and re-encodes the image stream conversion process An object of the present invention is to provide an image stream conversion apparatus capable of generating a good encoded stream at the time of re-encoding.
上記の目的を達成するため、本発明によれば、画像ストリームの復号処理を行うとともに、前記復号処理によって復号された前記画像ストリームの再符号化処理を行うための画像ストリーム変換装置において、
前記画像ストリームに係るヘッダ情報を抽出するヘッダ情報抽出手段と、
前記ヘッダ情報抽出手段によって抽出された前記ヘッダ情報を参照し、前記画像ストリームの符号化シンタックスに基づく前記画像ストリームの再符号化処理を行った場合に、良好な符号化ストリームを生成することができるか否かを判定するとともに、前記良好な符号化ストリームを生成することができないと判定された場合には、前記符号化シンタックスを変更するか否かの判定を行うシンタックス評価手段と、
前記シンタックス評価手段による適切な前記符号化シンタックスに係る判定結果に基づいて、前記画像ストリームの前記符号化シンタックスを再構成するシンタックス再構成手段と、
前記シンタックス再構成手段によって再構成された前記符号化シンタックスに基づいて、前記画像ストリームの前記再符号化処理に利用される前記画像ストリームに係る符号化情報の変換処理を行う符号化情報変換手段とを、
有することを特徴とする画像ストリーム変換装置が提供される。
In order to achieve the above object, according to the present invention, in an image stream conversion apparatus for performing decoding processing of an image stream and performing re-encoding processing of the image stream decoded by the decoding processing,
Header information extraction means for extracting header information relating to the image stream;
When the header information extracted by the header information extraction unit is referenced and the image stream is re-encoded based on the encoding syntax of the image stream, a good encoded stream is generated. A syntax evaluation unit that determines whether or not to change the encoding syntax when it is determined that it is not possible to generate the good encoded stream;
Syntax reconstructing means for reconstructing the coding syntax of the image stream based on a determination result relating to the appropriate coding syntax by the syntax evaluation means;
Encoding information conversion for converting encoding information related to the image stream used for the re-encoding process of the image stream based on the encoding syntax reconstructed by the syntax reconstructing means Means,
There is provided an image stream conversion device characterized by comprising:
さらに、本発明によれば、上記の発明において、前記シンタックス評価手段が、前記画像ストリームにおけるピクチャごとの所要ビット数、動きベクトル値、予測モードの画面内分布状態、量子化スケールのフレーム総和のうちの少なくとも1つのパラメータを用いて、前記画像ストリームの各ピクチャのピクチャタイプに基づく前記画像ストリームの再符号化処理を行った場合に、良好な符号化ストリームを生成することができるか否かを判定するとともに、前記良好な符号化ストリームを生成することができないと判定された場合には、前記ピクチャタイプを変更するか否かの判定を行うことを特徴とする請求項1に記載の画像ストリーム変換装置が提供される。
Furthermore, according to the present invention, in the above invention, the syntax evaluation means includes a required number of bits for each picture in the image stream, a motion vector value, an intra-screen distribution state of a prediction mode, and a frame sum of a quantization scale. Whether or not a good encoded stream can be generated when re-encoding processing of the image stream based on the picture type of each picture of the image stream is performed using at least one of the
本発明に係る画像ストリーム変換装置は、変換前の画像ストリームの符号化情報の再判定と、必要に応じて符号化情報の再構成を行うことにより、再符号化時に良好な符号化ストリームを生成することができるという効果を有している。 The image stream conversion apparatus according to the present invention generates a good encoded stream at the time of re-encoding by re-determining the encoding information of the image stream before conversion and reconfiguring the encoded information as necessary. It has the effect that it can be done.
以下、図面を参照しながら、本発明の実施の形態における画像ストリーム変換装置について説明する。図1は、本発明の実施の形態における画像ストリーム変換装置の一例を示すブロック図である。なお、図1に示す画像ストリーム変換装置は、上述した従来の技術に係る画像ストリーム変換装置(図7参照)と共通する構成要素を有しており、ここでは、これらの共通する構成要素の説明については省略する。 Hereinafter, an image stream conversion apparatus according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing an example of an image stream conversion apparatus according to an embodiment of the present invention. The image stream conversion apparatus shown in FIG. 1 has components common to the above-described conventional image stream conversion apparatus (see FIG. 7). Here, description of these common components is provided. Is omitted.
図1に示す画像ストリーム変換装置は、符号化処理が行われた画像の符号化ストリームをいったん復号した後に再符号化する際に、復号前の符号化ストリームを解析し、再符号化の際の所定の条件に、符号化情報に係る様々なパラメータの変更又は継承を決定することによって、再符号化時の符号化シンタックス制御処理、動きベクトルの検出処理、符号量制御処理などを適切かつ良好に行うことができるように構成されている。以下、具体的に、図1に示す画像ストリーム変換装置の構成及び動作について説明する。 The image stream conversion apparatus shown in FIG. 1 analyzes an encoded stream before decoding and re-encodes the encoded stream of the image that has been subjected to encoding processing, and re-encodes the encoded stream. By determining changes or inheritance of various parameters related to encoding information under predetermined conditions, appropriate and good encoding syntax control processing at the time of re-encoding, motion vector detection processing, code amount control processing, etc. It is configured to be able to be done. Hereinafter, the configuration and operation of the image stream conversion apparatus shown in FIG. 1 will be specifically described.
画像ストリーム変換装置の構成要素である復号装置100の画像ストリームバッファ1(図6に示す画像ストリームバッファ102に対応)に入力ビットストリーム(画像ストリーム)が格納されると、復号装置100の可変長復号回路2(図6に示す可変調復号回路103に対応)に出力される前に、即座にヘッダ抽出回路4に供給される。ヘッダ抽出回路4では、復号処理に先んじて(あるいは、復号処理とは独立して)、画像ストリームのヘッダ情報の抽出処理が行われる。このヘッダ情報の抽出処理では、基本的には、MPEG画像ストリームの各ピクチャのピクチャタイプ及び所要ビット量の抽出や計算が行われる。なお、所要ビット数は、ピクチャヘッダの間隔を計算することによって抽出可能である。
When an input bit stream (image stream) is stored in the image stream buffer 1 (corresponding to the
また、ヘッダ抽出回路4に、復号装置100の可変長復号回路2と同様の復号処理機能を設けてもよく、この場合には、動きベクトル・予測モード・量子化スケールなどを算出することも可能である。なお、以下では、可変長復号回路2に復号処理機能が設けられており、上記の各パラメータの算出も可能な場合を想定して説明する。
Further, the
シンタックス評価回路5では、ヘッダ抽出回路4によって抽出されたヘッダ情報を参照することによって、符号化ストリームの符号化特性の評価が行われる。このとき、基本的に、Iピクチャに対しては、そのままIピクチャで符号化を行うようにシンタックス(符号化シンタックスとも呼ばれる)の変更処理を行わず(シンタックスの継承)、一方、Pピクチャ/Bピクチャに対しては、ヘッダ情報よりシンタックスの有効性判断を行う。なお、入力される符号化ストリームやそのヘッダ情報からは、符号化ストリームにおけるピクチャごとの所要ビット数、動きベクトル値、予測モードの画面内分布状態やその頻度、量子化スケール値など、画像の符号化特性に係る様々なパラメータを取得することが可能であり、シンタックス評価回路5では、これらのパラメータのいずれか1つ又はそれらの組み合わせを利用して、符号化特性の評価を行うことが可能である。
The
シンタックス評価回路5におけるPピクチャ/Bピクチャの評価アルゴリズムに関しては、例えば、以下のような方法で行うことが可能である。なお、ここでは、1つの基準ピクチャ(Iピクチャ又はPピクチャ)とその間のBピクチャとをペアにした評価単位によって評価を行う。
The P picture / B picture evaluation algorithm in the
ここで、図2を参照しながら、本発明に係る画像ストリーム変換装置のシンタックス評価回路5における基準ピクチャの正誤判定について説明する。図2は、本発明の実施の形態における画像ストリーム変換装置のシンタックス評価回路の基準ピクチャの正誤判定動作を示すフローチャートである。
Here, with reference to FIG. 2, the correctness determination of the reference picture in the
まず、基準ピクチャがIピクチャであるか、あるいはPピクチャであるかの判定が行われる(ステップS1001)。基準ピクチャがIピクチャの場合には、このIピクチャに関しては位置を変化させない。したがって、基準ピクチャ判定が正しいと判断される(ステップS1003)。 First, it is determined whether the reference picture is an I picture or a P picture (step S1001). When the reference picture is an I picture, the position of the I picture is not changed. Therefore, it is determined that the reference picture determination is correct (step S1003).
一方、基準ピクチャがPピクチャの場合には、このPピクチャに係る予測的中精度(予測効率)の計測による判断が行われる。この場合、例えば、Pピクチャの要したビット数Bits(P)及び量子化スケール値AvgQ(P)を判断して、Bits(P)が閾値α以下で、かつAvgQ(P)が閾値β以下の場合(ステップS1005で『はい』)には、基準ピクチャ判定が正しいと判定される。なお、閾値α及びβは、入力ストリームの符号化ビットレートによってコントロールされる変数である。また、量子化スケール値AvgQ(P)は、予測誤差の起こる可能性を示すパラメータと言える。上述のように、基準ピクチャ判定が正しいと判定された場合には、該当フレームのシンタックスは継承されて再符号化されることとなる。 On the other hand, when the reference picture is a P picture, a determination is made by measuring the predictive medium accuracy (prediction efficiency) of the P picture. In this case, for example, the number of bits Bits (P) required for the P picture and the quantization scale value AvgQ (P) are determined, and Bits (P) is less than or equal to the threshold value α and AvgQ (P) is less than or equal to the threshold value β. In the case (“Yes” in step S1005), it is determined that the reference picture determination is correct. The threshold values α and β are variables controlled by the encoding bit rate of the input stream. Further, the quantization scale value AvgQ (P) can be said to be a parameter indicating the possibility of a prediction error. As described above, when it is determined that the reference picture determination is correct, the syntax of the corresponding frame is inherited and re-encoded.
一方、上述の判定で正しいと判定されなかった場合(ステップS1005で『いいえ』)には、最後に入力されたIピクチャ(復号された際の基準となるIピクチャ)のビット数Bits(PrevI)及び量子化スケール値AvgQ(PrevI)と、当該Pピクチャのビット数Bits(P)及び量子化スケール値AvgQ(P)との比較が行われる。この比較では、例えば、ビット数と量子化スケール値との積を用いることが可能である。 On the other hand, if it is not determined to be correct in the above determination (“No” in step S1005), the bit number Bits (PrevI) of the last input I picture (the reference I picture when decoded) The quantization scale value AvgQ (PrevI) is compared with the bit number Bits (P) of the P picture and the quantization scale value AvgQ (P). In this comparison, for example, the product of the number of bits and the quantization scale value can be used.
例えば、Pピクチャと最後に入力されたIピクチャとの比較において、
Bits(P)*AvgQ(P)*γ > Bits(PrevI)*AvgQ(PrevI)
PrevIは最後のIピクチャを表す表記
の関係にある場合(ステップS1007で『はい』)には、基準ピクチャ判定は誤りであると判定され、このPピクチャはIピクチャに修正される(ステップS1009)。なお、上記の式に用いられているγは、Pピクチャの予測モード内のイントラモード数より算出される変数である。
For example, in comparing the P picture with the last input I picture,
Bits (P) * AvgQ (P) * γ> Bits (PrevI) * AvgQ (PrevI)
If PrevI is in the notation representing the last I picture (“Yes” in step S1007), the reference picture determination is determined to be erroneous, and this P picture is corrected to an I picture (step S1009). . Note that γ used in the above equation is a variable calculated from the number of intra modes in the prediction mode of the P picture.
また、上記の式の条件を満たさない場合(ステップS1007で『いいえ』)には、基準ピクチャ判定が正しいと判定され、このPピクチャのシンタックスは変更されずに保持され、Pピクチャのまま継承される(ステップS1111)。以上のように、基準ピクチャ判定に係るシンタックスの継承又は変更が決定される。 If the condition of the above equation is not satisfied (“No” in step S1007), it is determined that the reference picture determination is correct, and the syntax of this P picture is retained unchanged and inherited as the P picture. (Step S1111). As described above, the inheritance or change of the syntax relating to the reference picture determination is determined.
次に、図3を参照しながら、本発明に係る画像ストリーム変換装置のシンタックス評価回路5におけるBピクチャの判定について説明する。図3は、本発明の実施の形態における画像ストリーム変換装置のシンタックス評価回路のBピクチャの判定動作を示すフローチャートである。
Next, the B picture determination in the
Bピクチャの判定では、上述したPピクチャの判定と同様にビット数及び量子化スケール値と共に、さらに、予測モードの出現度合いを判定材料として用いることが可能である。このBピクチャの判定は、上述した基準ピクチャ判定の正誤判定動作の結果に基づいて行われる。すなわち、上述の基準ピクチャ判定の正誤判定動作では、基準ピクチャ判定が正しいか誤りであるかの判定結果が取得され、シンタックス評価回路5は、この判定結果に応じたBピクチャの判定動作を行う。なお、以下の説明では、基準ピクチャがPピクチャの場合を一例に挙げて説明するが、基準ピクチャがIピクチャの場合も同様の処理が行われる。
In the determination of the B picture, the appearance degree of the prediction mode can be used as a determination material together with the number of bits and the quantization scale value as in the determination of the P picture. The determination of the B picture is performed based on the result of the correctness determination operation of the reference picture determination described above. That is, in the above-described correct / incorrect determination operation of the reference picture determination, a determination result of whether the reference picture determination is correct or incorrect is acquired, and the
Bピクチャの判定を行う際、まず、基準ピクチャ判定が正しいか誤りであるかの判定結果が取得される(ステップS2001)。基準ピクチャ判定が正しいと判定されている場合(ステップS2001で『はい』)には、Bピクチャに対して、孤立フレーム(周りに予測に値するフレームがないフレーム)であるか否かの判定が行われる。この孤立フレーム判定では、例えば、ビット数と量子化スケール値との積を用いることが可能である。 When determining a B picture, first, a determination result of whether the reference picture determination is correct or incorrect is acquired (step S2001). If it is determined that the reference picture determination is correct (“Yes” in step S2001), it is determined whether or not the B picture is an isolated frame (a frame in which there is no frame that deserves prediction). Is called. In this isolated frame determination, for example, the product of the number of bits and the quantization scale value can be used.
例えば、基準ピクチャ(ここでは、Pピクチャ)と、判定対象のBピクチャとの比較において、
Bits(B)*AvgQ(B)*Δ > Bits(P)*AvgQ(P)
の関係にあり、かつ予測モードのイントラモード数が閾値ε以上(すなわち、面内予測数がε以上)の場合(ステップS2003で『はい』)には、このBピクチャは孤立フレームであると判定され、このBピクチャのピクチャタイプはIピクチャに変更される(ステップS2005)。なお、上記の式に用いられているΔは、Bピクチャの予測モード内のイントラモード数より算出される変数である。
For example, in a comparison between a reference picture (here, a P picture) and a determination-target B picture,
Bits (B) * AvgQ (B) * Δ> Bits (P) * AvgQ (P)
And the number of intra modes in the prediction mode is greater than or equal to the threshold ε (that is, the number of in-plane predictions is greater than or equal to ε) (“Yes” in step S2003), the B picture is determined to be an isolated frame. Then, the picture type of this B picture is changed to an I picture (step S2005). Note that Δ used in the above equation is a variable calculated from the number of intra modes in the prediction mode of the B picture.
また、上記の式の条件を満たさない場合(ステップS2003で『いいえ』)には、Bピクチャは孤立フレームではないと判定されて、このBピクチャのシンタックスは変更されずに保持され、Bピクチャのまま継承される(ステップS2007)。 If the condition of the above equation is not satisfied (“No” in step S2003), it is determined that the B picture is not an isolated frame, and the syntax of this B picture is retained without being changed. (Step S2007).
一方、Pピクチャの基準ピクチャ判定が誤りであると判定されている場合(ステップS2001で『いいえ』)には、例えば、Bピクチャにおいてシーンの切り替わり(シーンチェンジ)が発生したことを想定して、切り替わりポイントの探索と、その探索結果に応じたシンタックスの保持・変更が行われる(ステップS2009)。 On the other hand, when it is determined that the reference picture determination of the P picture is incorrect (“NO” in step S2001), for example, assuming that a scene change (scene change) has occurred in the B picture, The search for the switching point and the holding / changing of the syntax according to the search result are performed (step S2009).
ここで、図4に図示されているような周期M=3の場合における切り替わりポイントの探索(ステップS2009の処理)の一例について説明する。周期M=3の場合には、Pピクチャ間(又は、IピクチャとPピクチャとの間)に2フレームのBピクチャが存在している(B1、B2とする)。切り替わりポイントの探索では、まず、これらのBピクチャB1、B2のそれぞれに関して、前後の予測モードの出現頻度の比較が行われる。 Here, an example of a search for a switching point (processing in step S2009) in the case where the period M = 3 as illustrated in FIG. 4 will be described. When the period M = 3, two frames of B pictures exist between P pictures (or between I pictures and P pictures) (referred to as B1 and B2). In the search for switching points, first, the appearance frequencies of the preceding and following prediction modes are compared for each of these B pictures B1 and B2.
このとき、BピクチャB1、B2の両方において、前方予測(フォワード予測)の出現頻度が閾値以上である場合(すなわち、BピクチャB1、B2共に、前方予測が支配的であると判断される場合)には、BピクチャB2の後にシーンチェンジがあることが予想される。この場合には、BピクチャB2をPピクチャに変更することが望ましい。 At this time, when the appearance frequency of forward prediction (forward prediction) is greater than or equal to the threshold in both B pictures B1 and B2 (that is, when forward prediction is determined to be dominant for both B pictures B1 and B2). Is expected to have a scene change after the B picture B2. In this case, it is desirable to change B picture B2 to P picture.
また、BピクチャB1、B2の両方において、後方予測(バックワード予測)の出現頻度が閾値以上である場合(すなわち、BピクチャB1、B2共に、後方予測が支配的であると判断される場合)には、BピクチャB1の前にシーンチェンジがあることが予想される。この場合には、BピクチャB1、B2共に、そのままのシンタックスを保つことが望ましい。なお、シーンの変わり目でGOP(Group of Pictures)をクローズドGOPにすることによって、BピクチャB1、B2をその前のGOPに依存させないようにすることも可能であり、この場合には、クローズドGOPフラグを設定する情報の出力を行う。 Also, when the appearance frequency of backward prediction (backward prediction) is greater than or equal to the threshold in both B pictures B1 and B2, (ie, when it is determined that backward prediction is dominant for both B pictures B1 and B2). Is expected to have a scene change before the B picture B1. In this case, it is desirable to maintain the same syntax for both B pictures B1 and B2. Note that it is possible to make the B pictures B1 and B2 independent of the previous GOP by making the GOP (Group of Pictures) a closed GOP at the transition of the scene. In this case, the closed GOP flag Outputs information to set.
また、BピクチャB1において前方予測の出現頻度が閾値以上であり、かつBピクチャB2において後方予測の出現頻度が閾値以上の場合(すなわち、BピクチャB1では、前方予測が支配的であると判断され、BピクチャB2では、後方予測が支配的であると判断される場合)には、BピクチャB1とBピクチャB2との間にシーンチェンジがあることが予想される。この場合には、BピクチャB1をPピクチャに変更することが望ましい。なお、この場合も、シーンの変わり目をクローズドGOPに設定することが可能である。また、上述以外の各条件に関しては、基本的に、シンタックスをそのまま保持することが望ましい。 Further, when the appearance frequency of the forward prediction is equal to or higher than the threshold value in the B picture B1, and the appearance frequency of the backward prediction is equal to or higher than the threshold value in the B picture B2 (that is, the forward prediction is determined to be dominant in the B picture B1). In the case of B picture B2, when it is determined that backward prediction is dominant), it is expected that there is a scene change between B picture B1 and B picture B2. In this case, it is desirable to change the B picture B1 to a P picture. In this case as well, it is possible to set a scene change point to a closed GOP. For each condition other than the above, it is basically desirable to keep the syntax as it is.
以上のように、シンタックス評価回路5によって、シンタックスの保持又は変更の判定処理が行われ、この判定結果情報は、シンタックス評価回路5からシンタックス再構成回路6に供給される。シンタックス再構成回路6では、この判定結果情報に従って、シンタックスの更新が行われ、符号化情報変換回路9に供給される。
As described above, the
符号化情報変換回路9では、符号化情報メモリ8から供給されるピクチャタイプと、シンタックス再構成回路6から供給される更新されたシンタックスで生成されたピクチャタイプとの比較が行われ、これらのピクチャタイプが異なる場合には、動きベクトルと予測モードに関しての変換処理を行う。例えば、ピクチャタイプの比較の結果、BピクチャがPピクチャになったと判断された場合には、動きベクトルに関しては、予測モードがフォワード予測(前参照画像からの予測)の場合にはそのまま使用し、バックワード予測又はアベレージ予測の場合には、イントラモードに変換される。
The encoded
また、直後のBピクチャ(例えば、BピクチャB2)がPピクチャに変化したBピクチャ(例えば、BピクチャB1)に関しては、このBピクチャB1の後方参照画像が、入力画像ストリームの時点でBピクチャB2であった画像に変化することになる。この場合には、BピクチャB1が後方予測されていた場合には、動きベクトルが予測フレーム間の距離に比例して縮小される。なお、上述のように、基本的には、BピクチャB1、B2間にシーンチェンジなどが存在し、BピクチャB1に関しては前方予測が支配的であると判断されている場合(後方予測がほとんどない場合)に、BピクチャB1の直後のBピクチャB2がPピクチャに変更されるため、動きベクトルの縮小による弊害はほとんど発生しないことが予想される。 Also, for a B picture (for example, B picture B1) in which a B picture (for example, B picture B2) immediately after is changed to a P picture, the back reference image of this B picture B1 is B picture B2 at the time of the input image stream. It will change to the image that was. In this case, when the B picture B1 is predicted backward, the motion vector is reduced in proportion to the distance between the prediction frames. As described above, basically, there is a scene change between the B pictures B1 and B2, and it is determined that the forward prediction is dominant for the B picture B1 (there is almost no backward prediction). In this case, since the B picture B2 immediately after the B picture B1 is changed to the P picture, it is expected that the adverse effect due to the reduction of the motion vector hardly occurs.
このように、符号化情報変換回路9では、動きベクトルと予測モードに関しての変換処理が行われるとともに、ピクチャタイプの書き替えなどを始めとする符号化情報の更新も行われる。そして、符号化情報変換回路9において更新された符号化情報は、符号化情報重畳回路10に供給され、その後は、この更新された符号化情報に基づいて、従来の技術と同様の符号化処理が行われることとなる。
As described above, the encoding
なお、上述の実施の形態では、シンタックス評価回路5に供給される判定材料として、入力画像ストリームの符号化情報のみを利用しているが、例えば、所定の再生時刻で符号化処理を終了したり、特定のフレームにIピクチャを挿入したりする場合や、特定のフレームでGOPを切り替えたい場合などにおいて、これらの位置を指定するためのフレーム位置指定情報を外部から入力することによって、上記の判定材料と同様に、このフレーム位置指定情報を利用したシンタックス切り替え処理が可能となる。この場合には、入力画像ストリームの符号化情報の有効部分を判断するとともに、補正可能な部分に関しての情報補正を行うことができるため、単に符号化装置200でシンタックスの切り替えを行う場合に比べて、符号化効率が向上する。
In the above-described embodiment, only the encoding information of the input image stream is used as the determination material supplied to the
なお、本発明は、例えば、入力画像シーケンスの符号化・復号処理(変換処理)と同時にシンタックス評価処理を行うことによって実現することも可能である。また、本発明は、例えば、再符号化を行う入力画像ストリームが記録媒体に記録されている状態の場合には、あらかじめシーケンス全体に対してシンタックス評価処理を行って、その結果情報(シーケンス全体に係るシンタックスの保持又は変更に関する情報)を記録媒体やバッファなどに蓄えておき、その後、入力画像シーケンスの変換処理を行う際に、この結果情報を参照することによって実現することも可能である。 Note that the present invention can also be realized, for example, by performing syntax evaluation processing simultaneously with encoding / decoding processing (conversion processing) of an input image sequence. Also, the present invention, for example, in a state where an input image stream to be re-encoded is recorded on a recording medium, a syntax evaluation process is performed on the entire sequence in advance, and the result information (entire sequence) This information can be realized by referring to the result information when the input image sequence is converted, after the information on the retention or change of the syntax is stored in a recording medium or a buffer. .
また、上述の実施の形態では、本発明に係る画像ストリーム変換装置の構成要素の一例として、回路や模式的なブロックなどのハードウェア要素を図示しながら説明しているが、従来の画像ストリーム変換装置と同様に、コンピュータが実行可能なソフトウェア(プログラム)によって、これらのハードウェア要素を実現することも可能である。 In the above-described embodiment, hardware elements such as a circuit and a schematic block are illustrated as examples of components of the image stream conversion apparatus according to the present invention. Similar to the apparatus, these hardware elements can be realized by software (program) executable by a computer.
本発明に係る画像ストリーム変換装置は、再符号化時に良好な符号化ストリームを生成することができるという効果を有しており、画像符号化されたビットストリームの再変換(トランスコード)を行うための技術分野に適用可能である。 The image stream conversion apparatus according to the present invention has an effect that a good encoded stream can be generated at the time of re-encoding, and performs re-conversion (transcoding) of an image-encoded bit stream. It is applicable to the technical field of
1、102、218 画像ストリームバッファ
2、103 可変長復号回路
3、110 出力フレームメモリ
4 ヘッダ抽出回路
5 シンタックス評価回路
6 シンタックス再構成回路
7 符号化情報生成回路
8、11 符号化情報メモリ
9 符号化情報変換回路
10 符号化情報重畳回路
12 符号化情報分離回路
13 符号化シンタックス制御回路
14 入力フレームメモリ
15 マクロブロック情報生成回路
16、106、208 動き補償予測回路
17、217、403 符号量制御回路
18、109、209 参照画像メモリ
19、204 減算器
20、205 直交変換回路
100 復号装置
101、201 入力端子
104、215 符号化テーブル
105、212 逆量子化回路
107、210 加算器
108、211 デブロック回路
111、213 逆直交変換回路
112、219 出力端子
200 符号化装置
202、404 入力画像メモリ
203 2次元ブロック変換回路
206 量子化回路
207 動きベクトル検出回路
214 符号化回路
216 マルチプレクサ
DESCRIPTION OF SYMBOLS 1,102,218 Image stream buffer 2,103 Variable length decoding circuit 3,110
Claims (2)
前記画像ストリームに係るヘッダ情報を抽出するヘッダ情報抽出手段と、
前記ヘッダ情報抽出手段によって抽出された前記ヘッダ情報を参照し、前記画像ストリームの符号化シンタックスに基づく前記画像ストリームの再符号化処理を行った場合に、良好な符号化ストリームを生成することができるか否かを判定するとともに、前記良好な符号化ストリームを生成することができないと判定された場合には、前記符号化シンタックスを変更するか否かの判定を行うシンタックス評価手段と、
前記シンタックス評価手段による適切な前記符号化シンタックスに係る判定結果に基づいて、前記画像ストリームの前記符号化シンタックスを再構成するシンタックス再構成手段と、
前記シンタックス再構成手段によって再構成された前記符号化シンタックスに基づいて、前記画像ストリームの前記再符号化処理に利用される前記画像ストリームに係る符号化情報の変換処理を行う符号化情報変換手段とを、
有することを特徴とする画像ストリーム変換装置。 In the image stream conversion apparatus for performing the decoding process of the image stream and performing the re-encoding process of the image stream decoded by the decoding process,
Header information extraction means for extracting header information relating to the image stream;
When the header information extracted by the header information extraction unit is referenced and the image stream is re-encoded based on the encoding syntax of the image stream, a good encoded stream is generated. A syntax evaluation unit that determines whether or not to change the encoding syntax when it is determined that it is not possible to generate the good encoded stream;
Syntax reconstructing means for reconstructing the coding syntax of the image stream based on a determination result relating to the appropriate coding syntax by the syntax evaluation means;
Encoding information conversion for converting encoding information related to the image stream used for the re-encoding process of the image stream based on the encoding syntax reconstructed by the syntax reconstructing means Means,
An image stream converter characterized by comprising:
The syntax evaluation means uses the image stream using at least one parameter of a required number of bits for each picture in the image stream, a motion vector value, an intra-screen distribution state of a prediction mode, and a frame sum of quantization scales. When the re-encoding process of the image stream based on the picture type of each picture is performed, it is determined whether or not a good encoded stream can be generated and the good encoded stream is generated 2. The image stream conversion apparatus according to claim 1, wherein if it is determined that the picture type cannot be changed, it is determined whether or not to change the picture type.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004270105A JP2006086863A (en) | 2004-09-16 | 2004-09-16 | Image stream transforming apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004270105A JP2006086863A (en) | 2004-09-16 | 2004-09-16 | Image stream transforming apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006086863A true JP2006086863A (en) | 2006-03-30 |
Family
ID=36164993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004270105A Withdrawn JP2006086863A (en) | 2004-09-16 | 2004-09-16 | Image stream transforming apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006086863A (en) |
-
2004
- 2004-09-16 JP JP2004270105A patent/JP2006086863A/en not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3923898B2 (en) | Image coding method and apparatus | |
US7656950B2 (en) | Video interpolation coding | |
US9338453B2 (en) | Method and device for encoding/decoding video signals using base layer | |
KR20060085157A (en) | Method and apparatus for encoding/decoding video signal using prediction information of intra-mode macro blocks of base layer | |
JP2004056797A (en) | Image decoding method and apparatus | |
US20080095239A1 (en) | Method for video frame rate conversion | |
JP2006295569A (en) | Moving picture decoder | |
JP4833923B2 (en) | Transcoding device, transcoder, decoder and transcoding method | |
KR100883591B1 (en) | Method and apparatus for encoding/decoding video signal using prediction information of intra-mode macro blocks of base layer | |
Jordan | Software-embedded data retrieval and error concealment scheme for MPEG-2 video sequences | |
JP2006086863A (en) | Image stream transforming apparatus | |
JP4193162B2 (en) | Image signal encoding device | |
JP2006108785A (en) | Image encoder | |
JP4228537B2 (en) | Image signal decoding / encoding device | |
JP2004350030A (en) | Telop superimposing device, telop superimposing method, and telop superimposing program | |
JP2002142225A (en) | Image signal-coding device | |
KR20060043120A (en) | Method for encoding and decoding video signal | |
KR20070029644A (en) | Moving image reproducing method, apparatus and program | |
JP2002142224A (en) | Image signal-processing device | |
JP2000175200A (en) | Highly efficient encodng device/decoding device | |
JP2004007736A (en) | Device and method for decoding image | |
JP2007151163A (en) | Image decoding method and apparatus | |
JP2008252931A (en) | Decoding apparatus and method, encoding apparatus and method, image processing system, and image processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20071204 |