KR100571824B1

KR100571824B1 - 부가정보 삽입된 ｍｐｅｇ-4 오디오 ｂｓａｃ부호화/복호화 방법 및 장치

Info

Publication number: KR100571824B1
Application number: KR1020030084731A
Authority: KR
Inventors: 김중회; 이시화; 김상욱; 오은미; 김도형
Original assignee: 삼성전자주식회사
Priority date: 2003-11-26
Filing date: 2003-11-26
Publication date: 2006-04-17
Also published as: US7974840B2; KR20050051046A; CN100525457C; EP1536410A1; US20050129109A1; JP2005157390A; CN1684523A

Abstract

본 발명은 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화/복호화 방법 및 장치에 관한 것으로서, 그 부호화방법은 오디오신호를 주파수영역 신호로 바꾸고 양자화하여 데이터 비트수를 카운트하고, 계층별 가용비트수를 구하여, 부가정보의 크기를 고려한 계층별 가용비트수를 수정하는 단계; 계층단위로 부호화하고, 비트스트림에 부가정보를 추가하는 단계를 포함하고, 그 부호화 장치는 양자화처리부; 계층별 가용비트계산 수단; 부가정보의 크기를 구하여 계층별 가용비트수를 수정하는 수단; 및 오디오데이터를 계층별 가용비트수에 따라 부호화하고 부가정보를 추가하는 비트패킹부를 포함한다. 그 복호화 방법은 헤더를 복호화하고, 비트스트림 계층구조를 구하고, 최상위 계층의 크기와 프레임 크기의 차를 부가정보의 크기로 정하는 단계; 및 부가정보의 크기만큼 부가정보를 추출하고, 오디오 데이터를 복호화하는 단계를 포함하고, 그 복호화 장치는 헤더를 복호화하는 비트언패킹부; 비트스트림의 계층구조를 구하는 수단; 최상위 계층의 크기와 프레임 크기 차를 부가정보의 크기로 하는 부가정보계산부; 부가정보의 크기 만큼 부가정보를 추출하는 부가정보추출부; 및 최상위계층까지 오디오 데이터를 복호화하는 오디오복호화부를 포함함을 특징으로 한다. 본 발명에 의하면, 부가 데이터를 삽입함으로써 BSAC을 통해 서비스를 할 경우 오디오 컨텐츠의 메타 데이터나 음질을 개선할 수 있다.

Description

부가정보 삽입된 ＭＰＥＧ-4 오디오 ＢＳＡＣ 부호화/복호화 방법 및 장치{Method for encoding/decoding of embedding the ancillary data in MPEG-4 BSAC audio bitstream and apparatus using thereof}

도 1은 MPEG-4 BSAC 오디오 부호화 장치의 구성을 블록도로 도시한 것이다.

도 2는 본 발명에 의한 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 장치의 구성을 블록도로 도시한 것이다.

도 3은 MPEG-4 오디오 BSAC 부호화 장치의 동작을 흐름도로 도시한 것이다.

도 4는 본 발명에 의한 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 장치의 동작을 흐름도로 도시한 것이다.

도 5는 MPEG-4 오디오 BSAC 복호화 장치의 구성을 블록도로 도시한 것이다.

도 6은 본 발명에 의한 부가정보 삽입된 MPEG-4 오디오 복호화장치의 구성을 블록도로 도시한 것이다.

도 7은 본 발명에 의한 MPEG-4 오디오 BSAC 복호화 장치의 동작을 흐름도로 도시한 것이다.

도 8은 본 발명에 의한 상기 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화의 또 다른 방법을 흐름도로 도시한 것이다.

도 9은 BSAC의 비트스트림 구조이며 도 10는 BSAC 비트스트림에 부가정보가 삽입되는 위치를 나타낸다.

도 10는 BSAC 비트스트림에 부가정보가 삽입되는 위치를 나타낸다.

도 11은 ID3v1의 비트스트림 구조를 도시하고 있다.

도 12는 MPEG-4 BSAC syntax 중 bsac_header()를 도시한 것이다.

도 13는 MPEG-4 BSAC syntax 중 general_header()를 도시한 것이다.

본 발명은 MPEG 오디오 부호화/복호화에 관한 것으로서, 특히 부가정보 삽입된 MPEG-4 오디오 BSAC(Bit Sliced Arithmatic Coding) 부호화/복호화 방법 및 장치에 관한 것이다.

정보를 포함하고 있는 파형은 원래 진폭에 있어서 연속적이고 시간상으로도 연속적인 아날로그(Analog) 신호이다. 따라서 파형을 이산 신호로 표현하기 위해서 A/D(Analog-to-Digital) 변환이 필요하다. A/D 변환을 하기 위해서 두 가지의 과정을 필요로 한다. 하나는 시간상의 연속 신호를 이산 신호를 바꾸어 주는 표본화(Sampling)과정이고 다른 하나는 가능한 진폭의 수를 유한한 값으로 제한하기 위한 진폭 양자화 과정이다. 즉 진폭의 양자화는 시간 n에서 입력 진폭 x(n)을 가능한 진폭의 유한한 집합중의 한 원소인 y(n)로 변환해 주는 과정이다.

오디오 신호의 저장/복원 방식도 최근 디지탈 신호처리 기술의 발달에 의해 기존의 아날로그 신호를 표본화와 양자화 과정을 거쳐 디지탈 신호인 PCM(Pulse Code Modulation) 데이터로 변환하여 CD(Compact Disc)와 DAT(Digital Audio Tape)와 같은 기록/저장 매체에 신호를 저장해 둔 뒤 사용자가 필요시에 저장된 신호를 다시 재생해서 들을 수 있는 기술이 개발되어 일반인들에게 보편화되어 사용되고 있다. 이런 디지탈 방식에 의한 저장/복원 방식은 LP(Long-Play Record)와 Tape와 같은 아날로그 방식에 비해 음질의 향상과 저장 기간에 따른 열화를 극복하였으나 디지탈 데이타의 크기가 많아 저장 및 전송에 문제를 보였다.

이러한 문제를 해결하기 위해 디지탈 음성 신호를 압축하기 위해 개발된 DPCM(Differential Pulse Code Modulaton)이나 ADPCM(Adaptive Differential Pulse Code Modulation)등의 방법을 사용하여 데이타의 양을 줄이려는 노력이 있었으나 신호의 종류에 따라 효율성이 크게 차이가 나는 단점을 보였다. 최근 ISO (International Standard Organization)에 의해 표준화 작업이 이루어진 MPEG/audio(Moving Pictures Expert Group)기법이나 Dolby에 의해 개발된 AC-2/AC-3 기법에서는 인간의 심리음향 모델(Psychoacoustic Model)를 이용하여 데이타의 양을 줄이는 방법을 사용했다. 이러한 방법은 신호의 특성에 관계없이 효율적으로 데이타의 양을 줄이는데 크게 기여하였다.

MPEG-1/audio, MPEG-2/audio나 AC-2/AC-3등과 같은 기존의 오디오 신호 압축 기법에서는 시간영역의 신호를 일정할 크기의 블럭으로 묶어서 주파수 영역의 신호로 변환을 한다. 그리고 이 변환된 신호를 인간의 심리음향 모델(Psychoacoustic Model)를 이용하여 스칼라 양자화를 한다. 이런 양자화 기법은 단순하지만 입력 샘플이 통계적으로 독립적이라고 할 지라도 최적은 아니다. 물론 입력 샘플이 통계적 으로 종속적이라면 더욱 불충분하다. 이런 문제점 때문에 엔트로피(Entropy) 부호화와 같은 무손실 부호화나 어떤 종류의 적응 양자화를 포함하여 부호화를 수행한다. 따라서 단순한 PCM 데이터만을 저장하던 방식보다는 상당히 복잡한 과정을 거치고 비트스트림은 양자화된 PCM 데이터뿐만 아니라 신호를 압축하기 위한 부가적인 정보들로 구성되어 있다.

MPEG/audio 표준이나 AC-2/AC-3 방식은 기존의 디지탈 부호화에 비해 1/6내지 1/8로 줄어든 64Kbps-384Kbps의 비트율로 컴팩트디스크(Compact Disc) 음질과 거의 같은 정도의 음질을 제공한다. 이런 이유 때문에, MPEG/audio 표준은 DAB(Digital Audio Broadcasting), internet phone, AOD(Audio on Demand)와 멀티미디어 시스템과 같은 오디오 신호의 저장과 전송에 중요한 역할을 할 것이다.

이런 기존의 기법들은 부호화기에서 고정된 비트율이 주어지고 주어진 비트율에 최적의 상태를 찾아 양자화와 부호화 과정을 거치기 때문에 고정된 비트율을 사용할 경우에는 상당히 좋은 방안을 제시한다. 하지만, 멀티미디어 시대가 도래함과 더불어 기존의 낮은 비트율 부호화뿐 아니라 여러가지 기능성을 가지고 있는 부호화기/복호화기에 대한 요구가 많아지고 있다. 그 요구중의 하나가 비트율의 크기 조절이 가능한 오디오 부호화/복호화기이다. 비트율 조절이 가능한 오디오 부호화기는 높은 비트율로 부호화된 비트스트림을 낮은 비트율의 비트스트림으로 만들 수도 있고 그 중 일부의 비트스트림만을 가지고 복원을 할 수 있음으로써 네트워크에서 과부화가 걸릴 경우, 복호화기에의 성능이 좋지 않을 경우, 또는 사용자의 요구에 의해 비트율이 낮아질 경우에는 비트스트림의 일부만을 가지고 비트율이 낮아진 만큼 성능의 열화를 보이겠지만 어느 정도의 성능으로 사용자에게 신호를 복원해 줄 수 있어야 한다.

MPEG-2/4 AAC (ISO/IEC 13818-7, ISO/IEC 14496-3)의 경우에는 data_stream_element(), fill_element()와 같이 부가정보를 저장할 수 있는 syntax가 정의 되어있다. MPEG-1 layer-III(mp3)의 경우에는 ancillary data 라는 것이 정의되어 있어 프레임정보 중간에 부가정보를 삽입함으로써 오디오에 대한 부가 정보를 저장할 수 있다. ID3v1이 그 대표적인 예이다. 도 11은 ID3v1의 비트스트림 구조를 도시하고 있다.

그러나 현재 표준화되어 있는 MPEG-4 BSAC(Bit Sliced Arithmatic Coding : 이하 BSAC라 한다.) 오디오 방식의 syntax에는 부가정보를 제공할 수 있는 syntax가 정의되어 있지 않다. 도 12 및 도 13은 BSAC syntax의 프레임 헤더에 대한 정의를 기술하고 있다. BSAC의 경우에는 프레임헤더에 이와 같이 부가정보 삽입할 수 있는 syntax가 정의되어 있지 않아 표준에 의하면 부가정보를 삽입하는 것이 불가능하다.

본 발명이 이루고자 하는 기술적 과제는 현재 표준화되어 있는 MPEG-4 BSAC 오디오 방식에 부가정보를 삽입하여 오디오 컨텐츠에 대한 메타 데이터나 음질을 개선하여 차별화된 서비스가 가능하게 하는, 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화/복호화 방법 및 장치를 제공하는 것이다.

본 발명이 이루고자하는 다른 기술적 과제는 MPEG-4 BSAC에 의해 부호화된 오디오 데이터의 부가정보 삽입여부 판별방법을 제공하는 것이다.

상기 기술적 과제를 이루기 위한 본 발명에 의한, 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 방법은, MPEG-4 오디오 BSAC 부호화 방법에 있어서, 시간영역의 오디오신호를 주파수영역 신호로 변환하고 인간의 음향심리모델을 이용하여 양자화하는 단계; 비트레이트 제어된 오디오 데이터의 비트수를 카운트하는 단계; 상기 사용될 비트수와 계층의 갯수를 이용하여 계층별 가용비트수를 구하는 단계; 부가정보의 크기를 구하여 계층별 가용비트수를 수정하는 단계; 실제 오디오 데이터를 계층 단위로 부호화하는 단계; 및 부호화된 비트스트림에 부가정보를 추가하는 단계를 포함함을 특징으로 한다. 상기 부가정보는 음질 개선에 관한 정보임이 바람직하다. 또한 상기 부가정보는 음악의 곡에 관한 정보임이 바람직하다.

상기 기술적 과제를 이루기 위한 본 발명에 의한, 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 장치는 MPEG-4 오디오 부호화 장치에 있어서 시간영역의 오디오신호를 주파수영역 신호로 변환하고 인간의 음향심리모델을 이용하여 양자화하는 양자화처리부; 오디오 데이터의 비트수와 계층 수를 이용하여 계층별 가용비트수를 구하는 가용비트 계산부; 부가정보의 크기를 구하여 상기 가용비트계산부에서 계산된 계층별 가용비트수를 수정하는 가용비트 수정부; 및 실제 오디오 데이터를 상기 가용비트 수정부에서 수정된 계층별 가용비트수에 따라 계층 단위로 부호화하고 부호화된 비트스트림에 부가정보를 추가하는 비트패킹부를 포함함을 특징으로 한다. 상기 가용비트 계산부는 비트율 제어된 오디오 데이터의 비트수를 카운트하는 비트 카운트부; 및 상기 비트카운트부에서 카운트된 오디오 데이터의 비트수와 소정 개수의 계층 정보를 이용하여 계층별로 가용비트수를 구하는 계층별가용비트계산부를 구비함이 바람직하다.

상기 기술적 과제를 이루기 위한 본 발명에 의한, 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화 방법은, 오디오 비트스트림의 헤더를 복호화하는 단계; 상기 헤더정보로부터 프레임 크기를 구하여 비트스트림의 계층구조를 계산하는 단계; 상기 계층구조로부터 최상위 계층의 크기와 프레임 크기를 구하여 상기 최상위 계층의 크기와 프레임 크기의 차를 부가정보의 크기로 결정하는 단계; 상기 부가정보의 크기에 해당하는 비트수 만큼 비트스트림으로부터 부가정보를 추출하는 단계; 및 상기 계산된 비트스트림의 계층구조에 따라 최상위계층까지 오디오 데이터를 복호화하는 단계를 포함함을 특징으로 한다.

상기 기술적 과제를 이루기 위한 본 발명에 의한, 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화 방법은, 비트스트림의 헤더를 복호화하는 단계; 상기 헤더정보로부터 프레임 크기를 구하여 비트스트림의 계층구조를 계산하는 단계; 상기 비트스트림의 계층구조로부터 최상위 계층의 오디오 데이터 크기에 해당하는 오디오 데이터를 복호화하는 단계; 및 복호화되지 않은 나머지 비트스트림을 부가정보로서 추출하여 복호화하는 단계를 포함함을 특징으로 한다.

상기 추출된 부가정보는 오디오 음질 개선에 관한 정보임이 바람직하다. 상기 추출된 부가정보는 오디오 데이터 사용자를 위한 오디오에 관한 메타 데이터임이 바람직하다.

상기 기술적 과제를 이루기 위한 본 발명에 의한, MPEG-4 오디오 BSAC 데이터의 부가정보 삽입여부 판별방법은, 비트스트림의 헤더를 복호화하는 단계; 상기 헤더정보로부터 프레임 크기를 구하여 비트스트림의 계층구조를 계산하는 단계; 및 상기 계층구조로부터 최상위 계층의 크기와 프레임 크기를 구하여 상기 최상위 계층의 크기와 프레임 크기의 차에 의해 부가정보 유무를 판별하는 단계를 포함함을 특징으로 한다.

상기 기술적 과제를 이루기 위한 본 발명에 의한, 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화 장치는, 오디오 비트스트림의 헤더를 복호화하는 비트언패킹부; 상기 헤더정보로부터 프레임 크기를 구하여 비트스트림의 계층구조를 계산하는 계층구조부; 상기 계층구조로부터 상기 최상위 계층의 크기와 프레임 크기를 구해 그 차를 부가정보의 크기로 결정하는 부가정보계산부; 상기 부가정보의 크기에 해당하는 비트수 만큼 비트스트림으로부터 부가정보를 추출하는 부가정보추출부; 및 상기 계산된 비트스트림의 계층구조에 따라 최상위계층까지 오디오 데이터를 복호화하는 오디오복호화부를 포함함을 특징으로 한다.

그리고 상기 기재된 발명을 정보기기에서 실행시키기 위한 프로그램을 기록한 정보기기로 읽을 수 있는 기록매체를 제공한다.

이하, 첨부된 도면들을 참조하여 본 발명에 의한 부가정보 삽입가능한 MPEG-4 오디오 부호화/복호화 방법 및 장치를 상세히 설명한다.

도 1은 MPEG-4 오디오 BSAC 부호화 장치의 구성을 블록도로 도시한 것으로서, 시간/주파수 변환부(100), 음향심리모델부(110), 양자화/비트율제어부(120) 및 비트패킹부(130)을 포함하여 이루어진다.

상기 시간/주파수 변환부(100)는 시간영역의 입력오디오 신호를 주파수 영역의 신호로 변환한다. 시간상으로 인간이 인지하는 신호의 특성 차이가 그리 크지 않지만, 이렇게 변환된 주파수 영역의 신호들은 인간의 음향심리모델에 따라 각 대역에서 인간이 느낄 수 있는 신호와 느낄 수 없는 신호의 차이가 크기 때문에 각 주파수 대역에 따른 양자화 비트를 다르게 할당할 수 있음으로써 압축의 효율을 높일 수 있다.

심리음향모델부(110)는 상기 시간/주파수 변환부(100)에 의해 주파수 성분으로 변환된 입력 오디오 신호들을 소정의 대역(subband) 신호들로 묶고, 각 신호들의 상호작용으로 인해 발생되는 마스킹현상을 이용하여 각 대역(subband)에서의 마스킹 문턱치(masking threshold)를 계산한다.

양자화/비트율제어부(120)는 각 대역의 양자화 잡음이 마스킹 문턱치보다 작아지도록 소정의 부호화 대역별로 양자화한다. 즉 인간이 들어도 느끼지 못하도록 각 대역의 양자화 잡음의 크기가 상기 마스킹 문턱값보다 작도록 각 대역의 주파수 신호들을 스칼라 양자화를 사용한다. 심리음향모델부(110)에서 계산한 마스킹문턱치와 각 대역에서 발생하는 잡음(noise)의 비율인 NMR(Noise-to-Mask Ratio)를 이용하여 전대역의 NMR 값이 0dB이하가 되도록 양자화를 행한다. NMR 값이 0dB이하라는 것은 양자화잡음에 비해 마스킹값이 높다는것을 나타내는데, 이것은 양자화잡음을 사람이 들을 수 없다는 의미이다.

상기 비트패킹부(130)는 비트율이 가장 낮은 기본계층(base layer)에 상응하 는 양자화된 데이터들을 부호화하고, 상기 기본계층에 대한 부호화가 끝나면 그 다음 계층에 대한 양자화된 데이터들을 부호화하여 이를 모든 계층에 대해 수행하여 비트스트림을 형성한다. 상기 비트패킹부(240)의 각 계층에서의 양자화된 데이터의 부호화는 상기 양자화된 데이터 각각을 소정의 동일 개수의 비트로 이루어지는 이진 데이터로 표현하여 비트단위로 나누고, 상기 분할된 비트들로부터 중요도가 가장 높은 최상위 비트로 이루어지는 최상위 비트시퀀스(sequence)부터 최하위 비트시퀀스 순서대로 부호화한다.

도 2는 본 발명에 의한 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 장치의 구성을 블록도로 도시한 것으로서, 양자화처리부(200), 가용비트계산부(220), 가용비트수정부(240) 및 비트패킹부(260)를 포함하여 이루어진다.

상기 양자화처리부(200)는 시간영역의 오디오 신호를 주파수 영역의 신호로 변환하고 인간의 음향심리모델을 이용하여 양자화하며, 시간/주파수변환부(20), 음향심리모델부(22) 및 양자화/비트율제어부(24)로 이루어진다. 상기 시간/주파수변환부(20), 음향심리모델부(22) 및 양자화/비트율제어부(24)는 상술한 도 1의 시간/주파수변환부(100), 음향심리모델부(110) 및 양자화/비트율제어부(120)과 각각 상응하는 것으로서 그 기능을 동일하다.

상기 가용비트계산부(220)는 상기 양자화된 오디오 데이터의 비트수와 계층의 갯수를 이용하여 계층별 가용비트수를 구하며, 비트 카운트부(26) 및 계층별 가용비트계산부(28)로 이루어진다. 상기 비트 카운트부(26)는 비트율 제어(bit rate control)된 오디오 데이터의 비트수를 카운트한다. 상기 계층별 가용비트계산부(28)는 상기 비트카운트부(26)에서 카운트된 오디오 데이터의 비트수와 소정의 계층 수를 이용하여 계층별로 가용비트수를 구한다.

상기 가용비트수정부(240)는 삽입하고자 하는 부가정보의 크기를 구하여 상기 가용비트계산부(220)에서 계산된 계층별 가용비트수를 수정한다.

상기 비트패킹부(260)는 실제 오디오 데이터를 상기 가용비트 수정부(240)에서 수정된 계층별 가용비트수에 따라 계층 단위로 부호화하고 MPEG-4 BSAC sytax를 위배하지 않으면서 부호화된 비트스트림에 부가정보를 추가한다.

도 3은 MPEG-4 BSAC 오디오 부호화 장치의 동작을 흐름도로 도시한 것으로서, 전체적으로 입력된 오디오 신호가 부호화되면 최종적으로 비트스트림으로 만들어져 파일로 저장된다. 이를 위해 먼저 입력신호는 시간/주파수 변환부(100)에서 MDCT(Modified Discrete Cosine Transform)이나 대역 분할 필터(subband filter)등에 의해 주파수 영역의 신호로 변환된다. 그리고 심리음향모델부(110)는 상기 주파수 신호를 적당한 대역(subband)으로 묶어서 마스킹 문턱값을 구한다. 여기서 사용되는 대역은 주로 양자화 과정에 사용되기 때문에 양자화대역이라 부르기로 한다. 양자화/비트율제어부(120)에서는 인간이 들어도 느끼지 못도록 각 양자화대역의 양자화 잡음의 크기가 마스킹 문턱값보다 작도록 스칼라 양자화 한다.(300단계)

상기 양자화/비트율제어부(120)에서 양자화된 데이터는 비트패킹부(130)에 의해 기본계층(base layer)과 여러개의 enhancement layer로 이루어지는 계층적인 비트스트림으로 부호화된다. 상기 기본계층은 비트율이 가장 낮은 계층이며, 상기 enhancement layer는 상기 기본계층보다 비트율이 높고, 상기 enhancement layer가 진행될수록 비트율은 더욱 높아진다. 이를 위해 먼저 BSAC 비트수를 카운트하고(310단계), 사용될 비트수를 고려하여 계층구조를 계산하여 계층별 가용비트수를 산출한다.(320단계) 오디오 데이터들의 사용될 비트수를 카운트한다 함은 한 프레임당 할당되는 비트수를 계산하는 것을 말한다. 여기서 오디오 신호의 부호화는 프레임 단위로 이루어진다. 비트율 제어는 프레임 당 할당된 비트수에 맞도록 양자화를 제어하는 것을 말한다. 예를 들어 한 프레임에 1000 비트를 할당할 수 있다면 이에 맞도록 양자화 레벨을 결정하여야 하고 한 프레임당 10000 비트를 할당할 수 있다면 양자화 레벨을 보다 잘게 나눌 수 있다.

이렇게 하여 계층구조가 계산되고 계층별 가용비트수가 산출되면 상기 계층구조에 따라 기본계층(base layer)부터 시작하여 최상위계층(Top layer)까지 부호화한 후(330단계), 부호화된 비트스트림을 파일로 저장한다.(340단계)

도 4는 본 발명에 의한 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 장치의 동작을 흐름도로 도시한 것으로서, 변환/양자화과정(400단계), BSAC 비트카운트 과정(410단계), 사용될 비트수 고려하여 계층구조를 계산하여 계층별 가용비트수 산출과정(420단계) 및 부호화된 비트스트림을 파일로 저장하는 단계(460단계)는 상술한 도 3의 변환/양자화과정(300단계), BSAC 비트카운트 과정(310단계), 사용될 비트수 고려하여 계층구조를 계산하여 계층별 가용비트수 산출과정(320단계) 및 부호화된 비트스트림을 파일로 저장하는 단계(340단계)와 동일하다.

따라서 본 발명에 의한 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 장치의 특징적인 동작을 설명하기로 한다. 상기 가용비트제어부(220)의 비트카운트부(26) 에 의해 비트율 제어된 오디오 데이터의 BSAC 비트수를 카운트한 후(410단계), 계층별 가용비트 계산부(28)에 의해 사용될 비트수와 계층의 개수를 이용하여 계층별 가용비트수를 구한다.(420단계) 그리고 나서 가용비트수정부(240)에 의해 부가데이터의 크기를 구하여 계층별 가용비트수를 수정한다.(430단계) 이렇게 해서 상기 계산된 계층구조에 따라 비트패킹부(260)에 의해 기본계층부터 최상위 계층까지 부호화되고(440단계), 부호화된 비트스트림의 마지막 부분에 부가정보를 추가한다.(450단계)

상기 부가정보는 음악의 곡에 관한 정보, 예를 들어 음악의 제목, 가사, 작곡가, 가수 이름 등 ID3v1과 같은 사용자를 위한 메타데이터가 될 수 있다. 또한 음질을 향상시켜줄 오디오 후처리 정보가 될 수 있다.

도 5는 MPEG-4 오디오 BSAC 복호화 장치의 구성을 블록도로 도시한 것으로서, 비트언패킹부(500), 역양자화부(510) 및 역변환부(520)를 포함하여 이루어진다.

상기 비트언패킹부(500)는 계층적 구조를 가진 비트스트림에서 상기 계층이 생성된 순서에 따라 양자화된 데이터를 복호화하되, 상기 비트스트림을 구성하고 있는 비트들의 중요도를 분석하여 중요도가 높은 비트부터 중요도가 낮은 비트로 내려가면서 상기 계층별로 복호화한다. 상기 역양자화부(510)는 복호화된 양자화 데이터를 원래 크기의 신호로 복원한다. 상기 역변환부(520)는 주파수 영역의 오디오 신호를 다시 시간 영역의 신호로 변환해서 사용자가 오디오 신호를 재생할 수 있도록 해 준다.

도 6은 본 발명에 의한 부가정보 삽입된 MPEG-4 오디오 복호화장치의 구성을 블록도로 도시한 것으로서, 비트언패킹부(600), 오디오복호화부(610), 계층구조계산부(630), 부가정보계산부(640) 및 부가정보 추출부(650)를 포함하여 이루어진다.

상기 비트언패킹부(600)는 오디오 비트스트림의 헤더를 복호화한다. 상기 계층구조계산부(610)는 상기 헤더정보로부터 프레임 크기를 구하여 비트스트림의 계층구조를 계산한다. 상기 부가정보계산부(640)는 상기 계층구조로부터 상기 최상위 계층의 크기와 프레임 크기를 구해 그 차를 부가정보의 크기로 결정한다. 상기 부가정보추출부(650)는 상기 부가정보의 크기에 해당하는 비트수 만큼 비트스트림으로부터 부가정보를 추출한다. 상기 오디오복호화부(610)는 상기 계산된 비트스트림의 계층구조에 따라 최상위계층까지 오디오 데이터를 복호화하며, 역양자화부(610) 및 역변환부(620)로 이루어진다. 상기 역양자화부(60) 및 역변환부(65)는 상술한 도 5의 역양자화부(510) 및 역변환부(50)와 동일한 기능을 갖는다.

도 7은 본 발명에 의한 MPEG-4 오디오 BSAC 복호화 장치의 동작을 흐름도로 도시한 것으로서, 도 7을 참조하여 본 발명에 의한 부가정보 삽입된 MPEG-4 오디오 복호화 방법을 설명하기로 한다.

비트스트림의 복호화 과정은 부호화 과정의 역순을 거치면 된다. 먼저 비트스트림의 헤더정보를 복호화한다.(700단계) 상기 헤더정보로부터 프레임 크기를 구해 복호화에 필요한 오디오 데이터의 계층구조를 계산한다.(710단계)

상기 프레임 크기를 고려하여 계층(layer)구조를 계산한다 함은 프레임 크기가 1000 비트이고 계층의 갯수가 10 이라는 정보가 전송되어 오면, 한 계층 당 100 비트씩 할당됨을 뜻한다. 상기 계층구조로부터 최상위 계층(Top layer)의 크기와 프레임 크기를 구하여 상기 최상위 계층의 크기와 프레임 크기의 차를 부가정보의 크기로 결정한다.(740단계) 또한 상기 700단계, 710단계 및 740단계를 수행하고 나면 MPEG-4 오디오의 부가정보가 삽입되었는지를 판별할 수 있다. 즉 프레임 크기가 최상위 계층까지의 데이터 크기보다 크면 부가정보가 삽입되었음을 알 수 있고, 프레임 크기가 최상위 계층까지의 데이터 크기보다 크지 않으면 부가정보 삽입되어 있지 않다고 판단할 수 있다.

그리고 상기 740단계에서 최상위 계층 크기와 프레임 크기의 차이를 구하여 부가 데이터의 크기를 구한다 함은 최상위 계층 까지의 비트수는 710단계를 참조하면 한 layer 당 100 비트씩 10000 비트가 되고, 전송된 프레임 길이정보(frame length)가 1050 비트를 나타내면, 부가정보는 50비트가 됨을 알 수가 있다는 말이다. 따라서 마지막 50비트를 부가정보로 알고 추출하면 된다.

즉 상기 부가정보의 크기에 해당하는 비트수 만큼 비트스트림으로부터 부가정보를 추출한다.(750단계)

한편 상기 계산된 비트스트림의 계층구조에 따라 최상위계층까지 오디오 데이터를 복호화한다.(720단계) 상기 오디오 신호의 복호화는 기본 계층에 대한 정보를 복호화한다. 기본계층에 할당된 크기의 비트스트림에 대한 복호화가 끝나면 그 다음계층에 대한 부가정보와 오디오데이타의 양자화값을 복호화한다. 이러한 방법으로 모든 계층의 데이터를 복호화할 수 있다. 이렇게 복호화 과정을 거쳐 양자화된 데이터들은 도 6에 도시된 역양자화부(60)와 역변환부(65)를 거쳐 복원된 신 호를 만들 수 있다. 그리고 나서 역양자화 및 역변환을 거쳐 복원된 신호를 생성한다.(730단계)

한편, 도 8은 본 발명에 의한 상기 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화의 또 다른 방법을 흐름도로 도시한 것으로서, 이를 설명하면 다음과 같다. 먼저 비트스트림의 헤더를 복호화하고(800단계), 상기 헤더정보로부터 프레임 크기를 구하여 비트스트림의 계층구조를 계산한다.(810단계) 그리고 나서 상기 비트스트림의 계층구조로부터 최상위 계층의 오디오 데이터 크기에 해당하는 오디오 데이터를 복호화한다.(820단계) 상기 복호화되지 않은 나머지 비트스트림을 부가정보로서 추출하여 복호화한다.(830단계)

MPEG-4 BSAC는 계층구조를 이용하면 FGS(Fine Grain Scalability)를 할 수 있다. 계층구조에 대한 정보는 BSAC syntax에 의해 정의되며 상기 700 단계에서 정보를 추출하며 상기 710 단계에서 이 정보를 이용하여 실제 계층 데이터를 계산한다. 계층당 가용비트수를 계산하기 위한 pseudo code는 다음과 같다. 상기 과정은 복/부호화기에서 동일하게 적용된다. pseudo code에 사용되는 변수 이름들은 ISO/IEC 14496-3 표준문서의 4.5.2.6.2절에 나타나 있다.

for (layer = 0; layer <(top_layer+slayer_size); layer++) {

layer_si_maxlen[layer] = 0;

for (cband = layer_start_cband[layer]; cband < layer_end_cband[layer]; cband++) {

for (ch=0; ch <nch; ch++) {

if (cband == 0)

layer_si_maxlen[layer] += max_cband0_si_len;

else

layer_si_maxlen[layer] += max_cband_si_len[cband_si_type[ch]];

}

for (sfb = layer_start_sfb[layer]; sfb < layer_end_sfb[layer]; sfb++)

for (ch = 0; ch < nch; ch++)

layer_si_maxlen[layer] += max_sfb_si_len[ch] + 5;

}

for (layer = slayer_size; layer <= (top_layer + slayer_size); layer++) {

layer_bitrate = nch * ( (layer-slayer_size) * 1000 + 16000);

layer_bit_offset[layer] = layer_bitrate * BLOCK_SIZE_SAMPLES_IN_FRAME;

layer_bit_offset[layer] = (int)(layer_bit_offset[layer] / SAMPLING_FREQUENCY / 8 ) * 8;

if (layer_bit_offset[layer] > frame_length*8)

layer_bit_offset[layer] = frame_length*8;

}

for (layer = (top_layer + slayer_size -1); layer >= slayer_size; layer--) {

bit_offset = layer_bit_offset[layer+1] - layer_si_maxlen[layer]

if ( bit_offset < layer_bit_offset[layer] )

layer_bit_offset[layer] = bit_offset

}

for (layer = slayer_size - 1; slayer_size >= 0; slayer--)

layer_bit_offset[layer] = layer_bit_offset[layer+1] - layer_si_maxlen[layer];

overflow_size = (header_length + 7) * 8 - layer_bit_offset[0];

layer_bit_offset[0] = (header_length + 7) * 8;

if (overflow_size > 0) {

for ( layer = (top_layer+slayer_size-1); layer >= slayer_size; layer--) {

layer_bit_size = layer_bit_offset[layer+1] - layer_bit_offset[layer];

layer_bit_size -= layer_si_maxlen[layer];

if (layer_bit_size >= overflow_size) {

layer_bit_size = overflow_size;

overflow_size = 0;

}

else

overflow_size = overflow_size - layer_bit_size;

for (m=1; m<=layer; m++)

layer_bit_offset[m] += layer_bit_size;

if (overflow_size<=0)

break;

}

else {

underflow_size = -overflow_size;

for (m=1; m < slayer_size; m++) {

layer_bit_offset[m] = layer_bit_offset[m-1] + layer_si_maxlen[m-1];

layer_bit_offset[m] += underflow_size / slayer_size;

if (layer <= (underflow_size%slayer_size);

layer_bit_offset[m] += 1;

}

for (layer=0; layer <(top_layer+slayer_size); layer++)

available_len[layer] = layer_bit_offset[layer+1] - layer_bit_offset[layer];

위와 같이 계층(layer) 당 사용할 수 있는 비트수에 해당하는 layer_bit_offset을 구한 뒤 이에 따라 오디오 정보들을 계층별로 부호화한다.

본 발명은 다음과 같이 사용할 수 있다. 첫 번째는, MPEG-4 BSAC 오디오 부호화기를 이용하여 48kbps의 용량으로 압축을 할 때 주파수 대역을 0~7 kHz만 커버하도록 부호화한 뒤 7~16kHz에 대한 정보는 SBR(Spectral Band Replication)을 이용하여 비트스트림을 생성한 뒤 부가정보로서 SBR 비트스트림을 삽입하고 파일로 저장하는 방법이 있다. 이런 경우에는 SBR 부가정보를 인식할수 있는 복호화기에서는 0~16 kHz의 사운드를 복호화할 수 있으며 낮은 비트율에서도 좋은 음질을 제공할 수 있다. 하지만 기존의 MPEG-4 BSAC 복호화기로는 SBR정보 추출이 불가능하므로 0~7kHZ의 대역의 사운드만을 들을 수 있으며 SBR데이터는 더미(dummy)데이터로 간주하게 된다.

두 번째는, MPEG-4 BSAC 오디오 부호화기를 이용하여 128kbps의 음악을 압축 할 때 노래의 가사를 삽입하고자 하면 가사와 음악과의 시간정보를 정렬하여 해당 시간에 맞는 가사정보를 오디오 비트스트림 내에 부가정보로서 부호화하게 됨으로써 추가의 시간 정보 없이 가사를 출력할 수 있다. 기존의 MPEG-4 BSAC로는 가사에 대한 정보를 받지 못하고 사운드만 복호화할 수 있다.

본 발명은 컴퓨터를 비롯한 정보기기로 읽을 수 있는 기록 매체에 컴퓨터를 비롯한 정보기기가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터를 비롯한 정보기기가 읽을 수 있는 기록 매체는 컴퓨터를 비롯한 정보기기 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터를 비롯한 정보기기가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

본 발명에 의한 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 방법 및 장치에 의하면, 부가 데이터를 삽입함으로써 BSAC를 통해 서비스를 할 경우 오디오 컨텐츠에 대한 메타 데이터나 음질을 개선할 수 있는 추가데이터를 제공하여 차별화된 서비스가 가능해진다.

그리고 MPEG-4 BSAC syntax상 불가능했던 부가정보 삽입을 가능케 함으로써 오디오 메타데이터를 삽입하여 사용자에게 재생시 미디어에 대한 정보를 추가적으로 제공할 수 있다.

또한 MPEG-4 BSAC syntax상 불가능했던 부가정보 삽입을 가능케 함으로써 오디오 후처리를 위한 부가정보를 삽입함으로써 낮은 비트레이트에서 고음질을 제공할 수 있다.

또한 부가정보를 삽입하여도 기존의 복호화기가 가능하게 함으로써 기존의 복호화기와 상호호환이 가능하며, 부가정보를 제공함으로써 부가정보를 처리할 수 있는 복호화기는 그렇지 않은 기존 복호화기 대비 경쟁력이 향상된다.

Claims

MPEG-4 오디오 BSAC 부호화 방법에 있어서,

시간영역의 오디오신호를 주파수영역 신호로 변환하고 인간의 음향심리모델을 이용하여 양자화하는 단계;

비트레이트 제어된 오디오 데이터의 비트수를 카운트하는 단계;

상기 사용될 비트수와 계층의 갯수를 이용하여 계층별 가용비트수를 구하는 단계;

부가정보의 크기를 구하여 계층별 가용비트수를 수정하는 단계;

실제 오디오 데이터를 계층 단위로 부호화하는 단계; 및

오디오 데이터를 계층단위로 부호화한 결과로 만들어진 비트스트림에 부가정보를 추가하는 단계를 포함함을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 방법.
제1항에 있어서, 상기 부가정보는

음질 개선에 관한 정보임을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 방법.
제1항에 있어서, 상기 부가정보는

음악의 곡에 관한 정보임을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 방법.
MPEG-4 오디오 BSAC 부호화 장치에 있어서,

시간영역의 오디오신호를 주파수영역 신호로 변환하고 인간의 음향심리모델을 이용하여 양자화하는 양자화처리부;

오디오 데이터의 비트수와 계층 수를 이용하여 계층별 가용비트수를 구하는 가용비트 계산부;

부가정보의 크기를 구하여 상기 가용비트계산부에서 계산된 계층별 가용비트수를 수정하는 가용비트 수정부; 및

실제 오디오 데이터를 상기 가용비트 수정부에서 수정된 계층별 가용비트수에 따라 계층 단위로 부호화하고 부호화된 비트스트림에 부가정보를 추가하는 비트패킹부를 포함함을 특징으로 하는 부가정보 삽입가능한 MPEG-4 오디오 BSAC 부호화 장치.
제4항에 있어서, 상기 가용비트 계산부는

비트율 제어된 오디오 데이터의 비트수를 카운트하는 비트카운트부; 및

상기 비트카운트부에서 카운트된 오디오 데이터의 비트수와 소정 개수의 계층 정보를 이용하여 계층별로 가용비트수를 구하는 계층별가용비트계산부를 구비함을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 장치.
오디오 비트스트림의 헤더를 복호화하는 단계;

상기 헤더정보로부터 프레임 크기를 구하여 비트스트림의 계층구조를 계산하는 단계;

상기 계층구조로부터 최상위 계층의 크기와 프레임 크기를 구하여 상기 최상위 계층의 크기와 프레임 크기의 차를 부가정보의 크기로 결정하는 단계;

상기 부가정보의 크기에 해당하는 비트수 만큼 비트스트림으로부터 부가정보를 추출하는 단계; 및

상기 계산된 비트스트림의 계층구조에 따라 최상위계층까지 오디오 데이터를 복호화하는 단계를 포함함을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화 방법.
제6항에 있어서, 상기 추출된 부가정보는

오디오 음질 개선에 관한 정보임을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화 방법.
제6항에 있어서, 상기 추출된 부가정보는

오디오 데이터 사용자를 위한 오디오에 관한 메타 데이터임을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화 방법.
오디오 비트스트림의 헤더를 복호화하는 단계;

상기 헤더정보로부터 프레임 크기를 구하여 비트스트림의 계층구조를 계산하는 단계;

상기 비트스트림의 계층구조로부터 최상위 계층의 오디오 데이터 크기에 해당하는 오디오 데이터를 복호화하는 단계; 및

복호화되지 않은 나머지 비트스트림을 부가정보로서 추출하여 복호화하는 단계를 포함함을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화 방법.
제9항에 있어서, 상기 추출된 부가정보는

오디오 음질 개선에 관한 정보임을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화 방법.
제9항에 있어서, 상기 추출된 부가정보는

오디오 데이터 사용자를 위한 오디오에 관한 메타 데이터임을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화 방법.
오디오 비트스트림의 헤더를 복호화하는 단계;

상기 헤더정보로부터 프레임 크기를 구하여 비트스트림의 계층구조를 계산하는 단계; 및

상기 계층구조로부터 최상위 계층의 크기와 프레임 크기를 구하여 상기 최상위 계층의 크기와 프레임 크기의 차에 의해 부가정보 유무를 판별하는 단계를 포함함을 특징으로 하는 MPEG-4 오디오 BSAC 데이터의 부가정보 삽입여부 판별 방법.
오디오 비트스트림의 헤더를 복호화하는 비트언패킹부;

상기 헤더정보로부터 프레임 크기를 구하여 비트스트림의 계층구조를 계산하는 계층구조부;

상기 계층구조로부터 상기 최상위 계층의 크기와 프레임 크기를 구해 그 차를 부가정보의 크기로 결정하는 부가정보계산부;

상기 부가정보의 크기에 해당하는 비트수 만큼 비트스트림으로부터 부가정보를 추출하는 부가정보추출부; 및

상기 계산된 비트스트림의 계층구조에 따라 최상위계층까지 오디오 데이터를 복호화하는 오디오복호화부를 포함함을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화 장치.
제1항 내지 제3항, 제6항 내지 제12항 중 어느 한 항에 기재된 발명을 정보기기에서 실행시키기 위한 프로그램을 기록한 정보기기로 읽을 수 있는 기록매체.