KR100571824B1 - 부가정보 삽입된 mpeg-4 오디오 bsac부호화/복호화 방법 및 장치 - Google Patents
부가정보 삽입된 mpeg-4 오디오 bsac부호화/복호화 방법 및 장치 Download PDFInfo
- Publication number
- KR100571824B1 KR100571824B1 KR1020030084731A KR20030084731A KR100571824B1 KR 100571824 B1 KR100571824 B1 KR 100571824B1 KR 1020030084731 A KR1020030084731 A KR 1020030084731A KR 20030084731 A KR20030084731 A KR 20030084731A KR 100571824 B1 KR100571824 B1 KR 100571824B1
- Authority
- KR
- South Korea
- Prior art keywords
- additional information
- audio
- size
- layer
- decoding
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 101000591286 Homo sapiens Myocardin-related transcription factor A Proteins 0.000 title claims abstract 14
- 102100034099 Myocardin-related transcription factor A Human genes 0.000 title claims abstract 14
- 238000013139 quantization Methods 0.000 claims abstract description 42
- 230000005236 sound signal Effects 0.000 claims abstract description 16
- 238000012856 packing Methods 0.000 claims abstract description 11
- 238000012937 correction Methods 0.000 claims description 6
- 230000006872 improvement Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 230000000873 masking effect Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 241000282412 Homo Species 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0033—Recording/reproducing or transmission of music for electrophonic musical instruments
- G10H1/0041—Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
- G10H1/0058—Transmission between separate instruments or between individual components of a musical system
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화/복호화 방법 및 장치에 관한 것으로서, 그 부호화방법은 오디오신호를 주파수영역 신호로 바꾸고 양자화하여 데이터 비트수를 카운트하고, 계층별 가용비트수를 구하여, 부가정보의 크기를 고려한 계층별 가용비트수를 수정하는 단계; 계층단위로 부호화하고, 비트스트림에 부가정보를 추가하는 단계를 포함하고, 그 부호화 장치는 양자화처리부; 계층별 가용비트계산 수단; 부가정보의 크기를 구하여 계층별 가용비트수를 수정하는 수단; 및 오디오데이터를 계층별 가용비트수에 따라 부호화하고 부가정보를 추가하는 비트패킹부를 포함한다. 그 복호화 방법은 헤더를 복호화하고, 비트스트림 계층구조를 구하고, 최상위 계층의 크기와 프레임 크기의 차를 부가정보의 크기로 정하는 단계; 및 부가정보의 크기만큼 부가정보를 추출하고, 오디오 데이터를 복호화하는 단계를 포함하고, 그 복호화 장치는 헤더를 복호화하는 비트언패킹부; 비트스트림의 계층구조를 구하는 수단; 최상위 계층의 크기와 프레임 크기 차를 부가정보의 크기로 하는 부가정보계산부; 부가정보의 크기 만큼 부가정보를 추출하는 부가정보추출부; 및 최상위계층까지 오디오 데이터를 복호화하는 오디오복호화부를 포함함을 특징으로 한다. 본 발명에 의하면, 부가 데이터를 삽입함으로써 BSAC을 통해 서비스를 할 경우 오디오 컨텐츠의 메타 데이터나 음질을 개선할 수 있다.
Description
도 1은 MPEG-4 BSAC 오디오 부호화 장치의 구성을 블록도로 도시한 것이다.
도 2는 본 발명에 의한 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 장치의 구성을 블록도로 도시한 것이다.
도 3은 MPEG-4 오디오 BSAC 부호화 장치의 동작을 흐름도로 도시한 것이다.
도 4는 본 발명에 의한 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 장치의 동작을 흐름도로 도시한 것이다.
도 5는 MPEG-4 오디오 BSAC 복호화 장치의 구성을 블록도로 도시한 것이다.
도 6은 본 발명에 의한 부가정보 삽입된 MPEG-4 오디오 복호화장치의 구성을 블록도로 도시한 것이다.
도 7은 본 발명에 의한 MPEG-4 오디오 BSAC 복호화 장치의 동작을 흐름도로 도시한 것이다.
도 8은 본 발명에 의한 상기 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화의 또 다른 방법을 흐름도로 도시한 것이다.
도 9은 BSAC의 비트스트림 구조이며 도 10는 BSAC 비트스트림에 부가정보가 삽입되는 위치를 나타낸다.
도 10는 BSAC 비트스트림에 부가정보가 삽입되는 위치를 나타낸다.
도 11은 ID3v1의 비트스트림 구조를 도시하고 있다.
도 12는 MPEG-4 BSAC syntax 중 bsac_header()를 도시한 것이다.
도 13는 MPEG-4 BSAC syntax 중 general_header()를 도시한 것이다.
본 발명은 MPEG 오디오 부호화/복호화에 관한 것으로서, 특히 부가정보 삽입된 MPEG-4 오디오 BSAC(Bit Sliced Arithmatic Coding) 부호화/복호화 방법 및 장치에 관한 것이다.
정보를 포함하고 있는 파형은 원래 진폭에 있어서 연속적이고 시간상으로도 연속적인 아날로그(Analog) 신호이다. 따라서 파형을 이산 신호로 표현하기 위해서 A/D(Analog-to-Digital) 변환이 필요하다. A/D 변환을 하기 위해서 두 가지의 과정을 필요로 한다. 하나는 시간상의 연속 신호를 이산 신호를 바꾸어 주는 표본화(Sampling)과정이고 다른 하나는 가능한 진폭의 수를 유한한 값으로 제한하기 위한 진폭 양자화 과정이다. 즉 진폭의 양자화는 시간 n에서 입력 진폭 x(n)을 가능한 진폭의 유한한 집합중의 한 원소인 y(n)로 변환해 주는 과정이다.
오디오 신호의 저장/복원 방식도 최근 디지탈 신호처리 기술의 발달에 의해 기존의 아날로그 신호를 표본화와 양자화 과정을 거쳐 디지탈 신호인 PCM(Pulse Code Modulation) 데이터로 변환하여 CD(Compact Disc)와 DAT(Digital Audio Tape)와 같은 기록/저장 매체에 신호를 저장해 둔 뒤 사용자가 필요시에 저장된 신호를 다시 재생해서 들을 수 있는 기술이 개발되어 일반인들에게 보편화되어 사용되고 있다. 이런 디지탈 방식에 의한 저장/복원 방식은 LP(Long-Play Record)와 Tape와 같은 아날로그 방식에 비해 음질의 향상과 저장 기간에 따른 열화를 극복하였으나 디지탈 데이타의 크기가 많아 저장 및 전송에 문제를 보였다.
이러한 문제를 해결하기 위해 디지탈 음성 신호를 압축하기 위해 개발된 DPCM(Differential Pulse Code Modulaton)이나 ADPCM(Adaptive Differential Pulse Code Modulation)등의 방법을 사용하여 데이타의 양을 줄이려는 노력이 있었으나 신호의 종류에 따라 효율성이 크게 차이가 나는 단점을 보였다. 최근 ISO (International Standard Organization)에 의해 표준화 작업이 이루어진 MPEG/audio(Moving Pictures Expert Group)기법이나 Dolby에 의해 개발된 AC-2/AC-3 기법에서는 인간의 심리음향 모델(Psychoacoustic Model)를 이용하여 데이타의 양을 줄이는 방법을 사용했다. 이러한 방법은 신호의 특성에 관계없이 효율적으로 데이타의 양을 줄이는데 크게 기여하였다.
MPEG-1/audio, MPEG-2/audio나 AC-2/AC-3등과 같은 기존의 오디오 신호 압축 기법에서는 시간영역의 신호를 일정할 크기의 블럭으로 묶어서 주파수 영역의 신호로 변환을 한다. 그리고 이 변환된 신호를 인간의 심리음향 모델(Psychoacoustic Model)를 이용하여 스칼라 양자화를 한다. 이런 양자화 기법은 단순하지만 입력 샘플이 통계적으로 독립적이라고 할 지라도 최적은 아니다. 물론 입력 샘플이 통계적 으로 종속적이라면 더욱 불충분하다. 이런 문제점 때문에 엔트로피(Entropy) 부호화와 같은 무손실 부호화나 어떤 종류의 적응 양자화를 포함하여 부호화를 수행한다. 따라서 단순한 PCM 데이터만을 저장하던 방식보다는 상당히 복잡한 과정을 거치고 비트스트림은 양자화된 PCM 데이터뿐만 아니라 신호를 압축하기 위한 부가적인 정보들로 구성되어 있다.
MPEG/audio 표준이나 AC-2/AC-3 방식은 기존의 디지탈 부호화에 비해 1/6내지 1/8로 줄어든 64Kbps-384Kbps의 비트율로 컴팩트디스크(Compact Disc) 음질과 거의 같은 정도의 음질을 제공한다. 이런 이유 때문에, MPEG/audio 표준은 DAB(Digital Audio Broadcasting), internet phone, AOD(Audio on Demand)와 멀티미디어 시스템과 같은 오디오 신호의 저장과 전송에 중요한 역할을 할 것이다.
이런 기존의 기법들은 부호화기에서 고정된 비트율이 주어지고 주어진 비트율에 최적의 상태를 찾아 양자화와 부호화 과정을 거치기 때문에 고정된 비트율을 사용할 경우에는 상당히 좋은 방안을 제시한다. 하지만, 멀티미디어 시대가 도래함과 더불어 기존의 낮은 비트율 부호화뿐 아니라 여러가지 기능성을 가지고 있는 부호화기/복호화기에 대한 요구가 많아지고 있다. 그 요구중의 하나가 비트율의 크기 조절이 가능한 오디오 부호화/복호화기이다. 비트율 조절이 가능한 오디오 부호화기는 높은 비트율로 부호화된 비트스트림을 낮은 비트율의 비트스트림으로 만들 수도 있고 그 중 일부의 비트스트림만을 가지고 복원을 할 수 있음으로써 네트워크에서 과부화가 걸릴 경우, 복호화기에의 성능이 좋지 않을 경우, 또는 사용자의 요구에 의해 비트율이 낮아질 경우에는 비트스트림의 일부만을 가지고 비트율이 낮아진 만큼 성능의 열화를 보이겠지만 어느 정도의 성능으로 사용자에게 신호를 복원해 줄 수 있어야 한다.
MPEG-2/4 AAC (ISO/IEC 13818-7, ISO/IEC 14496-3)의 경우에는 data_stream_element(), fill_element()와 같이 부가정보를 저장할 수 있는 syntax가 정의 되어있다. MPEG-1 layer-III(mp3)의 경우에는 ancillary data 라는 것이 정의되어 있어 프레임정보 중간에 부가정보를 삽입함으로써 오디오에 대한 부가 정보를 저장할 수 있다. ID3v1이 그 대표적인 예이다. 도 11은 ID3v1의 비트스트림 구조를 도시하고 있다.
그러나 현재 표준화되어 있는 MPEG-4 BSAC(Bit Sliced Arithmatic Coding : 이하 BSAC라 한다.) 오디오 방식의 syntax에는 부가정보를 제공할 수 있는 syntax가 정의되어 있지 않다. 도 12 및 도 13은 BSAC syntax의 프레임 헤더에 대한 정의를 기술하고 있다. BSAC의 경우에는 프레임헤더에 이와 같이 부가정보 삽입할 수 있는 syntax가 정의되어 있지 않아 표준에 의하면 부가정보를 삽입하는 것이 불가능하다.
본 발명이 이루고자 하는 기술적 과제는 현재 표준화되어 있는 MPEG-4 BSAC 오디오 방식에 부가정보를 삽입하여 오디오 컨텐츠에 대한 메타 데이터나 음질을 개선하여 차별화된 서비스가 가능하게 하는, 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화/복호화 방법 및 장치를 제공하는 것이다.
본 발명이 이루고자하는 다른 기술적 과제는 MPEG-4 BSAC에 의해 부호화된 오디오 데이터의 부가정보 삽입여부 판별방법을 제공하는 것이다.
상기 기술적 과제를 이루기 위한 본 발명에 의한, 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 방법은, MPEG-4 오디오 BSAC 부호화 방법에 있어서, 시간영역의 오디오신호를 주파수영역 신호로 변환하고 인간의 음향심리모델을 이용하여 양자화하는 단계; 비트레이트 제어된 오디오 데이터의 비트수를 카운트하는 단계; 상기 사용될 비트수와 계층의 갯수를 이용하여 계층별 가용비트수를 구하는 단계; 부가정보의 크기를 구하여 계층별 가용비트수를 수정하는 단계; 실제 오디오 데이터를 계층 단위로 부호화하는 단계; 및 부호화된 비트스트림에 부가정보를 추가하는 단계를 포함함을 특징으로 한다. 상기 부가정보는 음질 개선에 관한 정보임이 바람직하다. 또한 상기 부가정보는 음악의 곡에 관한 정보임이 바람직하다.
상기 기술적 과제를 이루기 위한 본 발명에 의한, 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 장치는 MPEG-4 오디오 부호화 장치에 있어서 시간영역의 오디오신호를 주파수영역 신호로 변환하고 인간의 음향심리모델을 이용하여 양자화하는 양자화처리부; 오디오 데이터의 비트수와 계층 수를 이용하여 계층별 가용비트수를 구하는 가용비트 계산부; 부가정보의 크기를 구하여 상기 가용비트계산부에서 계산된 계층별 가용비트수를 수정하는 가용비트 수정부; 및 실제 오디오 데이터를 상기 가용비트 수정부에서 수정된 계층별 가용비트수에 따라 계층 단위로 부호화하고 부호화된 비트스트림에 부가정보를 추가하는 비트패킹부를 포함함을 특징으로 한다. 상기 가용비트 계산부는 비트율 제어된 오디오 데이터의 비트수를 카운트하는 비트 카운트부; 및 상기 비트카운트부에서 카운트된 오디오 데이터의 비트수와 소정 개수의 계층 정보를 이용하여 계층별로 가용비트수를 구하는 계층별가용비트계산부를 구비함이 바람직하다.
상기 기술적 과제를 이루기 위한 본 발명에 의한, 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화 방법은, 오디오 비트스트림의 헤더를 복호화하는 단계; 상기 헤더정보로부터 프레임 크기를 구하여 비트스트림의 계층구조를 계산하는 단계; 상기 계층구조로부터 최상위 계층의 크기와 프레임 크기를 구하여 상기 최상위 계층의 크기와 프레임 크기의 차를 부가정보의 크기로 결정하는 단계; 상기 부가정보의 크기에 해당하는 비트수 만큼 비트스트림으로부터 부가정보를 추출하는 단계; 및 상기 계산된 비트스트림의 계층구조에 따라 최상위계층까지 오디오 데이터를 복호화하는 단계를 포함함을 특징으로 한다.
상기 기술적 과제를 이루기 위한 본 발명에 의한, 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화 방법은, 비트스트림의 헤더를 복호화하는 단계; 상기 헤더정보로부터 프레임 크기를 구하여 비트스트림의 계층구조를 계산하는 단계; 상기 비트스트림의 계층구조로부터 최상위 계층의 오디오 데이터 크기에 해당하는 오디오 데이터를 복호화하는 단계; 및 복호화되지 않은 나머지 비트스트림을 부가정보로서 추출하여 복호화하는 단계를 포함함을 특징으로 한다.
상기 추출된 부가정보는 오디오 음질 개선에 관한 정보임이 바람직하다. 상기 추출된 부가정보는 오디오 데이터 사용자를 위한 오디오에 관한 메타 데이터임이 바람직하다.
상기 기술적 과제를 이루기 위한 본 발명에 의한, MPEG-4 오디오 BSAC 데이터의 부가정보 삽입여부 판별방법은, 비트스트림의 헤더를 복호화하는 단계; 상기 헤더정보로부터 프레임 크기를 구하여 비트스트림의 계층구조를 계산하는 단계; 및 상기 계층구조로부터 최상위 계층의 크기와 프레임 크기를 구하여 상기 최상위 계층의 크기와 프레임 크기의 차에 의해 부가정보 유무를 판별하는 단계를 포함함을 특징으로 한다.
상기 기술적 과제를 이루기 위한 본 발명에 의한, 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화 장치는, 오디오 비트스트림의 헤더를 복호화하는 비트언패킹부; 상기 헤더정보로부터 프레임 크기를 구하여 비트스트림의 계층구조를 계산하는 계층구조부; 상기 계층구조로부터 상기 최상위 계층의 크기와 프레임 크기를 구해 그 차를 부가정보의 크기로 결정하는 부가정보계산부; 상기 부가정보의 크기에 해당하는 비트수 만큼 비트스트림으로부터 부가정보를 추출하는 부가정보추출부; 및 상기 계산된 비트스트림의 계층구조에 따라 최상위계층까지 오디오 데이터를 복호화하는 오디오복호화부를 포함함을 특징으로 한다.
그리고 상기 기재된 발명을 정보기기에서 실행시키기 위한 프로그램을 기록한 정보기기로 읽을 수 있는 기록매체를 제공한다.
이하, 첨부된 도면들을 참조하여 본 발명에 의한 부가정보 삽입가능한 MPEG-4 오디오 부호화/복호화 방법 및 장치를 상세히 설명한다.
도 1은 MPEG-4 오디오 BSAC 부호화 장치의 구성을 블록도로 도시한 것으로서, 시간/주파수 변환부(100), 음향심리모델부(110), 양자화/비트율제어부(120) 및 비트패킹부(130)을 포함하여 이루어진다.
상기 시간/주파수 변환부(100)는 시간영역의 입력오디오 신호를 주파수 영역의 신호로 변환한다. 시간상으로 인간이 인지하는 신호의 특성 차이가 그리 크지 않지만, 이렇게 변환된 주파수 영역의 신호들은 인간의 음향심리모델에 따라 각 대역에서 인간이 느낄 수 있는 신호와 느낄 수 없는 신호의 차이가 크기 때문에 각 주파수 대역에 따른 양자화 비트를 다르게 할당할 수 있음으로써 압축의 효율을 높일 수 있다.
심리음향모델부(110)는 상기 시간/주파수 변환부(100)에 의해 주파수 성분으로 변환된 입력 오디오 신호들을 소정의 대역(subband) 신호들로 묶고, 각 신호들의 상호작용으로 인해 발생되는 마스킹현상을 이용하여 각 대역(subband)에서의 마스킹 문턱치(masking threshold)를 계산한다.
양자화/비트율제어부(120)는 각 대역의 양자화 잡음이 마스킹 문턱치보다 작아지도록 소정의 부호화 대역별로 양자화한다. 즉 인간이 들어도 느끼지 못하도록 각 대역의 양자화 잡음의 크기가 상기 마스킹 문턱값보다 작도록 각 대역의 주파수 신호들을 스칼라 양자화를 사용한다. 심리음향모델부(110)에서 계산한 마스킹문턱치와 각 대역에서 발생하는 잡음(noise)의 비율인 NMR(Noise-to-Mask Ratio)를 이용하여 전대역의 NMR 값이 0dB이하가 되도록 양자화를 행한다. NMR 값이 0dB이하라는 것은 양자화잡음에 비해 마스킹값이 높다는것을 나타내는데, 이것은 양자화잡음을 사람이 들을 수 없다는 의미이다.
상기 비트패킹부(130)는 비트율이 가장 낮은 기본계층(base layer)에 상응하 는 양자화된 데이터들을 부호화하고, 상기 기본계층에 대한 부호화가 끝나면 그 다음 계층에 대한 양자화된 데이터들을 부호화하여 이를 모든 계층에 대해 수행하여 비트스트림을 형성한다. 상기 비트패킹부(240)의 각 계층에서의 양자화된 데이터의 부호화는 상기 양자화된 데이터 각각을 소정의 동일 개수의 비트로 이루어지는 이진 데이터로 표현하여 비트단위로 나누고, 상기 분할된 비트들로부터 중요도가 가장 높은 최상위 비트로 이루어지는 최상위 비트시퀀스(sequence)부터 최하위 비트시퀀스 순서대로 부호화한다.
도 2는 본 발명에 의한 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 장치의 구성을 블록도로 도시한 것으로서, 양자화처리부(200), 가용비트계산부(220), 가용비트수정부(240) 및 비트패킹부(260)를 포함하여 이루어진다.
상기 양자화처리부(200)는 시간영역의 오디오 신호를 주파수 영역의 신호로 변환하고 인간의 음향심리모델을 이용하여 양자화하며, 시간/주파수변환부(20), 음향심리모델부(22) 및 양자화/비트율제어부(24)로 이루어진다. 상기 시간/주파수변환부(20), 음향심리모델부(22) 및 양자화/비트율제어부(24)는 상술한 도 1의 시간/주파수변환부(100), 음향심리모델부(110) 및 양자화/비트율제어부(120)과 각각 상응하는 것으로서 그 기능을 동일하다.
상기 가용비트계산부(220)는 상기 양자화된 오디오 데이터의 비트수와 계층의 갯수를 이용하여 계층별 가용비트수를 구하며, 비트 카운트부(26) 및 계층별 가용비트계산부(28)로 이루어진다. 상기 비트 카운트부(26)는 비트율 제어(bit rate control)된 오디오 데이터의 비트수를 카운트한다. 상기 계층별 가용비트계산부(28)는 상기 비트카운트부(26)에서 카운트된 오디오 데이터의 비트수와 소정의 계층 수를 이용하여 계층별로 가용비트수를 구한다.
상기 가용비트수정부(240)는 삽입하고자 하는 부가정보의 크기를 구하여 상기 가용비트계산부(220)에서 계산된 계층별 가용비트수를 수정한다.
상기 비트패킹부(260)는 실제 오디오 데이터를 상기 가용비트 수정부(240)에서 수정된 계층별 가용비트수에 따라 계층 단위로 부호화하고 MPEG-4 BSAC sytax를 위배하지 않으면서 부호화된 비트스트림에 부가정보를 추가한다.
도 3은 MPEG-4 BSAC 오디오 부호화 장치의 동작을 흐름도로 도시한 것으로서, 전체적으로 입력된 오디오 신호가 부호화되면 최종적으로 비트스트림으로 만들어져 파일로 저장된다. 이를 위해 먼저 입력신호는 시간/주파수 변환부(100)에서 MDCT(Modified Discrete Cosine Transform)이나 대역 분할 필터(subband filter)등에 의해 주파수 영역의 신호로 변환된다. 그리고 심리음향모델부(110)는 상기 주파수 신호를 적당한 대역(subband)으로 묶어서 마스킹 문턱값을 구한다. 여기서 사용되는 대역은 주로 양자화 과정에 사용되기 때문에 양자화대역이라 부르기로 한다. 양자화/비트율제어부(120)에서는 인간이 들어도 느끼지 못도록 각 양자화대역의 양자화 잡음의 크기가 마스킹 문턱값보다 작도록 스칼라 양자화 한다.(300단계)
상기 양자화/비트율제어부(120)에서 양자화된 데이터는 비트패킹부(130)에 의해 기본계층(base layer)과 여러개의 enhancement layer로 이루어지는 계층적인 비트스트림으로 부호화된다. 상기 기본계층은 비트율이 가장 낮은 계층이며, 상기 enhancement layer는 상기 기본계층보다 비트율이 높고, 상기 enhancement layer가 진행될수록 비트율은 더욱 높아진다. 이를 위해 먼저 BSAC 비트수를 카운트하고(310단계), 사용될 비트수를 고려하여 계층구조를 계산하여 계층별 가용비트수를 산출한다.(320단계) 오디오 데이터들의 사용될 비트수를 카운트한다 함은 한 프레임당 할당되는 비트수를 계산하는 것을 말한다. 여기서 오디오 신호의 부호화는 프레임 단위로 이루어진다. 비트율 제어는 프레임 당 할당된 비트수에 맞도록 양자화를 제어하는 것을 말한다. 예를 들어 한 프레임에 1000 비트를 할당할 수 있다면 이에 맞도록 양자화 레벨을 결정하여야 하고 한 프레임당 10000 비트를 할당할 수 있다면 양자화 레벨을 보다 잘게 나눌 수 있다.
이렇게 하여 계층구조가 계산되고 계층별 가용비트수가 산출되면 상기 계층구조에 따라 기본계층(base layer)부터 시작하여 최상위계층(Top layer)까지 부호화한 후(330단계), 부호화된 비트스트림을 파일로 저장한다.(340단계)
도 4는 본 발명에 의한 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 장치의 동작을 흐름도로 도시한 것으로서, 변환/양자화과정(400단계), BSAC 비트카운트 과정(410단계), 사용될 비트수 고려하여 계층구조를 계산하여 계층별 가용비트수 산출과정(420단계) 및 부호화된 비트스트림을 파일로 저장하는 단계(460단계)는 상술한 도 3의 변환/양자화과정(300단계), BSAC 비트카운트 과정(310단계), 사용될 비트수 고려하여 계층구조를 계산하여 계층별 가용비트수 산출과정(320단계) 및 부호화된 비트스트림을 파일로 저장하는 단계(340단계)와 동일하다.
따라서 본 발명에 의한 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 장치의 특징적인 동작을 설명하기로 한다. 상기 가용비트제어부(220)의 비트카운트부(26) 에 의해 비트율 제어된 오디오 데이터의 BSAC 비트수를 카운트한 후(410단계), 계층별 가용비트 계산부(28)에 의해 사용될 비트수와 계층의 개수를 이용하여 계층별 가용비트수를 구한다.(420단계) 그리고 나서 가용비트수정부(240)에 의해 부가데이터의 크기를 구하여 계층별 가용비트수를 수정한다.(430단계) 이렇게 해서 상기 계산된 계층구조에 따라 비트패킹부(260)에 의해 기본계층부터 최상위 계층까지 부호화되고(440단계), 부호화된 비트스트림의 마지막 부분에 부가정보를 추가한다.(450단계)
상기 부가정보는 음악의 곡에 관한 정보, 예를 들어 음악의 제목, 가사, 작곡가, 가수 이름 등 ID3v1과 같은 사용자를 위한 메타데이터가 될 수 있다. 또한 음질을 향상시켜줄 오디오 후처리 정보가 될 수 있다.
도 5는 MPEG-4 오디오 BSAC 복호화 장치의 구성을 블록도로 도시한 것으로서, 비트언패킹부(500), 역양자화부(510) 및 역변환부(520)를 포함하여 이루어진다.
상기 비트언패킹부(500)는 계층적 구조를 가진 비트스트림에서 상기 계층이 생성된 순서에 따라 양자화된 데이터를 복호화하되, 상기 비트스트림을 구성하고 있는 비트들의 중요도를 분석하여 중요도가 높은 비트부터 중요도가 낮은 비트로 내려가면서 상기 계층별로 복호화한다. 상기 역양자화부(510)는 복호화된 양자화 데이터를 원래 크기의 신호로 복원한다. 상기 역변환부(520)는 주파수 영역의 오디오 신호를 다시 시간 영역의 신호로 변환해서 사용자가 오디오 신호를 재생할 수 있도록 해 준다.
도 6은 본 발명에 의한 부가정보 삽입된 MPEG-4 오디오 복호화장치의 구성을 블록도로 도시한 것으로서, 비트언패킹부(600), 오디오복호화부(610), 계층구조계산부(630), 부가정보계산부(640) 및 부가정보 추출부(650)를 포함하여 이루어진다.
상기 비트언패킹부(600)는 오디오 비트스트림의 헤더를 복호화한다. 상기 계층구조계산부(610)는 상기 헤더정보로부터 프레임 크기를 구하여 비트스트림의 계층구조를 계산한다. 상기 부가정보계산부(640)는 상기 계층구조로부터 상기 최상위 계층의 크기와 프레임 크기를 구해 그 차를 부가정보의 크기로 결정한다. 상기 부가정보추출부(650)는 상기 부가정보의 크기에 해당하는 비트수 만큼 비트스트림으로부터 부가정보를 추출한다. 상기 오디오복호화부(610)는 상기 계산된 비트스트림의 계층구조에 따라 최상위계층까지 오디오 데이터를 복호화하며, 역양자화부(610) 및 역변환부(620)로 이루어진다. 상기 역양자화부(60) 및 역변환부(65)는 상술한 도 5의 역양자화부(510) 및 역변환부(50)와 동일한 기능을 갖는다.
도 7은 본 발명에 의한 MPEG-4 오디오 BSAC 복호화 장치의 동작을 흐름도로 도시한 것으로서, 도 7을 참조하여 본 발명에 의한 부가정보 삽입된 MPEG-4 오디오 복호화 방법을 설명하기로 한다.
비트스트림의 복호화 과정은 부호화 과정의 역순을 거치면 된다. 먼저 비트스트림의 헤더정보를 복호화한다.(700단계) 상기 헤더정보로부터 프레임 크기를 구해 복호화에 필요한 오디오 데이터의 계층구조를 계산한다.(710단계)
상기 프레임 크기를 고려하여 계층(layer)구조를 계산한다 함은 프레임 크기가 1000 비트이고 계층의 갯수가 10 이라는 정보가 전송되어 오면, 한 계층 당 100 비트씩 할당됨을 뜻한다. 상기 계층구조로부터 최상위 계층(Top layer)의 크기와 프레임 크기를 구하여 상기 최상위 계층의 크기와 프레임 크기의 차를 부가정보의 크기로 결정한다.(740단계) 또한 상기 700단계, 710단계 및 740단계를 수행하고 나면 MPEG-4 오디오의 부가정보가 삽입되었는지를 판별할 수 있다. 즉 프레임 크기가 최상위 계층까지의 데이터 크기보다 크면 부가정보가 삽입되었음을 알 수 있고, 프레임 크기가 최상위 계층까지의 데이터 크기보다 크지 않으면 부가정보 삽입되어 있지 않다고 판단할 수 있다.
그리고 상기 740단계에서 최상위 계층 크기와 프레임 크기의 차이를 구하여 부가 데이터의 크기를 구한다 함은 최상위 계층 까지의 비트수는 710단계를 참조하면 한 layer 당 100 비트씩 10000 비트가 되고, 전송된 프레임 길이정보(frame length)가 1050 비트를 나타내면, 부가정보는 50비트가 됨을 알 수가 있다는 말이다. 따라서 마지막 50비트를 부가정보로 알고 추출하면 된다.
즉 상기 부가정보의 크기에 해당하는 비트수 만큼 비트스트림으로부터 부가정보를 추출한다.(750단계)
한편 상기 계산된 비트스트림의 계층구조에 따라 최상위계층까지 오디오 데이터를 복호화한다.(720단계) 상기 오디오 신호의 복호화는 기본 계층에 대한 정보를 복호화한다. 기본계층에 할당된 크기의 비트스트림에 대한 복호화가 끝나면 그 다음계층에 대한 부가정보와 오디오데이타의 양자화값을 복호화한다. 이러한 방법으로 모든 계층의 데이터를 복호화할 수 있다. 이렇게 복호화 과정을 거쳐 양자화된 데이터들은 도 6에 도시된 역양자화부(60)와 역변환부(65)를 거쳐 복원된 신 호를 만들 수 있다. 그리고 나서 역양자화 및 역변환을 거쳐 복원된 신호를 생성한다.(730단계)
한편, 도 8은 본 발명에 의한 상기 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화의 또 다른 방법을 흐름도로 도시한 것으로서, 이를 설명하면 다음과 같다. 먼저 비트스트림의 헤더를 복호화하고(800단계), 상기 헤더정보로부터 프레임 크기를 구하여 비트스트림의 계층구조를 계산한다.(810단계) 그리고 나서 상기 비트스트림의 계층구조로부터 최상위 계층의 오디오 데이터 크기에 해당하는 오디오 데이터를 복호화한다.(820단계) 상기 복호화되지 않은 나머지 비트스트림을 부가정보로서 추출하여 복호화한다.(830단계)
MPEG-4 BSAC는 계층구조를 이용하면 FGS(Fine Grain Scalability)를 할 수 있다. 계층구조에 대한 정보는 BSAC syntax에 의해 정의되며 상기 700 단계에서 정보를 추출하며 상기 710 단계에서 이 정보를 이용하여 실제 계층 데이터를 계산한다. 계층당 가용비트수를 계산하기 위한 pseudo code는 다음과 같다. 상기 과정은 복/부호화기에서 동일하게 적용된다. pseudo code에 사용되는 변수 이름들은 ISO/IEC 14496-3 표준문서의 4.5.2.6.2절에 나타나 있다.
for (layer = 0; layer <(top_layer+slayer_size); layer++) {
layer_si_maxlen[layer] = 0;
for (cband = layer_start_cband[layer]; cband < layer_end_cband[layer]; cband++) {
for (ch=0; ch <nch; ch++) {
if (cband == 0)
layer_si_maxlen[layer] += max_cband0_si_len;
else
layer_si_maxlen[layer] += max_cband_si_len[cband_si_type[ch]];
}
}
for (sfb = layer_start_sfb[layer]; sfb < layer_end_sfb[layer]; sfb++)
for (ch = 0; ch < nch; ch++)
layer_si_maxlen[layer] += max_sfb_si_len[ch] + 5;
}
for (layer = slayer_size; layer <= (top_layer + slayer_size); layer++) {
layer_bitrate = nch * ( (layer-slayer_size) * 1000 + 16000);
layer_bit_offset[layer] = layer_bitrate * BLOCK_SIZE_SAMPLES_IN_FRAME;
layer_bit_offset[layer] = (int)(layer_bit_offset[layer] / SAMPLING_FREQUENCY / 8 ) * 8;
if (layer_bit_offset[layer] > frame_length*8)
layer_bit_offset[layer] = frame_length*8;
}
for (layer = (top_layer + slayer_size -1); layer >= slayer_size; layer--) {
bit_offset = layer_bit_offset[layer+1] - layer_si_maxlen[layer]
if ( bit_offset < layer_bit_offset[layer] )
layer_bit_offset[layer] = bit_offset
}
for (layer = slayer_size - 1; slayer_size >= 0; slayer--)
layer_bit_offset[layer] = layer_bit_offset[layer+1] - layer_si_maxlen[layer];
overflow_size = (header_length + 7) * 8 - layer_bit_offset[0];
layer_bit_offset[0] = (header_length + 7) * 8;
if (overflow_size > 0) {
for ( layer = (top_layer+slayer_size-1); layer >= slayer_size; layer--) {
layer_bit_size = layer_bit_offset[layer+1] - layer_bit_offset[layer];
layer_bit_size -= layer_si_maxlen[layer];
if (layer_bit_size >= overflow_size) {
layer_bit_size = overflow_size;
overflow_size = 0;
}
else
overflow_size = overflow_size - layer_bit_size;
for (m=1; m<=layer; m++)
layer_bit_offset[m] += layer_bit_size;
if (overflow_size<=0)
break;
}
}
else {
underflow_size = -overflow_size;
for (m=1; m < slayer_size; m++) {
layer_bit_offset[m] = layer_bit_offset[m-1] + layer_si_maxlen[m-1];
layer_bit_offset[m] += underflow_size / slayer_size;
if (layer <= (underflow_size%slayer_size);
layer_bit_offset[m] += 1;
}
}
for (layer=0; layer <(top_layer+slayer_size); layer++)
available_len[layer] = layer_bit_offset[layer+1] - layer_bit_offset[layer];
위와 같이 계층(layer) 당 사용할 수 있는 비트수에 해당하는 layer_bit_offset을 구한 뒤 이에 따라 오디오 정보들을 계층별로 부호화한다.
도 9은 BSAC의 비트스트림 구조이며 도 10는 BSAC 비트스트림에 부가정보가 삽입되는 위치를 나타낸다.
본 발명은 다음과 같이 사용할 수 있다. 첫 번째는, MPEG-4 BSAC 오디오 부호화기를 이용하여 48kbps의 용량으로 압축을 할 때 주파수 대역을 0~7 kHz만 커버하도록 부호화한 뒤 7~16kHz에 대한 정보는 SBR(Spectral Band Replication)을 이용하여 비트스트림을 생성한 뒤 부가정보로서 SBR 비트스트림을 삽입하고 파일로 저장하는 방법이 있다. 이런 경우에는 SBR 부가정보를 인식할수 있는 복호화기에서는 0~16 kHz의 사운드를 복호화할 수 있으며 낮은 비트율에서도 좋은 음질을 제공할 수 있다. 하지만 기존의 MPEG-4 BSAC 복호화기로는 SBR정보 추출이 불가능하므로 0~7kHZ의 대역의 사운드만을 들을 수 있으며 SBR데이터는 더미(dummy)데이터로 간주하게 된다.
두 번째는, MPEG-4 BSAC 오디오 부호화기를 이용하여 128kbps의 음악을 압축 할 때 노래의 가사를 삽입하고자 하면 가사와 음악과의 시간정보를 정렬하여 해당 시간에 맞는 가사정보를 오디오 비트스트림 내에 부가정보로서 부호화하게 됨으로써 추가의 시간 정보 없이 가사를 출력할 수 있다. 기존의 MPEG-4 BSAC로는 가사에 대한 정보를 받지 못하고 사운드만 복호화할 수 있다.
본 발명은 컴퓨터를 비롯한 정보기기로 읽을 수 있는 기록 매체에 컴퓨터를 비롯한 정보기기가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터를 비롯한 정보기기가 읽을 수 있는 기록 매체는 컴퓨터를 비롯한 정보기기 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터를 비롯한 정보기기가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.
본 발명에 의한 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 방법 및 장치에 의하면, 부가 데이터를 삽입함으로써 BSAC를 통해 서비스를 할 경우 오디오 컨텐츠에 대한 메타 데이터나 음질을 개선할 수 있는 추가데이터를 제공하여 차별화된 서비스가 가능해진다.
그리고 MPEG-4 BSAC syntax상 불가능했던 부가정보 삽입을 가능케 함으로써 오디오 메타데이터를 삽입하여 사용자에게 재생시 미디어에 대한 정보를 추가적으로 제공할 수 있다.
또한 MPEG-4 BSAC syntax상 불가능했던 부가정보 삽입을 가능케 함으로써 오디오 후처리를 위한 부가정보를 삽입함으로써 낮은 비트레이트에서 고음질을 제공할 수 있다.
또한 부가정보를 삽입하여도 기존의 복호화기가 가능하게 함으로써 기존의 복호화기와 상호호환이 가능하며, 부가정보를 제공함으로써 부가정보를 처리할 수 있는 복호화기는 그렇지 않은 기존 복호화기 대비 경쟁력이 향상된다.
Claims (14)
- MPEG-4 오디오 BSAC 부호화 방법에 있어서,시간영역의 오디오신호를 주파수영역 신호로 변환하고 인간의 음향심리모델을 이용하여 양자화하는 단계;비트레이트 제어된 오디오 데이터의 비트수를 카운트하는 단계;상기 사용될 비트수와 계층의 갯수를 이용하여 계층별 가용비트수를 구하는 단계;부가정보의 크기를 구하여 계층별 가용비트수를 수정하는 단계;실제 오디오 데이터를 계층 단위로 부호화하는 단계; 및오디오 데이터를 계층단위로 부호화한 결과로 만들어진 비트스트림에 부가정보를 추가하는 단계를 포함함을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 방법.
- 제1항에 있어서, 상기 부가정보는음질 개선에 관한 정보임을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 방법.
- 제1항에 있어서, 상기 부가정보는음악의 곡에 관한 정보임을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 방법.
- MPEG-4 오디오 BSAC 부호화 장치에 있어서,시간영역의 오디오신호를 주파수영역 신호로 변환하고 인간의 음향심리모델을 이용하여 양자화하는 양자화처리부;오디오 데이터의 비트수와 계층 수를 이용하여 계층별 가용비트수를 구하는 가용비트 계산부;부가정보의 크기를 구하여 상기 가용비트계산부에서 계산된 계층별 가용비트수를 수정하는 가용비트 수정부; 및실제 오디오 데이터를 상기 가용비트 수정부에서 수정된 계층별 가용비트수에 따라 계층 단위로 부호화하고 부호화된 비트스트림에 부가정보를 추가하는 비트패킹부를 포함함을 특징으로 하는 부가정보 삽입가능한 MPEG-4 오디오 BSAC 부호화 장치.
- 제4항에 있어서, 상기 가용비트 계산부는비트율 제어된 오디오 데이터의 비트수를 카운트하는 비트카운트부; 및상기 비트카운트부에서 카운트된 오디오 데이터의 비트수와 소정 개수의 계층 정보를 이용하여 계층별로 가용비트수를 구하는 계층별가용비트계산부를 구비함을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 부호화 장치.
- 오디오 비트스트림의 헤더를 복호화하는 단계;상기 헤더정보로부터 프레임 크기를 구하여 비트스트림의 계층구조를 계산하는 단계;상기 계층구조로부터 최상위 계층의 크기와 프레임 크기를 구하여 상기 최상위 계층의 크기와 프레임 크기의 차를 부가정보의 크기로 결정하는 단계;상기 부가정보의 크기에 해당하는 비트수 만큼 비트스트림으로부터 부가정보를 추출하는 단계; 및상기 계산된 비트스트림의 계층구조에 따라 최상위계층까지 오디오 데이터를 복호화하는 단계를 포함함을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화 방법.
- 제6항에 있어서, 상기 추출된 부가정보는오디오 음질 개선에 관한 정보임을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화 방법.
- 제6항에 있어서, 상기 추출된 부가정보는오디오 데이터 사용자를 위한 오디오에 관한 메타 데이터임을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화 방법.
- 오디오 비트스트림의 헤더를 복호화하는 단계;상기 헤더정보로부터 프레임 크기를 구하여 비트스트림의 계층구조를 계산하는 단계;상기 비트스트림의 계층구조로부터 최상위 계층의 오디오 데이터 크기에 해당하는 오디오 데이터를 복호화하는 단계; 및복호화되지 않은 나머지 비트스트림을 부가정보로서 추출하여 복호화하는 단계를 포함함을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화 방법.
- 제9항에 있어서, 상기 추출된 부가정보는오디오 음질 개선에 관한 정보임을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화 방법.
- 제9항에 있어서, 상기 추출된 부가정보는오디오 데이터 사용자를 위한 오디오에 관한 메타 데이터임을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화 방법.
- 오디오 비트스트림의 헤더를 복호화하는 단계;상기 헤더정보로부터 프레임 크기를 구하여 비트스트림의 계층구조를 계산하는 단계; 및상기 계층구조로부터 최상위 계층의 크기와 프레임 크기를 구하여 상기 최상위 계층의 크기와 프레임 크기의 차에 의해 부가정보 유무를 판별하는 단계를 포함함을 특징으로 하는 MPEG-4 오디오 BSAC 데이터의 부가정보 삽입여부 판별 방법.
- 오디오 비트스트림의 헤더를 복호화하는 비트언패킹부;상기 헤더정보로부터 프레임 크기를 구하여 비트스트림의 계층구조를 계산하는 계층구조부;상기 계층구조로부터 상기 최상위 계층의 크기와 프레임 크기를 구해 그 차를 부가정보의 크기로 결정하는 부가정보계산부;상기 부가정보의 크기에 해당하는 비트수 만큼 비트스트림으로부터 부가정보를 추출하는 부가정보추출부; 및상기 계산된 비트스트림의 계층구조에 따라 최상위계층까지 오디오 데이터를 복호화하는 오디오복호화부를 포함함을 특징으로 하는 부가정보 삽입된 MPEG-4 오디오 BSAC 복호화 장치.
- 제1항 내지 제3항, 제6항 내지 제12항 중 어느 한 항에 기재된 발명을 정보기기에서 실행시키기 위한 프로그램을 기록한 정보기기로 읽을 수 있는 기록매체.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030084731A KR100571824B1 (ko) | 2003-11-26 | 2003-11-26 | 부가정보 삽입된 mpeg-4 오디오 bsac부호화/복호화 방법 및 장치 |
EP04257267A EP1536410A1 (en) | 2003-11-26 | 2004-11-24 | Method and apparatus for encoding/decoding MPEG-4 BSAC audio bitstream having ancillary information |
US10/996,062 US7974840B2 (en) | 2003-11-26 | 2004-11-24 | Method and apparatus for encoding/decoding MPEG-4 BSAC audio bitstream having ancillary information |
CNB200410103796XA CN100525457C (zh) | 2003-11-26 | 2004-11-26 | 用于编码/解码具有辅助信息的音频比特流的方法和设备 |
JP2004341556A JP2005157390A (ja) | 2003-11-26 | 2004-11-26 | 付加情報の挿入されたmpeg−4bsacオーディオビットストリームの符号化方法および復号化方法ならびに符号化装置および復号化装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030084731A KR100571824B1 (ko) | 2003-11-26 | 2003-11-26 | 부가정보 삽입된 mpeg-4 오디오 bsac부호화/복호화 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050051046A KR20050051046A (ko) | 2005-06-01 |
KR100571824B1 true KR100571824B1 (ko) | 2006-04-17 |
Family
ID=34464753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020030084731A KR100571824B1 (ko) | 2003-11-26 | 2003-11-26 | 부가정보 삽입된 mpeg-4 오디오 bsac부호화/복호화 방법 및 장치 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7974840B2 (ko) |
EP (1) | EP1536410A1 (ko) |
JP (1) | JP2005157390A (ko) |
KR (1) | KR100571824B1 (ko) |
CN (1) | CN100525457C (ko) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101492826B1 (ko) * | 2005-07-14 | 2015-02-13 | 코닌클리케 필립스 엔.브이. | 다수의 출력 오디오 채널들을 생성하기 위한 장치 및 방법과, 그 장치를 포함하는 수신기 및 오디오 재생 디바이스, 데이터 스트림 수신 방법, 및 컴퓨터 판독가능 기록매체 |
JP2009516402A (ja) * | 2005-09-14 | 2009-04-16 | エルジー エレクトロニクス インコーポレイティド | 符号化/復号化方法及び装置 |
KR20070038699A (ko) * | 2005-10-06 | 2007-04-11 | 삼성전자주식회사 | 스케일러블 오디오 데이터 산술복호화 방법 및 장치 |
EP1949369B1 (en) * | 2005-10-12 | 2012-09-26 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding/decoding audio data and extension data |
KR100813269B1 (ko) | 2005-10-12 | 2008-03-13 | 삼성전자주식회사 | 비트 스트림 처리/전송 방법 및 장치, 비트 스트림수신/처리 방법 및 장치 |
CN102237094B (zh) * | 2005-10-12 | 2013-02-20 | 三星电子株式会社 | 处理/发送比特流以及接收/处理比特流的方法和设备 |
KR100771620B1 (ko) * | 2005-10-18 | 2007-10-30 | 엘지전자 주식회사 | 디지털 신호 전송 방법 |
KR101204513B1 (ko) | 2005-12-20 | 2012-11-26 | 삼성전자주식회사 | 디지털 멀티미디어 재생 장치 및 디지털 멀티미디어 재생장치에서 디지털 멀티미디어 방송을 제공하는 방법 |
KR100878766B1 (ko) | 2006-01-11 | 2009-01-14 | 삼성전자주식회사 | 오디오 데이터 부호화 및 복호화 방법과 장치 |
CA2636330C (en) * | 2006-02-23 | 2012-05-29 | Lg Electronics Inc. | Method and apparatus for processing an audio signal |
JP2007310087A (ja) * | 2006-05-17 | 2007-11-29 | Mitsubishi Electric Corp | 音声符号化装置及び音声復号装置 |
KR101322392B1 (ko) * | 2006-06-16 | 2013-10-29 | 삼성전자주식회사 | 스케일러블 코덱의 부호화 및 복호화 방법 및 장치 |
JP2008076847A (ja) * | 2006-09-22 | 2008-04-03 | Matsushita Electric Ind Co Ltd | 復号器及び信号処理システム |
GB2451419A (en) * | 2007-05-11 | 2009-02-04 | Audiosoft Ltd | Processing audio data |
US7987285B2 (en) * | 2007-07-10 | 2011-07-26 | Bytemobile, Inc. | Adaptive bitrate management for streaming media over packet networks |
KR100912826B1 (ko) * | 2007-08-16 | 2009-08-18 | 한국전자통신연구원 | G.711 코덱의 음질 향상을 위한 향상 계층 부호화 및복호화 장치와 그 방법 |
KR20100136890A (ko) * | 2009-06-19 | 2010-12-29 | 삼성전자주식회사 | 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법 |
US20110087494A1 (en) * | 2009-10-09 | 2011-04-14 | Samsung Electronics Co., Ltd. | Apparatus and method of encoding audio signal by switching frequency domain transformation scheme and time domain transformation scheme |
JP2012010311A (ja) | 2010-05-26 | 2012-01-12 | Sony Corp | 送信装置、送信方法、受信装置、受信方法および送受信システム |
KR101425821B1 (ko) * | 2010-11-02 | 2014-08-01 | 에스케이텔레콤 주식회사 | 오디오 신호에 기초한 음파 통신으로 디지털 미디어 방송정보의 전달 시스템 및 방법, 그리고 이에 적용되는 장치 |
EP2767977A4 (en) | 2011-10-21 | 2015-04-29 | Samsung Electronics Co Ltd | METHOD AND DEVICE FOR LOSS-FREE ENERGY CODING, AUDIO CODING METHOD AND DEVICE, METHOD AND APPARATUS FOR LOSS-FREE ENERGY DECODING AND AUDIO CODING METHOD AND DEVICE |
CN103219009A (zh) * | 2012-01-20 | 2013-07-24 | 旭扬半导体股份有限公司 | 音频数据处理装置及其方法 |
EP2873073A1 (en) | 2012-07-12 | 2015-05-20 | Dolby Laboratories Licensing Corporation | Embedding data in stereo audio using saturation parameter modulation |
US9559651B2 (en) * | 2013-03-29 | 2017-01-31 | Apple Inc. | Metadata for loudness and dynamic range control |
KR101427756B1 (ko) * | 2013-04-26 | 2014-08-08 | 주식회사 코아로직 | 멀티 채널의 오디오 신호 전송 방법 및 장치 |
US9984693B2 (en) * | 2014-10-10 | 2018-05-29 | Qualcomm Incorporated | Signaling channels for scalable coding of higher order ambisonic audio data |
US10140996B2 (en) | 2014-10-10 | 2018-11-27 | Qualcomm Incorporated | Signaling layers for scalable coding of higher order ambisonic audio data |
TWI693594B (zh) | 2015-03-13 | 2020-05-11 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
TW202341126A (zh) | 2017-03-23 | 2023-10-16 | 瑞典商都比國際公司 | 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合 |
EP4014236B1 (en) * | 2019-08-15 | 2023-03-22 | Dolby Laboratories Licensing Corporation | Methods and devices for generation and processing of modified bitstreams |
US11250867B1 (en) * | 2019-10-08 | 2022-02-15 | Rockwell Collins, Inc. | Incorporating data into a voice signal with zero overhead |
CN110827838A (zh) * | 2019-10-16 | 2020-02-21 | 云知声智能科技股份有限公司 | 一种基于opus的语音编码方法及装置 |
CN113272895A (zh) * | 2019-12-16 | 2021-08-17 | 谷歌有限责任公司 | 音频编码中的与振幅无关的窗口大小 |
CN112735446B (zh) * | 2020-12-30 | 2022-05-17 | 北京百瑞互联技术有限公司 | 在lc3音频码流中添加额外信息的方法、系统及介质 |
Family Cites Families (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL8700985A (nl) * | 1987-04-27 | 1988-11-16 | Philips Nv | Systeem voor sub-band codering van een digitaal audiosignaal. |
US4949299A (en) * | 1987-12-04 | 1990-08-14 | Allen-Bradley Company, Inc. | Industrial control communication network and method |
WO1992012607A1 (en) * | 1991-01-08 | 1992-07-23 | Dolby Laboratories Licensing Corporation | Encoder/decoder for multidimensional sound fields |
US5649029A (en) * | 1991-03-15 | 1997-07-15 | Galbi; David E. | MPEG audio/video decoder |
JP2785220B2 (ja) * | 1992-09-22 | 1998-08-13 | ソニー株式会社 | データ符号化装置および方法、並びにデータ復号化装置および方法 |
US5657423A (en) * | 1993-02-22 | 1997-08-12 | Texas Instruments Incorporated | Hardware filter circuit and address circuitry for MPEG encoded data |
JP2888129B2 (ja) | 1994-03-15 | 1999-05-10 | 松下電器産業株式会社 | デジタル信号記録装置 |
US5623577A (en) * | 1993-07-16 | 1997-04-22 | Dolby Laboratories Licensing Corporation | Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions |
EP0640909B1 (en) * | 1993-07-30 | 2001-05-16 | Texas Instruments Incorporated | Modular audio data processing architecture |
US5533052A (en) * | 1993-10-15 | 1996-07-02 | Comsat Corporation | Adaptive predictive coding with transform domain quantization based on block size adaptation, backward adaptive power gain control, split bit-allocation and zero input response compensation |
US5434913A (en) * | 1993-11-24 | 1995-07-18 | Intel Corporation | Audio subsystem for computer-based conferencing system |
US6125398A (en) * | 1993-11-24 | 2000-09-26 | Intel Corporation | Communications subsystem for computer-based conferencing system using both ISDN B channels for transmission |
US5764698A (en) * | 1993-12-30 | 1998-06-09 | International Business Machines Corporation | Method and apparatus for efficient compression of high quality digital audio |
US5732391A (en) * | 1994-03-09 | 1998-03-24 | Motorola, Inc. | Method and apparatus of reducing processing steps in an audio compression system using psychoacoustic parameters |
US5761636A (en) * | 1994-03-09 | 1998-06-02 | Motorola, Inc. | Bit allocation method for improved audio quality perception using psychoacoustic parameters |
JP3190204B2 (ja) * | 1994-04-12 | 2001-07-23 | ユナイテッド・モジュール・コーポレーション | Mpeg規格の音声信号デコーダ |
JPH0856356A (ja) * | 1994-08-10 | 1996-02-27 | Fujitsu Ltd | 符号化装置および復号化装置 |
US5694332A (en) * | 1994-12-13 | 1997-12-02 | Lsi Logic Corporation | MPEG audio decoding system with subframe input buffering |
JP3614907B2 (ja) * | 1994-12-28 | 2005-01-26 | 株式会社東芝 | データ再送制御方法及びデータ再送制御システム |
JP3046213B2 (ja) * | 1995-02-02 | 2000-05-29 | 三菱電機株式会社 | サブバンド・オーディオ信号合成装置 |
BR9609799A (pt) * | 1995-04-10 | 1999-03-23 | Corporate Computer System Inc | Sistema para compressão e descompressão de sinais de áudio para transmissão digital |
JPH0917159A (ja) * | 1995-06-30 | 1997-01-17 | Pioneer Electron Corp | 情報記録装置及び情報再生装置並びに情報記録媒体 |
US7095871B2 (en) * | 1995-07-27 | 2006-08-22 | Digimarc Corporation | Digital asset management and linking media signals with related data using watermarks |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US6138051A (en) * | 1996-01-23 | 2000-10-24 | Sarnoff Corporation | Method and apparatus for evaluating an audio decoder |
JPH09237752A (ja) * | 1996-03-01 | 1997-09-09 | Nikon Corp | 投影光学系の調整方法及び該方法を使用する投影露光装置 |
GB0023099D0 (en) * | 1996-07-02 | 2000-11-01 | Yamaha Corp | Method and device for storing main information with associated additional information incorporated therein |
US5848391A (en) * | 1996-07-11 | 1998-12-08 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Method subband of coding and decoding audio signals using variable length windows |
US5893066A (en) * | 1996-10-15 | 1999-04-06 | Samsung Electronics Co. Ltd. | Fast requantization apparatus and method for MPEG audio decoding |
JPH10233692A (ja) | 1997-01-16 | 1998-09-02 | Sony Corp | オーディオ信号符号化装置および符号化方法並びにオーディオ信号復号装置および復号方法 |
US5969764A (en) * | 1997-02-14 | 1999-10-19 | Mitsubishi Electric Information Technology Center America, Inc. | Adaptive video coding method |
EP0960509B1 (en) * | 1997-02-17 | 2005-12-07 | COMMUNICATION & CONTROL ELECTRONICS LIMITED | Local communication system |
KR100261253B1 (ko) * | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치 |
KR100335609B1 (ko) * | 1997-11-20 | 2002-10-04 | 삼성전자 주식회사 | 비트율조절이가능한오디오부호화/복호화방법및장치 |
KR100335611B1 (ko) | 1997-11-20 | 2002-10-09 | 삼성전자 주식회사 | 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치 |
US5986200A (en) | 1997-12-15 | 1999-11-16 | Lucent Technologies Inc. | Solid state interactive music playback device |
JP3504485B2 (ja) * | 1998-01-05 | 2004-03-08 | シャープ株式会社 | 楽音符号化装置および楽音復号化装置および楽音符号化復号化装置およびプログラム記憶媒体 |
US6339760B1 (en) * | 1998-04-28 | 2002-01-15 | Hitachi, Ltd. | Method and system for synchronization of decoded audio and video by adding dummy data to compressed audio data |
JPH11339396A (ja) | 1998-05-29 | 1999-12-10 | Hitachi Ltd | 情報再生装置 |
US6119091A (en) * | 1998-06-26 | 2000-09-12 | Lsi Logic Corporation | DVD audio decoder having a direct access PCM FIFO |
US6098044A (en) * | 1998-06-26 | 2000-08-01 | Lsi Logic Corporation | DVD audio decoder having efficient deadlock handling |
US6061655A (en) * | 1998-06-26 | 2000-05-09 | Lsi Logic Corporation | Method and apparatus for dual output interface control of audio decoder |
JP3927713B2 (ja) | 1998-12-08 | 2007-06-13 | キヤノン株式会社 | 放送受信装置およびその方法 |
US6208276B1 (en) * | 1998-12-30 | 2001-03-27 | At&T Corporation | Method and apparatus for sample rate pre- and post-processing to achieve maximal coding gain for transform-based audio encoding and decoding |
EP1059756A1 (en) * | 1999-06-09 | 2000-12-13 | Lucent Technologies Inc. | Speech transmission over packet switched networks |
JP3612260B2 (ja) | 2000-02-29 | 2005-01-19 | 株式会社東芝 | 音声符号化方法及び装置並びに及び音声復号方法及び装置 |
FI109393B (fi) | 2000-07-14 | 2002-07-15 | Nokia Corp | Menetelmä mediavirran enkoodaamiseksi skaalautuvasti, skaalautuva enkooderi ja päätelaite |
US6879652B1 (en) * | 2000-07-14 | 2005-04-12 | Nielsen Media Research, Inc. | Method for encoding an input signal |
US7069208B2 (en) * | 2001-01-24 | 2006-06-27 | Nokia, Corp. | System and method for concealment of data loss in digital audio transmission |
US20020165720A1 (en) * | 2001-03-02 | 2002-11-07 | Johnson Timothy M. | Methods and system for encoding and decoding a media sequence |
JP3878424B2 (ja) | 2001-03-29 | 2007-02-07 | 株式会社東芝 | マルチメディアコンテンツ配信の受信装置及びマルチメディアコンテンツ配信装置。 |
JP3758028B2 (ja) | 2001-05-17 | 2006-03-22 | ソニー株式会社 | 高能率符号化方法、高能率符号化装置、符号化データ復号方法、符号化データ復号装置、データ伝送方法、データ伝送装置、付加情報付加方法および付加情報付加装置 |
EP1315148A1 (en) * | 2001-11-17 | 2003-05-28 | Deutsche Thomson-Brandt Gmbh | Determination of the presence of ancillary data in an audio bitstream |
US6950794B1 (en) * | 2001-11-20 | 2005-09-27 | Cirrus Logic, Inc. | Feedforward prediction of scalefactors based on allowable distortion for noise shaping in psychoacoustic-based compression |
CN1639984B (zh) * | 2002-03-08 | 2011-05-11 | 日本电信电话株式会社 | 数字信号编码方法、解码方法、编码设备、解码设备 |
DE10236694A1 (de) * | 2002-08-09 | 2004-02-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren |
US20040181817A1 (en) * | 2003-03-12 | 2004-09-16 | Larner Joel B. | Media control system and method |
US7395346B2 (en) * | 2003-04-22 | 2008-07-01 | Scientific-Atlanta, Inc. | Information frame modifier |
-
2003
- 2003-11-26 KR KR1020030084731A patent/KR100571824B1/ko not_active IP Right Cessation
-
2004
- 2004-11-24 US US10/996,062 patent/US7974840B2/en not_active Expired - Fee Related
- 2004-11-24 EP EP04257267A patent/EP1536410A1/en not_active Ceased
- 2004-11-26 JP JP2004341556A patent/JP2005157390A/ja active Pending
- 2004-11-26 CN CNB200410103796XA patent/CN100525457C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7974840B2 (en) | 2011-07-05 |
KR20050051046A (ko) | 2005-06-01 |
CN100525457C (zh) | 2009-08-05 |
EP1536410A1 (en) | 2005-06-01 |
US20050129109A1 (en) | 2005-06-16 |
JP2005157390A (ja) | 2005-06-16 |
CN1684523A (zh) | 2005-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100571824B1 (ko) | 부가정보 삽입된 mpeg-4 오디오 bsac부호화/복호화 방법 및 장치 | |
JP3354863B2 (ja) | ビット率の調節可能なオーディオデータ符号化/復号化方法及び装置 | |
EP1715476B1 (en) | Low-bitrate encoding/decoding method and system | |
KR101237413B1 (ko) | 오디오 신호의 부호화 및 복호화 방법, 오디오 신호의부호화 및 복호화 장치 | |
KR100908117B1 (ko) | 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치 | |
USRE46082E1 (en) | Method and apparatus for low bit rate encoding and decoding | |
KR100707177B1 (ko) | 디지털 신호 부호화/복호화 방법 및 장치 | |
KR20070037945A (ko) | 오디오 신호의 부호화/복호화 방법 및 장치 | |
US8149927B2 (en) | Method of and apparatus for encoding/decoding digital signal using linear quantization by sections | |
KR20100089772A (ko) | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 | |
CA2490064A1 (en) | Audio coding method and apparatus using harmonic extraction | |
KR100528325B1 (ko) | 비트율 조절이 가능한 스테레오 오디오 부호화 및복호화방법 및 그 장치 | |
KR100754389B1 (ko) | 음성 및 오디오 신호 부호화 장치 및 방법 | |
KR100928966B1 (ko) | 저비트율 부호화/복호화방법 및 장치 | |
KR100765747B1 (ko) | 트리 구조 벡터 양자화를 이용한 스케일러블 음성 부호화장치 | |
KR100975522B1 (ko) | 스케일러블 오디오 복/부호화 방법 및 장치 | |
KR100940532B1 (ko) | 저비트율 복호화방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment | ||
FPAY | Annual fee payment | ||
FPAY | Annual fee payment |
Payment date: 20160330 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20170330 Year of fee payment: 12 |
|
LAPS | Lapse due to unpaid annual fee |