KR100547113B1 - 오디오 데이터 인코딩 장치 및 방법 - Google Patents
오디오 데이터 인코딩 장치 및 방법 Download PDFInfo
- Publication number
- KR100547113B1 KR100547113B1 KR1020030009607A KR20030009607A KR100547113B1 KR 100547113 B1 KR100547113 B1 KR 100547113B1 KR 1020030009607 A KR1020030009607 A KR 1020030009607A KR 20030009607 A KR20030009607 A KR 20030009607A KR 100547113 B1 KR100547113 B1 KR 100547113B1
- Authority
- KR
- South Korea
- Prior art keywords
- curve
- frequency band
- frequency
- gain
- signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013139 quantization Methods 0.000 claims abstract description 69
- 230000005236 sound signal Effects 0.000 claims abstract description 28
- 230000000873 masking effect Effects 0.000 claims abstract description 25
- 230000003595 spectral effect Effects 0.000 claims abstract description 20
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 230000007774 longterm Effects 0.000 claims description 3
- 238000007493 shaping process Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000015556 catabolic process Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000003252 repetitive effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 적은 계산량으로 오디오 데이터를 인코딩하는 장치 및 방법에 관한 것이다. 본 발명의 오디오 데이터 인코딩 장치는 시간영역의 오디오 신호를 입력받아 주파수 영역의 신호로 변환하는 시간/주파수 매핑부; 상기 변환된 주파수 영역의 오디오 신호를 입력받아 인코딩하고자 하는 오디오 포맷에 대응되는 스펙트럴 처리를 수행하는 스펙트럴 처리부; 상기 변환된 주파수 영역의 오디오 신호를 입력받아 주파수 대역별로 에너지 레벨을 산출하고, 산출한 에너지 레벨의 곡선이 종래의 심리음향모델에 의한 임계 잡음 레벨 곡선과 유사한 분포 형태가 되도록 근사화시키고 주파수 밴드별 스케일 팩터 밴드 이득을 계산하는 마스킹 임계치 계산부; 및 상기 주파수 밴드별 스케일 팩터 밴드 이득은 고정시킨 채로, 목표 비트율을 만족시키기 위해 공통이득을 조절하여 양자화 잡음 곡선을 소정의 에너지 분포 곡선에 정합시키는 양자화 잡음 곡선 조절부를 포함한다. 본 발명의 인코딩 장치는 심리음향 모델을 직접 사용하지 않고 주파수별 에너지 분포를 통하여 임계잡음 레벨의 상대적인 대역별 분포 형태와 비슷한 분포를 산출함으로써 쉽게 구현될 수 있다.
Description
도 1은 종래의 오디오 인코더의 블록도이다.
도 2a 내지 도 2b는 마스킹 효과를 설명하기 위한 도면이다.
도 3은 본 발명의 오디오 인코딩 장치의 블록도이다.
도 4a 내지 도 4d는 스케일 팩터 밴드의 에너지를 근사화하는 과정을 설명하기 위한 도면이다.
도 5는 본 발명의 오디오 인코딩 방법의 플로우차트이다.
본 발명은 오디오 데이터의 인코딩에 관한 것으로, 구체적으로는 적은 계산량으로 오디오 데이터를 인코딩하는 장치 및 방법에 관한 것이다.
오디오 데이터를 소정의 형식으로 압축하는 인코더는 심리음향모델을 사용하고, 심리음향모델에서 수행되는 계산결과를 바탕으로 주파수 밴드별 양자화 잡음을 다단계 제어 루프에 의해서 조절한다. 여기서 양자화(quantization)는, 샘플링된 신호값을 일정한 대표값으로 나타내기 위하여 스텝모양의 정수값으로 표현하는 것 으로 이 과정에서 양자화 잡음이 발생한다. 원래신호와 양자화된 신호와의 오차성분인 양자화 잡음은 양자화에 사용되는 비트수가 많아질수록 작아진다. 동영상 및 음성에 대한 압축 표준인 엠펙(MPEG)에서는, DCT(Discrete Cosine Transform) 또는 MDCT(Modified Discrete Cosine Transform) 변환에 의해 계산된 계수를 어떤 값으로 나누어 작은 값의 계수로 표현함으로써 부호화량을 감소시킨다.
그리고, 상술한 다단계 제어루프란, 종래의 양자화 잡음 분포 조절 방법에서사용되는 것으로, 모든 주파수 대역에 공통으로 적용되는 공통 이득(common gain)을 조정하여 정해진 비트율에 비트 사용량을 맞추는 내부 루프와, 각 주파수 대역별로 양자화 잡음의 크기를 조정할 수 있는 스케일팩터 밴드 이득을 조정하는 외부 루프를 의미한다. 내부 루프에서는 각 주파수 대역별로 조정된 스케일팩터 밴드 이득을 적용해 부호화하여 사용된 비트량을 합산하여 이 값이 소정의 허용된 값을 초과하는 경우에는 공통 이득을 증가시켜 비트 사용량을 허용치 이하로 만들고, 외부 루프에서는 각 주파수 대역별로 주어진 임계치를 넘지 않도록 주파수 대역별 스케일팩터 밴드 이득을 일정한 크기로 증가시킨다. 이러한 과정을 반복적으로 수행하여 모든 주파수 대역에서의 양자화 잡음이 임계치를 넘지 않을 때까지 계속한다.
일반적으로 오디오 데이터를 인코딩하는 것이 디코딩하는 것보다 10배 이상의 계산량을 요구하는데, 이중 심리음향모델에서의 FFT 수행, 토널리티(tonality) 계산, 마스크 임계치(mask threshold)의 계산 및 프레임간의 프로세싱 등의 수행이 전체 계산량의 50% 정도를 차지하고, 비트율과 노이즈를 제어하는 다단계 제어 루프의 수행이 전체 계산량의 40% 정도를 차지하여, 인코더가 복잡해지는 원인이 된 다.
도 1은 종래의 오디오 인코더의 블록도이다.
오디오 인코더는 시간/주파수 매핑부(110), 스펙트럴 처리부(120), 양자화부(130), 심리음향모델(140), 비트 할당부(150) 및 비트스트림 생성부(160)를 포함한다.
시간/주파수 매핑부(110)는 시간영역의 PCM(Pulse Code Modulation) 오디오 데이터를 입력받아 주파수 영역의 신호로 변환한다. 인코딩하는 포맷에 따라서 시간/주파수 매핑부(110)에서 수행되는 처리가 달라지는데, AAC(Advanced Audio Coding) 포맷 또는 MP3(MPEG-1 layer 3) 포맷으로 인코딩할 때는 MDCT(Modified Discrete Cosine Transform)가 수행된다.
스펙트럴 처리부(120)는 주파수 영역의 신호를, 인코딩하는 오디오 포맷에 맞는 스펙트럴 처리를 수행한다. 이러한 스펙트럴 처리의 예로는, TNS(Temporal Noise Shaping), LTP(Long Term Prediction), PNS(Perceptual Noise Substitution), I/C, M/S 등이 있다. 양자화부(130)는 스펙트럴 처리된 주파수 영역의 오디오 데이터에 대하여 양자화를 수행한다.
심리음향모델(140)은 FFT 수행부(141)와 마스킹 임계치 계산부(142)를 포함하며, 주파수 영역에서의 인간의 청각 특성을 반영한다. 심리음향모델(140)에서 수행되는 처리는 후술한다. 이제, 주파수 영역에서의 인간의 청각 특성을 도 2a 내지 도 2b를 참조하여 설명한다.
도 2a 내지 도 2b는 마스킹 효과를 설명하기 위한 도면이다.
도 2a에 도시한 바와 같이 소정의 음압을 가진 오디오 신호 A(210)가 존재할 때, 음압이 오디오 신호 A(210)의 음압보다 어느 정도 작은 소리(220)는 들리지 않게 되는데, 이렇게 특정 오디오 신호에 대해서 가청 주파수 내에서 인간이 들을 수 있는 최소한의 음압 레벨의 곡선을 마스킹 곡선(230)이라고 한다. 따라서, 오디오 신호 B(220)는 마스킹 곡선(230)보다 음압이 작으므로 인간의 귀로 들을 수 없고, 오디오 신호 C(240)는 마스킹 곡선(230)보다 음압이 크므로 인간의 귀로 들을 수 있다.
만일 여러개의 피크치(250, 260, 270)가 도 2b에 도시한 바와 같이 위치한다면, 각각의 피크치에 대한 마스킹 곡선(251, 261, 271)이 존재하고, 이들 마스킹 곡선을 연결하면 전체적인 마스킹 곡선을 얻을 수 있다.
이와 같이 인간의 귀로 들을 수 있는 주파수를 일정간격으로 나누어, 마스킹 임계치 이상의 음압을 가진 오디오 데이터만을 양자화하는 것을 심리음향모델(psychoacoustic model)을 사용한 양자화라고 하고, 엠펙(MPEG)과 같은 압축방법에서 사용된다. 그러나, 64Kbps 이하의 저속의 비트율로 오디오 신호를 압축하는 경우에는 양자화시에 사용될 수 있는 비트의 수에 한계가 있기 때문에 MPEG 표준에서 제시하고 있는 일반적인 오디오 압축방법은 효과적으로 오디오 신호를 압축하는데 적합하지 않다.
비트 할당부(150)는 심리음향모델(140)에서 계산된 결과를 입력받아 비트 할당을 수행한다. 그리고, 양자화된 오디오 데이터를 소정의 형식에 맞게 팩킹하는 과정은 비트스트림 생성부(160)에서 수행된다.
종래의 MPEG 오디오 인코딩 과정은 다음과 같다. MPEG 인코딩 알고리즘은 ISO/IEC 14496-3 표준에 상세히 설명되어 있다.
우선, 시간 영역의 신호를 주파수 영역의 신호로 변환하기 위해 PCM 오디오 데이터를 시간/주파수 매핑부(110)로 입력받는다. 그리고, 시간 영역의 PCM 오디오 데이터는 심리음향모델(140)로도 입력된다.
그리고, 심리음향모델(140)은 인간의 주파수 영역에 대한 청각 특성을 반영하기 위하여 입력된 오디오 데이터를 FFT를 이용하여 주파수 영역의 데이터로 바꾸고, 인간의 공통된 청각 특성이 비슷한 임계대역(critical band)으로 나눈다. 특정 임계 대역에 신호가 존재하면 이웃하는 임계대역에 존재하는 신호성분을 인지할 수 있는 음압의 레벨이 올라가게 되는데(도 2a 내지 도 2b 참조), 이러한 청각 특성을 마스킹 특성(masking effect)라고 한다.
다음으로, FFT에 의해 변환된 주파수 영역 오디오 데이터의 마스킹 특성을 사용하여 각 임계대역 별로 마스킹 임계치(masking threshold)를 산출한다. 이때 마스킹 특성을 고려하여, 해당 주파수의 오디오 데이터가 톤 성분인지 잡음 성분인지를 구별해야 한다. 잡음 성분이 톤 성분으로 선택되는 것을 방지하기 위해서 과거 두 블록의 주파수 성분을 가지고 선형 예측을 하여 톤 성분인가를 판단한다.
시간 영역에서 한 블럭의 신호 구간 내에 음압이 큰 신호와 음압이 아주 작은 신호가 같이 포함되어 있을 때, 주파수 변환 과정과 양자화 과정을 거치면 음압이 큰 신호의 양자화 잡음이 음압이 아주 작은 신호에 포함되어 잡음이 들리게 되는데, 이를 프리에코 현상(pre-echo effect)이라고 한다. 이러한 프리에코 현상을 방지하기 위해 한 블록에 대해, 긴 윈도우 블록(long window block)을 사용한 주파수 변환을 수행하는 대신에, 한 블록을 8구간으로 나눈 짧은 윈도우 블록(short window block)을 사용한 주파수 변환을 수행한다. 심리음향모델에서는 긴 윈도우 블록(long window block)과 짧은 윈도우 블록(short window block)을 선택하기 위해서 심리음향 엔트로피(perceptual entropy)를 계산한다.
그리고 나서, 스펙트럴 처리부(120)는 오디오 데이터를 압축하기 위해 주파수 영역으로 표현된 신호 성분간의 잉여성분을 제거한다.
주파수 영역의 신호 성분들은 스케일팩터 밴드(scalefactor band)로 구분되고 각 신호성분은 해당 스케일팩터 밴드내에서 공통으로 적용되는 이득과 양자화 값의 곱으로 나타내어진다. 이때 이득을 결정짓는 요소는 전체 주파수 밴드에 공통적인 값인 공통 게인(common gain)과 스케일팩터 밴드별로 구분되는 스케일팩터(scalefactor)가 있다. 공통 게인은 목표 비트율을 맞추기 위해 조절되는 값이고, 스케일팩터는 스케일팩터 밴드별로 양자화 잡음을 조절하기 위한 값이다. 스케일팩터 밴드별 허용되는 양자화 잡음은, 심리음향모델에서 산출한 마스킹 임계치를 이용하여 결정된다.
이와 같이 종래의 오디오 인코딩 방법에서는, 심리음향모델에서 마스킹 임계치를 계산하기 위해서, 주파수 영역으로 변환을 위한 FFT 연산, 마스킹 특성을 적용하는 스프레딩(spreading) 함수의 처리, 프레임간 선형 예측을 통한 토널리티(tonality) 처리 등이 수행되어 많은 계산량을 요구한다. 그리고, 심리음향 모델에서의 FFT 연산과는 별도로 주파수 영역에서의 신호처리를 위해 시간 영역 신호에 대하여 DCT를 수행한다. 따라서, 인코더의 데이터 처리 시간을 크게 늘린다는 문제점이 있다. 즉, 기존 MPEG 오디오 압축에서는 고품질의 얻기 위한 노력으로 심리음향 모델을 사용하지만, 이에 따른 데이터의 복잡한 처리 과정과 연산량의 증가를 피할 수 없다는 문제점이 있다.
그리고, 양자화 과정에서는 주파수 대역별 비트할당을 이용하여 양자화 잡음을 조절하는 과정과 전체 비트율을 맞추기 위한 과정이, 원하는 비트율을 맞추면서 허용 잡음치내에 들어올 때까지 반복하여 수행된다. 그러나 저비트율의 오디오 인코딩 과정에서는 블록별 사용할 수 있는 비트의 수가 적어 대역별 양자화 잡음을 심리음향모델에서 산출한 허용할 수 있는 잡음의 크기보다 작게 되도록 만족시키지 못하고 양자화 과정을 종료한다는 문제점이 있다.
본 발명이 이루고자 하는 기술적 과제는, 종래의 오디오 인코딩 수행시에 사용되는 복잡한 연산과정을 필요로 하는 심리음향모델을 사용하지 않고, 오디오 신호의 대역별 에너지 분포를 계산하여 상대적으로 적은 계산량을 사용하여 심리음향 모델을 추정하는 오디오 인코딩 장치 및 방법을 제공하는데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는, 종래의 양자화 잡음 조절방법에서 사용되는, 비트율과 양자화 잡음 분포를 동시에 만족시키기 위한 반복적인 처리과정을 줄이고, 종래의 양자화 잡음 조절방법에서 발생되는 저비트율 일수록 양자화 잡음을 적절히 분배하지 못하고 양자화 과정을 마침으로써 큰 음질열화를 발생시키는 문제를 해결하기 위한 오디오 인코딩 장치 및 방법을 제공하는데 있다.
상기의 과제를 이루기 위하여 본 발명에 의한 오디오 데이터 인코딩 장치는, 시간영역의 오디오 신호를 입력받아 주파수 영역의 신호로 변환하는 시간/주파수 매핑부; 상기 변환된 주파수 영역의 오디오 신호를 입력받아 인코딩하고자 하는 오디오 포맷에 대응되는 스펙트럴 처리를 수행하는 스펙트럴 처리부; 상기 변환된 주파수 영역의 오디오 신호를 입력받아 주파수 대역별로 에너지 레벨을 산출하고, 산출한 에너지 레벨의 에너지 분포 곡선이 종래의 심리음향모델에 의한 임계 잡음 레벨 곡선과 유사한 분포 형태가 되도록 근사화시키고 주파수 밴드별 스케일 팩터 밴드 이득을 계산하는 마스킹 임계치 계산부; 및 상기 주파수 밴드별 스케일 팩터 밴드 이득은 고정시킨 채로, 목표 비트율을 만족시키기 위해 공통이득을 조절하여 양자화 잡음 곡선을 상기 근사화된 에너지 분포 곡선에 정합시키는 양자화 잡음 곡선 조절부를 포함한다.
상기의 과제를 이루기 위하여 본 발명에 의한 양자화 잡음 분포 조절 장치는, 주파수 영역의 오디오 신호를 입력받아 주파수 대역별로 에너지 레벨을 산출하고, 산출한 에너지 레벨의 에너지 분포 곡선이 종래의 심리음향모델에 의한 임계 잡음 레벨 곡선과 유사한 분포 형태가 되도록 근사화시키고 주파수 밴드별 스케일 팩터 밴드 이득을 계산하는 마스킹 임계치 계산부; 및 상기 주파수 밴드별 스케일 팩터 밴드 이득은 고정시킨 채로, 목표 비트율을 만족시키기 위해 모든 주파수 대역에 대한 공통이득을 조절하여 양자화 잡음 곡선을 상기 근사화된 에너지 분포 곡선에 정합시키는 양자화 잡음 곡선 조절부를 포함한다.
상기의 과제를 이루기 위하여 본 발명에 의한 오디오 데이터 인코딩 방법은, (a) 시간영역의 오디오 신호를 입력받아 주파수 영역의 신호로 변환하는 단계; (b) 상기 변환된 주파수 영역의 신호에 대해 인코딩하는 오디오 포맷에 맞는 스펙트럴 처리를 수행하는 단계; (c) 상기 변환된 주파수 영역의 오디오 신호를 입력받아 주파수 대역별로 에너지 레벨을 산출하고, 산출한 에너지 레벨의 에너지 분포 곡선이 종래의 심리음향모델에 의한 임계 잡음 레벨 곡선과 유사한 분포 형태가 되도록 근사화시키고 주파수 밴드별 스케일 팩터 밴드 이득을 계산하는 단계; 및 (d) 상기 주파수 밴드별 스케일 팩터 밴드 이득은 고정시킨 채로, 목표 비트율을 만족시키기 위해 공통이득을 조절하여 양자화 잡음 곡선을 상기 근사화된 에너지 분포 곡선에 정합시키는 단계를 포함한다.
상기의 과제를 이루기 위하여 본 발명에 의한 양자화 잡음 분포 조절 방법은, (a) 주파수 영역의 오디오 신호를 입력받아 주파수 대역별로 에너지 레벨을 산출하고, 산출한 에너지 레벨의 에너지 분포 곡선이 종래의 심리음향모델에 의한 임계 잡음 레벨 곡선과 유사한 분포 형태가 되도록 근사화시키고 주파수 밴드별 스케일 팩터 밴드 이득을 계산하는 단계; 및 (b) 상기 주파수 밴드별 스케일 팩터 밴드 이득은 고정시킨 채로, 목표 비트율을 만족시키기 위해 모든 주파수 대역에 대한 공통이득을 조절하여 양자화 잡음 곡선을 상기 근사화된 에너지 분포 곡선에 정합시키는 단계를 포함한다.
상기한 과제를 이루기 위하여 본 발명에서는, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 3은 본 발명의 오디오 인코딩 장치의 블록도이다.
본 발명의 오디오 인코딩 장치는 시간/주파수 매핑부(310), 스펙트럴 처리부(320), 마스킹 임계치 계산부(330), 양자화 잡음 곡선 조절부(340) 및 비트 스트림 생성부(350)를 포함한다.
시간/주파수 매핑부(310)는 시간영역 신호를 주파수 영역의 신호로 변환한다. 인코딩하는 포맷에 따라서 시간/주파수 매핑부(310)에서 수행되는 처리가 달라지는데, AAC(Advanced Audio Coding) 포맷 또는 MP3(MPEG-1 layer 3) 포맷으로 인코딩할 때는 MDCT(Modified Discrete Cosine Transform)가 수행된다.
스펙트럴 처리부(320)는 주파수 영역의 신호를, 인코딩하는 오디오 포맷에 맞는 스펙트럴 처리를 수행한다. 이러한 스펙트럴 처리의 예로는, TNS(Temporal Noise Shaping), LTP(Long Term Prediction), PNS(Perceptual Noise Substitution), I/C, M/S 등이 있다.
마스킹 임계치 계산부(330)는 에너지 분포 곡선 산출부(331), 양자화 잡음 곡선 패턴 추정부(332), 비트조절 초기값 설정부(333)를 포함하며, 입력된 오디오 데이터에 대하여 MDCT를 수행하여 주파수 대역별로 에너지 레벨을 산출하고 심리 음향 모델에 의한 임계 잡음 레벨과 유사한 분포 형태로 근사화시키고, 주파수 밴드별 스케일 팩터 게인을 계산한다.
에너지 분포 곡선 산출부(331)는 입력된 오디오 데이터에 대하여 MDCT를 수 행하여 주파수 대역별로 에너지 레벨을 산출한다. 양자화 잡음 곡선 패턴 추정부(332)는 산출된 에너지 분포곡선을 기반으로 대역별 이득을 상대적으로 조절하여 양자화 잡음 분포를 설정한다. 비트조절 초기값 설정부(333)는 스케일팩터 밴드 이득만을 결정하는 부분으로, 비트조절 초기값 설정부(333)에서는 글로벌 이득이 초기값을 갖기 때문에 목표 비트율 보다 많은 비트를 사용하는 상태가 된다.
도 4a 내지 도 4d는 스케일 팩터 밴드의 에너지를 근사화하는 과정을 설명하기 위한 도면이다.
입력된 오디오 데이터에 대하여 MDCT 가 수행되면 도 4a에 도시한 것과 같은 MDCT 라인이 얻어지고, 이를 스케일 팩터 밴드별로 몇개씩 묶어서 나타낸 것이 도 4b이다. 그리고 나서 스케일 팩터 밴드별 에너지를 도 4c의 실선과 같이 조정한다. 양쪽의 스케일 팩터 밴드의 에너지중 어느 한쪽이 자신의 에너지보다 크면 자신의 스케일 팩터 밴드의 에너지를 높이고 그렇지 않으면 그대로 둔다. 이를 수식으로 표현하면 다음 수학식 1과 같이 표현된다.
여기서, sfb는 스케일팩터 밴드를, M(sfb)은 스케일팩터 밴드별로 근사화된 스케일 팩터 에너지를 의미한다.
도 4d는 근사화된 스케일 팩터 에너지 곡선이다. 그리고 추정된 M(sfb)을 이용하여 상술한 수학식 2에 의해서 스케일팩터 밴드 게인 sfbgain(sfb)을 계산한다.
양자화 잡음 곡선 조절부(340)는 이렇게 결정된 주파수 밴드별 스케일 팩터 게인은 고정시킨 채로, 목표 비트율을 만족시키기 위해 모든 주파수 대역에 해당하는 공통이득을 조절하여 양자화 잡음 곡선을 에너지 분포 곡선에 정합시킨다. 정해진 비트율에서 사용될 수 있는 비트수와 비교하여 사용되는 비트수가 정해진 비트율의 비트수보다 적으면 그 비트를 가지고 인코딩을 수행하고, 그렇지 않으면 상술한 양자화 잡음 곡선 조절을 다시 수행한다.
이렇게, 양자화 잡음의 주파수 대역별로 분포시키는 기준이 되는 임계 잡음 레벨은 심리음향 모델에 의하지 않고, DCT에 의한 주파수 성분만으로 심리음향 모델에 의해 산출된 임계 잡음 레벨과 비슷하고 처리 과정은 간략하게 근사화된 임계 잡음 레벨을 산출한다. 양자화 잡음을 임계 잡음 레벨 이하로 낮추면서 목표 비트율을 만족시키기 위해 글로벌 게인과 스케일 팩터 게인을 반복적으로 많은 횟수의 루프를 수행하지 않고 근사화된 임계 잡음 레벨의 분포와 같은 모양으로 상대적으로 조절한다. 상대적으로 조절된 양자화 잡음의 대역별 비율(스케일팩터 밴드 게인)을 고정시킨채로 목표비트율을 만족시키기 위해 전체 대역에 대한 이득(글로벌 게인)을 조절한다.
도 5는 본 발명의 오디오 인코딩 방법의 플로우차트이다.
이제 도 5를 참조하여, 음질 열화를 줄이고 고속으로 오디오 데이터를 인코딩하기 위한 에너지 분포 곡선의 단순 정합 기법에 기반한 MPEG-4 AAC 인코딩 알고 리즘을 일실시예로 설명한다.
시간영역의 오디오 신호를 주파수 영역의 신호로 변환한다(S410). 그리고, 주파수 영역 신호가 가지는 과잉 정보를 줄여주도록 주파수 영역에서의 스펙트럴 처리를 수행한다(S420).
복잡한 계산을 처리하는 심리음향모델을 통하여 임계잡음 레벨을 구하지 않고 단순히 주파수 영역 신호를 이용하여 주파수 대역별 에너지 레벨을 계산한다(S430). 이때 심리음향모델을 통한 임계 잡음레벨의 형태와 유사하도록 하기 위해 주파수 대역별 에너지 레벨을 근사화한다(S440). 즉, 이웃한 주파수 대역중 어느 하나라도 그 에너지 레벨이 크면 해당 대역의 에너지 레벨을 이웃 대역의 큰 에너지 레벨과의 차이에 대한 일정 비율만큼 에너지 레벨을 증가시킨다. 상세하게는 상술한 수학식1에서 설명한 정도로 증가시킨다.
다음으로, 조절된 에너지 레벨 분포형태를 통해서 양자화 잡음 분포곡선의 패턴을 추정한다(S450). 입력된 오디오 프레임의 전체 주파수 대역중 가장 큰 에너지 레벨을 갖는 주파수 대역을 찾고, 이를 기준으로 각 주파수 대역별 에너지 레벨과의 차이에 따라 주파수 대역별 이득, 즉, 주파수 대역별 스케일팩터 밴드 이득(scalefactor band gain)을 결정한다. 이 과정을 통하여 주파수 대역별 양자화 잡음 분포는 에너지 분포를 임계 잡음 형태로 근사화시킨 분포형태를 갖는다.
목표 비트율에 맞추어 양자화 잡음 분포를 근사화된 에너지 레벨에 정합시키기 위해 비트 조절의 초기치를 결정한다(S460).
(S450) 단계에서 계산된 주파수 대역별 스케일팩터 밴드 이득(scalefactor band gain)를 고정시키고 목표 비트율을 만족시키기 위해 전 대역에 해당하는 공통 이득값을 조절한다(S470). 이렇게 하여 양자화 잡음이 에너지 레벨 분포형태로 근사화된다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
이상에서 설명한 바와 같이, 본 발명에 따른 오디오 데이터 인코딩 장치 및 방법은 다음과 같은 효과를 제공한다.
첫째, 기존의 오디오 인코딩 과정에서 사용되는 심리음향 모델을 직접 사용하지 않고 주파수별 에너지 분포를 통하여 임계잡음 레벨의 상대적인 대역별 분포 형태와 비슷한 분포를 산출함으로써 인코더를 간단하게 구현할 수 있는 효과가 있다.
둘째, 기존의 양자화는 제한된 비트수에 대해서 비효율적인 비트 할당을 초래하여 음질 열화에 직접적인 영향을 미치는 것에 비하여, 본 발명은 근사화된 잡음 레벨 분포에 대해 대역별 이득을 비트율 조절보다 먼저 조절함으로써 대역별 양자화 잡음의 상대적 분포를 우선적으로 조절한다. 이렇게 상대적으로 양자화 잡음을 조절한 후 비트율을 조절하는 에너지 분포에 기반한 양자화 잡음 정합 과정을 거치게 되면 기존의 양자화 루프 과정을 통하여 이루어지는 많은 연산량을 획기적으로 감소시킬 수 있으며, 임계 잡음 레벨의 크기 분포와 비슷한 형태로 양자화 잡음의 분포를 얻음으로써 음질 성능을 개선시키는 효과가 있다.
세째, 양자화 잡음의 포락선을 DCT를 이용해 근사화된 임계 잡음 레벨의 분포와 절대적으로 만족시키도록 하지 않고 상대적으로 같은 모양을 갖도록 조절하고 나서 비트율을 맞추면, 종래에 주파수 대역에 따라 허용된 임계치를 과도하게 초과하는 현상의 발생을 억제함으로써 오디오 인코딩에서 발생할 수 있는 음질 열화 발생을 현저히 감소시키는 효과가 있다. 또한 심리음향 모델을 통한 임계잡음 레벨을 산출하는 복잡한 연산과정이 생략되고, 임계 잡음의 절대값에 따라 양자화 잡음을 조절하고 비트율을 맞추는 반복 수행 과정이 생략되어 고속의 오디오 인코딩을 구 현할 수 있는 효과가 있다.
Claims (13)
- 시간영역의 오디오 신호를 입력받아 주파수 영역의 신호로 변환하는 시간/주파수 매핑부;상기 변환된 주파수 영역의 오디오 신호를 입력받아 인코딩하고자 하는 오디오 포맷에 대응되는 스펙트럴 처리를 수행하는 스펙트럴 처리부;상기 변환된 주파수 영역의 오디오 신호를 입력받아 주파수 대역별로 에너지 레벨을 산출하고, 산출한 에너지 레벨의 에너지 분포 곡선이 종래의 심리음향모델에 의한 임계 잡음 레벨 곡선과 유사한 분포 형태가 되도록 근사화시키고 주파수 밴드별 스케일 팩터 밴드 이득을 계산하는 마스킹 임계치 계산부; 및상기 주파수 밴드별 스케일 팩터 밴드 이득은 고정시킨 채로, 목표 비트율을 만족시키기 위해 공통이득을 조절하여 양자화 잡음 곡선을 상기 근사화된 에너지 분포 곡선에 정합시키는 양자화 잡음 곡선 조절부를 포함하는 것을 특징으로 하는 오디오 데이터 인코딩 장치.
- 제1항에 있어서, 상기 시간/주파수 매핑부는입력된 시간영역의 신호에 대하여 MDCT를 수행하는 것을 특징으로 하는 오디오 데이터 인코딩 장치.
- 제1항에 있어서, 상기 스펙트럴 처리부는인코딩하고자 하는 오디오 포맷에 따라서 TNS(Temporal Noise Shaping) 또는 LTP(Long Term Prediction) 또는 PNS(Perceptual Noise Substitution)를 수행하는 것을 특징으로 하는 오디오 데이터 인코딩 장치.
- 제1항에 있어서, 상기 마스킹 임계치 계산부는입력된 오디오 데이터에 대하여 MDCT를 수행하여 주파수 대역별로 에너지 레벨을 산출하는 에너지 분포 곡선 산출부; 및상기 산출된 에너지 분포곡선을 기반으로 주파수 대역별 이득을 상대적으로 조절하여 양자화 잡음의 분포를 조정하는 양자화 잡음 곡선 패턴 추정부; 및목표 비트율 보다 많은 비트를 사용할 수 있도록 스케일 팩터 밴드 이득을 결정하는 비트조절 초기값 설정부를 포함하는 것을 특징으로 하는 오디오 데이터 인코딩 장치.
- 제1항에 있어서, 상기 양자화 잡음 곡선 조절부는정해진 비트율에서 사용될 수 있는 비트수와 비교하여 사용되는 비트수가 정해진 비트율의 비트수보다 적으면 그 비트를 가지고 인코딩을 수행하고, 그렇지 않으면 상기 양자화 잡음 곡선 정합을 다시 수행하는 것을 특징으로 하는 오디오 데이터 인코딩 장치.
- 주파수 영역의 오디오 신호를 입력받아 주파수 대역별로 에너지 레벨을 산출하고, 산출한 에너지 레벨의 에너지 분포 곡선이 종래의 심리음향모델에 의한 임계 잡음 레벨 곡선과 유사한 분포 형태가 되도록 근사화시키고 주파수 밴드별 스케일 팩터 밴드 이득을 계산하는 마스킹 임계치 계산부; 및상기 주파수 밴드별 스케일 팩터 밴드 이득은 고정시킨 채로, 목표 비트율을 만족시키기 위해 모든 주파수 대역에 대한 공통이득을 조절하여 양자화 잡음 곡선을 상기 근사화된 에너지 분포 곡선에 정합시키는 양자화 잡음 곡선 조절부를 포함하는 것을 특징으로 하는 양자화 잡음 분포 조절 장치.
- (a) 시간영역의 오디오 신호를 입력받아 주파수 영역의 신호로 변환하는 단계;(b) 상기 변환된 주파수 영역의 신호에 대해 인코딩하는 오디오 포맷에 맞는 스펙트럴 처리를 수행하는 단계;(c) 상기 변환된 주파수 영역의 오디오 신호를 입력받아 주파수 대역별로 에너지 레벨을 산출하고, 산출한 에너지 레벨의 에너지 분포 곡선이 종래의 심리음향모델에 의한 임계 잡음 레벨 곡선과 유사한 분포 형태가 되도록 근사화시키고 주파수 밴드별 스케일 팩터 밴드 이득을 계산하는 단계; 및(d) 상기 주파수 밴드별 스케일 팩터 밴드 이득은 고정시킨 채로, 목표 비트율을 만족시키기 위해 공통이득을 조절하여 양자화 잡음 곡선을 상기 근사화된 에너지 분포 곡선에 정합시키는 단계를 포함하는 것을 특징으로 하는 오디오 데이터 인코딩 방법.
- 제7항에 있어서, 상기 (c) 단계는(c1) 상기 변환된 주파수 영역의 신호를 이용하여 주파수 대역별 에너지 레벨을 계산하는 단계;(c2) 상기 주파수 대역별 에너지 레벨을 근사화하는 단계;(c3) 상기 근사화된 에너지 레벨 분포형태를 이용하여 양자화 잡음 분포곡선의 패턴을 추정하는 단계;(c4) 목표 비트율에 맞추어 상기 양자화 잡음 분포곡선을 상기 주파수 대역별 에너지 레벨에 정합시키기 위해 비트 조절의 초기치를 결정하고 주파수 대역별 스케일팩터 밴드 이득을 계산하는 단계; 및(c5) 상기 주파수 대역별 스케일팩터 밴드 이득을 고정시키고 목표 비트율을 만족시키기 위해 모든 주파수 대역에 대한 공통 이득값을 조절하는 단계를 포함하는 것을 특징으로 하는 오디오 데이터 인코딩 방법.
- 제8항에 있어서, 상기 (c2) 단계는이웃한 주파수 대역의 신호중 어느 하나라도, 이웃한 주파수 대역의 신호의 에너지 레벨이 크면, 이웃 주파수 대역의 에너지 레벨과 해당 주파수 대역 신호의 에너지 레벨의 차이의 일정 비율만큼, 해당 주파수 대역 신호의 에너지 레벨을 증가시키는 것을 특징으로 하는 오디오 데이터 인코딩 방법.
- 제8항에 있어서, 상기 (c3) 단계는전체 주파수 대역의 신호중 가장 큰 에너지 레벨을 갖는 주파수 대역의 신호를 찾고, 이를 기준으로 각 주파수 대역별 신호의 에너지 레벨과의 차이에 따라 주파수 대역별 이득을 결정하여 주파수 대역별 양자화 잡음 에너지 분포를 임계 잡음 형태로 근사화시키는 것을 특징으로 하는 오디오 데이터 인코딩 방법.
- (a) 주파수 영역의 오디오 신호를 입력받아 주파수 대역별로 에너지 레벨을 산출하고, 산출한 에너지 레벨의 에너지 분포 곡선이 종래의 심리음향모델에 의한 임계 잡음 레벨 곡선과 유사한 분포 형태가 되도록 근사화시키고 주파수 밴드별 스케일 팩터 밴드 이득을 계산하는 단계; 및(b) 상기 주파수 밴드별 스케일 팩터 밴드 이득은 고정시킨 채로, 목표 비트율을 만족시키기 위해 모든 주파수 대역에 대한 공통이득을 조절하여 양자화 잡음 곡선을 상기 근사화된 에너지 분포 곡선에 정합시키는 단계를 포함하는 것을 특징으로 하는 양자화 잡음 분포 조절 방법.
- (a) 시간영역의 오디오 신호를 입력받아 주파수 영역의 신호로 변환하는 단계;(b) 상기 변환된 주파수 영역의 신호에 대해 인코딩하는 오디오 포맷에 맞는 스펙트럴 처리를 수행하는 단계;(c) 상기 변환된 주파수 영역의 오디오 신호를 입력받아 주파수 대역별로 에너지 레벨을 산출하고, 산출한 에너지 레벨의 에너지 분포 곡선이 종래의 심리음향모델에 의한 임계 잡음 레벨 곡선과 유사한 분포 형태가 되도록 근사화시키고 주파수 밴드별 스케일 팩터 밴드 이득을 계산하는 단계; 및(d) 상기 주파수 밴드별 스케일 팩터 밴드 이득은 고정시킨 채로, 목표 비트율을 만족시키기 위해 공통이득을 조절하여 양자화 잡음 곡선을 상기 근사화된 에너지 분포 곡선에 정합시키는 단계를 포함하는 것을 특징으로 하는 오디오 데이터 인코딩 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
- (a) 주파수 영역의 오디오 신호를 입력받아 주파수 대역별로 에너지 레벨을 산출하고, 산출한 에너지 레벨의 에너지 분포 곡선이 종래의 심리음향모델에 의한 임계 잡음 레벨 곡선과 유사한 분포 형태가 되도록 근사화시키고 주파수 밴드별 스케일 팩터 밴드 이득을 계산하는 단계; 및(b) 상기 주파수 밴드별 스케일 팩터 밴드 이득은 고정시킨 채로, 목표 비트율을 만족시키기 위해 모든 주파수 대역에 대한 공통이득을 조절하여 양자화 잡음 곡선을 상기 근사화된 에너지 분포 곡선에 정합시키는 단계를 포함하는 것을 특징으로 하는 양자화 잡음 분포 조절 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030009607A KR100547113B1 (ko) | 2003-02-15 | 2003-02-15 | 오디오 데이터 인코딩 장치 및 방법 |
US10/725,433 US20040162720A1 (en) | 2003-02-15 | 2003-12-03 | Audio data encoding apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030009607A KR100547113B1 (ko) | 2003-02-15 | 2003-02-15 | 오디오 데이터 인코딩 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040073862A KR20040073862A (ko) | 2004-08-21 |
KR100547113B1 true KR100547113B1 (ko) | 2006-01-26 |
Family
ID=32844845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020030009607A KR100547113B1 (ko) | 2003-02-15 | 2003-02-15 | 오디오 데이터 인코딩 장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20040162720A1 (ko) |
KR (1) | KR100547113B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101546793B1 (ko) | 2008-07-14 | 2015-08-28 | 삼성전자주식회사 | 오디오 신호의 부호화/복호화 방법 및 장치 |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19947877C2 (de) * | 1999-10-05 | 2001-09-13 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Einbringen von Informationen in einen Datenstrom sowie Verfahren und Vorrichtung zum Codieren eines Audiosignals |
US9711153B2 (en) | 2002-09-27 | 2017-07-18 | The Nielsen Company (Us), Llc | Activating functions in processing devices using encoded audio and detecting audio signatures |
US8959016B2 (en) | 2002-09-27 | 2015-02-17 | The Nielsen Company (Us), Llc | Activating functions in processing devices using start codes embedded in audio |
US7349842B2 (en) * | 2003-09-29 | 2008-03-25 | Sony Corporation | Rate-distortion control scheme in audio encoding |
US7426462B2 (en) * | 2003-09-29 | 2008-09-16 | Sony Corporation | Fast codebook selection method in audio encoding |
US7325023B2 (en) * | 2003-09-29 | 2008-01-29 | Sony Corporation | Method of making a window type decision based on MDCT data in audio encoding |
KR100736607B1 (ko) * | 2005-03-31 | 2007-07-09 | 엘지전자 주식회사 | 오디오 부호화 방법 및 장치 |
US7627481B1 (en) * | 2005-04-19 | 2009-12-01 | Apple Inc. | Adapting masking thresholds for encoding a low frequency transient signal in audio data |
DE102005032079A1 (de) * | 2005-07-08 | 2007-01-11 | Siemens Ag | Verfahren und Vorrichtung zur Geräuschunterdrückung |
DE502006004136D1 (de) * | 2005-04-28 | 2009-08-13 | Siemens Ag | Verfahren und vorrichtung zur geräuschunterdrückung |
US7676360B2 (en) * | 2005-12-01 | 2010-03-09 | Sasken Communication Technologies Ltd. | Method for scale-factor estimation in an audio encoder |
SG144752A1 (en) * | 2007-01-12 | 2008-08-28 | Sony Corp | Audio enhancement method and system |
KR101411900B1 (ko) * | 2007-05-08 | 2014-06-26 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 장치 |
TWI374671B (en) * | 2007-07-31 | 2012-10-11 | Realtek Semiconductor Corp | Audio encoding method with function of accelerating a quantization iterative loop process |
JP5262171B2 (ja) * | 2008-02-19 | 2013-08-14 | 富士通株式会社 | 符号化装置、符号化方法および符号化プログラム |
KR20090122142A (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
US8121830B2 (en) * | 2008-10-24 | 2012-02-21 | The Nielsen Company (Us), Llc | Methods and apparatus to extract data encoded in media content |
US8359205B2 (en) | 2008-10-24 | 2013-01-22 | The Nielsen Company (Us), Llc | Methods and apparatus to perform audio watermarking and watermark detection and extraction |
US9667365B2 (en) | 2008-10-24 | 2017-05-30 | The Nielsen Company (Us), Llc | Methods and apparatus to perform audio watermarking and watermark detection and extraction |
US8508357B2 (en) | 2008-11-26 | 2013-08-13 | The Nielsen Company (Us), Llc | Methods and apparatus to encode and decode audio for shopper location and advertisement presentation tracking |
CN101751928B (zh) * | 2008-12-08 | 2012-06-13 | 扬智科技股份有限公司 | 应用音频帧频谱平坦度简化声学模型分析的方法及其装置 |
JP2012525655A (ja) | 2009-05-01 | 2012-10-22 | ザ ニールセン カンパニー (ユー エス) エルエルシー | 一次ブロードキャストメディアコンテンツに関連する二次コンテンツを提供するための方法、機器、及び製造品 |
US8457321B2 (en) | 2010-06-10 | 2013-06-04 | Nxp B.V. | Adaptive audio output |
KR102243217B1 (ko) * | 2013-09-26 | 2021-04-22 | 삼성전자주식회사 | 오디오 신호 부호화 방법 및 장치 |
EP2980795A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
US9712348B1 (en) * | 2016-01-15 | 2017-07-18 | Avago Technologies General Ip (Singapore) Pte. Ltd. | System, device, and method for shaping transmit noise |
US10699727B2 (en) * | 2018-07-03 | 2020-06-30 | International Business Machines Corporation | Signal adaptive noise filter |
CN111341337B (zh) * | 2020-05-07 | 2023-03-14 | 上海力声特医学科技有限公司 | 声音降噪算法及其系统 |
CN117476021A (zh) * | 2022-07-27 | 2024-01-30 | 华为技术有限公司 | 量化方法、反量化方法及其装置 |
CN115616082B (zh) * | 2022-12-14 | 2023-04-28 | 杭州兆华电子股份有限公司 | 一种基于杂音检测的键盘缺陷分析方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4563638A (en) * | 1983-06-27 | 1986-01-07 | Eaton Corporation | Time selective frequency detection by time selective channel to channel energy comparison |
JP2751564B2 (ja) * | 1990-05-25 | 1998-05-18 | ソニー株式会社 | ディジタル信号符号化装置 |
US5559900A (en) * | 1991-03-12 | 1996-09-24 | Lucent Technologies Inc. | Compression of signals for perceptual quality by selecting frequency bands having relatively high energy |
US5307405A (en) * | 1992-09-25 | 1994-04-26 | Qualcomm Incorporated | Network echo canceller |
JPH06180948A (ja) * | 1992-12-11 | 1994-06-28 | Sony Corp | ディジタル信号処理装置又は方法、及び記録媒体 |
JP3125543B2 (ja) * | 1993-11-29 | 2001-01-22 | ソニー株式会社 | 信号符号化方法及び装置、信号復号化方法及び装置、並びに記録媒体 |
US5839110A (en) * | 1994-08-22 | 1998-11-17 | Sony Corporation | Transmitting and receiving apparatus |
US5654952A (en) * | 1994-10-28 | 1997-08-05 | Sony Corporation | Digital signal encoding method and apparatus and recording medium |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
GB2318029B (en) * | 1996-10-01 | 2000-11-08 | Nokia Mobile Phones Ltd | Audio coding method and apparatus |
US6253185B1 (en) * | 1998-02-25 | 2001-06-26 | Lucent Technologies Inc. | Multiple description transform coding of audio using optimal transforms of arbitrary dimension |
JP3784993B2 (ja) * | 1998-06-26 | 2006-06-14 | 株式会社リコー | 音響信号の符号化・量子化方法 |
JP3739959B2 (ja) * | 1999-03-23 | 2006-01-25 | 株式会社リコー | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 |
JP3639216B2 (ja) * | 2001-02-27 | 2005-04-20 | 三菱電機株式会社 | 音響信号符号化装置 |
FR2850781B1 (fr) * | 2003-01-30 | 2005-05-06 | Jean Luc Crebouw | Procede pour le traitement numerique differencie de la voix et de la musique, le filtrage du bruit, la creation d'effets speciaux et dispositif pour la mise en oeuvre dudit procede |
-
2003
- 2003-02-15 KR KR1020030009607A patent/KR100547113B1/ko not_active IP Right Cessation
- 2003-12-03 US US10/725,433 patent/US20040162720A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101546793B1 (ko) | 2008-07-14 | 2015-08-28 | 삼성전자주식회사 | 오디오 신호의 부호화/복호화 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR20040073862A (ko) | 2004-08-21 |
US20040162720A1 (en) | 2004-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100547113B1 (ko) | 오디오 데이터 인코딩 장치 및 방법 | |
JP5539203B2 (ja) | 改良された音声及びオーディオ信号の変換符号化 | |
KR100477699B1 (ko) | 양자화 잡음 분포 조절 방법 및 장치 | |
US7613603B2 (en) | Audio coding device with fast algorithm for determining quantization step sizes based on psycho-acoustic model | |
US8972270B2 (en) | Method and an apparatus for processing an audio signal | |
US7337118B2 (en) | Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components | |
JP4413257B2 (ja) | マルチチャネル信号を処理する装置および方法 | |
US6725192B1 (en) | Audio coding and quantization method | |
EP2490215A2 (en) | Method and apparatus to extract important spectral component from audio signal and low bit-rate audio signal coding and/or decoding method and apparatus using the same | |
KR20050021467A (ko) | 저비트율 오디오 코딩 | |
AU2003243441C1 (en) | Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components | |
KR20190047114A (ko) | 신호 처리 장치 및 방법, 및 컴퓨터 판독가능 기록 매체 | |
JP4021124B2 (ja) | デジタル音響信号符号化装置、方法及び記録媒体 | |
US20090132238A1 (en) | Efficient method for reusing scale factors to improve the efficiency of an audio encoder | |
EP1072036A1 (en) | Fast frame optimisation in an audio encoder | |
EP1600946A1 (en) | Method and apparatus for encoding/decoding a digital signal | |
US20230133513A1 (en) | Audio decoder, audio encoder, and related methods using joint coding of scale parameters for channels of a multi-channel audio signal | |
CN101192410B (zh) | 一种在编解码中调整量化质量的方法和装置 | |
KR20060113999A (ko) | 정보 신호의 양자화 방법 및 장치 | |
US7668715B1 (en) | Methods for selecting an initial quantization step size in audio encoders and systems using the same | |
JP2012519309A (ja) | オーディオ符号化のための量子化 | |
JP3863706B2 (ja) | 音声符号化方法 | |
JP2003044096A (ja) | マルチチャンネルオーディオ信号符号化方法、マルチチャンネルオーディオ信号符号化装置、記録媒体および音楽配信システム | |
JP2000137497A (ja) | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 | |
KR100640833B1 (ko) | 디지털 오디오의 부호화 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121228 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20131230 Year of fee payment: 9 |
|
LAPS | Lapse due to unpaid annual fee |