Nothing Special   »   [go: up one dir, main page]

KR101435411B1 - 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치 - Google Patents

심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치 Download PDF

Info

Publication number
KR101435411B1
KR101435411B1 KR1020070098357A KR20070098357A KR101435411B1 KR 101435411 B1 KR101435411 B1 KR 101435411B1 KR 1020070098357 A KR1020070098357 A KR 1020070098357A KR 20070098357 A KR20070098357 A KR 20070098357A KR 101435411 B1 KR101435411 B1 KR 101435411B1
Authority
KR
South Korea
Prior art keywords
audio signal
quantization interval
value
calculating
ratio value
Prior art date
Application number
KR1020070098357A
Other languages
English (en)
Other versions
KR20090032820A (ko
Inventor
문한길
이건형
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020070098357A priority Critical patent/KR101435411B1/ko
Priority to US12/237,413 priority patent/US20090089049A1/en
Publication of KR20090032820A publication Critical patent/KR20090032820A/ko
Application granted granted Critical
Publication of KR101435411B1 publication Critical patent/KR101435411B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 심리 음향 모델의 마스킹 효과(masking effect)에 따라 적응적으로 양자화 간격을 결정하는 방법 및 이를 이용한 오디오 신호의 부호화/복호화 방법에 관한 것으로, 입력된 오디오 신호로부터 마스킹 효과의 임계치에 대한 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 단계와 제1 비율값에 기초하여, 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하는 단계를 포함함으로써, 사람의 청각특성을 이용하여 양자화 잡음은 제거되면서 부호화에 필요한 비트 수는 감소시킬 수 있는 효과가 있다

Description

심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화 간격을 결정하는 방법과 이를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치{Method for determining a quantization step adaptively according to masking effect in psychoacoustics model and encoding/decoding audio signal using the quantization step, and apparatus thereof}
본 발명은 심리 음향 모델의 마스킹 효과(masking effect)에 따라 적응적으로 양자화 간격을 결정하는 방법 및 이를 이용한 오디오 신호의 부호화/복호화 방법에 관한 것으로, 보다 구체적으로는 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하고, 이를 이용하여 오디오 신호를 부호화/복호화하는 방법 및 장치에 관한 것이다.
일반적인 데이터 압축에서는 압축 전후의 결과가 동일해야 하나, 오디오나 영상신호와 같이 사람의 지각능력에 의존하는 데이터의 경우에는 단지 사람의 지각능력이 감지할 수 있는 수준의 데이터들만 있어도 무방하다. 이러한 특징 때문에 오디오 신호의 부호화에는 손실 압축기법이 많이 사용된다.
오디오 신호를 부호화하는 경우에, 양자화(quantization)은 손실(lossy) 압 축에서 필수적인 처리 과정이다. 여기서 양자화는 오디호 신호의 실제값을 일정한 간격으로 나누는 과정으로, 나누어진 각각의 세그먼트(segment)를 표현하기 위해 상기 각각의 세그먼트에 대표값을 부여한다. 즉, 양자화란 미리 정해진 양자화 간격(quantization step)의 몇 가지 양자화 단계(quantization level)로 오디오 신호의 파형의 크기를 표현하는 것이다. 여기서 효과적인 양자화를 위해서는 양자화 간격의 크기(quantization step size)를 정하는 문제가 중요하게 다루어진다.
만약 양자화 간격이 너무 넓으면, 양자화로 인하여 발생하는 잡음인 양자화 잡음(quantization noise)이 커져서 실제 오디오 신호의 음질의 열화가 심화되고, 반대로 양자화 간격이 너무 조밀하면, 상기 양자화 잡음은 감소하지만 양자화 처리 이후에 표현해야할 오디오 신호의 세그먼트의 수가 증가하여 부호화를 위해 필요한 비트레이트(bitrate)가 증가하게 된다.
즉 양자화 잡음으로 인하여 오디오 신호가 열화되지 않으면서도, 비트레이트 감소를 위해 최대의 양자화 간격을 찾는 것이 고음질, 고효율의 부호화를 위해 요구된다.
특히, 심리 음향 모델에서는 사람의 청각특성을 이용하여 사람이 듣지 못하는 부분을 제거하여 압축률을 높이는 방법을 사용하는데, 이와 같은 방식을 인지 코딩(perceptual coding) 또는 지각 부호화라 한다.
인지 코딩에서 사용되는 사람의 청각특성 중 대표적인 것이 마스킹 효과(masking effect)이다. 마스킹 효과란, 간단한 예를 들어 설명하면 큰 소리와 작은 소리가 동시에 나는 경우에 작은 소리가 큰 소리에 가려져 들리지 않는 현상 을 말한다. 이와 같은 마스킹 효과는 마스킹하는 소리(masker)와 마스킹되는 소리(maskee)의 음량 차이가 클수록 효과가 커지며, 마스킹하는 소리와 마스킹되는 소리의 주파수가 비슷할수록 효과가 커진다. 또한 시간적으로 동시에 나는 소리가 아니더라도 큰 소리 이후에 나오는 작은 소리는 마스킹될 수 있다.
도 1은 마스킹 효과에 따른 SNR, SMR 및 NMR을 설명하기 위한 그래프이다.
도 1을 참조하면, 마스킹하는 톤 성분(masking tone)이 있을 때의 마스킹 곡선(masking curve)이 나타나있다. 이와 같은 마스킹 곡선을 스프레드 함수(spread function)라고 하며, 곡선 아래(masking thresh)에 있는 소리는 마스킹하는 톤 성분에 의해 마스킹된다. 임계 대역(critical band) 내에서는 이와 같은 마스킹 효과가 거의 균등하게(uniformly) 발생한다.
여기서 SNR(Signal-to-Noise Ratio)는 신호 대 잡음 비율로서, 신호 전력이 잡음 전력을 초과하는 음압 레벨(sound pressure level: 데시벨(dB))이다. 오디오 신호는 단독으로 존재하는 경우는 거의 없고 보통 잡음과 공존한다. 그 배분을 나타내는 척도로서 신호와 잡음의 전력비인 SNR이 이용된다. 또한, SMR(Signal-to-Mask Ratio)는 신호 대 마스크 비율로서, 신호 전력이 마스킹 임계치(masking threshold)에 비해 상대적으로 큰 정도를 나타낸다. 마스킹 임계치는 임계 대역 내의 최소 마스킹 임계치(minimum masking thresh)에 기초하여 결정된다. NMR(Noise-to-Mask Ratio)는 잡음 대 마스크 비율로서, SMR과 SNR의 차이(margin)를 나타낸다.
예를 들어, 신호를 나타내는데 할당되는 비트 수가 도 1에 나타난 바와 같이 m개라면, SNR, SMR 및 NMR은 도 1에서 화살표로 나타난 바와 같은 관계를 갖는다.
여기서 양자화 간격(step)을 좁게 설정하면, 오디오 신호를 부호화하는데 필요한 비트 수가 증가하게 되는데, 예를 들어 도 1에서 비트 수가 m+1개로 늘어난다면, SNR은 그만큼 더 커지게 된다. 반대로, 비트 수가 m-1개로 줄어든다면, SNR은 더 작아지게 된다. 만약, 비트 수가 줄어들어 SNR이 SMR보다 작아지게 된다면 NMR이 마스킹 임계치보다 커지게 되므로 양자화 잡음이 마스킹되지 않고 잔존하여 사람의 귀에 들리게 된다.
즉, 사람의 청각특성에 따라 지각적으로 느낄 수 있는 음질은 수치적인 SNR과는 다른 양상을 보이므로 이 특성을 이용하면 수치적으로 필요한 비트 수보다 더 적은 비트를 사용하여도 주관적인 음질을 보장할 수 있게 된다.
도 2는 1dB 및 4dB의 양자화 간격을 적용하는 경우에, 시간에 따라 변화하는 SMR에 대한 SNR의 관계를 나타내는 도면이다.
오디오 신호를 시간적인 순서의 프레임별로 나타내는 경우에, 상기 SMR은 도 2에 예시된 것과 같이 시간에 따라 그 값이 변화한다. 이때, 양자화 간격으로서 고정된 4dB를 적용하는 경우의 SNR(210)과 1dB를 적용하는 경우의 SNR(220)이 나타나있다.
먼저 1dB의 양자화 간격을 적용하는 경우(220)에는, 전체 프레임에 있어서 SNR값이 항상 SMR값보다 크므로 양자화 잡음은 제거되지만, 상대적인 비트 레이트는 증가한다. 즉, SNR과 SMR의 차이값만큼의 SNR 여분(SNR margin)이 발생하여 불필요한 비트가 낭비된다.
다음으로 4dB의 양자화 간격을 적용하는 경우(210)에는, SNR값이 SMR값보다 큰 경우도 있고 작은 경우도 있게 된다. 예를 들어, 도 2에서 점선으로 원형 표시된 영역(200a, 200b)를 살펴보면, SNR값이 SMR값이 작은 경우(SNR lack)이므로 이때에는 양자화 잡음을 충분히 제거하지 못하게 된다.
종래의 기술들은 이와 같이 고정된 하나의 양자화 간격을 사용하거나, 몇 가지의 양자화 간격을 선택하여 사용함으로써, 상기 살펴본 바와 같이 SNR이 불필요하게 남거나 불충분하게 모자라게 되는 문제점이 있었다.
따라서, 본 발명은 상기와 같은 문제점을 해결하기 위하여 고안된 것으로, 본 발명이 이루고자 하는 기술적 과제는 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 적응적으로 결정하고, 이를 이용하여 오디오 신호를 부호화/복호화하는 방법과 그 장치를 제공하는 것이다.
상기 기술적 과제는 본 발명에 따라, 심리 음향 모델의 마스킹 효과(masking effect)에 따라 적응적으로 양자화 간격(quantization step)을 결정하는 방법에 있어서, 입력된 오디오 신호로부터 상기 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 단계와; 상기 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하는 단계를 포함하는 것을 특징으로 하는 양자화 간격 결정 방법에 의해 해결된다.
상기 양자화 간격을 결정하는 단계는, 상기 제1 비율값보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 단계와; 상기 제2 비율값 중 최소값에 대한 상기 양자화 간격을 계산하는 단계를 더 포함하는 것이 바람직하다.
상기 제2 비율값은 상기 양자화 간격이 증가함에 따라 감소하는 것이 바람직 하고, 상기 양자화 간격은 상기 제1 비율값을 지수(exponent)로 포함하는 상용 로그(common logarithm)로서 나타나는 것이 바람직하다.
상기 제1 비율값을 계산하는 단계는, 상기 오디오 신호의 톤(tone) 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 단계와; 상기 계산된 마스킹 임계치에 대하여 가중치를 적용하는 단계를 더 포함하는 것이 바람직하다.
한편, 본 발명의 다른 분야에 따르면 상기 기술적 과제는 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 양자화 간격을 이용하여 오디오 신호를 부호화하는 방법에 있어서, 상기 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 단계와; 상기 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하는 단계와; 상기 결정된 양자화 간격을 이용하여 상기 오디오 신호를 양자화하는 단계와; 상기 양자화된 오디오 신호를 가변 길이 부호화한 비트 스트림을 생성하는 단계를 포함하는 것을 특징으로 하는 부호화 방법에 의해서도 해결된다.
상기 제1 비율값을 계산하는 단계는, 부호화되는 상기 오디오 신호의 이전 프레임의 톤 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 단계와; 상기 계산된 마스킹 임계치에 대하여 가중치를 적용하는 단계를 더 포함하는 것이 바람직하다.
상기 양자화 간격을 결정하는 단계는, 상기 제1 비율값보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 단계 와; 상기 제2 비율값 중 최소값에 대한 상기 양자화 간격을 계산하는 단계를 더 포함하는 것이 바람직하다.
상기 제2 비율값은 상기 양자화 간격이 증가함에 따라 감소하는 것이 바람직하고, 상기 양자화 간격은 상기 제1 비율값을 지수로 포함하는 상용 로그로서 나타나는 것이 바람직하다.
한편, 본 발명의 또 다른 분야에 따르면 상기 기술적 과제는 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 역양자화 간격을 이용하여 오디오 신호를 복호화하는 방법에 있어서, 비트 스트림으로 입력된 상기 오디오 신호를 가변 길이 복호화하는 단계와; 상기 가변 길이 복호화된 오디오 신호에 대하여 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 단계와; 상기 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 역양자화 간격을 결정하는 단계와; 상기 결정된 역양자화 간격을 이용하여 상기 오디오 신호를 역양자화하는 단계를 포함하는 것을 특징으로 하는 복호화 방법에 의해서도 해결된다.
상기 제1 비율값을 계산하는 단계는, 복호화되는 상기 오디오 신호의 이전 프레임의 톤 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 단계와; 상기 계산된 마스킹 임계치에 대하여 가중치를 적용하는 단계를 더 포함하는 것이 바람직하다.
상기 역양자화 간격을 결정하는 단계는, 상기 제1 비율값보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 단 계와; 상기 제2 비율값 중 최소값에 대한 상기 역양자화 간격을 계산하는 단계를 더 포함하는 것이 바람직하다.
상기 제2 비율값은 상기 역양자화 간격이 증가함에 따라 감소하는 것이 바람직하고, 상기 역양자화 간격은 상기 제1 비율값을 지수로 포함하는 상용 로그로서 나타나는 것이 바람직하다.
한편, 본 발명의 또 다른 분야에 따르면 상기 기술적 과제는 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 양자화 간격을 이용하여 오디오 신호를 부호화하는 장치에 있어서, 상기 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 제1 비율값 계산부와; 상기 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하는 양자화 간격 결정부와; 상기 결정된 양자화 간격을 이용하여 상기 오디오 신호를 양자화하는 양자화부와; 상기 양자화된 오디오 신호를 가변 길이 부호화한 비트 스트림을 생성하는 가변 길이 부호화부를 포함하는 것을 특징으로 하는 부호화 장치에 의해서도 해결된다.
상기 제1 비율값 계산부는 부호화되는 상기 오디오 신호의 이전 프레임의 톤 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 임계치 계산부 및 상기 계산된 마스킹 임계치에 대하여 가중치를 적용하는 가중치 처리부를 더 포함하고, 상기 양자화 간격 결정부는 상기 제1 비율값보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 제2 비율값 계산부 및 상기 제2 비율값 중 최소값에 대한 상기 양자화 간격을 계산하는 양자화 간 격 계산부를 더 포함하는 것이 바람직하다.
한편, 본 발명의 또 다른 분야에 따르면 상기 기술적 과제는 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 역양자화 간격을 이용하여 오디오 신호를 복호화하는 장치에 있어서, 비트 스트림으로 입력된 상기 오디오 신호를 가변 길이 복호화하는 가변 길이 복호화부와; 상기 가변 길이 복호화된 오디오 신호에 대하여 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 제1 비율값 계산부와; 상기 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 역양자화 간격을 결정하는 역양자화 간격 결정부와; 상기 결정된 역양자화 간격을 이용하여 상기 오디오 신호를 역양자화하는 역양자화부를 포함하는 것을 특징으로 하는 복호화 장치에 의해서도 해결된다.
상기 제1 비율값 계산부는 복호화되는 상기 오디오 신호의 이전 프레임의 톤 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 임계치 계산부 및 상기 계산된 마스킹 임계치에 대하여 가중치를 적용하는 가중치 처리부를 더 포함하고, 상기 역양자화 간격 결정부는 상기 제1 비율값보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 제2 비율값 계산부 및 상기 제2 비율값 중 최소값에 대한 상기 역양자화 간격을 계산하는 역양자화 계산부를 더 포함하는 것이 바람직하다.
나아가 본 발명은 상기 양자화 간격을 결정하는 방법과 이를 이용한 오디오 신호의 부호화/복호화 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체를 포함한다.
본 발명에 의한 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화 간격을 결정하는 방법과 이를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치에 따르면, 사람의 청각특성을 이용하여 양자화 잡음은 제거되면서 부호화에 필요한 비트 수는 감소시킬 수 있는 효과가 있다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 도면에 기재된 내용을 참조하여야 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대해 상세히 설명한다.
도 3은 본 발명의 일 실시예에 따른, 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화 간격을 결정하는 방법을 설명하기 위한 플로우 차트이다.
도 3을 참조하면, 본 발명의 양자화 간격을 결정하는 방법은 입력된 오디오 신호로부터 마스킹 효과의 임계치에 대한 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 단계(310)와 상기 제1 비율값에 기초하여, 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하는 단계(320, 330)를 포함한다. 이를 위하여, 양자화 간격을 결정하는 단계는 상기 제1 비율값보다 크거나 같은, 잡음에 대한 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 단계(320)와 상기 제2 비율값 중 최소값에 대한 양자화 간격을 계산하는 단계(330)를 포함할 수 있다.
단계 310에서 마스킹 임계치에 대한 오디오 신호의 강도를 나타내는 제1 비율값으로서 신호 대 마스크 비율인 SMR을 사용할 수 있는데, SMR은 오디오 신호의 톤(tone) 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하여 이들 계산된 마스킹 임계치에 대하여 가중치를 적용하여 연산함으로써 구할 수 있다.
단계 320에서 잡음에 대한 오디오 신호의 강도를 나타내는 제2 비율값으로서 SNR을 사용하여, 상기 SMR보다 크거나 같은 SNR을 계산한다.
예를 들어, 신호값이 a = 10x/ 20 이라면, 양자화 간격(step)이 Δ라고 할 때, a + Δ/2 = 10(x+ step /2)/20 이 된다. SNR은 데시벨(dB) 값으로서, SNR = 20log10[신호값/잡음의 최대값] 으로 나타낼 수 있다. 양자화 간격 내에서의 특정값은 사사오입(四捨五入, rounding) 되므로, 잡음의 최대값은 양자화 간격의 ±1/2로 일정하다. 따라서, SNR은 다음 수학식 1과 같이 나타날 수 있다.
Figure 112007070281087-pat00001
상기 수학식 1을 이용하여 프레임 내에서 최대 SMR보다 크거나 같은 SNR을 다음 수학식 2와 같이 계산할 수 있다(SNR ≥max_SMR).
Figure 112007070281087-pat00002
단계 330에서 상기 조건을 만족하는 SNR 중 최소값을 갖는 SNR에 대한 양자화 간격을 구하기 위해, 상기 수학식 2를 양자화 간격(step)에 대하여 정리하면 다음 수학식 3과 같이 나타낼 수 있다.
Figure 112007070281087-pat00003
양자화 간격(step)이 클수록 SNR은 감소하므로, 따라서 상기 수학식 3을 이용하여 최대 양자화 간격인
Figure 112007070281087-pat00004
을 계산할 수 있다.
도 4는 오디오 신호의 톤(tone) 성분 및 잡음(noise) 성분에 대한 마스킹 임계치를 나타내는 도면이다.
본 발명의 일 실시예에 따른 양자화 결정 방법에서, 마스킹 임계치에 대한 오디오 신호의 강도를 나타내는 제1 비율값으로서 신호 대 마스크 비율인 SMR을 사용할 수 있는데, 오디오 신호의 SMR은 도 4의 (a)그림과 같은 오디오 신호의 잡음(noise) 성분에 대한 마스킹 임계치와 (b)그림과 같은 톤(tone) 성분에 대한 마스킹 임계치를 계산하고 이들 계산된 마스킹 임계치에 대하여 가중치를 적용하여 연산함으로써 구할 수 있다. 즉, 잡음 성분이 톤 성분을 마스킹하는 비율(NMT: Noise Masking Tone)과 톤 성분이 잡음 성분을 마스킹하는 비율(TMN: Tone Masking Noise)을 이용하는데, 일반적으로 잡음 성분의 SMR은 (a)그림과 같이 약 4dB로 나타나고, 톤 성분의 SMR은 (b)그림과 같이 약 24dB로 나타난다.
도 5는 본 발명의 일 실시예에 따른, 적응적 양자화 간격이 시간에 따라 변화하는 모습을 나타내는 도면이다.
도 5를 참조하면, 3개의 그래프가 나타나 있는데, 각 경우는 1dB 및 4dB의 양자화 간격을 이용하는 경우(510, 520)와 본 발명에 따른 적응적 양자화 간격을 이용하는 경우이다.
즉, 1dB 및 4dB의 고정된 양자화 간격을 이용하는 경우(510. 520)에는 전체 프레임에 대하여 항상 일정한 양자화 간격을 유지하게 되지만, 도 5에서 점선으로 원형 표시된 영역(500a, 500b)과 같이 본 발명에 따른 양자화 간격은 프레임마다 3dB가 될 수도 있고 7dB가 될 수도 있다. 즉, 본 발명의 적응적 양자화 간격을 이용하는 경우에는 앞서 살펴본 계산 과정을 통해 양자화 간격을 적응적으로 결정함으로써, 시간에 따라 가변적인 SMR에 대하여 양자화 간격도 변화하게 된다.
도 6은 본 발명의 일 실시예에 따른, 적응적 양자화 간격을 적용하는 경우 에, 시간에 따라 변화하는 SMR에 대한 SNR의 관계를 나타내는 도면이다.
도 6을 참조하면, 오디오 신호를 시간적인 순서의 프레임별로 나타내는 경우에, SMR은 상기 도 2에서 이미 살펴본 바와 같이 시간에 따라 그 값이 변화한다. 이때, 양자화 간격으로서 고정된 4dB를 적용하는 경우의 SNR(610)과 1dB를 적용하는 경우의 SNR(620) 및 본 발명의 적응적 양자화 간격을 적용한 경우("굵은 실선"으로 표시)가 나타나있다.
시간에 따른 프레임별로 변화하는 SMR 곡선("-*-"으로 표시)에 대해, 먼저 1dB의 양자화 간격을 적용하는 경우(620)에는 전체 프레임에 있어서 SNR값이 항상 SMR값보다 크므로 양자화 잡음은 제거되지만, 상대적인 비트 레이트가 증가하는 문제점이 있다. 즉, SNR과 SMR의 차이값만큼의 SNR 여분(SNR margin)이 발생하여 불필요한 비트가 낭비된다. 한편, 4dB의 양자화 간격을 적용하는 경우(610)에는 SNR값이 SMR값보다 큰 경우도 있고 작은 경우도 있게 된다. 예를 들어 도 6에서 점선으로 원형 표시된 영역(600a, 600b)를 살펴보면, 4dB의 양자화 간격을 이용하는 경우(610)에 SNR값이 SMR값이 작게 되므로(SNR lack), 양자화 잡음을 충분히 제거하지 못하게 된다.
그러나, 본 발명의 적응적 양자화 간격을 이용하는 경우에는 상기의 점선으로 원형 표시된 영역(600a, 600b)에서도 SNR값이 SMR값보다 크므로 양자화 잡음을 제거할 수 있다. 아울러, 전체 프레임에 걸쳐서 살펴볼 때 1dB의 양자화 간격을 적용하는 경우(620)보다 평균적인 SNR이 훨씬 작게 되므로, 그만큼의 비트 레이트를 감소시킬 수 있다.
도 7은 본 발명의 다른 실시예에 따른, 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 양자화 간격을 이용하여 오디오 신호를 부호화하는 방법을 설명하기 위한 플로우 차트이다.
도 7을 참조하면, 본 발명의 오디오 신호 부호화 방법은 마스킹 효과의 임계치에 대한 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 단계(710 내지 720)와 상기 제1 비율값에 기초하여, 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하는 단계(740, 750)와 상기 결정된 양자화 간격을 이용하여 오디오 신호를 양자화하는 단계(760)와 양자화된 오디오 신호를 가변 길이 부호화한 비트 스트림을 생성하는 단계(770)를 포함한다.
즉, 양자화를 수행함에 있어서 필요한 양자화 간격을 고정된 값을 사용하지 않고 상기와 같은 계산 과정을 통해 얻어진 양자화 간격을 사용하여 부호화를 수행한다.
양자화 간격을 결정하기 위해서, 상기 양자화 간격을 결정하는 단계는 제1 비율값 보다 크거나 같은, 잡음에 대한 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 단계(740)와 제2 비율값 중 최소값에 대한 양자화 간격을 계산하는 단계(750)를 더 포함할 수 있다.
아울러 제1 비율값을 계산하기 위하여, 부호화되는 오디오 신호의 이전 프레임의 톤 성분의 마스킹 임계치 및 잡음 성분의 마스킹 임계치를 계산하고(710), 계산된 마스킹 임계치에 대하여 가중치를 적용하여(720), 마스킹 효과의 임계치에 대 한 오디오 신호의 강도를 나타내는 제1 비율값을 계산할 수 있다(730).
즉, 부호화 과정 중에 양자화 간격을 결정하기 위해 SMR과 같은 제1 비율값을 계산함에 있어서, 현재(n) 프레임이 아닌 이전(n-1) 프레임에서의 TMN(n-1) 및 NMT(n-1)을 이용하여 SMR을 계산한다. 왜냐하면 복호화측에서 역양자화 간격(de-quantization step)을 결정하기 위해 SMR을 계산할 때는 이미 복호화된 이전(n-1) 프레임을 사용할 수 밖에 없기 때문에 부호화 과정에서도 이를 이용한다.
만약 상위 프레임 단위 내에서 현재 프레임이 첫 번째 프레임이라면, 이전 프레임이 없으므로 약속된 고정값(예를 들어, 3dB)을 양자화 간격으로 사용할 수 있다.
도 8은 본 발명의 또 다른 실시예에 따른, 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 역양자화 간격을 이용하여 오디오 신호를 복호화하는 방법을 설명하기 위한 플로우 차트이다.
도 8을 참조하면, 본 발명의 오디오 신호 복호화 방법은 비트 스트림으로 입력된 오디오 신호를 가변 길이 복호화하는 단계(810)와 가변 길이 복호화된 오디오 신호에 대하여, 마스킹 효과의 임계치에 대한 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 단계(820 내지 840)와 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 역양자화 간격을 결정하는 단계(850, 860)와 결정된 역양자화 간격을 이용하여 상기 오디오 신호를 역양자화하는 단계(870)를 포함한다.
역양자화 간격을 결정하기 위해서, 상기 역양자화 간격을 결정하는 단계는 제1 비율값 보다 크거나 같은, 잡음에 대한 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 단계(850)와 제2 비율값 중 최소값에 대한 역양자화 간격을 계산하는 단계(860)를 더 포함할 수 있다.
아울러, 복호화되는 오디오 신호의 이전(n-1) 프레임의 톤 성분의 마스킹 임계치 및 잡음 성분의 마스킹 임계치를 계산하고(820), 계산된 마스킹 임계치에 대하여 가중치를 적용하여(830), 마스킹 효과의 임계치에 대한 오디오 신호의 강도를 나타내는 제1 비율값을 계산할 수 있다(840).
만약 복호화되는 현재 프레임이 상위 프레임 단위 내의 첫 번째 프레임이라면, 이전 프레임이 없으므로 약속된 고정값(예를 들어, 3dB)을 역양자화 간격으로 사용하여 역양자화를 수행할 수 있다.
도 9는 본 발명의 또 다른 실시예에 따른, 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 양자화 간격을 이용하여 오디오 신호를 부호화하는 장치를 나타내는 도면이다.
도 9를 참조하면, 본 발명의 오디오 신호 부호화 장치(900)는 마스킹 효과의 임계치에 대한 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 제1 비율값 계산부(920)와 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하는 양자화 간격 결정부(930)와 결정된 양자화 간격을 이용하여 오디오 신호를 양자화하는 양자화부(940)와 양자화된 오디오 신호를 가변 길이 부호화한 비트 스트림을 생성하는 가변 길이 부호화부(950)를 포함한다.
제1 비율값 계산부(920)는 부호화되는 상기 오디오 신호의 이전(n-1) 프레임의 톤 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 임계치 계산부(921) 및 계산된 마스킹 임계치에 대하여 가중치를 적용하는 가중치 처리부(922)를 더 포함할 수 있다.
한편, 양자화 간격 결정부(930)는 상기 제1 비율값 보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 제2 비율값 계산부(931) 및 상기 제2 비율값 중 최소값에 대한 양자화 간격을 계산하는 양자화 간격 계산부(932)를 더 포함할 수 있으며, 양자화 간격 결정부(930)는 결정된 양자화 간격을 양자화부(940)로 전달한다.
제1 비율값 계산부(920)는 SMR과 같은 제1 비율값을 계산함에 있어서, 현재(n) 프레임이 아닌 이전(n-1) 프레임에서의 TMN(n-1) 및 NMT(n-1)을 이용하여 SMR을 계산한다. 이는 이후 복호화측에서 SMR을 계산할 때는 이미 복호화된 이전 프레임을 사용할 수 밖에 없기 때문이다.
만약 부호화하려는 현재 프레임이 상위 프레임 단위 내의 첫 번째 프레임이라면, 이전 프레임이 없으므로 양자화부(940)는 약속된 고정값(예를 들어, 3dB)을 양자화 간격으로 사용하여 양자화를 수행할 수 있다.
도 10은 본 발명의 또 다른 실시예에 따른, 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 역양자화 간격을 이용하여 오디오 신호를 복호화하는 장치를 나타내는 도면이다.
도 10을 참조하면, 본 발명의 오디오 신호 복호화 장치(1000)는 비트 스트림 으로 입력된 오디오 신호를 가변 길이 복호화하는 가변 길이 복호화부(1030)와 가변 길이 복호화된 오디오 신호에 대하여 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 제1 비율값 계산부(1010)와 제1 비율값에 기초하여, 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 역양자화 간격을 결정하는 역양자화 간격 결정부(1020)와 결정된 역양자화 간격을 이용하여 상기 오디오 신호를 역양자화하는 역양자화부(1040)를 포함한다.
제1 비율값 계산부(1010)는 복호화되는 오디오 신호의 이전 프레임(n-1 frame)의 톤 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 임계치 계산부(1011) 및 계산된 마스킹 임계치에 대하여 가중치를 적용하는 가중치 처리부(1012)를 더 포함할 수 있다. 만약 복호화하려는 현재 프레임이 상위 프레임 단위 내의 첫 번째 프레임이라면, 이전 프레임이 없으므로 역양자화부(1040)는 약속된 고정값(예를 들어, 3dB)을 역양자화 간격으로 사용하여 역양자화를 수행할 수 있다.
한편, 역양자화 간격 결정부(1020)는 제1 비율값 보다 크거나 같은, 잡음에 대한 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 제2 비율값 계산부(1021) 및 상기 제2 비율값 중 최소값에 대한 역양자화 간격을 계산하는 역양자화 계산부(1022)를 더 포함할 수 있으며, 역양자화 간격 결정부(1020)는 결정된 역양자화 간격을 역양자화부(1040)로 전달한다.
한편, 상술한 본 발명의 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화 간격을 결정하는 방법과 이를 이용한 오디오 신호의 부호화/복호화 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
또한, 상술한바와 같이 본 발명에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다.
상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
도 1은 마스킹 효과에 따른 SNR, SMR 및 NMR을 설명하기 위한 그래프이다.
도 2는 1dB 및 4dB의 양자화 간격을 적용하는 경우에, 시간에 따라 변화하는 SMR에 대한 SNR의 관계를 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따른, 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화 간격을 결정하는 방법을 설명하기 위한 플로우 차트이다.
도 4는 오디오 신호의 톤(tone) 성분 및 잡음(noise) 성분에 대한 마스킹 임계치를 나타내는 도면이다.
도 5는 본 발명의 일 실시예에 따른, 적응적 양자화 간격이 시간에 따라 변화하는 모습을 나타내는 도면이다.
도 6은 본 발명의 일 실시예에 따른, 적응적 양자화 간격을 적용하는 경우에, 시간에 따라 변화하는 SMR에 대한 SNR의 관계를 나타내는 도면이다.
도 7은 본 발명의 다른 실시예에 따른, 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 양자화 간격을 이용하여 오디오 신호를 부호화하는 방법을 설명하기 위한 플로우 차트이다.
도 8은 본 발명의 또 다른 실시예에 따른, 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 역양자화 간격을 이용하여 오디오 신호를 복호화하는 방법을 설명하기 위한 플로우 차트이다.
도 9는 본 발명의 또 다른 실시예에 따른, 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 양자화 간격을 이용하여 오디오 신호를 부호화하는 장치 를 나타내는 도면이다.
도 10은 본 발명의 또 다른 실시예에 따른, 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 역양자화 간격을 이용하여 오디오 신호를 복호화하는 장치를 나타내는 도면이다.
상기 몇 개의 도면에 있어서 대응하는 도면 번호는 대응하는 부분을 가리킨다. 도면이 본 발명의 실시예들을 나타내고 있지만, 도면이 축척에 따라 도시된 것은 아니며 본 발명을 보다 잘 나타내고 설명하기 위해 어떤 특징부는 과장되어 있을 수 있다.

Claims (20)

  1. 심리 음향 모델의 마스킹 효과(masking effect)에 따라 적응적으로 양자화 간격(quantization step)을 결정하는 방법에 있어서,
    입력된 오디오 신호로부터 상기 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 단계와;
    상기 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하는 단계를 포함하고,
    상기 양자화 간격을 결정하는 단계는,
    상기 제1 비율값보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 단계와;
    상기 제2 비율값 중 최소값에 대한 상기 양자화 간격을 계산하는 단계를 포함하는 것을 특징으로 하는 양자화 간격 결정 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 제2 비율값은 상기 양자화 간격이 증가함에 따라 감소하는 것을 특징으로 하는 양자화 간격 결정 방법.
  4. 제3항에 있어서,
    상기 양자화 간격은 상기 제1 비율값을 지수(exponent)로 포함하는 상용 로그(common logarithm)로서 나타나는 것을 특징으로 하는 양자화 간격 결정 방법.
  5. 제4항에 있어서,
    상기 제1 비율값을 계산하는 단계는,
    상기 오디오 신호의 톤(tone) 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 단계와;
    상기 계산된 마스킹 임계치에 대하여 가중치를 적용하는 단계를 더 포함하는 것을 특징으로 하는 양자화 간격 결정 방법.
  6. 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 양자화 간격을 이용하여 오디오 신호를 부호화하는 방법에 있어서,
    상기 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 단계와;
    상기 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하는 단계와;
    상기 결정된 양자화 간격을 이용하여 상기 오디오 신호를 양자화하는 단계와;
    상기 양자화된 오디오 신호를 가변 길이 부호화한 비트 스트림을 생성하는 단계를 포함하고,
    상기 양자화 간격을 결정하는 단계는,
    상기 제1 비율값보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 단계와;
    상기 제2 비율값 중 최소값에 대한 상기 양자화 간격을 계산하는 단계를 포함하는 것을 특징으로 하는 부호화 방법.
  7. 제6항에 있어서,
    상기 제1 비율값을 계산하는 단계는,
    부호화되는 상기 오디오 신호의 이전 프레임의 톤 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 단계와;
    상기 계산된 마스킹 임계치에 대하여 가중치를 적용하는 단계를 더 포함하는 것을 특징으로 하는 부호화 방법.
  8. 삭제
  9. 제6항에 있어서,
    상기 제2 비율값은 상기 양자화 간격이 증가함에 따라 감소하는 것을 특징으로 하는 부호화 방법.
  10. 제9항에 있어서,
    상기 양자화 간격은 상기 제1 비율값을 지수로 포함하는 상용 로그로서 나타나는 것을 특징으로 하는 부호화 방법.
  11. 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 역양자화 간격을 이용하여 오디오 신호를 복호화하는 방법에 있어서,
    비트 스트림으로 입력된 상기 오디오 신호를 가변 길이 복호화하는 단계와;
    상기 가변 길이 복호화된 오디오 신호에 대하여 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 단계와;
    상기 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 역양자화 간격을 결정하는 단계와;
    상기 결정된 역양자화 간격을 이용하여 상기 오디오 신호를 역양자화하는 단계를 포함하고,
    상기 역양자화 간격을 결정하는 단계는,
    상기 제1 비율값보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 단계와;
    상기 제2 비율값 중 최소값에 대한 상기 역양자화 간격을 계산하는 단계를 포함하는 것을 특징으로 하는 복호화 방법.
  12. 제11항에 있어서,
    상기 제1 비율값을 계산하는 단계는,
    복호화되는 상기 오디오 신호의 이전 프레임의 톤 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 단계와;
    상기 계산된 마스킹 임계치에 대하여 가중치를 적용하는 단계를 더 포함하는 것을 특징으로 하는 복호화 방법.
  13. 삭제
  14. 제11항에 있어서,
    상기 제2 비율값은 상기 역양자화 간격이 증가함에 따라 감소하는 것을 특징으로 하는 복호화 방법.
  15. 제14항에 있어서,
    상기 역양자화 간격은 상기 제1 비율값을 지수로 포함하는 상용 로그로서 나타나는 것을 특징으로 하는 복호화 방법.
  16. 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 양자화 간격을 이용하여 오디오 신호를 부호화하는 장치에 있어서,
    상기 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 제1 비율값 계산부와;
    상기 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 양자화 간격을 결정하는 양자화 간격 결정부와;
    상기 결정된 양자화 간격을 이용하여 상기 오디오 신호를 양자화하는 양자화부와;
    상기 양자화된 오디오 신호를 가변 길이 부호화한 비트 스트림을 생성하는 가변 길이 부호화부를 포함하고,
    상기 양자화 간격 결정부는, 상기 제1 비율값보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 제2 비율값 계산부 및 상기 제2 비율값 중 최소값에 대한 상기 양자화 간격을 계산하는 양자화 간격 계산부를 포함하는 것을 특징으로 하는 부호화 장치.
  17. 제16항에 있어서,
    상기 제1 비율값 계산부는, 부호화되는 상기 오디오 신호의 이전 프레임의 톤 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 임계치 계산부 및 상기 계산된 마스킹 임계치에 대하여 가중치를 적용하는 가중치 처리부를 더 포함하는 것을 특징으로 하는 부호화 장치.
  18. 심리 음향 모델의 마스킹 효과에 따라 적응적으로 결정되는 역양자화 간격을 이용하여 오디오 신호를 복호화하는 장치에 있어서,
    비트 스트림으로 입력된 상기 오디오 신호를 가변 길이 복호화하는 가변 길이 복호화부와;
    상기 가변 길이 복호화된 오디오 신호에 대하여 마스킹 효과의 임계치에 대한 상기 오디오 신호의 강도를 나타내는 제1 비율값을 계산하는 제1 비율값 계산부와;
    상기 제1 비율값에 기초하여, 상기 오디오 신호를 양자화함에 있어서 발생하는 잡음이 마스킹되는 범위 내에서 최대값을 갖는 역양자화 간격을 결정하는 역양자화 간격 결정부와;
    상기 결정된 역양자화 간격을 이용하여 상기 오디오 신호를 역양자화하는 역양자화부를 포함하고,
    상기 역양자화 간격 결정부는, 상기 제1 비율값보다 크거나 같은, 상기 잡음에 대한 상기 오디오 신호의 강도를 나타내는 제2 비율값을 계산하는 제2 비율값 계산부 및 상기 제2 비율값 중 최소값에 대한 상기 역양자화 간격을 계산하는 역양자화 계산부를 포함하는 것을 특징으로 하는 복호화 장치.
  19. 제18항에 있어서,
    상기 제1 비율값 계산부는, 복호화되는 상기 오디오 신호의 이전 프레임의 톤 성분 및 잡음 성분에 대하여 각각의 마스킹 임계치를 계산하는 임계치 계산부 및 상기 계산된 마스킹 임계치에 대하여 가중치를 적용하는 가중치 처리부를 더 포함하는 것을 특징으로 하는 복호화 장치.
  20. 제1항, 제3항 내지 제7항, 제9항 내지 제12항, 제14항 및 제15항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체.
KR1020070098357A 2007-09-28 2007-09-28 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치 KR101435411B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020070098357A KR101435411B1 (ko) 2007-09-28 2007-09-28 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치
US12/237,413 US20090089049A1 (en) 2007-09-28 2008-09-25 Method and apparatus for adaptively determining quantization step according to masking effect in psychoacoustics model and encoding/decoding audio signal by using determined quantization step

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070098357A KR101435411B1 (ko) 2007-09-28 2007-09-28 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20090032820A KR20090032820A (ko) 2009-04-01
KR101435411B1 true KR101435411B1 (ko) 2014-08-28

Family

ID=40509368

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070098357A KR101435411B1 (ko) 2007-09-28 2007-09-28 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치

Country Status (2)

Country Link
US (1) US20090089049A1 (ko)
KR (1) KR101435411B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11037581B2 (en) 2016-06-24 2021-06-15 Samsung Electronics Co., Ltd. Signal processing method and device adaptive to noise environment and terminal device employing same

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8762158B2 (en) * 2010-08-06 2014-06-24 Samsung Electronics Co., Ltd. Decoding method and decoding apparatus therefor
JP6160072B2 (ja) * 2012-12-06 2017-07-12 富士通株式会社 オーディオ信号符号化装置および方法、オーディオ信号伝送システムおよび方法、オーディオ信号復号装置
US10332527B2 (en) 2013-09-05 2019-06-25 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio signal
US11416742B2 (en) * 2017-11-24 2022-08-16 Electronics And Telecommunications Research Institute Audio signal encoding method and apparatus and audio signal decoding method and apparatus using psychoacoustic-based weighted error function

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0140681B1 (ko) * 1994-12-28 1998-07-15 배순훈 디지탈 오디오 데이타 부호화장치
JP2000004163A (ja) 1998-06-16 2000-01-07 Matsushita Electric Ind Co Ltd オーディオ符号化のための動的ビット割り当て方法及び装置
US20040243397A1 (en) * 2003-03-07 2004-12-02 Stmicroelectronics Asia Pacific Pte Ltd Device and process for use in encoding audio data
US20060074693A1 (en) * 2003-06-30 2006-04-06 Hiroaki Yamashita Audio coding device with fast algorithm for determining quantization step sizes based on psycho-acoustic model
KR20070009339A (ko) * 2005-07-15 2007-01-18 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4124493C1 (ko) * 1991-07-24 1993-02-11 Institut Fuer Rundfunktechnik Gmbh, 8000 Muenchen, De
JP2976701B2 (ja) * 1992-06-24 1999-11-10 日本電気株式会社 量子化ビット数割当方法
US5632003A (en) * 1993-07-16 1997-05-20 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for coding method and apparatus
US5508949A (en) * 1993-12-29 1996-04-16 Hewlett-Packard Company Fast subband filtering in digital signal coding
KR950022321A (ko) * 1993-12-29 1995-07-28 김주용 음성신호의 고속 비트할당 방법
JP3328532B2 (ja) * 1997-01-22 2002-09-24 シャープ株式会社 デジタルデータの符号化方法
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
AU3372199A (en) * 1998-03-30 1999-10-18 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
US6266644B1 (en) * 1998-09-26 2001-07-24 Liquid Audio, Inc. Audio encoding apparatus and methods
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
KR100849375B1 (ko) * 2001-01-16 2008-07-31 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 또는 스피치 신호의 파라메트릭 코딩
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7146313B2 (en) * 2001-12-14 2006-12-05 Microsoft Corporation Techniques for measurement of perceptual audio quality
US7460993B2 (en) * 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
US7027982B2 (en) * 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
KR100477699B1 (ko) * 2003-01-15 2005-03-18 삼성전자주식회사 양자화 잡음 분포 조절 방법 및 장치
US7640157B2 (en) * 2003-09-26 2009-12-29 Ittiam Systems (P) Ltd. Systems and methods for low bit rate audio coders
US7725313B2 (en) * 2004-09-13 2010-05-25 Ittiam Systems (P) Ltd. Method, system and apparatus for allocating bits in perceptual audio coders
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
US7895034B2 (en) * 2004-09-17 2011-02-22 Digital Rise Technology Co., Ltd. Audio encoding system
US7668715B1 (en) * 2004-11-30 2010-02-23 Cirrus Logic, Inc. Methods for selecting an initial quantization step size in audio encoders and systems using the same
US7634413B1 (en) * 2005-02-25 2009-12-15 Apple Inc. Bitrate constrained variable bitrate audio encoding
WO2007098258A1 (en) * 2006-02-24 2007-08-30 Neural Audio Corporation Audio codec conditioning system and method
DE102006022346B4 (de) * 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
US8374857B2 (en) * 2006-08-08 2013-02-12 Stmicroelectronics Asia Pacific Pte, Ltd. Estimating rate controlling parameters in perceptual audio encoders
TW200912892A (en) * 2007-09-04 2009-03-16 Univ Nat Central Method and apparatus of low-complexity psychoacoustic model applicable for advanced audio coding encoders
GB2454208A (en) * 2007-10-31 2009-05-06 Cambridge Silicon Radio Ltd Compression using a perceptual model and a signal-to-mask ratio (SMR) parameter tuned based on target bitrate and previously encoded data
US8457958B2 (en) * 2007-11-09 2013-06-04 Microsoft Corporation Audio transcoder using encoder-generated side information to transcode to target bit-rate
US8380524B2 (en) * 2009-11-26 2013-02-19 Research In Motion Limited Rate-distortion optimization for advanced audio coding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0140681B1 (ko) * 1994-12-28 1998-07-15 배순훈 디지탈 오디오 데이타 부호화장치
JP2000004163A (ja) 1998-06-16 2000-01-07 Matsushita Electric Ind Co Ltd オーディオ符号化のための動的ビット割り当て方法及び装置
US20040243397A1 (en) * 2003-03-07 2004-12-02 Stmicroelectronics Asia Pacific Pte Ltd Device and process for use in encoding audio data
US20060074693A1 (en) * 2003-06-30 2006-04-06 Hiroaki Yamashita Audio coding device with fast algorithm for determining quantization step sizes based on psycho-acoustic model
KR20070009339A (ko) * 2005-07-15 2007-01-18 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11037581B2 (en) 2016-06-24 2021-06-15 Samsung Electronics Co., Ltd. Signal processing method and device adaptive to noise environment and terminal device employing same

Also Published As

Publication number Publication date
US20090089049A1 (en) 2009-04-02
KR20090032820A (ko) 2009-04-01

Similar Documents

Publication Publication Date Title
JP3762579B2 (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
US7373293B2 (en) Quantization noise shaping method and apparatus
KR100991450B1 (ko) 스펙트럼 홀 충전을 사용하는 오디오 코딩 시스템
JP3739959B2 (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP3784993B2 (ja) 音響信号の符号化・量子化方法
US8032371B2 (en) Determining scale factor values in encoding audio data with AAC
KR20090110244A (ko) 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
JP4021124B2 (ja) デジタル音響信号符号化装置、方法及び記録媒体
KR101435411B1 (ko) 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치
KR100695125B1 (ko) 디지털 신호 부호화/복호화 방법 및 장치
US8589155B2 (en) Adaptive tuning of the perceptual model
CN114762042A (zh) 用于音频处理的心理声学模型
JP5395250B2 (ja) 音声コーデックの品質向上装置およびその方法
KR20130109793A (ko) 잡음 감쇄를 위한 오디오 신호 부호화 방법 및 장치
CN1666571A (zh) 音频处理
KR20160003264A (ko) 신호 인코딩 및 디코딩 방법 및 장치
US20160240201A1 (en) Method and a Decoder for Attenuation of Signal Regions Reconstructed with Low Accuracy
KR100827458B1 (ko) 오디오 부호화 방법
JP3886851B2 (ja) オーディオ信号符号化装置
KR100640833B1 (ko) 디지털 오디오의 부호화 방법
JP2000137497A (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP2000206990A (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP2575265B2 (ja) ディジタルオーディオ信号の符号化方法
JP2729013B2 (ja) オーディオ信号のためのしきい値制御量子化決定法
JP2005003835A (ja) オーディオ信号符号化装置、オーディオ信号符号化方法、及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee