Nothing Special   »   [go: up one dir, main page]

KR20100086001A - 오디오 신호 처리 방법 및 장치 - Google Patents

오디오 신호 처리 방법 및 장치 Download PDF

Info

Publication number
KR20100086001A
KR20100086001A KR1020107011464A KR20107011464A KR20100086001A KR 20100086001 A KR20100086001 A KR 20100086001A KR 1020107011464 A KR1020107011464 A KR 1020107011464A KR 20107011464 A KR20107011464 A KR 20107011464A KR 20100086001 A KR20100086001 A KR 20100086001A
Authority
KR
South Korea
Prior art keywords
signal
compensation
scale factor
loss signal
data
Prior art date
Application number
KR1020107011464A
Other languages
English (en)
Other versions
KR101162275B1 (ko
Inventor
임재현
김동수
이현국
윤성용
방희석
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Publication of KR20100086001A publication Critical patent/KR20100086001A/ko
Application granted granted Critical
Publication of KR101162275B1 publication Critical patent/KR101162275B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

스펙트럴 데이터 및 손실신호 보상 파라미터를 획득하는 단계; │[사용자3] 상기 스펙트럴 데이터를 근거로 손실 신호를 검출하는 단계; 상기 손실신호 보상 파라미터를 근거로, 랜덤 신호를 이용하여 상기 손실 신호에 대응하는 제 1 보상 데이터를 생성하는 단계; 및, 상기 제 1 보상 데이터에 대응하는 스케일 팩터를 생성하고, 상기 제 1 보상 데이터에 상기 스케일 팩터를 적용하여 제 2 보상 데이터를 생성하는 단계를 포함하는 오디오 신호 처리 방법이 개시된다.

Description

오디오 신호 처리 방법 및 장치{A METHOD AND AN APPARATUS FOR PROCESSING AN AUDIO SIGNAL}
본 발명은 오디오 신호의 손실 신호를 처리할 수 있는 신호 처리 방법 및 장치에 관한 것이다.
일반적으로, 마스킹(masking) 효과란, 심리 음향 이론에 의한 것으로, 크기가 큰 신호에 인접한 작은 신호들은 큰 신호에 의해서 가려지기 때문에 인간의 청각구조가 이를 잘 인지하지 못한다는 특성을 이용하는 것이다. 이러한 마스킹 효과를 이용함으로써 오디오 신호를 인코딩할 때 일부 데이터를 손실시킬 수 있다.
Technical Problem
종래에는 마스킹 및 양자화에 따른 손실 신호를 디코더에서 보상하기에는 부족한 문제점이 있다.
Technical Solution
본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 마스킹 과정 및 양자화 과정으로 손실된 신호를 매우 적은 비트의 정보를 이용하여 보상할 수 있는 신호 처리 방법 및 장치를 제공하는 데 있다.
본 발명의 또 다른 목적은, 주파수 도메인 상의 마스킹, 및 시간 도메인상의 마스킹 등 다양한 방식을 적절하게 조합하여 마스킹을 수행할 수 있는 신호 처리 방법 및 장치를 제공하는 데 있다.
본 발명의 또 다른 목적은, 음성 신호, 오디오 신호 등과 같이 서로 다른 특성을 가지는 신호들을 그 특성에 따라 적절한 방식으로 처리하면서도 비트율을 최소화시킬 수 있는 신호 처리 방법 및 장치를 제공하는 데 있다.
Advantageous Effects
본 발명은 다음과 같은 효과와 이점을 제공한다.
첫째, 마스킹 및 양자화 과정에서 손실된 신호를 디코딩 과정에서 보상할 수 있기 때문에, 음질이 향상되는 효과가 있다.
둘째, 손실 신호를 보상하기 위해서 매우 적은 비트의 정보만이 필요하기 때문에, 비트수를 현저히 절감시킬 수 있다.
셋째, 주파수 도메인상의 마스킹 및 시간 도메인상의 마스킹 등 다양한 방식으로 마스킹을 수행함으로써 마스킹에 따른 비트절감을 최대화시키면서도, 사용자의 선택에 따라 마스킹에 따른 손실 신호를 보상함으로써, 음질 손실은 최소화할 수 있는 효과가 있다.
넷째, 음성 신호의 특성을 갖는 신호는 음성 코딩 방식으로 디코딩하고, 오디오 신호의 특성을 갖는 신호는 오디오 코딩 방식으로 디코딩하기 때문에, 각 신호 특성에 부합하는 디코딩 방식이 적응적으로 선택되는 효과가 있다.
도 1 은 본 발명의 실시예에 따른 손실신호 분석 장치의 구성도.
도 2 는 본 2 본 발명의 실시예에 따른 손실신호 분석 방법의 순서도.
도 3 은 스케일팩터 및 스펙트럴 데이터를 설명하기 위한 도면.
도 4 는 스케일팩터의 적용 범위에 대한 예들을 설명하기 위한 도면.
도 5 는 도 1 의 마스킹/양자화유닛의 세부 구성도.
도 6 는 본 발명의 실시예에 따른 마스킹 과정을 설명하기 위한 도면.
도 7 은 본 발명의 실시예에 따른 손실신호 분석 장치가 적용된 오디오 신호 인코딩 장치의 제1 예.
도 8 은 본 발명의 실시예에 따른 손실신호 분석 장치가 적용된 오디오 신호 인코딩 장치의 제2 예.
도 9 는 본 발명의 실시예에 따른 손실신호 보상 장치의 구성도.
도 10 은 본 발명의 실시예에 따른 손실신호 보상 방법의 순서도.
도 11 은 본 발명의 실시예에 따른 제 1 보상 데이터 생성 과정을 설명하기 위한 도면.
도 12 는 본 발명의 실시예에 따른 손실신호 보상 장치가 적용된 오디오 신호 디코딩 장치의 제1 예.
도 13 은 본 발명의 실시예에 따른 손실신호 보상 장치가 적용된 오디오 신호 디코딩 장치의 제2 예.
Best Mode for Carrying out the Invention
상기와 같은 목적을 달성하기 위하여 본 발명에 따른 오디오 신호 처리 방법 은, 스펙트럴 데이터 및 손실신호 보상 파라미터를 획득하는 단계;[사용자1] 상기 스펙트럴 데이터를 근거로 손실 신호를 검출하는 단계; 상기 손실신호 보상 파라미터를 근거로, 랜덤 신호를 이용하여 상기 손실 신호에 대응하는 제 1 보상 데이터를 생성하는 단계; 및, 상기 제 1 보상 데이터에 대응하는 스케일 팩터를 생성하고, 상기 제 1 보상 데이터에 상기 스케일 팩터를 적용하여 제 2 보상 데이터를 생성하는 단계를 포함한다.
본 발명에 따르면, 상기 손실 신호는 상기 스펙트럴 데이터가 기준값 이하인 신호에 해당할 수 있다.
본 발명에 따르면, 상기 손실신호 보상 파라미터는 보상 레벨 정보를 포함하고, 상기 제1 보상 데이터의 레벨은 상기 보상 레벨 정보를 근거로 결정될 수 있다.
본 발명에 따르면, 상기 스케일 팩터는 스케일팩터 기준값 및 스케일팩터 차분값을 이용하여 생성된 것이고, 상기 스케일팩터 기준값은 상기 손실신호 보상 파라미터에 포함될 수 있다.
본 발명에 따르면, 상기 제2 보상 데이터는 스펙트럴 계수에 해당할 수 있다.
본 발명의 또 다른 측면에 따르면, 스펙트럴 데이터 및 손실신호 보상 파라미터를 획득하는 디멀티플렉서; 상기 스펙트럴 데이터를 근거로 손실 신호를 검출하는 손실신호 검출 유닛; 상기 손실신호 보상 파라미터를 근거로, 랜덤 신호를 이용하여 상기 손실 신호에 대응하는 제 1 보상 데이터를 생성하는 보상데이터 생성 유닛; 및, 상기 제 1 보상 데이터에 대응하는 스케일 팩터를 생성하고, 상기 제 1 보상 데이터에 상기 스케일 팩터를 적용하여 제 2 보상 데이터를 생성하는 리-스케일링 유닛을 포함하는 오디오 신호 처리 장치가 제공된다.
본 발명의 또 다른 측면에 따르면, 마스킹 임계치를 근거로 마스킹 효과를 적용하여 입력 신호의 스펙트럴 계수를 양자화함으로써, 스케일 팩터 및 스펙트럴 데이터를 생성하는 단계; 상기 입력 신호의 스펙트럴 계수, 상기 스케일 팩터, 및 상기 스펙트럴 데이터를 이용하여, 손실신호를 결정하는 단계; 및, 상기 손실신호를 보상하기 위한 손실신호 보상 파라미터를 생성하는 단계를 포함하는 오디오 신호 처리 방법이 제공된다.
본 발명에 따르면, 상기 손실신호 보상 파라미터는 보상 레벨 정보 및 스케일팩터 기준값을 포함하고, 상기 보상 레벨 정보는 상기 손실 신호의 레벨과 관련된 정보에 대응하고, 상기 스케일팩터 기준값은 상기 손실 신호의 스케일링과 관련된 정보에 대응할 수 있다.
본 발명의 또 다른 측면에 따르면, 마스킹 임계치를 근거로 마스킹 효과를 적용하여 입력 신호의 스펙트럴 계수를 양자화함으로써, 스케일팩터 및 스펙트럴 데이터를 획득하는 양자화 유닛; 및, 상기 입력 신호의 스펙트럴 계수, 상기 스케일팩터, 및 상기 스펙트럴 데이터를 이용하여, 손실신호를 결정하고, 상기 손실신호를 보상하기 위한 손실신호 보상 파라미터를 생성하는 손실신호 예측 유닛을 포함하는 오디오 신호 처리 장치가 제공된다.
본 발명에 따르면, 상기 보상 파라미터는 보상 레벨 정보 및 스케일팩터 기 준값을 포함하고, 상기 보상 레벨 정보는 상기 손실 신호의 레벨과 관련된 정보이고, 상기 스케일팩터 기준값은 상기 손실 신호의 스케일링과 관련된 정보에 대응할 수 있다.
본 발명의 또 다른 측면에 따르면, 디지털 오디오 데이터를 저장하며, 컴퓨터로 읽을 수 있는 저장 매체에 있어서, 상기 디지털 오디오 데이터는 스펙트럴 데이터, 스케일팩터, 및 손실신호 보상 파라미터를 포함하며, 상기 손실신호 보상 파라미터는 양자화로 인한 손실 신호를 보상하기 위한 정보로서, 보상 레벨 정보를 포함하고, 상기 보상 레벨 정보는 상기 손실 신호의 레벨과 관련된 정보에 대응하는 저장 매체가 제공된다.
이하 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
본 발명에서 다음 용어는 다음과 같은 기준으로 해석될 수 있고, 기재되지 않은 용어라도 하기 취지에 따라 해석될 수 있다. 코딩은 경우에 따라 인코딩 또는 디코딩으로 해석될 수 있고, 정보(information)는 값(values), 파라미터(parameter), 계수(coefficients), 성분(elements) 등을 모두 아우르는 용어로서, 경우에 따라 의미는 달리 해석될 수 있는 바, 그러나 본 발명은 이에 한정되지 아니한다.
여기서 오디오 신호(audio signal)란, 광의로는, 비디오 신호와 구분되는 개념으로서, 재생시 청각으로 식별할 수 있는 신호를 지칭하고, 협의로는, 음성(speech) 신호와 구분되는 개념으로서, 음성 특성이 없거나 적은 신호를 의미한다.
본 발명에 따른 오디오 신호 처리 방법 및 장치는, 손실신호 분석 장치 및 방법, 또는 손실신호 보상 장치 및 방법이 될 수도 있고, 나아가 이 장치 및 방법이 적용된 오디오 신호 인코딩 방법 및 장치, 또는 오디오 신호 디코딩 방법 및 장치가 될 수 있는 바, 이하, 손실신호 분석/보상 장치 및 방법에 대해서 설명하고, 오디오 신호 인코딩/디코딩 장치가 수행하는 오디오 신호 인코딩/디코딩 방법에 대해서 설명하고자 한다.
도 1 은 본 발명의 실시예에 따른 오디오 신호 인코딩 장치의 구성을 보여주는 도면이고, 도 2 는 본 발명의 실시예에 따른 오디오 신호 인코딩 방법의 순서를 보여주는 도면이다.
도 1 및 도 2 중 우선 도 1 를 참조하면, 손실신호 분석 장치(100)는 손실신호 예측유닛(120)을 포함하고 마스킹/양자화 유닛(110)를 더 포함할 수 있다. 여기서 손실신호 예측유닛(120)은 손실신호 결정유닛(122), 및 스케일팩터 코딩유닛 (124)을 포함할수 있다. 이하, 도 1 및 도 2 를 함께 참조하면서, 설명하면 다음과 같다.
우선, 마스킹/양자화 유닛(110)은 심리음향 모델을 이용하여 스펙트럴 데이터로 수신된 마스킹 임계치(masking threshold)를 생성한다. 그리고 마스킹/양자화 유닛(110)은 이 마스킹 임계치를 이용하여 다운믹스(DMX)에 해당하는 스펙트럴 계수를 양자화함으로써 스케일팩터 및 스펙트럴 데이터를 획득한다(S110 단계). 여기서 스펙트럴 계수는 MDCT (Modified Discrete Transform) 변환을 통해 획득된 MDCT 계수일 수 있으나, 본 발명은 이에 한정되지 아니한다. 여기서 마스킹 임계치는 마스킹 효과를 적용시키기 위한 것이다.
마스킹(masking) 효과란, 심리 음향 이론에 의한 것으로, 크기가 큰 신호에 인접한 작은 신호들은 큰 신호에 의해서 가려지기 때문에 인간의 청각 구조가 이를 잘 인지하지 못한다는 특성을 이용하는 것이다. 예를 들어, 주파수 대역에 해당하는 데이터들 중에서 가장 큰 신호가 중간에 존재하고, 이 신호보다 훨씬 작은 크기의 신호가 주변에 몇 개 존재할 수 있다. 여기서 가장 큰 신호가 마스커(masker)가 되고, 이 마스커를 기준으로 마스킹 커브(masking curve)가 그려진다. 이 마스킹 커브에 의해서 가려지는 작은 신호는 마스킹된 신호(masked signal) 또는 마스키(maskee)가 된다. 이 마스킹된 신호를 제외하고 나머지 신호만을 유효한 신호로 남겨두는 것을 마스킹(masking)이라 한다. 이때 마스킹 효과로 제거된 손실 신호들은, 원칙적으로 0 으로 셋팅되며, 경우에 따라서 디코더에서 복원될 수 있는데, 이에 대한 설명은 본 발명에 따른 손실신호 보상방법 및 장치에 대한 설명과 함께, 추후 설명하고자 한다.
한편, 본 발명에 따르는 마스킹 방식에는 다양한 실시예가 존재하는바, 이에 대한 구체적인 설명은, 도 5 및 도 6 과 함께 추후에 구체적으로 설명하고자 한다.
앞서 언급한 바와 같이 마스킹 효과를 적용하기 위해서는, 마스킹 임계치가 이용되는데, 마스킹 임계치가 이용되는 과정은 다음과 같다. 각 스펙트럴 계수는 스케일팩터 밴드 단위로 나뉠 수 있는데, 이 스케일팩터 밴드별로 에너지(En)를 구할 수 있다. 이때 얻어진 에너지값들을 대상으로 심리 음향 모델(Psycho Acoustic Model) 이론에 의한 마스킹 스킴을 적용할 수 있다. 그리고 스케일 팩터 단위의 에너지값인 각각의 마스커(masker)로부터 마스킹 커브를 얻는다. 그리고 이를 연결하면 전체적인 마스킹 커브를 얻을 수 있다. 이 마스킹 커브를 참조하여 각 스케일 팩터 밴드별로 양자화의 기본이 되는 마스킹 임계치(Eth)를 획득할 수 있다.
마스킹/양자화 유닛(110)은 상기 마스킹 임계치를 이응하여, 마스킹 및 양자화를 수행함으로써, 스펙트럴 계수로부터 스케일팩터 및 스펙트럴 데이터를 획득하는 데, 우선 스펙트럴 계수는 아래 수학식 1 과 같이 정수인 스케일 팩터, 정수인 스펙트럴 데이터를 통해 유사하게 표현될 수 있다. 이와 같이 정수인 두 팩터로 표현되는 것이 양자화 과정이다.
[수학식 1]
Figure 112010033586415-PCT00001
여기서, X 는 스펙트럴 계수, scalefactor 는 스케일 팩터, spectral data 는 스펙트럴 데이터.
수학식 1 을 살펴보면, 등호가 아님을 알 수 있다. 이는 스케일팩터와 스펙트럴 데이터가 정수만을 가지기 때문에, 그 값의 해상도에 의해 임의의 X 를 모두 표현할 수 없기 때문에, 등호가 성립되지 않는다. 따라서, 수학식 1 의 우변은 아래 수학식 2 와 같이 X'으로 표현될 수 있다.
[수학식 2]
Figure 112010033586415-PCT00002
도 3 은 본 발명의 실시예에 따른 양자화 과정을 설명하기 위한 도면이고, 도 4 는 스케일팩터의 적용 범위에 대한 예들을 설명하기 위한 도면이다. 우선, 도 3 을 참조하면, 스펙트럴 계수(a,b,c 등)을 스케일팩터(가, 나, 다 등) 및 스펙트럴 데이터(a', b', c' 등)으로 나타내는 과정이 개념적으로 나타나있다. 스케일팩터(가, 나, 다 등)은 그룹(특정 밴드 또는 특정 구간)에 적용되는 팩터이다. 이와 같이 어떤 그룹(예: 스케일팩터 밴드)을 대표하는 스케일팩터를 이용하여, 그 그룹에 속하는 계수들의 크기를 일괄적으로 변환함으로써, 코딩 효율을 높일 수 있다.
한편, 이와 같이 스펙트럴 계수를 양자화하는 데 과정에서 에러가 발생할 수 있는데, 이 에러 신호는 다음 수학식 3 과 같이 원래의 계수 X 및 양자화에 따른 값 X' 의 차이로 볼 수 있다.
[수학식 3]
Figure 112010033586415-PCT00003
여기서, X 는 수학식 1,X' 는 수학식 2 에서 표현된 바와 같음.
상기 에러 신호(Error)에 대응하는 에너지가 양자화 에러(Eerror)이다.
이와 같이 획득된 마스킹 임계치(Eth) 및, 양자화 에러(Eerror)를 이용하여 아래 수학식 4 에 표시된 조건을 만족하도록, 스케일팩터 및 스펙트럴 데이터를 구한다.
[수학식 4]
Figure 112010033586415-PCT00004
여기서, Eth 는 마스킹 임계치, 및 Eerror 는 양자화 에러.
즉, 상기 조건을 만족하면, 양자화 에러가 마스킹 임계치보다 작아지기 때문에, 양자화에 따른 노이즈의 에너지는 마스킹 효과로 인해 가려진다는 것을 의미한다. 다시 말해서, 양자화에 의한 노이즈는 청취자가 듣지 못할 수 있다.
이와 같이 상기 조건을 만족하도록 스케일팩터 및 스펙트럴 데이터를 생성하여 전송하면, 디코더는 이를 이용하여 원래의 오디오 신호와 거의 동일한 신호를 생성할 수 있다. 그러나 비트레이트가 부족하여 양자화 해상도가 충분하지 못함에 따라 상기 조건을 만족하지 못하는 경우, 음질 열화가 발생할 수 있다. 특히, 모든 스케일팩터 밴드내에 존재하는 스펙트럴 데이터가 모두 0 이 되는 경우, 음질 열화가 두드러지게 느껴질 수 있다. 또한, 심리음향 모델에 따른 상기 조건을 만족하더 라도, 특정인에게는 음질 열화가 느껴질 수도 있는 것이다. 이와 같이 스펙트럴 데이터가 0 이 되지 않아야 할 구간에서 0 으로 변환되는 신호등은 원래 신호로부터 손실되는 신호가 된다.
도 4 를 참조하면, 스케일팩터가 적용되는 대상에 대한 다양한 예가 도시되어 있다. 우선 도 4 의 (A)를 참조하면, 특정 프레임(frameN)에 속하는 k 개의 스펙트럴 데이터가 존재할 때, 스케일팩터(scf)는 하나의 스펙트럴 데이터에 대응하는 팩터일 수 있음을 알 수 있다. 도 4 의 (B)를 참조하면, 하나의 프레임 내에 스케일팩터 밴드(sfb)가 존재하고, 스케일팩터의 적용대상은 특정 스케일팩터 밴드 내에 존재하는 스펙트럴 데이터들임을 알 수 있다. 한편 도 4 의 (C)를 참조하면, 스케일팩터의 적용대상은 특정 프레임내에 존재하는 스펙트럴 데이터 전체임을 알 수 있다. 다시 말해서, 스케일팩터의 적용대상은 다양할 수 있는데, 하나의 스펙트럴 데이터, 하나의 스케일팩터 밴드에 존재하는 여러 개의 스펙트럴 데이터, 하나의 프레임 내에 존재하는 여러 개의 스펙트럴 데이터 중 하나 일 수 있다.
이와 같이, 마스킹/양자화 유닛은 위와 같은 방식으로 마스킹 효과를 적용하여 스케일팩터 및 스펙트럴 데이터를 획득한다.
다시 도 1 및 도 2 를 참조하면, 손실신호 예측 유닛(120)의 손실신호 결정 유닛(122)은, 원래의 다운믹스(스펙트럴 계수)와 양자화된 오디오 신호(스케일팩터 및 스펙트럴 데이터)를 분석함으로써, 손실신호를 결정한다(S120 단계). 구체적으로, 스케일팩터 및 스펙트럴 데이터를 이용하여 스펙트럴 계수를 복원하고, 이 계 수와 원래의 스펙트럴 계수와의 차이를 구하여 상기 수학식 3 과 같은 에러 신호(Error)를 획득한다. 상기 수학식 4 와 같은 조건하에 스케일팩터와 스펙트럴 데이터를 결정한다. 즉 보정된 스케일팩터 및 보정된 스펙트럴 데이터를 출력하는 것이다. 경우(예: 비트레이트가 낮은 경우)에 따라서는 수학식 4 와 같은 조건에 따르지 못할 수도 있다. 이와 같이 스케일팩터와 스펙트럴 데이터를 확정한 후, 이에 따른 손실 신호를 결정한다. 손실신호란, 조건에 따라서 기준값 이하가 되는 신호일 수도 있고, 조건에 벗어나지만, 임의로 기준값으로 셋팅되는 신호가 될 수도 있다. 여기서 기준값은 0 일 수 있지만, 본 발명은 이에 한정되지 아니한다.
손실신호 결정 유닛(122)은 위와 같이 손실신호를 결정한 후, 이 손실 신호에 대응하는 보상 레벨 정보를 생성한다. 이때 보상 레벨 정보는, 손실 신호의 레벨에 대응하는 정보이다. 디코더가 보상 레벨 정보를 이용하여 손실신호를 보상할 경우, 보상 레벨 정보에 대응하는 값보다 그 절대값이 작은 손실신호로 보상할 수 있다.
스케일팩터 코딩 유닛(124)는 스케일팩터를 수신하여, 특정 영역에 대응하는 스케일팩터에 대해서 스케일팩터 기준값 및 스케일팩터 차분값을 생성한(S140 단계). 여기서 특정 영역이란, 손실 신호가 존재하는 영역 중 일부에 대응하는 영역일 수 있다. 예를 들어, 특정 밴드에 속하는 정보가 모두 손실신호에 대응하는 영역에 해당할 수 있지만, 본 발명은 이에 한정되지 아니한다. 한편, 상기 스케일팩터 기준값은 프레임마다 결정되는 값이 될 수 있다. 그리고, 상기 스케일팩터 차분값은 스케일팩터에서 스케일팩터 기준값을 뺀 값으로서,
스케일팩터가 적용되는 대상(예: 프레임, 스케일팩터 밴드, 각 샘플 등)마다 결정되는 값일 수 있으나, 본 발명은 이에 한정되지 아니한다.
앞서 S130 단계에서 생성된 보상 레벨 정보 및, S140 단계에서 생성된 스케일팩터 기준값이 손실신호 보상 파라미터로서 디코더에 전송되고, 스켈일팩터 차분값과, 스펙트럴 데이터는 원래의 스킴대로 디코더에 전송된다.
여기까지, 손실신호를 예측하는 과정에 대해서 설명한 바, 이하에서는 앞서 언급한 바와 같이 도 5 및 도 6 을 참조하면서 본 발명의 실시예에 따른 마스킹 방식에 대해서 구체적으로 설명하고자 한다.
마스킹 방식에 있어서 다양한 실시예
도 5 를 참조하면, 마스킹/양자화 유닛(120)은 주파수 마스킹부(112), 시간 마스킹부(114), 마스커 결정부(116), 및 양자화부(118)를 포함함을 알 수 있다. 주파수 마스킹부(112)는 주파수 도메인 상에서의 마스킹을 처리하여 마스킹 임계치를 산출하고, 시간 마스킹부(114)는 시간 도메인 상에서의 마스킹을 처리하여 마스킹 임계치를 산출한다. 마스커 결정부(116)는 주파수 도메인상 또는 시간 도메인상에서의 마스커를 결정하는 역할을 담당한다. 또한, 양자화부(118)는 주파수 마스킹부(112) 또는 시간 마스킹부(114)에 의해 산출된 마스킹 임계치를 이용하여 스펙트럴 계수를 양자화한다.
한편, 도 6 의 (A)를 참조하면, 시간 도메인의 오디오 신호가 존재함을 알 수 있다. 오디오 신호는 특정 수의 샘플들을 그룹경한 프레임 단위로 처리되는데, 각 프레임의 데이터를 주파수 변환을 수행한 결과를 나타낸 것이 도 6 의 (B)이다. 도 6 의 (B)를 참조하면, 하나의 프레임에 대응하는 데이터가 하나의 바(bar) 형태로 표시되어 있고, 세로 축인 주파수 축이다. 하나의 프레임내에서, 각 밴드에 대응하는 데이터는, 밴드 단위로 주파수 도메인상의 마스킹 처리가 완료된 결과일 수 있다. 즉, 주파수 도메인상의 마스킹 처리는 도 5 의 주파수 마스킹부(112)에 의해 수행될 수 있다.
한편, 여기서 밴드란, 크리티컬 밴드(critical band)에 해당할 수 있는데, 크리티컬 밴드란, 전체 주파수 영역을 인간 청각구조에 있어서 독립적으로 자극을 받아들이는 구간들의 단위를 의미하는 것이다. 임의의 크리티컬 밴드 내에 특정 마스커가 존재하여 그 밴드 내에서 마스킹 처리가 수행될 수 있는데, 이 마스킹 처리는 인접한 크리티컬 밴드내에 다른 신호에는 영향을 주지 않는다.
한편, 각 밴드마다 존재하는 데이터 중에서, 특정 밴드에 해당하는 데이터의 크기를 보기 쉽게 세로축으로 표시한 것이 도 6 의 (C)이다. 도 6 의 (C)를 참조하면, 가로축은 시간축이며, 프레임별(Fn-1, Fn, Fn+1)로 데이터의 크기가 세로축 방향으로 표시되어 있음을 알 수 있다. 이 프레임별 데이터가 각각 독립적으로 마스커(masker)로서의 기능을 하고, 이 마스커를 기준으로 마스킹 커브가 그려질 수 있다. 이 마스킹 커브를 기준으로 시간 방향으로 마스킹 처리를 할 수 있다. 여기서시간 도메인상의 마스킹은 도 5 의 시간 마스킹부(114)에 의해 수행될 수 있다. 도 5 의 각 구성요소가 각각의 기능을 수행하는 데 있어서의 다양한 방식에 대해서 설명하고자 한다.
1. 마스킹 처리 방향
도 6 의 (C)에서는 마스커를 기준으로 오른쪽 방향으로만 도시되어 있지만, 시간 마스킹부(114)는 시간적으로 순방향의 마스킹 처리뿐만 아니라 역방향으로의 마스킹 처리도 수행할 수 있다. 이는, 시간축 상에서 인접한 미래에 큰 신호가 존재한다면, 그보다 시간적으로 약간 앞선 현재 신호 중에서도 크기가 작은 신호는 인간의 청각기관에 영향을 미치지 않을 수 있다. 구체적으로, 그 작은 신호를 미처 인지하기 이전에, 인접한 미래의 큰 신호에 의해 그 신호가 묻힐 수 있는 것이다. 물론, 역방향으로 마스킹 효과가 일어나는 시간 범위는, 순방향의 그 범위보다 짧을 수 있다.
2. 마스커 산출 기준
마스커 결정부(116)는 마스커를 결정하는 데 있어서, 가장 큰 신호를 마스커로 결정할 수 있지만, 또한 해당 크리티컬 밴드에 속하는 신호들을 기반으로 마스커의 크기를 결정할 수 있다. 예를 들어, 크리티컬 밴드의 신호 전체에 대해 평균값을 구한다거나, 절대값의 평균을 구한다거나, 에너지의 평균을 구하여 마스커의 크기를 결정할 수도 있고, 이외의 다른 대표값을 마스커로 사용할 수도 있다.
3. 마스킹 처리 단위
주파수 마스킹부(112)가 주파수 변환된 결과를 마스킹 처리하는 데 있어서, 마스킹 처리 단위를 달리할 수 있다. 구체적으로, 주파수 변환의 결과로 동일 프레임 내에서도 시간상으로 연속한 복수의 신호가 생성될 수 있다. 예를 들어, 웨이블릿 변환(wavelet packet transform: WPT), Frequency varying Modulated Lapped Transform[m FV-MLT)과 같은 주파수 변환의 경우, 한 프레임 내에서도 동일 주파수 영역에서 시간상으로 연속되는 복수의 신호가 생성될 수 있다. 이런 주파수 변환의 경우, 도 6 에 도시된 프레임 단위로 존재했던 신호들이 보다 작은 단위로 존재하게 되고, 마스킹 처리는 이 작은 단위의 신호들 사이에서 이루어진다.
4. 마스킹 처리의 수행 조건(마스커의 임계치, 마스킹 커브 형태)
마스커 결정부(116)가 마스커를 결정하는 데 있어서 마스커의 임계치를 설정하거나 마스킹 커브 형태를 결정할 수 있다.
주파수 변환을 수행하게 되면, 일반적으로 고주파로 갈수록 신호들의 값이 점점 작아진다. 이러한 작은 신호들에 대해서는, 마스킹 처리를 수행하지 않더라도, 양자화 과정에서 0 이 될 수 있다. 또한 신호들 크기가 작은 만큼 마스커의 크기도 작기 때문에, 마스커에 의해 제거되는 효과가 없어서 마스킹 효과가 의미가 없어질 수 있다.
이와 같이 마스킹 처리가 무의미해지는 경우가 있기 때문에, 마스커의 임계치를 설정하여, 마스커가 적정한 크기 이상인 경우에만 마스킹 처리를 수행할 수 있다. 이 임계치는 모든 주파수 범위에 대해서 동일할 수 있다. 또한, 고주파로 갈수록 신호의 크기가 점점 작아지는 특성을 이용하여, 이 임계치는 고주파로 갈수록 점점 임계치의 크기도 작아지도록 설정할 수 있다.
또한, 마스킹 커브의 모양을 주파수에 따라서 완만하거나 또한 급한 경사를 갖도록 설명할 수 있다.
또한, 신호의 크기가 들쭉날쭉한 신후 즉, 트랜지언트(transient)한 신호가 있는 부분에서 마스킹 효과가 더욱 크게 나타나기 때문에, 트랜지언트한지 아니면 스테이셔너리(stationary)한지에 대한 특성을 근거로, 마스커의 임계치를 정할 수 있다. 또한 이러한 특성을 근거로 마스커의 커브의 형태도 결정할 수 있다.
5. 마스킹 처리 순서
앞서 설명한 바와 같이 마스킹 처리는 즉, 주파수 마스킹부(112)에 의한 주파수 도메인상의 처리 및, 시간 마스킹부(114)에 의한 시간 도메인상의 처리가 있을 수 있다. 이를 모두 동시에 사용하는 경우, 다음과 같은 순서로 처리할 수 있다. i) 주파수 도메인상의 마스킹을 우선 처리하고, 다음으로 시간 도메인상의 마스킹을 적용하거나, ii) 주파수 변환을 통해 시간 순서대로 배열된 신호를 대상으로 마스킹을 먼저 적용하고, 그런 다음 주파수 축상으로 마스킹을 처리하거나, iii) 주파수 변환을 통해 얻어진 신호를 대상으로 주파수 축상의 마스킹 이론과 시간축상의 마스킹 이론을 동시에 적용하고, 두 방법에 의해 얻어진 커브를 통해 얻어진 값으로 마스킹을 적용하거나, iv) 위 세가지 방법을 조합되어 수행될 수 있다.
이하에서는, 도 7 을 참조하면서, 도 1 및 도 2 와 함께 설명된 본 발명의 실시예에 따른 손실신호 분석 장치가 적용된 오디오 신호 인코딩 장치 및 방법의 제 1 예에 관해서 설명하고자 한다. 도 7 를 참조하면, 오디오 신호 인코딩 장치(200)는 복수채널 인코더(210), 오디오 신호 인코더(220), 음성 신호 인코더(230), 손실신호 분석 장치(240), 및 멀티플렉서(250)를 포함한다.
복수채널 인코더(210)는 복수의 채널 신호(둘 이상의 채널 신호)(이하, 멀티 채널 신호)를 입력받아서, 다운믹스를 수행함으로써 모노 또는 스테레오의 다운믹스 신호를 생성하고, 다운믹스 신호를 멀티채널 신호로 업믹스하기 위해 필요한 공간 정보를 생성한다. 여기서 공간 정보는, 채널 레벨 차이 정보, 채널간 상관정보, 채널 예측 계수, 및 다운믹스 게인 정보 등을 포함할 수 있다.
여기서 복수채널 인코더(210)에서 생성된 다운믹스 신호는, 시간 도메인의 신호일 수도 있고, 주파수 변환이 수행된 주파수 도메인의 정보일 수 있다. 나아가, 밴드별 스펙트럴 계수(spectral coefficient)일 수도 있으나, 본 발명은 이에 한정되지 아니한다.
만약, 오디오 신호 인코딩 장치(200)가 모노 신호를 수신할 경우, 복수 채널 인코더(210)는 모노 신호에 대해서 다운믹스하지 않고 바이패스할 수도 있음은 물론이다.
한편, 오디오 신호 인코딩 장치(200)는 대역 확장 인코더(미도시)를 더 포함할 수 있다. 대역 확장 인코더(미도시)는 다운믹스 신호의 일부 대역(예: 고주파 대역)의 스펙트럴 데이터를 제외하고, 이 제외된 데이터를 복원하기 위한 대역확장정보를 생성할 수 있다. 디코더에서는, 나머지 대역의 다운믹스와 대역확장정보만으로 전대역의 다운믹스를 복원할 수 있다.
오디오 신호 인코더(220)는 다운믹스 신호의 특정 프레임 또는 특정 세그먼트가 큰 오디오 특성을 갖는 경우, 오디오 코딩 방식(audio coding scheme)에 따라 다운믹스 신호를 인코딩한다. 여기서 오디오 코딩 방식은 AAC (Advanced Audio Coding) 표준 또는 HE-AAC (High Efficiency Advanced Audio Coding) 표준에 따른 것일 수 있으나, 본 발명은 이에 한정되지 아니한다. 한편, 오디오 신호 인코더(220)는, MDCT(Modified Discrete Transform) 인코더에 해당할 수 있다.
음성 신호 인코더(230)는 다운믹스 신호의 특정 프레임 또는 특정 세그먼트가 큰 음성 특성을 갖는 경우, 음성 코딩 방식(speech coding scheme)에 따라서 다운믹스 신호를 인코딩한다. 여기서 음성 코딩 방식은 AMR-WB(Adaptive multi-rate Wide-Band) 표준에 따른 것일 수 있으나, 본 발명은 이에 한정되지 아니한다. 한편, 음성 신호 인코더(230)는 선형 예측 부호화(LPC: Linear Prediction Codin) 방식을 더 이용할 수 있다. 하모닉 신호가 시간축 상에서 높은 중복성을 가지는 경우, 과거 신호로부터 현재 신호를 예측하는 선형 예측에 의해 모델링될 수 있는데, 이 경우 선형 예측 부호화 방식을 채택하면 부호화 효율을 높을 수 있다. 한편, 음성 신호 인코더(230)는 타임 도메인 인코더에 해당할 수 있다.
손실신호 분석 장치(240)는 오디오 코딩 방식 또는 음성 코딩 방식으로 코딩된 스펙트럴 데이터를 수신하여, 마스킹 및 양자화를 수행하고, 이에 의해 손실된 신호를 보상하기 위한 손실신호 보상 파라미터를 생성한다. 한편, 손실신호 분석 장치(240)는 오디오 신호 인코더(220)에 의해 코딩된 스펙트럴 데이터에 대해서만 손실신호 보상 파라미터를 생성할 수 있다. 손실신호 분석 장치(240)가 수행하는 기능 및 단계에 대해서는, 도 1 및 도 2 를 참조하면서 설명된 손실신호 분석 장치(100)과 동일할 수 있다.
멀티플렉서(250)는 공간정보, 손실신호 보상 파라미터, 스케일팩터(또는 스케일팩터 차분값), 및 스펙트럴 데이터 등을 다중화하여 오디오 신호 비트스트림을 생성한다.
도 8 은 본 발명의 실시예에 따른 손실신호 분석 장치가 적용된 오디오 신호 인코딩 장치의 제 2 예이다. 도 8 을 참조하면, 오디오 신호 인코딩 장치(300)는 유저 인터페이스(310), 손실신호 분석 장치(320)를 포함하고, 멀티플렉서(330)를 더 포함할 수 있다.
유저 인터페이스(310)는 유저로부터 입력 신호를 수신하여, 손실신호 분석 장치(320)에 손실신호 분석에 관한 명령 신호를 전달한다. 구체적으로, 유저가 손실신호 예측모드를 선택한 경우, 유저 인터페이스(310)는 손실신호 분석에 관한 명령 신호를 손실신호 분석장치(320)에 전달한다. 또는, 유저가 로우 비트레이트 모드를 선택한 경우, 로우 비트레이트를 맞추기 위해, 오디오 신호 중 일부가 강제적으로 0 으로 셋팅될 수 있다. 따라서 유저 인터페이스(310)는 손실신호 분석에 관한 명령 신호를 손실신호 분석장치(320)에 전달할 수 있다. 아니면 유저 인터페이스(310)는 비트레이트에 관한 정보만을 손실신호 분석장치(320)에 그대로 전달할 수도 있다.
손실신호 분석 장치(320)는 앞서 도 1 및 도 2 와 함께 설명된 손실신호 분석 장치(100)와 거의 유사할 수 있다. 다만, 유저 인터페이스(310)로부터 손실신호 분석에 관한 명령 신호를 수신한 경우에만, 손실신호 보상 파라미터를 생성한다. 또는, 손실신호 분석에 관한 명령 신호 대신에, 비트레이트에 관한 정보만을 수신한 경우, 이를 근거로 손실신호 보상 파라미터를 생성할지 여부를 결정하여, 해당 단계를 수행할 수 있다.
멀티플렉서(330)는 손실신호 분석 장치(320)에 의해 생성된 양자화된 스펙트럴 데이터(스케일팩터 포함) 및 손실신호 보상 파라미터를 다중화하여 비트스트림을 생성한다.
도 9 는 본 발명의 실시예에 따른 손실신호 보상 장치의 구성을 보여주는 도면이고, 도 10 은 본 발명의 실시예에 따른 손실신호 보상 방법의 순서를 보여주는 도면이다. 우선 도 9 를 참조하면, 본 발명의 실시예에 따른 손실신호 보상 장치(400)는 손실신호 검출 유닛(410), 보상 데이터 생성유닛(420)을 포함하고, 스케일팩터 획득 유닛(430), 및 리-스케일링 유닛(440)을 더 포함할 수 있다. 이하, 도 9 및 도 10 을 함께 참조하면서 손실신호 보상 장치(400)가 오디오 신호의 손실을 보상하는 방법에 대해서 설명하고자 한다.
손실신호 검출 유닛(410)은 스펙트럴 데이터를 근거로 손실 신호를 검출한다(S210 단계). 손실 신호란, 해당 스펙트럴 데이터가 미리 결정된 값(예: 0)이하인 신호에 해당할 수 있다. 이 신호는 샘플에 대응하는 빈(bin) 단위일 수 있다. 이러한 손실 신호가 발생하는 이유는 앞서 설명한 바와 같이, 마스킹 및 양자화 과정에서 소정 값 이하가 될 수 있기 때문이다. 이렇게 손실 신호가 발생하면, 특히 신호가 0 인 구간이 발생하면, 경우에 따라서는 음질 열화를 초래하게 된다. 마스킹 효과가 인간 청각 구조가 인지하는 특성을 이용하는 것이라 하더라도, 모든 사람이 마스킹 효과로 인한 음질 열화를 인지하지 못하는 것은 아니다. 또한 신호의 크기변화가 심한 트랜지언트(transient) 구간에서 마스킹 효과가 집중적으로 적용되는 경우에는 부분적인 음질 열화가 일어날 수 있다. 따라서, 이러한 손실 구간에 적절 한 신호를 채워넣음으로써 음질을 향상시킬 수 있다. 보상 데이터 생성 유닛(420)은 손실신호 보상 파라미터 중 손실신호 보상 레벨 정보를 이용하여, 랜덤 신호를 이용하여 상기 손실신호에 대응하는 제 1 보상 데이터를 생성한다(S220 단계). 제 1 보상 데이터는 보상 레벨 정보에 대응하는 크기의 랜덤 신호신호일 수 있다. 도 11 은 본 발명의 실시예에 따른 제 1 보상 데이터 생성 과정을 설명하기 위한 도면이다. 도 11 의 (A)을 참조하면, 손실되었던 신호들의 각 밴드별 스펙트럴 데이터들(a', b', c' 등)을 보여주는 도면이고, 도 (B)는 제 1 보상 데이터의 레벨의 범위를 보여주는 도면이다. 구체적으로, 보상 데이터 생성 유닛(420)은 보상 레벨 정보에 대응하는 특정값(예:2)이하의 레벨을 갖는 제 1 보상 데이터를 생성할 수 있다.
스케일팩터 획득 유닛(430)은 스케일팩터 기준값과, 스케일팩터 차분값을 이용하여 스케일팩터를 생성한(S230 단계). 여기서, 스케일팩터는 인코더에서 스펙트럴 계수를 스케일링하기 위한 정보이다. 여기서, 손실신호 기준값은 손실 신호가 존재하는 구간 중 일부 구간에 대응하는 값일 수 있는데, 예를 들어, 전체 샘플이 모두 0 으로만 이루어진 밴드에 대응할 수 있다. 상기 일부 구간에 대해서는, 스케일팩터 차분값에 스케일팩터 기준값이 조합되어(예: 더해져서) 스케일팩터가 획득될 수 있고, 그 나머지 구간에 대해서는 전송된 스케일팩터 차분값이 그대로 스케일팩터가 될 수 있다.
리-스케일링 유닛(440)은 제 1 보상 데이터 또는 전송된 스펙트럴 데이터를 스케일팩터로 리-스케일링함으로써, 제 2 보상 데이터를 생성한(S240 단계). 구체 적으로, 리-스케일링 유닛(440)은 손실 신호가 존재하는 영역에 대해서는 제 1 보상 데이터를, 그 이외의 영역에 대해서는 전송된 스펙트럴 데이터를 리-스케일링한다. 제 2 보상 데이터는 스펙트럴 데이터 및 스케일팩터로부터 생성된 스펙트럴 계수에 해당할 수 있다. 이 스펙트럴 계수는 추후 설명될 오디오 신호 디코더 또는 음성 신호 디코더로 입력될 수 있다.
도 12 는 본 발명의 실시예에 따른 손실신호 보상 장치가 적용된 오디오 신호 디코딩 장치의 제 1 예이다. 도 12 를 참조하면, 오디오 신호 디코딩 장치(500)는 디멀티플렉서(510), 손실신호 보상 장치(520), 오디오 신호 디코더(530), 음성 신호 디코더(540), 및 복수채널 디코더(550)를 포함한다.
디멀티플렉서(510)는 오디오신호 비트스트림으로부터 스펙트럴 데이터, 손실신호 보상 파라미터, 및 공간정보 등을 추출한다. 손실신호 보상 장치(520)는 전송된 스펙트럴 데이터 및 손실신호 보상 파라미터를 이용하여 랜덤 신호를 이용하여 손실 신호에 대응하는 제 1 보상 데이터를 생성하고, 제 1 보상 데이터에 상기 스케일 팩터를 적용하여 제 2 보상 데이터를 생성한다. 손실신호 보상 장치(520)는 앞서 도 9 및 도 10 과 함께 설명된 손실신호 보상 장치(400)와 거의 동일한 기능하는 구성요소일 수 있다. 한편, 손실신호 보상 장치(520)는 오디오 특성을 갖는 스펙트럴 데이터에 대해서만, 손실복원 신호를 생성할 수 있다.
한편, 오디오 신호 디코딩 장치(500)는 대역 확장 디코더(미도시)를 더 포함할 수 있다. 대역 확장 디코더(미도시)는 손실복원신호에 대응하는 스펙트럴 데이터 중 일부 또는 전부를 이용하여 다른 대역(예: 고주파대역)의 스펙트럴 데이터를 생성한다. 이때, 인코더로부터 전송된 대역확장 정보가 이용될 수 있다.
오디오 신호 디코더(530)는, 손실복원신호에 대응하는 스펙트럴 데이터(경우에 따라, 대역 확장 디코더에 의해 생성된 스펙트럴 데이터 포함)가, 오디오 특성이 큰 경우, 오디오 코딩 방식으로 스펙트럴 데이터를 디코딩한다. 여기서 오디오 코딩 방식은 앞서 설명한 바와 같이, AAC 표준, HE-AAC 표준에 따를 수 있다. 음성 신호 디코더(540)는 상기 스펙트럴 데이터가 음성 특성이 큰 경우, 음성 코딩 방식으로 다운믹스 신호를 디코딩한다. 음성 코딩 방식은, 앞서 설명한 바와 같이, AMR-WB 표준에 따를 수 있지만, 본 발명은 이에 한정되지 아니한다.
복수채널 디코더(550)는 디코딩된 오디오 신호(즉, 디코딩된 손실복원 신호)가 다운믹스인 경우, 공간정보를 이용하여 멀티채널 신호(스테레오 신호 포함)의 출력 채널 신호를 생성한다.
도 13 은 본 발명의 실시예에 따른 손실신호 보상 장치가 적용된 오디오 신호 디코딩 장치의 제 2 예이다. 도 13 을 참조하면, 오디오 신호 디코딩 장치(600)는 디멀티플렉서(610), 손실신호 보상 장치(620) 및 유저 인터페이스(630)를 포함한다.
디멀티플렉서(610)는 비트스트림을 수신하고, 이로부터 손실신호 보상 파라미터 및 양자화된 스펙트럴 데이터 등을 추출한다. 물론 스케일팩터(차분값)이 더 추출될 수 있다.
손실신호 보상 장치(620)는 앞서 도 9 및 도 10 과 함께 설명된 손실신호 보상 장치(400)와 거의 동일한 기능을 하는 장치일 수 있다. 다만, 손실신호 보상 파 라미터가 디멀티플렉서(610)로부터 수신된 경우, 이 사실을 유저 인터페이스(630)로 알리고, 유저 인터페이스(630)로부터 손실신호 보상에 대한 명령신호가 수신된 경우, 손실신호를 보상하는 기능을 수행한다.
유저 인터페이스(630)는 손실신호 보상 장치(620)로부터 손실신호 보상 파라미터의 존재에 대한 정보가 수신된 경우, 디스플레이 등에 의해 표시함으로써, 사용자로 하여금 그 정보의 존재를 알 수 있도록 한다. 그리고, 유저에 의해 손실신호 보상 모드가 선택된 경우, 유저 인터페이스(630)는 손실신호 보상 장치(620)에 손실신호 보상에 대한 명령신호를 전달한다. 이와 같이 손실신호 보상 장치가 적용된 오디오 신호 디코딩 장치는 위와 같은 구성요소를 구비함으로써, 유저의 선택에 따라서, 손실신호를 보상하거나 또는 보상하지 않을 수 있다.
본 발명에 따른 오디오 신호 처리 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 본 발명에 따른 데이터 구조를 가지는 멀티미디어 데이터도 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 상기 인코딩 방법에 의해 생성된 비트스트림은 컴퓨터가 읽을 수 있는 기록 매체에 저장되거나, 유/무선 통신망을 이용해 전송될 수 있다.
이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.
본 발명은 오디오 신호를 인코딩하고 디코딩하는 데 적용될 수 있다.

Claims (15)

  1. 스펙트럴 데이터 및 손실신호 보상 파라미터를 획득하는 단계;
    │[사용자2] 상기 스펙트럴 데이터를 근거로 손실 신호를 검출하는 단계;
    상기 손실신호 보상 파라미터를 근거로, 랜덤 신호를 이용하여 상기 손실신호에 대응하는 제 1 보상 데이터를 생성하는 단계; 및,
    상기 제 1 보상 데이터에 대응하는 스케일 팩터를 생성하고, 상기 제 1 보상 데이터에 상기 스케일 팩터를 적용하여 제 2 보상 데이터를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  2. 제 1 항에 있어서,
    상기 손실 신호는 상기 스펙트럴 데이터가 기준값 이하인 신호에 해당하는 것을 특징으로 하는 오디오 신호 처리 방법.
  3. 제 1 항에 있어서,
    상기 손실신호 보상 파라미터는 보상 레벨 정보를 포함하고,
    상기 제 1 보상 데이터의 레벨은 상기 보상 레벨 정보를 근거로 결정되는 것을 특징으로 하는 오디오 신호 처리 방법.
  4. 제 1 항에 있어서,
    상기 스케일 팩터는 스케일팩터 기준값 및 스케일팩터 차분값을 이용하여 생성된 것이고,
    상기 스케일팩터 기준값은 상기 손실신호 보상 파라미터에 포함된 것을 특징으로 하는 오디오 신호 처리 방법.
  5. 제 1 항에 있어서,
    상기 제 2 보상 데이터는 스펙트럴 계수에 해당하는 것을 특징으로 하는 오디오 신호 처리 방법.
  6. 스펙트럴 데이터 및 손실신호 보상 파라미터를 획득하는 디멀티플렉서;
    상기 스펙트럴 데이터를 근거로 손실 신호를 검출하는 손실신호 검출 유닛;
    상기 손실신호 보상 파라미터를 근거로, 랜덤 신호를 이용하여 상기 손실신호에 대응하는 제 1 보상 데이터를 생성하는 보상데이터 생성 유닛; 및,
    상기 제 1 보상 데이터에 대응하는 스케일 팩터를 생성하고, 상기 제 1 보상 데이터에 상기 스케일 팩터를 적용하여 제 2 보상 데이터를 생성하는 리-스케일링 유닛을 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.
  7. 제 6 항에 있어서,
    상기 손실 신호는 상기 스펙트럴 데이터가 기준값 이하인 신호에 해당하는 것을 특징으로 하는 오디오 신호 처리 장치.
  8. 제 6 항에 있어서,
    상기 손실신호 보상 파라미터는 보상 레벨 정보를 포함하고,
    상기 제 1 보상 데이터의 레벨은 상기 보상 레벨정보를 근거로 결정되는 것을 특징으로 하는 오디오 신호 처리 장치.
  9. 제 6 항에 있어서,
    스케일팩터 기준값 및 스케일팩터 차분값을 이용하여 상기 스케일팩터를 생성하는 스케일팩터 획득 유닛을 더 포함하고,
    상기 스케일팩터 기준값은 상기 손실신호 보상 파라미터에 포함된 것을 특징으로 하는 오디오 신호 처리 장치.
  10. 제 6 항에 있어서,
    상기 제 2 보상 데이터는 스펙트럴 계수에 해당하는 것을 특징으로 하는 오디오 신호 처리 장치.
  11. 마스킹 임계치를 근거로 마스킹 효과를 적용하여 입력 신호의 스펙트럴 계수를 양자화함으로써, 스케일 팩터 및 스펙트럴 데이터를 생성하는 단계;
    상기 입력 신호의 스펙트럴 계수, 상기 스케일 팩터, 및 상기 스펙트럴 데이터를 이용하여, 손실신호를 결정하는 단계; 및,
    상기 손실신호를 보상하기 위한 손실신호 보상 파라미터를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  12. 제 11 항에 있어서,
    상기 손실신호 보상 파라미터는 보상 레벨 정보 및 스케일팩터 기준값을 포함하고,
    상기 보상 레벨 정보는 상기 손실 신호의 레벨과 관련된 정보에 대응하고,
    상기 스케일팩터 기준값은 상기 손실 신호의 스케일링과 관련된 정보에 대응하는 것을 특징으로 하는 오디오 신호 처리 방법.
  13. 마스킹 임계치를 근거로 마스킹 효과를 적용하여 입력 신호의 스펙트럴 계수를 양자화함으로써, 스케일팩터 및 스펙트럴 데이터를 획득하는 양자화 유닛; 및,
    상기 입력 신호의 스펙트럴 계수, 상기 스케일팩터, 및 상기 스펙트럴 데이터를 이응하여, 손실신호를 결정하고, 상기 손실신호를 보상하기 위한 손실신호 보상 파라미터를 생성하는 손실신호 예측 유닛을 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.
  14. 제 13 항에 있어서,
    상기 보상 파라미터는 보상 레벨 정보 및 스케일팩터 기준값을 포함하고,
    상기 보상 레벨 정보는 상기 손실 신호의 레벨과 관련된 정보이고,
    상기 스케일팩터 기준값은 상기 손실 신호의 스케일링과 관련된 정보에 대응하는 것을 특징으로 하는 오디오 신호 처리 장치.
  15. 디지털 오디오 데이터를 저장하며, 컴퓨터로 읽을 수 있는 저장 매체에 있어서,
    상기 디지털 오디오 데이터는 스펙트럴 데이터, 스케일팩터, 및 손실신호 보상 파라미터를 포함하며,
    상기 손실신호 보상 파라미터는 양자화로 인한 손실 신호를 보상하기 위한 정보로서, 보상 레벨 정보를 포함하고,
    상기 보상 레벨 정보는 상기 손실 신호의 레벨과 관련된 정보에 대응하는 것을 특징으로 하는 저장 매체.
KR1020107011464A 2007-12-31 2008-12-31 오디오 신호 처리 방법 및 장치 KR101162275B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US1780307P 2007-12-31 2007-12-31
US61/017,803 2007-12-31
US12002308P 2008-12-04 2008-12-04
US61/120,023 2008-12-04
PCT/KR2008/007868 WO2009084918A1 (en) 2007-12-31 2008-12-31 A method and an apparatus for processing an audio signal

Publications (2)

Publication Number Publication Date
KR20100086001A true KR20100086001A (ko) 2010-07-29
KR101162275B1 KR101162275B1 (ko) 2012-07-04

Family

ID=40824520

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020107011464A KR101162275B1 (ko) 2007-12-31 2008-12-31 오디오 신호 처리 방법 및 장치

Country Status (9)

Country Link
US (1) US9659568B2 (ko)
EP (1) EP2229676B1 (ko)
JP (1) JP5485909B2 (ko)
KR (1) KR101162275B1 (ko)
CN (1) CN101933086B (ko)
AU (1) AU2008344134B2 (ko)
CA (1) CA2711047C (ko)
RU (1) RU2439718C1 (ko)
WO (1) WO2009084918A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015034115A1 (ko) * 2013-09-05 2015-03-12 삼성전자 주식회사 오디오 신호의 부호화, 복호화 방법 및 장치

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8364471B2 (en) * 2008-11-04 2013-01-29 Lg Electronics Inc. Apparatus and method for processing a time domain audio signal with a noise filling flag
US8498874B2 (en) * 2009-09-11 2013-07-30 Sling Media Pvt Ltd Audio signal encoding employing interchannel and temporal redundancy reduction
EP2375410B1 (en) 2010-03-29 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal
JP5557286B2 (ja) * 2010-11-11 2014-07-23 株式会社エー・アンド・デイ ノッキング判定方法及び装置
JP5973582B2 (ja) * 2011-10-21 2016-08-23 サムスン エレクトロニクス カンパニー リミテッド フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置
CN105976824B (zh) * 2012-12-06 2021-06-08 华为技术有限公司 信号解码的方法和设备
EP2830060A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling in multichannel audio coding
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
EP3067887A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
CN110556119B (zh) 2018-05-31 2022-02-18 华为技术有限公司 一种下混信号的计算方法及装置
CN111405419B (zh) * 2020-03-26 2022-02-15 海信视像科技股份有限公司 音频信号处理方法、装置及可读存储介质
CN112624317B (zh) * 2020-11-10 2022-07-12 宁波职业技术学院 一种基于音频分析的mbr膜组件检测方法与系统
CN114399996A (zh) * 2022-03-16 2022-04-26 阿里巴巴达摩院(杭州)科技有限公司 处理语音信号的方法、装置、存储介质及系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19730129C2 (de) * 1997-07-14 2002-03-07 Fraunhofer Ges Forschung Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals
KR100335611B1 (ko) * 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
RU2190237C2 (ru) 2000-11-24 2002-09-27 Федеральное государственное унитарное предприятие "Центральный научно-исследовательский институт "Морфизприбор" Приемный тракт гидроакустической станции с линейной антенной, устраняющий неоднозначность определения направления прихода сигнала
JP3984468B2 (ja) 2001-12-14 2007-10-03 松下電器産業株式会社 符号化装置、復号化装置及び符号化方法
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
JP2004010415A (ja) 2002-06-06 2004-01-15 Kawasaki Refract Co Ltd マグクロ質吹き付け補修材
JP4849466B2 (ja) 2003-10-10 2012-01-11 エージェンシー フォー サイエンス, テクノロジー アンド リサーチ デジタル信号をスケーラブルビットストリームにエンコードする方法、及びスケーラブルビットストリームをデコードする方法
US7283634B2 (en) * 2004-08-31 2007-10-16 Dts, Inc. Method of mixing audio channels using correlated outputs
SE0402649D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
WO2006049205A1 (ja) * 2004-11-05 2006-05-11 Matsushita Electric Industrial Co., Ltd. スケーラブル復号化装置およびスケーラブル符号化装置
RU2288550C1 (ru) 2005-02-28 2006-11-27 Владимир Анатольевич Ефремов Способ передачи сообщений любой физической природы, например способ передачи звуковых сообщений, и система для его осуществления
US7885809B2 (en) * 2005-04-20 2011-02-08 Ntt Docomo, Inc. Quantization of speech and audio coding parameters using partial information on atypical subsequences
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
KR101218776B1 (ko) * 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
ES2259571B1 (es) * 2006-01-12 2007-10-01 Cal Thermic, S.L. Radiador electrico de calefaccion.
JP4627737B2 (ja) 2006-03-08 2011-02-09 シャープ株式会社 デジタルデータ復号化装置
US20070270987A1 (en) * 2006-05-18 2007-11-22 Sharp Kabushiki Kaisha Signal processing method, signal processing apparatus and recording medium
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015034115A1 (ko) * 2013-09-05 2015-03-12 삼성전자 주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
US10332527B2 (en) 2013-09-05 2019-06-25 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio signal

Also Published As

Publication number Publication date
EP2229676B1 (en) 2013-11-06
CN101933086A (zh) 2010-12-29
JP2011509428A (ja) 2011-03-24
US9659568B2 (en) 2017-05-23
WO2009084918A1 (en) 2009-07-09
RU2439718C1 (ru) 2012-01-10
JP5485909B2 (ja) 2014-05-07
CA2711047A1 (en) 2009-07-09
KR101162275B1 (ko) 2012-07-04
AU2008344134A1 (en) 2009-07-09
AU2008344134B2 (en) 2011-08-25
EP2229676A4 (en) 2011-01-19
CN101933086B (zh) 2013-06-19
CA2711047C (en) 2015-08-04
US20110015768A1 (en) 2011-01-20
EP2229676A1 (en) 2010-09-22

Similar Documents

Publication Publication Date Title
KR101162275B1 (ko) 오디오 신호 처리 방법 및 장치
JP5292498B2 (ja) 周波数領域のウィナーフィルターを用いた空間オーディオコーディングのための時間エンベロープの整形
US8527282B2 (en) Method and an apparatus for processing a signal
CA2708861C (en) A method and an apparatus for processing an audio signal
KR101428487B1 (ko) 멀티 채널 부호화 및 복호화 방법 및 장치
US8364471B2 (en) Apparatus and method for processing a time domain audio signal with a noise filling flag
JP2010538316A (ja) 改良された音声及びオーディオ信号の変換符号化
WO2011059255A2 (en) An apparatus for processing an audio signal and method thereof
JP2011013560A (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
KR101259120B1 (ko) 오디오 신호 처리 방법 및 장치
KR20100054749A (ko) 신호의 처리 방법 및 이의 장치
KR20100114484A (ko) 오디오 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150522

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160524

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170512

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180514

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190514

Year of fee payment: 8