Nothing Special   »   [go: up one dir, main page]

KR101907808B1 - 오디오 신호에서 노이즈를 추산하는 방법, 노이즈 추산기, 오디오 인코더, 오디오 디코더 및 오디오 신호를 전송하는 시스템 - Google Patents

오디오 신호에서 노이즈를 추산하는 방법, 노이즈 추산기, 오디오 인코더, 오디오 디코더 및 오디오 신호를 전송하는 시스템 Download PDF

Info

Publication number
KR101907808B1
KR101907808B1 KR1020177005256A KR20177005256A KR101907808B1 KR 101907808 B1 KR101907808 B1 KR 101907808B1 KR 1020177005256 A KR1020177005256 A KR 1020177005256A KR 20177005256 A KR20177005256 A KR 20177005256A KR 101907808 B1 KR101907808 B1 KR 101907808B1
Authority
KR
South Korea
Prior art keywords
audio signal
noise
energy value
log
audio
Prior art date
Application number
KR1020177005256A
Other languages
English (en)
Other versions
KR20170039226A (ko
Inventor
벤자민 슈베르트
마누엘 장데
앤서니 롬바르드
마틴 디에츠
마르쿠스 물트루스
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20170039226A publication Critical patent/KR20170039226A/ko
Application granted granted Critical
Publication of KR101907808B1 publication Critical patent/KR101907808B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)

Abstract

오디오 신호(102)에서 노이즈를 추산하는 방법이 설명된다. 오디오 신호(102)에 대한 에너지 값(174)이 추산되고(S100), 로그 영역으로 변환된다(S102). 오디오 신호(102)의 노이즈 레벨은 변환된 에너지 값(178)을 기초로 추산된다(S104).

Description

오디오 신호에서 노이즈를 추산하는 방법, 노이즈 추산기, 오디오 인코더, 오디오 디코더 및 오디오 신호를 전송하는 시스템{METHOD FOR ESTIMATING NOISE IN AN AUDIO SIGNAL, NOISE ESTIMATOR, AUDIO ENCODER, AUDIO DECODER AND SYSTEM FOR TRANSMITTING AUDIO SIGNALS}
본 발명은 오디오 신호를 처리하는 분야에 관한 것으로서, 상세하게는, 예를 들어, 인코딩될 오디오 신호 또는 디코딩된 오디오 신호와 같은 오디오 신호에서 노이즈를 추산하는 접근법에 관한 것이다. 실시예들이 오디오 신호에서 노이즈를 추산하는 방법, 노이즈 추산기, 오디오 인코더, 오디오 디코더 및 오디오 신호를 전송하는 시스템을 기술한다.
오디오 신호의 인코딩되거나 디코딩된 오디오 신호와 같은 신호를 처리하는 분야에서, 노이즈를 추산하는 것이 요구되는 상황이다. 예를 들어, 본 발명에 참고로 인용된 PCT/EP2012/077525 및 PCT/EP2012/077527은 주파수 도메인에서 백그라운드 노이즈의 스펙트럼을 추산하기 위해 노이즈 추산기, 예를 들어, 최소 통계 노이즈 추산기를 사용하여 설명한다. 알고리즘에 입력된 신호는 FFT(Fast Fourier Transformation) 또는 다른 적절한 필터 뱅크(filter bank)에 의해 주파수 영역으로 블록 단위로 변환된다. 프레이밍(framing)은 일반적으로 코덱의 프레이밍과 동일하다. 즉, 코덱에 이미 존재하고 있는 변환들, 예를 들어, EVS(Enhanced Voice Services) 인코더에서 사전 프로세싱(preprocessing)에 사용되는 FFT는 재사용될 수 있다. 노이즈를 추산하기 위해 FFT의 파워 스펙트럼이 연산된다. 스펙트럼은 음향 심리학적으로 동기된(psychoacoustically motivated) 대역들로 그룹화될 수 있고, 대역마다 에너지 값을 형성하기 위해 대역 내의 파워 스펙트럼의 빈(bin)들이 축적된다. 마지막으로, 오디오 신호를 음향 심리학적으로 프로세싱하는 데 자주 사용되는 이러한 방법에 의해 에너지 값 세트가 얻어진다. 각 대역은 자체 노이즈 추산 알고리즘을 가진다, 즉, 각 프레임에서 해당 프레임의 에너지 값은 시간에 따라 신호를 분석하고 어떤 주어진 프레임에서 각 대역의 추산된 노이즈 레벨을 제공하는 노이즈 추산 알고리즘을 사용하여 프로세싱된다.
고품질의 음성 및 오디오 신호에 사용되는 샘플 해상도(resolution)는 16 비트일 수 있다, 즉, 신호는 96 dB의 신호-대-노이즈-레이트(Signal-to-Noise-Ratio, SNR)를 가진다. 파워 스펙트럼을 연산하는 것은 신호를 주파수 영역으로 변환하는 것과 각 주파수 빈의 제곱을 계산하는 것을 의미한다. 제곱 함수로 인해, 이것은 32 비트의 동적 범위를 요구한다. 대역 내의 에너지 분포가 실제로 알려지지 않았기 때문에 여러 개의 파워 스펙트럼 빈들을 대역들로 합산하는 데에는 동적 범위에 대한 추가적인 헤드룸(headroom)이 요구된다. 결과적으로, 프로세서에서 노이즈 추산기를 실행하기 위해 32 비트 이상의 동적 범위, 일반적으로 약 40 비트, 가 지원되어야 한다.
배터리와 같은, 에너지 저장 장치로부터 받는 에너지를 기초로 동작하는 오디오 신호들을 처리하는 장치에서, 예를 들어, 이동전화와 같은 휴대용 장치에서 에너지를 보전하기 위한 오디오 신호들의 전력(power) 효율적 처리는 배터리 수명을 위해 필수적이다. 공지된 접근법들에 따르면, 오디오 신호의 처리는 전형적으로 16 비트 또는 32 비트 고정 소수점 포맷에서 데이터를 처리하는 것을 지원하는 고정 소수점 프로세서들에 의해 수행된다. 프로세싱을 위한 가장 낮은 복잡도는 16 비트 데이터를 처리하는 것에 의해 달성되나, 반면 32 비트 데이터를 처리하는 것은 이미 약간의 오버헤드(overhead)를 요구한다. 40 비트 동적 범위를 가진 데이터를 처리하는 것은 데이터를 둘로, 즉, 가수(mantissa)와 지수(exponent)로 분할하는 것을 요구하며, 데이터를 수정할 때 둘 모두가 다루어져야 하고, 결국, 훨씬 더 높은 연산의 복잡도와 훨씬 더 높은 저장 수요를 초래한다.
전술된 종래 기술로부터 시작하여, 본 발명은 불필요한 연산의 오버헤드(overhead)를 피하기 위해 고정 소수점 프로세서를 사용하는 효율적인 방법으로 오디오 신호에서 노이즈를 추산하는 접근법을 제공하는 것을 목적으로 한다.
이러한 목적은 독립항들에서 정의된 청구대상에 의해서 달성된다.
본 발명은 오디오 신호의 에너지 값을 결정하는 단계, 에너지 값을 로그 영역으로 변환하는 단계, 및 변환된 에너지 값을 기초로 오디오 신호의 노이즈 레벨을 추산하는 단계를 포함하는 오디오 신호에서 노이즈를 추산하는 방법을 제공한다.
본 발명은 오디오 신호의 에너지 값을 결정하기 위해 구성된 검출부, 에너지 값을 로그 영역으로 변환하기 위해 구성된 변환부 및 변환된 에너지 값을 기초로 오디오 신호의 노이즈 레벨을 추산하기 위해 구성된 추산부를 포함하는 노이즈 추산기를 제공한다.
본 발명은 본 발명에 따른 방법에 따라 동작하도록 구성된 노이즈 추산기를 제공한다.
실시예들에 따르면, 로그 영역은 로그2-영역을 포함한다.
실시예들에 따르면, 노이즈 레벨을 추산하는 단계는, 로그 영역에서 직접 변환된 에너지 값을 기초로 미리 정의된 노이즈 추산 알고리즘을 수행하는 단계를 포함한다. 노이즈 추산은 R. Martin의 "Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics"(2001) 에서 설명된 최소 통계 알고리즘을 기초로 수행될 수 있다. 다른 실시예들에서는 T. Gerkmann 및 R. C. Hendriks의 "Unbiased MMSE-based Noise Power Estimation with Low Complexity and Low Tracking Delay"(2012) 에서 설명된 MMSE 기반의 노이즈 추산기 또는 L. Lin, W. Holmes 및 E. Ambikairajah의 "Adaptive Noise Estimation Algorithm for Speech Enhancement"(2003) 에서 설명된 알고리즘과 같은 대안적인 노이즈 추산 알고리즘이 사용될 수 있다.
실시예들에 따르면, 에너지 값을 결정하는 단계는 오디오 신호를 주파수 영역으로 변환하는 것에 의해 오디오 신호의 파워 스펙트럼을 획득하는 단계, 파워 스펙트럼을 음향 심리학적으로 동기된(psychoacoustically motivated) 대역들로 그룹화하는 단계 및 각 대역의 에너지 값을 형성하기 위해 대역 내의 파워 스펙트럼의 빈(bin)들을 축적하는 단계를 포함하고, 여기서 각 대역의 에너지 값은 로그 영역으로 변환되고, 여기서 노이즈 레벨은 대응하는 변환된 에너지 값을 기초로 각 대역에 대해 추산된다.
실시예들에 따르면, 오디오 신호는 복수의 프레임을 포함하고, 각 프레임에 대한 에너지 값이 결정되며, 로그 영역으로 변환되고, 변환된 에너지 값을 기초로 각 대역에 대해 노이즈 레벨이 추산된다.
실시예들에 따르면, 에너지 값은 다음과 같이 로그 영역으로 변환된다.
Figure 112017019022084-pct00001
Figure 112017019022084-pct00002
의 바닥함수(floor function)이고,
Figure 112017019022084-pct00004
는 로그2-영역에서 대역 n의 에너지 값이며,
Figure 112017019022084-pct00005
은 선형 영역에서 대역 n의 에너지 값이고, N은 양자화 해상도(resolution) 또는 정밀도(precision)를 나타낸다.
실시예들에 따르면, 변환된 에너지 값에 기초로 노이즈 레벨을 추산하는 단계는 로그 데이터를 산출하고, 상기 단계는 추가 프로세싱을 위해 로그 데이터를 직접 사용하는 단계, 또는 추가 프로세싱을 위해 로그 데이터를 선형 영역으로 다시 변환하는 단계를 더 포함한다.
실시예들에 따르면, 로그 영역에서 전송이 이루어지는 경우 로그 데이터가 직접 전송 데이터로 변환되고, 로그 데이터를 직접 전송 데이터로 변환하는 것은 룩업 테이블(lookup table) 또는 근사화, 예를 들어,
Figure 112017019022084-pct00006
와 함께 시프트 함수를 사용한다.
본 발명은 컴퓨터 상에서 실행될 때 본 발명에 따른 방법을 수행하는 명령어를 저장하는 컴퓨터로 판독 가능한 매체를 포함하는 비일시적인(non-transitory) 컴퓨터 프로그램 제품을 제공한다.
본 발명은 본 발명에 따른 노이즈 추산기를 포함하는 오디오 인코더를 제공한다.
본 발명은 본 발명에 따른 노이즈 추산기를 포함하는 오디오 디코더를 제공한다.
본 발명은 수신된 오디오 신호를 기초로 코딩된 오디오 신호를 생성하기 위해 구성된 오디오 인코더, 및 코딩된 오디오 신호를 수신하기 위해 구성된 오디오 디코더를 포함하는 오디오 신호를 전송하는 시스템을 제공하고, 여기서, 코딩된 오디오 신호를 디코딩하기 위해 및 디코딩된 오디오 신호를 출력하기 위해 오디오 인코더 및 오디오 디코더 중 적어도 하나는 본 발명에 따른 노이즈 추산기를 포함한다.
본 발명의 중요 요소는 대역당 에너지 값을 로그 영역, 바람직하게는 로그2-영역으로 변환하는 것이고, 예를 들어, 최소 통계 알고리즘 또는 다른 적절한 알고리즘을 기초로 16 비트의 에너지 값으로 표현하는 것을 허용하고, 결국, 예를 들어, 고정 소수점 프로세서를 사용하는 것과 같이 더 효율적인 프로세싱을 허용하는 로그 영역에서 직접 노이즈 추산을 수행하는 것이다.
도 1은 인코딩될 오디오 신호 또는 디코딩된 오디오 신호에서 노이즈를 추산하기 위한 본 발명을 구현하는 오디오 신호를 전송하는 시스템의 간략 블록 구성도이다.
도 2는 오디오 신호 인코더 및/또는 오디오 신호 디코더 내에서 사용될 수 있는 일 실시예에 따른 노이즈 추산기의 간략 블록 구성도이다.
도 3은 일 실시예에 따라 오디오 신호에서 노이즈를 추산하는 방법을 나타내는 동작 순서도이다.
본 발명은 오디오 또는 음성에서 노이즈 레벨을 추산하기 위해, 노이즈 추산 알고리즘이 선형 에너지 데이터에서 동작하는 종래의 접근법과 달리, 그 알고리즘이 로그 입력 데이터 기반에서도 동작하는 것이 가능하다는 발명자의 발견에 기초한다. 노이즈 추산을 위한 데이터 정밀도에 대한 요구는 매우 높지 않은데, 예를 들어, 본 발명에서 참조하는 문헌인 PCT/EP2012/077525 또는 PCT/EP2012/077527에서 설명한 컴포트 노이즈 발생(comfort noise generation)을 위해 추산된 값을 사용하는 단계에서, 대역당 대략적으로 맞는 노이즈 레벨을 추산하는 것으로 충분하다는 것이 발견되었다, 즉, 추산되는 노이즈 레벨이, 예를 들어, 0.1 dB 이상인지 아닌지는 최종 신호에서 눈에 띄지 않을 것이다. 따라서, 종래 접근법에서는 40 비트가 데이터의 동적 범위를 커버하기 위해 요구될 수 있지만, 중간/높은 레벨 신호들을 위한 데이터 정밀도는 실제로 필요한 것보다 훨씬 더 높다. 이러한 발견들을 기초로, 실시예들에 따르면, 본 발명의 중요 요소는 대역당 에너지 값을 로그 영역, 바람직하게는 로그2-영역으로 변환하는 것이고, 예를 들어, 최소 통계 알고리즘 또는 다른 적절한 알고리즘을 기초로 16 비트의 에너지 값으로 표현하는 것을 허용하고, 결국, 예를 들어, 고정 소수점 프로세서를 사용하는 것과 같이 더 효율적인 프로세싱을 허용하는, 로그 영역에서 직접 노이즈 추산을 수행하는 것이다.
이하, 본 발명에 따른 접근법의 실시예들이 더욱 상세히 설명될 것이고, 첨부한 도면에서 동일하거나 유사한 기능을 가지는 요소들은 동일한 참조 부호에 의해 표시되어 있다.
도 1은 인코더 측면 및/또는 디코더 측면에서 본 발명을 구현하는 오디오 신호를 전송하는 시스템의 간략 블록 구성도이다.
도 1의 시스템은 오디오 신호(104)를 입력단(102)에서 수신하는 인코더(100)를 포함한다. 인코더는 오디오 신호(104)를 수신하고, 인코더의 출력부(108)에 제공되는 인코딩된 오디오 신호를 생성하는 인코딩 프로세서(106)를 포함한다. 인코딩 프로세서(106)는 오디오 신호의 연속적인 오디오 프레임을 프로세싱하고, 인코딩될 오디오 신호(104)에서 노이즈를 추산하는 방법을 수행하기 위해 프로그래밍되거나 구축될 수 있다. 다른 실시예들에서는, 인코더가 송신 시스템의 일부일 필요는 없으나, 인코딩된 오디오 신호를 생성하는 독립형 장치일 수 있고, 오디오 신호 송신기의 일부일 수 있다. 일 실시예에 따르면, 인코더(100)는 참조 부호 112로 나타낸 바와 같이 오디오 신호의 무선 송신을 가능하게 하는 안테나(110)를 포함할 수 있다. 다른 실시예들에서는, 인코더(100)는, 예를 들어, 참조 부호 114로 표시된 바와 같이, 유선 선로를 이용하여 출력부(108)에 제공되는 인코딩된 오디오 신호를 출력할 수 있다.
도 1의 시스템은 디코더(150)에 의해 프로세싱될 인코딩된 오디오 신호를 유선 선로(114) 또는 안테나(154) 등을 통해 수신하는 입력(152)을 가지는 디코더(150)를 더 포함한다. 디코더(150)는 인코딩된 신호를 디코딩하고, 디코더의 출력부(160)에 디코딩된 오디오 신호(158)를 제공하는 디코딩 프로세서(156)를 포함한다. 디코딩 프로세서(156)는 디코딩된 오디오 신호(104)에서 노이즈를 추산하는 본 발명의 접근법을 수행하는 프로세싱을 위해 프로그래밍되거나 구축될 수 있다. 다른 실시예들에서는, 디코더가 송신 시스템의 일부일 필요는 없고, 오히려, 인코딩된 오디오 신호를 디코딩하는 독립형 장치일 수 있고, 오디오 신호 수신기의 일부일 수 있다.
도 2는 일 실시예에 따른 노이즈 추산기(170)의 간략 블록 구성도이다.
노이즈 추산기(170)는 도 1에서 나타낸 오디오 신호 인코더 및/또는 오디오 신호 디코더에 사용될 수 있다. 노이즈 추산기(170)는 오디오 신호(102)에 대한 에너지 값(174)을 결정하는 검출부(172), 에너지 값(174)을 로그 영역으로 변환하는 변환부(176)(변환된 에너지 값(178) 참조), 변환된 에너지 값(178)을 기초로 오디오 신호(102)로부터 노이즈 레벨(182)을 추산하는 추산부(180)를 포함한다. 노이즈 추산기(170)는 검출부(172), 변환부(176) 및 추산부(180)의 기능을 수행하기 위해 프로그래밍되거나 구축된 공통 프로세서 또는 복수의 프로세서들에 의해 구현될 수 있다.
이하, 도 1의 인코딩 프로세서(106) 및 디코딩 프로세서(156) 중 적어도 하나에서, 또는 도 2의 노이즈 추산기(170)에 의해 구현될 수 있는, 발명의 실시예들을 더 상세히 설명할 것이다.
도 3은 오디오 신호에서 노이즈를 추산하는 본 발명에 따른 접근법의 동작 순서도이다. 오디오 신호가 수신되고, 첫 번째 S100 단계에서 오디오 신호의 에너지 값(174)이 결정되고, 이후, S102 단계에서 로그 영역으로 변환된다. S104 단계에서 변환된 에너지 값(178)을 기초로 노이즈가 추산된다. 실시예들에 따르면, S106 단계에서 로그 데이터(182)로 표현되는 추산된 노이즈 데이터의 추가 프로세싱이 로그 영역에서 이루어지는지 아닌지가 결정된다. 로그 영역에서 추가 프로세싱이 요구되는 경우(S106 단계에서 예), S108 단계에서 추산된 노이즈를 표현하는 로그 데이터가 처리되는데, 예를 들어, 전송 또한 로그 영역에서 발생하는 경우 로그 데이터가 전송 파라미터로 변환된다. 그렇지 않으면(S106 단계에서 아니오), S110 단계에서 로그 데이터(182)는 선형 데이터로 다시 변환되고, S112 단계에서 선형 데이터가 처리된다.
실시예들에 따르면, S100 단계에서 오디오 신호의 에너지 값을 결정하는 것은 종래의 접근법들로 이루어질 수 있다. 오디오 신호에 적용된 FFT의 파워 스펙트럼이 계산되고 음향 심리학적으로 동기된(psychoacoustically motivated) 대역들로 그룹화된다. 대역 내의 파워 스펙트럼 빈(bin)들은 대역별 에너지 값을 형성하도록 축적되어 에너지 값 세트(set)가 획득된다. 다른 실시예들에 따르면, 파워 스펙트럼은 MDCT(Modified Discrete Cosine Transform), CLDFB(Complex Low-Delay Filterbank) 또는 스펙트럼의 다른 부분들을 커버하는 여러 변환의 조합과 같이 적절한 스펙트럼의 변환을 기초로 연산될 수 있다. S100 단계에서 각 대역의 에너지 값(174)이 결정되고, S102 단계에서 각 대역의 에너지 값(174)이 로그 영역으로, 실시예들에 따르면, 로그2-영역으로, 변환된다. 대역 에너지들은 수학식 1에 따라 로그2-영역으로 변환될 수 있다.
Figure 112017019022084-pct00007
여기서,
Figure 112017019022084-pct00008
Figure 112017019022084-pct00009
의 바닥함수(floor function)이고,
Figure 112017019022084-pct00010
는 로그2-영역에서 대역 n의 에너지 값이며,
Figure 112017019022084-pct00011
은 선형 영역에서 대역 n의 에너지 값이고, N은 해상도(resolution) 또는 정밀도(precision)를 나타낸다.
실시예들에 따르면, 로그2-영역으로의 변환은, 예를 들어, 고정 한 사이클에서 소수점 숫자의 앞자리 0의 수를 결정하는 "norm"함수를 사용하는 고정 소수점 프로세서들에서 (int)log2 함수는 일반적으로 매우 빠르게 연산되는 장점을 가진다. 수학식 1에서 상수 N으로 표현되는 경우, 때때로 (int)log2보다 높은 정밀도가 요구된다. 이러한 약간 더 높은 정밀도는 더 낮은 정밀도가 허용될 때 낮은 복잡도의 로그 연산을 얻기 위한 일반적인 방법인 놈(norm) 명령어 및 근사화 후에, MSB(Most Significant Bits)를 가지는 간단한 룩업 테이블(lookup table)을 통해 획득할 수 있다. 수학식 1에서, 로그2 함수 내의 상수 1이 변환된 에너지가 양의 값을 유지하기 위해 추가된다. 실시예들에 따르면, 이것은, 노이즈 추산기가 노이즈 에너지의 통계적 모델에 의존하는 경우 중요할 수 있는데, 음의 값에 대한 노이즈 추산 수행이 이러한 모델을 위반할 수 있고, 추산기의 예상치 못한 동작을 초래할 수 있기 때문이다.
일 실시예에 따르면, 수학식 1에서 N은 동적 범위의
Figure 112017019022084-pct00012
비트에 동등한 6으로 설정된다. 이것은 상술된 40 비트의 동적 범위보다 더 크고, 충분하다. 데이터 처리의 목표는 16 비트를 사용하는 것이며, 이는 가수(mantissa)를 위한 9 비트와 부호를 위한 1 비트를 남겨둔다. 이러한 포맷은 흔히 "6Q9"포맷으로 표시된다. 대안적으로, 양의 값만이 고려될 수 있기 때문에, 부호 비트는 생략될 수 있고, 가수를 위해 10 비트 전체를 남기도록 사용될 수 있으며, 이는 "6Q10"포맷으로 지칭된다.
최소 통계 알고리즘의 자세한 설명은 R. Martin의 "Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics"(2001) 에서 발견될 수 있다. 그것은 기본적으로, 일반적으로 수초 이상의, 각 스펙트럼 대역의 주어진 길이의 슬라이딩 시간 윈도우(sliding temporal window)상에서 평활화된 파워 스펙트럼(smoothed power spectrum)의 최소치를 추적하는 것에 특징이 있다. 또한, 이 알고리즘은 노이즈 추산의 정확도를 향상시키기 위한 바이어스 보상을 포함한다. 게다가, 시변(time-varying) 노이즈 추적을 향상시키기 위해, 추산된 노이즈 에너지의 적당한 증가가 초래된다면, 기존의 최소치 대신에 더욱 더 짧은 시간 윈도우(temporal window)에서 연산된 로컬 최소치가 사용될 수 있다. 허용되는 증가량은 R. Martin의 "Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics"(2001) 의 noise_slope_max 파라미터에 의해 결정된다. 일 실시예에 따르면, 일반적으로 선형 에너지 데이터상에서 동작하는 최소 통계 노이즈 추산 알고리즘이 사용된다. 하지만, 본 발명자의 발견에 따르면, 오디오 자료 또는 음성 자료에서 노이즈 레벨들을 추산하기 위해, 이 알고리즘은 로그 입력 데이터를 대신 제공받을 수 있다. 신호 처리 자체는 수정되지 않은 채로 남아있는 반면, 단지 최소한의 조정이 요구되며, 이는 선형 데이터에 비해 감소된 로그 데이터의 동적 범위에 대처하기 위해 noise_slope_max 파라미터를 감소시키는 것에 특징이 있다. 지금까지, 최소 통계 알고리즘, 또는 다른 적절한 노이즈 추산 기술은 선형 데이터상에서 동작되어야 한다고 가정되었다, 즉, 실제로 로그 표현인 데이터는 적절하지 않은 것으로 여겨졌다. 이러한 종래의 가정과 반대로, 발명자는 대부분의 동작들이 16 비트로 수행될 수 있고 이 알고리즘의 일부분만이 여전히 32 비트를 요구하기 때문에, 16 비트로만 표현되는 입력 데이터 사용을 허용하고, 결과적으로, 고정 소수점 구현에서 더 낮은 복잡도를 제공하는 로그 데이터상에서 노이즈 추산이 실제로 동작될 수 있다고 발견하였다. 예를 들어, 최소 통계 알고리즘에서 바이어스 보상은 입력 전력의 분산에 기초하므로, 일반적으로 여전히 32 비트 표현을 요구하는 4차 통계를 기반으로 한다.
도 3과 관련하여 상술한 바와 같이, 노이즈 추산 프로세스의 결과는 여러 방법으로 더 프로세싱될 수 있다. 실시예들에 따르면, 첫 번째 방법은 예를 들어, 전송 파라미터가 로그 영역에서 전송되는 경우, 로그 데이터(182)를 전송 파라미터로 직접 변환하는 것과 같이, 로그 데이터(182)를 직접 사용하는 것이다(S108). 두 번째 방법은, 수학식 2와 같이, 예를 들어, 근사화를 사용하거나 룩업 테이블과 함께, 프로세서에서 일반적이고 전형적으로 한 사이클을 요구하면서 아주 빠른 시프트 함수를 사용하여, 추가 프로세싱을 위해 로그 데이터(182)가 선형 데이터로 다시 변환되도록 처리하는 것이다.
Figure 112017019022084-pct00013
아래에서는, 로그 데이터를 기초로 노이즈를 추산하는 본 발명에 따른 접근법을 구현하기 위한 구체적인 예가 인코더를 참조하여 설명될 것이나, 상술한 바와 참고로 인용된 PCT/EP2012/077525 또는 PCT/EP2012/077527에서 설명된 예와 같이, 본 발명에 따른 접근법은 디코더에서 디코딩되는 신호에 대해서도 또한 적용될 수 있다. 다음 실시예는 도 1의 인코더(100)와 같이 오디오 인코더에서 오디오 신호의 노이즈를 추산하기 위한 본 발명에 따른 접근법의 구현을 설명한다. 더욱 상세하게는, EVS(Enhanced Voice Services) 인코더(encoder)에서 수신된 오디오 신호의 노이즈를 추산하기 위한 본 발명에 따른 접근법을 구현하기 위해 EVS 코더(coder)의 신호 처리 알고리즘의 설명이 주어질 것이다.
20ms 길이의 오디오 샘플의 입력 블록은 16 비트 균일한 PCM(Pulse Code Modulation) 포맷으로 가정한다. 4개의 샘플링 레이트, 예를 들어, 8,000, 16,000, 32,000 및 48,000 samples/s가 가정되고, 인코딩된 비트 스트림에 대한 비트 레이트는 5.9, 7.2, 8.0, 9.6, 13.2, 16.4, 24.4, 32.0, 48.0, 64.0 또는 128.0 kbit/s일 수 있다. 인코딩된 비트 스트림에 대한 비트 레이트 6.6, 8.85, 12.65, 14.85, 15.85, 18.25, 19.85, 23.05 또는 23.85 kbit/s에서 동작하는 AMR-WB(Adaptive Multi Rate Wideband (codec)) 상호운용 가능 모드가 또한 제공된다.
아래의 설명을 위해 다음의 규칙을 수학식에 적용한다.
Figure 112017019022084-pct00014
Figure 112017019022084-pct00015
보다 작거나 같으면서 가장 큰 정수를 나타낸다. 예를 들면,
Figure 112017019022084-pct00016
,
Figure 112017019022084-pct00017
Figure 112017019022084-pct00018
와 같이 나타낸다.
Figure 112017019022084-pct00019
은 합을 나타낸다.
다르게 명시하지 않는 한, 아래 설명 전체에서 log(x)는 밑이 10인 로그를 나타낸다.
인코더는 48, 32, 16 또는 8 kHz로 샘플링된 전대역(FullBand, FB), 초광대역(SuperWideBand, SWB), 광대역(WideBand, WB) 또는 협대역(NarrowBand, NB) 신호를 허용한다. 유사하게, 디코더의 출력은 48, 32, 16 또는 8 kHz의 FB, SWB, WB 또는 NB가 될 수 있다. 파라미터 R(8, 16, 32 또는 48)은 인코더에서 입력 샘플링 레이트 또는 디코더에서 출력 샘플링 레이트를 나타내기 위해 사용된다.
입력 신호는 20ms 프레임을 사용하여 처리된다. 코덱 지연은 입력과 출력의 샘플링 레이트에 의존한다. WB 입력 및 WB 출력의 경우 전체 알고리즘 지연은 42.875ms이다. 이는 하나의 20ms 프레임, 입력 및 출력 재-샘플링 필터들의 1.875ms 지연, 인코더 예견(look-ahead)에 대한 10ms, 1ms의 포스트 필터링(post-filtering) 지연 및 상위 계층 변환 코딩의 오버랩(overlap) 가산 동작을 허용하기 위한 디코더에서의 10ms로 구성된다. NB 입력 및 NB 출력의 경우, 상위 계층은 사용되지 않으나, 음악 신호인 경우 또는 프레임 손실이 있는 경우, 코덱 성능을 향상시키기 위해 10ms 디코더 지연이 사용된다. NB입력 및 NB 출력의 전체 알고리즘 지연은 43.875ms이다 - 하나의 20ms 프레임, 입력 재-샘플링 필터의 2ms 지연, 인코더 예견에 대한 10ms, 출력 재-샘플링 필터의 1.875ms 지연 및 디코더에서의 10ms로 구성된다. 출력이 계층 2(layer 2)으로 제한되면, 코덱 지연은 10ms만큼 줄일 수 있다.
인코더의 일반적인 기능은 공통 프로세싱(common processing), CELP(Code-Excited Linear Prediction) 코딩 모드, MDCT(Modified Discrete Cosine Transform) 코딩 모드, 스위칭 코딩 모드, 프레임 손실 은닉 부가 정보, DTX/CNG(Discontinuous Transmission/Comfort Noise Generator) 동작, AMR-WB 상호운용 옵션 및 채널 인지 인코딩의 섹션들을 포함한다.
본 실시예에 따르면, 본 발명에 따른 접근법은 DTX/CNG 동작 섹션에서 구현된다. 코덱에는 활성 또는 비활성으로 각 입력 프레임을 분류하기 위해 SAD(Signal Activity Detection) 알고리즘이 탑재된다. 이것은 FD-CNG(Frequency-Domain Comfort Noise Generation) 모듈이 가변 비트 레이트에서 백그라운드 노이즈의 통계를 근사화하고 업데이트하는 데 사용되는 불연속 전송(DTX) 동작을 지원한다. 따라서, 비활성 신호 주기 동안 송신 레이트는 변할 수 있고, 백그라운드 노이즈의 추산된 레벨에 의존한다. 다만, CNG 업데이트 레이트는 또한, 커맨드 라인(command line) 파라미터를 통해 고정될 수 있다.
스펙트럼-시간 특성과 관련하여 실제 입력 백그라운드 노이즈와 유사한 인공적인 노이즈를 생성 가능하도록, FD-CNG는 인코더 입력에 존재하는 백그라운드 노이즈의 에너지를 추적하는 노이즈 추산 알고리즘을 사용한다. 노이즈 추산치는 그리고 나서, 비활성 상태 동안 디코더 측에서 각 주파수 대역에 생성된 임의 시퀀스(random sequences)의 진폭을 업데이트하기 위해 SID(Silence Insertion Descriptor) 프레임 형식의 파라미터로서 전송된다.
FD-CNG 노이즈 추산기는 하이브리드(hybrid) 스펙트럼 분석 방법에 의존한다. 코어 대역폭(core bandwidth)에 해당하는 낮은 주파수는 고해상도(high-resolution) FFT분석에 의해 커버되는 반면, 남아 있는 높은 주파수는 400Hz의 상당히 낮은 스펙트럼 해상도(resolution)를 보이는 CLDFB에 의해 포착된다. CLDFB는 또한, 입력 신호를 코어(core) 샘플링 레이트로 다운샘플링(downsample)하기 위한 재-샘플링 도구로서 사용된다.
다만, 실제로 SID 프레임의 크기는 제한된다. 백그라운드 노이즈를 서술하는 파라미터의 개수를 감소시키기 위해, 입력 에너지는 이후에 파티션들(partitions)이라고 불리는 스펙트럼 대역의 그룹들 사이에서 평균화된다.
1. 스펙트럼의 파티션(partition) 에너지
파티션 에너지는 FFT와 CLDFB 대역들에 대해 개별적으로 계산된다. FFT 파티션에 해당하는
Figure 112017019022084-pct00020
에너지와 CLDFB 파티션에 해당하는
Figure 112017019022084-pct00021
에너지는 이후 아래("2. FD-CNG 노이즈 추산" 참조)에서 설명할 노이즈 추산기의 입력으로 제공되는
Figure 112017019022084-pct00022
크기의 단일 배열
Figure 112017019022084-pct00023
로 연결(concatenate)된다.
1.1 FFT 파티션 에너지의 계산
코어(core) 대역을 커버하는 주파수의 파티션 에너지는 아래 수학식 3과 같이 계산되며,
Figure 112017019022084-pct00024
Figure 112017019022084-pct00025
Figure 112017019022084-pct00026
는 제1 및 제2 분석 윈도우(window) 각각에 대한 임계 대역(critical band) i에서의 평균 에너지이다. 아래 설명에서 사용된 설정("1.3 FD-CNG 인코더 설정" 참조)에 따라, 코어 대역폭을 획득하는 FFT 파티션들
Figure 112017019022084-pct00027
의 개수는 7과 21 사이의 범위이다. 디-엠퍼시스(de-emphasis) 스펙트럼 가중치
Figure 112017019022084-pct00028
는 고역 통과 필터를 보상하기 위해 사용되고, 아래 수학식 4와 같이 정의된다.
Figure 112017019022084-pct00029
1.2 CLDFB 파티션 에너지의 계산
코어 대역보다 높은 주파수의 파티션 에너지는 아래 수학식 5와 같이 계산되며,
Figure 112017019022084-pct00030
여기서,
Figure 112017019022084-pct00031
Figure 112017019022084-pct00032
는 각각 i-번째 파티션에서 첫 번째와 마지막 CLDFB 대역 각각의 지수(index)이며,
Figure 112017019022084-pct00033
는 j-번째 CLDFB 대역의 전체 에너지이고,
Figure 112017019022084-pct00034
는 스케일링 인자(factor)이다. 상수 16은 CLDFB에서 시간 슬롯들의 개수를 나타낸다. CLDFB 파티션
Figure 112017019022084-pct00035
의 개수는 아래 설명에서 사용된 설정에 의존한다.
1.3 FD-CNG 인코더 구성들(configurations)
표 1은 인코더에서 FD-CNG 노이즈 추산의 구성을 나타내며, 인코더에서 여러 FD-CNG 구성에 대한 상위 경계와 파티션의 개수를 리스팅한다.
비트 레이트
(Bit-rates)
[kbps]
Figure 112017019022084-pct00036
Figure 112017019022084-pct00037
Figure 112017019022084-pct00038

[Hz]
Figure 112017019022084-pct00039

[Hz]
NB
Figure 112017019022084-pct00040
17 0 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3975
Figure 112017019022084-pct00041
WB
Figure 112017019022084-pct00042
20 0 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375
Figure 112017019022084-pct00043
Figure 112017019022084-pct00044
20 1 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375 8000
Figure 112017019022084-pct00045
21 0 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375, 7975
Figure 112017019022084-pct00046
SW
B/FB
Figure 112017019022084-pct00047
20 4 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375 8000, 10000, 12000, 14000
Figure 112017019022084-pct00048
21 3 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375, 7975 10000, 12000, 16000
각 파티션
Figure 112017019022084-pct00049
에 대해
Figure 112017019022084-pct00050
는 i-번째 파티션의 마지막 대역의 주파수에 대응한다. 각 스펙트럼의 파티션에서 첫 번째와 마지막 대역의 지수
Figure 112017019022084-pct00051
Figure 112017019022084-pct00052
는 수학식 6 및 7과 같은 코어 구성의 함수로 도출할 수 있다.
Figure 112017019022084-pct00053
Figure 112017019022084-pct00054
여기서,
Figure 112017019022084-pct00055
는 첫 번째 스펙트럼 파티션에서 첫 번째 대역의 주파수이다. 따라서, FD-CNG는 오직 50Hz를 초과하는 여러 컴포트(comfort) 노이즈를 생성한다.
2. FD-CNG 노이즈 추산
FD-CNG는 입력 스펙트럼에 존재하는 백그라운드 노이즈의 에너지를 추적하는 노이즈 추산기에 의존한다. 이것은 대부분 R. Marten의 "Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics"(2001)에서 설명된 최소 통계 알고리즘을 기초로 하고 있다. 다만, 입력 에너지
Figure 112017019022084-pct00056
의 동적 범위를 감소시키고 그에 따라, 노이즈 추산 알고리즘의 고정 소수점 구현을 용이하게 하기 위해, 비선형 변환이 노이즈 추산 이전에 적용된다("2.1 입력 에너지에 대한 동적 범위 압축" 참조). 이후 기존의 동적 범위를 회복하기 위해 역변환이 노이즈 추산치 결과에 사용된다. ("2.3 추산된 노이즈 에너지에 대한 동적 범위 확장" 참조).
2.1 입력 에너지에 대한 동적 범위 압축
입력 에너지는 비선형 함수에 의해 프로세싱되고, 수학식 8과 같이 9 비트의 해상도(resolution)로 양자화된다.
Figure 112017019022084-pct00057
2.2 노이즈 추적
최소 통계 알고리즘의 자세한 설명은 R. Martin의 "Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics"(2001)에서 찾을 수 있다. 이것은 기본적으로, 일반적으로 수초 이상의, 각 스펙트럼 대역의 주어진 길이의 슬라이딩 시간 윈도우(sliding temporal window)상에서 평활한 파워 스펙트럼(smoothed power spectrum)의 최소치를 추적하는 것으로 구성된다. 또한, 알고리즘은 노이즈 추산의 정확도를 향상시키기 위한 바이어스 보상을 포함한다. 게다가, 추산된 노이즈 에너지의 적당한 증가가 초래된다면, 시간에 따라 변하는 노이즈의 추적을 향상시키기 위해, 더 짧은 시간 윈도우(temporal window)에서 연산된 로컬 최소치가 원래의 최소치 대신에 사용될 수 있다. 허용되는 증가량은 R. Martin의 "Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics"(2001)의 noise_slope_max 파라미터에 의해 결정된다.
노이즈 추적부의 주요 출력은 노이즈 추산치
Figure 112017019022084-pct00058
,
Figure 112017019022084-pct00059
이다. 컴포트(comfort) 노이즈에서의 순조로운 전환을 위해, 1차 회귀(recursive) 필터 즉,
Figure 112017019022084-pct00060
가 적용될 수 있다.
또한, 입력 에너지
Figure 112017019022084-pct00061
는 마지막 5 프레임 동안 평균되어질 수 있다. 이는 각 스펙트럼의 파티션에서
Figure 112017019022084-pct00062
에 상한을 적용하는 데 사용된다.
2.3 추산된 노이즈 에너지에 대한 동적 범위 확장
추산된 노이즈 에너지는 수학식 9와 같이 동적 범위 압축을 보상하기 위해 비선형 함수에 의해 프로세싱된다.
Figure 112017019022084-pct00063
본 발명에 따르면, 특히 고정 소수점 연산을 사용하는 프로세서들에서 프로세싱되는 오디오/음성 신호들에 있어서, 노이즈 추산기의 복잡도를 줄이는 오디오 신호에서 노이즈를 추산하는 향상된 접근법이 기술된다. 본 발명은 예를 들어, 높은 스펙트럼-시간 해상도를 가지는 컴포트 노이즈의 생성을 나타내는 PCT/EP2012/077527에 기술된 환경 또는 낮은 비트 레이트에서 백그라운드 노이즈의 모델링을 위한 컴포트 노이즈 가산을 나타내는 PCT/EP2012/077527에서 오디오/음성 신호의 처리를 위해 노이즈 추산기에서 사용되는 동적 범위를 감소시킨다. 설명된 시나리오에서, 노이즈 추산기는 예를 들어, EVS 코덱의 테스트된 범주들 중 하나와 전화 통화에서 아주 일반적인 상황인 백그라운드 노이즈가 있는 상태에서의 음성과 같이 백그라운드 노이즈의 품질을 향상시키기 위해 또는 시끄러운 음성 신호를 위한 컴포트 노이즈의 생성을 위해 최소 통계 알고리즘을 기초로 동작하여 사용된다. 표준화에 따라 EVS 코덱은 고정 연산을 하는 프로세서를 사용하고, 본 발명에 따른 접근법은 더 이상 선형 영역이 아닌 로그 영역에서 오디오 신호의 에너지 값을 프로세싱하는 최소 통계 노이즈 추산기에 사용되는 신호의 동적 범위를 감소시켜 프로세싱 복잡도를 감소시킨다.
비록 설명된 개념의 일부 측면은 장치의 맥락에서 설명되었지만, 이와 같은 측면은 또한 대응하는 방법을 표현함이 명백하며, 이때, 블록이나 장치가 방법의 단계 또는 방법의 단계의 특징에 대응한다. 유사하게, 방법의 단계의 맥락에서 설명된 측면은 대응하는 블록이나 아이템 또는 대응하는 장치의 특징을 설명한다.
특정 구현 요건에 따라, 본 발명의 일 실시예는 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 디지털 저장매체, 예를 들면 플로피 디스크, DVD, 블루-레이, CD, ROM, PROM, EPROM, EEPROM, 또는 플래시 메모리와 같이, 내부에 전자적으로 판독 가능한 제어 신호를 갖고, 각 방법이 수행되는 프로그래머블 컴퓨터 시스템과 같이 협업하는(또는 협업할 수 있는), 저장매체를 사용하여 수행될 수 있다. 따라서, 디지털 저장 매체는 판독 가능한 컴퓨터일 수 있다.
여러 실시예들은 전자적으로 판독 가능한 제어 신호를 갖는 데이터 캐리어를 포함하며, 이는 프로그래머블 컴퓨터 시스템과 협업하여, 여기서 설명된 방법이 수행되도록 할 수 있다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로 구현될 수 있고, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 수행될 때 상기 방법들 중의 하나를 수행하도록 동작할 수 있다. 프로그램 코드는 예를 들면, 기계 판독 가능한 캐리어 상에 저장된다.
다른 실시예들은 여기서 기술된 방법들 중의 하나를 수행하는 컴퓨터 프로그램을 포함하며, 이는 기계 판독 가능한 캐리어 상에 저장된다.
즉, 본 발명의 방법의 일 실시예는, 따라서, 컴퓨터 프로그램이 컴퓨터상에서 수행될 때, 여기서 설명된 방법들 중의 하나를 수행하는 프로그램 코드를 갖는 컴퓨터 프로그램이다.
또 다른 실시예는, 따라서, 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독 가능한 매체)이며, 이는 여기서 설명된 방법들 중의 하나를 수행하는 컴퓨터 프로그램을 기록하여 포함한다.
또 다른 실시예는, 따라서, 데이터 스트림 또는 여기서 설명된 방법들 중의 하나를 수행하는 컴퓨터 프로그램을 표현하는 신호 시퀀스이다. 데이터 스트림과 신호 시퀀스는 예를 들면, 데이터 통신 연결, 인터넷을 통해 수송되도록 구성될 수 있다.
또 다른 실시예는 프로세싱 수단 예를 들면, 컴퓨터 또는 여기서 설명된 방법들 중의 하나를 수행하도록 적용된 프로그래머블 논리 장치를 포함한다.
또 다른 실시예는 여기에서 설명된 방법들 중의 하나를 수행하는 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
여러 실시예들에서, 프로그래머블 논리 장치(예를 들면, 필드 프로그래머블 게이트 어레이)는 여기서 설명된 방법의 기능성 일부 또는 전부를 수행하도록 사용될 수 있다. 여러 실시예들에서, 필드 프로그래머블 게이트 어레이는 마이크로프로세서와 협업하여 여기서 설명된 방법들 중의 하나를 수행할 수 있다. 일반적으로, 여기서 설명된 방법들은 어느 하드웨어 장치에 의해서도 바람직하게 수행될 수 있다.
상술한 실시예들은 단지 본 발명의 원리에 대한 예시들일 뿐이다. 여기서 설명된 방식과 세부사항에 대한 수정 및 변경들은 당업자들에게 명백함이 이해되어야 한다. 하기의 특허청구범위의 영역에 의해서만 제한되며 상술한 실시예의 기술이나 설명의 방법에 의해서 표현되는 특정 사항에 의하여 제한되지 않음이 의도된다.

Claims (12)

  1. 오디오 신호(102)의 노이즈를 추산하는 방법으로서,
    상기 오디오 신호(102)에 대한 에너지 값(174)을 결정하는 단계(S100);
    상기 에너지 값(174)을 로그2-영역으로 변환하는 단계(S102); 및
    상기 로그2-영역에서 직접 상기 변환된 에너지 값(178)을 기초로 상기 오디오 신호(102)의 노이즈 레벨(182)을 추산하는 단계(S104)를 포함하고,
    에너지 값(174)은 아래 식에 따라 로그2-영역으로 변환(S102)되고,
    Figure 112017019044886-pct00073

    여기서,
    Figure 112017019044886-pct00074
    Figure 112017019044886-pct00075
    의 바닥함수(floor function),
    Figure 112017019044886-pct00076
    는 로그2-영역에서 대역 n의 에너지 값,
    Figure 112017019044886-pct00077
    는 선형 영역에서 대역 n의 에너지 값,
    N은 양자화 해상도(resolution)인, 오디오 신호의 노이즈 추산 방법.
  2. 청구항 1에 있어서,
    상기 노이즈 레벨을 추산하는 단계(S104)는,
    최소 통계 알고리즘과 같은 미리 정해진 노이즈 추산 알고리즘을 수행하는 단계를 포함하는, 오디오 신호의 노이즈 추산 방법.
  3. 청구항 1에 있어서,
    상기 에너지 값(174)을 결정하는 단계(S100)는,
    상기 오디오 신호(102)를 주파수 영역으로 변환하여 상기 오디오 신호(102)의 파워 스펙트럼을 획득하는 단계, 상기 파워 스펙트럼을 음향 심리학적으로 동기된(psychoacoustically motivated) 대역들로 그룹화하는 단계, 대역 내에 파워 스펙트럼 빈(Bin)들을 축적함으로써 각 대역의 에너지 값(174)을 형성하는 단계를 포함하고, 각 대역에 대한 상기 에너지 값(174)은 로그2-영역으로 변환되고, 노이즈 레벨은 대응되는 변환된 에너지 값(174)을 기초로 각 대역에 대해 추산되는, 오디오 신호의 노이즈 추산 방법.
  4. 청구항 3에 있어서,
    상기 오디오 신호(102)는 복수의 프레임을 포함하고, 각 프레임에 대해 에너지 값(174)이 결정되어 로그2-영역으로 변환되고, 상기 노이즈 레벨은 변환된 에너지 값을 기초로 프레임의 각 대역에 대해 추산되는, 오디오 신호의 노이즈 추산 방법.
  5. 청구항 1에 있어서,
    상기 변환된 에너지 값(178)을 기초로 오디오 신호의 노이즈 레벨을 추산하는 단계(S104)에서는 로그 데이터를 산출하고, 상기 방법은,
    추가 프로세싱을 위해 직접 로그 데이터를 사용하는 단계(S108); 또는
    추가 프로세싱을 위해 로그 데이터를 다시 선형 데이터로 변환하는 단계(S110, S112)를 더 포함하는, 오디오 신호의 노이즈 추산 방법.
  6. 청구항 5에 있어서,
    로그 영역에서 전송이 이루어지는 경우, 상기 로그 데이터가 직접 전송 데이터로 변환(S108)되고,
    로그 데이터를 직접 전송 데이터로 변환하는 단계(S110)는 예를 들어,
    Figure 112017019044886-pct00069

    과 같이 룩업 테이블(lookup table) 또는 근사화와 함께 시프트 함수를 사용하는, 오디오 신호의 노이즈 추산 방법.
  7. 컴퓨터상에서 실행되는 경우 청구항 1 내지 6 중 어느 하나의 방법을 수행하는 명령어를 저장하는 비일시적인 컴퓨터로 판독 가능한 매체.
  8. 오디오 신호(102)에 대한 에너지 값(174)을 결정하도록 구성된 검출부(172);
    상기 에너지 값(174)을 로그2-영역으로 변환하도록 구성된 변환부(176); 및
    로그2-영역으로 직접 변환된 에너지 값(178)을 기초로 오디오 신호(102)의 노이즈 레벨(182)을 추산하도록 구성된 추산부(180) 프로세서를 포함하고,
    에너지 값(174)은 아래 식에 따라 로그2-영역으로 변환(S102)되고,
    Figure 112017019044886-pct00078

    여기서,
    Figure 112017019044886-pct00079
    Figure 112017019044886-pct00080
    의 바닥함수(floor function),
    Figure 112017019044886-pct00081
    는 로그2-영역에서 대역 n의 에너지 값,
    Figure 112017019044886-pct00082
    는 선형 영역에서 대역 n의 에너지 값,
    N은 양자화 해상도(resolution)인, 노이즈 추산기(170).
  9. 청구항 8의 노이즈 추산기를 포함하는, 오디오 인코더(100).
  10. 청구항 8의 노이즈 추산기(170)을 포함하는, 오디오 디코더(150).
  11. 오디오 신호(102)를 전송하는 시스템으로서,
    수신한 오디오 신호(102)를 기초로 코딩된 오디오 신호(102)를 생성하는 오디오 인코더(100); 및
    코딩된 오디오 신호(102)를 수신하여, 코딩된 신호(102)를 디코딩하고, 디코딩된 오디오 신호(102)를 출력하는 오디오 디코더(150)를 포함하되,
    상기 오디오 인코더 및 상기 오디오 디코더 중 적어도 하나는 청구항 8의 노이즈 추산기(170)를 포함하는, 오디오 신호 전송 시스템.
  12. 삭제
KR1020177005256A 2014-07-28 2015-07-21 오디오 신호에서 노이즈를 추산하는 방법, 노이즈 추산기, 오디오 인코더, 오디오 디코더 및 오디오 신호를 전송하는 시스템 KR101907808B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14178779.6A EP2980801A1 (en) 2014-07-28 2014-07-28 Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
EP14178779.6 2014-07-28
PCT/EP2015/066657 WO2016016051A1 (en) 2014-07-28 2015-07-21 Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals

Publications (2)

Publication Number Publication Date
KR20170039226A KR20170039226A (ko) 2017-04-10
KR101907808B1 true KR101907808B1 (ko) 2018-10-12

Family

ID=51224866

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177005256A KR101907808B1 (ko) 2014-07-28 2015-07-21 오디오 신호에서 노이즈를 추산하는 방법, 노이즈 추산기, 오디오 인코더, 오디오 디코더 및 오디오 신호를 전송하는 시스템

Country Status (19)

Country Link
US (3) US10249317B2 (ko)
EP (4) EP2980801A1 (ko)
JP (3) JP6408125B2 (ko)
KR (1) KR101907808B1 (ko)
CN (2) CN112309422B (ko)
AR (1) AR101320A1 (ko)
AU (1) AU2015295624B2 (ko)
BR (1) BR112017001520B1 (ko)
CA (1) CA2956019C (ko)
ES (2) ES2768719T3 (ko)
MX (1) MX363349B (ko)
MY (1) MY178529A (ko)
PL (2) PL3175457T3 (ko)
PT (2) PT3175457T (ko)
RU (1) RU2666474C2 (ko)
SG (1) SG11201700701TA (ko)
TW (1) TWI590237B (ko)
WO (1) WO2016016051A1 (ko)
ZA (1) ZA201700532B (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2980801A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
GB2552178A (en) * 2016-07-12 2018-01-17 Samsung Electronics Co Ltd Noise suppressor
CN107068161B (zh) * 2017-04-14 2020-07-28 百度在线网络技术(北京)有限公司 基于人工智能的语音降噪方法、装置和计算机设备
RU2723301C1 (ru) * 2019-11-20 2020-06-09 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих
CN113193927B (zh) * 2021-04-28 2022-09-23 中车青岛四方机车车辆股份有限公司 一种电磁敏感性指标的获得方法及装置

Family Cites Families (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
GB2216320B (en) * 1988-02-29 1992-08-19 Int Standard Electric Corp Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
US5227788A (en) * 1992-03-02 1993-07-13 At&T Bell Laboratories Method and apparatus for two-component signal compression
FI103700B1 (fi) * 1994-09-20 1999-08-13 Nokia Mobile Phones Ltd Samanaikainen puheen ja datan siirto matkaviestinjärjestelmässä
CN1121684C (zh) 1995-09-14 2003-09-17 艾利森公司 用于选择性地改变一帧数字信号的方法和装置
FR2739995B1 (fr) * 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
JP3538512B2 (ja) * 1996-11-14 2004-06-14 パイオニア株式会社 データ変換装置
JPH10319985A (ja) * 1997-03-14 1998-12-04 N T T Data:Kk ノイズレベル検出方法、システム及び記録媒体
JP3357829B2 (ja) * 1997-12-24 2002-12-16 株式会社東芝 音声符号化/復号化方法
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6954800B2 (en) * 2000-04-07 2005-10-11 Broadcom Corporation Method of enhancing network transmission on a priority-enabled frame-based communications network
JP2002091478A (ja) * 2000-09-18 2002-03-27 Pioneer Electronic Corp 音声認識システム
US20030004720A1 (en) * 2001-01-30 2003-01-02 Harinath Garudadri System and method for computing and transmitting parameters in a distributed voice recognition system
WO2002071395A2 (en) * 2001-03-02 2002-09-12 Matsushita Electric Industrial Co., Ltd. Apparatus for coding scaling factors in an audio coder
JP2004525566A (ja) * 2001-03-12 2004-08-19 コネクサント システムズ インコーポレイテッド マルチパス信号検出、識別、及び広帯域符号分割多元接続システムを監視するための方法と装置
US7650277B2 (en) * 2003-01-23 2010-01-19 Ittiam Systems (P) Ltd. System, method, and apparatus for fast quantization in perceptual audio coders
CN1182513C (zh) * 2003-02-21 2004-12-29 清华大学 基于局部能量加权的抗噪声语音识别方法
WO2005004113A1 (ja) * 2003-06-30 2005-01-13 Fujitsu Limited オーディオ符号化装置
US7251322B2 (en) * 2003-10-24 2007-07-31 Microsoft Corporation Systems and methods for echo cancellation with arbitrary playback sampling rates
GB2409389B (en) * 2003-12-09 2005-10-05 Wolfson Ltd Signal processors and associated methods
WO2005086139A1 (en) * 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
US7869500B2 (en) * 2004-04-27 2011-01-11 Broadcom Corporation Video encoder and method for detecting and encoding noise
US7649988B2 (en) * 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
EP1774692A2 (en) 2004-07-01 2007-04-18 Staccato Communications, Inc. Multiband receiver synchronization
DE102004059979B4 (de) 2004-12-13 2007-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Berechnung einer Signalenergie eines Informationssignals
DE102004063290A1 (de) * 2004-12-29 2006-07-13 Siemens Ag Verfahren zur Anpassung von Comfort Noise Generation Parametern
US7707034B2 (en) 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
EP1984911A4 (en) * 2006-01-18 2012-03-14 Lg Electronics Inc DEVICE AND METHOD FOR SIGNAL CODING AND DECODING
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
EP1873754B1 (en) * 2006-06-30 2008-09-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
CN101115051B (zh) * 2006-07-25 2011-08-10 华为技术有限公司 音频信号处理方法、系统以及音频信号收发装置
CN101140759B (zh) * 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
CN1920947B (zh) * 2006-09-15 2011-05-11 清华大学 用于低比特率音频编码的语音/音乐检测器
US7912567B2 (en) * 2007-03-07 2011-03-22 Audiocodes Ltd. Noise suppressor
CN101335003B (zh) * 2007-09-28 2010-07-07 华为技术有限公司 噪声生成装置、及方法
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
US8331892B2 (en) 2008-03-29 2012-12-11 Qualcomm Incorporated Method and system for DC compensation and AGC
US20090259469A1 (en) * 2008-04-14 2009-10-15 Motorola, Inc. Method and apparatus for speech recognition
ES2526767T3 (es) * 2008-07-11 2015-01-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio, procedimiento para codificar una señal de audio y programa de ordenador
ES2654433T3 (es) * 2008-07-11 2018-02-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de señal de audio, método para codificar una señal de audio y programa informático
MY153594A (en) * 2008-07-11 2015-02-27 Fraunhofer Ges Forschung An apparatus and a method for calculating a number of spectral envelopes
US7961125B2 (en) * 2008-10-23 2011-06-14 Microchip Technology Incorporated Method and apparatus for dithering in multi-bit sigma-delta digital-to-analog converters
CN101740033B (zh) * 2008-11-24 2011-12-28 华为技术有限公司 一种音频编码方法和音频编码器
US20100145687A1 (en) * 2008-12-04 2010-06-10 Microsoft Corporation Removing noise from speech
GB2485926B (en) 2009-08-28 2013-06-05 Ibm Speech feature extracting apparatus, speech feature extracting method, and speech feature extracting program
CN102054480B (zh) * 2009-10-29 2012-05-30 北京理工大学 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
PL3779979T3 (pl) * 2010-04-13 2024-01-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób dekodowania audio do przetwarzania sygnałów audio stereo z wykorzystaniem zmiennego kierunku predykcji
KR101461774B1 (ko) 2010-05-25 2014-12-02 노키아 코포레이션 대역폭 확장기
EP2395722A1 (en) * 2010-06-11 2011-12-14 Intel Mobile Communications Technology Dresden GmbH LTE baseband reveiver and method for operating same
JP5296039B2 (ja) 2010-12-06 2013-09-25 株式会社エヌ・ティ・ティ・ドコモ 移動通信システムにおける基地局及びリソース割当方法
CN103261959B (zh) 2010-12-10 2015-11-25 夏普株式会社 半导体装置和半导体装置的制造方法以及液晶显示装置
AR085224A1 (es) * 2011-02-14 2013-09-18 Fraunhofer Ges Forschung Codec de audio utilizando sintesis de ruido durante fases inactivas
CA2827305C (en) * 2011-02-14 2018-02-06 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Noise generation in audio codecs
US9280982B1 (en) * 2011-03-29 2016-03-08 Google Technology Holdings LLC Nonstationary noise estimator (NNSE)
CN102759572B (zh) * 2011-04-29 2015-12-02 比亚迪股份有限公司 一种产品的质量检测方法和检测装置
KR101294405B1 (ko) * 2012-01-20 2013-08-08 세종대학교산학협력단 위상 변환된 잡음 신호를 이용한 음성 영역 검출 방법 및 그 장치
US8880393B2 (en) * 2012-01-27 2014-11-04 Mitsubishi Electric Research Laboratories, Inc. Indirect model-based speech enhancement
CN103325384A (zh) * 2012-03-23 2013-09-25 杜比实验室特许公司 谐度估计、音频分类、音调确定及噪声估计
CN102664017B (zh) * 2012-04-25 2013-05-08 武汉大学 一种3d音频质量客观评价方法
CN103597742A (zh) 2012-06-14 2014-02-19 西凯渥资讯处理科技公司 包含相关系统、装置及方法的功率放大器模块
EP2880654B1 (en) * 2012-08-03 2017-09-13 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases
EP2717261A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
CN103021405A (zh) * 2012-12-05 2013-04-03 渤海大学 基于music和调制谱滤波的语音信号动态特征提取方法
CA2894625C (en) 2012-12-21 2017-11-07 Anthony LOMBARD Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals
MY178710A (en) * 2012-12-21 2020-10-20 Fraunhofer Ges Forschung Comfort noise addition for modeling background noise at low bit-rates
CN103558029B (zh) * 2013-10-22 2016-06-22 重庆建设机电有限责任公司 一种发动机异响故障在线诊断系统和诊断方法
CN103546977A (zh) * 2013-11-11 2014-01-29 苏州威士达信息科技有限公司 基于HD Radio系统的动态频谱接入方法
CN103714806B (zh) * 2014-01-07 2017-01-04 天津大学 一种结合svm和增强型pcp特征的和弦识别方法
US10593435B2 (en) 2014-01-31 2020-03-17 Westinghouse Electric Company Llc Apparatus and method to remotely inspect piping and piping attachment welds
US9628266B2 (en) * 2014-02-26 2017-04-18 Raytheon Bbn Technologies Corp. System and method for encoding encrypted data for further processing
EP2980801A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Clay S. Turner, ‘A fast binary logarithm algorithm [DSP TIPS & TRICKS]’, IEEE Signal Processing Magazine, Vol.27, No.5, September 2010.*
Marius Rotaru et al., ‘An efficient GSC VSS-APA beamformer with integrated log-energy VAD for noise reduction in speech reinforcement systems’, IEEE ISSCS 2013, pp.1~4, July 2013.*

Also Published As

Publication number Publication date
ES2850224T3 (es) 2021-08-26
AU2015295624B2 (en) 2018-02-01
ES2768719T3 (es) 2020-06-23
CA2956019C (en) 2020-07-14
WO2016016051A1 (en) 2016-02-04
CN106716528B (zh) 2020-11-17
TWI590237B (zh) 2017-07-01
EP3826011A1 (en) 2021-05-26
PL3614384T3 (pl) 2021-07-12
US10249317B2 (en) 2019-04-02
US20190198033A1 (en) 2019-06-27
AU2015295624A1 (en) 2017-02-16
JP2019023742A (ja) 2019-02-14
EP3175457A1 (en) 2017-06-07
US20210035591A1 (en) 2021-02-04
EP3175457B1 (en) 2019-11-20
US20170133031A1 (en) 2017-05-11
KR20170039226A (ko) 2017-04-10
AR101320A1 (es) 2016-12-07
RU2666474C2 (ru) 2018-09-07
PT3614384T (pt) 2021-03-26
MX363349B (es) 2019-03-20
RU2017106161A3 (ko) 2018-08-28
SG11201700701TA (en) 2017-02-27
CA2956019A1 (en) 2016-02-04
EP3614384A1 (en) 2020-02-26
JP6408125B2 (ja) 2018-10-17
PT3175457T (pt) 2020-02-10
CN106716528A (zh) 2017-05-24
JP2017526006A (ja) 2017-09-07
BR112017001520A2 (pt) 2018-01-30
JP6730391B2 (ja) 2020-07-29
US10762912B2 (en) 2020-09-01
EP3614384B1 (en) 2021-01-27
EP2980801A1 (en) 2016-02-03
BR112017001520B1 (pt) 2023-03-14
ZA201700532B (en) 2019-08-28
RU2017106161A (ru) 2018-08-28
CN112309422A (zh) 2021-02-02
PL3175457T3 (pl) 2020-05-18
MY178529A (en) 2020-10-15
JP6987929B2 (ja) 2022-01-05
MX2017001241A (es) 2017-03-14
TW201606753A (zh) 2016-02-16
CN112309422B (zh) 2023-11-21
US11335355B2 (en) 2022-05-17
JP2020170190A (ja) 2020-10-15

Similar Documents

Publication Publication Date Title
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
JP6730391B2 (ja) オーディオ信号内の雑音を推定するための方法、雑音推定器、オーディオ符号化器、オーディオ復号器、およびオーディオ信号を送信するためのシステム
JP4212591B2 (ja) オーディオ符号化装置
KR102417047B1 (ko) 잡음 환경에 적응적인 신호 처리방법 및 장치와 이를 채용하는 단말장치
KR102617415B1 (ko) 다중 채널 신호 인코딩 방법 및 인코더
JP2001053617A (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
WO2019037714A1 (zh) 立体声信号的编码方法和编码装置
RU2752520C1 (ru) Управление полосой частот в кодерах и/или декодерах
EP4330963A1 (en) Method and device for multi-channel comfort noise injection in a decoded sound signal
JP2000276198A (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right