KR101907808B1 - 오디오 신호에서 노이즈를 추산하는 방법, 노이즈 추산기, 오디오 인코더, 오디오 디코더 및 오디오 신호를 전송하는 시스템 - Google Patents
오디오 신호에서 노이즈를 추산하는 방법, 노이즈 추산기, 오디오 인코더, 오디오 디코더 및 오디오 신호를 전송하는 시스템 Download PDFInfo
- Publication number
- KR101907808B1 KR101907808B1 KR1020177005256A KR20177005256A KR101907808B1 KR 101907808 B1 KR101907808 B1 KR 101907808B1 KR 1020177005256 A KR1020177005256 A KR 1020177005256A KR 20177005256 A KR20177005256 A KR 20177005256A KR 101907808 B1 KR101907808 B1 KR 101907808B1
- Authority
- KR
- South Korea
- Prior art keywords
- audio signal
- noise
- energy value
- log
- audio
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012545 processing Methods 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 24
- 238000001228 spectrum Methods 0.000 claims description 21
- 230000005540 biological transmission Effects 0.000 claims description 14
- 230000003595 spectral effect Effects 0.000 claims description 14
- 238000012896 Statistical algorithm Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 3
- 230000009365 direct transmission Effects 0.000 claims 1
- 238000005192 partition Methods 0.000 description 18
- 238000013459 approach Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 9
- 238000005070 sampling Methods 0.000 description 9
- 238000009499 grossing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004146 energy storage Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Monitoring And Testing Of Transmission In General (AREA)
Abstract
오디오 신호(102)에서 노이즈를 추산하는 방법이 설명된다. 오디오 신호(102)에 대한 에너지 값(174)이 추산되고(S100), 로그 영역으로 변환된다(S102). 오디오 신호(102)의 노이즈 레벨은 변환된 에너지 값(178)을 기초로 추산된다(S104).
Description
본 발명은 오디오 신호를 처리하는 분야에 관한 것으로서, 상세하게는, 예를 들어, 인코딩될 오디오 신호 또는 디코딩된 오디오 신호와 같은 오디오 신호에서 노이즈를 추산하는 접근법에 관한 것이다. 실시예들이 오디오 신호에서 노이즈를 추산하는 방법, 노이즈 추산기, 오디오 인코더, 오디오 디코더 및 오디오 신호를 전송하는 시스템을 기술한다.
오디오 신호의 인코딩되거나 디코딩된 오디오 신호와 같은 신호를 처리하는 분야에서, 노이즈를 추산하는 것이 요구되는 상황이다. 예를 들어, 본 발명에 참고로 인용된 PCT/EP2012/077525 및 PCT/EP2012/077527은 주파수 도메인에서 백그라운드 노이즈의 스펙트럼을 추산하기 위해 노이즈 추산기, 예를 들어, 최소 통계 노이즈 추산기를 사용하여 설명한다. 알고리즘에 입력된 신호는 FFT(Fast Fourier Transformation) 또는 다른 적절한 필터 뱅크(filter bank)에 의해 주파수 영역으로 블록 단위로 변환된다. 프레이밍(framing)은 일반적으로 코덱의 프레이밍과 동일하다. 즉, 코덱에 이미 존재하고 있는 변환들, 예를 들어, EVS(Enhanced Voice Services) 인코더에서 사전 프로세싱(preprocessing)에 사용되는 FFT는 재사용될 수 있다. 노이즈를 추산하기 위해 FFT의 파워 스펙트럼이 연산된다. 스펙트럼은 음향 심리학적으로 동기된(psychoacoustically motivated) 대역들로 그룹화될 수 있고, 대역마다 에너지 값을 형성하기 위해 대역 내의 파워 스펙트럼의 빈(bin)들이 축적된다. 마지막으로, 오디오 신호를 음향 심리학적으로 프로세싱하는 데 자주 사용되는 이러한 방법에 의해 에너지 값 세트가 얻어진다. 각 대역은 자체 노이즈 추산 알고리즘을 가진다, 즉, 각 프레임에서 해당 프레임의 에너지 값은 시간에 따라 신호를 분석하고 어떤 주어진 프레임에서 각 대역의 추산된 노이즈 레벨을 제공하는 노이즈 추산 알고리즘을 사용하여 프로세싱된다.
고품질의 음성 및 오디오 신호에 사용되는 샘플 해상도(resolution)는 16 비트일 수 있다, 즉, 신호는 96 dB의 신호-대-노이즈-레이트(Signal-to-Noise-Ratio, SNR)를 가진다. 파워 스펙트럼을 연산하는 것은 신호를 주파수 영역으로 변환하는 것과 각 주파수 빈의 제곱을 계산하는 것을 의미한다. 제곱 함수로 인해, 이것은 32 비트의 동적 범위를 요구한다. 대역 내의 에너지 분포가 실제로 알려지지 않았기 때문에 여러 개의 파워 스펙트럼 빈들을 대역들로 합산하는 데에는 동적 범위에 대한 추가적인 헤드룸(headroom)이 요구된다. 결과적으로, 프로세서에서 노이즈 추산기를 실행하기 위해 32 비트 이상의 동적 범위, 일반적으로 약 40 비트, 가 지원되어야 한다.
배터리와 같은, 에너지 저장 장치로부터 받는 에너지를 기초로 동작하는 오디오 신호들을 처리하는 장치에서, 예를 들어, 이동전화와 같은 휴대용 장치에서 에너지를 보전하기 위한 오디오 신호들의 전력(power) 효율적 처리는 배터리 수명을 위해 필수적이다. 공지된 접근법들에 따르면, 오디오 신호의 처리는 전형적으로 16 비트 또는 32 비트 고정 소수점 포맷에서 데이터를 처리하는 것을 지원하는 고정 소수점 프로세서들에 의해 수행된다. 프로세싱을 위한 가장 낮은 복잡도는 16 비트 데이터를 처리하는 것에 의해 달성되나, 반면 32 비트 데이터를 처리하는 것은 이미 약간의 오버헤드(overhead)를 요구한다. 40 비트 동적 범위를 가진 데이터를 처리하는 것은 데이터를 둘로, 즉, 가수(mantissa)와 지수(exponent)로 분할하는 것을 요구하며, 데이터를 수정할 때 둘 모두가 다루어져야 하고, 결국, 훨씬 더 높은 연산의 복잡도와 훨씬 더 높은 저장 수요를 초래한다.
전술된 종래 기술로부터 시작하여, 본 발명은 불필요한 연산의 오버헤드(overhead)를 피하기 위해 고정 소수점 프로세서를 사용하는 효율적인 방법으로 오디오 신호에서 노이즈를 추산하는 접근법을 제공하는 것을 목적으로 한다.
이러한 목적은 독립항들에서 정의된 청구대상에 의해서 달성된다.
본 발명은 오디오 신호의 에너지 값을 결정하는 단계, 에너지 값을 로그 영역으로 변환하는 단계, 및 변환된 에너지 값을 기초로 오디오 신호의 노이즈 레벨을 추산하는 단계를 포함하는 오디오 신호에서 노이즈를 추산하는 방법을 제공한다.
본 발명은 오디오 신호의 에너지 값을 결정하기 위해 구성된 검출부, 에너지 값을 로그 영역으로 변환하기 위해 구성된 변환부 및 변환된 에너지 값을 기초로 오디오 신호의 노이즈 레벨을 추산하기 위해 구성된 추산부를 포함하는 노이즈 추산기를 제공한다.
본 발명은 본 발명에 따른 방법에 따라 동작하도록 구성된 노이즈 추산기를 제공한다.
실시예들에 따르면, 로그 영역은 로그2-영역을 포함한다.
실시예들에 따르면, 노이즈 레벨을 추산하는 단계는, 로그 영역에서 직접 변환된 에너지 값을 기초로 미리 정의된 노이즈 추산 알고리즘을 수행하는 단계를 포함한다. 노이즈 추산은 R. Martin의 "Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics"(2001) 에서 설명된 최소 통계 알고리즘을 기초로 수행될 수 있다. 다른 실시예들에서는 T. Gerkmann 및 R. C. Hendriks의 "Unbiased MMSE-based Noise Power Estimation with Low Complexity and Low Tracking Delay"(2012) 에서 설명된 MMSE 기반의 노이즈 추산기 또는 L. Lin, W. Holmes 및 E. Ambikairajah의 "Adaptive Noise Estimation Algorithm for Speech Enhancement"(2003) 에서 설명된 알고리즘과 같은 대안적인 노이즈 추산 알고리즘이 사용될 수 있다.
실시예들에 따르면, 에너지 값을 결정하는 단계는 오디오 신호를 주파수 영역으로 변환하는 것에 의해 오디오 신호의 파워 스펙트럼을 획득하는 단계, 파워 스펙트럼을 음향 심리학적으로 동기된(psychoacoustically motivated) 대역들로 그룹화하는 단계 및 각 대역의 에너지 값을 형성하기 위해 대역 내의 파워 스펙트럼의 빈(bin)들을 축적하는 단계를 포함하고, 여기서 각 대역의 에너지 값은 로그 영역으로 변환되고, 여기서 노이즈 레벨은 대응하는 변환된 에너지 값을 기초로 각 대역에 대해 추산된다.
실시예들에 따르면, 오디오 신호는 복수의 프레임을 포함하고, 각 프레임에 대한 에너지 값이 결정되며, 로그 영역으로 변환되고, 변환된 에너지 값을 기초로 각 대역에 대해 노이즈 레벨이 추산된다.
실시예들에 따르면, 에너지 값은 다음과 같이 로그 영역으로 변환된다.
는 의 바닥함수(floor function)이고, 는 로그2-영역에서 대역 n의 에너지 값이며, 은 선형 영역에서 대역 n의 에너지 값이고, N은 양자화 해상도(resolution) 또는 정밀도(precision)를 나타낸다.
실시예들에 따르면, 변환된 에너지 값에 기초로 노이즈 레벨을 추산하는 단계는 로그 데이터를 산출하고, 상기 단계는 추가 프로세싱을 위해 로그 데이터를 직접 사용하는 단계, 또는 추가 프로세싱을 위해 로그 데이터를 선형 영역으로 다시 변환하는 단계를 더 포함한다.
실시예들에 따르면, 로그 영역에서 전송이 이루어지는 경우 로그 데이터가 직접 전송 데이터로 변환되고, 로그 데이터를 직접 전송 데이터로 변환하는 것은 룩업 테이블(lookup table) 또는 근사화, 예를 들어,
와 함께 시프트 함수를 사용한다.
본 발명은 컴퓨터 상에서 실행될 때 본 발명에 따른 방법을 수행하는 명령어를 저장하는 컴퓨터로 판독 가능한 매체를 포함하는 비일시적인(non-transitory) 컴퓨터 프로그램 제품을 제공한다.
본 발명은 본 발명에 따른 노이즈 추산기를 포함하는 오디오 인코더를 제공한다.
본 발명은 본 발명에 따른 노이즈 추산기를 포함하는 오디오 디코더를 제공한다.
본 발명은 수신된 오디오 신호를 기초로 코딩된 오디오 신호를 생성하기 위해 구성된 오디오 인코더, 및 코딩된 오디오 신호를 수신하기 위해 구성된 오디오 디코더를 포함하는 오디오 신호를 전송하는 시스템을 제공하고, 여기서, 코딩된 오디오 신호를 디코딩하기 위해 및 디코딩된 오디오 신호를 출력하기 위해 오디오 인코더 및 오디오 디코더 중 적어도 하나는 본 발명에 따른 노이즈 추산기를 포함한다.
본 발명의 중요 요소는 대역당 에너지 값을 로그 영역, 바람직하게는 로그2-영역으로 변환하는 것이고, 예를 들어, 최소 통계 알고리즘 또는 다른 적절한 알고리즘을 기초로 16 비트의 에너지 값으로 표현하는 것을 허용하고, 결국, 예를 들어, 고정 소수점 프로세서를 사용하는 것과 같이 더 효율적인 프로세싱을 허용하는 로그 영역에서 직접 노이즈 추산을 수행하는 것이다.
도 1은 인코딩될 오디오 신호 또는 디코딩된 오디오 신호에서 노이즈를 추산하기 위한 본 발명을 구현하는 오디오 신호를 전송하는 시스템의 간략 블록 구성도이다.
도 2는 오디오 신호 인코더 및/또는 오디오 신호 디코더 내에서 사용될 수 있는 일 실시예에 따른 노이즈 추산기의 간략 블록 구성도이다.
도 3은 일 실시예에 따라 오디오 신호에서 노이즈를 추산하는 방법을 나타내는 동작 순서도이다.
도 2는 오디오 신호 인코더 및/또는 오디오 신호 디코더 내에서 사용될 수 있는 일 실시예에 따른 노이즈 추산기의 간략 블록 구성도이다.
도 3은 일 실시예에 따라 오디오 신호에서 노이즈를 추산하는 방법을 나타내는 동작 순서도이다.
본 발명은 오디오 또는 음성에서 노이즈 레벨을 추산하기 위해, 노이즈 추산 알고리즘이 선형 에너지 데이터에서 동작하는 종래의 접근법과 달리, 그 알고리즘이 로그 입력 데이터 기반에서도 동작하는 것이 가능하다는 발명자의 발견에 기초한다. 노이즈 추산을 위한 데이터 정밀도에 대한 요구는 매우 높지 않은데, 예를 들어, 본 발명에서 참조하는 문헌인 PCT/EP2012/077525 또는 PCT/EP2012/077527에서 설명한 컴포트 노이즈 발생(comfort noise generation)을 위해 추산된 값을 사용하는 단계에서, 대역당 대략적으로 맞는 노이즈 레벨을 추산하는 것으로 충분하다는 것이 발견되었다, 즉, 추산되는 노이즈 레벨이, 예를 들어, 0.1 dB 이상인지 아닌지는 최종 신호에서 눈에 띄지 않을 것이다. 따라서, 종래 접근법에서는 40 비트가 데이터의 동적 범위를 커버하기 위해 요구될 수 있지만, 중간/높은 레벨 신호들을 위한 데이터 정밀도는 실제로 필요한 것보다 훨씬 더 높다. 이러한 발견들을 기초로, 실시예들에 따르면, 본 발명의 중요 요소는 대역당 에너지 값을 로그 영역, 바람직하게는 로그2-영역으로 변환하는 것이고, 예를 들어, 최소 통계 알고리즘 또는 다른 적절한 알고리즘을 기초로 16 비트의 에너지 값으로 표현하는 것을 허용하고, 결국, 예를 들어, 고정 소수점 프로세서를 사용하는 것과 같이 더 효율적인 프로세싱을 허용하는, 로그 영역에서 직접 노이즈 추산을 수행하는 것이다.
이하, 본 발명에 따른 접근법의 실시예들이 더욱 상세히 설명될 것이고, 첨부한 도면에서 동일하거나 유사한 기능을 가지는 요소들은 동일한 참조 부호에 의해 표시되어 있다.
도 1은 인코더 측면 및/또는 디코더 측면에서 본 발명을 구현하는 오디오 신호를 전송하는 시스템의 간략 블록 구성도이다.
도 1의 시스템은 오디오 신호(104)를 입력단(102)에서 수신하는 인코더(100)를 포함한다. 인코더는 오디오 신호(104)를 수신하고, 인코더의 출력부(108)에 제공되는 인코딩된 오디오 신호를 생성하는 인코딩 프로세서(106)를 포함한다. 인코딩 프로세서(106)는 오디오 신호의 연속적인 오디오 프레임을 프로세싱하고, 인코딩될 오디오 신호(104)에서 노이즈를 추산하는 방법을 수행하기 위해 프로그래밍되거나 구축될 수 있다. 다른 실시예들에서는, 인코더가 송신 시스템의 일부일 필요는 없으나, 인코딩된 오디오 신호를 생성하는 독립형 장치일 수 있고, 오디오 신호 송신기의 일부일 수 있다. 일 실시예에 따르면, 인코더(100)는 참조 부호 112로 나타낸 바와 같이 오디오 신호의 무선 송신을 가능하게 하는 안테나(110)를 포함할 수 있다. 다른 실시예들에서는, 인코더(100)는, 예를 들어, 참조 부호 114로 표시된 바와 같이, 유선 선로를 이용하여 출력부(108)에 제공되는 인코딩된 오디오 신호를 출력할 수 있다.
도 1의 시스템은 디코더(150)에 의해 프로세싱될 인코딩된 오디오 신호를 유선 선로(114) 또는 안테나(154) 등을 통해 수신하는 입력(152)을 가지는 디코더(150)를 더 포함한다. 디코더(150)는 인코딩된 신호를 디코딩하고, 디코더의 출력부(160)에 디코딩된 오디오 신호(158)를 제공하는 디코딩 프로세서(156)를 포함한다. 디코딩 프로세서(156)는 디코딩된 오디오 신호(104)에서 노이즈를 추산하는 본 발명의 접근법을 수행하는 프로세싱을 위해 프로그래밍되거나 구축될 수 있다. 다른 실시예들에서는, 디코더가 송신 시스템의 일부일 필요는 없고, 오히려, 인코딩된 오디오 신호를 디코딩하는 독립형 장치일 수 있고, 오디오 신호 수신기의 일부일 수 있다.
도 2는 일 실시예에 따른 노이즈 추산기(170)의 간략 블록 구성도이다.
노이즈 추산기(170)는 도 1에서 나타낸 오디오 신호 인코더 및/또는 오디오 신호 디코더에 사용될 수 있다. 노이즈 추산기(170)는 오디오 신호(102)에 대한 에너지 값(174)을 결정하는 검출부(172), 에너지 값(174)을 로그 영역으로 변환하는 변환부(176)(변환된 에너지 값(178) 참조), 변환된 에너지 값(178)을 기초로 오디오 신호(102)로부터 노이즈 레벨(182)을 추산하는 추산부(180)를 포함한다. 노이즈 추산기(170)는 검출부(172), 변환부(176) 및 추산부(180)의 기능을 수행하기 위해 프로그래밍되거나 구축된 공통 프로세서 또는 복수의 프로세서들에 의해 구현될 수 있다.
이하, 도 1의 인코딩 프로세서(106) 및 디코딩 프로세서(156) 중 적어도 하나에서, 또는 도 2의 노이즈 추산기(170)에 의해 구현될 수 있는, 발명의 실시예들을 더 상세히 설명할 것이다.
도 3은 오디오 신호에서 노이즈를 추산하는 본 발명에 따른 접근법의 동작 순서도이다. 오디오 신호가 수신되고, 첫 번째 S100 단계에서 오디오 신호의 에너지 값(174)이 결정되고, 이후, S102 단계에서 로그 영역으로 변환된다. S104 단계에서 변환된 에너지 값(178)을 기초로 노이즈가 추산된다. 실시예들에 따르면, S106 단계에서 로그 데이터(182)로 표현되는 추산된 노이즈 데이터의 추가 프로세싱이 로그 영역에서 이루어지는지 아닌지가 결정된다. 로그 영역에서 추가 프로세싱이 요구되는 경우(S106 단계에서 예), S108 단계에서 추산된 노이즈를 표현하는 로그 데이터가 처리되는데, 예를 들어, 전송 또한 로그 영역에서 발생하는 경우 로그 데이터가 전송 파라미터로 변환된다. 그렇지 않으면(S106 단계에서 아니오), S110 단계에서 로그 데이터(182)는 선형 데이터로 다시 변환되고, S112 단계에서 선형 데이터가 처리된다.
실시예들에 따르면, S100 단계에서 오디오 신호의 에너지 값을 결정하는 것은 종래의 접근법들로 이루어질 수 있다. 오디오 신호에 적용된 FFT의 파워 스펙트럼이 계산되고 음향 심리학적으로 동기된(psychoacoustically motivated) 대역들로 그룹화된다. 대역 내의 파워 스펙트럼 빈(bin)들은 대역별 에너지 값을 형성하도록 축적되어 에너지 값 세트(set)가 획득된다. 다른 실시예들에 따르면, 파워 스펙트럼은 MDCT(Modified Discrete Cosine Transform), CLDFB(Complex Low-Delay Filterbank) 또는 스펙트럼의 다른 부분들을 커버하는 여러 변환의 조합과 같이 적절한 스펙트럼의 변환을 기초로 연산될 수 있다. S100 단계에서 각 대역의 에너지 값(174)이 결정되고, S102 단계에서 각 대역의 에너지 값(174)이 로그 영역으로, 실시예들에 따르면, 로그2-영역으로, 변환된다. 대역 에너지들은 수학식 1에 따라 로그2-영역으로 변환될 수 있다.
여기서, 는 의 바닥함수(floor function)이고, 는 로그2-영역에서 대역 n의 에너지 값이며, 은 선형 영역에서 대역 n의 에너지 값이고, N은 해상도(resolution) 또는 정밀도(precision)를 나타낸다.
실시예들에 따르면, 로그2-영역으로의 변환은, 예를 들어, 고정 한 사이클에서 소수점 숫자의 앞자리 0의 수를 결정하는 "norm"함수를 사용하는 고정 소수점 프로세서들에서 (int)log2 함수는 일반적으로 매우 빠르게 연산되는 장점을 가진다. 수학식 1에서 상수 N으로 표현되는 경우, 때때로 (int)log2보다 높은 정밀도가 요구된다. 이러한 약간 더 높은 정밀도는 더 낮은 정밀도가 허용될 때 낮은 복잡도의 로그 연산을 얻기 위한 일반적인 방법인 놈(norm) 명령어 및 근사화 후에, MSB(Most Significant Bits)를 가지는 간단한 룩업 테이블(lookup table)을 통해 획득할 수 있다. 수학식 1에서, 로그2 함수 내의 상수 1이 변환된 에너지가 양의 값을 유지하기 위해 추가된다. 실시예들에 따르면, 이것은, 노이즈 추산기가 노이즈 에너지의 통계적 모델에 의존하는 경우 중요할 수 있는데, 음의 값에 대한 노이즈 추산 수행이 이러한 모델을 위반할 수 있고, 추산기의 예상치 못한 동작을 초래할 수 있기 때문이다.
일 실시예에 따르면, 수학식 1에서 N은 동적 범위의 비트에 동등한 6으로 설정된다. 이것은 상술된 40 비트의 동적 범위보다 더 크고, 충분하다. 데이터 처리의 목표는 16 비트를 사용하는 것이며, 이는 가수(mantissa)를 위한 9 비트와 부호를 위한 1 비트를 남겨둔다. 이러한 포맷은 흔히 "6Q9"포맷으로 표시된다. 대안적으로, 양의 값만이 고려될 수 있기 때문에, 부호 비트는 생략될 수 있고, 가수를 위해 10 비트 전체를 남기도록 사용될 수 있으며, 이는 "6Q10"포맷으로 지칭된다.
최소 통계 알고리즘의 자세한 설명은 R. Martin의 "Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics"(2001) 에서 발견될 수 있다. 그것은 기본적으로, 일반적으로 수초 이상의, 각 스펙트럼 대역의 주어진 길이의 슬라이딩 시간 윈도우(sliding temporal window)상에서 평활화된 파워 스펙트럼(smoothed power spectrum)의 최소치를 추적하는 것에 특징이 있다. 또한, 이 알고리즘은 노이즈 추산의 정확도를 향상시키기 위한 바이어스 보상을 포함한다. 게다가, 시변(time-varying) 노이즈 추적을 향상시키기 위해, 추산된 노이즈 에너지의 적당한 증가가 초래된다면, 기존의 최소치 대신에 더욱 더 짧은 시간 윈도우(temporal window)에서 연산된 로컬 최소치가 사용될 수 있다. 허용되는 증가량은 R. Martin의 "Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics"(2001) 의 noise_slope_max 파라미터에 의해 결정된다. 일 실시예에 따르면, 일반적으로 선형 에너지 데이터상에서 동작하는 최소 통계 노이즈 추산 알고리즘이 사용된다. 하지만, 본 발명자의 발견에 따르면, 오디오 자료 또는 음성 자료에서 노이즈 레벨들을 추산하기 위해, 이 알고리즘은 로그 입력 데이터를 대신 제공받을 수 있다. 신호 처리 자체는 수정되지 않은 채로 남아있는 반면, 단지 최소한의 조정이 요구되며, 이는 선형 데이터에 비해 감소된 로그 데이터의 동적 범위에 대처하기 위해 noise_slope_max 파라미터를 감소시키는 것에 특징이 있다. 지금까지, 최소 통계 알고리즘, 또는 다른 적절한 노이즈 추산 기술은 선형 데이터상에서 동작되어야 한다고 가정되었다, 즉, 실제로 로그 표현인 데이터는 적절하지 않은 것으로 여겨졌다. 이러한 종래의 가정과 반대로, 발명자는 대부분의 동작들이 16 비트로 수행될 수 있고 이 알고리즘의 일부분만이 여전히 32 비트를 요구하기 때문에, 16 비트로만 표현되는 입력 데이터 사용을 허용하고, 결과적으로, 고정 소수점 구현에서 더 낮은 복잡도를 제공하는 로그 데이터상에서 노이즈 추산이 실제로 동작될 수 있다고 발견하였다. 예를 들어, 최소 통계 알고리즘에서 바이어스 보상은 입력 전력의 분산에 기초하므로, 일반적으로 여전히 32 비트 표현을 요구하는 4차 통계를 기반으로 한다.
도 3과 관련하여 상술한 바와 같이, 노이즈 추산 프로세스의 결과는 여러 방법으로 더 프로세싱될 수 있다. 실시예들에 따르면, 첫 번째 방법은 예를 들어, 전송 파라미터가 로그 영역에서 전송되는 경우, 로그 데이터(182)를 전송 파라미터로 직접 변환하는 것과 같이, 로그 데이터(182)를 직접 사용하는 것이다(S108). 두 번째 방법은, 수학식 2와 같이, 예를 들어, 근사화를 사용하거나 룩업 테이블과 함께, 프로세서에서 일반적이고 전형적으로 한 사이클을 요구하면서 아주 빠른 시프트 함수를 사용하여, 추가 프로세싱을 위해 로그 데이터(182)가 선형 데이터로 다시 변환되도록 처리하는 것이다.
아래에서는, 로그 데이터를 기초로 노이즈를 추산하는 본 발명에 따른 접근법을 구현하기 위한 구체적인 예가 인코더를 참조하여 설명될 것이나, 상술한 바와 참고로 인용된 PCT/EP2012/077525 또는 PCT/EP2012/077527에서 설명된 예와 같이, 본 발명에 따른 접근법은 디코더에서 디코딩되는 신호에 대해서도 또한 적용될 수 있다. 다음 실시예는 도 1의 인코더(100)와 같이 오디오 인코더에서 오디오 신호의 노이즈를 추산하기 위한 본 발명에 따른 접근법의 구현을 설명한다. 더욱 상세하게는, EVS(Enhanced Voice Services) 인코더(encoder)에서 수신된 오디오 신호의 노이즈를 추산하기 위한 본 발명에 따른 접근법을 구현하기 위해 EVS 코더(coder)의 신호 처리 알고리즘의 설명이 주어질 것이다.
20ms 길이의 오디오 샘플의 입력 블록은 16 비트 균일한 PCM(Pulse Code Modulation) 포맷으로 가정한다. 4개의 샘플링 레이트, 예를 들어, 8,000, 16,000, 32,000 및 48,000 samples/s가 가정되고, 인코딩된 비트 스트림에 대한 비트 레이트는 5.9, 7.2, 8.0, 9.6, 13.2, 16.4, 24.4, 32.0, 48.0, 64.0 또는 128.0 kbit/s일 수 있다. 인코딩된 비트 스트림에 대한 비트 레이트 6.6, 8.85, 12.65, 14.85, 15.85, 18.25, 19.85, 23.05 또는 23.85 kbit/s에서 동작하는 AMR-WB(Adaptive Multi Rate Wideband (codec)) 상호운용 가능 모드가 또한 제공된다.
아래의 설명을 위해 다음의 규칙을 수학식에 적용한다.
다르게 명시하지 않는 한, 아래 설명 전체에서 log(x)는 밑이 10인 로그를 나타낸다.
인코더는 48, 32, 16 또는 8 kHz로 샘플링된 전대역(FullBand, FB), 초광대역(SuperWideBand, SWB), 광대역(WideBand, WB) 또는 협대역(NarrowBand, NB) 신호를 허용한다. 유사하게, 디코더의 출력은 48, 32, 16 또는 8 kHz의 FB, SWB, WB 또는 NB가 될 수 있다. 파라미터 R(8, 16, 32 또는 48)은 인코더에서 입력 샘플링 레이트 또는 디코더에서 출력 샘플링 레이트를 나타내기 위해 사용된다.
입력 신호는 20ms 프레임을 사용하여 처리된다. 코덱 지연은 입력과 출력의 샘플링 레이트에 의존한다. WB 입력 및 WB 출력의 경우 전체 알고리즘 지연은 42.875ms이다. 이는 하나의 20ms 프레임, 입력 및 출력 재-샘플링 필터들의 1.875ms 지연, 인코더 예견(look-ahead)에 대한 10ms, 1ms의 포스트 필터링(post-filtering) 지연 및 상위 계층 변환 코딩의 오버랩(overlap) 가산 동작을 허용하기 위한 디코더에서의 10ms로 구성된다. NB 입력 및 NB 출력의 경우, 상위 계층은 사용되지 않으나, 음악 신호인 경우 또는 프레임 손실이 있는 경우, 코덱 성능을 향상시키기 위해 10ms 디코더 지연이 사용된다. NB입력 및 NB 출력의 전체 알고리즘 지연은 43.875ms이다 - 하나의 20ms 프레임, 입력 재-샘플링 필터의 2ms 지연, 인코더 예견에 대한 10ms, 출력 재-샘플링 필터의 1.875ms 지연 및 디코더에서의 10ms로 구성된다. 출력이 계층 2(layer 2)으로 제한되면, 코덱 지연은 10ms만큼 줄일 수 있다.
인코더의 일반적인 기능은 공통 프로세싱(common processing), CELP(Code-Excited Linear Prediction) 코딩 모드, MDCT(Modified Discrete Cosine Transform) 코딩 모드, 스위칭 코딩 모드, 프레임 손실 은닉 부가 정보, DTX/CNG(Discontinuous Transmission/Comfort Noise Generator) 동작, AMR-WB 상호운용 옵션 및 채널 인지 인코딩의 섹션들을 포함한다.
본 실시예에 따르면, 본 발명에 따른 접근법은 DTX/CNG 동작 섹션에서 구현된다. 코덱에는 활성 또는 비활성으로 각 입력 프레임을 분류하기 위해 SAD(Signal Activity Detection) 알고리즘이 탑재된다. 이것은 FD-CNG(Frequency-Domain Comfort Noise Generation) 모듈이 가변 비트 레이트에서 백그라운드 노이즈의 통계를 근사화하고 업데이트하는 데 사용되는 불연속 전송(DTX) 동작을 지원한다. 따라서, 비활성 신호 주기 동안 송신 레이트는 변할 수 있고, 백그라운드 노이즈의 추산된 레벨에 의존한다. 다만, CNG 업데이트 레이트는 또한, 커맨드 라인(command line) 파라미터를 통해 고정될 수 있다.
스펙트럼-시간 특성과 관련하여 실제 입력 백그라운드 노이즈와 유사한 인공적인 노이즈를 생성 가능하도록, FD-CNG는 인코더 입력에 존재하는 백그라운드 노이즈의 에너지를 추적하는 노이즈 추산 알고리즘을 사용한다. 노이즈 추산치는 그리고 나서, 비활성 상태 동안 디코더 측에서 각 주파수 대역에 생성된 임의 시퀀스(random sequences)의 진폭을 업데이트하기 위해 SID(Silence Insertion Descriptor) 프레임 형식의 파라미터로서 전송된다.
FD-CNG 노이즈 추산기는 하이브리드(hybrid) 스펙트럼 분석 방법에 의존한다. 코어 대역폭(core bandwidth)에 해당하는 낮은 주파수는 고해상도(high-resolution) FFT분석에 의해 커버되는 반면, 남아 있는 높은 주파수는 400Hz의 상당히 낮은 스펙트럼 해상도(resolution)를 보이는 CLDFB에 의해 포착된다. CLDFB는 또한, 입력 신호를 코어(core) 샘플링 레이트로 다운샘플링(downsample)하기 위한 재-샘플링 도구로서 사용된다.
다만, 실제로 SID 프레임의 크기는 제한된다. 백그라운드 노이즈를 서술하는 파라미터의 개수를 감소시키기 위해, 입력 에너지는 이후에 파티션들(partitions)이라고 불리는 스펙트럼 대역의 그룹들 사이에서 평균화된다.
1. 스펙트럼의 파티션(partition) 에너지
파티션 에너지는 FFT와 CLDFB 대역들에 대해 개별적으로 계산된다. FFT 파티션에 해당하는 에너지와 CLDFB 파티션에 해당하는 에너지는 이후 아래("2. FD-CNG 노이즈 추산" 참조)에서 설명할 노이즈 추산기의 입력으로 제공되는 크기의 단일 배열 로 연결(concatenate)된다.
1.1 FFT 파티션 에너지의 계산
코어(core) 대역을 커버하는 주파수의 파티션 에너지는 아래 수학식 3과 같이 계산되며,
및 는 제1 및 제2 분석 윈도우(window) 각각에 대한 임계 대역(critical band) i에서의 평균 에너지이다. 아래 설명에서 사용된 설정("1.3 FD-CNG 인코더 설정" 참조)에 따라, 코어 대역폭을 획득하는 FFT 파티션들 의 개수는 7과 21 사이의 범위이다. 디-엠퍼시스(de-emphasis) 스펙트럼 가중치 는 고역 통과 필터를 보상하기 위해 사용되고, 아래 수학식 4와 같이 정의된다.
1.2 CLDFB 파티션 에너지의 계산
코어 대역보다 높은 주파수의 파티션 에너지는 아래 수학식 5와 같이 계산되며,
여기서, 및 는 각각 i-번째 파티션에서 첫 번째와 마지막 CLDFB 대역 각각의 지수(index)이며, 는 j-번째 CLDFB 대역의 전체 에너지이고, 는 스케일링 인자(factor)이다. 상수 16은 CLDFB에서 시간 슬롯들의 개수를 나타낸다. CLDFB 파티션 의 개수는 아래 설명에서 사용된 설정에 의존한다.
1.3 FD-CNG 인코더 구성들(configurations)
표 1은 인코더에서 FD-CNG 노이즈 추산의 구성을 나타내며, 인코더에서 여러 FD-CNG 구성에 대한 상위 경계와 파티션의 개수를 리스팅한다.
비트 레이트 (Bit-rates) [kbps] |
[Hz] |
[Hz] |
|||
NB | 17 | 0 | 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3975 | ||
WB | 20 | 0 | 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375 | ||
20 | 1 | 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375 | 8000 | ||
21 | 0 | 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375, 7975 | |||
SW B/FB |
20 | 4 | 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375 | 8000, 10000, 12000, 14000 | |
21 | 3 | 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375, 7975 | 10000, 12000, 16000 |
각 파티션 에 대해 는 i-번째 파티션의 마지막 대역의 주파수에 대응한다. 각 스펙트럼의 파티션에서 첫 번째와 마지막 대역의 지수 및 는 수학식 6 및 7과 같은 코어 구성의 함수로 도출할 수 있다.
2. FD-CNG 노이즈 추산
FD-CNG는 입력 스펙트럼에 존재하는 백그라운드 노이즈의 에너지를 추적하는 노이즈 추산기에 의존한다. 이것은 대부분 R. Marten의 "Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics"(2001)에서 설명된 최소 통계 알고리즘을 기초로 하고 있다. 다만, 입력 에너지 의 동적 범위를 감소시키고 그에 따라, 노이즈 추산 알고리즘의 고정 소수점 구현을 용이하게 하기 위해, 비선형 변환이 노이즈 추산 이전에 적용된다("2.1 입력 에너지에 대한 동적 범위 압축" 참조). 이후 기존의 동적 범위를 회복하기 위해 역변환이 노이즈 추산치 결과에 사용된다. ("2.3 추산된 노이즈 에너지에 대한 동적 범위 확장" 참조).
2.1 입력 에너지에 대한 동적 범위 압축
입력 에너지는 비선형 함수에 의해 프로세싱되고, 수학식 8과 같이 9 비트의 해상도(resolution)로 양자화된다.
2.2 노이즈 추적
최소 통계 알고리즘의 자세한 설명은 R. Martin의 "Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics"(2001)에서 찾을 수 있다. 이것은 기본적으로, 일반적으로 수초 이상의, 각 스펙트럼 대역의 주어진 길이의 슬라이딩 시간 윈도우(sliding temporal window)상에서 평활한 파워 스펙트럼(smoothed power spectrum)의 최소치를 추적하는 것으로 구성된다. 또한, 알고리즘은 노이즈 추산의 정확도를 향상시키기 위한 바이어스 보상을 포함한다. 게다가, 추산된 노이즈 에너지의 적당한 증가가 초래된다면, 시간에 따라 변하는 노이즈의 추적을 향상시키기 위해, 더 짧은 시간 윈도우(temporal window)에서 연산된 로컬 최소치가 원래의 최소치 대신에 사용될 수 있다. 허용되는 증가량은 R. Martin의 "Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics"(2001)의 noise_slope_max 파라미터에 의해 결정된다.
2.3 추산된 노이즈 에너지에 대한 동적 범위 확장
추산된 노이즈 에너지는 수학식 9와 같이 동적 범위 압축을 보상하기 위해 비선형 함수에 의해 프로세싱된다.
본 발명에 따르면, 특히 고정 소수점 연산을 사용하는 프로세서들에서 프로세싱되는 오디오/음성 신호들에 있어서, 노이즈 추산기의 복잡도를 줄이는 오디오 신호에서 노이즈를 추산하는 향상된 접근법이 기술된다. 본 발명은 예를 들어, 높은 스펙트럼-시간 해상도를 가지는 컴포트 노이즈의 생성을 나타내는 PCT/EP2012/077527에 기술된 환경 또는 낮은 비트 레이트에서 백그라운드 노이즈의 모델링을 위한 컴포트 노이즈 가산을 나타내는 PCT/EP2012/077527에서 오디오/음성 신호의 처리를 위해 노이즈 추산기에서 사용되는 동적 범위를 감소시킨다. 설명된 시나리오에서, 노이즈 추산기는 예를 들어, EVS 코덱의 테스트된 범주들 중 하나와 전화 통화에서 아주 일반적인 상황인 백그라운드 노이즈가 있는 상태에서의 음성과 같이 백그라운드 노이즈의 품질을 향상시키기 위해 또는 시끄러운 음성 신호를 위한 컴포트 노이즈의 생성을 위해 최소 통계 알고리즘을 기초로 동작하여 사용된다. 표준화에 따라 EVS 코덱은 고정 연산을 하는 프로세서를 사용하고, 본 발명에 따른 접근법은 더 이상 선형 영역이 아닌 로그 영역에서 오디오 신호의 에너지 값을 프로세싱하는 최소 통계 노이즈 추산기에 사용되는 신호의 동적 범위를 감소시켜 프로세싱 복잡도를 감소시킨다.
비록 설명된 개념의 일부 측면은 장치의 맥락에서 설명되었지만, 이와 같은 측면은 또한 대응하는 방법을 표현함이 명백하며, 이때, 블록이나 장치가 방법의 단계 또는 방법의 단계의 특징에 대응한다. 유사하게, 방법의 단계의 맥락에서 설명된 측면은 대응하는 블록이나 아이템 또는 대응하는 장치의 특징을 설명한다.
특정 구현 요건에 따라, 본 발명의 일 실시예는 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 디지털 저장매체, 예를 들면 플로피 디스크, DVD, 블루-레이, CD, ROM, PROM, EPROM, EEPROM, 또는 플래시 메모리와 같이, 내부에 전자적으로 판독 가능한 제어 신호를 갖고, 각 방법이 수행되는 프로그래머블 컴퓨터 시스템과 같이 협업하는(또는 협업할 수 있는), 저장매체를 사용하여 수행될 수 있다. 따라서, 디지털 저장 매체는 판독 가능한 컴퓨터일 수 있다.
여러 실시예들은 전자적으로 판독 가능한 제어 신호를 갖는 데이터 캐리어를 포함하며, 이는 프로그래머블 컴퓨터 시스템과 협업하여, 여기서 설명된 방법이 수행되도록 할 수 있다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로 구현될 수 있고, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 수행될 때 상기 방법들 중의 하나를 수행하도록 동작할 수 있다. 프로그램 코드는 예를 들면, 기계 판독 가능한 캐리어 상에 저장된다.
다른 실시예들은 여기서 기술된 방법들 중의 하나를 수행하는 컴퓨터 프로그램을 포함하며, 이는 기계 판독 가능한 캐리어 상에 저장된다.
즉, 본 발명의 방법의 일 실시예는, 따라서, 컴퓨터 프로그램이 컴퓨터상에서 수행될 때, 여기서 설명된 방법들 중의 하나를 수행하는 프로그램 코드를 갖는 컴퓨터 프로그램이다.
또 다른 실시예는, 따라서, 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독 가능한 매체)이며, 이는 여기서 설명된 방법들 중의 하나를 수행하는 컴퓨터 프로그램을 기록하여 포함한다.
또 다른 실시예는, 따라서, 데이터 스트림 또는 여기서 설명된 방법들 중의 하나를 수행하는 컴퓨터 프로그램을 표현하는 신호 시퀀스이다. 데이터 스트림과 신호 시퀀스는 예를 들면, 데이터 통신 연결, 인터넷을 통해 수송되도록 구성될 수 있다.
또 다른 실시예는 프로세싱 수단 예를 들면, 컴퓨터 또는 여기서 설명된 방법들 중의 하나를 수행하도록 적용된 프로그래머블 논리 장치를 포함한다.
또 다른 실시예는 여기에서 설명된 방법들 중의 하나를 수행하는 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
여러 실시예들에서, 프로그래머블 논리 장치(예를 들면, 필드 프로그래머블 게이트 어레이)는 여기서 설명된 방법의 기능성 일부 또는 전부를 수행하도록 사용될 수 있다. 여러 실시예들에서, 필드 프로그래머블 게이트 어레이는 마이크로프로세서와 협업하여 여기서 설명된 방법들 중의 하나를 수행할 수 있다. 일반적으로, 여기서 설명된 방법들은 어느 하드웨어 장치에 의해서도 바람직하게 수행될 수 있다.
상술한 실시예들은 단지 본 발명의 원리에 대한 예시들일 뿐이다. 여기서 설명된 방식과 세부사항에 대한 수정 및 변경들은 당업자들에게 명백함이 이해되어야 한다. 하기의 특허청구범위의 영역에 의해서만 제한되며 상술한 실시예의 기술이나 설명의 방법에 의해서 표현되는 특정 사항에 의하여 제한되지 않음이 의도된다.
Claims (12)
- 오디오 신호(102)의 노이즈를 추산하는 방법으로서,
상기 오디오 신호(102)에 대한 에너지 값(174)을 결정하는 단계(S100);
상기 에너지 값(174)을 로그2-영역으로 변환하는 단계(S102); 및
상기 로그2-영역에서 직접 상기 변환된 에너지 값(178)을 기초로 상기 오디오 신호(102)의 노이즈 레벨(182)을 추산하는 단계(S104)를 포함하고,
에너지 값(174)은 아래 식에 따라 로그2-영역으로 변환(S102)되고,
여기서, 는의 바닥함수(floor function),
는 로그2-영역에서 대역 n의 에너지 값,
는 선형 영역에서 대역 n의 에너지 값,
N은 양자화 해상도(resolution)인, 오디오 신호의 노이즈 추산 방법. - 청구항 1에 있어서,
상기 노이즈 레벨을 추산하는 단계(S104)는,
최소 통계 알고리즘과 같은 미리 정해진 노이즈 추산 알고리즘을 수행하는 단계를 포함하는, 오디오 신호의 노이즈 추산 방법. - 청구항 1에 있어서,
상기 에너지 값(174)을 결정하는 단계(S100)는,
상기 오디오 신호(102)를 주파수 영역으로 변환하여 상기 오디오 신호(102)의 파워 스펙트럼을 획득하는 단계, 상기 파워 스펙트럼을 음향 심리학적으로 동기된(psychoacoustically motivated) 대역들로 그룹화하는 단계, 대역 내에 파워 스펙트럼 빈(Bin)들을 축적함으로써 각 대역의 에너지 값(174)을 형성하는 단계를 포함하고, 각 대역에 대한 상기 에너지 값(174)은 로그2-영역으로 변환되고, 노이즈 레벨은 대응되는 변환된 에너지 값(174)을 기초로 각 대역에 대해 추산되는, 오디오 신호의 노이즈 추산 방법. - 청구항 3에 있어서,
상기 오디오 신호(102)는 복수의 프레임을 포함하고, 각 프레임에 대해 에너지 값(174)이 결정되어 로그2-영역으로 변환되고, 상기 노이즈 레벨은 변환된 에너지 값을 기초로 프레임의 각 대역에 대해 추산되는, 오디오 신호의 노이즈 추산 방법. - 청구항 1에 있어서,
상기 변환된 에너지 값(178)을 기초로 오디오 신호의 노이즈 레벨을 추산하는 단계(S104)에서는 로그 데이터를 산출하고, 상기 방법은,
추가 프로세싱을 위해 직접 로그 데이터를 사용하는 단계(S108); 또는
추가 프로세싱을 위해 로그 데이터를 다시 선형 데이터로 변환하는 단계(S110, S112)를 더 포함하는, 오디오 신호의 노이즈 추산 방법. - 컴퓨터상에서 실행되는 경우 청구항 1 내지 6 중 어느 하나의 방법을 수행하는 명령어를 저장하는 비일시적인 컴퓨터로 판독 가능한 매체.
- 오디오 신호(102)에 대한 에너지 값(174)을 결정하도록 구성된 검출부(172);
상기 에너지 값(174)을 로그2-영역으로 변환하도록 구성된 변환부(176); 및
로그2-영역으로 직접 변환된 에너지 값(178)을 기초로 오디오 신호(102)의 노이즈 레벨(182)을 추산하도록 구성된 추산부(180) 프로세서를 포함하고,
에너지 값(174)은 아래 식에 따라 로그2-영역으로 변환(S102)되고,
여기서, 는의 바닥함수(floor function),
는 로그2-영역에서 대역 n의 에너지 값,
는 선형 영역에서 대역 n의 에너지 값,
N은 양자화 해상도(resolution)인, 노이즈 추산기(170). - 청구항 8의 노이즈 추산기를 포함하는, 오디오 인코더(100).
- 청구항 8의 노이즈 추산기(170)을 포함하는, 오디오 디코더(150).
- 오디오 신호(102)를 전송하는 시스템으로서,
수신한 오디오 신호(102)를 기초로 코딩된 오디오 신호(102)를 생성하는 오디오 인코더(100); 및
코딩된 오디오 신호(102)를 수신하여, 코딩된 신호(102)를 디코딩하고, 디코딩된 오디오 신호(102)를 출력하는 오디오 디코더(150)를 포함하되,
상기 오디오 인코더 및 상기 오디오 디코더 중 적어도 하나는 청구항 8의 노이즈 추산기(170)를 포함하는, 오디오 신호 전송 시스템. - 삭제
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14178779.6A EP2980801A1 (en) | 2014-07-28 | 2014-07-28 | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
EP14178779.6 | 2014-07-28 | ||
PCT/EP2015/066657 WO2016016051A1 (en) | 2014-07-28 | 2015-07-21 | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20170039226A KR20170039226A (ko) | 2017-04-10 |
KR101907808B1 true KR101907808B1 (ko) | 2018-10-12 |
Family
ID=51224866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020177005256A KR101907808B1 (ko) | 2014-07-28 | 2015-07-21 | 오디오 신호에서 노이즈를 추산하는 방법, 노이즈 추산기, 오디오 인코더, 오디오 디코더 및 오디오 신호를 전송하는 시스템 |
Country Status (19)
Country | Link |
---|---|
US (3) | US10249317B2 (ko) |
EP (4) | EP2980801A1 (ko) |
JP (3) | JP6408125B2 (ko) |
KR (1) | KR101907808B1 (ko) |
CN (2) | CN112309422B (ko) |
AR (1) | AR101320A1 (ko) |
AU (1) | AU2015295624B2 (ko) |
BR (1) | BR112017001520B1 (ko) |
CA (1) | CA2956019C (ko) |
ES (2) | ES2768719T3 (ko) |
MX (1) | MX363349B (ko) |
MY (1) | MY178529A (ko) |
PL (2) | PL3175457T3 (ko) |
PT (2) | PT3175457T (ko) |
RU (1) | RU2666474C2 (ko) |
SG (1) | SG11201700701TA (ko) |
TW (1) | TWI590237B (ko) |
WO (1) | WO2016016051A1 (ko) |
ZA (1) | ZA201700532B (ko) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2980801A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
GB2552178A (en) * | 2016-07-12 | 2018-01-17 | Samsung Electronics Co Ltd | Noise suppressor |
CN107068161B (zh) * | 2017-04-14 | 2020-07-28 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音降噪方法、装置和计算机设备 |
RU2723301C1 (ru) * | 2019-11-20 | 2020-06-09 | Акционерное общество "Концерн "Созвездие" | Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих |
CN113193927B (zh) * | 2021-04-28 | 2022-09-23 | 中车青岛四方机车车辆股份有限公司 | 一种电磁敏感性指标的获得方法及装置 |
Family Cites Families (74)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4630304A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic background noise estimator for a noise suppression system |
GB2216320B (en) * | 1988-02-29 | 1992-08-19 | Int Standard Electric Corp | Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems |
US5227788A (en) * | 1992-03-02 | 1993-07-13 | At&T Bell Laboratories | Method and apparatus for two-component signal compression |
FI103700B1 (fi) * | 1994-09-20 | 1999-08-13 | Nokia Mobile Phones Ltd | Samanaikainen puheen ja datan siirto matkaviestinjärjestelmässä |
CN1121684C (zh) | 1995-09-14 | 2003-09-17 | 艾利森公司 | 用于选择性地改变一帧数字信号的方法和装置 |
FR2739995B1 (fr) * | 1995-10-13 | 1997-12-12 | Massaloux Dominique | Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole |
JP3538512B2 (ja) * | 1996-11-14 | 2004-06-14 | パイオニア株式会社 | データ変換装置 |
JPH10319985A (ja) * | 1997-03-14 | 1998-12-04 | N T T Data:Kk | ノイズレベル検出方法、システム及び記録媒体 |
JP3357829B2 (ja) * | 1997-12-24 | 2002-12-16 | 株式会社東芝 | 音声符号化/復号化方法 |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US6289309B1 (en) * | 1998-12-16 | 2001-09-11 | Sarnoff Corporation | Noise spectrum tracking for speech enhancement |
SE9903553D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
US6954800B2 (en) * | 2000-04-07 | 2005-10-11 | Broadcom Corporation | Method of enhancing network transmission on a priority-enabled frame-based communications network |
JP2002091478A (ja) * | 2000-09-18 | 2002-03-27 | Pioneer Electronic Corp | 音声認識システム |
US20030004720A1 (en) * | 2001-01-30 | 2003-01-02 | Harinath Garudadri | System and method for computing and transmitting parameters in a distributed voice recognition system |
WO2002071395A2 (en) * | 2001-03-02 | 2002-09-12 | Matsushita Electric Industrial Co., Ltd. | Apparatus for coding scaling factors in an audio coder |
JP2004525566A (ja) * | 2001-03-12 | 2004-08-19 | コネクサント システムズ インコーポレイテッド | マルチパス信号検出、識別、及び広帯域符号分割多元接続システムを監視するための方法と装置 |
US7650277B2 (en) * | 2003-01-23 | 2010-01-19 | Ittiam Systems (P) Ltd. | System, method, and apparatus for fast quantization in perceptual audio coders |
CN1182513C (zh) * | 2003-02-21 | 2004-12-29 | 清华大学 | 基于局部能量加权的抗噪声语音识别方法 |
WO2005004113A1 (ja) * | 2003-06-30 | 2005-01-13 | Fujitsu Limited | オーディオ符号化装置 |
US7251322B2 (en) * | 2003-10-24 | 2007-07-31 | Microsoft Corporation | Systems and methods for echo cancellation with arbitrary playback sampling rates |
GB2409389B (en) * | 2003-12-09 | 2005-10-05 | Wolfson Ltd | Signal processors and associated methods |
WO2005086139A1 (en) * | 2004-03-01 | 2005-09-15 | Dolby Laboratories Licensing Corporation | Multichannel audio coding |
US7869500B2 (en) * | 2004-04-27 | 2011-01-11 | Broadcom Corporation | Video encoder and method for detecting and encoding noise |
US7649988B2 (en) * | 2004-06-15 | 2010-01-19 | Acoustic Technologies, Inc. | Comfort noise generator using modified Doblinger noise estimate |
EP1774692A2 (en) | 2004-07-01 | 2007-04-18 | Staccato Communications, Inc. | Multiband receiver synchronization |
DE102004059979B4 (de) | 2004-12-13 | 2007-11-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur Berechnung einer Signalenergie eines Informationssignals |
DE102004063290A1 (de) * | 2004-12-29 | 2006-07-13 | Siemens Ag | Verfahren zur Anpassung von Comfort Noise Generation Parametern |
US7707034B2 (en) | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
KR100647336B1 (ko) * | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 |
EP1984911A4 (en) * | 2006-01-18 | 2012-03-14 | Lg Electronics Inc | DEVICE AND METHOD FOR SIGNAL CODING AND DECODING |
US7873511B2 (en) * | 2006-06-30 | 2011-01-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
EP1873754B1 (en) * | 2006-06-30 | 2008-09-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
CN101115051B (zh) * | 2006-07-25 | 2011-08-10 | 华为技术有限公司 | 音频信号处理方法、系统以及音频信号收发装置 |
CN101140759B (zh) * | 2006-09-08 | 2010-05-12 | 华为技术有限公司 | 语音或音频信号的带宽扩展方法及系统 |
CN1920947B (zh) * | 2006-09-15 | 2011-05-11 | 清华大学 | 用于低比特率音频编码的语音/音乐检测器 |
US7912567B2 (en) * | 2007-03-07 | 2011-03-22 | Audiocodes Ltd. | Noise suppressor |
CN101335003B (zh) * | 2007-09-28 | 2010-07-07 | 华为技术有限公司 | 噪声生成装置、及方法 |
EP2077550B8 (en) * | 2008-01-04 | 2012-03-14 | Dolby International AB | Audio encoder and decoder |
US8331892B2 (en) | 2008-03-29 | 2012-12-11 | Qualcomm Incorporated | Method and system for DC compensation and AGC |
US20090259469A1 (en) * | 2008-04-14 | 2009-10-15 | Motorola, Inc. | Method and apparatus for speech recognition |
ES2526767T3 (es) * | 2008-07-11 | 2015-01-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador de audio, procedimiento para codificar una señal de audio y programa de ordenador |
ES2654433T3 (es) * | 2008-07-11 | 2018-02-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador de señal de audio, método para codificar una señal de audio y programa informático |
MY153594A (en) * | 2008-07-11 | 2015-02-27 | Fraunhofer Ges Forschung | An apparatus and a method for calculating a number of spectral envelopes |
US7961125B2 (en) * | 2008-10-23 | 2011-06-14 | Microchip Technology Incorporated | Method and apparatus for dithering in multi-bit sigma-delta digital-to-analog converters |
CN101740033B (zh) * | 2008-11-24 | 2011-12-28 | 华为技术有限公司 | 一种音频编码方法和音频编码器 |
US20100145687A1 (en) * | 2008-12-04 | 2010-06-10 | Microsoft Corporation | Removing noise from speech |
GB2485926B (en) | 2009-08-28 | 2013-06-05 | Ibm | Speech feature extracting apparatus, speech feature extracting method, and speech feature extracting program |
CN102054480B (zh) * | 2009-10-29 | 2012-05-30 | 北京理工大学 | 一种基于分数阶傅立叶变换的单声道混叠语音分离方法 |
PL3779979T3 (pl) * | 2010-04-13 | 2024-01-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Sposób dekodowania audio do przetwarzania sygnałów audio stereo z wykorzystaniem zmiennego kierunku predykcji |
KR101461774B1 (ko) | 2010-05-25 | 2014-12-02 | 노키아 코포레이션 | 대역폭 확장기 |
EP2395722A1 (en) * | 2010-06-11 | 2011-12-14 | Intel Mobile Communications Technology Dresden GmbH | LTE baseband reveiver and method for operating same |
JP5296039B2 (ja) | 2010-12-06 | 2013-09-25 | 株式会社エヌ・ティ・ティ・ドコモ | 移動通信システムにおける基地局及びリソース割当方法 |
CN103261959B (zh) | 2010-12-10 | 2015-11-25 | 夏普株式会社 | 半导体装置和半导体装置的制造方法以及液晶显示装置 |
AR085224A1 (es) * | 2011-02-14 | 2013-09-18 | Fraunhofer Ges Forschung | Codec de audio utilizando sintesis de ruido durante fases inactivas |
CA2827305C (en) * | 2011-02-14 | 2018-02-06 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Noise generation in audio codecs |
US9280982B1 (en) * | 2011-03-29 | 2016-03-08 | Google Technology Holdings LLC | Nonstationary noise estimator (NNSE) |
CN102759572B (zh) * | 2011-04-29 | 2015-12-02 | 比亚迪股份有限公司 | 一种产品的质量检测方法和检测装置 |
KR101294405B1 (ko) * | 2012-01-20 | 2013-08-08 | 세종대학교산학협력단 | 위상 변환된 잡음 신호를 이용한 음성 영역 검출 방법 및 그 장치 |
US8880393B2 (en) * | 2012-01-27 | 2014-11-04 | Mitsubishi Electric Research Laboratories, Inc. | Indirect model-based speech enhancement |
CN103325384A (zh) * | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 谐度估计、音频分类、音调确定及噪声估计 |
CN102664017B (zh) * | 2012-04-25 | 2013-05-08 | 武汉大学 | 一种3d音频质量客观评价方法 |
CN103597742A (zh) | 2012-06-14 | 2014-02-19 | 西凯渥资讯处理科技公司 | 包含相关系统、装置及方法的功率放大器模块 |
EP2880654B1 (en) * | 2012-08-03 | 2017-09-13 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases |
EP2717261A1 (en) * | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding |
CN103021405A (zh) * | 2012-12-05 | 2013-04-03 | 渤海大学 | 基于music和调制谱滤波的语音信号动态特征提取方法 |
CA2894625C (en) | 2012-12-21 | 2017-11-07 | Anthony LOMBARD | Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals |
MY178710A (en) * | 2012-12-21 | 2020-10-20 | Fraunhofer Ges Forschung | Comfort noise addition for modeling background noise at low bit-rates |
CN103558029B (zh) * | 2013-10-22 | 2016-06-22 | 重庆建设机电有限责任公司 | 一种发动机异响故障在线诊断系统和诊断方法 |
CN103546977A (zh) * | 2013-11-11 | 2014-01-29 | 苏州威士达信息科技有限公司 | 基于HD Radio系统的动态频谱接入方法 |
CN103714806B (zh) * | 2014-01-07 | 2017-01-04 | 天津大学 | 一种结合svm和增强型pcp特征的和弦识别方法 |
US10593435B2 (en) | 2014-01-31 | 2020-03-17 | Westinghouse Electric Company Llc | Apparatus and method to remotely inspect piping and piping attachment welds |
US9628266B2 (en) * | 2014-02-26 | 2017-04-18 | Raytheon Bbn Technologies Corp. | System and method for encoding encrypted data for further processing |
EP2980801A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
-
2014
- 2014-07-28 EP EP14178779.6A patent/EP2980801A1/en not_active Ceased
-
2015
- 2015-07-21 WO PCT/EP2015/066657 patent/WO2016016051A1/en active Application Filing
- 2015-07-21 MY MYPI2017000139A patent/MY178529A/en unknown
- 2015-07-21 BR BR112017001520-0A patent/BR112017001520B1/pt active IP Right Grant
- 2015-07-21 SG SG11201700701TA patent/SG11201700701TA/en unknown
- 2015-07-21 CN CN202011194703.4A patent/CN112309422B/zh active Active
- 2015-07-21 ES ES15739587T patent/ES2768719T3/es active Active
- 2015-07-21 JP JP2017504799A patent/JP6408125B2/ja active Active
- 2015-07-21 PL PL15739587T patent/PL3175457T3/pl unknown
- 2015-07-21 EP EP21152041.6A patent/EP3826011A1/en active Pending
- 2015-07-21 EP EP19202338.0A patent/EP3614384B1/en active Active
- 2015-07-21 ES ES19202338T patent/ES2850224T3/es active Active
- 2015-07-21 RU RU2017106161A patent/RU2666474C2/ru active
- 2015-07-21 EP EP15739587.2A patent/EP3175457B1/en active Active
- 2015-07-21 PT PT157395872T patent/PT3175457T/pt unknown
- 2015-07-21 CA CA2956019A patent/CA2956019C/en active Active
- 2015-07-21 CN CN201580051890.1A patent/CN106716528B/zh active Active
- 2015-07-21 MX MX2017001241A patent/MX363349B/es unknown
- 2015-07-21 AU AU2015295624A patent/AU2015295624B2/en active Active
- 2015-07-21 PL PL19202338T patent/PL3614384T3/pl unknown
- 2015-07-21 PT PT192023380T patent/PT3614384T/pt unknown
- 2015-07-21 KR KR1020177005256A patent/KR101907808B1/ko active IP Right Grant
- 2015-07-23 TW TW104123864A patent/TWI590237B/zh active
- 2015-07-27 AR ARP150102374A patent/AR101320A1/es active IP Right Grant
-
2017
- 2017-01-23 ZA ZA2017/00532A patent/ZA201700532B/en unknown
- 2017-01-27 US US15/417,234 patent/US10249317B2/en active Active
-
2018
- 2018-09-19 JP JP2018174338A patent/JP6730391B2/ja active Active
-
2019
- 2019-02-27 US US16/288,000 patent/US10762912B2/en active Active
-
2020
- 2020-07-01 JP JP2020113803A patent/JP6987929B2/ja active Active
- 2020-08-17 US US16/995,493 patent/US11335355B2/en active Active
Non-Patent Citations (2)
Title |
---|
Clay S. Turner, ‘A fast binary logarithm algorithm [DSP TIPS & TRICKS]’, IEEE Signal Processing Magazine, Vol.27, No.5, September 2010.* |
Marius Rotaru et al., ‘An efficient GSC VSS-APA beamformer with integrated log-energy VAD for noise reduction in speech reinforcement systems’, IEEE ISSCS 2013, pp.1~4, July 2013.* |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5539203B2 (ja) | 改良された音声及びオーディオ信号の変換符号化 | |
JP6730391B2 (ja) | オーディオ信号内の雑音を推定するための方法、雑音推定器、オーディオ符号化器、オーディオ復号器、およびオーディオ信号を送信するためのシステム | |
JP4212591B2 (ja) | オーディオ符号化装置 | |
KR102417047B1 (ko) | 잡음 환경에 적응적인 신호 처리방법 및 장치와 이를 채용하는 단말장치 | |
KR102617415B1 (ko) | 다중 채널 신호 인코딩 방법 및 인코더 | |
JP2001053617A (ja) | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 | |
WO2019037714A1 (zh) | 立体声信号的编码方法和编码装置 | |
RU2752520C1 (ru) | Управление полосой частот в кодерах и/или декодерах | |
EP4330963A1 (en) | Method and device for multi-channel comfort noise injection in a decoded sound signal | |
JP2000276198A (ja) | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |