KR20240013221A - 3차원 오디오 신호 처리 방법 및 장치 - Google Patents
3차원 오디오 신호 처리 방법 및 장치 Download PDFInfo
- Publication number
- KR20240013221A KR20240013221A KR1020237044825A KR20237044825A KR20240013221A KR 20240013221 A KR20240013221 A KR 20240013221A KR 1020237044825 A KR1020237044825 A KR 1020237044825A KR 20237044825 A KR20237044825 A KR 20237044825A KR 20240013221 A KR20240013221 A KR 20240013221A
- Authority
- KR
- South Korea
- Prior art keywords
- virtual speaker
- signal group
- bit allocation
- allocation ratio
- ratio
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 201
- 238000003672 processing method Methods 0.000 title claims abstract description 41
- 230000005540 biological transmission Effects 0.000 claims abstract description 181
- 238000000034 method Methods 0.000 claims abstract description 120
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000004422 calculation algorithm Methods 0.000 claims description 24
- 101000934489 Homo sapiens Nucleosome-remodeling factor subunit BPTF Proteins 0.000 claims description 16
- 102100025062 Nucleosome-remodeling factor subunit BPTF Human genes 0.000 claims description 16
- 101100326803 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) fac-2 gene Proteins 0.000 claims description 11
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 29
- 238000004364 calculation method Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 23
- 230000008569 process Effects 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 238000004590 computer program Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000001788 irregular Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000012528 membrane Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000008054 signal transmission Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000003570 air Substances 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 출원의 실시예는 신호의 비트 할당을 구현하기 위한 3차원 오디오 신호 처리 방법 및 장치를 개시한다. 본 출원의 실시예는 3차원 오디오 신호 처리 방법을 제공하며, 이 방법은, 코딩 대상 3차원 오디오 신호에 대해 공간 코딩을 수행하여 전송 채널 신호 및 전송 채널 속성 정보를 획득하는 단계 - 전송 채널 신호는 적어도 하나의 가상 스피커 신호 그룹과 적어도 하나의 잔차 신호 그룹을 포함함 -; 및 전송 채널 속성 정보에 기반하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계를 포함한다.
Description
본 출원은 2021년 6월 11일에 중국 특허청에 출원되고 명칭이 "3차원 오디오 신호 처리 방법 및 장치"인 중국 특허 출원 번호 제202110657283.7호에 대한 우선권을 주장하는 바이며, 이러한 문헌의 내용은 원용에 의해 전체적으로 본 명세서에 포함된다.
본 출원은 2021년 6월 23일에 중국 특허청에 출원되고 명칭이 "3차원 오디오 신호 처리 방법 및 장치"인 중국 특허 출원 번호 제202110700570.1호에 대한 우선권을 주장하는 바이며, 이러한 문헌의 내용은 원용에 의해 전체적으로 본 명세서에 포함된다.
본 출원은 오디오 처리 기술 분야에 관한 것으로, 특히 3차원 오디오 신호 처리 방법 및 장치에 관한 것이다.
3차원 오디오 기술은 무선 통신 음성(voice), 가상 현실/증강 현실, 미디어 오디오 등에 폭넓게 적용되고 있다. 3차원 오디오 기술에서는 실제 세계의 사운드(sound) 이벤트와 3차원 음장(sound field) 정보를 획득, 처리, 전송, 렌더링 및 재생한다. 3차원 오디오 기술은 사운드에 강력한 공간감, 포위감, 몰입감을 부여하고 사람들에게 특별한 "몰입형" 청각 경험을 제공한다. 고차 앰비소닉(higher order ambisonics, HOA) 기술에서는 녹음 스테이지, 코딩 스테이지 및 재생 스테이지가 스피커 레이아웃과 관련이 없으며, HOA 형식의 데이터가 회전 가능하게 재생되며, 3차원 오디오 재생에 더 높은 유연성이 있다. 그래서 더 많은 관심과 연구가 이루어지고 있다.
캡처 디바이스(예를 들어, 마이크)는 많은 양의 데이터를 캡처하고, 3차원 음장 정보를 기록하며, 3차원 오디오 신호를 재생 디바이스(예를 들어, 스피커 또는 헤드폰)로 전송하므로, 재생 디바이스는 3차원 오디오 신호를 재생한다. 3차원 음장 정보는 데이터의 양이 많기 때문에 데이터를 저장하기 위해서는 많은 양의 저장 공간이 필요하며, 3차원 오디오 신호를 전송하기 위한 대역폭 요건도 높다. 이러한 문제점을 해결하기 위해, 3차원 오디오 신호를 압축하여 압축된 데이터를 저장하거나 전송할 수 있다.
현재, 코더(coder)는 미리 구성된 복수의 가상 스피커를 사용하여 3차원 오디오 신호를 코딩될 수 있다. 그러나, 코더가 3차원 오디오 신호를 코딩한 후 신호의 비트 할당을 어떻게 수행하는지는 여전히 해결되지 않은 문제이다.
본 출원의 실시예는 신호의 비트 할당을 구현하기 위한 3차원 오디오 신호 처리 방법 및 장치를 제공한다.
전술한 기술적 문제를 해결하기 위해 본 출원의 실시예는 다음과 같은 기술적 솔루션을 제공한다.
제1 측면에 따르면, 본 출원의 실시예는 3차원 오디오 신호 처리 방법을 제공하며, 이 방법은 코딩 대상 3차원 오디오 신호(to-be-coded three-dimensional audio signal)에 대해 공간 코딩(spatial coding)을 수행하여 전송 채널 신호(transmission channel signal) 및 전송 채널 속성 정보(transmission channel attribute information)를 획득하는 단계 - 전송 채널 신호는 적어도 하나의 가상 스피커 신호 그룹과 적어도 하나의 잔차 신호(residual signal) 그룹을 포함함 -; 및 전송 채널 속성 정보에 기반하여 가상 스피커 신호 그룹의 비트 할당 비율(bit allocation ratio)과 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계를 포함한다. 전술한 솔루션에 있어서, 본 출원의 실시예에서는 3차원 오디오 신호를 코딩하여 전송 채널 신호 및 전송 채널 속성 정보를 획득한다. 전송 채널 신호는 적어도 하나의 가상 스피커 신호 그룹과 적어도 하나의 잔차 신호 그룹을 포함할 수 있으며, 전송 채널 속성 정보는 신호의 비트 할당을 결정할 수 없는 문제를 해결하기 위해 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 개별적으로 결정하는데 사용될 수 있다.
가능한 구현에서, 전송 채널 속성 정보는 가상 스피커 코딩 효율(virtual speaker coding efficiency)을 포함하고; 코딩 대상 3차원 오디오 신호에 대해 공간 코딩을 수행하여 전송 채널 속성 정보를 획득하는 단계는, 가상 스피커를 사용하여 코딩 대상 3차원 오디오 신호에 대해 신호 재구성(signal reconstruction)을 수행하여 재구성된 3차원 오디오 신호를 획득하는 단계; 재구성된 3차원 오디오 신호의 에너지 표현 값(energy representation value)과 코딩 대상 3차원 오디오 신호의 에너지 표현 값을 획득하는 단계; 및 재구성된 3차원 오디오 신호의 에너지 표현 값과 코딩 대상 3차원 오디오 신호의 에너지 표현 값에 기반하여 가상 스피커 코딩 효율을 획득하는 단계를 포함한다. 전술한 솔루션에서, 코더 측은 먼저 가상 스피커를 사용하여 신호 재구성을 수행하여 재구성된 3차원 오디오 신호를 획득한다. 코더 측은 각 전송 채널에서 신호의 에너지 표현 값을 계산할 수 있으며, 예를 들어 재구성된 3차원 오디오 신호의 에너지 표현 값과 코딩 대상 3차원 오디오 신호의 에너지 표현 값을 획득할 수 있다. 3차원 오디오 신호의 에너지 표현 값으로서 또한 신호 재구성 이전에 존재하는 에너지 표현 값은, 3차원 오디오 신호의 에너지 표현 값으로서 또한 신호 재구성 이후에 존재하는 에너지 표현 값과 상이하다. 따라서, 3차원 오디오 신호의 에너지 표현 값으로서 또한 신호 재구성 이전에 존재하는 에너지 표현 값과 3차원 오디오 신호의 에너지 표현 값으로서 또한 신호 재구성 이후에 존재하는 에너지 표현 값 사이의 변화에 기반하여 가상 스피커 코딩 효율을 계산할 수 있다.
가능한 구현에서, 전송 채널 속성 정보는 가상 스피커 신호 그룹의 에너지 비율을 포함하고; 이 방법은, 가상 스피커 신호 그룹에서 각 가상 스피커 신호의 에너지 표현 값에 기반하여 가상 스피커 신호 그룹의 에너지 표현 값을 획득하는 단계; 잔차 신호 그룹에서 각 잔차 신호의 에너지 표현 값에 기반하여 잔차 신호 그룹의 에너지 표현 값을 획득하는 단계; 및 가상 스피커 신호 그룹의 에너지 표현 값과 잔차 신호 그룹의 에너지 표현 값에 기반하여 가상 스피커 신호 그룹의 에너지 비율을 획득하는 단계를 더 포함한다. 전술한 솔루션에서, 코더 측은 가상 스피커 신호 그룹에서 각 가상 스피커 신호의 에너지 표현 값을 획득한 후, 동일한 그룹에서 모든 가상 스피커 신호의 에너지 표현 값을 더하여 가상 스피커 신호 그룹의 에너지 표현 값을 획득한다. 복수의 가상 스피커 신호 그룹이 있으면, 각 가상 스피커 신호 그룹의 에너지 표현 값은 전술한 방식으로 계산될 수 있다. 동일한 방식으로, 코더 측은 잔차 신호 그룹에서 각 잔차 신호의 에너지 표현 값에 기반하여 잔차 신호 그룹의 에너지 표현 값을 획득할 수 있다. 마지막으로, 코더 측은 가상 스피커 신호 그룹의 에너지 표현 값과 잔차 신호 그룹의 에너지 표현 값에 기반하여 가상 스피커 신호 그룹의 에너지 비율을 획득할 수 있다. 가상 스피커 신호 그룹의 에너지 비율은 총 전송 채널 신호 에너지에 대한 가상 스피커 신호 그룹의 비율을 지시할(indicate) 수 있다. 가상 스피커 신호 그룹의 에너지 비율이 높다면, 이는 가상 스피커 신호 그룹이 총 전송 채널 신호 에너지에서 우세(dominant)함을 지시한다. 가상 스피커 신호 그룹의 에너지 비율이 낮다면, 이는 가상 스피커 신호 그룹이 총 전송 채널 신호 에너지에서 우세하지 않다는(즉, 약함) 것을 지시한다.
가능한 구현에서, 전송 채널 속성 정보는 가상 스피커 코드 식별자를 포함하고, 가상 스피커 코드 식별자는 가상 스피커 신호 그룹의 비트 할당이 우세한지를 지시하며; 코딩 대상 3차원 오디오 신호에 대해 공간 코딩을 수행하여 전송 채널 속성 정보를 획득하는 단계는, 코딩 대상 3차원 오디오 신호에 대해 공간 코딩을 수행하여 전송 채널 신호의 이방성 음원(anisotropic sound source)의 수량 및 가상 스피커 코딩 효율을 획득하는 단계; 및 전송 채널 신호의 이방성 음원의 수량과 가상 스피커 코딩 효율에 기반하여 가상 스피커 코드 식별자를 획득하는 단계를 포함한다. 전술한 솔루션에서, 전송 채널 신호의 이방성 음원의 수량과 가상 스피커 코딩 효율을 획득한 후, 코더 측은 이방성 음원의 수량과 가상 스피커 코딩 효율에 의해 충족되는 결정 조건(determining condition)에 기반하여 가상 스피커 코드 식별자의 특정 값을 획득한다.
가능한 구현에서, 전송 채널 신호의 이방성 음원의 수량과 가상 스피커 코딩 효율에 기반하여 가상 스피커 코드 식별자를 획득하는 단계는, 전송 채널 신호의 이방성 음원의 수량이 이방성 음원의 수량의 미리 설정된 임계값보다 작거나 같고, 가상 스피커 코딩 효율이 미리 설정된 제1 가상 스피커 코딩 효율 임계값보다 크거나 같을 때, 가상 스피커 코드 식별자가 우세하다고 결정하는 단계; 또는, 전송 채널 신호의 이방성 음원의 수량이 이방성 음원의 수량의 미리 설정된 임계값보다 크거나, 가상 스피커 코딩 효율이 미리 설정된 제1 가상 스피커 코딩 효율 임계값보다 작을 때, 가상 스피커 코드 식별자가 우세하지 않다고 결정하는 단계를 포함한다. 전술한 솔루션에 있어서, 코더 측은 이방성 음원의 수량과 가상 스피커 코딩 효율의 각각과 결정 조건을 비교하는 것에 의해 가상 스피커 코드 식별자를 결정하여, 가상 스피커 코드 식별자에 기반하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정할 수 있다.
가능한 구현에서, 우세성(dominance)은 서브-우세(sub-dominance) 또는 프리-우세(pre-dominance)를 포함한다. 가상 스피커 코드 식별자가 우세하다고 결정하는 단계는, 가상 스피커 코딩 효율이 제1 가상 스피커 코딩 효율 임계값보다 크거나 같고 가상 스피커 코딩 효율이 미리 설정된 제2 가상 스피커 코딩 효율 임계값보다 작거나 같을 때, 가상 스피커 코드 식별자가 서브-우세(sub-dominant)하다고 결정하는 단계; 또는 가상 스피커 코딩 효율이 제1 가상 스피커 코딩 효율 임계값보다 크거나 같고 가상 스피커 코딩 효율이 미리 설정된 제2 가상 스피커 코딩 효율 임계값보다 클 때, 가상 스피커 코드 식별자가 프리-우세(pre-dominant)하다고 결정하는 단계 - 제2 가상 스피커 코딩 효율 임계값은 제1 가상 스피커 코딩 효율 임계값보다 큼 - 를 포함한다. 전술한 솔루션에서, 코더 측은 가상 스피커 코드 식별자가 우세한 사례를 더 분할하여 두 가지 사례, 즉 가상 스피커 코드 식별자가 서브-우세한 사례와 가상 스피커 코드가 프리-우세한 사례를 획득할 수 있다. 가상 스피커 코드 식별자가 프리-우세하면, 가상 스피커 신호 그룹에 더 많은 비트를 할당해야 함을 알 수 있다. 예를 들어, 가상 스피커 신호 그룹의 초기 비트 비율이 결정된 후, 비트 비율이 증가될 수 있다. 가상 스피커 코드 식별자가 서브-우세하면, 가상 스피커 코드 식별자가 프리-우세할 때 할당된 비트의 수량보다 적은 비트의 수량이 가상 스피커 신호 그룹에 할당되어야 한다. 그러나, 가상 스피커 신호 그룹에 할당되어야 하는 비트의 수량은 여전히 가상 스피커 코드 식별자가 우세하지 않을 때 할당되는 비트의 수량보다 더 커야 한다. 예를 들어, 가상 스피커 신호 그룹의 초기 비트 비율이 결정된 후, 비트 비율이 증가될 수 있다. 비교하면, 프리-우세의 사례에 증가되는 비트 비율이 서브-우세의 사례에 증가되는 비트 비율보다 크다.
가능한 구현에서, 전송 채널 속성 정보는 가상 스피커 신호 그룹의 에너지 비율 및/또는 가상 스피커 코드 식별자를 포함하고; 전송 채널 속성 정보에 기반하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계는, 가상 스피커 신호 그룹의 에너지 비율이 미리 설정된 제1 에너지 비율 임계값보다 크거나 같거나 및/또는 가상 스피커 코드 식별자가 프리-우세할 때, 미리 설정된 제1 신호 그룹 비트 할당 알고리즘에 따라 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계; 또는 가상 스피커 신호 그룹의 에너지 비율이 미리 설정된 제2 에너지 비율 임계값보다 크거나 같고 미리 설정된 제1 에너지 비율 임계값보다 작거나 및/또는 가상 스피커 코드 식별자가 서브-우세할 때, 미리 설정된 제2 신호 그룹 비트 할당 알고리즘에 따라 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계 - 제2 에너지 비율 임계값은 제1 에너지 비율 임계값보다 작음 -; 또는 가상 스피커 신호 그룹의 에너지 비율이 미리 설정된 제1 에너지 비율 임계값보다 작거나 가상 스피커 코드 식별자가 우세하지 않을 때, 미리 설정된 제3 신호 그룹 비트 할당 알고리즘에 따라 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계를 포함한다. 전술한 솔루션에서, 복수의 신호 그룹 비트 할당 알고리즘은 코더 측에서 미리 설정될 수 있다. 전송 채널 속성 정보가 서로 다른 조건을 충족할 때, 서로 다른 신호 그룹 비트 할당 알고리즘을 사용함으로써, 전송 채널 속성 정보가 조건을 충족할 때 조건과 매칭되는 비트 할당 비율을 가상 스피커 신호 그룹과 잔차 신호 그룹에 할당하여, 코더 측에 의한 3차원 오디오 신호를 코딩하는 효율을 향상시킬 수 있다.
가능한 구현에서, 가상 스피커 신호 그룹의 에너지 비율이 미리 설정된 제1 에너지 비율 임계값보다 크거나 같거나 및/또는 가상 스피커 코드 식별자가 프리-우세할 때, 미리 설정된 제1 신호 그룹 비트 할당 알고리즘에 따라 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계는: directionNrgRatio ≥ TH1 및/또는 S ≤ TH0 및 η > TH2가 충족될 때, 가상 스피커 신호 그룹의 비트 할당 비율을 다음 방식: Ratio1_1 = FAC1 * directionalNrgRatio + (1 - FAC1) * maxdirectionalNrgRatio으로 계산하는 단계 - directionalNrgRatio는 가상 스피커 신호 그룹의 에너지 비율을 나타내고, S는 이방성 음원의 수량이며, η은 가상 스피커 코딩 효율을 나타내고, maxdirectionNrgRatio는 가상 스피커 신호 그룹의 미리 설정된 최대 비트 할당 비율이며, FAC1은 미리 설정된 제1 조정 팩터(adjustment factor)이고, Ratio1_1은 가상 스피커 신호 그룹의 비트 할당 비율이며, *는 곱셈 연산을 나타내고, TH1은 제1 에너지 비율 임계값이며, TH0는 이방성 음원의 수량의 임계값이고, TH2는 제2 가상 스피커 코딩 효율 임계값임 -; 및 잔차 신호 그룹의 비트 할당 비율을 다음 방식: Ratio2 = 1 - Ratio1_1으로 계산하는 단계 - Ratio1_1은 가상 스피커 신호 그룹의 비트 할당 비율이고, Ratio2는 잔차 신호 그룹의 비트 할당 비율임 - 를 포함한다. 전술한 솔루션에서는 Ratio1_1의 계산 절차로부터, 가상 스피커 신호 그룹의 비트 할당 비율이 높아지고 따라서 코더 측이 가상 스피커 신호 그룹에 더 많은 비트를 할당할 수 있음을 알 수 있다. 전송 채널 신호는 가상 스피커 신호 그룹과 잔차 신호 그룹을 포함한다. 가상 스피커 신호 그룹의 비트 할당 비율 Ratio1_1을 획득한 후, Ratio2의 계산 수식에 따라 잔차 신호 그룹의 비트 할당 비율을 획득할 수 있다.
가능한 구현에서, 가상 스피커 신호 그룹의 비트 할당 비율이 획득된 후, 이 방법은: 가상 스피커 신호 그룹의 비트 할당 비율을 다음 방식: Ratio1_2 = min(Ratio1_1, maxdirectionalNrgRatio + FAC2 * Ratio1_1)으로 업데이트하는 단계 - Ratio1_2는 가상 스피커 신호 그룹의 업데이트된 비트 할당 비율을 나타내고, FAC2는 미리 설정된 제2 조정 팩터이며, maxdirectionNrgRatio는 가상 스피커 신호 그룹의 미리 설정된 최대 비트 할당 비율을 나타내고, Ratio1_1은 가상 스피커 신호 그룹의 비트 할당 비율로서 또한 업데이트 이전에 존재하는 비트 할당 비율이며, *는 곱셈 연산을 나타내고, min은 최소화 연산임 - 를 더 포함한다. 전술한 솔루션에서는 Ratio1_2의 계산 절차로부터, 가상 스피커 신호 그룹의 비트 할당 비율에 대해 안전한 제한(secure limit)이 설정되어 있고, Ratio1_2는 안전한 비트 범위 내에서 제한됨으로써, 코더 측이 안전하고 이용 가능한 방식으로 가상 스피커 신호 그룹의 비트 할당을 수행할 수 있음을 알 수 있다.
가능한 구현에서, 가상 스피커 신호 그룹의 에너지 비율이 미리 설정된 제2 에너지 비율 임계값보다 크거나 같고 미리 설정된 제1 에너지 비율 임계값보다 작거나 및/또는 가상 스피커 코드 식별자가 서브-우세할 때, 미리 설정된 제2 신호 그룹 비트 할당 알고리즘에 따라 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계 - 제2 에너지 비율 임계값은 제1 에너지 비율 임계값보다 작음 -는; TH3 ≤ directionNrgRatio < TH1이 충족되거나 및/또는 S ≤ TH0 및 TH4 ≤ η ≤ TH2가 충족될 때, Ratio1_1을 다음 방식: Ratio1_1 = FAC3 * directionNrgRatio + (1 - FAC3) * maxdirectionNrgRatio으로 계산하는 단계 - maxdirectionNrgRatio는 가상 스피커 신호 그룹의 미리 설정된 비트 할당 비율이며, FAC3은 미리 설정된 제3 조정 팩터이고, directionalNrgRatio는 가상 스피커 신호 그룹의 에너지 비율을 나타내며, S는 이방성 음원의 수량이고, η은 가상 스피커 코딩 효율을 나타내며, Ratio1_1은 가상 스피커 신호 그룹의 비트 할당 비율이고, *는 곱셈 연산을 나타내며, TH0는 이방성 음원의 수량의 임계값이고, TH1은 제1 에너지 비율 임계값이며, TH2는 제2 가상 스피커 코딩 효율 임계값이고, TH3은 제2 에너지 비율 임계값이며, TH4는 제1 가상 스피커 코딩 효율 임계값임 -; 및 잔차 신호 그룹의 비트 할당 비율을 다음 방식: Ratio2 = 1 - Ratio1_1으로 계산하는 단계 - Ratio1_1은 가상 스피커 신호 그룹의 비트 할당 비율이고, Ratio2는 잔차 신호 그룹의 비트 할당 비율임 - 를 포함한다. 전술한 솔루션에서는 Ratio1_1의 계산 절차로부터, 가상 스피커 신호 그룹의 비트 할당 비율이 높아지며, 따라서 코더 측이 가상 스피커 신호 그룹에 더 많은 비트를 할당할 수 있음을 알 수 있다. 전송 채널 신호는 가상 스피커 신호 그룹과 잔차 신호 그룹을 포함한다. 가상 스피커 신호 그룹의 비트 할당 비율 Ratio1_1을 획득한 후, Ratio2의 계산 수식에 따라 잔차 신호 그룹의 비트 할당 비율을 획득할 수 있다.
가능한 구현에서, 가상 스피커 신호 그룹의 비트 할당 비율이 획득된 후, 이 방법은: 가상 스피커 신호 그룹의 비트 할당 비율을 다음 방식: Ratio1_2 = min(Ratio1_1, maxdirectionalNrgRatio + FAC4 * Ratio1_1)으로 업데이트하는 단계 - Ratio1_2는 가상 스피커 신호 그룹의 업데이트된 비트 할당 비율을 나타내고, FAC4는 미리 설정된 제4 조정 팩터이며, maxdirectionNrgRatio는 가상 스피커 신호 그룹의 미리 설정된 최대 비트 할당 비율이고, Ratio1_1은 가상 스피커 신호 그룹의 비트 할당 비율로서 또한 업데이트 이전에 존재하는 비트 할당 비율이며, *는 곱셈 연산을 나타내고, min은 최소화 연산임 - 를 더 포함한다. 전술한 솔루션에서는 Ratio1_2의 계산 절차로부터, 가상 스피커 신호 그룹의 비트 할당 비율에 대해 안전한 제한이 설정되어 있고, Ratio1_2는 안전한 비트 범위 내에서 제한되므로, 코더 측이 안전하고 이용 가능한 방식으로 가상 스피커 신호 그룹의 비트 할당을 수행할 수 있음을 알 수 있다.
가능한 구현에서, 이 방법은: 복수의 잔차 신호 그룹이 있을 때, i번째 잔차 신호 그룹의 비트 할당 비율을 다음 방식: Ratio2_i = Ratio2 * (R_i/C)으로 계산하는 단계 - R_i는 i번째 잔차 신호 그룹에 포함된 전송 채널의 수량을 나타내고, C는 모든 잔차 신호 그룹에서 전송 채널의 총 수량이며, Ratio2_i는 i번째 잔차 신호 그룹의 비트 할당 비율이고, *는 곱셈 연산을 나타내고, Ratio2는 모든 잔차 신호 그룹의 비트 할당 비율임 - 를 더 포함한다. 전술한 솔루션에서는, 복수의 잔차 신호 그룹이 있을 때, 모든 잔차 신호 그룹에 대한 각 잔차 신호 그룹의 비트 할당 비율은 각 잔차 신호 그룹의 전송 채널의 수량에 기반하여 결정될 수 있다. 예를 들어, R_i/C는 모든 잔차 신호 그룹에 대한 i번째 잔차 신호 그룹의 전송 채널 비율을 나타내며, (R_i/C)와 Ratio2에 기반하여 i번째 잔차 신호 그룹의 비트 할당 비율을 획득할 수 있다.
가능한 구현에서, 가상 스피커 신호 그룹의 에너지 비율이 미리 설정된 제1 에너지 비율 임계값보다 작거나 가상 스피커 코드 식별자가 우세하지 않을 때 미리 설정된 제3 신호 그룹 비트 할당 알고리즘에 따라 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계는: directionalNrgRatio < TH3이 충족되거나, S > TH0이 충족되거나, η < TH4가 충족될 때, 가상 스피커 신호 그룹의 비트 할당 비율을 다음 방식: Ratio1_1 = directionalNrgRatio으로 계산하는 단계 - directionalNrgRatio는 가상 스피커 신호 그룹의 에너지 비율을 나타내고, Ratio1_1은 가상 스피커 신호 그룹의 비트 할당 비율이며, TH3은 제2 에너지 비율 임계값이고, TH4는 제1 가상 스피커 코딩 효율 임계값이며, S는 이방성 음원의 수량이고, η은 가상 스피커 코딩 효율을 나타내며, TH0는 이방성 음원의 수량의 임계값임 -; 및 잔차 신호 그룹의 비트 할당 비율을 다음 방식: Ratio2_1 = D/(F + D)으로 계산하는 단계 - Ratio2_1은 잔차 신호 그룹의 비트 할당 비율이고, F는 가상 스피커 신호 그룹의 에너지 표현 값이며, D는 잔차 신호 그룹의 에너지 표현 값임 - 를 포함한다. 전술한 솔루션에서는 Ratio1_1의 계산 절차로부터, 가상 스피커 신호 그룹의 비트 할당 비율이 가상 스피커 신호 그룹의 에너지 비율과 같음을 알 수 있다. 따라서, 가상 스피커 신호 그룹의 비트 할당이 우세하지 않을 때, 코더 측은 가상 스피커 신호 그룹에 더 많은 비트를 할당하지 않아서, 코더 측의 적절한 비트 할당을 보장한다.
가능한 구현에서, 이 방법은: 가상 스피커 신호 그룹의 비트 할당 비율을 획득한 후, 가상 스피커 신호 그룹의 비트 할당 비율을 다음 방식: Ratio1_1 < groupBitsRatio1일 때 Ratio1_2 = groupBitsRatio1; 및 Ratio1_1 ≥ groupBitsRatio1일 때 Ratio1_2 = FAC5 * groupBitsRatio1 + (1 - FAC5) * Ratio1_1으로 업데이트하는 단계 - Ratio1_2는 가상 스피커 신호 그룹의 업데이트된 비트 할당 비율을 나타내고, FAC5는 미리 설정된 제5 조정 팩터이며, Ratio1_1은 가상 스피커 신호 그룹의 비트 할당 비율로서 또한 업데이트 이전에 존재하는 비트 할당 비율이고, *는 곱셈 연산을 나타내며, groupBitsRatio1은 가상 스피커 신호 그룹의 미리 설정된 비트 할당 비율임 -; 및 잔차 신호 그룹의 비트 할당 비율이 획득된 후, 잔차 신호 그룹의 비트 할당 비율을 다음 방식: Ratio2_1 < groupBitsRatio2일 때 Ratio2_2 = groupBitsRatio2; 및 Ratio2_1 ≥ groupBitsRatio2일 때 Ratio2_2 = FAC6 * groupBitsRatio2 + (1 - FAC6) * Ratio2_1으로 업데이트하는 단계 - Ratio2_2는 잔차 신호 그룹의 업데이트된 비트 할당 비율을 나타내고, FAC6은 미리 설정된 제6 조정 팩터이며, Ratio2_1은 잔차 신호 그룹의 비트 할당 비율로서 또한 업데이트 이전에 존재하는 비트 할당 비율이고, *는 곱셈 연산을 나타내며, groupBitsRatio2는 잔차 신호 그룹의 미리 설정된 비트 할당 비율임 - 를 더 포함한다. 전술한 솔루션에서는 Ratio1_2의 계산 절차로부터, 가상 스피커 신호 그룹의 비트 할당 비율에 대해 안전한 제한이 설정되어 있고, Ratio1_2는 안전한 비트 범위 내에서 제한됨으로써, 코더 측이 안전하고 이용 가능한 방식으로 가상 스피커 신호 그룹의 비트 할당을 수행할 수 있음을 알 수 있다. Ratio2_2의 계산 절차로부터, 잔차 신호 그룹의 비트 할당 비율에 대해 안전한 제한이 설정되어 있고, Ratio2_2는 안전한 비트 범위 내로 제한됨으로써, 코더 측에서 안전하고 이용 가능한 방식으로 잔차 신호 그룹의 비트 할당을 수행할 수 있음을 알 수 있다.
가능한 구현에서, 이 방법은: 가상 스피커 신호 그룹의 비트 할당 비율, 잔차 신호 그룹의 비트 할당 비율 및 총 전송 채널 비트 수량에 기반하여, 가상 스피커 신호 그룹의 비트 수량과 잔차 신호 그룹의 비트 수량을 개별적으로 결정하는 단계; 및 가상 스피커 신호 그룹의 비트 수량에 기반하여 가상 스피커 신호 그룹의 비트 할당을 수행하고, 잔차 신호 그룹의 비트 수량에 기반하여 잔차 신호 그룹의 비트 할당을 수행하는 단계를 더 포함한다. 전술한 솔루션에서, 코더 측은 가상 스피커 신호 그룹의 비트 수량에 기반하여 가상 스피커 신호 그룹의 비트 할당을 수행하고, 잔차 신호 그룹의 비트 수량에 기반하여 잔차 신호 그룹의 비트 할당을 수행하여, 코더 측에서 가상 스피커 신호와 잔차 신호의 비트 할당을 수행할 수 없는 문제를 해결한다.
가능한 구현에서, 가상 스피커 신호 그룹의 비트 할당 비율, 잔차 신호 그룹의 비트 할당 비율 및 총 전송 채널 비트 수량에 기반하여, 가상 스피커 신호 그룹의 비트 수량과 잔차 신호 그룹의 비트 수량을 개별적으로 결정하는 단계는: 가상 스피커 신호 그룹의 비트 수량을 다음 방식: F_bitnum = Ratio1 * C_bitnum으로 계산하는 단계 - F_bitnum은 가상 스피커 신호 그룹의 비트 수량이고, Ratio1은 가상 스피커 신호 그룹의 비트 할당 비율이며, C_bitnum은 총 전송 채널 비트 수량임 -; 및 잔차 신호 그룹의 비트 수량을 다음 방식: D_bitnum = Ratio2 * C_bitnum으로 계산하는 단계 - D_bitnum은 잔차 신호 그룹의 비트 수량이고, Ratio2는 잔차 신호 그룹의 비트 할당 비율이며, C_bitnum은 총 전송 채널 비트 수량임 - 를 포함한다. 전술한 솔루션에서, 코더 측은 총 전송 채널 비트 수량을 미리 결정할 수 있으며, 총 전송 채널 비트 수량의 값은 제한되지 않는다. 코더 측은 계산 수식에 따라 가상 스피커 신호 그룹의 비트 수량과 잔차 신호 그룹의 비트 수량을 계산하여, 코더 측에서 가상 스피커 신호와 잔차 신호의 비트 할당을 수행할 수 없는 문제를 해결할 수 있다.
가능한 구현에서, 이 방법은: 전송 채널 신호, 가상 스피커 신호 그룹의 비트 할당 비율 및 잔차 신호 그룹의 비트 할당 비율을 코딩하고, 코딩된 전송 채널 신호, 코딩된 가상 스피커 신호 그룹의 비트 할당 비율 및 코딩된 잔차 신호 그룹의 비율을 비트스트림에 기록하는 단계를 더 포함한다. 전술한 솔루션에서는 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율이 비트스트림으로 코딩될 수 있다. 코더 측은 비트스트림을 디코더 측으로 송신하고, 디코더 측은 비트스트림을 파싱함으로써, 디코더 측은 비트스트림에 기반하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 획득할 수 있다. 디코더 측은 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율에 기반하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 획득하여, 비트스트림을 디코딩하여 3차원 오디오 신호를 획득할 수 있다.
제2 측면에 따르면, 본 출원의 실시예는 3차원 오디오 신호 처리 방법을 더 제공하며, 이 방법은: 비트스트림을 수신하는 단계; 비트스트림을 디코딩하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 획득하는 단계; 및 디코딩을 통해 3차원 오디오 신호를 획득하기 위해, 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율에 기반하여 비트스트림 내의 가상 스피커 신호와 잔차 신호를 디코딩하는 단계를 포함한다. 전술한 솔루션에서는 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율이 비트스트림으로 코딩될 수 있다. 코더 측은 비트스트림을 디코더 측으로 송신하고, 디코더 측은 비트스트림을 파싱함으로써, 디코더 측은 비트스트림에 기반하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 획득할 수 있다. 디코더 측은 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율에 기반하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 획득하여, 비트스트림을 디코딩하여 3차원 오디오 신호를 획득할 수 있다.
가능한 구현에서, 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율에 기반하여 비트스트림 내의 가상 스피커 신호와 잔차 신호를 디코딩하는 단계는: 비트스트림에 기반하여 이용 가능한 비트의 수량을 결정하는 단계; 및 이용 가능한 비트의 수량 및 가상 스피커 신호 그룹의 비트 할당 비율에 기반하여 가상 스피커 신호 그룹의 비트 수량을 결정하고, 가상 스피커 신호 그룹의 비트 수량에 기반하여 비트스트림 내의 가상 스피커 신호를 디코딩하는 단계; 및 이용 가능한 비트의 수량 및 잔차 신호 그룹의 비트 할당 비율에 기반하여 잔차 신호 그룹의 비트 수량을 결정하고, 잔차 신호 그룹의 비트 수량에 기반하여 비트스트림 내의 잔차 신호를 디코딩하는 단계를 포함한다.
제3 측면에 따르면, 본 출원의 실시예는 3차원 오디오 신호 처리 장치를 더 제공하며, 이 장치는 코딩 대상 3차원 오디오 신호에 대해 공간 코딩을 수행하여 전송 채널 신호 및 전송 채널 속성 정보를 획득하도록 - 전송 채널 신호는 적어도 하나의 가상 스피커 신호 그룹 및 적어도 하나의 잔차 신호 그룹을 포함함 - 구성된 코딩 모듈; 및 전송 채널 속성 정보에 기반하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정하도록 구성된 비트 할당 비율 결정 모듈을 포함한다.
본 출원의 제3 측면에서, 3차원 오디오 신호 처리 장치의 구성 모듈(composition module)은 제1 측면 또는 가능한 구현에서 설명된 단계를 추가로 수행할 수 있다. 자세한 내용은 제1 측면과 가능한 구현에서의 설명을 참조한다.
제4 측면에 따르면, 본 출원의 실시예는 3차원 오디오 신호 처리 장치를 더 제공하며, 이 장치는 비트스트림을 수신하도록 구성된 수신 모듈; 비트스트림을 디코딩하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 획득하도록 구성된 디코딩 모듈; 및 디코딩을 통해 3차원 오디오 신호를 획득하기 위해, 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율에 기반하여 비트스트림 내의 가상 스피커 신호와 잔차 신호를 디코딩하도록 구성된 신호 생성 모듈을 포함한다.
본 출원의 제4 측면에서, 3차원 오디오 신호 처리 장치의 구성 모듈은 제2 측면 또는 가능한 구현에서 설명된 단계를 추가로 수행할 수 있다. 자세한 내용은 제2 측면과 가능한 구현에서의 설명을 참조한다.
제5 측면에 따르면, 본 출원의 실시예는 컴퓨터가 판독 가능한 저장 매체를 제공한다. 컴퓨터가 판독 가능한 저장 매체는 명령어를 저장하고, 명령어가 컴퓨터에서 실행될 때, 컴퓨터는 제1 측면 또는 제2 측면의 방법을 수행하도록 인에이블된다.
제6 측면에 따르면, 본 출원의 실시예는 명령어를 포함하는 컴퓨터 프로그램 제품을 제공하고, 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때, 컴퓨터는 제1 측면 또는 제2 측면의 방법을 수행하도록 인에이블된다.
제7 측면에 따르면, 본 출원의 실시예는 제1 측면의 방법에서 생성된 비트스트림을 포함하는, 컴퓨터가 판독 가능한 저장 매체를 제공한다.
제8 측면에 따르면, 본 출원의 실시예는 통신 장치를 제공한다. 통신 장치는 단말 디바이스, 칩 등의 엔티티를 포함할 수 있다. 통신 장치는 프로세서와 메모리를 포함한다. 메모리는 명령어를 저장하도록 구성된다. 프로세서는 메모리의 명령어를 실행하도록 구성됨으로써, 통신 장치는 제1 측면 또는 제2 측면의 방법을 수행한다.
제9 측면에 따르면, 본 출원은 칩 시스템을 제공한다. 칩 시스템은 전술한 측면의 기능을 구현하기 위해, 예를 들어 전술한 방법에서 데이터 및/또는 정보를 전송하거나 처리하기 위해 오디오 코더 또는 오디오 디코더를 지원하도록 구성된 프로세서를 포함한다. 가능한 설계에서, 칩 시스템은 메모리를 더 포함한다. 메모리는 오디오 코더 또는 오디오 디코더에 필요한 프로그램 명령어 및 데이터를 저장하도록 구성된다. 칩 시스템은 칩을 포함할 수도 있고, 칩과 다른 개별 구성 요소를 포함할 수도 있다.
본 출원의 실시예는 다음과 같은 이점을 갖는다는 것을 전술한 기술 솔루션으로부터 알 수 있다:
본 출원의 실시예에서, 코딩 대상 3차원 오디오 신호에 대해 공간 코딩을 수행하여 전송 채널 신호 및 전송 채널 속성 정보를 획득하며, 전송 채널 신호는 적어도 하나의 가상 스피커 신호 그룹 및 적어도 하나의 잔차 신호 그룹을 포함하며; 그리고, 전송 채널 속성 정보에 기반하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정한다. 본 출원의 실시예에서는 3차원 오디오 신호가 코딩되어 전송 채널 신호 및 전송 채널 속성 정보를 획득한다. 전송 채널 신호는 적어도 하나의 가상 스피커 신호 그룹과 적어도 하나의 잔차 신호 그룹을 포함할 수 있으며, 전송 채널 속성 정보는 신호의 비트 할당을 결정할 수 없는 문제를 해결하기 위해, 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 개별적으로 결정하는데 사용될 수 있다.
도 1은 본 출원의 실시예에 따른 오디오 처리 시스템의 구성 구조의 개략도이다.
도 2a는 본 출원의 실시예에 따라 오디오 코더 및 오디오 디코더가 단말 디바이스에 적용되는 개략도이다.
도 2b는 본 출원의 실시예에 따라 오디오 코더가 무선 디바이스 또는 코어 네트워크 디바이스에 적용되는 개략도이다.
도 2c는 본 출원의 실시예에 따라 오디오 디코더가 무선 디바이스 또는 코어 네트워크 디바이스에 적용되는 개략도이다.
도 3a는 본 출원의 실시예에 따라 다중 채널 코더 및 다중 채널 디코더가 단말 디바이스에 적용되는 개략도이다.
도 3b는 본 출원의 실시예에 따라 다중 채널 코더가 무선 디바이스 또는 코어 네트워크 디바이스에 적용되는 개략도이다.
도 3c는 본 출원의 실시예에 따라 다중 채널 디코더가 무선 디바이스 또는 코어 네트워크 디바이스에 적용되는 개략도이다.
도 4는 본 출원의 실시예에 따른 3차원 오디오 신호 처리 방법의 개략도이다.
도 5는 본 출원의 실시예에 따른 3차원 오디오 신호 처리 방법의 개략도이다.
도 6은 본 출원의 실시예에 따른 3차원 오디오 신호의 애플리케이션 시나리오의 개략도이다.
도 7은 본 출원의 실시예에 따른 오디오 코딩 장치의 구성 구조의 개략도이다.
도 8은 본 출원의 실시예에 따른 오디오 디코딩 장치의 구성 구조의 개략도이다.
도 9는 본 출원의 실시예에 따른 다른 오디오 코딩 장치의 구성 구조의 개략도이다.
도 10은 본 출원의 실시예에 따른 다른 오디오 디코딩 장치의 구성 구조의 개략도이다.
도 2a는 본 출원의 실시예에 따라 오디오 코더 및 오디오 디코더가 단말 디바이스에 적용되는 개략도이다.
도 2b는 본 출원의 실시예에 따라 오디오 코더가 무선 디바이스 또는 코어 네트워크 디바이스에 적용되는 개략도이다.
도 2c는 본 출원의 실시예에 따라 오디오 디코더가 무선 디바이스 또는 코어 네트워크 디바이스에 적용되는 개략도이다.
도 3a는 본 출원의 실시예에 따라 다중 채널 코더 및 다중 채널 디코더가 단말 디바이스에 적용되는 개략도이다.
도 3b는 본 출원의 실시예에 따라 다중 채널 코더가 무선 디바이스 또는 코어 네트워크 디바이스에 적용되는 개략도이다.
도 3c는 본 출원의 실시예에 따라 다중 채널 디코더가 무선 디바이스 또는 코어 네트워크 디바이스에 적용되는 개략도이다.
도 4는 본 출원의 실시예에 따른 3차원 오디오 신호 처리 방법의 개략도이다.
도 5는 본 출원의 실시예에 따른 3차원 오디오 신호 처리 방법의 개략도이다.
도 6은 본 출원의 실시예에 따른 3차원 오디오 신호의 애플리케이션 시나리오의 개략도이다.
도 7은 본 출원의 실시예에 따른 오디오 코딩 장치의 구성 구조의 개략도이다.
도 8은 본 출원의 실시예에 따른 오디오 디코딩 장치의 구성 구조의 개략도이다.
도 9는 본 출원의 실시예에 따른 다른 오디오 코딩 장치의 구성 구조의 개략도이다.
도 10은 본 출원의 실시예에 따른 다른 오디오 디코딩 장치의 구성 구조의 개략도이다.
다음은 첨부된 도면을 참조하여 본 출원의 실시예를 설명한다.
본 출원의 명세서, 청구범위 및 첨부 도면에서 "제1", "제2" 등의 용어는 유사한 객체를 구별하기 위한 것이며, 반드시 특정한 순서나 시퀀스를 지시하는 것은 아니다. 이와 같이 사용되는 용어는 적절한 상황에서는 서로 바꿔 사용될 수 있으며, 이는 본 출원의 실시예에서 동일한 속성을 갖는 객체를 설명하기 위한 구별 방식일 뿐이라는 점을 이해해야 한다. 또한, "포함하다" 및 "갖다"라는 용어와 그 다른 변형은 비배타적 포함을 포함한다는 의미이므로, 일련의 유닛을 포함하는 프로세스, 방법, 시스템, 제품 또는 디바이스가 반드시 이러한 유닛으로 제한되는 것은 아니며, 이러한 프로세스, 방법, 제품 또는 디바이스에 대해 고유하거나 또는 명시적으로 나열되지 않은 다른 유닛을 포함할 수 있다.
사운드(sound)는 진동을 통해 물체에 의해 생성되는 연속파이다. 진동하여 음파(sound wave)를 방출하는 물체를 음원(sound source)이라고 한다. 음파가 매질(예를 들어, 공기, 고체 또는 액체)을 통해 전파되는 프로세스에서 사람이나 동물의 청각 기관은 사운드를 감지할 수 있다.
음파의 특징에는 톤(tone), 사운드 세기(sound intensity) 및 음질(tone quality)이 포함된다. 톤은 사운드 레벨을 지시한다. 사운드 세기는 사운드의 크기(loudness)를 지시한다. 사운드 세기는 크기 또는 볼륨이라고도 한다. 사운드 세기의 단위는 데시벨(decibel, dB)이다. 음질은 음색(timbre)이라고도 한다.
음파의 주파수에 따라 톤의 피치(pitch)가 결정된다. 주파수가 높을수록 톤이 높아진다. 물체가 1초 동안 진동하는 횟수를 주파수라고 하며, 주파수 단위는 헤르츠(hertz, Hz)이다. 인간의 귀가 인지할 수 있는 사운드의 주파수는 20Hz~20000Hz이다.
음파의 진폭에 따라 사운드 세기가 결정된다. 진폭이 클수록 사운드 세기가 높아진다. 음원과의 거리가 가까울수록 사운드 세기가 높아진다.
음파의 파형에 따라 음질이 결정된다. 음파의 파형에는 구형파, 톱니파, 사인파, 펄스파 등이 포함된다.
사운드는 음파의 특성에 기반하여 규칙적인 사운드와 불규칙적인 사운드로 나뉠 수 있다. 불규칙적인 사운드는 불규칙한 진동을 통해 음원에 의해 생성되는 사운드이다. 불규칙적인 사운드는 예를 들어 사람들의 업무, 학습, 휴식 등에 영향을 미치는 노이즈이다. 규칙적인 사운드는 규칙적인 진동을 통해 음원에 의해 생성되는 사운드이다. 규칙적인 사운드에는 음성과 음악 사운드가 포함된다. 사운드가 전기로 표현될 때, 규칙적인 사운드는 시간/주파수 도메인에서 연속적으로 변화하는 아날로그 신호이다. 아날로그 신호는 오디오 신호(음향(acoustic) 신호)로 지칭될 수도 있다. 오디오 신호는 음성, 음악 및 음향 효과를 운반하는 정보 매체이다.
사람의 청각은 공간에서 음원의 위치 분포를 식별하는 능력을 갖고 있기 때문에, 청취자(listener)가 공간 속 사운드를 들을 때, 사운드의 톤, 사운드 세기 및 음질 이외에, 사운드의 방향도 느낄 수 있다.
청각 시스템의 경험에 대한 관심과 품질 요건이 높아짐에 따라 사운드의 깊이감, 현장감, 공간감을 향상시키는 3차원 오디오 기술이 등장하고 있다. 따라서 청취자는 앞의 음원, 뒤의 음원, 왼쪽 음원, 오른쪽 음원으로부터의 사운드를 감지할 뿐만 아니라, 청취자가 위치된 공간이 이러한 음원들에 의해 발생되는 공간적 음장(간단히 "음장"(sound field)이라고 함)으로 둘러싸여 있다는 느낌 그리고 사운드가 주변으로 확산되어, 청취자가 극장이나 콘서트 홀과 같은 장소에 있을 때 발휘되는 "몰입형" 음향 효과를 생성하는 느낌을 감지할 수 있다.
3차원 오디오 기술에서는 인간의 귀 외부의 공간을 하나의 시스템으로 가정하고, 귀막(ear membrane)에서 수신되는 신호는 음원에서 생성된 사운드가 인간 귀 외부의 시스템에 의해 필터링될 때 출력되는 3차원 오디오 신호이다. 예를 들어, 인간의 귀 외부의 시스템은 시스템 영향(impact) 응답 h(n)으로 정의될 수 있고, 임의의 음원은 x(n)으로 정의될 수 있으며, 귀막에서 수신된 신호는 x(n) 및 및 h(n)의 콘볼루션 결과이다. 본 출원의 실시예에서 설명되는 3차원 오디오 신호는 고차 앰비소닉(higher order ambisonics, HOA) 신호 또는 1차 앰비소닉(first order ambisonics, FOA) 신호일 수 있다. 3차원 오디오는 3차원 음향 효과, 공간 오디오, 3차원 음장 재구성, 가상 3D 오디오, 바이노럴(binaural) 오디오 등으로도 지칭될 수 있다.
음파는 이상적인 매질에서 전파되며, 파수(wave number)는 이고 애뉼러(annular) 주파수는 이며, 는 음파 주파수이고, 는 음속이다. 음압는 수식 (1)을 만족하며, 여기서 는 라플라시안 연산자이다.
수식(1)
인간의 귀 외부의 공간 시스템은 구(sphere)이고, 청취자는 구의 중심에 있다고 가정한다. 구의 외부로부터 전송된 사운드는 구에 투영되고, 구의 외부의 사운드는 필터링된다. 음원이 구에 분포되어 있고, 구에 있는 음원에 의해 생성된 음장은 원래의 음원에 의해 생성된 음장에 피팅한다(fit)고 가정한다. 즉, 3차원 오디오 기술은 음장 피팅(fitting) 방법이다. 구체적으로, 방정식, 즉 수식(1)은 구면 좌표계에서 해결된다. 수동 구면 영역에서, 방정식, 즉 수식(1)의 해는 다음 수식(2)와 같다.
수식 (2)
여기서, 은 구 반경을 나타내고, 는 수평각을 나타내며, 는 앙각(elevation angle)을 나타내고, 는 파수을 나타내며, 는 이상적인 평면파의 진폭을 나타내고, 는 3차원 오디오 신호의 차수(order)의 시퀀스 번호를 나타내며(또는 HOA 신호의 차수의 시퀀스 번호라고 함), 는 구 베셀 함수(sphere Bessel function)를 나타내고, 구 베셀 함수는 방사형 기저 함수라고도 하며, 여기서 제1 "j"는 허수 단위를 나타내고, 는 각도에 따라 변하지 않는다. 는 와 의 방향의 구면 조화 함수(spherical harmonic function)를 나타내고, 는 음원 방향의 구면 조화 함수를 나타낸다. 3차원 오디오 신호의 계수는 수식 (3)을 만족한다.
수식 (3)
수식 (3)은 수식 (2)에 대입되고, 수식 (2)는 수식 (4)로 변형될 수 있다.
수식 (4)
는 3차원 오디오 신호의 N차 계수를 나타내고 음장을 대략적으로 표현하는데 사용된다. 음장은 매체에서 음파가 존재하는 영역이다. N은 1보다 크거나 같은 정수이다. 예를 들어 N의 값 범위는 2에서 6 사이의 정수이다. 본 출원의 실시예에서 3차원 오디오 신호의 계수는 HOA 계수 또는 앰비소닉(ambisonic) 계수일 수 있다.
3차원 오디오 신호는 음장에서 음원의 공간적 위치 정보를 운반하는 정보 캐리어(carrier)로서, 공간에서 청취자의 음장을 설명한다. 수식 (4)는 구면 조화 함수에 기반하여 음장이 구면에서 확장될 수 있음을 지시한다. 달리 말하면, 음장은 복수의 평면파의 중첩으로 분해될 수 있다. 따라서, 3차원 오디오 신호가 표현하는 음장은 복수의 평면파의 중첩을 사용하여 표현될 수 있으며, 음장은 3차원 오디오 신호의 계수를 사용하여 재구성될 수 있다.
N-차수 HOA 신호는 5.1 채널 오디오 신호나 7.1 채널 오디오 신호에 비해 개의 사운드 채널을 갖기 때문에, HOA 신호에는 음장의 공간 정보를 기술하는 데 사용되는 데이터가 많이 포함되어 있다. 캡처(capture) 디바이스(예를 들어, 마이크)가 3차원 오디오 신호를 재생 디바이스(예를 들어, 스피커)로 전송하면, 큰 대역폭이 소모되어야 한다. 현재 코더는 3차원 오디오 신호를 공간 압착 서라운드 오디오 코딩(spatial squeezed surround audio coding, S3AC) 방법, 지향성 오디오 코딩(directional audio coding, DirAC) 방법, 또는 가상 스피커에 기반하여 선택된 코딩 방법으로 압축하고 코딩하여, 비트스트림을 획득하고, 비트스트림을 재생 디바이스로 전송할 수 있다. 가상 스피커에 기반하여 선택된 코딩 방법은 매치 프로젝션(match projection, MP) 코딩 방법이라고도 할 수 있다. 이어서, 가상 스피커에 기반하여 선택된 코딩 방법을 예로 들어 설명한다. 재생 디바이스는 비트스트림을 디코딩하고, 3차원 오디오 신호를 재구성하며, 재구성된 3차원 오디오 신호를 재생하여, 3차원 오디오 신호를 재생 디바이스로 전송하는 데이터의 양과 대역폭 점유를 감소시킨다.
3차원 오디오 신호의 경우, 3차원 오디오 신호의 음장은 현재 분류할 수 없다. 3차원 오디오 신호의 음장을 어떻게 분류하는 가는 본 출원의 실시예에서 해결해야 할 기술적 문제이다. 본 출원의 실시예에서는 3차원 오디오 신호의 선형 분해를 통해 3차원 오디오 신호의 음장을 분류할 수 있으므로, 3차원 오디오 신호의 음장을 정확하게 분류할 수 있으며, 현재 프레임의 필드 분류 결과를 획득할 수 있다.
또한, 현재의 코더가 3차원 오디오 신호를 압축하여 코딩할 때, 높은 압축 비율을 획득할 수 없다. 따라서, 서로 다른 음장의 3차원 오디오 신호를 압축하여 코딩할 때 압축 비율을 어떻게 향상시킬 것인가는 본 출원의 실시예에서 해결해야 할 또 다른 문제이다.
본 출원의 실시예는 오디오 코딩 기술을 제공하며, 특히 3차원 오디오 신호에 지향된 3차원 오디오 코딩 기술을 제공한다. 구체적으로, 기존의 오디오 코딩 시스템을 개선하기 위해, 적은 수량의 사운드 채널이 3차원 오디오 신호를 표현하는 코딩 기술을 제공한다. 오디오 코딩(또는 일반적으로 코딩이라고 함)에는 오디오 코딩과 오디오 디코딩이 포함된다. 오디오 코딩은 저장 및/또는 전송을 보다 효율적으로 수행하기 위해, 오디오를 표현하는 데 필요한 데이터 양을 감소시키기 위해 원래의 오디오를 처리(예를 들어, 압축)하는 것을 포함하여 소스 측에서 수행된다. 원래의 오디오를 재구성하기 위해, 코더를 기준으로 역처리를 수행하는 것을 포함하여, 오디오 디코딩이 목적지 측(destination side)에서 수행된다. 코딩 부분과 디코딩 부분을 총칭하여 코딩이라고도 한다. 다음은 첨부된 도면을 참조하여 본 출원의 실시예의 구현을 상세히 설명한다.
본 출원 실시예의 기술 솔루션은 다양한 오디오 처리 시스템에 적용될 수 있다. 도 1은 본 출원의 실시예에 따른 오디오 처리 시스템의 구성 구조의 개략도이다. 오디오 처리 시스템(100)은 오디오 코딩 장치(101) 및 오디오 디코딩 장치(102)를 포함할 수 있다. 오디오 코딩 장치(101)는 비트스트림을 생성하도록 구성될 수 있으며, 오디오 코딩 비트스트림은 오디오 전송 채널을 통해 오디오 디코딩 장치(102)로 전송될 수 있다. 오디오 디코딩 장치(102)는 비트스트림을 수신하고 그런 다음 오디오 디코딩 장치(102)의 오디오 디코딩 기능을 실행하여, 재구성된 신호를 획득할 수 있다.
본 출원의 실시예에서, 오디오 코딩 장치는 오디오 통신 요건을 갖는 다양한 단말 디바이스, 트랜스코딩 요건을 갖는 무선 디바이스 및 코어 네트워크 디바이스에 적용될 수 있다. 예를 들어, 오디오 코딩 장치는 단말 디바이스, 또는 무선 디바이스 또는 코어 네트워크 디바이스의 오디오 코더일 수 있다. 마찬가지로, 오디오 디코딩 장치는 오디오 통신 요건을 갖는 다양한 단말 디바이스, 트랜스코딩 요건을 갖는 무선 디바이스 및 코어 네트워크 디바이스에 적용될 수 있다. 예를 들어, 오디오 디코딩 장치는 단말 디바이스, 또는 무선 디바이스 또는 코어 네트워크 디바이스의 오디오 디코더일 수 있다. 예를 들어, 오디오 코더는 무선 액세스 네트워크, 코어 네트워크의 미디어 게이트웨이, 트랜스코딩 디바이스, 미디어 리소스 서버, 이동 단말, 또는 고정 네트워크 단말을 포함할 수 있다. 오디오 코더는 가상 현실(virtual reality, VR) 스트리밍 미디어(streaming) 서비스에 적용되는 오디오 코더일 수도 있다.
본 출원의 실시예에서는 가상 현실 스트리밍 미디어(VR 스트리밍) 서비스에 적용 가능한 오디오 코딩 모듈(오디오 코딩 및 오디오 디코딩)을 예로 사용한다. 단대단(end-to-end) 오디오 신호 처리 절차는 다음을 포함한다: 오디오 신호 A가 캡처(획득) 모듈을 통과한 후 전처리 작동(audioPReprocessing)이 수행된다. 전처리 작동에는 신호의 저주파수 부분을 필터링하는 작동이 포함된다. 20Hz 또는 50Hz를 경계점으로 사용하여 신호 내의 방향 정보가 추출되며, 코딩되고(오디오 코딩) 캡슐화(파일/세그먼트 캡슐화)되며, 그런 다음 디코더 측으로 송신(운반)될 수 있다. 디코더 측은 역캡슐화(파일/세그먼트 역캡슐화)하고, 디코딩(오디오 디코딩)을 수행하며, 디코딩된 신호에 대해 바이노럴 렌더링(오디오 렌더링) 처리를 수행한다. 렌더링된 신호는 청취자의 헤드폰(headphone)에 매핑되며, 독립된 헤드폰일 수도 있고, 안경 디바이스의 헤드폰일 수도 있다.
도 2a는 본 출원의 실시예에 따라 오디오 코더 및 오디오 디코더가 단말 디바이스에 적용되는 개략도이다. 각 단말 디바이스는 오디오 코더, 채널 코더, 오디오 디코더 및 채널 디코더를 포함할 수 있다. 구체적으로, 채널 코더는 오디오 신호에 대해 채널 코딩을 수행하도록 구성되고, 채널 디코더는 오디오 신호에 대해 채널 디코딩을 수행하도록 구성된다. 예를 들어, 제1 단말 디바이스(20)는 제1 오디오 코더(201), 제1 채널 코더(202), 제1 오디오 디코더(203) 및 제1 채널 디코더(204)를 포함할 수 있다. 제2 단말 디바이스(21)는 제2 오디오 디코더(211), 제2 채널 디코더(212), 제2 오디오 코더(213) 및 제2 채널 코더(214)를 포함할 수 있다. 제1 단말 디바이스(20)는 무선 또는 유선의 제1 네트워크 통신 디바이스(22)와 연결되고, 제1 네트워크 통신 디바이스(22)는 디지털 채널을 통해 무선 또는 유선의 제2 네트워크 통신 디바이스(23)와 연결되며, 제2 단말 디바이스(21)는 무선 또는 유선의 제2 네트워크 통신 디바이스(23)와 연결된다. 무선 또는 유선의 네트워크 통신 디바이스는 일반적으로 신호 전송 디바이스, 예를 들어 통신 기지국, 데이터 스위칭 디바이스일 수 있다.
오디오 통신에서 송신단(transmit end) 역할을 하는 단말 디바이스는 오디오 캡처를 수행하고, 캡처된 오디오 신호에 대해 오디오 코딩을 수행하며, 채널 코딩을 수행하고, 무선 네트워크 또는 코어 네트워크를 통해 디지털 채널 상에서 전송을 수행한다. 수신단(receive end) 역할을 하는 단말 디바이스는 수신된 신호에 기반하여 채널 디코딩을 수행하여 비트스트림을 획득하고, 오디오 디코딩을 수행하여 오디오 신호를 복원한다(restore). 수신단에서의 단말 디바이스는 오디오 재생을 수행한다.
도 2b는 본 출원의 실시예에 따라 오디오 코더가 무선 디바이스 또는 코어 네트워크 디바이스에 적용되는 개략도이다. 무선 디바이스 또는 코어 네트워크 디바이스(25)는 채널 디코더(251), 다른 오디오 디코더(252), 본 출원의 이 실시예에서 제공되는 오디오 코더(253) 및 채널 코더(254)를 포함한다. 다른 오디오 디코더(252)는 오디오 디코더와 상이한 또 다른 오디오 디코더이다. 무선 디바이스 또는 코어 네트워크 디바이스(25)에서, 채널 디코더(251)는 디바이스로 들어오는 신호에 대해 채널 디코딩을 수행하며, 다른 오디오 디코더(252)는 오디오 디코딩을 수행하고, 본 출원의 이 실시예에서 제공되는 오디오 코더(253)는 오디오 코딩을 수행하며 마지막으로, 채널 코더(254)는 오디오 신호에 대해 채널 코딩을 수행하고 채널 코딩이 완료된 후 오디오 신호를 전송한다. 다른 오디오 디코더(252)는 채널 디코더(251)가 디코딩을 수행한 후 획득된 비트스트림에 대해 오디오 디코딩을 수행한다.
도 2c는 본 출원의 실시예에 따라 오디오 디코더가 무선 디바이스 또는 코어 네트워크 디바이스에 적용되는 개략도이다. 무선 디바이스 또는 코어 네트워크 디바이스(25)는 채널 디코더(251), 본 출원의 이 실시예에서 제공되는 오디오 디코더(255), 다른 오디오 코더(256) 및 채널 코더(254)를 포함한다. 다른 오디오 코더(256)는 오디오 코더와 상이한 또 다른 오디오 코더이다. 무선 디바이스 또는 코어 네트워크 디바이스(25)에서, 채널 디코더(251)는 디바이스로 들어오는 신호에 대해 채널 디코딩을 수행하며, 오디오 디코더(255)는 수신된 오디오 코딩 비트스트림을 디코딩하고, 다른 오디오 코더(256)는 오디오 코딩을 수행하며, 마지막으로 채널 코더(254)는 오디오 신호에 대해 채널 코딩을 수행하고 채널 코딩이 완료된 후 오디오 신호를 전송한다. 무선 디바이스나 코어 네트워크 디바이스에서, 트랜스코딩이 구현되어야 하면, 대응하는 오디오 코딩 처리가 수행되어야 한다. 무선 디바이스는 통신에서 무선 주파수 관련 디바이스이고, 코어 네트워크 디바이스는 통신에서 코어 네트워크 관련 디바이스이다.
본 출원의 일부 실시예에서, 오디오 코딩 장치는 오디오 통신 요건을 갖는 다양한 단말 디바이스, 트랜스코딩 요건을 갖는 무선 디바이스 및 코어 네트워크 디바이스에 적용될 수 있다. 예를 들어, 오디오 코딩 장치는 단말 디바이스, 또는 무선 디바이스 또는 코어 네트워크 디바이스의 다중 채널(multi-channel) 코더일 수 있다. 마찬가지로, 오디오 디코딩 장치는 오디오 통신 요건을 갖는 다양한 단말 디바이스, 트랜스코딩 요건을 갖는 무선 디바이스 및 코어 네트워크 디바이스에 적용될 수 있다. 예를 들어, 오디오 디코딩 장치는 단말 디바이스, 또는 무선 디바이스 또는 코어 네트워크 디바이스의 다중 채널 디코더일 수 있다.
도 3a는 본 출원의 실시예에 따라 다중 채널 코더 및 다중 채널 디코더가 단말 디바이스에 적용되는 개략도이다. 각 단말 디바이스는 다중 채널 코더, 채널 코더, 다중 채널 디코더 및 채널 디코더를 포함할 수 있다. 다중 채널 코더는 본 출원의 실시예에서 제공되는 오디오 코딩 방법을 수행할 수 있고, 다중 채널 디코더는 본 출원의 실시예에서 제공되는 오디오 디코딩 방법을 수행할 수 있다. 구체적으로, 채널 코더는 다중 채널 신호에 대해 채널 코딩을 수행하도록 구성되고, 채널 디코더는 다중 채널 신호에 대해 채널 디코딩을 수행하도록 구성된다. 예를 들어, 제1 단말 디바이스(30)는 제1 다중 채널 코더(301), 제1 채널 코더(302), 제1 다중 채널 디코더(303) 및 제1 채널 디코더(304)를 포함할 수 있다. 제2 단말 디바이스(31)는 제2 다중 채널 디코더(311), 제2 채널 디코더(312), 제2 다중 채널 코더(313) 및 제2 채널 코더(314)를 포함할 수 있다. 제1 단말 디바이스(30)는 무선 또는 유선의 제1 네트워크 통신 디바이스(32)와 연결되고, 제1 네트워크 통신 디바이스(32)는 디지털 채널을 통해 무선 또는 유선의 제2 네트워크 통신 디바이스(33)와 연결되며, 제2 단말 디바이스(31)는 무선 또는 유선의 제2 네트워크 통신 디바이스(33)와 연결된다. 무선 또는 유선의 네트워크 통신 디바이스는 일반적으로 신호 전송 디바이스, 예를 들어 통신 기지국 또는 데이터 스위칭 디바이스일 수 있다. 오디오 통신에서, 송신단 역할을 하는 단말 디바이스는 캡쳐된 다중 채널 신호에 대해 다중 채널 코딩을 수행하고, 채널 코딩을 수행하며, 무선 네트워크 또는 코어 네트워크를 통해 디지털 채널 상에서 전송을 수행한다. 수신단 역할을 하는 단말 디바이스는 수신된 신호에 기반하여 채널 디코딩을 수행하여 다중 채널 신호 코딩 비트스트림을 획득하고, 다중 채널 디코딩을 수행하여 다중 채널 신호를 복원한다. 수신단 역할을 하는 단말 디바이스는 재생을 수행한다.
도 3b는 본 출원의 실시예에 따라 다중 채널 코더가 무선 디바이스 또는 코어 네트워크 디바이스에 적용되는 개략도이다. 무선 디바이스 또는 코어 네트워크 디바이스(35)는 도 2b와 유사한, 채널 디코더(351), 다른 오디오 디코더(352), 다중 채널 코더(353) 및 채널 코더(354)를 포함한다. 자세한 내용은 여기서 다시 설명하지 않는다.
도 3c는 본 출원의 실시예에 따라 다중 채널 디코더가 무선 디바이스 또는 코어 네트워크 디바이스에 적용되는 개략도이다. 무선 디바이스 또는 코어 네트워크 디바이스(35)는 도 2c와 유사한, 채널 디코더(351), 다중 채널 디코더(355), 다른 오디오 디코더(356) 및 채널 코더(354)를 포함한다. 자세한 내용은 여기서 다시 설명하지 않는다.
오디오 코딩 처리는 다중 채널 코더의 일부일 수 있고, 오디오 디코딩 처리는 다중 채널 디코더의 일부일 수 있다. 예를 들어, 캡처된 다중 채널 신호에 대해 다중 채널 코딩을 수행하는 것은, 캡처된 다중 채널 신호를 처리하여 오디오 신호를 획득한 다음, 본 출원의 이 실시예에서 제공되는 방법에서 획득된 오디오 신호를 코딩하는 것일 수 있다. 디코더 측은 다중 채널 신호 코딩 비트스트림에 기반하여 디코딩을 통해 오디오 신호를 획득하고, 업믹싱(up-mixing) 처리 이후에 다중 채널 신호를 복원한다. 따라서, 본 출원의 이 실시예는 단말 디바이스, 무선 디바이스 및 코어 네트워크 디바이스에서 다중 채널 코더 및 다중 채널 디코더에도 적용될 수 있다. 무선 디바이스 또는 코어 네트워크 디바이스에서, 트랜스코딩을 구현해야 하면, 대응하는 다중 채널 코딩 처리가 수행되어야 한다.
본 출원의 실시예에서 제공되는 3차원 오디오 신호 처리 방법을 먼저 설명한다. 이 방법은 단말 디바이스에 의해 수행될 수 있다. 예를 들어, 단말 디바이스는 오디오 코딩 장치(이하 코더 측 또는 코더로 간략히 지칭함)일 수 있다. 단말 디바이스는 다르게는 3차원 오디오 신호 처리 장치일 수 있다. 이것은 제한되지 않는다. 도 4에 도시된 바와 같이, 3차원 오디오 신호 처리 방법은 주로 다음 단계를 포함한다.
401: 코딩 대상 3차원 오디오 신호에 대해 공간 코딩을 수행하여 전송 채널 신호 및 전송 채널 속성 정보를 획득하며, 전송 채널 신호는 적어도 하나의 가상 스피커 신호 그룹 및 적어도 하나의 잔차 신호 그룹을 포함한다.
코더 측은 3차원 오디오 신호를 획득할 수 있다. 예를 들어, 3차원 오디오 신호는 장면(scene) 오디오 신호일 수 있다. 구체적으로, 3차원 오디오 신호는 시간 도메인 신호 또는 주파수 도메인 신호일 수 있다. 또한, 3차원 오디오 신호는 다운샘플링된 신호일 수 있다.
본 발명의 이 실시예에서, 가상 스피커 신호와 가상 스피커는 일대일 대응 관계에 있다. 3차원 오디오 신호를 코딩하기 위한 가상 스피커를 후보 가상 스피커 세트로부터 결정한 후, 가상 스피커에 대응되는 가상 스피커 신호를 획득하며, 그런 다음 가상 스피커 신호를 그룹화하여 적어도 하나의 가상 스피커 신호 그룹을 획득할 수 있으며; 또는 3차원 오디오 신호를 코딩하기 위한 가상 스피커를 후보 가상 스피커 세트로부터 결정된 후, 가상 스피커를 그룹화하여 적어도 하나의 가상 스피커 그룹을 획득하며, 그런 다음 적어도 하나의 가상 스피커 그룹에서 각 가상 스피커에 대응하는 가상 스피커 신호를 획득하여, 적어도 하나의 가상 스피커 신호 그룹을 획득한다.
본 출원의 일부 실시예에서, 3차원 오디오 신호는 고차 앰비소닉(higher order ambisonic, HOA) 신호 또는 1차 앰비소닉(first order ambisonic, FOA) 신호를 포함한다. 3차원 오디오 신호는 다르게는 다른 유형의 신호일 수도 있다. 이것은 제한되지 않는다. 이는 단지 본 출원의 예일 뿐이며, 본 출원의 실시예를 제한하려는 의도는 아니다.
예를 들어, 3차원 오디오 신호는 시간 도메인 HOA 신호일 수도 있고, 주파수 도메인 HOA 신호일 수도 있다. 또 다른 예로, 3차원 오디오 신호는 HOA 신호의 모든 채널을 포함할 수도 있고, 일부 HOA 채널(예를 들어, FOA 채널)을 포함할 수도 있다. 또한, 3차원 오디오 신호는 HOA 신호의 모든 샘플링 포인트일 수도 있고, 분석 대상 HOA 신호를 다운샘플링한 후 획득된 1/Q 다운샘플링 포인트일 수도 있다. Q는 다운샘플링 간격(interval)이고, 1/Q는 다운샘플링 레이트이다.
본 출원의 실시예에서, 3차원 오디오 신호는 복수의 프레임을 포함한다. 3차원 오디오 신호에서 하나의 프레임을 처리하는 방법이 아래에서 예로 사용된다. 예를 들어, 프레임이 현재 프레임이면, 3차원 오디오 신호에서 현재 프레임 이전에 이전 프레임이 있고, 현재 프레임 이후에 이후 프레임(later frame)이 있다. 또한, 본 출원의 실시예에서, 3차원 오디오 신호에서 현재 프레임 이외의 프레임을 처리하는 방법은 현재 프레임을 처리하는 방법과 유사하다. 이어서, 현재 프레임의 처리를 예로 사용한다.
본 출원의 실시예에서는 3차원 오디오 신호가 획득된 후, 3차원 오디오 신호에 대해 공간 코딩이 수행되어 전송 채널 신호 및 전송 채널 속성 정보를 획득한다. 공간 코딩의 구체적인 프로세스는 여기에서 구체적으로 설명되지 않는다. 가상 스피커 신호와 공간 코딩 후 잔차 신호를 출력하는 프로세스는 다시 설명하지 않는다.
본 출원의 실시예에서, 코딩 대상 3차원 오디오 신호를 획득한 후, 코더 측은 3차원 오디오 신호에 대해 공간 코딩을 수행하고 전송 채널 신호 및 전송 채널 속성 정보를 출력할 수 있다. 전송 채널 신호에는 가상 스피커 신호와 잔차 신호가 포함된다. 예를 들어, 가상 스피커 신호를 그룹화하여 적어도 하나의 가상 스피커 신호 그룹을 획득한다. 다른 예를 들어, 잔차 신호를 그룹화하여 적어도 하나의 잔차 신호 그룹을 획득한다. 본 출원의 실시예에서, 전송 채널 신호에서 가상 스피커 신호 그룹의 수량과 잔차 신호 그룹의 수량은 제한되지 않는다.
본 출원의 실시예에서, 전송 채널 신호에 대응하는 전송 채널 속성 정보는 공간 코딩을 통해 추가로 출력될 수 있다. 전송 채널 속성 정보는 전송 채널 신호의 속성을 지시한다. 전송 채널 속성 정보의 구현은 여러 가지가 있다. 자세한 내용은 후속 실시예의 예를 참조한다.
본 출원의 일부 실시예에서, 전송 채널 속성 정보는 가상 스피커 코딩 효율을 포함한다. 가상 스피커 코딩 효율은 3차원 오디오 신호에 대한 가상 스피커를 사용하여 3차원 오디오 신호를 재구성하는 효율을 나타낸다. 코더(또는 코더 측일 수도 있음)가 공간 코딩을 통해 출력하는 전송 채널 속성 정보에는 가상 스피커 코딩 효율이 포함된다. 다음은 가상 스피커 코딩 효율을 계산하는 방법을 설명한다.
단계(401)에서 코딩 대상 3차원 오디오 신호에 대해 공간 코딩을 수행하여 전송 채널 속성 정보를 획득하는 단계는:
가상 스피커를 사용하여 코딩 대상 3차원 오디오 신호에 대해 신호 재구성을 수행하여 재구성된 3차원 오디오 신호를 획득하는 단계 - 코딩 대상 3차원 오디오에 대해 신호 재구성을 수행하는 가상 스피커는 3차원 오디오 신호를 코딩하기 위해 후보 가상 스피커 세트로부터 결정된 가상 스피커일 수 있음 -;
재구성된 3차원 오디오 신호의 에너지 표현 값과 코딩 대상 3차원 오디오 신호의 에너지 표현 값을 획득하는 단계; 및
재구성된 3차원 오디오 신호의 에너지 표현 값과 코딩 대상 3차원 오디오 신호의 에너지 표현 값에 기반하여 가상 스피커 코딩 효율을 획득하는 단계를 포함한다.
코더 측은 먼저 가상 스피커를 사용하여 신호 재구성을 수행하여 재구성된 3차원 오디오 신호를 획득한다. 코더 측은 각 전송 채널에서 신호의 에너지 표현 값을 계산할 수 있으며, 예를 들어 재구성된 3차원 오디오 신호의 에너지 표현 값과 코딩 대상 3차원 오디오 신호의 에너지 표현 값을 획득할 수 있다. 3차원 오디오 신호의 에너지 표현 값으로서 또한 신호 재구성 이전에 존재하는 에너지 표현 값은, 3차원 오디오 신호의 에너지 표현 값으로서 또한 신호 재구성 이후에 존재하는 에너지 표현 값과 상이하다. 따라서, 3차원 오디오 신호의 에너지 표현 값으로서 또한 신호 재구성 이전에 존재하는 에너지 표현 값과 3차원 오디오 신호의 에너지 표현 값으로서 또한 신호 재구성 이후에 존재하는 에너지 표현 값의 변화에 기반하여 가상 스피커 코딩 효율을 계산할 수 있다.
이하에서는 가상 스피커 코딩 효율을 계산하는 방법을 예를 들어 설명한다. 예를 들어, 3차원 오디오 신호는 HOA 신호이다. 재구성된 HOA 신호의 모든 전송 채널의 에너지 표현 값으로서 또한 코더 측에서 계산된 에너지 표현 값은 R1, R2, ..., Rt로 표현될 수 있고, 원래의 HOA 신호의 모든 전송 채널의 에너지 표현 값으로서 또한 코더 측에서 계산된 에너지 표현 값은 N1, N2, ..., Nt로 표현될 수 있다. 마지막으로 가상 스피커 코딩 효율 η:η = sum(R)/sum(N)이며, 여기서 sum(R)은 R1~Rt의 합을 나타내고, sum(N)은 N1~Nt의 합을 나타낸다. 가상 스피커 코딩 효율은 전술한 계산 수식에 따라 계산될 수 있다.
본 출원의 일부 실시예에서, 전송 채널 속성 정보는 가상 스피커 신호 그룹의 에너지 비율을 포함한다. 가상 스피커 신호 그룹의 에너지 비율은 모든 전송 채널 신호의 총 에너지에 대한 가상 스피커 신호 그룹에 포함된 모든 가상 스피커 신호의 에너지의 비율이다. 다음은 가상 스피커 신호 그룹의 에너지 비율을 계산하는 방법을 설명한다.
코더 측에 의해 수행되는 방법은:
가상 스피커 신호 그룹에서 각 가상 스피커 신호의 에너지 표현 값에 기반하여 가상 스피커 신호 그룹의 에너지 표현 값을 획득하는 단계;
잔차 신호 그룹에서 각 잔차 신호의 에너지 표현 값에 기반하여 잔차 신호 그룹의 에너지 표현 값을 획득하는 단계; 및
가상 스피커 신호 그룹의 에너지 표현 값과 잔차 신호 그룹의 에너지 표현 값에 기반하여 가상 스피커 신호 그룹의 에너지 비율을 획득하는 단계를 더 포함한다.
코더 측은 가상 스피커 신호 그룹에서 각 가상 스피커 신호의 에너지 표현 값을 획득한 후, 동일한 그룹 내 모든 가상 스피커 신호의 에너지 표현 값을 더하여 가상 스피커 신호 그룹의 에너지 표현 값을 획득한다. 복수의 가상 스피커 신호 그룹이 있으면, 각 가상 스피커 신호 그룹의 에너지 표현 값은 전술한 방식으로 계산될 수 있다.
동일한 방식으로, 코더 측은 잔차 신호 그룹에서 각 잔차 신호의 에너지 표현 값에 기반하여 잔차 신호 그룹의 에너지 표현 값을 획득할 수 있다. 마지막으로, 코더 측은 가상 스피커 신호 그룹의 에너지 표현 값과 잔차 신호 그룹의 에너지 표현 값에 기반하여 가상 스피커 신호 그룹의 에너지 비율을 획득할 수 있다. 가상 스피커 신호 그룹의 에너지 비율은 총 전송 채널 신호 에너지에 대한 가상 스피커 신호 그룹의 비율을 지시할 수 있다. 가상 스피커 신호 그룹의 에너지 비율이 높다면, 이는 가상 스피커 신호 그룹이 총 전송 채널 신호 에너지에서 우세함을 지시한다. 가상 스피커 신호 그룹의 에너지 비율이 낮다면, 이는 가상 스피커 신호 그룹이 총 전송 채널 신호 에너지에서 우세하지 않다는(달리 말하면, 약함) 것을 지시한다.
본 출원의 일부 실시예에서, 전송 채널 속성 정보는 가상 스피커 코드 식별자를 포함하고, 가상 스피커 코드 식별자는 가상 스피커 신호 그룹의 비트 할당이 우세한지를 지시하며, 구체적으로, 가상 스피커 코드 식별자는 적어도 하나의 가상 스피커 신호 그룹의 비트 할당이 우세한지를 지시한다. 예를 들어, 가상 스피커 코드 식별자는 플래그로 표현될 수 있다. 가상 스피커 코드 식별자는 가상 스피커 신호 그룹의 비트 할당이 우세하거나 우세하지 않음을 지시할 수 있다. 가상 스피커 코드 식별자의 서로 다른 값은 가상 스피커 신호 그룹의 비트 할당이 우세하거나 우세하지 않음을 지시할 수 있다. 또한, 우세성 사례는 추가로, 프리-우세 사례와 서브-우세 사례(즉, 약한 우세(slight dominance) 사례)로 구분될 수 있다.
코딩 대상 3차원 오디오 신호에 대해 공간 코딩을 수행하여 전송 채널 속성 정보를 획득하는 단계는:
코딩 대상 3차원 오디오 신호에 대해 공간 코딩을 수행하여 전송 채널 신호의 이방성 음원의 수량 및 가상 스피커 코딩 효율을 획득하는 단계; 및
전송 채널 신호의 이방성 음원의 수량과 가상 스피커 코딩 효율에 기반하여 가상 스피커 코드 식별자를 획득하는 단계를 포함한다.
코더 측은 공간 코딩을 통해 전송 채널 신호에 대해 음장 분류를 수행하고, 음장 분류 결과를 생성할 수 있다. 음장 분류 결과에는 이방성 음원의 수량이 포함될 수 있다. 이방성 음원의 수량의 구체적인 계산 프로세스는 여기서 제한되지 않는다. 가상 스피커 코딩 효율을 결정하는 방식에 대해서는 전술한 실시예를 참조한다. 자세한 내용은 여기서 다시 설명하지 않는다. 코더 측은 전송 채널 신호의 이방성 음원의 수량과 가상 스피커 코딩 효율을 획득한 후, 전송 채널 신호의 이방성 음원의 수량과 가상 스피커 코딩 효율에 의해 충족되는 결정 조건에 기반하여 가상 스피커 코드 식별자의 특정 값을 획득한다. 본 출원의 실시예에서는 가상 스피커 코드 식별자를 획득하는 구현 방식이 다수 존재한다. 자세한 내용은 후속 실시예의 예시적인 설명을 참조한다.
본 출원의 일부 실시예에서, 또한, 전송 채널 신호의 이방성 음원의 수량 및 가상 스피커 코딩 효율에 기반하여 가상 스피커 코드 식별자를 획득하는 단계는:
전송 채널 신호의 이방성 음원의 수량이 이방성 음원의 수량의 미리 설정된 임계값보다 작거나 같고, 가상 스피커 코딩 효율이 미리 설정된 제1 가상 스피커 코딩 효율 임계값보다 크거나 같을 때, 가상 스피커 코드 식별자가 우세하다고 결정하는 단계; 또는
전송 채널 신호의 이방성 음원의 수량이 이방성 음원의 수량의 미리 설정된 임계값보다 크거나, 가상 스피커 코딩 효율이 미리 설정된 제1 가상 스피커 코딩 효율 임계값보다 작을 때, 가상 스피커 코드 식별자가 우세하지 않다고 결정하는 단계를 포함한다.
본 출원의 실시예에서, 이방성 음원의 수량의 임계값과 제1 가상 스피커 코딩 효율 임계값의 구체적인 구현에 대해서는 애플리케이션 시나리오를 참조한다. 이는 여기에 제한되지 않는다. 예를 들어, 이방성 음원의 수량의 임계값은 TH0로 표현될 수 있고, 제1 가상 스피커 코딩 효율 임계값은 TH4로 표현될 수 있다.
구체적으로, 가상 스피커 코드 식별자가 우세하다는 것은, 가상 스피커 신호 그룹이 총 전송 채널 신호에서 우세하다는 것을 지시한다. 따라서 가상 스피커 신호 그룹에 더 많은 비트를 할당해야 한다. 예를 들어, 가상 스피커 신호 그룹의 초기 비트 비율이 결정된 후, 비트 비율이 증가될 수 있다. 다른 예로, 가상 스피커 코드 식별자가 우세하지 않다는 것은 가상 스피커 신호 그룹이 총 전송 채널 신호에서 우세하지 않다는 것을 지시한다. 이 경우, 가상 스피커 신호 그룹에는 적은 수량의 비트가 할당될 수 있다. 예를 들어, 가상 스피커 신호 그룹의 초기 비트 비율이 결정된 후, 비트 비율이 감소될 수 있다. 본 출원의 실시예에서, 코더 측은 이방성 음원의 수량과 가상 스피커 코딩 효율의 각각과 결정 조건을 비교하는 것에 의해 가상 스피커 코드 식별자를 결정하여, 가상 스피커 코드 식별자에 기반하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정할 수 있다.
또한, 본 출원의 일부 실시예에서, 우세성은 서브-우세 또는 프리-우세를 포함하며; 가상 스피커 코드 식별자가 우세하다고 결정하는 단계는:
가상 스피커 코딩 효율이 제1 가상 스피커 코딩 효율 임계값보다 크거나 같고, 가상 스피커 코딩 효율이 미리 설정된 제2 가상 스피커 코딩 효율 임계값보다 작거나 같을 때, 가상 스피커 코드 식별자가 서브-우세하다고 결정하는 단계; 또는
가상 스피커 코딩 효율이 제1 가상 스피커 코딩 효율 임계값보다 크거나 같고, 가상 스피커 코딩 효율이 미리 설정된 제2 가상 스피커 코딩 효율 임계값보다 클 때, 가상 스피커 코드 식별자가 프리-우세하다고 결정하는 단계 - 제2 가상 스피커 코딩 효율 임계값은 제1 가상 스피커 코딩 효율 임계값보다 큼 - 를 포함한다.
구체적으로, 전송 채널 신호의 이방성 음원의 수량이 이방성 음원의 수량의 미리 설정된 임계값보다 작거나 같고, 가상 스피커 코딩 효율이 미리 설정된 제1 가상 스피커 코딩 효율 임계값보다 크거나 같을 때, 가상 스피커 코드 식별자가 우세하다고 결정된다. 코더 측은 가상 스피커 코드 식별자가 우세한 사례를 더 분할하여 두 가지 사례, 즉 가상 스피커 코드 식별자가 서브-우세한 사례와 가상 스피커 코드 식별자가 프리-우세한 사례를 획득할 수 있다. 가상 스피커 코드 식별자가 프리-우세하면, 가상 스피커 신호 그룹에 더 많은 비트를 할당해야 함을 알 수 있다. 예를 들어, 가상 스피커 신호 그룹의 초기 비트 비율이 결정된 후, 비트 비율이 증가될 수 있다. 가상 스피커 코드 식별자가 서브-우세하면, 가상 스피커 코드 식별자가 프리-우세할 때 할당된 비트의 수량보다 적은 비트의 수량이 가상 스피커 신호 그룹에 할당되어야 한다. 그러나, 가상 스피커 신호 그룹에 할당되어야 하는 비트의 수량은, 여전히 가상 스피커 코드 식별자가 우세하지 않을 때 할당되는 비트의 수량보다 더 커야 한다. 예를 들어, 가상 스피커 신호 그룹의 초기 비트 비율이 결정된 후, 비트 비율이 증가될 수 있다. 이에 비해, 프리-우세의 경우 증가되는 비트 비율이 서브-우세의 경우 증가되는 비트 비율보다 크다.
예를 들어, 제2 가상 스피커 코딩 효율 임계값은 TH2로 표현될 수 있다.
402: 전송 채널 속성 정보에 기반하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정한다.
코더 측에서 전송 채널 신호 및 전송 채널 속성 정보를 획득한 후, 전송 채널 속성 정보가 전송 채널 신호의 속성 파라미터를 운반하기 때문에, 전송 채널 속성 정보에 기반하여 가상 스피커 신호 그룹의 비트 할당이 수행될 수 있다. 또한, 잔차 신호 그룹의 비트 할당은 전송 채널 속성 정보에 기반하여 수행될 수 있다. 예를 들어, 코더 측은 전송 채널 속성 정보에 기반하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정한다. 비트 할당 비율은 전송 채널 신호의 총 비트 수량에 대한 신호 그룹의 할당된 비트의 수량의 비율이며, 비트 할당 비율은 "비트 할당 비(proportion)"라고도 지칭될 수 있다. 본 출원의 실시예에서, 전송 채널 신호는 적어도 하나의 가상 스피커 신호 그룹과 적어도 하나의 잔차 신호 그룹을 포함한다. 따라서, 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 획득할 수 있다. 이하의 실시예에서는 하나의 가상 스피커 신호 그룹의 비트 할당 비율과 2개의 잔차 신호 그룹의 비트 할당 비율을 결정하는 프로세스를 예로 들어 설명한다.
예를 들어, 본 출원의 실시예에서 전송 채널 신호 및 전송 채널 속성 정보는 공간 코딩을 통해 출력될 수 있으며, 코어 코더는 전송 채널 신호 및 전송 채널 속성 정보를 획득한다. 코어 코더는 전송 채널 신호 및 전송 채널 속성 정보에 기반하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 획득할 수 있다.
본 출원의 일부 실시예에서, 전송 채널 속성 정보는 가상 스피커 신호 그룹의 에너지 비율 및/또는 가상 스피커 코드 식별자를 포함하고;
전송 채널 속성 정보에 기반하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계는;
가상 스피커 신호 그룹의 에너지 비율이 미리 설정된 제1 에너지 비율 임계값보다 크거나 같거나 및/또는 가상 스피커 코드 식별자가 프리-우세할 때, 미리 설정된 제1 신호 그룹 비트 할당 알고리즘에 따라 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계; 또는
가상 스피커 신호 그룹의 에너지 비율이 미리 설정된 제2 에너지 비율 임계값보다 크거나 같고 미리 설정된 제1 에너지 비율 임계값보다 작거나 및/또는 가상 스피커 코드 식별자가 서브-우세할 때, 미리 설정된 제2 신호 그룹 비트 할당 알고리즘에 따라 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계 - 제2 에너지 비율 임계값은 제1 에너지 비율 임계값보다 작음 -; 또는
가상 스피커 신호 그룹의 에너지 비율이 미리 설정된 제1 에너지 비율 임계값보다 작거나 가상 스피커 코드 식별자가 우세하지 않을 때, 미리 설정된 제3 신호 그룹 비트 할당 알고리즘에 따라 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계를 포함한다.
본 출원의 실시예에서, 복수의 신호 그룹 비트 할당 알고리즘이 코더 측에서 미리 설정될 수 있다. 전송 채널 속성 정보가 서로 다른 조건을 충족할 때, 서로 다른 신호 그룹 비트 할당 알고리즘을 사용함으로써, 전송 채널 속성 정보가 조건을 충족할 때, 이 조건과 매칭되는 비트 할당 비율을 가상 스피커 신호 그룹과 잔차 신호 그룹에 할당하여, 코더 측이 3차원 오디오 신호를 코딩하는 효율을 향상시킬 수 있다.
예를 들어, 제1 에너지 비율 임계값은 TH1로 표현될 수 있고, 제2 에너지 비율 임계값은 TH3으로 표현될 수 있다.
본 출원의 일부 실시예에서, 가상 스피커 신호 그룹의 에너지 비율이 미리 설정된 제1 에너지 비율 임계값보다 크거나 같거나 및/또는 가상 스피커 코드 식별자가 프리-우세할 때, 미리 설정된 제1 신호 그룹 비트 할당 알고리즘에 따라 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계는:
directionNrgRatio ≥ TH1 및/또는 S ≤ TH0 및 η > TH2가 충족될 때, 가상 스피커 신호 그룹의 비트 할당 비율을 다음 방식:
Ratio1_1 = FAC1 * directionalNrgRatio + (1 - FAC1) * maxdirectionalNrgRatio
으로 계산하는 단계 - directionalNrgRatio는 가상 스피커 신호 그룹의 에너지 비율을 나타내고, S는 이방성 음원의 수량이며, η은 가상 스피커 코딩 효율을 나타내고, maxdirectionNrgRatio는 가상 스피커 신호 그룹의 미리 설정된 최대 비트 할당 비율이며, FAC1은 미리 설정된 제1 조정 팩터이고, Ratio1_1은 가상 스피커 신호 그룹의 비트 할당 비율이며, *는 곱셈 연산을 나타내고, TH1은 제1 에너지 비율 임계값이며, TH0는 이방성 음원의 수량의 임계값이고, TH2는 제2 가상 스피커 코딩 효율 임계값임 -; 및
잔차 신호 그룹의 비트 할당 비율을 다음 방식:
Ratio2 = 1 - Ratio1_1
으로 계산하는 단계 - Ratio1_1은 가상 스피커 신호 그룹의 비트 할당 비율이고, Ratio2는 잔차 신호 그룹의 비트 할당 비율임 - 를 포함한다.
Ratio1_1의 계산 절차로부터, 가상 스피커 신호 그룹의 비트 할당 비율이 증가되며, 따라서 코더 측이 가상 스피커 신호 그룹에 더 많은 비트를 할당할 수 있음을 알 수 있다.
전송 채널 신호는 가상 스피커 신호 그룹과 잔차 신호 그룹을 포함한다. 가상 스피커 신호 그룹의 비트 할당 비율 Ratio1_1을 획득한 후, Ratio2의 계산 수식에 따라 잔차 신호 그룹의 비트 할당 비율을 획득할 수 있다.
본 출원의 실시예에서, FAC1은 특정 애플리케이션 시나리오에 기반하여 유연하게 결정될 수 있다는 점에 유의해야 한다. 이는 여기에 제한되지 않는다.
본 출원의 일부 실시예에서, 가상 스피커 신호 그룹의 비트 할당 비율이 획득된 후, 코더 측에 의해 수행되는 방법은:
가상 스피커 신호 그룹의 비트 할당 비율을 다음 방식:
Ratio1_2 = min(Ratio1_1, maxdirectionalNrgRatio + FAC2 * Ratio1_1)
으로 업데이트하는 단계 - Ratio1_2는 가상 스피커 신호 그룹의 업데이트된 비트 할당 비율을 나타내고, FAC2는 미리 설정된 제2 조정 팩터이며, maxdirectionNrgRatio는 가상 스피커 신호 그룹의 미리 설정된 최대 비트 할당 비율을 나타내고, Ratio1_1은 가상 스피커 신호 그룹의 비트 할당 비율로서 또한 업데이트 이전에 존재하는 비트 할당 비율이며, *는 곱셈 연산을 나타내고, min은 최소화 연산임 - 를 더 포함한다.
본 출원의 실시예에서, FAC2는 특정 애플리케이션 시나리오에 기반하여 유연하게 결정될 수 있다는 점에 유의해야 한다. 이는 여기에 제한되지 않는다.
Ratio1_2의 계산 절차로부터, 가상 스피커 신호 그룹의 비트 할당 비율에 대해 안전한 제한이 설정되어 있고, Ratio1_2는 안전한 비트 범위 내로 제한됨으로써, 코더 측에서 안전하고 이용 가능한 방식으로 가상 스피커 신호 그룹의 비트 할당을 수행할 수 있음을 알 수 있다.
본 출원의 일부 실시예에서, 가상 스피커 신호 그룹의 에너지 비율이 미리 설정된 제2 에너지 비율 임계값보다 크거나 같고 미리 설정된 제1 에너지 비율 임계값보다 작거나 및/또는 가상 스피커 코드 식별자가 서브-우세할 때, 미리 설정된 제2 신호 그룹 비트 할당 알고리즘에 따라 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계 - 제2 에너지 비율 임계값은 제1 에너지 비율 임계값보다 작음 - 는:
TH3 ≤ directionNrgRatio < TH1이 충족되거나 및/또는 S ≤ TH0 및 TH4 ≤ η ≤ TH2가 충족될 때, Ratio1_1을 다음 방식:
Ratio1_1 = FAC3 * directionNrgRatio + (1 - FAC3) * maxdirectionNrgRatio
으로 계산하는 단계 - maxdirectionNrgRatio는 가상 스피커 신호 그룹의 미리 설정된 비트 할당 비율이며, FAC3은 미리 설정된 제3 조정 팩터이고, directionalNrgRatio는 가상 스피커 신호 그룹의 에너지 비율을 나타내며, S는 이방성 음원의 수량이고, η은 가상 스피커 코딩 효율을 나타내며, Ratio1_1은 가상 스피커 신호 그룹의 비트 할당 비율이고, *는 곱셈 연산을 나타내며, TH0는 이방성 음원의 수량의 임계값이고, TH1은 제1 에너지 비율 임계값이며, TH2는 제2 가상 스피커 코딩 효율 임계값이고, TH3은 제2 에너지 비율 임계값이며, TH4는 제1 가상 스피커 코딩 효율 임계값임 -; 및
잔차 신호 그룹의 비트 할당 비율을 다음 방식:
Ratio2 = 1 - Ratio1_1
으로 계산하는 단계 - Ratio1_1은 가상 스피커 신호 그룹의 비트 할당 비율이고, Ratio2는 잔차 신호 그룹의 비트 할당 비율임 - 를 포함한다.
본 출원의 실시예에서, FAC3은 특정 애플리케이션 시나리오에 기반하여 유연하게 결정될 수 있다는 점에 유의해야 한다. 이는 여기에 제한되지 않는다. 예를 들어, 0 ≤ FAC3 ≤ 0.5, FAC3 > FAC1이다.
Ratio1_1의 계산 절차로부터, 가상 스피커 신호 그룹의 비트 할당 비율이 증가되며, 따라서 코더 측이 가상 스피커 신호 그룹에 더 많은 비트를 할당할 수 있음을 알 수 있다.
전송 채널 신호는 가상 스피커 신호 그룹과 잔차 신호 그룹을 포함한다. 가상 스피커 신호 그룹의 비트 할당 비율 Ratio1_1을 획득한 후, Ratio2의 계산 수식에 따라 잔차 신호 그룹의 비트 할당 비율을 획득할 수 있다.
본 출원의 일부 실시예에서, 가상 스피커 신호 그룹의 비트 할당 비율을 획득한 후, 본 출원의 이 실시예에서 제공하는 방법은:
가상 스피커 신호 그룹의 비트 할당 비율을 다음 방식:
Ratio1_2 = min(Ratio1_1, maxdirectionalNrgRatio + FAC4 * Ratio1_1)
으로 업데이트하는 단계 - Ratio1_2는 가상 스피커 신호 그룹의 업데이트된 비트 할당 비율을 나타내고, FAC4는 미리 설정된 제4 조정 팩터이며, maxdirectionNrgRatio는 가상 스피커 신호 그룹의 미리 설정된 최대 비트 할당 비율이고, Ratio1_1은 가상 스피커 신호 그룹의 비트 할당 비율로서 또한 업데이트 이전에 존재하는 비트 할당 비율이며, *는 곱셈 연산을 나타내고, min은 최소화 연산임 - 를 더 포함한다.
본 출원의 실시예에서, FAC4는 특정 애플리케이션 시나리오에 기반하여 유연하게 결정될 수 있다는 점에 유의해야 한다. 이는 여기에 제한되지 않는다.
Ratio1_2의 계산 절차로부터, 가상 스피커 신호 그룹의 비트 할당 비율에 대해 안전한 제한이 설정되어 있고, Ratio1_2는 안전한 비트 범위 내로 제한됨으로써, 코더 측에서 안전하고 이용 가능한 방식으로 가상 스피커 신호 그룹의 비트 할당을 수행할 수 있음을 알 수 있다.
본 출원의 일부 실시예에서, 본 출원의 이 실시예에서 제공되는 방법은:
복수의 잔차 신호 그룹이 있을 때, i번째 잔차 신호 그룹의 비트 할당 비율을 다음 방식:
Ratio2_i = Ratio2 * (R_i/C)
으로 계산하는 단계 - R_i는 i번째 잔차 신호 그룹에 포함된 전송 채널의 수량을 나타내고, C는 모든 잔차 신호 그룹에서 전송 채널의 총 수량이며, Ratio2_i는 i번째 잔차 신호 그룹의 비트 할당 비율이고, *는 곱셈 연산을 나타내고, Ratio2는 모든 잔차 신호 그룹의 비트 할당 비율임 - 를 더 포함한다.
복수의 잔차 신호 그룹이 있을 때, 전체 잔차 신호 그룹에 대한 각 잔차 신호 그룹의 비트 할당 비율은 각 잔차 신호 그룹의 전송 채널의 수량에 기반하여 결정될 수 있다. 예를 들어, R_i/C는 전체 잔차 신호 그룹에 대한 i번째 잔차 신호 그룹의 전송 채널 비율을 나타내며, (R_i/C)와 Ratio2에 기반하여 i번째 잔차 신호 그룹의 비트 할당 비율을 획득할 수 있다.
본 출원의 일부 실시예에서, 가상 스피커 신호 그룹의 에너지 비율이 미리 설정된 제1 에너지 비율 임계값보다 작거나 가상 스피커 코드 식별자가 우세하지 않을 때 미리 설정된 제3 신호 그룹 비트 할당 알고리즘에 따라 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계는:
directionalNrgRatio < TH3이 충족되거나, S > TH0이 충족되거나, η < TH4가 충족될 때, 가상 스피커 신호 그룹의 비트 할당 비율을 다음 방식:
Ratio1_1 = directionalNrgRatio
으로 계산하는 단계 - directionalNrgRatio는 가상 스피커 신호 그룹의 에너지 비율을 나타내고, Ratio1_1은 가상 스피커 신호 그룹의 비트 할당 비율이며, TH3은 제2 에너지 비율 임계값이고, TH4는 제1 가상 스피커 코딩 효율 임계값이며, S는 이방성 음원의 수량이고, η은 가상 스피커 코딩 효율을 나타내며, TH0는 이방성 음원의 수량의 임계값임 -; 및
잔차 신호 그룹의 비트 할당 비율을 다음 방식:
Ratio2_1 = D/(F + D)
으로 계산하는 단계 - Ratio2_1은 잔차 신호 그룹의 비트 할당 비율이고, F는 가상 스피커 신호 그룹의 에너지 표현 값이며, D는 잔차 신호 그룹의 에너지 표현 값임 - 를 포함한다.
Ratio1_1의 계산 절차로부터, 가상 스피커 신호 그룹의 비트 할당 비율이 가상 스피커 신호 그룹의 에너지 비율과 같음을 알 수 있다. 따라서, 가상 스피커 신호 그룹의 비트 할당이 우세하지 않을 때, 코더 측은 가상 스피커 신호 그룹에 더 많은 비트를 할당하지 않아서 코더 측의 적절한 비트 할당을 보장한다.
본 출원의 일부 실시예에서, 본 출원의 이 실시예에서 제공되는 방법은:
가상 스피커 신호 그룹의 비트 할당 비율을 획득한 후, 가상 스피커 신호 그룹의 비트 할당 비율을 다음 방식:
Ratio1_1 < groupBitsRatio1일 때 Ratio1_2 = groupBitsRatio1; 및
Ratio1_1 ≥ groupBitsRatio1일 때 Ratio1_2 = FAC5 * groupBitsRatio1 + (1 - FAC5) * Ratio1_1
으로 업데이트하는 단계 - Ratio1_2는 가상 스피커 신호 그룹의 업데이트된 비트 할당 비율을 나타내고, FAC5는 미리 설정된 제5 조정 팩터이며, Ratio1_1은 가상 스피커 신호 그룹의 비트 할당 비율로서 또한 업데이트 이전에 존재하는 비트 할당 비율이고, *는 곱셈 연산을 나타내며, groupBitsRatio1은 가상 스피커 신호 그룹의 미리 설정된 비트 할당 비율임 -; 및
잔차 신호 그룹의 비트 할당 비율이 획득된 후, 잔차 신호 그룹의 비트 할당 비율을 다음 방식:
Ratio2_1 < groupBitsRatio2일 때 Ratio2_2 = groupBitsRatio2; 및
Ratio2_1 ≥ groupBitsRatio2일 때 Ratio2_2 = FAC6 * groupBitsRatio2 + (1 - FAC6) * Ratio2_1
으로 업데이트하는 단계 - Ratio2_2는 잔차 신호 그룹의 업데이트된 비트 할당 비율을 나타내고, FAC6은 미리 설정된 제6 조정 팩터이며, Ratio2_1은 잔차 신호 그룹의 비트 할당 비율로서 또한 업데이트 이전에 존재하는 비트 할당 비율이고, *는 곱셈 연산을 나타내며, groupBitsRatio2는 잔차 신호 그룹의 미리 설정된 비트 할당 비율임 - 를 더 포함한다.
본 출원의 실시예에서, FAC5는 특정 애플리케이션 시나리오에 기반하여 유연하게 결정될 수 있다는 점에 유의해야 한다. 이는 여기에서 제한되지 않는다.
Ratio1_2의 계산 절차로부터, 가상 스피커 신호 그룹의 비트 할당 비율에 대해 안전한 제한이 설정되어 있고, Ratio1_2는 안전한 비트 범위 내로 제한됨으로써, 코더 측에서 안전하고 이용 가능한 방식으로 가상 스피커 신호 그룹의 비트 할당을 수행할 수 있음을 알 수 있다.
Ratio2_2의 계산 절차로부터, 잔차 신호 그룹의 비트 할당 비율에 대해 안전한 제한이 설정되어 있고, Ratio2_2는 안전한 비트 범위 내로 제한됨으로써, 코더 측에서 안전하고 이용 가능한 방식으로 잔차 신호 그룹의 비트 할당을 수행할 수 있음을 알 수 있다.
본 출원의 일부 실시예에서, 본 출원의 이 실시예에서 코더 측에 의해 수행되는 방법 이외에, 본 출원의 이 실시예에서 제공되는 방법은 다음 단계:
가상 스피커 신호 그룹의 비트 할당 비율, 잔차 신호 그룹의 비트 할당 비율 및 총 전송 채널 비트 수량에 기반하여, 가상 스피커 신호 그룹의 비트 수량과 잔차 신호 그룹의 비트 수량을 개별적으로 결정하는 단계; 및
가상 스피커 신호 그룹의 비트 수량에 기반하여 가상 스피커 신호 그룹의 비트 할당을 수행하고, 잔차 신호 그룹의 비트 수량에 기반하여 잔차 신호 그룹의 비트 할당을 수행하는 단계를 더 포함한다.
코더 측이 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 획득한 후, 코더 측은 가상 스피커 신호 그룹과 잔차 신호 그룹의 비트 할당을 개별적으로 수행하여, 가상 스피커 신호 그룹의 비트 할당 결과와 잔차 신호 그룹의 비트 할당 결과를 결정할 수 있다. 예를 들어, 코더 측은 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 획득하고, 그런 다음 전송 채널의 총 비트 수량에 기반하여 가상 스피커 신호 그룹의 비트 수량과 잔차 신호 그룹의 비트 수량을 개별적으로 결정한다. 가상 스피커 신호 그룹의 비트 수량은 코더 측에 의해 가상 스피커 신호 그룹에 실제로 할당될 수 있는 비트의 수량을 나타내고, 잔차 신호 그룹의 비트 수량은 코더 측에 의해 잔차 신호 그룹에 실제로 할당될 수 있는 비트의 수량을 나타낸다. 마지막으로 코더 측은 가상 스피커 신호 그룹의 비트 수량에 기반하여 가상 스피커 신호 그룹의 비트 할당을 수행하고, 잔차 신호 그룹의 비트 수량에 기반하여 잔차 신호 그룹의 비트 할당을 수행하여, 코더 측이 가상 스피커 신호와 잔차 신호의 비트 할당을 수행할 수 없는 문제를 해결한다.
또한, 본 출원의 일부 실시예에서는, 가상 스피커 신호 그룹의 비트 할당 비율, 잔차 신호 그룹의 비트 할당 비율 및 총 전송 채널 비트 수량에 기반하여, 가상 스피커 신호 그룹의 비트 수량과 잔차 신호 그룹의 비트 수량을 개별적으로 결정하는 단계는:
가상 스피커 신호 그룹의 비트 수량을 다음 방식:
F_bitnum = Ratio1 * C_bitnum
으로 계산하는 단계 - F_bitnum은 가상 스피커 신호 그룹의 비트 수량이고, Ratio1은 가상 스피커 신호 그룹의 비트 할당 비율이며, C_bitnum은 총 전송 채널 비트 수량임 -; 및
잔차 신호 그룹의 비트 수량을 다음 방식:
D_bitnum = Ratio2 * C_bitnum
으로 계산하는 단계 - D_bitnum은 잔차 신호 그룹의 비트 수량이고, Ratio2는 잔차 신호 그룹의 비트 할당 비율이며, C_bitnum은 총 전송 채널 비트 수량임 -를 포함한다.
구체적으로, 코더 측은 총 전송 채널 비트 수량을 미리 결정할 수 있으며, 총 전송 채널 비트 수량의 값은 제한되지 않는다. 코더 측은 계산 수식에 따라 가상 스피커 신호 그룹의 비트 수량과 잔차 신호 그룹의 비트 수량을 계산함으로써, 코더 측에서 가상 스피커 신호와 잔차 신호의 비트 할당을 수행할 수 있다.
전술한 계산 수식은 단지 가능한 방식일 뿐이며, 본 출원의 실시예를 제한하려는 의도는 아니다. 이것은 제한되지 않는다. 예를 들어, 수식에 따라 가상 스피커 신호 그룹의 비트 수량과 잔차 신호 그룹의 비트 수량을 계산하고, 가상 스피커 신호 그룹의 비트 수량과 잔차 신호 그룹의 비트 수량을 미리 설정된 조정 팩터에 기반하여 조정하여 최종 값을 획득할 수 있다. 전술한 계산 프로세스는 제한되지 않는다.
본 출원의 일부 실시예에서, 코더 측에 의해 수행되는 단계 이외에, 코더 측에 의해 수행되는 방법은 다음 단계:
전송 채널 신호, 가상 스피커 신호 그룹의 비트 할당 비율 및 잔차 신호 그룹의 비트 할당 비율을 코딩하고, 코딩된 전송 채널 신호, 코딩된 가상 스피커 신호 그룹의 비트 할당 비율 및 코딩된 잔차 신호 그룹의 비율을 비트스트림에 기록하는 단계를 더 포함한다.
가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율이 비트스트림으로 코딩될 수 있다. 코더 측은 비트스트림을 디코더 측으로 송신하고, 디코더 측은 비트스트림을 파싱함으로써, 디코더 측은 비트스트림에 기반하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 획득할 수 있다. 디코더 측은 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율에 기반하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 획득하여, 비트스트림을 디코딩하여 3차원 오디오 신호를 획득할 수 있다.
본 출원의 일부 실시예에서, 전송 채널 신호, 가상 스피커 신호 그룹의 비트 할당 비율 및 잔차 신호 그룹의 비트 할당 비율을 코딩하는 것은 구체적으로: 전송 채널 신호를 직접 코딩하는 단계; 또는 전송 채널 신호를 처리하고, 가상 스피커 신호 및 잔차 신호를 획득한 후 가상 스피커 신호 및 잔차 신호를 코딩하는 단계를 포함한다. 예를 들어, 코더 측은 구체적으로 코어 코더일 수 있으며, 코어 코더는 가상 스피커 신호, 잔차 신호, 가상 스피커 신호 그룹의 비트 할당 비율 및 잔차 신호 그룹의 비트 할당 비율을 코딩하여, 비트스트림을 획득한다. 비트스트림은 오디오 신호 코딩 비트스트림으로도 지칭될 수 있다.
본 출원의 실시예에서 제공되는 3차원 오디오 신호 처리 방법은 오디오 코딩 방법과 오디오 디코딩 방법을 포함할 수 있다. 오디오 코딩 방법은 오디오 코딩 장치에 의해 수행되고, 오디오 디코딩 방법은 오디오 디코딩 장치에 의해 수행되며, 오디오 코딩 장치와 오디오 디코딩 장치는 서로 통신할 수 있다. 도 4는 오디오 코딩 장치에 의해 수행된다. 다음은 본 출원의 실시예에서 오디오 디코딩 장치(이하 간단히 디코더 측으로 지칭됨)에 의해 수행되는 3차원 오디오 신호 처리 방법을 설명한다. 도 5에 도시된 바와 같이, 주로 다음과 같은 단계를 수행한다.
501: 비트스트림을 수신한다.
디코더 측은 코더 측으로부터 비트스트림을 수신한다. 비트스트림은 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 운반한다.
502: 비트스트림을 디코딩하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 획득한다.
디코더 측은 비트스트림을 파싱하여 비트스트림으로부터 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 획득한다. 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율은 도 4에 도시된 실시예에 기반하여 코더 측에 의해 획득된다.
503: 디코딩을 통해 3차원 오디오 신호를 획득하기 위해, 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율에 기반하여 비트스트림 내의 가상 스피커 신호와 잔차 신호를 디코딩한다.
디코더 측은 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 획득한 후, 디코더 측은 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율에 기반하여 비트스트림을 파싱하여, 디코딩을 통해 3차원 오디오 신호를 획득한다. 본 출원의 실시예에서는 가상 스피커 신호와 비트스트림의 잔차 신호를 디코딩하는 프로세스가 제한되지 않는다. 본 출원의 이 실시예에서, 디코더 측은 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율에 기반하여, 가상 스피커 신호의 할당된 비트의 수량과 잔차 신호의 할당된 비트의 수량을 결정할 수 있다. 디코더 측은 코더 측의 코딩 방식에 대응하는 디코딩 방식으로 디코딩을 수행하여 코더 측에 의해 송신된 3차원 오디오 신호를 획득하고, 코더 측에서 디코더 측으로의 3차원 오디오 신호의 전송을 구현한다.
예를 들어, 디코더 측은 비트스트림에서 전송된 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율에 기반하여, 가상 스피커 신호의 할당된 비트의 수량과 잔차 신호의 할당된 비트의 수량을 결정하여, 디코더 측이 신호의 할당된 비트를 결정할 수 없는 문제를 해결할 수 있다.
본 출원의 일부 실시예에서, 단계(503)에서 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율에 기반하여 비트스트림 내의 가상 스피커 신호와 잔차 신호를 디코딩하는 단계는:
비트스트림에 기반하여 이용 가능한 비트의 수량을 결정하는 단계;
이용 가능한 비트의 수량 및 가상 스피커 신호 그룹의 비트 할당 비율에 기반하여 가상 스피커 신호 그룹의 비트 수량을 결정하고, 가상 스피커 신호 그룹의 비트 수량에 기반하여 비트스트림 내의 가상 스피커 신호를 디코딩하는 단계; 및
이용 가능한 비트의 수량 및 잔차 신호 그룹의 비트 할당 비율에 기반하여 잔차 신호 그룹의 비트 수량을 결정하고, 잔차 신호 그룹의 비트 수량에 기반하여 비트스트림 내의 잔차 신호를 디코딩하는 단계를 포함한다.
디코더 측은 먼저 이용 가능한 비트의 수량을 결정한다. 이용 가능한 비트의 수량은 전송 채널에 할당될 수 있는 비트의 총 수량이다. 디코더 측은 비트스트림을 파싱하여 가상 스피커 신호 그룹의 비트 할당 비율을 획득할 수 있으므로, 이용 가능한 비트의 수량과 가상 스피커 신호 그룹의 비트 할당 비율에 기반하여 가상 스피커 신호 그룹의 비트 수량이 결정될 수 있다. 가상 스피커 신호 그룹의 비트 수량은 코더 측이 가상 스피커 신호 그룹을 코딩할 때 사용되는 비트의 수량이다. 또한, 디코더 측은 가상 스피커 신호 그룹의 비트 수량에 기반하여 비트스트림 내의 가상 스피커 신호를 디코딩할 수 있으므로, 디코더 측은 디코딩을 통해 비트스트림으로부터 가상 스피커 신호를 획득할 수 있다.
마찬가지로, 디코더 측은 비트스트림을 파싱하여 잔차 신호 그룹의 비트 할당 비율을 획득할 수 있으므로, 잔차 신호 그룹의 비트 수량이 잔차 신호 그룹의 비트 할당 비율 및 이용 가능한 비트의 수량에 기반하여 결정될 수 있다. 잔차 신호 그룹의 비트 수량은 코더 측이 잔차 신호 그룹을 코딩할 때 사용되는 비트의 수량이다. 디코더 측이 또한 잔차 신호 그룹의 비트 수량에 기반하여 비트스트림 내의 잔차 신호를 디코딩할 수 있으므로, 디코더 측은 디코딩을 통해 비트스트림으로부터 잔차 신호를 획득할 수 있다.
예를 들어, 디코더 측에서 실행되는 디코딩 프로세스에서 다음 두 파라미터: groupBitsRatio 및 bitRatio가 비트스트림으로부터 파싱될 수 있다. 여기서, groupBitsRatio는 4비트를 차지하며 그룹간 비트 할당 비율(inter-group bit allocation ratio) 파라미터를 나타내며, 그룹간 비트 할당 비율 파라미터는 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 포함한다. 여기서, bitRatio는 4비트를 차지하며 그룹 내 비트 할당 비율(intra-group bit allocation ratio) 파라미터를 나타내며, 그룹 내 비트 할당 비율 파라미터는 모든 가상 스피커 신호 그룹에 대한 각 가상 스피커 신호 그룹의 비트 할당 비율 및 모든 가상 스피커 신호 그룹에 대한 각 가상 스피커 신호 그룹의 비트 할당 비율을 포함한다.
예를 들어, 디코더 측은 비트 할당 모듈을 포함할 수 있다. 비트 할당 모듈의 주요 기능은 디코딩을 통해 비트스트림으로부터 획득된 비트 할당 비율 파라미터에 기반하여, 다른 에지(edge) 정보를 제거한 후 남은 이용 가능한 비트의 수량을 각 전송 채널에 할당하는 것이다. 다른 에지 정보의 코딩도 많은 비트를 차지한다.
먼저, 현재 프레임으로부터 다른 에지 정보를 제거한 후 남은 이용 가능한 비트의 수량을 계산해야 하며 이를 availableBits라고 표시한다. availableBits를 계산하는 일반적인 알고리즘은 다음 방식으로 표현된다:
availableBits = bitsPerFrame - bitsUsed
여기서, bitsPerFrame은 프레임당 비트의 초기 수량이고, bitUsed는 비트 할당 이전에 점유된 비트의 수량이다.
HOA 비트 할당 HoaSplitBytesGroup()의 계산 프로세스는 다음과 같다:
먼저, 채널 그룹당 비트의 수량 groupBytes은 다음 수식:
에서와 같이, 이용 가능한 비트의 총 수량 availableBits 및 groupBitsRatio에 기반하여 계산된다.
여기서, 는 전체 전송 채널 신호에 대한 가상 스피커 신호 그룹의 비트 할당 비율을 나타내거나, 전체 전송 채널 신호에 대한 잔차 신호 그룹의 비트 할당 비율을 나타낼 수 있다.
그런 다음, 각 채널의 비트의 수량 bytesChannels은 다음 수식:
에서와 같이, bitRatio에 기반하여 계산된다.
예를 들어, groupBytes는 가상 스피커 신호 그룹에 할당된 비트의 총 수량을 나타낸다.
여기서, 는 모든 가상 스피커 신호 그룹에 대한 각 가상 스피커 신호 그룹의 비트 할당 비율을 나타내고, bytesChannels는 각 가상 스피커 신호 그룹의 비트 수량을 나타낸다.
또 다른 예를 들면, groupBytes는 잔차 신호 그룹의 할당된 비트의 총 수량을 나타낸다.
여기서, 는 모든 잔차 신호 그룹에 대한 각 잔차 신호 그룹의 비트 할당 비율을 나타내고, bytesChannels는 각 잔차 신호 그룹의 비트 수량을 나타낸다.
이상의 프로세스를 통해 각 채널의 비트의 수량이 계산될 수 있다.
디코더 측에서도 코더 측과 유사한 방법으로 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 계산할 수 있음을 유의해야 한다. 예를 들어, 전술한 Ratio1 및 Ratio2의 계산 절차가 사용된다. 자세한 내용은 여기서 다시 설명하지 않는다.
본 출원의 이 실시예에서 전술한 솔루션을 더 잘 이해하고 구현하기 위해 다음은 대응하는 애플리케이션 시나리오를 사용하여 구체적인 설명을 제공한다.
본 출원의 실시예에서는 3차원 오디오 신호가 HOA 신호인 것이 예로서 사용된다. 본 출원의 이 실시예는 가상 스피커 신호 및 잔차 신호에 대한 비트 할당 방법을 제공한다. 가상 스피커 신호와 잔차 신호를 그룹화하고, 신호 특징과 음장 특징에 기반하여 그룹간 비트 할당 비율을 획득하여 채널 비트 할당을 구현한다.
본 출원의 이 실시예는 전송 채널 신호의 비트 할당 결과를 획득하는 것을 목표로 한다. 전송 채널 신호에는 가상 스피커 신호와 잔차 신호가 포함된다. 본 출원의 이 실시예에서, 전송 채널 신호는 가상 스피커 신호 그룹과 잔차 신호 그룹으로 그룹화된다.
신호 특징과 음장 특징에 기반하여 그룹간 비트 할당 비율을 획득하고, 총 비트 수량에 기반하여 가상 스피커 신호 그룹의 비트 수량과 잔차 신호 그룹의 비트 수량을 획득한다. 코더가 특정 레이트로 코딩을 수행할 때, 각 프레임의 할당된 비트의 총 수량이 결정된다. 본 출원의 이 실시예에서, 비트 할당은 프레임의 이용 가능한 비트의 수량에 기반하여 수행된다. 예를 들어 일정한 비트레이트(Constant Bitrate, CBR) 모드에서 비트레이트는 384kbps이다. 이 경우, 각 프레임의 비트 수량은 약 7680비트 정도이며, 이용 가능한 비트의 실제 수량은 7680비트보다 작다. 본 출원의 실시예에서는 7680비트보다 작은 이용 가능한 비트가 할당될 수 있다.
가상 스피커 코딩 효율이 높을 때, 예를 들어 이방성 음원의 수량이 가상 스피커 신호의 전송 채널의 수량보다 작거나 같을 때, 가상 스피커 신호 그룹의 그룹간 비트 할당 비율을 증가시키는 것에 의해 가상 스피커 신호의 코딩된 비트의 수량을 늘려야 한다.
전술한 계산 방식에 따르면, 가상 스피커 신호의 코딩된 비트의 수량과 잔차 신호의 코딩된 비트의 수량은 현재 프레임의 음장 분류의 실제 상황을 만족시킬 수 있어서, 현재 프레임을 코딩할 때 가상 스피커 신호의 코딩된 비트의 수량과 잔차 신호의 코딩된 비트의 수량이 결정되어야 하는 문제를 해결할 수 있다.
본 출원의 실시예에서는 코어 코덱에 대한, 코어 코덱의 실행 절차를 설명한다.
도 6을 참조한다. 다음은 구체적인 구현 단계를 제공한다.
S1: 코딩 대상 HOA 신호에 대해 HOA 공간 코딩을 수행하여 전송 채널 신호 및 속성 정보를 획득한다.
전송 채널 신호는 가상 스피커 신호와 잔차 신호를 포함한다.
속성 정보는 전술한 전송 단일 채널 속성 정보로서, 음장 분류 결과 및 가상 스피커 코딩 효율 η을 포함한다.
본 출원의 일부 실시예에서, 음장 분류 결과는 이방성 음원의 수량을 포함하거나, 음장 분류 결과는 이방성 음원의 수량 및 음장 유형을 포함한다. 가상 스피커 코딩 효율 η은 현재 프레임에서 가상 스피커를 사용하여 HOA 신호를 재구성하는 효율을 나타낸다.
다음은 가상 스피커 코딩 효율을 계산하는 방법을 제공하며, 이 방법은:
재구성된 HOA 신호의 모든 채널의 에너지 표현 값 R1, R2, ..., Rt를 계산하는 단계 - Rt = norm(SRt)이며, norm()은 놈(norm) 연산이고, SRt는 재구성된 HOA 신호의 t번째 채널의 수정된 이산 코사인 변환(modified discrete cosine transform, MDCT) 계수이고, t는 (HOA 차수 + 1)2 임 -; 및
원래의 HOA 신호의 에너지 표현 값 N1, N2, ..., Nt를 계산하는 단계 - Nt = norm(SNt)이고, norm()은 놈 연산이며, SNt는 원래의 HOA 신호의 t번째 채널의 MDCT 계수이고, t는 (HOA 차수 + 1)2임 -
를 포함하며, 여기서 가상 스피커 코딩 효율: η = sum(R)/sum(N)이며, sum(R)은 R1~Rt의 합을 나타내며, sum(N)은 N1~Nt의 합을 나타낸다.
S2: 전송 채널 그룹의 비트 할당 비율을 획득한다.
먼저, 전송 채널 신호를 그룹화한다. 전송 채널 신호는 M개의 가상 스피커 신호와 N개의 잔차 신호를 포함한다고 가정한다. 또한, N개의 잔차 신호는 K개의 그룹으로 그룹화될 수 있다. M개의 가상 스피커 신호가 하나의 그룹으로 그룹화되면, 전송 채널은 K+1개의 그룹으로 그룹화된다. 모든 그룹의 채널의 수량은 동일할 수도 있고 상이할 수도 있으며, 모든 프레임은 동일하거나 서로 다른 그룹을 가질 수 있다. 이는 본 출원의 이 실시예의 후속 절차에 영향을 미치지 않는다.
이어서, K는 2인 것을 예로 사용한다. K의 값은 3 또는 다른 값일 수 있다. 이는 여기에 제한되지 않는다.
전송 채널의 수량이 11인 것을 예로 사용한다. 가상 스피커 신호 그룹에 포함된 가상 스피커의 수량은 2이고, 잔차 신호 그룹 1에 포함된 잔차 신호의 수량은 4이며, 잔차 신호 그룹 2에 포함된 잔차 신호의 수량은 5이다.
단계(S2)는 단계(S21) 내지 단계(S23)를 포함한다.
S21: 각 그룹의 에너지 표현 값을 계산한다.
S1의 방법에서 모든 채널의 에너지 표현 값을 계산한 후, 각 그룹 내 채널의 에너지 표현 값을 더하여 각 그룹의 에너지 표현 값을 획득할 수 있다. 예를 들어, 가상 스피커 신호 그룹의 에너지 표현 값은 F이고, 잔차 신호 그룹 1의 에너지 표현 값은 D1이며, 잔차 신호 그룹 2의 에너지 표현 값은 D2이다.
S22: 가상 스피커 신호 그룹의 에너지 비율 directionalNrgRatio을 계산한다.
directionalNrgRatio = F/(F + D1 + D2).
S23: 전송 채널 그룹의 비트 할당 비율을 결정한다.
전송 채널 그룹의 비트 할당 비율은 가상 스피커 신호 그룹의 에너지 비율 directionalNrgRatio 및/또는 가상 스피커 코드 식별자 Flag 중 적어도 하나에 기반하여 결정된다. 가상 스피커 신호 그룹의 비트 할당 비율을 Ratio1이고, 잔차 신호 그룹 1의 비트 할당 비율을 Ratio2이며, 잔차 신호 그룹 2의 비트 할당 비율을 Ratio3이라고 가정한다. 가상 스피커 신호 그룹의 에너지 비율 directionNrgRatio 및/또는 가상 스피커 코딩 효율 η에 기반하여 현재 프레임의 가상 스피커 신호 그룹의 비트 할당이 우세한 것으로 결정될 때, 가상 스피커 신호 그룹의 비트 할당 비율이 증가되어야 하며, 잔차 신호 그룹의 비트 할당 비율을 감소시킨다. 가상 스피커 신호 그룹의 비트 할당 비율은 서로 다른 미리 설정된 조건에서 서로 다른 조정 방식을 선택하는 것에 의해 증가될 수 있다.
결정 조건은 가상 스피커 신호 그룹의 에너지 비율 directionalNrgRatio 및/또는 가상 스피커 코드 식별자 Flag를 포함한다.
가상 스피커 코드 식별자 Flag는 다음 방법으로 획득된다:
이방성 음원의 수량이 TH0보다 작거나 같고, 가상 스피커 코딩 효율 η > TH2를 충족할 때, Flag = 프리-우세(pre-dominant)(High)이고; 또는
이방성 음원의 수량이 TH0보다 작거나 같고, TH4 ≤ 가상 스피커 코딩 효율 η ≤ TH2를 충족할 때, Flag = 서브-우세(sub-dominant)(Middle)이며; 또는 이방성 음원의 수량이 TH0보다 작거나 같고 TH4 ≤ 가상 스피커 코딩 효율 η ≤ TH2를 충족하지 못할 때, Flag = 우세하지 않음(Low)이다.
다음은 결정 조건의 예시적인 설명을 제공한다. 예를 들어, 결정 조건은 조건 1 내지 조건 6을 포함할 수 있다.
조건 1: directionNrgRatio ≥ TH1이 충족될 때 0.9 ≤ TH1 ≤ 1이다. 예를 들어 TH1 = 0.9375이다.
먼저, 가상 스피커 신호 그룹의 비트 할당 비율 Ratio1을 계산한다.
Ratio1 = FAC1 * directionalNrgRatio + (1 - FAC1) * maxdirectionalNrgRatio.
여기서, maxdirectionNrgRatio는 가상 스피커 신호 그룹의 미리 설정된 최대 비트 할당 비율이고, FAC1은 미리 설정된 제1 조정 팩터이며, 0 ≤ FAC1 ≤ 0.5이다.
선택적으로, 안전한 비트는 Ratio1로 제한된다. 예는 다음과 같다:
Ratio1 = min(Ratio1, maxdirectionalNrgRatio + FAC2 * Ratio1).
여기서, FAC2는 미리 설정된 제2 조정 팩터이며, 0 ≤ FAC2 ≤ 0.5이다.
그러면, 잔차 신호 그룹 1의 비트 할당 비율 Ratio2와 잔차 신호 그룹 2의 비트 할당 비율 Ratio3이 계산된다:
Ratio2 = (1 - Ratio1) * 잔차 신호 그룹 1의 채널의 수량/(잔차 신호 그룹 1의 채널의 수량 + 잔차 신호 그룹 2의 채널의 수량); 및
Ratio3 = (1 - Ratio1) * 잔차 신호 그룹 2의 채널의 수량/(잔차 신호 그룹 1의 채널의 수량 + 잔차 신호 그룹 2의 채널의 수량).
조건 2: 이방성 음원의 수량이 TH0보다 작거나 같고 가상 스피커 코딩 효율 η > TH2를 충족할 때, 즉 Flag = High일 때, TH0는 코덱과 매칭되는 가상 스피커의 수량 또는 코덱의 가상 스피커 신호의 수량이다. 예를 들어 TH0 = 2이고, 0.8 ≤ TH1 ≤ 1이다. 예를 들어 TH2 = 0.875이다. 가상 스피커 신호 그룹의 비트 할당이 프리-우세하다고 간주될 수 있다. 이 경우, 전송 채널 그룹의 비트 할당 비율은 다음과 같이 조정된다:
Ratio1, Ratio2, Ratio3을 계산하는 단계는 조건 1과 동일하다.
조건 3: TH3 ≤ directionNrgRatio < TH1이 충족될 때, 0.5 ≤ TH3 < 0.9이다. 예를 들어 TH3 = 0.75이다.
먼저, 가상 스피커 신호 그룹의 비트 할당 비율 Ratio1을 계산한다:
Ratio1 = FAC3 * directionalNrgRatio + (1 - FAC3) * maxdirectionalNrgRatio.
여기서, maxdirectionNrgRatio는 가상 스피커 신호 그룹의 미리 설정된 비트 할당 비율이고, FAC3은 미리 설정된 제3 조정 팩터이며, 0 ≤ FAC3 ≤ 0.5이고, FAC3 > FAC1이다.
선택적으로, Ratio1에 대해 안전한 비트가 제한된다. 예는 다음과 같다.
Ratio1 = min(Ratio1, maxdirectionalNrgRatio + TH8FAC4 * Ratio1).
FAC4는 미리 설정된 제4 조정 팩터이며, 0 ≤ FAC4 ≤ 0.5이고, FAC4 < FAC2이다.
그러면, 잔차 신호 그룹 1의 비트 할당 비율 Ratio2와 잔차 신호 그룹 2의 비트 할당 비율 Ratio3이 계산된다:
Ratio2 = (1 - Ratio1) * 잔차 신호 그룹 1의 채널의 수량/(잔차 신호 그룹 1의 채널의 수량 + 잔차 신호 그룹 2의 채널의 수량); 및
Ratio3 = (1 - Ratio1) * 잔차 신호 그룹 2의 채널의 수량/(잔차 신호 그룹 1의 채널의 수량 + 잔차 신호 그룹 2의 채널의 수량).
조건 4: 이방성 음원의 수량이 TH0보다 작거나 같고, TH4 ≤ 가상 스피커 코딩 효율 η ≤ TH2를 충족할 때, 즉 Flag = Middle일 때, 0.5 ≤ TH4< 0.8이고, 예를 들어 TH4 = 0.6875이다. 가상 스피커 신호 그룹의 비트 할당이 약간 우세하다고 간주될 수 있다. 이 경우, 전송 채널 그룹의 비트 할당 비율은 다음과 같이 조정된다:
Ratio1, Ratio2, Ratio3을 계산하는 단계는 조건 3과 동일하다.
조건 5: directionNrgRatio < TH3이 충족될 때, 잔차 그룹의 비트 할당이 우세하다고 간주될 수 있다. 이 경우, 전송 채널 그룹의 비트 할당 비율은 다음과 같이 조정된다:
Ratio1 = directionalNrgRatio;
Ratio2 = D1/(F + D1 + D2); 및
Ratio3 = D2/(F + D1 + D2).
선택적으로, 안전한 비트는 Ratio1, Ratio2 및 Ratio3에 대해 제한된다. 예는 다음과 같다:
Ratio1 < groupBitsRatio1일 때, Ratio1 = groupBitsRatio1이며;
Ratio1 ≥ groupBitsRatio1일 때, Ratio1 = FAC5 * groupBitsRatio1 + (1 - FAC5) * Ratio1이고;
Ratio2 < groupBitsRatio2일 때, Ratio2 = groupBitsRatio2이며;
Ratio2 ≥ groupBitsRatio2일 때, Ratio2 = FAC6 * groupBitsRatio2 + (1 - FAC6) * Ratio2이고;
Ratio3 < groupBitsRatio3일 때, Ratio3 = groupBitsRatio3이며; 또는
Ratio3 ≥ groupBitsRatio3일 때, Ratio3 = FAC7 * groupBitsRatio3 + (1 - FAC7) * Ratio3이다.
여기서, groupBitsRatio1, groupBitsRatio2, groupBitsRatio3은 각각 가상 스피커 신호 그룹의 미리 설정된 비트 할당 비율, 잔차 신호 그룹 1의 미리 설정된 비트 할당 비율, 잔차 신호 그룹 2의 미리 설정된 비트 할당 비율이고, FAC5는 미리 설정된 제5 조정 팩터이며, 0.5 < FAC5 ≤ 1이고, FAC6은 미리 설정된 제6 조정 팩터이며, 0.5 < FAC6 ≤ 1이고, FAC7은 미리 설정된 제7 조정 팩터이며, 0.5 < FAC7 ≤ 1이고, FAC5, FAC6 및 FAC7은 같거나 상이할 수 있다.
조건 6: 이방성 음원의 수량이 TH0보다 크거나 가상 스피커 코딩 효율 η < TH4를 충족할 때, 즉 Flag = Low일 때, 잔차 그룹의 비트 할당이 우세하다고 간주될 수 있다. 이 경우, 전송 채널 그룹의 비트 할당 비율은 다음과 같이 조정된다:
Ratio1, Ratio2, Ratio3을 계산하는 단계는 조건 5와 동일하다.
Ratio1, Ratio2 및 Ratio3을 획득한 후, Ratio1, Ratio2, Ratio3은 양자화되어 비트스트림에 기록될 수 있다.
S3: 전송 채널 신호를 다운믹싱한다.
전송 채널 신호를 다운믹싱하는 구체적인 프로세스는 다시 설명하지 않는다. 하향링크 믹싱 알고리즘에 기반하여 원래의 채널 신호를 계산하여 하향링크 믹싱 채널을 획득하고 그런 다음 비트 할당을 수행한다. 단계(S3)는 선택적인 단계이며, 단계(S3)는 단계(S2) 이전에 또는 단계(S2) 이후에 수행될 수 있다.
S4: 전송 채널 신호의 비트 할당을 수행한다.
먼저, 단계(S2)에서 그룹간 비트 할당 비율과 이용 가능한 비트의 총 수량에 기반하여 각 그룹의 비트 수량이 결정된다. 예는 다음과 같다:
가상 스피커 신호 그룹의 비트 수량 = Ratio1 * 이용 가능한 비트의 총 수량.
잔차 신호 그룹 1의 비트 수량 = Ratio2 * 이용 가능한 비트의 총 수량.
잔차 신호 그룹 2의 비트 수량 = Ratio3 * 이용 가능한 비트의 총 수량.
그리고, 각 채널의 비트 수량이 결정될 수 있는 구현은 여러 가지가 있을 수 있다. 예를 들어, 각 채널의 에너지 비율에 기반하여 비트 할당이 수행된다.
다음은 디코더 측에서 실행되는 신호 디코딩 절차를 설명한다.
디코더 측은 코더 측이 전송한 비트스트림을 수신하고, 비트스트림으로부터 Ratio1, Ratio2, Ratio3을 파싱하고, 전송 채널 신호의 비트 할당을 수행할 수 있다. 예를 들어, 전송 채널 신호의 비트 할당은 단계(S4)에서 각 채널의 비트의 수량을 획득하는 방법으로 수행될 수 있다.
앞선 예시 설명에 기반하여 본 출원의 실시예에서 코더 측은 전송 채널을 그룹화하고, 가상 스피커 신호 그룹의 에너지, 이방성 음원의 수량 및 재구성된 HOA 신호에 기반하여 그룹 비트 할당 비율을 결정할 수 있다. 본 출원의 실시예에서, 그룹간 할당 비율은 전술한 복수의 조건에 기반하여 조정될 수 있다. 따라서, 본 출원의 실시예에서는 전송 채널 비트 할당 효율을 효과적으로 향상시킬 수 있다.
본 출원의 이 실시예에서, 디코더 측에 의해 실행되는 디코딩 절차는 자세히 설명되지 않는다.
설명의 편의를 위해 방법 실시예는 일련의 동작(action) 조합으로 설명된다는 점에 유의해야 한다. 그러나, 당업자는 본 출원에 따르면 일부 단계는 다른 시퀀스로 또는 동시에 수행될 수 있기 때문에, 본 출원이 설명된 동작 순서에 제한되지 않는다는 것을 이해해야 한다. 또한, 당업자는 본 명세서에 설명된 실시예가 모두 바람직한 실시예이며, 관련된 동작 및 모듈이 반드시 본 출원에 필요한 것은 아니라는 점을 이해해야 한다.
본 출원의 실시예의 솔루션을 더 잘 구현하기 위해, 다음은 전술한 솔루션을 구현하도록 구성된 관련 장치를 더 제공한다.
도 7은 본 출원의 실시예에서 제공되는 3차원 오디오 신호 처리 장치를 도시한다. 예를 들어, 3차원 오디오 신호 처리 장치는 구체적으로 오디오 코딩 장치(700)이며, 코딩 모듈(701) 및 비트 할당 비율 결정 모듈(702)을 포함할 수 있다.
코딩 모듈은 코딩 대상 3차원 오디오 신호에 대해 공간 코딩을 수행하여 전송 채널 신호 및 전송 채널 속성 정보를 획득하도록 구성된다. 전송 채널 신호는 적어도 하나의 가상 스피커 신호 그룹과 적어도 하나의 잔차 신호 그룹을 포함한다.
비트 할당 비율 결정 모듈은, 전송 채널 속성 정보에 기반하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 결정하도록 구성된다.
도 8은 본 출원의 실시예에서 제공되는 3차원 오디오 신호 처리 장치를 도시한다. 예를 들어, 3차원 오디오 신호 처리 장치는 구체적으로 오디오 디코딩 장치(800)이며, 수신 모듈(801), 디코딩 모듈(802) 및 신호 생성 모듈(803)을 포함할 수 있다.
수신 모듈은 비트스트림을 수신하도록 구성된다.
디코딩 모듈은 비트스트림을 디코딩하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 획득하도록 구성된다.
신호 생성 모듈은 디코딩을 통해 3차원 오디오 신호를 획득하기 위해, 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율에 기반하여 비트스트림 내의 가상 스피커 신호와 잔차 신호를 디코딩하도록 구성된다.
전술한 장치의 모듈/유닛 간의 정보 교환 및 실행 프로세스와 같은 내용은 본 출원의 방법 실시예와 동일한 개념에 기반하며, 정보 교환 및 실행 프로세스에 의해 가져오는 기술적 효과는 본 출원의 방법 실시예와 동일하다는 점에 유의해야 한다. 특정 내용에 대해서는 본 출원에 나타낸 방법 실시예의 설명을 참조한다. 자세한 내용은 여기서 다시 설명하지 않는다.
본 출원의 실시예는 컴퓨터 저장 매체를 더 제공한다. 컴퓨터 저장 매체는 프로그램을 저장하고, 프로그램은 방법 실시예에 설명된 일부 또는 모든 단계를 수행한다.
다음은 본 출원의 실시예에서 제공되는 또 다른 오디오 코딩 장치를 설명한다. 도 9에 도시된 바와 같이, 오디오 코딩 장치(900)는:
수신기(901), 송신기(transmitter)(902), 프로세서(903) 및 메모리(904)를 포함한다(오디오 코딩 장치(900)에는 하나 이상의 프로세서(903)가 있을 수 있으며, 도 9에서는 하나의 프로세서를 예로 사용함). 본 출원의 일부 실시예에서, 수신기(901), 송신기(902), 프로세서(903) 및 메모리(904)는 버스를 통해 또는 다른 방식으로 연결될 수 있다. 도 9에서는 버스 연결을 예로 들어 설명한다.
메모리(904)는 읽기 전용 메모리 및 랜덤 액세스 메모리를 포함할 수 있으며, 프로세서(903)에 명령어 및 데이터를 제공할 수 있다. 메모리(904)의 일부는 비휘발성 랜덤 액세스 메모리(nonvolatile random access memory, NVRAM)를 더 포함할 수 있다. 메모리(904)는 운영 체제 및 작동 명령어, 실행 가능한 모듈 또는 데이터 구조, 그 서브 세트, 또는 그 확장된 세트를 저장한다. 작동 명령어는 다양한 작동을 구현하기 위한 다양한 작동 명령어를 포함할 수 있다. 운영 체제는 다양한 기본 서비스를 구현하고 하드웨어 기반 작동을 처리하기 위한 다양한 시스템 프로그램을 포함할 수 있다.
프로세서(903)는 오디오 코딩 장치의 작동을 제어하며, 프로세서(903)는 중앙 처리 유닛(central processing unit, CPU)이라고도 지칭될 수도 있다. 특정 애플리케이션에서, 오디오 코딩 장치의 구성 요소는 버스 시스템을 통해 함께 결합된다. 버스 시스템은 데이터 버스 외에, 전원 버스, 제어 버스, 상태 신호 버스 등을 더 포함할 수 있다. 다만, 명확한 설명을 위해 도면에서 다양한 유형의 버스를 버스 시스템이라고 지칭한다.
본 출원의 실시예에 개시된 방법은 프로세서(903)에 적용될 수 있거나 프로세서(903)에 의해 구현될 수 있다. 프로세서(903)는 집적회로 칩일 수 있고, 신호 처리 능력을 갖는다. 일 구현 프로세스에서, 전술한 방법의 단계는 프로세서(903)의 하드웨어의 통합 논리 회로를 통해 또는 소프트웨어 형태의 명령어를 사용하여 구현될 수 있다. 프로세서(903)는 범용 프로세서, 디지털 신호 프로세서(digital signal processor, DSP), 주문형 집적 회로(application-specific integrated circuit, ASIC), 필드 프로그래밍 가능한 게이트 어레이(field-programmable gate array, FPGA) 또는 다른 프로그래밍 가능한 논리 디바이스, 이산 게이트 또는 트랜지스터 논리 디바이스 또는 이산 하드웨어 구성 요소이다. 프로세서는 본 출원의 실시예에 개시된 방법, 단계 및 논리 블록도를 구현하거나 수행할 수 있다. 범용 프로세서는 마이크로프로세서일 수도 있고, 프로세서는 임의의 기존 프로세서 등일 수도 있다. 본 출원의 실시예를 참조하여 개시된 방법의 단계는 하드웨어 디코딩 프로세서에 의해 직접 수행 및 완료될 수도 있고, 디코딩 프로세서의 하드웨어와 소프트웨어 모듈의 조합에 의해 수행 및 완료될 수도 있다. 소프트웨어 모듈은 랜덤 액세스 메모리, 플래시 메모리, 읽기 전용 메모리, 프로그래밍 가능한 읽기 전용 메모리, 전기적으로 소거 가능한 프로그래밍 가능한 메모리 또는 레지스터와 같은 해당 기술 분야의 성숙한 저장 매체에 위치될 수 있다. 저장 매체는 메모리(904)에 위치되고, 프로세서(903)는 메모리(904)의 정보를 판독하고 프로세서(903)의 하드웨어와 조합하여 전술한 방법의 단계를 완료한다.
수신기(901)는 입력 디지트(digit) 또는 문자 정보를 수신하고, 오디오 코딩 장치의 관련 설정 및 기능 제어와 관련된 신호 입력을 생성하도록 구성될 수 있다. 송신기(902)는 디스플레이 디바이스, 예를 들어 디스플레이를 포함할 수 있고, 송신기(902)는 외부 인터페이스를 통해 디지트 또는 문자 정보를 출력하도록 구성될 수 있다.
본 출원의 이 실시예에서, 프로세서(903)는 전술한 실시예에서 도 4에 도시된 오디오 코딩 장치에 의해 수행되는 방법을 수행하도록 구성된다.
다음은 본 출원의 실시예에서 제공되는 또 다른 오디오 디코딩 장치를 설명한다. 도 10에 도시된 바와 같이, 오디오 디코딩 장치(1000)는:
수신기(1001), 송신기(1002), 프로세서(1003) 및 메모리(1004)를 포함한다(오디오 디코딩 장치(1000)에는 하나 이상의 프로세서(1003)가 있을 수 있으며, 도 10에서는 하나의 프로세서를 예로 사용함). 본 출원의 일부 실시예에서, 수신기(1001), 송신기(1002), 프로세서(1003) 및 메모리(1004)는 버스를 통해 또는 다른 방식으로 연결될 수 있다. 도 10에서는 버스 연결을 예로 들어 설명한다.
메모리(1004)는 읽기 전용 메모리 및 랜덤 액세스 메모리를 포함할 수 있고, 프로세서(1003)에 명령어 및 데이터를 제공할 수 있다. 메모리(1004)의 일부는 NVRAM을 더 포함할 수 있다. 메모리(1004)는 운영 체제 및 작동 명령어, 실행 가능한 모듈 또는 데이터 구조, 그 서브 세트, 또는 그 확장된 세트를 저장한다. 작동 명령어는 다양한 작동을 구현하기 위한 다양한 작동 명령어를 포함할 수 있다. 운영 체제는 다양한 기본 서비스를 구현하고 하드웨어 기반 작동을 처리하기 위한 다양한 시스템 프로그램을 포함할 수 있다.
프로세서(1003)는 오디오 디코딩 장치의 작동을 제어하며, 프로세서(1003)는 추가로 CPU라고도 지칭될 수 있다. 특정 애플리케이션에서, 오디오 디코딩 장치의 구성 요소는 버스 시스템을 통해 함께 결합된다. 버스 시스템은 데이터 버스 외에, 전원 버스, 제어 버스, 상태 신호 버스 등을 더 포함할 수 있다. 다만, 명확한 설명을 위해 도면에서의 다양한 유형의 버스를 버스 시스템이라고 지칭한다.
본 출원의 실시예에 개시된 방법은 프로세서(1003)에 적용될 수도 있고, 프로세서(1003)에 의해 구현될 수도 있다. 프로세서(1003)는 집적회로 칩일 수 있고, 신호 처리 능력을 갖는다. 일 구현 프로세스에서, 전술한 방법의 단계는 프로세서(1003)의 하드웨어의 통합 논리 회로를 통해 또는 소프트웨어 형태의 명령어를 사용하여 구현될 수 있다. 프로세서(1003)는 범용 프로세서, DSP, ASIC, FPGA 또는 다른 프로그래밍 가능한 논리 디바이스, 이산 게이트 또는 트랜지스터 논리 디바이스, 또는 이산 하드웨어 구성 요소일 수 있다. 프로세서는 본 출원의 실시예에 개시된 방법, 단계 및 논리 블록도를 구현하거나 수행할 수 있다. 범용 프로세서는 마이크로프로세서일 수도 있고, 프로세서는 임의의 기존 프로세서 등일 수도 있다. 본 출원의 실시예를 참조하여 개시된 방법의 단계는 하드웨어 디코딩 프로세서에 의해 직접 수행 및 완료될 수도 있고, 디코딩 프로세서의 하드웨어와 소프트웨어 모듈의 조합에 의해 수행 및 완료될 수도 있다. 소프트웨어 모듈은 랜덤 액세스 메모리, 플래시 메모리, 읽기 전용 메모리, 프로그래밍 가능한 읽기 전용 메모리, 전기적으로 소거 가능한 프로그래밍 가능한 메모리 또는 레지스터와 같은 해당 기술 분야의 성숙한 저장 매체에 위치될 수 있다. 저장 매체는 메모리(1004)에 위치되고, 프로세서(1003)는 메모리(1004)의 정보를 판독하고 프로세서(1003)의 하드웨어와 조합하여 전술한 방법의 단계를 완료한다.
본 출원의 실시예에서, 프로세서(1003)는 전술한 실시예에서 도 5에 도시된 오디오 디코딩 장치에 의해 수행되는 방법을 수행하도록 구성된다.
다른 가능한 설계에서, 오디오 코딩 장치 또는 오디오 디코딩 장치가 단말의 칩일 때, 칩은 처리 유닛과 통신 유닛을 포함한다. 처리 유닛은, 예를 들어, 프로세서일 수 있고, 통신 유닛은, 예를 들어, 입력/출력 인터페이스, 핀, 또는 회로일 수 있다. 처리 유닛은 저장 유닛에 저장된 컴퓨터가 실행 가능한 명령어를 실행할 수 있으므로, 단말의 칩이 제1 측면의 가능한 구현에 따른 오디오 코딩 방법 또는 제2 측면의 가능한 구현에 따른 오디오 디코딩 방법을 수행할 수 있다. 선택적으로, 저장 유닛은 칩 내의 저장 유닛, 예를 들어 레지스터 또는 캐시이며; 또는 저장 유닛은 단말의 칩 외부의 저장 유닛, 예를 들어 읽기 전용 메모리(read-only memory, ROM), 정적 정보 및 명령어를 저장할 수 있는 다른 유형의 정적 저장 디바이스, 또는 랜덤 액세스 메모리(random access memory, RAM)일 수 있다.
위에서 언급된 프로세서는 제1 측면 또는 제2 측면에 따른 방법의 프로그램 실행을 제어하도록 구성된 하나 이상의 집적 회로, 범용 중앙 처리 유닛, 마이크로프로세서 또는 ASIC일 수 있다.
또한, 위에서 설명한 장치 실시예는 단지 예일 뿐이라는 점에 유의해야 한다. 별도의 부분으로 기술된 유닛들은 물리적으로 분리된 것일 수도 있고 아닐 수도 있으며, 유닛으로 디스플레이된 부분은 물리적인 유닛일 수도 있고 아닐 수도 있고, 한 장소에 위치될 수도 있고, 복수의 네트워크 유닛에 분산되어 있을 수도 있다. 실시예에서 솔루션의 목적을 달성하기 위해, 실제 요건에 기반하여 일부 또는 모든 모듈이 선택될 수 있다. 또한, 본 출원에 제공된 장치 실시예의 첨부 도면에서, 모듈 간의 연결 관계는 모듈이 서로 통신 연결을 갖는 것을 지시하며, 구체적으로 하나 이상의 통신 버스 또는 신호 케이블로 구현될 수 있다.
전술한 구현의 설명에 기반하여, 당업자는 본 출원이 필요한 범용 하드웨어 외에 소프트웨어로 구현될 수 있거나, 전용 집적 회로, 전용 CPU, 전용 메모리, 전용 구성 요소 등을 포함하는 전용 하드웨어에 의해 구현될 수 있음을 명확히 이해할 수 있다. 일반적으로, 컴퓨터 프로그램에 의해 완료되는 모든 기능은 대응하는 하드웨어를 사용하여 쉽게 구현될 수 있다. 또한, 동일한 기능을 구현하는데 사용되는 구체적인 하드웨어 구조는 아날로그 회로, 디지털 회로, 전용 회로 등 다양할 수 있다. 그러나 본 출원에서 대부분의 경우 소프트웨어 프로그램 구현이 더 나은 구현이다. 이러한 이해를 바탕으로, 본 출원의 기술 솔루션은 본질적으로 또는 기존 기술에 기여하는 부분이 소프트웨어 제품의 형태로 실시될 수 있다. 컴퓨터 소프트웨어 제품은 플로피 디스크, USB 플래시 드라이브, 제거 가능한 하드 디스크, ROM, RAM, 자기 디스크 또는 광 디스크와 같은 판독 가능한 저장 매체에 저장되며, 본 출원의 실시예에 설명된 방법을 실행하도록 컴퓨터 디바이스(개인용 컴퓨터, 서버 또는 네트워크 디바이스일 수 있음)에게 명령하기 위한 여러 가지 명령어를 포함한다.
전술한 실시예의 전부 또는 일부는 소프트웨어, 하드웨어, 펌웨어 또는 이들의 임의의 조합을 사용하여 구현될 수 있다. 실시예를 구현하기 위해 소프트웨어가 사용될 때, 실시예의 전부 또는 일부는 컴퓨터 프로그램 제품의 형태로 구현될 수 있다.
컴퓨터 프로그램 제품에는 하나 이상의 컴퓨터 명령어가 포함된다. 컴퓨터 프로그램 명령어가 컴퓨터에 로딩되어 실행될 때, 본 출원의 실시예에 따른 절차나 기능이 전부 또는 부분적으로 생성된다. 컴퓨터는 범용 컴퓨터, 전용 컴퓨터, 컴퓨터 네트워크, 또는 기타 프로그램 가능한 장치일 수 있다. 컴퓨터 명령어는 컴퓨터가 판독 가능한 저장 매체에 저장되거나, 하나의 컴퓨터가 판독 가능한 저장 매체로부터 다른 컴퓨터가 판독 가능한 저장 매체로 전송될 수 있다. 예를 들어, 컴퓨터 명령어는 유선(예를 들어, 동축 케이블, 광섬유, 디지털 가입자 회선(digital subscriber line, DSL)) 또는 무선(예를 들어, 적외선, 무선, 마이크로파) 방식으로, 하나의 웹 사이트 사이트, 컴퓨터, 서버 또는 데이터 센터에서 다른 웹 사이트 사이트, 컴퓨터, 서버 또는 데이터 센터로 전송될 수 있다. 컴퓨터가 판독 가능한 저장 매체는 컴퓨터 또는 하나 이상의 이용 가능한 매체를 통합하는 데이터 저장 디바이스, 예를 들어 서버, 데이터 센터 등에 의해 저장될 수 있는 이용 가능한 모든 매체를 포함한다. 사용 가능한 매체는 자기 매체(예를 들어, 플로피 디스크, 하드 디스크, 자기 테이프), 광학 매체(예를 들어, DVD), 반도체 매체(예를 들어, 솔리드 스테이트 디스크(Solid State Disk, SSD) 등일 수 있다.
Claims (27)
- 3차원 오디오 신호 처리 방법으로서,
코딩 대상 3차원 오디오 신호에 대해 공간 코딩을 수행하여 전송 채널 신호 및 전송 채널 속성 정보를 획득하는 단계 - 상기 전송 채널 신호는 적어도 하나의 가상 스피커 신호 그룹 및 적어도 하나의 잔차 신호 그룹을 포함함 -; 및
상기 전송 채널 속성 정보에 기반하여 상기 가상 스피커 신호 그룹의 비트 할당 비율과 상기 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계
를 포함하는 3차원 오디오 신호 처리 방법. - 제1항에 있어서,
상기 전송 채널 속성 정보는 가상 스피커 코딩 효율을 포함하고,
상기 코딩 대상 3차원 오디오 신호에 대해 공간 코딩을 수행하여 전송 채널 신호 및 전송 채널 속성 정보를 획득하는 단계는,
가상 스피커를 사용하여 상기 코딩 대상 3차원 오디오 신호에 대해 신호 재구성을 수행하여 재구성된 3차원 오디오 신호를 획득하는 단계;
상기 재구성된 3차원 오디오 신호의 에너지 표현 값과 상기 코딩 대상 3차원 오디오 신호의 에너지 표현 값을 획득하는 단계; 및
상기 재구성된 3차원 오디오 신호의 에너지 표현 값과 상기 코딩 대상 3차원 오디오 신호의 에너지 표현 값에 기반하여 상기 가상 스피커 코딩 효율을 획득하는 단계
를 포함하는, 3차원 오디오 신호 처리 방법. - 제1항 또는 제2항에 있어서,
상기 전송 채널 속성 정보는 상기 가상 스피커 신호 그룹의 에너지 비율을 포함하고,
상기 3차원 오디오 신호 처리 방법은,
상기 가상 스피커 신호 그룹에서 각 가상 스피커 신호의 에너지 표현 값에 기반하여 상기 가상 스피커 신호 그룹의 에너지 표현 값을 획득하는 단계;
상기 잔차 신호 그룹에서 각 잔차 신호의 에너지 표현 값에 기반하여 상기 잔차 신호 그룹의 에너지 표현 값을 획득하는 단계; 및
상기 가상 스피커 신호 그룹의 에너지 표현 값과 상기 잔차 신호 그룹의 에너지 표현 값에 기반하여 상기 가상 스피커 신호 그룹의 에너지 비율을 획득하는 단계
를 더 포함하는 3차원 오디오 신호 처리 방법. - 제1항에 있어서,
상기 전송 채널 속성 정보는 가상 스피커 코드 식별자를 포함하고, 상기 가상 스피커 코드 식별자는 상기 가상 스피커 신호 그룹의 비트 할당이 우세한(dominant)지를 지시하며,
상기 코딩 대상 3차원 오디오 신호에 대해 공간 코딩을 수행하여 전송 채널 속성 정보를 획득하는 단계는,
상기 코딩 대상 3차원 오디오 신호에 대해 공간 코딩을 수행하여 상기 전송 채널 신호의 이방성 음원의 수량 및 가상 스피커 코딩 효율을 획득하는 단계; 및
상기 전송 채널 신호의 이방성 음원의 수량과 상기 가상 스피커 코딩 효율에 기반하여 상기 가상 스피커 코드 식별자를 획득하는 단계
를 포함하는, 3차원 오디오 신호 처리 방법. - 제4항에 있어서,
상기 전송 채널 신호의 이방성 음원의 수량과 상기 가상 스피커 코딩 효율에 기반하여 상기 가상 스피커 코드 식별자를 획득하는 단계는,
상기 전송 채널 신호의 이방성 음원의 수량이 상기 이방성 음원의 수량의 미리 설정된 임계값보다 작거나 같고, 상기 가상 스피커 코딩 효율이 미리 설정된 제1 가상 스피커 코딩 효율 임계값보다 크거나 같을 때, 상기 가상 스피커 코드 식별자가 우세하다고 결정하는 단계; 또는
상기 전송 채널 신호의 이방성 음원의 수량이 상기 이방성 음원의 수량의 미리 설정된 임계값보다 크거나, 상기 가상 스피커 코딩 효율이 미리 설정된 제1 가상 스피커 코딩 효율 임계값보다 작을 때, 상기 가상 스피커 코드 식별자가 우세하지 않다고 결정하는 단계
를 포함하는, 3차원 오디오 신호 처리 방법. - 제5항에 있어서,
우세성(dominance)는 서브-우세(sub-dominance) 또는 프리-우세(pre-dominance)를 포함하고,
상기 가상 스피커 코드 식별자가 우세하다고 결정하는 단계는,
상기 가상 스피커 코딩 효율이 상기 제1 가상 스피커 코딩 효율 임계값보다 크거나 같고, 상기 가상 스피커 코딩 효율이 미리 설정된 제2 가상 스피커 코딩 효율 임계값보다 작거나 같을 때, 상기 가상 스피커 코드 식별자가 서브-우세하다(sub-dominant)고 결정하는 단계; 또는
상기 가상 스피커 코딩 효율이 상기 제1 가상 스피커 코딩 효율 임계값보다 크거나 같고, 상기 가상 스피커 코딩 효율이 미리 설정된 제2 가상 스피커 코딩 효율 임계값보다 클 때, 상기 가상 스피커 코드 식별자가 프리-우세하다(pre-dominant)고 결정하는 단계
를 포함하고,
상기 제2 가상 스피커 코딩 효율 임계값은 상기 제1 가상 스피커 코딩 효율 임계값보다 큰, 3차원 오디오 신호 처리 방법. - 제1항 내지 제6항 중 어느 한 항에 있어서,
상기 전송 채널 속성 정보는 상기 가상 스피커 신호 그룹의 에너지 비율 및/또는 상기 가상 스피커 코드 식별자를 포함하고,
상기 전송 채널 속성 정보에 기반하여 상기 가상 스피커 신호 그룹의 비트 할당 비율과 상기 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계는,
상기 가상 스피커 신호 그룹의 에너지 비율이 미리 설정된 제1 에너지 비율 임계값보다 크거나 같거나 및/또는 상기 가상 스피커 코드 식별자가 프리-우세할 때, 미리 설정된 제1 신호 그룹 비트 할당 알고리즘에 따라 상기 가상 스피커 신호 그룹의 비트 할당 비율과 상기 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계; 또는
상기 가상 스피커 신호 그룹의 에너지 비율이 미리 설정된 제2 에너지 비율 임계값보다 크거나 같고 미리 설정된 제1 에너지 비율 임계값보다 작거나 및/또는 상기 가상 스피커 코드 식별자가 서브-우세할 때, 미리 설정된 제2 신호 그룹 비트 할당 알고리즘에 따라 상기 가상 스피커 신호 그룹의 비트 할당 비율과 상기 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계; 또는
상기 가상 스피커 신호 그룹의 에너지 비율이 미리 설정된 제1 에너지 비율 임계값보다 작거나 상기 가상 스피커 코드 식별자가 우세하지 않을 때, 미리 설정된 제3 신호 그룹 비트 할당 알고리즘에 따라 상기 가상 스피커 신호 그룹의 비트 할당 비율과 상기 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계
를 포함하는, 3차원 오디오 신호 처리 방법. - 제7항에 있어서,
상기 가상 스피커 신호 그룹의 에너지 비율이 미리 설정된 제1 에너지 비율 임계값보다 크거나 같거나 및/또는 상기 가상 스피커 코드 식별자가 프리-우세할 때, 미리 설정된 제1 신호 그룹 비트 할당 알고리즘에 따라 상기 가상 스피커 신호 그룹의 비트 할당 비율과 상기 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계는,
directionalNrgRatio ≥ TH1, 및/또는 S ≤ TH0 및 η > TH2가 충족될 때, 상기 가상 스피커 신호 그룹의 비트 할당 비율을 다음 방식:
Ratio1_1 = FAC1 * directionalNrgRatio + (1 - FAC1) * maxdirectionalNrgRatio
으로 계산하는 단계 - directionalNrgRatio는 상기 가상 스피커 신호 그룹의 에너지 비율을 나타내고, S는 상기 이방성 음원의 수량이며, η은 상기 가상 스피커 코딩 효율을 나타내고, maxdirectionalNrgRatio는 상기 가상 스피커 신호 그룹의 미리 설정된 최대 비트 할당 비율이며, FAC1은 미리 설정된 제1 조정 팩터이고, Ratio1_1은 상기 가상 스피커 신호 그룹의 비트 할당 비율이며, *는 곱셈 연산을 나타내고, TH1은 상기 제1 에너지 비율 임계값이며, TH0은 상기 이방성 음원의 수량의 임계값이고, TH2는 상기 제2 가상 스피커 코딩 효율 임계값임 -; 및
상기 잔차 신호 그룹의 비트 할당 비율을 다음 방식:
Ratio2 = 1 - Ratio1_1
으로 계산하는 단계 - Ratio1_1은 상기 가상 스피커 신호 그룹의 비트 할당 비율이고, Ratio2는 상기 잔차 신호 그룹의 비트 할당 비율임 -
를 포함하는, 3차원 오디오 신호 처리 방법. - 제8항에 있어서,
상기 가상 스피커 신호 그룹의 비트 할당 비율을 획득한 후,
상기 3차원 오디오 신호 처리 방법은,
상기 가상 스피커 신호 그룹의 비트 할당 비율을 다음 방식:
Ratio1_2 = min(Ratio1_1, maxdirectionalNrgRatio + FAC2 * Ratio1_1)
으로 업데이트하는 단계 - Ratio1_2는 상기 가상 스피커 신호 그룹의 업데이트된 비트 할당 비율을 나타내고, FAC2는 미리 설정된 제2 조정 팩터이며, maxdirectionNrgRatio는 상기 가상 스피커 신호 그룹의 미리 설정된 최대 비트 할당 비율이고, Ratio1_1은 상기 가상 스피커 신호의 비트 할당 비율로서 또한 업데이트 이전에 존재하는 비트 할당 비율이며, *는 곱셈 연산을 나타내고, min은 최소화 연산임 -
를 더 포함하는 3차원 오디오 신호 처리 방법. - 제7항에 있어서,
상기 가상 스피커 신호 그룹의 에너지 비율이 미리 설정된 제2 에너지 비율 임계값보다 크거나 같고 미리 설정된 제1 에너지 비율 임계값보다 작거나 및/또는 상기 가상 스피커 코드 식별자가 서브-우세할 때, 미리 설정된 제2 신호 그룹 비트 할당 알고리즘에 따라 상기 가상 스피커 신호 그룹의 비트 할당 비율과 상기 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계는,
TH3 ≤ directionNrgRatio < TH1이 충족되거나 및/또는 S ≤ TH0 및 TH4 ≤ η ≤ TH2가 충족될 때, Ratio1_1을 다음 방식:
Ratio1_1 = FAC3 * directionalNrgRatio + (1 - FAC3) * maxdirectionalNrgRatio
으로 계산하는 단계 - maxdirectionalNrgRatio는 상기 가상 스피커 신호 그룹의 미리 설정된 비트 할당 비율이며, FAC3은 미리 설정된 제3 조정 팩터이고, directionalNrgRatio는 상기 가상 스피커 신호 그룹의 에너지 비율을 나타내며, S는 상기 이방성 음원의 수량이고, η은 상기 가상 스피커 코딩 효율을 나타내며, Ratio1_1은 상기 가상 스피커 신호 그룹의 비트 할당 비율이고, *는 곱셈 연산을 나타내며, TH0은 상기 이방성 음원의 수량의 임계값이고, TH1은 상기 제1 에너지 비율 임계값이며, TH2는 상기 제2 가상 스피커 코딩 효율 임계값이고, TH3은 상기 제2 에너지 비율 임계값이고, TH4는 상기 제1 가상 스피커 코딩 효율 임계값임 -; 및
상기 잔차 신호 그룹의 비트 할당 비율을 다음 방식:
Ratio2 = 1 - Ratio1_1
으로 계산하는 단계 - Ratio1_1은 상기 가상 스피커 신호 그룹의 비트 할당 비율이고, Ratio2는 상기 잔차 신호 그룹의 비트 할당 비율임 -
를 포함하는, 3차원 오디오 신호 처리 방법. - 제10항에 있어서,
상기 가상 스피커 신호 그룹의 비트 할당 비율을 획득한 후,
상기 3차원 오디오 신호 처리 방법은,
상기 가상 스피커 신호 그룹의 비트 할당 비율을 다음 방식:
Ratio1_2 = min(Ratio1_1, maxdirectionalNrgRatio + FAC4 * Ratio1_1)
으로 업데이트하는 단계 - Ratio1_2는 상기 가상 스피커 신호 그룹의 업데이트된 비트 할당 비율을 나타내고, FAC4는 미리 설정된 제4 조정 팩터이며, maxdirectionNrgRatio는 상기 가상 스피커 신호 그룹의 미리 설정된 최대 비트 할당 비율이고, Ratio1_1은 상기 가상 스피커 신호 그룹의 비트 할당 비율로서 또한 업데이트 이전에 존재하는 비트 할당 비율이며, *는 곱셈 연산을 나타내고, min은 최소화 연산임 -
를 더 포함하는 3차원 오디오 신호 처리 방법. - 제8항 내지 제11항 중 어느 한 항에 있어서,
상기 3차원 오디오 신호 처리 방법은,
복수의 잔차 신호 그룹이 있을 때, i번째 잔차 신호 그룹의 비트 할당 비율을 다음 방식:
Ratio2_i = Ratio2 * (R_i/C)
으로 계산하는 단계 - R_i는 상기 i번째 잔차 신호 그룹에 포함된 전송 채널의 수량을 나타내고, C는 모든 잔차 신호 그룹에서 전송 채널의 총 수량이며, Ratio2_i는 상기 i번째 잔차 신호 그룹의 비트 할당 비율이고, *는 곱셈 연산을 나타내며, Ratio2는 모든 잔차 신호 그룹의 비트 할당 비율임 -
를 더 포함하는 3차원 오디오 신호 처리 방법. - 제7항에 있어서,
상기 가상 스피커 신호 그룹의 에너지 비율이 미리 설정된 제1 에너지 비율 임계값보다 작거나 상기 가상 스피커 코드 식별자가 우세하지 않을 때, 미리 설정된 제3 신호 그룹 비트 할당 알고리즘에 따라 상기 가상 스피커 신호 그룹의 비트 할당 비율과 상기 잔차 신호 그룹의 비트 할당 비율을 결정하는 단계는,
directionalNrgRatio < TH3이 충족되거나, S > TH0이 충족되거나, η < TH4가 충족될 때, 상기 가상 스피커 신호 그룹의 비트 할당 비율을 다음 방식:
Ratio1_1 = directionalNrgRatio
으로 계산하는 단계 - directionalNrgRatio는 상기 가상 스피커 신호 그룹의 에너지 비율을 나타내고, Ratio1_1은 상기 가상 스피커 신호 그룹의 비트 할당 비율이며, TH3은 상기 제2 에너지 비율 임계값이고, TH4는 상기 제1 가상 스피커 코딩 효율 임계값이며, S는 상기 이방성 음원의 수량이고, η은 상기 가상 스피커 코딩 효율을 나타내고, TH0는 상기 이방성 음원의 수량의 임계값임 -; 및
상기 잔차 신호 그룹의 비트 할당 비율을 다음 방식:
Ratio2_1 = D/(F + D)
으로 계산하는 단계 - Ratio2_1은 상기 잔차 신호 그룹의 비트 할당 비율이고, F는 상기 가상 스피커 신호 그룹의 에너지 표현 값이며, D는 상기 잔차 신호 그룹의 에너지 표현 값임 -
를 포함하는, 3차원 오디오 신호 처리 방법. - 제13항에 있어서,
상기 3차원 오디오 신호 처리 방법은,
상기 가상 스피커 신호 그룹의 비트 할당 비율을 획득한 후, 상기 가상 스피커 신호 그룹의 비트 할당 비율을 다음 방식:
Ratio1_1 < groupBitsRatio1일 때, Ratio1_2 = groupBitsRatio1; 및
Ratio1_1 ≥ groupBitsRatio1일 때, Ratio1_2 = FAC5 * groupBitsRatio1 + (1 - FAC5) * Ratio1_1
으로 업데이트하는 단계 - Ratio1_2는 상기 가상 스피커 신호 그룹의 업데이트된 비트 할당 비율을 나타내고, FAC5는 미리 설정된 제5 조정 팩터이며, Ratio1_1은 상기 가상 스피커 신호 그룹의 비트 할당 비율로서 또한 업데이트 이전에 존재하는 비트 할당 비율이고, *는 곱셈 연산을 나타내며, groupBitsRatio1은 상기 가상 스피커 신호 그룹의 미리 설정된 비트 할당 비율임 -; 및
상기 잔차 신호 그룹의 비트 할당 비율을 획득한 후, 상기 잔차 신호 그룹의 비트 할당 비율을 다음 방식:
Ratio2_1 < groupBitsRatio2일 때, Ratio2_2 = groupBitsRatio2; 및
Ratio2_1 ≥ groupBitsRatio2일 때, Ratio2_2 = FAC6 * groupBitsRatio2 + (1 - FAC6) * Ratio2_1
으로 업데이트하는 단계 - Ratio2_2는 상기 잔차 신호 그룹의 업데이트된 비트 할당 비율을 나타내고, FAC6은 미리 설정된 제6 조정 팩터이며, Ratio2_1은 상기 잔차 신호 그룹의 비트 할당 비율로서 또한 업데이트 이전에 존재하는 비트 할당 비율이고, *는 곱셈 연산을 나타내며, groupBitsRatio2는 상기 잔차 신호 그룹의 미리 설정된 비트 할당 비율임 -
를 더 포함하는 3차원 오디오 신호 처리 방법. - 제1항 내지 제14항 중 어느 한 항에 있어서,
상기 3차원 오디오 신호 처리 방법은,
상기 가상 스피커 신호 그룹의 비트 할당 비율, 상기 잔차 신호 그룹의 비트 할당 비율 및 총 전송 채널 비트의 수량에 기반하여, 상기 가상 스피커 신호 그룹의 비트의 수량과 상기 잔차 신호 그룹의 비트의 수량을 개별적으로 결정하는 단계; 및
상기 가상 스피커 신호 그룹의 비트의 수량에 기반하여 상기 가상 스피커 신호 그룹의 비트 할당을 수행하고, 상기 잔차 신호 그룹의 비트의 수량에 기반하여 잔차 신호 그룹의 비트 할당을 수행하는 단계
를 더 포함하는 3차원 오디오 신호 처리 방법. - 제15항에 있어서,
상기 가상 스피커 신호 그룹의 비트 할당 비율, 상기 잔차 신호 그룹의 비트 할당 비율 및 총 전송 채널 비트의 수량에 기반하여, 상기 가상 스피커 신호 그룹의 비트의 수량과 상기 잔차 신호 그룹의 비트의 수량을 개별적으로 결정하는 단계는,
상기 가상 스피커 신호 그룹의 비트의 수량을 다음 방식:
F_bitnum = Ratio1 * C_bitnum
으로 계산하는 단계 - F_bitnum은 상기 가상 스피커 신호 그룹의 비트 수량이고, Ratio1은 상기 가상 스피커 신호 그룹의 비트 할당 비율이며, C_bitnum은 상기 총 전송 채널 비트 수량임 -; 및
상기 잔차 신호 그룹의 비트의 수량을 다음 방식:
D_bitnum = Ratio2 * C_bitnum
으로 계산하는 단계 - D_bitnum은 상기 잔차 신호 그룹의 비트의 수량이고, Ratio2는 상기 잔차 신호 그룹의 비트 할당 비율이며, C_bitnum은 총 전송 채널 비트 수량임 -
를 포함하는, 3차원 오디오 신호 처리 방법. - 제1항 내지 제16항 중 어느 한 항에 있어서,
상기 3차원 오디오 신호 처리 방법은,
상기 전송 채널 신호, 상기 가상 스피커 신호 그룹의 비트 할당 비율, 상기 잔차 신호 그룹의 비트 할당 비율을 코딩하고, 코딩된 상기 전송 채널 신호, 코딩된 상기 가상 스피커 신호 그룹의 비트 할당 비율, 코딩된 상기 잔차 신호 그룹의 할당 비율을 비트스트림에 기록하는 단계
를 더 포함하는 3차원 오디오 신호 처리 방법. - 3차원 오디오 신호 처리 방법으로서,
비트스트림을 수신하는 단계;
상기 비트스트림을 디코딩하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 획득하는 단계; 및
디코딩을 통해 3차원 오디오 신호를 획득하기 위해, 상기 가상 스피커 신호 그룹의 비트 할당 비율과 상기 잔차 신호 그룹의 비트 할당 비율에 기반하여 상기 비트스트림 내의 가상 스피커 신호와 잔차 신호를 디코딩하는 단계
를 포함하는 3차원 오디오 신호 처리 방법. - 제18항에 있어서,
상기 가상 스피커 신호 그룹의 비트 할당 비율과 상기 잔차 신호 그룹의 비트 할당 비율에 기반하여 상기 비트스트림 내의 가상 스피커 신호와 잔차 신호를 디코딩하는 단계는,
상기 비트스트림에 기반하여 이용 가능한 비트의 수량을 결정하는 단계;
상기 이용 가능한 비트의 수량 및 상기 가상 스피커 신호 그룹의 비트 할당 비율에 기반하여 상기 가상 스피커 신호 그룹의 비트의 수량을 결정하고, 상기 가상 스피커 신호 그룹의 비트의 수량에 기반하여 상기 비트스트림 내의 상기 가상 스피커 신호를 디코딩하는 단계; 및
상기 이용 가능한 비트의 수량 및 상기 잔차 신호 그룹의 비트 할당 비율에 기반하여 상기 잔차 신호 그룹의 비트의 수량을 결정하고, 상기 잔차 신호 그룹의 비트의 수량에 기반하여 상기 비트스트림 내의 상기 잔차 신호를 디코딩하는 단계
를 포함하는, 3차원 오디오 신호 처리 방법. - 3차원 오디오 신호 처리 장치로서,
코딩 대상 3차원 오디오 신호에 대해 공간 코딩을 수행하여 전송 채널 신호 및 전송 채널 속성 정보를 획득하도록 - 상기 전송 채널 신호는 적어도 하나의 가상 스피커 신호 그룹 및 적어도 하나의 잔차 신호 그룹을 포함함 - 구성된 코딩 모듈; 및
상기 전송 채널 속성 정보에 기반하여 상기 가상 스피커 신호 그룹의 비트 할당 비율과 상기 잔차 신호 그룹의 비트 할당 비율을 결정하도록 구성된 비트 할당 비율 결정 모듈
을 포함하는 3차원 오디오 신호 처리 장치. - 3차원 오디오 신호 처리 장치로서,
비트스트림을 수신하도록 구성된 수신 모듈;
상기 비트스트림을 디코딩하여 가상 스피커 신호 그룹의 비트 할당 비율과 잔차 신호 그룹의 비트 할당 비율을 획득하도록 구성된 디코딩 모듈; 및
디코딩을 통해 3차원 오디오 신호를 획득하기 위해, 상기 가상 스피커 신호 그룹의 비트 할당 비율과 상기 잔차 신호 그룹의 비트 할당 비율에 기반하여 상기 비트스트림 내의 가상 스피커 신호와 잔차 신호를 디코딩하도록 구성된 신호 생성 모듈
을 포함하는 3차원 오디오 신호 처리 장치. - 3차원 오디오 신호 처리 장치로서,
상기 3차원 오디오 신호 처리 장치는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는 메모리에 결합되며, 상기 메모리 내의 명령어를 판독하고 실행하여, 제1항 내지 제17항 중 어느 한 항에 따른 방법을 구현하도록 구성되는, 3차원 오디오 신호 처리 장치. - 제22항에 있어서,
상기 3차원 오디오 신호 처리 장치는 상기 메모리를 더 포함하는 3차원 오디오 신호 처리 장치. - 3차원 오디오 신호 처리 장치로서,
상기 3차원 오디오 신호 처리 장치는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는 메모리에 결합되며, 상기 메모리 내의 명령어를 판독하고 실행하여, 제18항 또는 제19항에 따른 방법을 구현하도록 구성되는, 3차원 오디오 신호 처리 장치. - 제24항에 있어서,
상기 오디오 디코딩 장치는 상기 메모리를 더 포함하는 3차원 오디오 신호 처리 장치. - 명령어를 포함하는, 컴퓨터가 판독 가능한 저장 매체로서,
상기 명령어가 컴퓨터에서 실행될 때, 상기 컴퓨터는 제1항 내지 제17항 또는 제18항 내지 제19항 중 어느 한 항에 따른 방법을 수행하도록 이네이블되는, 컴퓨터가 판독 가능한 저장 매체. - 제1항 내지 제17항 중 어느 한 항에 따른 방법에서 생성된 비트스트림을 포함하는, 컴퓨터가 판독 가능한 저장 매체.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110657283 | 2021-06-11 | ||
CN202110657283.7 | 2021-06-11 | ||
CN202110700570.1A CN115472170A (zh) | 2021-06-11 | 2021-06-23 | 一种三维音频信号的处理方法和装置 |
CN202110700570.1 | 2021-06-23 | ||
PCT/CN2022/096546 WO2022257824A1 (zh) | 2021-06-11 | 2022-06-01 | 一种三维音频信号的处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20240013221A true KR20240013221A (ko) | 2024-01-30 |
Family
ID=84363426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020237044825A KR20240013221A (ko) | 2021-06-11 | 2022-06-01 | 3차원 오디오 신호 처리 방법 및 장치 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20240112684A1 (ko) |
EP (1) | EP4354430A4 (ko) |
KR (1) | KR20240013221A (ko) |
CN (1) | CN115472170A (ko) |
WO (1) | WO2022257824A1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118800257A (zh) * | 2023-04-13 | 2024-10-18 | 华为技术有限公司 | 场景音频解码方法及电子设备 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5890125A (en) * | 1997-07-16 | 1999-03-30 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method |
CN101030379B (zh) * | 2007-03-26 | 2011-10-12 | 北京中星微电子有限公司 | 一种数字音频信号比特分配的方法和装置 |
EP2346028A1 (en) * | 2009-12-17 | 2011-07-20 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal |
CN107493542B (zh) * | 2012-08-31 | 2019-06-28 | 杜比实验室特许公司 | 用于在听音环境中播放音频内容的扬声器系统 |
CN103489450A (zh) * | 2013-04-07 | 2014-01-01 | 杭州微纳科技有限公司 | 基于时域混叠消除的无线音频压缩、解压缩方法及其设备 |
KR20140128565A (ko) * | 2013-04-27 | 2014-11-06 | 인텔렉추얼디스커버리 주식회사 | 오디오 신호 처리 방법 및 장치 |
JP6288100B2 (ja) * | 2013-10-17 | 2018-03-07 | 株式会社ソシオネクスト | オーディオエンコード装置及びオーディオデコード装置 |
GB2574239A (en) * | 2018-05-31 | 2019-12-04 | Nokia Technologies Oy | Signalling of spatial audio parameters |
CN115831130A (zh) * | 2018-06-29 | 2023-03-21 | 华为技术有限公司 | 立体声信号的编码方法、解码方法、编码装置和解码装置 |
-
2021
- 2021-06-23 CN CN202110700570.1A patent/CN115472170A/zh active Pending
-
2022
- 2022-06-01 KR KR1020237044825A patent/KR20240013221A/ko unknown
- 2022-06-01 EP EP22819422.1A patent/EP4354430A4/en active Pending
- 2022-06-01 WO PCT/CN2022/096546 patent/WO2022257824A1/zh active Application Filing
-
2023
- 2023-12-07 US US18/532,085 patent/US20240112684A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4354430A4 (en) | 2024-07-24 |
CN115472170A (zh) | 2022-12-13 |
WO2022257824A1 (zh) | 2022-12-15 |
EP4354430A1 (en) | 2024-04-17 |
US20240112684A1 (en) | 2024-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230298600A1 (en) | Audio encoding and decoding method and apparatus | |
US20240177721A1 (en) | Audio signal encoding and decoding method and apparatus | |
US20240169998A1 (en) | Multi-Channel Signal Encoding and Decoding Method and Apparatus | |
AU2021388397A1 (en) | Audio encoding/decoding method and device | |
WO2022237851A1 (zh) | 一种音频编码、解码方法及装置 | |
US20240112684A1 (en) | Three-dimensional audio signal processing method and apparatus | |
CN115497485B (zh) | 三维音频信号编码方法、装置、编码器和系统 | |
US20240105187A1 (en) | Three-dimensional audio signal processing method and apparatus | |
TWI834163B (zh) | 三維音頻訊號編碼方法、裝置和編碼器 | |
CN115376529B (zh) | 三维音频信号编码方法、装置和编码器 | |
WO2024146408A1 (zh) | 场景音频解码方法及电子设备 | |
KR20240004869A (ko) | 3차원 오디오 신호 인코딩 방법 및 장치, 및 인코더 | |
US20240087578A1 (en) | Three-dimensional audio signal coding method and apparatus, and encoder | |
WO2024212898A1 (zh) | 场景音频信号的编码方法和装置 | |
WO2024212895A1 (zh) | 场景音频信号的解码方法和装置 | |
CN118800253A (zh) | 场景音频信号的解码方法和装置 | |
CN118800255A (zh) | 场景音频信号的解码方法和装置 | |
TW202403728A (zh) | 一種多聲道信號的編解碼方法和編解碼設備以及終端設備 | |
CN118800256A (zh) | 场景音频信号的解码方法和装置 |