TW201830380A - 用於虛擬實境,增強實境及混合實境之音頻位差 - Google Patents
用於虛擬實境,增強實境及混合實境之音頻位差 Download PDFInfo
- Publication number
- TW201830380A TW201830380A TW107101265A TW107101265A TW201830380A TW 201830380 A TW201830380 A TW 201830380A TW 107101265 A TW107101265 A TW 107101265A TW 107101265 A TW107101265 A TW 107101265A TW 201830380 A TW201830380 A TW 201830380A
- Authority
- TW
- Taiwan
- Prior art keywords
- audio
- processing circuit
- decoding device
- foreground
- objects
- Prior art date
Links
- 230000003190 augmentative effect Effects 0.000 title claims description 5
- 238000012545 processing Methods 0.000 claims abstract description 190
- 230000005540 biological transmission Effects 0.000 claims abstract description 162
- 238000000034 method Methods 0.000 claims description 67
- 230000005236 sound signal Effects 0.000 claims description 43
- 238000013519 translation Methods 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 16
- 230000000007 visual effect Effects 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 description 38
- 241000282320 Panthera leo Species 0.000 description 34
- 238000010586 diagram Methods 0.000 description 25
- 230000006870 function Effects 0.000 description 14
- 239000013598 vector Substances 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 13
- 238000003491 array Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 230000033001 locomotion Effects 0.000 description 7
- 239000000463 material Substances 0.000 description 7
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000009877 rendering Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 230000001953 sensory effect Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- VBRBNWWNRIMAII-WYMLVPIESA-N 3-[(e)-5-(4-ethylphenoxy)-3-methylpent-3-enyl]-2,2-dimethyloxirane Chemical compound C1=CC(CC)=CC=C1OC\C=C(/C)CCC1C(C)(C)O1 VBRBNWWNRIMAII-WYMLVPIESA-N 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- AZUYLZMQTIKGSC-UHFFFAOYSA-N 1-[6-[4-(5-chloro-6-methyl-1H-indazol-4-yl)-5-methyl-3-(1-methylindazol-5-yl)pyrazol-1-yl]-2-azaspiro[3.3]heptan-2-yl]prop-2-en-1-one Chemical compound ClC=1C(=C2C=NNC2=CC=1C)C=1C(=NN(C=1C)C1CC2(CN(C2)C(C=C)=O)C1)C=1C=C2C=NN(C2=CC=1)C AZUYLZMQTIKGSC-UHFFFAOYSA-N 0.000 description 2
- AWNXKZVIZARMME-UHFFFAOYSA-N 1-[[5-[2-[(2-chloropyridin-4-yl)amino]pyrimidin-4-yl]-4-(cyclopropylmethyl)pyrimidin-2-yl]amino]-2-methylpropan-2-ol Chemical compound N=1C(NCC(C)(O)C)=NC=C(C=2N=C(NC=3C=C(Cl)N=CC=3)N=CC=2)C=1CC1CC1 AWNXKZVIZARMME-UHFFFAOYSA-N 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- PZASAAIJIFDWSB-CKPDSHCKSA-N 8-[(1S)-1-[8-(trifluoromethyl)-7-[4-(trifluoromethyl)cyclohexyl]oxynaphthalen-2-yl]ethyl]-8-azabicyclo[3.2.1]octane-3-carboxylic acid Chemical compound FC(F)(F)C=1C2=CC([C@@H](N3C4CCC3CC(C4)C(O)=O)C)=CC=C2C=CC=1OC1CCC(C(F)(F)F)CC1 PZASAAIJIFDWSB-CKPDSHCKSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 101100379080 Emericella variicolor andB gene Proteins 0.000 description 1
- 101100001674 Emericella variicolor andI gene Proteins 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 108010074506 Transfer Factor Proteins 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/033—Headphones for stereophonic communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
- H04S7/306—For headphones
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Stereophonic System (AREA)
Abstract
本發明提供一種實例音頻解碼裝置,其包括處理電路及耦接至該處理電路之一記憶體裝置。該處理電路經組態以:在一位元串流中接收一三維(3D)音場之音頻對象的經編碼表示;接收與該位元串流相關聯之後設資料;自該接收之後設資料獲得與該等音頻對象中之一或多者相關聯的一或多個傳輸因數;及將該等傳輸因數應用於該一或多個音頻對象以獲得該3D音場之經位差調整音頻對象。該記憶體裝置經組態以儲存該接收之位元串流的至少一部分、該接收之後設資料或該3D音場之該等經位差調整音頻對象。
Description
本發明係關於音頻資料之編碼及解碼,且更明確而言係關於用於虛擬實境及增強實境環境之音頻資料寫碼技術。
已開發常常經由藉由提供電腦產生之環境的裝置提供至該或該等個人之視覺及聲音效果允許個人感測該電腦產生之環境並與其交互的各種技術。此等電腦產生之環境有時被稱作「虛擬實境」或「VR」環境。舉例而言,使用者可使用一或多個可穿戴式裝置(諸如耳機)來獲得VR體驗。 VR耳機可包括各種輸出組件,諸如提供視覺影像至使用者之顯示螢幕,及輸出聲音之揚聲器。在一些實例中,VR耳機可提供額外感官效果,諸如藉助於運動或振動提供之觸覺感覺。在一些實例中,電腦產生之環境可經由揚聲器或未必由使用者穿戴的其他裝置而是在使用者位於揚聲器之可聽範圍內的情況下提供音頻效果至一或多個使用者。類似地,存在允許使用者看到在使用者前方之真實世界(當透鏡為透明的時)並看到作為「增強實境」或「AR」之形式的圖形覆疊(例如,來自嵌入於頭戴式顯示器(HMD)框架中之投影儀)的HMD。類似地,存在允許使用者體驗作為「混合實境」或「MR」之形式的添加了VR元素的真實世界的系統。 VR、MR及AR系統可併有顯現高階立體混響(HOA)信號之能力,高階立體混響(HOA)信號常常由複數個球諧係數(SHC)或其他階層元素表示。亦即,藉由VR、MR或AR系統顯現的HOA信號可表示三維(3D)音場。HOA或SHC表示可按獨立於用以播放自SHC信號顯現之多頻道音頻信號的局部揚聲器幾何佈置之方式來表示3D音場。 SHC信號亦可促進回溯相容性,此係因為可將SHC信號顯現為熟知且被高度採用之多頻道格式(諸如,5.1音頻頻道格式或7.1音頻頻道格式)。SHC表示因此可實現音場之更好表示,其亦適應回溯相容性。
一般而言,描述音頻解碼裝置及音頻編碼裝置可充分利用來自電腦產生之環境的視頻饋入的視頻資料,以提供與電腦產生之實境體驗相關聯的3D音場之更準確表示所藉以的技術。一般而言,本發明之技術可使得各種系統能夠在HOA域中調整音頻對象以在顯現後產生音頻資料之能量及方向分量的更準確表示。作為一個實例,該等技術可使得能夠顯現3D音場以適應電腦產生之實境系統的六自由度(6-DOR)能力。此外,本發明之技術使得顯現裝置能夠使用HOA域中表示之資料來基於經提供用於電腦產生之實境體驗的視頻饋入之特性改變音頻資料。 舉例而言,根據本文中所描述的技術,電腦產生之實境系統的音頻顯現裝置可針對由可使前景音頻對象衰減之「靜默對象」引起的位差相關變化調整前景音頻對象。作為另一實例,本發明之技術可使得電腦產生之實境系統的音頻顯現裝置能夠判定使用者與特定前景音頻對象之間的相對距離。作為另一實例,本發明之技術可使得音頻顯現裝置能夠應用傳輸因數以顯現3D音場以提供更準確電腦產生之實境體驗至使用者。 在一個實例中,本發明係關於一種音頻解碼裝置。該音頻解碼裝置可包括處理電路及耦接至該處理電路之一記憶體裝置。該處理電路經組態以:在一位元串流中接收一三維(3D)音場之音頻對象的經編碼表示;接收與該位元串流相關聯之後設資料;自該接收之後設資料獲得與該等音頻對象中之一或多者相關聯的一或多個傳輸因數;及將該等傳輸因數應用於該一或多個音頻對象以獲得該3D音場之經位差調整音頻對象。該記憶體裝置經組態以儲存該接收之位元串流的至少一部分、該接收之後設資料或該3D音場之該等經位差調整音頻對象。 在另一實例中,本發明係關於一種方法,其包括在位元串流中接收三維(3D)音場之音頻對象之經編碼表示,及接收與位元串流相關聯之後設資料。該方法可進一步包括自接收之後設資料獲得與該等音頻對象中之一或多者相關聯的一或多個傳輸因數,及將該等傳輸因數應用於該一或多個音頻對象以獲得3D音場之經位差調整音頻對象。 在另一實例中,本發明係關於一種音頻解碼設備。該音頻解碼設備可包括用於在位元串流中接收三維(3D)音場之音頻對象之經編碼表示的構件,及用於接收與位元串流相關聯之後設資料的構件。該音頻解碼設備可進一步包括用於自接收之後設資料獲得與該等音頻對象中之一或多者相關聯之一或多個傳輸因數的構件,及用於應用傳輸因數至一或多個音頻對象以獲得3D音場之經位差調整音頻對象的構件。 在另一實例中,本發明係針對一種編碼有指令之非暫時性電腦可讀儲存媒體。該等指令當執行時引起音頻解碼裝置之處理電路在位元串流中接收三維(3D)音場之音頻對象的經編碼表示,並接收與位元串流相關聯的後設資料。該等指令當執行時進一步引起音頻解碼裝置之處理電路自接收之後設資料獲得與該等音頻對象中之一或多者相關聯的一或多個傳輸因數,並將該等傳輸因數應用於一或多個音頻對象以獲得3D音場之經位差調整音頻對象。 在隨附圖式及以下描述中闡述該等技術之一或多個態樣的細節。此等技術之其他特徵、目標及優點將自該描述及該等圖式以及申請專利範圍而顯而易見。
相關申請案
本申請案主張2017年1月13日申請的美國臨時申請案第62/446,324號之權利,該申請案之全部內容以引用的方式併入本文中。 在一些態樣中,本發明描述音頻解碼裝置及音頻編碼裝置可充分利用來自VR、MR或AR視頻饋入之視頻資料以提供與VR/MR/AR體驗相關聯的3D音場之更準確表示所藉以的技術。舉例而言,本發明之技術可使得各種系統能夠在HOA域中調整音頻對象以在顯現後產生音頻資料之能量及方向分量的更準確表示。作為一個實例,技術可使得能夠顯現3D音場以適應VR系統之六自由度(6-DOR)能力。 此外,本發明之技術使得顯現裝置能夠使用HOA域資料來基於經提供用於VR體驗的視頻饋入之特性改變音頻資料。舉例而言,根據本文中所描述之技術,VR系統之音頻顯現裝置可針對由可使前景音頻對象衰減的「靜默對象」引起的位差相關變化調整前景音頻對象。作為另一實例,本發明之技術可使得VR系統之音頻顯現裝置能夠判定使用者與特定前景音頻對象之間的相對距離。 環繞聲技術可特別地適合於併入至VR系統中。舉例而言,藉由環繞聲技術提供的浸入式音頻體驗補充由VR系統之其他態樣提供的浸入式視頻及感官體驗。此外,運用如由立體混響技術所提供之方向特性增強音頻對象之能量提供VR環境之更真實的模擬。舉例而言,視覺對象之真實置放以及經由環繞聲揚聲器陣列的音頻對象之對應置放的組合可更準確模擬正被複製之環境。 在市場中存在各種基於「環繞聲」頻道之格式。舉例而言,其範圍自5.1家庭影院系統(其在使起居室享有立體聲方面已獲得最大成功)至由日本廣播協會或日本廣播公司(NHK)開發之22.2系統。內容創建者(例如,好萊塢工作室)將希望一次性產生影片之音軌,而不花費精力來針對每一揚聲器組態對其進行重混。運動圖像專家組(MPEG)已發佈一標準,該標準允許音場使用元素(例如,高階立體混響HOA係數)之階層集合來表示,對於大多數揚聲器組態(包括無論在由各種標準定義之位置中或在不均勻位置中的5.1及22.2組態),該等元素之集合可顯現至揚聲器饋入。 MPEG發佈如MPEG-H 3D音頻標準(由ISO/IEC JTC 1/SC 29闡述,具有文件識別符ISO/IEC DIS 23008-3,正式地名為「Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」,且日期為2014年7月25日)之標準。MPEG亦發佈3D音頻標準之第二版本,由ISO/IEC JTC 1/SC 29闡述,具有文件識別符ISO/IEC 23008-3:201x(E),名為「Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」,且日期為2016年10月12日。在本發明中對「3D音頻標準」之參考可指上述標準中之一者或兩者。 如上文所提及,元素之階層集合的一個實例為球諧係數(SHC)之集合。以下表達式表明使用SHC對音場之描述或表示:, 表達式展示在時間t
處,音場之任一點處的壓力可由SHC,唯一地表示。此處,,c
為聲音之速度(~343 m/s),為參考點(或觀測點),為n
階之球貝塞爾函數,且為n
階及m
子階之球諧基底函數(其亦可被稱作球基底函數)。可認識到,方括弧中之項為信號之頻域表示(亦即,),其可藉由各種時間-頻率變換(諸如,離散傅立葉變換(DFT)、離散餘弦變換(DCT)或小波變換)來近似。階層集合之其他實例包括數個小波變換係數集合及其他數個多解析度基底函數係數集合。 圖1為說明自零階(n = 0)至四階(n = 4)之球諧基底函數的圖。如可見,對於每一階而言,存在m
子階之擴展,出於易於說明之目的,在圖1之實例中展示了該等子階但未顯式地註釋。 可由各種麥克風陣列組態實體地獲取(例如,記錄) SHC,或替代地,其可自音場之基於頻道或基於對象之描述導出。 SHC(其亦可被稱為高階立體混響HOA係數)表示基於場景之音頻,其中SHC可輸入至音頻編碼器以獲得可促進更高效傳輸或儲存的經編碼SHC。舉例而言,可使用涉及(1+4)2
個(25,且因此為四階)係數之四階表示。 如上文所提及,可使用麥克風陣列自麥克風記錄導出SHC。可如何自麥克風陣列導出SHC之各種實例描述於Poletti,M之「Three-Dimensional Surround Sound Systems Based on Spherical Harmonics」(J. Audio Eng. Soc., 第53卷, 第11期, 2005年11月,第1004-1025頁)中。 為了說明可如何自基於對象之描述導出SHC,考慮以下等式。可將對應於個別音頻對象之音場之係數表達為:, 其中i為,為n階之球面漢克(Hankel)函數(第二種類),且為對象之位置。知曉隨頻率變化之對象源能量(例如,使用時間-頻率分析技術,諸如,對PCM串流執行快速傅立葉變換)允許吾人將每一PCM對象及對應位置轉換成SHC。另外,可展示(由於上式為線性及正交分解):每一對象之係數為相加性的。以此方式,若干PCM對象可由係數(例如,作為個別對象之係數向量的總和)來表示。基本上,該等係數含有關於音場(作為3D座標之函數的壓力)之資訊,且上式表示在觀測點附近自個別對象至總音場之表示的變換。下文在基於SHC之音頻寫碼的內容脈絡中描述剩餘圖。 圖2A為說明可執行本發明中所描述之技術之各種態樣的系統10A的圖。如圖2A之實例中所展示,系統10A包括內容創建者裝置12及內容消費者裝置14。雖然在內容創建者裝置12及內容消費者裝置14之內容脈絡中加以描述,但可在音場之SHC(其亦可被稱作HOA係數)或任何其他階層表示經編碼以形成表示音頻資料之位元串流的任何內容脈絡中實施該等技術。此外,內容創建者裝置12可表示能夠實施本發明中所描述之技術的任何形式之計算裝置,包括手機(或蜂巢式電話)、平板電腦、智慧型手機或桌上型電腦(提供幾個實例)。同樣地,內容消費者裝置14可表示能夠實施本發明中所描述之技術的任何形式之計算裝置,包括手機(或蜂巢式電話)、平板電腦、智慧型手機、機上盒或桌上型電腦(提供幾個實例)。 內容創建者裝置12可藉由電影工作室、遊戲程式設計師、VR系統之製造商或可產生多頻道音頻內容以供內容消費者裝置之操作者消費的任何其他實體(諸如內容消費者裝置14)操作。在一些實例中,內容創建者裝置12可由將希望壓縮HOA係數11之個別使用者操作。常常,內容創建者裝置12產生音頻內容以及視頻內容及/或可經由觸覺或觸覺輸出表達的內容。舉例而言,內容創建者裝置12可包括產生VR、MR或AR環境資料之系統,可為該系統或為該系統之部分。內容消費者裝置14可由個體來操作。內容消費者裝置14可包括音頻播放系統16,其可指能夠顯現供作為多頻道音頻內容播放的SHC的任何形式之音頻播放系統。 舉例而言,內容消費者裝置14可包括提供VR、MR或AR環境或體驗至使用者的系統,可為該系統或可為該系統之部分。因而,內容消費者裝置14亦可包括用於視頻資料之輸出、用於觸覺或觸感通信之輸出及輸入等的組件。為易於僅說明目的,圖2A中使用各種音頻相關組件說明內容創建者裝置12及內容消費者裝置14,但應瞭解根據VR及AR技術,一個或兩個裝置亦可包括經組態以處理非音頻資料(例如其他感官資料)的額外組件。 內容創建者裝置12包括音頻編輯系統18。內容創建者裝置12獲得呈各種格式之實時記錄7(包括直接作為HOA係數)及音頻對象9,內容創建者裝置12可使用音頻編輯系統18對實時記錄7及音頻對象9進行編輯。兩個或大於兩個麥克風或麥克風陣列(下文中,「麥克風5」)可捕捉實時記錄7。內容創建者裝置12可在編輯程序期間顯現來自音頻對象9之HOA係數11,收聽經顯現之揚聲器饋入以試圖識別需要進一步編輯之音場之各種態樣。內容創建者裝置12可接著編輯HOA係數11 (可能經由操縱可供以上文所描述之方式導出源HOA係數的音頻對象9中之不同者間接地編輯)。內容創建者裝置12可採用音頻編輯系統18產生HOA係數11。音頻編輯系統18表示能夠編輯音頻資料且輸出該音頻資料作為一或多個源球諧係數之任何系統。 當編輯處理程序完成時,內容創建者裝置12可基於HOA係數11產生位元串流21。亦即,內容創建者裝置12包括音頻編碼裝置20,該音頻編碼裝置20表示經組態以根據本發明中所描述之技術之各種態樣編碼或以其他方式壓縮HOA係數11以產生位元串流21的裝置。音頻編碼裝置20可產生位元串流21以供傳輸,作為一實例,跨越傳輸頻道(其可為有線或無線頻道、資料儲存裝置或其類似者)。位元串流21可表示HOA係數11之經編碼版本,且可包括主要位元串流及另一旁側位元串流(其可稱作旁側頻道資訊)。如圖2A中所示,音頻編碼裝置20亦可在傳輸頻道上傳輸後設資料23。在各種實例中,音頻編碼裝置20可產生包括關於經由位元串流21傳輸的音頻對象之位差調整資訊的後設資料23。儘管後設資料23說明為與位元串流21分開,但在一些實例中位元串流21可包括後設資料23。 根據本發明之技術,音頻編碼裝置20可在後設資料23中包括方向向量資訊、靜默對象資訊及HOA係數11之傳輸因數中的一或多者。舉例而言,音頻編碼裝置20可包括傳輸因數,該等傳輸因數當應用時使經由位元串流21傳輸的HOA係數11中之一或多者的能量衰減。根據本發明之各種態樣,音頻編碼裝置20可使用對應於由HOA係數11之特定係數表示的音頻訊框之視頻訊框中的對象位置導出傳輸因數。舉例而言,音頻編碼裝置20可判定視頻資料中表示的靜默對象,該靜默對象具有在現實生活情境中將干擾由HOA係數11表示的某些前景音頻對象之音量的位置。接著,音頻編碼裝置20可產生傳輸因數,該等傳輸因數當由音頻解碼裝置24應用時將使HOA係數11之能量衰減以更準確模擬將由對應視頻場景中之聽者聽到3D音場的方式。 根據本發明之技術,音頻編碼裝置20可將如由HOA係數11表達之音頻對象9分類成前景對象及背景對象。舉例而言,音頻編碼裝置20可實施本發明之態樣以基於對象係在視頻資料中表示但不對應於預識別之音頻對象的判定而識別靜音對象或靜默對象。儘管關於執行視頻分析之音頻編碼裝置20來描述,但視頻編碼裝置(未展示)或專用視覺分析裝置或單元可執行靜默對象之分類,出於產生後設資料23之目的提供分類及傳輸因數至音頻編碼裝置20。 在所捕捉視頻及音頻之內容脈絡中,音頻編碼裝置20可在一對象並不裝備有感測器的情況下判定該對象不對應於預識別之音頻對象。如本文所使用,術語「裝備有感測器」可包括感測器附接(永久地或可拆離地)至音頻源,或置放於(但並不附接至)音頻源之耳聽區內的情形。若感測器不附接至音頻源但定位於耳聽區內,則在適用情形中,在感測器之耳聽區內的多個音頻源被認為「裝備」有感測器。在合成VR環境中,音頻編碼裝置20可實施本發明之技術以在一對象不映射至預先判定清單中之任一音頻對象的情況下判定該所討論之對象不對應於預識別之音頻對象。在組合記錄合成之VR或AR環境中,音頻編碼裝置20可實施本發明之技術以使用上文所描述的技術中之一者或兩者判定對象不對應於預識別之音頻對象。 此外,音頻編碼裝置20可判定反映聽者之位置與由位元串流21中之HOA係數11表示的前景音頻對象之各別位置之間的關係的相對前景位置資訊。舉例而言,音頻編碼裝置20可判定用於VR體驗的視頻捕捉或視頻合成之「第一個人」態樣之間的關係,且可判定「第一人」之位置與對應於3D音場之每一各別前景音頻對象的各別對象之間的關係。 在一些實例中,音頻編碼裝置20亦可使用相對前景位置資訊以判定聽者位置與使前景對象之能量衰減的靜默對象之間的相對位置資訊。舉例而言,音頻編碼裝置20可將縮放因數應用於相對前景位置資訊,以導出聽者位置與使前景音頻對象之能量衰減的靜默對象之間的距離。縮放因數值可在零至一的範圍內,其中零值指示靜默對象與聽者位置共置或實質上共置,且其中值一指示靜默對象與前景音頻對象共置或實質上共置。 在一些情況下,音頻編碼裝置20可發信相對前景位置資訊及/或聽者位置至靜默對象距離資訊至音頻編碼裝置24。在其他實例中,音頻編碼裝置20可發信聽者位置資訊及前景音頻對象位置資訊至音頻解碼裝置24,藉此使得音頻解碼裝置24能夠導出相對前景位置資訊及/或自聽者位置至使前景音頻對象之能量/方向資料衰減的靜默對象的距離。雖然後設資料23及位元串流21在圖2A中說明為由音頻編碼裝置20獨立地發信(作為實例),但應瞭解在一些實例中,位元串流21可包括後設資料23之部分或全部。音頻編碼裝置20或音頻解碼裝置24中之一者或兩者可符合3D音頻標準,諸如「資訊技術-異質環境中之高效率寫碼及媒體遞送」(ISO/IEC JTC 1/SC 29)或簡稱為「MPEG-H」標準。 雖然在圖2A中經展示為直接傳輸至內容消費者裝置14,但內容創建者裝置12可將位元串流21輸出至定位於內容創建者裝置12與內容消費者裝置14之間的中間裝置。該中間裝置可儲存位元串流21以供稍後遞送至可能請求位元串流之內容消費者裝置14。中間裝置可包含檔案伺服器、網頁伺服器、桌上型電腦、膝上型電腦、平板電腦、行動電話、智慧型手機,或能夠儲存位元串流21以供音頻解碼器稍後擷取之任何其他裝置。中間裝置可駐留於能夠將位元串流21(且可能結合傳輸對應視頻資料位元串流)串流傳輸至請求位元串流21之訂戶(諸如,內容消費者裝置14)的內容遞送網路中。 替代地,內容創建者裝置12可將位元串流21儲存至儲存媒體,諸如緊密光碟、數位影音光碟、高清晰度視頻光碟或其他儲存媒體,其中之大部分能夠由電腦讀取且因此可被稱作電腦可讀儲存媒體或非暫時性電腦可讀儲存媒體。在此內容脈絡中,傳輸頻道可指藉以傳輸儲存至該等媒體之內容的頻道(且可包括零售商店及其他基於商店之遞送機構)。在任何情況下,本發明之技術因此就此而言不應限於圖2A之實例。 如圖2A之實例中進一步展示,內容消費者裝置14包括音頻播放系統16。音頻播放系統16可表示能夠播放多頻道音頻資料之任何音頻播放系統。音頻播放系統16可包括若干不同顯現器22。顯現器22可各自提供不同形式之顯現,其中不同形式之顯現可包括執行基於向量之振幅水平移動(VBAP)之各種方式中的一或多者及/或執行音場合成之各種方式中的一或多者。如本文所使用,「A及/或B」意謂「A或B」,或「A及B」兩者。 音頻播放系統16可進一步包括音頻解碼裝置24。音頻解碼裝置24可表示經組態以對來自位元串流21之HOA係數11'進行解碼之裝置,其中HOA係數11'可類似於HOA係數11,但歸因於經由傳輸頻道之有損操作(例如,量化)及/或傳輸而與之不同。音頻播放系統16可隨後解碼位元串流21以獲得HOA係數11',且顯現HOA係數11'以輸出擴音器饋入25。擴音器饋入25可驅動一或多個擴音器(為易於說明之目的,其未在圖2A之實例中展示)。 雖然關於擴音器饋入25描述,但音頻播放系統16可自擴音器饋入25或直接自HOA係數11'顯現頭戴式耳機饋入,從而輸出頭戴式耳機饋入至頭戴式耳機揚聲器。頭戴式耳機饋入可表示雙聲音頻揚聲器饋入,音頻播放系統16使用雙聲音頻顯現器顯現雙聲音頻揚聲器饋入。 為了選擇適當顯現器或在一些情況下產生適當顯現器,音頻播放系統16可獲得指示擴音器之數目及/或揚聲器之空間幾何佈置的擴音器資訊13。在一些情況下,音頻播放系統16可使用參考麥克風且以使得動態地判定擴音器資訊13之方式驅動揚聲器而獲得擴音器資訊13。在其他情況下或結合擴音器資訊13之動態判定,音頻播放系統16可提示使用者與音頻播放系統16介接且輸入擴音器資訊13。 音頻播放系統16接著可基於擴音器資訊13選擇音頻顯現器22中之一者。在一些情況下,當音頻顯現器22中無一者在與擴音器資訊13中所指定之揚聲器幾何佈置處於某一臨限相似度量測(按照擴音器幾何佈置)內時,音頻播放系統16可基於擴音器資訊13產生音頻顯現器22中的一者。在一些情況下,音頻播放系統16可基於擴音器資訊13產生音頻顯現器22中之一者,而不會首先試圖選擇音頻顯現器22中之現有的一者。一或多個揚聲器3可接著播放顯現之擴音器饋入25。 音頻解碼裝置24可實施本發明之各種技術以對於經由位元串流21接收的音頻對象之經編碼表示執行基於位差之調整。舉例而言,音頻解碼裝置24可將包括於後設資料23中之傳輸因數應用於經輸送為位元串流21中之經編碼表示的一或多個音頻對象。在各種實例中,音頻解碼裝置24可使能量衰減及/或基於傳輸因數調整關於前景音頻對象的方向資訊。在一些實例中,音頻解碼裝置24亦可使用後設資料23以獲得靜音對象位置資訊及/或使收聽者之位置與前景音頻對象之各別位置相關的相對前景位置資訊。藉由使前景音頻對象之能量衰減及/或使用傳輸因數調整前景音頻對象之方向資訊,音頻解碼裝置24可使得內容消費者裝置14能夠在揚聲器3上顯現音頻資料,其提供更真實聽覺體驗作為亦提供視頻資料及亦視情況其他感官資料的VR體驗之部分。 在一些實例中,音頻解碼裝置24可使用包括於後設資料23中之資訊在本端導出相對前景位置資訊。舉例而言,音頻解碼裝置24可接收後設資料23中之聽者位置資訊及前景音頻對象位置。接著,音頻解碼裝置24可諸如藉由計算聽者位置與前景音頻位置之間的移位而導出相對前景位置資訊。 舉例而言,音頻解碼裝置24可使用座標系統以藉由使用聽者位置及前景音頻位置之座標作為距離計算函數中之運算元來計算相對前景位置資訊。在一些實例中,音頻解碼裝置24亦可接收適用於相對前景位置資訊之縮放因數作為後設資料23之部分。在一些此類實例中,音頻解碼裝置24可將縮放因數應用於相對前景位置資訊以計算聽者位置與使能量衰減或改變一或多個前景音頻對象之方向資訊的靜音對象之間的距離。雖然後設資料23及位元串流21在圖2A中說明為在音頻解碼裝置24處獨立地接收(作為實例),但應瞭解在一些實例中,位元串流21可包括後設資料23之部分或全部。 除包括麥克風5之汽車460以外,圖2B中展示之系統10B類似於圖2A中展示之系統10A。因而,可在汽車之內容脈絡中執行本發明中闡述的技術中之一些。 除包括麥克風5的遠端地引導及/或自主控制之飛行裝置462以外,圖2C中展示之系統10C類似於圖2A中展示之系統10A。舉例而言,飛行裝置462可表示四軸飛行器、直升機或任何其他類型之無人駕駛飛機。因而,可在無人駕駛飛機之內容脈絡中執行本發明中闡述之技術。 除包括麥克風5之機器人裝置464以外,圖2D中展示之系統10D類似於圖2A中展示之系統10A。舉例而言,機器人裝置464可表示使用人工智慧操作的裝置或其他類型之機器人。在一些實例中,機器人裝置464可表示飛行裝置,諸如無人駕駛飛機。在其他實例中,機器人裝置464可表示其他類型之裝置,包括不必飛行之彼等裝置。因而,可在機器人之內容脈絡中執行本發明中闡述之技術。 圖3為說明用於AVR及/或AR應用之六自由度(6-DOF)頭部運動方案的圖。本發明之態樣處理在聽者接收3D音頻內容之情形下及在聽者在圖3中所說明之6-DOF約束內移動情況下的3D音頻內容之顯現。在各種實例中,聽者可諸如在3D音頻內容已經記錄及/或傳輸至藉由聽者穿戴的VR耳機或AR HDM之情形下藉助於裝置接收3D音頻內容。在圖3之實例中,聽者可根據旋轉(例如由俯仰軸、橫偏軸及橫搖軸表達)移動他的/她的頭。圖2A中所說明的音頻解碼裝置24可實施習知HOA顯現以處理沿著俯仰軸、橫偏軸及橫搖軸之頭部旋轉。 然而,如圖3中所示,6-DOF方案包括三條額外運動線。更特定言之,除了上文所論述之旋轉軸之外,圖3之6-DOF方案亦包括使用者之頭部位置可平移移動或致動所沿著的三條線。三個平移方向為左-右(L/R)、上-下(U/D),及前-後(F/B)。音頻編碼裝置20及/或音頻解碼裝置24可使用本發明之各種技術以實施位差處置,以處理三個平移方向。舉例而言,音頻解碼裝置24可應用一或多個傳輸因數以調整各種前景音頻對象之能量及/或方向資訊以基於VR/AR使用者之運動的6-DOF範圍實施位差調整。 圖4A至圖4D為說明可在VR場景30中呈現的位差問題之實例的圖。在圖4A之VR場景30A的實例中,聽者之虛擬位置根據在位置A、B及C處捕捉或關於位置A、B及C合成的第一個人帳戶移動。在虛擬位置A、B及C中之每一者處,聽者可聽到與自在圖4A之右側描繪的獅發出之聲音相關聯的前景音頻對象。另外,在虛擬位置A、B及C中之每一者處,聽者可聽到與自圖4A之中間描繪之奔跑個人發出的聲音相關聯之前景音頻對象。此外,在對應現實生活情形中,在虛擬位置A、B及C中之每一者,聽者可歸因於不同方向資訊及不同遮擋或遮蔽特性聽到不同音場。 在圖4A之左側行中說明在虛擬位置A、B及C中之每一者處的不同遮擋/遮蔽特性。在虛擬位置A處,獅正在奔跑個人後方及左側吼叫(例如產生前景音頻對象)。音頻編碼裝置20可歸因於自奔跑個人之位置發出的前景音頻對象(例如叫喊)對自獅之位置發出的前景音頻對象(例如吼叫)之干擾而執行波束成形以編碼在虛擬位置A處體驗的3D音場之態樣。 在虛擬位置B處,獅在奔跑個人正後方吼叫。亦即,與獅吼叫相關的前景音頻對象藉由奔跑個人所引起的遮擋以及藉由奔跑個人之叫喊所引起的遮蔽而在某一程度上被遮蔽。音頻編碼裝置20可基於聽者(在虛擬位置B處)與獅之相對位置,以及奔跑個人與聽者(在虛擬位置B處)之間的距離執行遮蔽。 舉例而言,奔跑個人與獅愈靠近,音頻編碼裝置20可應用於獅吼叫之前景音頻對象的遮蔽愈小。奔跑個人與聽者定位所在之虛擬位置B愈靠近,音頻編碼裝置20可應用於獅吼叫之前景音頻對象的遮蔽愈大。音頻編碼裝置20可停止遮蔽以允許關於獅吼叫之前景音頻對象的一些預先判定之最小能量。亦即,本發明之技術使得音頻編碼裝置20能夠指派至少一最小能量至獅吼叫之前景音頻對象(而不管奔跑個人與虛擬位置B如何靠近),以適應將在虛擬位置B處聽到的某一層級之獅吼叫。 圖4B說明自各別源至虛擬位置A之前景音頻對象的路徑。圖4B之虛擬場景30B說明在虛擬位置A處聽者聽到來自奔跑個人後方及左側的獅吼叫。 圖4C說明自各別源至虛擬位置C之前景音頻對象路徑。圖4C之虛擬場景30C說明在虛擬位置C處聽者聽到來自奔跑個人後方及右側的獅吼叫。 圖4D說明自各別源至虛擬位置B之前景音頻對象的路徑。圖4D之虛擬場景30D說明在虛擬位置B處聽者聽到來自奔跑個人正後方的獅吼叫。在圖4D中所說明的虛擬場景30D之情況下,音頻編碼裝置20可基於共線的聽者之虛擬位置、奔跑個人之位置及獅之位置的全部三者實施遮蔽。舉例而言,音頻編碼裝置可基於三個說明對象之每兩者之間的各別距離調整奔跑個人之叫喊以及獅吼叫的響度。舉例而言,獅吼叫可藉由奔跑個人喊叫的聲音以及藉由奔跑個人身體之遮擋或實體阻擋而遮蔽。音頻編碼裝置20可基於上文所論述之準則形成各種傳輸因數,且可在後設資料23內發信傳輸因數至音頻解碼裝置24。 接著,音頻解碼裝置24可在顯現與獅吼叫相關聯之前景音頻對象時應用傳輸因數,以基於由奔跑個人所引起的音頻遮蔽及實體遮擋使獅吼叫之響度衰減。另外,為考慮遮擋,音頻解碼裝置24可調整獅吼叫之前景音頻對象的方向資料。舉例而言,音頻解碼裝置24可調整獅吼叫之前景音頻對象以模擬在其中自在奔跑個人的身體之位置上方及其周圍以衰減響度聽到獅吼叫的虛擬位置B處之體驗。 圖5A及圖5B為說明可在VR場景40中呈現的位差問題之另一實例的圖。在圖5A之VR場景40A的實例中,獅吼叫之前景音頻對象係在一些虛擬位置處,另外由牆壁之存在而遮擋。在圖5A之實例中,牆壁之尺寸(例如寬度)防止牆壁在虛擬位置A處遮擋獅吼叫的前景音頻對象。然而,牆壁之尺寸引起在虛擬位置B處遮擋獅吼叫的前景音頻對象。在圖5A之左側圖中,為了說明某一最小能量經指派給獅吼叫之前景音頻對象,以獅之最小顯示說明虛擬位置B處的3D音場效果,此係因為獅吼叫之某一音量歸因於聲波在牆壁上方及(在一些狀況下)圍繞牆壁行進而可在虛擬位置B處聽到。 在本發明之技術之內容脈絡中,牆壁表示「靜默對象」。因而,牆壁之存在並不由麥克風5所捕捉之音頻對象直接指示。實際上,音頻編碼裝置20可藉由充分利用由內容創建者裝置12(或耦接至其)之一或多個攝影機捕捉的視頻資料推斷牆壁所引起的遮擋之位置。舉例而言,音頻編碼裝置20可平移牆壁之視頻場景位置至音頻位置資料,以使用HOA係數表示靜默對象(「SO」)。使用以此方式導出的SO之位置資訊,音頻編碼裝置可形成關於虛擬位置B的關於獅吼叫的前景音頻對象之傳輸因數。 此外,基於奔跑個人與虛擬位置B及SO之相對定位,音頻編碼裝置20可並不形成關於奔跑個人之喊叫之前景音頻對象的傳輸因數。如所示,SO不以此遮擋關於虛擬位置B的奔跑個人之前景音頻對象的方式而定位。音頻編碼裝置20可在後設資料23中發信傳輸因數(關於獅吼叫之前景音頻對象)至音頻解碼裝置24。 接著,音頻解碼裝置24可應用在後設資料23中接收之傳輸因數至與獅吼叫相關聯的關於虛擬位置B處之「甜點」位置之前景音頻對象。藉由應用傳輸因數至虛擬位置B處之獅吼叫的前景音頻對象,音頻解碼裝置24可使經指派給獅吼叫之前景音頻對象的能量衰減,藉此模擬SO之存在所引起的遮擋。以此方式,音頻解碼裝置24可實施應用傳輸因數以顯現3D音場的本發明之技術以向內容消費者裝置14之使用者提供更準確VR體驗。 圖5B說明具有額外細節之虛擬場景40B,其包括關於關於圖5A之虛擬場景40A論述的各種特徵。舉例而言,圖5B之虛擬場景40B包括背景音頻對象之源。在圖5B中所說明之實例中,音頻編碼裝置20可將音頻對象分類成SO、前景(FG)音頻對象及背景(BG)音頻對象。舉例而言,音頻編碼裝置20可將SO識別為在視頻場景中表示但不與任一預識別音頻對象相關聯的對象。 音頻編碼裝置20可將FG對象識別為由音頻訊框中之音頻對象表示且亦與預識別音頻對象相關聯的音頻對象。音頻編碼裝置20可將BG對象識別為由音頻訊框中之音頻對象表示但不與任一預識別音頻對象相關聯的音頻對象。如本文所使用,若音頻對象係與裝備有感測器之對象相關聯(在捕捉音頻/視頻之情況下)或映射至預先判定清單中之對象(例如,在合成音頻/視頻之情況下),則音頻對象可與預識別音頻對象相關聯。 BG音頻對象可基於聽者在虛擬位置A至C之間的移動而不改變或平移。如上文所論述,SO可不產生其自身之音頻對象,但由音頻編碼裝置20使用以判定用於使FG對象衰減之傳輸因數。因而,音頻編碼裝置20可在位元串流21中獨立地表示FG及BG對象。如上文所論述,音頻編碼裝置20可表示自後設資料23中之SO導出的傳輸因數。 圖6A至圖6D為說明本發明之各種編碼器側技術的流程圖。圖6A說明音頻編碼裝置20可在其中音頻編碼裝置20處理實時記錄,且其中音頻編碼裝置20執行壓縮及傳輸功能的例子中執行的編碼程序50A。在程序50A之實例中,音頻編碼裝置可處理經由麥克風5捕捉之音頻資料,且亦可充分利用自經由一或多個攝影機捕捉的視頻資料中提取之資料。接著,音頻編碼裝置20可將由HOA係數11表示的音頻對象分類成FG對象、BG對象及SO。接著,音頻編碼裝置20可壓縮音頻對象(例如,藉由自HOA係數11中移除冗餘),並傳輸表示FG對象及BG對象之位元串流21。音頻編碼裝置20亦可傳輸表示音頻編碼裝置使用SO導出之傳輸因數的後設資料23。 如圖6A之圖例52中所示,音頻編碼裝置可傳輸以下資料::第i
個FG音頻信號(個人及獅),其中i
=1, …,I : 第i
個方向向量(來自距離、方位角、仰角):第j
個BG音頻信號(來自safari之環境聲音),其中j
=1, …,J :第k
個SO之位置,其中k
=1, …,K
在各種實例中,音頻編碼裝置20可在後設資料23中傳輸V
向量計算(與其參數/引數一起)及Sk
值中之一或多者。音頻編碼裝置可在位元串流21中傳輸Fi
及Bj
之值。 圖6B為說明音頻編碼裝置20可執行之編碼程序50B的流程圖。如在圖6A之程序50A的情況下,程序50B表示其中音頻編碼裝置20使用來自麥克風5及一或多個攝影機之實時捕捉資料編碼位元串流21及後設資料23的程序。與圖6A之程序50A對比,程序50B表示其中音頻編碼裝置20在傳輸位元串流21及後設資料23之前不執行壓縮操作的程序。替代地,程序50B亦可表示其中音頻編碼裝置不執行傳輸而實際上傳達位元串流21及後設資料23至亦包括音頻編碼裝置20的整合VR裝置內之解碼組件的實例。 圖6C為說明音頻編碼裝置20可執行之編碼程序50C的流程圖。與圖6A及圖6B之程序50A及50B對比,程序50c表示其中音頻編碼裝置20使用合成音頻及視頻資料而非實時捕捉資料的程序。 圖6D為說明音頻編碼裝置20可執行之編碼程序50C的流程圖。程序50D表示其中音頻編碼裝置20使用實時捕捉及合成音頻及視頻資料的組合的程序。 圖7為說明根據本發明態樣之音頻解碼裝置24可執行的解碼程序70之流程圖。音頻解碼裝置24可自音頻編碼裝置20接收位元串流21及後設資料23。在各種實例中,音頻解碼裝置24可經由傳輸,或若音頻編碼裝置20包括於亦包括音頻解碼裝置24之整合VR裝置內則經由內部通信,接收位元串流21及後設資料23。音頻解碼裝置24可解碼位元串流21及後設資料23以重構以下資料,上文關於圖6A至圖6D之圖例52描述以下資料:接著,音頻解碼裝置24可組合指示使用者位置估計之資料與FG對象位置及方向向量計算、FG對象衰減(經由傳輸因數之應用)及BG對象平移計算。在圖7中,公式使用後設資料23中接收之傳輸因數表示第i
個FG對象之衰減。接著,音頻解碼裝置24可藉由求解以下等式顯現3D音場之音頻場景:如所示,音頻解碼裝置24可計算關於FG對象之一個和,及關於BG對象之第二和。關於FG對象求和,音頻解碼裝置24可應用第i
個對象之傳輸因數ρ至第i
個對象之FG音頻信號與第i
對象之方向向量計算的乘積。接著,音頻解碼裝置24可執行一系列值i
的所得乘積值之求和。 關於BG對象,音頻解碼裝置24可計算第j
個BG音頻信號及第j
個BG音頻信號之對應平移因數的乘積。接著,音頻解碼裝置24可對FG對象相關求和值及BG對象相關求和值進行相加以計算H,以用於顯現3D音場。 圖8為說明根據本發明之態樣的音頻編碼裝置20可實施以分類SO、FG對象及BG對象的對象分類機制之圖。圖8之特定實例係關於其中使用麥克風5及各種攝影機實時擷取的視頻資料及音頻資料的實例。若對象滿足兩個條件(亦即,(i)對象僅出現視頻場景(亦即,不在對應音頻場景中表示),及(ii)無感測器附接至對象),則音頻編碼裝置20可將對象分類為SO。在圖8中所說明之實例中,牆壁為SO。在圖8之實例中,若對象滿足兩個條件(亦即,(i)對象出現在音頻場景中,及(ii)感測器附接至對象),則音頻編碼裝置20可將對象分類為FG對象。在圖8之實例中,若對象滿足兩個條件(亦即,(i)對象出現在音頻場景中,及(ii)無感測器附接至對象),則音頻編碼裝置20可將對象分類為FG對象。 此外,圖8之特定實例係關於其中使用關於感測器是否附接至對象之資訊識別SO、FG對象及BG對象的情形。亦即,圖8可為在實時捕捉用於VR/MR/AR體驗之視頻資料及音頻資料之情況下音頻編碼裝置20可使用的對象分類技術之實例。在其他實例中,諸如若視頻及/或音頻資料係合成的,則如在VR/MR/AR體驗之一些態樣中,音頻編碼裝置20可基於音頻對象是否映射至清單中之預識別音頻對象而分類SO、FG對象及BG對象。 圖9A為說明根據本發明之態樣的來自多個麥克風及攝影機之音頻/視頻捕捉資料之拼接的實例之圖。 圖9B為說明根據本發明之態樣的包括運用拼接及內插的位差調整之編碼器及解碼器側操作的程序90之流程圖。程序90通常可對應於圖6A之關於音頻編碼裝置20之操作的程序50A與圖7之關於音頻解碼裝置24之操作的程序70的組合。然而,如圖9B中所示,程序90包括來自多個位置(諸如位置L1及L2)之資料。此外,音頻編碼裝置20執行拼接以及聯合壓縮及傳輸,且音頻解碼裝置24執行在聽者或使用者位置處的多個音頻/視頻場景之內插。舉例而言,為執行內插,音頻解碼裝置24可使用點雲。在各種實例中,音頻解碼裝置24可使用點雲以在多個候選聽者位置之間內插聽者位置。舉例而言,音頻解碼裝置24可在位元串流21中接收各種聽者位置候選項。 圖9C為說明在多個位置處FG對象及BG對象之捕捉的圖。 圖9D說明根據本發明之態樣的音頻解碼裝置24可執行的內插技術之數學表達。音頻解碼裝置24可將圖9D之內插操作執行為藉由音頻編碼裝置20執行的拼接操作之互逆操作。舉例而言,為執行本發明之拼接操作,音頻編碼裝置20可以一種方式重排3D音場之FG對象,該方式使得若i
=j
,則在位置L1
處之前景信號Fi
及在位置L2
處之前景信號Fj
兩者源自同一FG對象。音頻編碼裝置20可實施一或多個聲音識別及/或影像識別演算法以檢查或驗證每一FG對象之標識。此外,音頻編碼裝置20可不僅關於FG對象而且亦關於其他參數執行拼接操作。 如圖9D中所示,音頻解碼裝置可根據以下等式執行本發明之內插操作:亦即,上文呈現之等式適用於基於FG及BG對象之計算,諸如適用於特定位置i
之前景及背景信號。依據在各個位置處之方向向量及靜默對象,音頻解碼裝置24可根據以下等式執行本發明之內插操作:靜默對象內插之態樣可藉由以下操作而計算,如圖9D中所說明: [(sinθ1
)/L1
] = [(sinθ2
)/L2] = [(sinθ3
)/L3
] 圖9E為說明根據本發明之態樣的音頻解碼裝置24可實施的基於點雲之內插之應用的圖。音頻解碼裝置24可使用點雲(藉由圖9E中之圓環表示)以獲得具有音頻及視頻信號的3D空間之取樣(例如密集取樣)。舉例而言,接收之位元串流21可表示自多個位置捕捉的音頻及視頻資料,其中音頻編碼裝置20已運用來自使用者位置L*
之相鄰資料拼接並執行聯合壓縮及內插。在圖9E中所說明之實例中,音頻解碼裝置24可使用四個捕捉位置(定位於具有圓拐角之矩形內)之資料,以產生或重構在使用者位置L*
處之虛擬捕捉資料。 圖10為說明根據本發明之態樣的音頻解碼裝置24可執行的前景音頻對象之衰減的HOA域計算之態樣的圖。在圖10之實例中,音頻解碼裝置24可使用為四(4)的HOA階數,藉此使用總共二十五(25)個HOA係數。如圖10中所說明,音頻解碼裝置24可使用1,280個樣本之音頻訊框大小。 圖11為說明根據本發明之一或多種技術的音頻編碼裝置20可執行的傳輸因數計算之態樣的圖。 圖12為說明根據本發明之態樣的可藉由整合編碼/顯現裝置執行的程序1200之圖。因而,根據程序1200,積體裝置可包括音頻編碼裝置20及音頻解碼裝置24兩者,及視情況本文所論述之其他組件及/或裝置。因而,圖12之程序1200不包括壓縮或傳輸步驟,此係因為音頻編碼裝置20可使用積體裝置內之內部通信頻道(諸如積體裝置之通信匯流排架構)傳達位元串流21及後設資料23至音頻解碼裝置24。 圖13為說明根據本發明之態樣的音頻編碼裝置或整合編碼/顯現裝置可執行的程序1300之流程圖。程序1300可在一或多個麥克風陣列捕捉3D音場之音頻對象時開始(1302)。接著,音頻編碼裝置之處理電路可自麥克風陣列獲得3D音場之音頻對象,其中每一音頻對象係與由麥克風陣列捕捉的音頻資料之各別音頻場景相關聯(1304)。音頻編碼裝置之處理電路可判定包括於第一視頻場景中的視頻對象不由對應於第一視頻場景的第一音頻場景中之任一對應音頻對象表示(1306)。 音頻編碼裝置之處理電路可判定視頻對象不與任一預識別音頻對象相關聯(1308)。接著,回應於視頻對象不由第一音頻場景中之任一對應音頻對象表示及視頻對象不與任一預識別音頻對象相關聯的判定,音頻編碼裝置之處理電路可將視頻對象識別為靜默對象(1310)。 因而,在本發明之一些實例中,本發明之音頻編碼裝置包括一記憶體裝置,其經組態以:儲存關於三維(3D)音場的自一或多個麥克風陣列獲得之音頻對象,其中每一獲得之音頻對象係與各別音頻場景相關聯;及儲存自一或多個視頻捕捉裝置獲得的視頻資料,該視頻資料包含一或多個視頻場景,每一各別視頻場景係與所獲得音頻資料之各別音頻場景相關聯。該裝置進一步包括耦接至記憶體裝置之處理電路,該處理電路經組態以:判定包括於第一視頻場景中之視頻對象不由對應於第一視頻場景的第一音頻場景中之任一對應音頻對象表示;判定視頻對象不與任一預識別音頻對象相關聯;及回應於視頻對象不由第一音頻場景中之任一對應對象表示且視頻對象不與任一預識別音頻對象相關聯的判定,將視頻對象識別為靜默對象。 在一些實例中,處理電路經進一步組態以:判定包括於所獲得音頻資料中之第一音頻對象係與預識別音頻對象相關聯;及回應於音頻對象係與預識別音頻對象相關聯的判定,將第一音頻對象識別為前景音頻對象。在一些實例中,處理電路經進一步組態以:判定包括於所獲得音頻資料中之第二音頻對象不與任一預識別音頻對象相關聯;及回應於第二音頻對象不與任一預識別音頻對象相關聯的判定,將第二音頻對象識別為背景音頻對象。 在一些實例中,處理電路經組態以藉由判定第一音頻對象係與裝備有一或多個感測器之音頻源相關聯而判定第一音頻對象係與預識別音頻對象相關聯。在一些實例中,音頻編碼裝置進一步包括耦接至處理電路之一或多個麥克風陣列,該一或多個麥克風陣列經組態以捕捉與3D音場相關聯之音頻對象。在一些實例中,音頻編碼裝置進一步包括耦接至處理電路之一或多個視頻捕捉裝置,該一或多個視頻捕捉裝置經組態以捕捉視頻資料。視頻捕捉裝置可包括圖中所說明及上文關於圖所描述之攝影機,可為該等攝影機,或可為該等攝影機之部分。舉例而言,視頻捕捉裝置可表示多個(例如,雙)攝影機,其經定位以使得攝影機自不同視角捕捉場景之視頻資料或影像。在一些實例中,前景音頻對象包括於對應於第一視頻場景之第一音頻場景中,且處理電路經進一步組態以判定關於第一視頻場景之靜默對象的位置資訊是否引起前景音頻對象衰減。 在一些實例中,處理電路經進一步組態以回應於判定靜默對象引起前景音頻對象衰減,產生關於前景音頻對象之一或多個傳輸因數,其中所產生傳輸因數表示關於前景音頻對象之調整。在一些實例中,所產生傳輸因數表示關於前景音頻對象之能量的調整。在一些實例中,所產生傳輸因數表示關於前景音頻對象之方向特性的調整。在一些實例中,處理電路經進一步組態以相對於包括前景音頻對象之位元串流在帶外傳輸傳輸因數。在一些實例中,所產生傳輸因數表示關於位元串流之後設資料。 圖14為說明根據本發明之態樣的音頻解碼裝置或整合編碼/解碼/顯現裝置可執行的實例程序1400之流程圖。程序1400可在音頻解碼裝置之處理電路在位元串流中接收3D音場之音頻對象的經編碼表示(1402)時開始。另外,音頻解碼裝置之處理電路可接收與位元串流相關聯之後設資料(1404)。應瞭解,圖14中所說明的序列為非限制性實例,且音頻解碼裝置之處理電路可按任何次序或並行或部分並行地接收位元串流及後設資料。 音頻解碼裝置之處理電路可自接收之後設資料獲得與該等音頻對象中之一或多者相關聯的一或多個傳輸因數(1406)。另外,音頻解碼裝置之處理電路可將傳輸因數應用於一或多個音頻對象以獲得3D音場之經位差調整音頻對象(1408)。音頻解碼裝置可進一步包含耦接至處理電路之記憶體。記憶體裝置可儲存接收之位元串流的至少一部分、接收之後設資料或該3D音場之經位差調整音頻對象。音頻解碼裝置之處理電路可顯現3D音場之經位差調整音頻對象至一或多個揚聲器(1410)。舉例而言,音頻解碼裝置之處理電路可顯現3D音場之經位差調整音頻對象至驅動一或多個揚聲器之一或多個揚聲器饋入中。 在本發明之一些實例中,音頻解碼裝置包括處理電路,其經組態以:在位元串流中接收三維(3D)音場之音頻對象的經編碼表示;接收與位元串流相關聯之後設資料;自接收之後設資料獲得與該等音頻對象中之一或多者相關聯的一或多個傳輸因數;及將傳輸因數應用於該一或多個音頻對象以獲得3D音場之經位差調整音頻對象。該裝置進一步包括耦接至處理電路之記憶體裝置,該記憶體裝置經組態以儲存接收之位元串流的至少一部分、接收之後設資料,或3D音場之經位差調整音頻對象。在一些實例中,處理電路經進一步組態以:判定聽者位置資訊;及除了將傳輸因數應用於該一或多個音頻對象之外,亦將聽者位置資訊應用於該一或多個音頻對象。在一些實例中,處理電路經進一步組態以應用聽者位置資訊同與一或多個音頻對象之前景音頻對象相關聯的各別位置之間的相對前景位置資訊。在一些實例中,處理電路經進一步組態以應用使用與一或多個音頻對象之背景音頻對象相關聯之各別位置計算的背景平移因數。 在一些實例中,處理電路經進一步組態以應用前景衰減因數至一或多個音頻對象之各別前景音頻對象。在一些實例中,處理電路經進一步組態以:判定用於各別前景音頻對象之最小傳輸值;判定應用傳輸因數至各別前景音頻對象是否產生低於最小傳輸值之經調整傳輸值;及回應於判定低於最小傳輸值之經調整傳輸值,使用最小傳輸值顯現各別前景音頻對象。在一些實例中,處理電路經進一步組態以調整各別前景音頻對象之能量。在一些實例中,處理電路經進一步組態以使各別前景音頻對象之各別能量衰減。在一些實例中,處理電路經進一步組態以調整各別前景音頻對象之方向特性。在一些實例中,處理電路經進一步組態以調整各別前景音頻對象之位差資訊。在一些實例中,處理電路經進一步組態以調整位差資訊以考慮在與3D音場相關聯之視頻串流中表示的一或多個靜默對象表示。在一些實例中,處理電路經進一步組態以接收位元串流內之後設資料。 在一些實例中,處理電路經進一步組態以相對於位元串流在帶外接收後設資料。在一些實例中,處理電路經進一步組態以輸出與3D音場相關聯之視頻資料至一或多個顯示器。在一些實例中,裝置進一步包括一或多個顯示器,該一或多個顯示器經組態以自處理電路接收視頻資料,並以視覺形式輸出接收之視頻資料。 圖15為說明根據本發明之態樣的音頻解碼裝置或整合編碼/解碼/顯現裝置可執行的實例程序1500之流程圖。程序1500可在音頻解碼裝置之處理電路判定聽者位置同與3D音場之一或多個前景音頻對象相關聯的各別位置之間的相對前景位置資訊時開始(1502)。舉例而言,音頻解碼裝置之處理電路可與音頻解碼裝置之記憶體耦接或以另外方式與其通信。 接著,記憶體可經組態以儲存聽者位置及與3D音場之一或多個前景音頻對象相關聯的各別位置。與一或多個前景音頻對象相關聯之各別位置可自與3D音場相關聯的視頻資料獲得。接著,音頻解碼裝置之處理電路可顯現3D音場至一或多個揚聲器(1504)。舉例而言,音頻解碼裝置之處理電路可顯現3D音場至驅動以通信方式耦接至音頻解碼裝置之一或多個擴音器、頭戴式耳機等的一或多個揚聲器饋入中。 在本發明之一些實例中,音頻解碼裝置包括經組態以儲存聽者位置及與三維(3D)音場之一或多個前景音頻對象相關聯之各別位置的記憶體裝置,與一或多個前景音頻對象相關聯之該等各別位置係自與3D音場相關聯之視頻資料獲得,且亦包括耦接至記憶體裝置之處理電路,該處理電路經組態以判定聽者位置同與3D音場之一或多個前景音頻對象相關聯之各別位置之間的相對前景位置資訊。在一些實例中,處理電路經進一步組態以應用座標系統以判定相對前景位置資訊。在一些實例中,處理電路經進一步組態以藉由偵測一裝置判定聽者位置資訊。在一些實例中,所偵測裝置包括虛擬實境(VR)耳機。在一些實例中,處理電路經進一步組態以藉由偵測一個人判定聽者位置資訊。在一些實例中,處理電路經進一步組態以使用基於點雲之內插程序判定聽者位置。在一些實例中,處理電路經進一步組態以獲得複數個聽者位置候選項,並在所獲得複數個聽者位置候選項中之至少兩個聽者位置候選項之間內插聽者位置。 圖16為說明根據本發明之態樣的音頻編碼裝置或整合編碼/顯現裝置可執行的程序1600之流程圖。程序1600可在一或多個麥克風陣列捕捉3D音場之音頻對象時開始(1602)。接著,音頻編碼裝置之處理電路可自麥克風陣列獲得由麥克風陣列捕捉的3D音場之音頻對象(1604)。舉例而言,音頻編碼裝置之記憶體裝置可儲存由麥克風陣列捕捉的音頻對象(例如,之經編碼表示)之資料表示,且處理電路可與記憶體裝置通信。在此實例中,處理電路可自記憶體裝置擷取音頻對象之經編碼表示。 音頻編碼裝置之處理電路可產生包括3D音場之音頻對象之經編碼表示的位元串流(1606)。音頻編碼裝置之處理電路可產生與包括3D音場之音頻對象的經編碼表示之位元串流相關聯的後設資料(1608)。後設資料可包括關於音頻對象之傳輸因數、聽者位置資訊同與音頻對象之前景音頻對象相關聯的各別位置之間的相對前景位置資訊,或用於音頻對象之一或多個靜默對象的位置資訊中之一或多者。儘管為易於說明及論述按特定次序說明程序1600之步驟1606及1608,但應瞭解音頻編碼裝置之處理電路可按任何次序產生位元串流及後設資料,次序包括圖16中所說明之次序的反向次序,或並行(部分地抑或完全地)。 音頻編碼裝置之處理電路可發信位元串流(1610)。音頻編碼裝置之處理電路可發信與位元串流相關聯之後設資料(1612)。舉例而言,處理電路可使用音頻編碼裝置之通信單元或其他通信介面硬體以發信位元串流及/或後設資料。儘管為易於說明及論述按特定次序說明程序1600之發信操作(步驟1610及1612),但應瞭解音頻編碼裝置之處理電路可按任何次序發信位元串流及後設資料,次序包括圖16中所說明之次序的反向次序,或並行(部分地抑或完全地)。 在本發明之一些實例中,音頻編碼裝置包括經組態以儲存三維(3D)音場之音頻對象之經編碼表示的記憶體裝置,且進一步包括耦接至記憶體裝置且經組態以產生與包括3D音場之音頻對象之經編碼表示的位元串流相關聯之後設資料的處理電路,該後設資料包括關於音頻對象之傳輸因數、聽者位置資訊同與音頻對象之前景音頻對象相關聯的各別位置之間的相對前景位置資訊,或用於音頻對象之一或多個靜默對象的位置資訊中之一或多者。在一些實例中,處理電路經組態以基於與靜默對象及前景音頻對象相關聯的衰減資訊產生傳輸因數。 在一些實例中,傳輸因數表示關於前景音頻對象基於靜默對象之位置資訊的能量衰減資訊。在一些實例中,傳輸因數表示關於前景音頻對象基於靜默對象之位置資訊的方向衰減資訊。在一些實例中,處理電路經進一步組態以基於聽者位置資訊及靜默對象之位置資訊判定傳輸因數。在一些實例中,處理電路經進一步組態以基於聽者位置資訊及前景音頻對象之位置資訊判定傳輸因數。在一些實例中,處理電路經進一步組態以產生包括3D音場之音頻對象之經編碼表示的位元串流,並發信該位元串流。在一些實例中,處理電路經組態以發信位元串流內之後設資料。在一些實例中,處理電路經進一步組態以相對於位元串流在帶外發信後設資料。 在本發明之一些實例中,音頻解碼裝置包括經組態以儲存三維(3D)音場之一或多個音頻對象的記憶體裝置,且亦包括耦接至記憶體裝置之處理電路。處理電路經組態以:獲得包括關於3D音場之一或多個音頻對象之傳輸因數的後設資料;及應用傳輸因數至與3D音場之一或多個音頻對象相關聯的音頻信號。在一些實例中,處理電路經進一步組態以使一或多個音頻信號之能量資訊衰減。在一些實例中,一或多個音頻對象包括3D音場之前景音頻對象。 圖17為說明根據本發明之態樣的音頻解碼裝置或整合編碼/解碼/顯現裝置可執行的實例程序1700之流程圖。程序1700可在音頻解碼裝置之處理電路應用傳輸因數至前景音頻對象之前景音頻信號,以使前景音頻信號之一或多個特性衰減時開始(1702)。舉例而言,音頻解碼裝置之處理電路可與音頻解碼裝置之記憶體耦接或以另外方式與其通信。接著,記憶體可經組態以儲存前景音頻對象(其可係3D音場之部分)。 音頻解碼裝置之處理電路可顯現前景音頻信號至一或多個揚聲器(1704)。在一些情況下,音頻解碼裝置之處理電路亦可顯現背景音頻信號(與3D音場之背景音頻對象相關聯)至一或多個揚聲器(1704)。舉例而言,音頻解碼裝置之處理電路可顯現前景音頻信號(及視情況,背景音頻信號)至驅動以通信方式耦接至音頻解碼裝置之一或多個擴音器、頭戴式耳機等的一或多個揚聲器饋入中。 圖18為說明根據本發明之態樣的音頻解碼裝置或整合編碼/解碼/顯現裝置可執行的實例程序1800之流程圖。程序1800可在音頻解碼裝置之處理電路對於複數個前景音頻對象之每一各別前景音頻對象計算傳輸因數、前景音頻信號及方向向量之各別集合的各別乘積時開始(1802)。舉例而言,音頻解碼裝置之處理電路可與音頻解碼裝置之記憶體耦接或以另外方式與其通信。接著,記憶體可經組態以儲存複數個前景音頻對象(其可係3D音場之部分)。音頻解碼裝置之處理電路可計算針對複數個前景音頻對象之所有前景音頻對象而計算的各別乘積之和(1804)。 另外,音頻解碼裝置之處理電路可計算傳輸因數、背景音頻信號及方向向量之各別集合的各別乘積(1806)。記憶體可經組態以儲存複數個背景音頻對象(其可係與儲存至記憶體之複數個前景音頻對象相同的3D音場之部分)。音頻解碼裝置之處理電路可對於該複數個背景音頻對象之所有背景音頻對象計算各別乘積的和(1808)。接著,音頻解碼裝置之處理電路可基於兩個計算和之總和顯現3D音場至一或多個揚聲器(1810)。 亦即,音頻解碼裝置之處理電路可計算(i)對於所有儲存之前景音頻對象所計算的各別乘積之計算和,及(ii)對於所有儲存之背景音頻對象所計算的各別乘積之計算和的和。接著,音頻解碼裝置之處理電路可顯現3D音場至驅動以通信方式耦接至音頻解碼裝置之一或多個擴音器、頭戴式耳機等的一或多個揚聲器饋入中。 在本發明之一些實例中,音頻解碼裝置包括經組態以儲存三維(3D)音場之前景音頻對象的記憶體裝置,及耦接至該記憶體裝置之處理電路。處理電路經組態以應用傳輸因數至前景音頻對象之前景音頻信號以使前景音頻信號之一或多個特性衰減。在一些實例中,處理電路經組態以使前景音頻信號之能量衰減。在一些實例中,處理電路經組態以應用平移因數至背景音頻對象。 在本發明之一些實例中,音頻解碼裝置包括經組態以儲存三維(3D)音場之複數個前景音頻對象的記憶體裝置。該裝置亦包括耦接至記憶體裝置且經組態以執行以下操作之處理電路:對於複數個前景音頻對象之每一各別前景音頻對象,計算傳輸因數、前景音頻信號及方向向量之各別集合的各別乘積;及計算該複數個前景音頻對象之所有前景音頻對象的各別乘積的和。在一些實例中,記憶體裝置經進一步組態以儲存複數個背景音頻對象,且處理電路經進一步組態以:對於複數個背景音頻對象中之每一各別背景音頻對象,計算各別背景音頻信號與各別平移因數之各別乘積;及計算該複數個背景音頻對象之所有背景音頻對象的各別乘積之和。在一些實例中,處理電路經進一步組態以將前景音頻對象之乘積的和相加至背景音頻對象之乘積的和。在一些實例中,處理電路經進一步組態以在高階立體混響(HOA)域中執行所有計算。 在一些情況下,一非暫時性電腦可讀儲存媒體其上儲存有指令,該等指令當執行時引起一或多個處理器:獲得音頻對象;獲得視頻對象;將音頻對象與視頻對象相關聯;比較音頻對象與相關聯視頻對象;及基於音頻對象與相關聯視頻對象之間的比較顯現音頻對象。 在本發明中描述的技術之各種態樣亦可藉由產生音頻輸出信號之裝置執行。裝置可包含用於基於第一音頻對象之資料分量與第一視頻對象之資料分量的第一比較識別與第一視頻對象對應體相關聯之第一音頻對象的構件,及用於基於第二音頻對象之資料分量與第二視頻對象之資料分量的第二比較識別不與第二視頻對象對應體相關聯之第二音頻對象的構件。裝置可另外包含用於顯現第一區中之第一音頻對象的構件,用於顯現第二區中之第二音頻對象的構件,及用於基於組合第一區中之所顯現第一音頻對象與第二區中之所顯現第二音頻對象而產生音頻輸出信號的構件。本文中所描述的各種構件可包含經組態以執行關於該等構件中之每一者所描述的功能的一或多個處理器。 在一些情況下,第一音頻對象之資料分量包含位置及大小中之一者。在一些情況下,第一視頻對象資料之資料分量包含位置及大小中之一者。在一些情況下,第二音頻對象之資料分量包含位置及大小中之一者。在一些情況下,第二視頻對象之資料分量包含位置及大小中之一者。 在一些情況下,第一區及第二區為音頻前景內之不同區或音頻背景內之不同區。在一些情況下,第一區及第二區為音頻前景內之同一區或音頻背景內之同一區。在一些情況下,第一區係在音頻前景內且第二區係在音頻背景內。在一些情況下,第一區係在音頻背景內且第二區係在音頻前景內。 在一些情況下,第一音頻對象之資料分量、第二音頻對象之資料分量、第一視頻對象之資料分量及第二視頻對象之資料分量各自包含後設資料。 在一些情況下,裝置進一步包含用於判定第一比較是否在可信度區間外的構件,及用於基於第一比較是否在可信度區間外的判定來加權第一音頻對象之資料分量及第一視頻對象之資料分量的構件。在一些情況下,用於加權的構件包含用於平均第一音頻對象資料之資料分量及第一視頻對象之資料分量的構件。在一些情況下,裝置亦可包括用於基於第一比較及第二比較中之一或多者分配不同數目個位元的構件。 在一些情況下,該等技術可提供其上儲存有指令的非暫時性電腦可讀儲存媒體,該等指令當執行時引起一或多個處理器:基於第一音頻對象之資料分量與第一視頻對象之資料分量的第一比較識別與第一視頻對象對應體相關聯之第一音頻對象;基於第二音頻對象之資料分量與第二視頻對象之資料分量的第二比較識別不與第二視頻對象對應體相關聯的第二音頻對象;顯現第一區中之第一音頻對象;用於顯現第二區中之第二音頻對象之構件;及基於組合第一區中之所顯現之第一音頻對象與第二區中之所顯現之第二音頻對象而產生音頻輸出信號。 下文描述本發明之各種實例。根據下文所描述的實例中之一些,諸如音頻編碼裝置之「裝置」可包括飛行裝置、機器人、裝置或汽車中之一或多者,可為飛行裝置、機器人、裝置或汽車中之一或多者,或可為其一部分。根據下文所描述之實例中之一些,「顯現」之操作或引起處理電路「顯現」之組態可包括顯現至揚聲器饋入,或顯現至至頭戴式耳機揚聲器之頭戴式耳機饋入(諸如藉由使用雙聲音頻揚聲器饋入)。舉例而言,本發明之音頻解碼裝置可藉由調用或另外使用雙聲音頻顯現器顯現雙聲音頻揚聲器饋入。 實例1a。一種方法,其包含:自一或多個麥克風陣列獲得三維(3D)音場之音頻對象,其中每一獲得之音頻對象係與各別音頻場景相關聯;自一或多個視頻捕捉裝置獲得包含一或多個視頻場景之視頻資料,每一各別視頻場景係與所獲得音頻資料之各別音頻場景相關聯;判定包括於第一視頻場景中的視頻對象不由對應於第一視頻場景的第一音頻場景中之任一對應音頻對象表示;判定視頻對象不與任一預識別音頻對象相關聯;及回應於視頻對象不由第一音頻場景中之任一對應音頻對象表示且視頻對象並不與任一預識別音頻對象相關聯的判定,將視頻對象識別為靜默對象。 實例2a。如實例1a之方法,其進一步包含:判定包括於所獲得音頻資料中之第一音頻對象係與預識別音頻對象相關聯;及回應於音頻對象係與預識別音頻對象相關聯的判定,將第一音頻對象識別為前景音頻對象。 實例3a。如實例1a或2a中之任一者的方法,其進一步包含:判定包括於所獲得音頻資料中之第二音頻對象不與任一預識別音頻對象相關聯;及回應於第二音頻對象不與任一預識別音頻對象相關聯的判定,將第二音頻對象識別為背景音頻對象。 實例4a。如實例2a或3a中之任一者的方法,其中判定第一音頻對象係與預識別音頻對象相關聯包含判定第一音頻對象係與裝備有一或多個感測器之音頻源相關聯。 實例5a。如實例1a至4a中之任一者的方法,其中前景音頻對象包括於對應於第一視頻場景之第一音頻場景中,該方法其進一步包含:判定靜默對象關於第一視頻場景之位置資訊是否引起前景音頻對象衰減。 實例6a。如實例5a之方法,其進一步包含:回應於判定靜默對象引起前景音頻對象衰減,產生關於前景音頻對象之一或多個傳輸因數,其中所產生傳輸因數表示關於前景音頻對象之調整。 實例7a。如實例6a之方法,其中所產生傳輸因數表示關於前景音頻對象之能量的調整。 實例8a。如實例6a或7a中之任一者的方法,其中所產生傳輸因數表示關於前景音頻對象之方向特性的調整。 實例9a。如實例6a至8a中之任一者的方法,其進一步包含相對於包括前景音頻對象之位元串流在帶外傳輸該等傳輸因數。 實例10a。如實例9a之方法,其中所產生之傳輸因數表示關於位元串流的後設資料。 實例11a。一種音頻編碼裝置,其包含:一記憶體裝置,其經組態以:儲存自一或多個麥克風陣列獲得的關於三維(3D)音場之音頻對象,其中每一所獲得音頻對象係與各別音頻場景相關聯;及儲存自一或多個視頻捕捉裝置獲得的視頻資料,視頻資料包含一或多個視頻場景,每一各別視頻場景係與所獲得音頻資料之各別音頻場景相關聯。音頻編碼裝置進一步包含耦接至記憶體裝置之處理電路,該處理電路經組態以:判定包括於第一視頻場景中之視頻對象不由對應於第一視頻場景的第一音頻場景中之任一對應音頻對象表示;判定視頻對象不與任一預識別音頻對象相關聯;及回應於視頻對象不由第一音頻場景中之任一對應對象表示且視頻對象不與任一預識別音頻對象相關聯的判定,將視頻對象識別為靜默對象。 實例12a。如實例11a之音頻編碼裝置,處理電路經進一步組態以:判定包括於所獲得音頻資料中之第一音頻對象係與預識別音頻對象相關聯;及回應於音頻對象係與預識別音頻對象相關聯的判定,將第一音頻對象識別為前景音頻對象。 實例13a。如實例11a或12a中之任一者的音頻編碼裝置,處理電路經進一步組態以:判定包括於所獲得音頻資料中的第二音頻對象不與任一預識別音頻對象相關聯;及回應於第二音頻對象不與任一預識別音頻對象相關聯的判定,將第二音頻對象識別為背景音頻對象。 實例14a。如實例12a或13a中之任一者的音頻編碼裝置,處理電路經進一步組態以:藉由判定第一音頻對象係與裝備有一或多個感測器之音頻源相關聯而判定第一音頻對象係與預識別音頻對象相關聯。 實例14a(i)。如實例14a之音頻編碼裝置,其進一步包含耦接至處理電路之一或多個麥克風陣列,該一或多個麥克風陣列經組態以捕捉與3D音場相關聯之音頻對象。 實例14a(ii)。如實例11a-14a(i)中之任一者的音頻編碼裝置,其進一步包含耦接至處理電路之一或多個視頻捕捉裝置,該一或多個視頻捕捉裝置經組態以捕捉視頻資料。 實例15a。如實例11a至14a中之任一者的音頻編碼裝置,其中前景音頻對象包括於對應於第一視頻場景之第一音頻場景中,處理電路經進一步組態以:判定關於第一視頻場景之靜默對象的位置資訊是否引起前景音頻對象衰減。 實例16a。如實例15a之音頻編碼裝置,處理電路經進一步組態以:回應於判定靜默對象引起前景音頻對象衰減,產生關於前景音頻對象之一或多個傳輸因數,其中所產生傳輸因數表示關於前景音頻對象的調整。 實例17a。如實例16a之音頻編碼裝置,其中所產生傳輸因數表示關於前景音頻對象之能量的調整。 實例18a。如實例16a或17a中之任一者的音頻編碼裝置,其中所產生傳輸因數表示關於前景音頻對象之方向特性的調整。 實例19a。如實例16a至18a中之任一者的音頻編碼裝置,處理電路經進一步組態以相對於包括前景音頻對象之位元串流在帶外傳輸傳輸因數。 實例20a。如實例19a之音頻編碼裝置,其中所產生傳輸因數表示關於位元串流之後設資料。 實例21a。一種音頻編碼設備,其包含:用於自一或多個麥克風陣列獲得三維(3D)音場之音頻對象的構件,其中每一獲得之音頻對象係與各別音頻場景相關聯;用於自一或多個視頻捕捉裝置獲得包含一或多個視頻場景之視頻資料的構件,每一各別視頻場景係與所獲得音頻資料之各別音頻場景相關聯;用於判定包括於第一視頻場景中之視頻對象不由對應於第一視頻場景的第一音頻場景中之任一對應音頻對象表示的構件;用於判定視頻對象不與任一預識別音頻對象相關聯的構件;及用於回應於視頻對象不由第一音頻場景中之任一對應音頻對象表示及視頻對象不與任一預識別音頻對象相關聯的判定而將視頻對象識別為靜默對象的構件。 實例22a。一種編碼有指令之非暫時性電腦可讀儲存媒體,該等指令當執行時引起音頻編碼裝置之處理電路執行以下操作:自一或多個麥克風陣列獲得三維(3D)音場之音頻對象,其中每一獲得之音頻對象係與各別音頻場景相關聯;自一或多個視頻捕捉裝置獲得包含一或多個視頻場景的視頻資料,每一各別視頻場景係與所獲得音頻資料之各別音頻場景相關聯;判定包括於第一視頻場景中之視頻對象不由對應於第一視頻場景的第一音頻場景中之任一對應音頻對象表示;判定視頻對象不與任一預識別音頻對象相關聯;及回應於視頻對象不由第一音頻場景中之任一對應音頻對象表示及視頻對象不與任一預識別音頻對象相關聯的判定而將視頻對象識別為靜默對象。 實例1b。一種音頻解碼裝置,其包含:處理電路,其經組態以:在位元串流中接收三維(3D)音場之音頻對象的經編碼表示;接收與位元串流相關聯的後設資料;自接收之後設資料獲得與該等音頻對象中之一或多者相關聯的一或多個傳輸因數;及將傳輸因數應用於該一或多個音頻對象以獲得3D音場之經位差調整音頻對象;及一記憶體裝置,且耦接至該處理電路,該記憶體裝置經組態以儲存接收之位元串流的至少一部分、接收之後設資料或3D音場之經位差調整音頻對象。 實例2b。如實例1b之音頻解碼裝置,處理電路經進一步組態以:判定聽者位置資訊;除了將傳輸因數應用於該一或多個音頻對象之外,亦將聽者位置資訊應用於該一或多個音頻對象。 實例3b。如實例2b之音頻解碼裝置,該處理電路經進一步組態以應用聽者位置資訊同與一或多個音頻對象之前景音頻對象相關聯的各別位置之間的相對前景位置資訊。 實例4b。如實例3b之音頻解碼裝置,該處理電路經進一步組態以應用座標系統以判定相對前景位置資訊。 實例5b。如實例2b之音頻解碼裝置,該處理電路經進一步組態以藉由偵測一裝置而判定該聽者位置資訊。 實例6b。如請求項5b之音頻解碼裝置,其中該所偵測裝置包含虛擬實境(VR)耳機、混合實境(MR)耳機或增強實境(AR)耳機中之一或多者。 實例7b。如實例2b之音頻解碼裝置,該處理電路經進一步組態以藉由偵測一個人而判定聽者位置資訊。 實例8b。如實例2b之音頻解碼裝置,該處理電路經進一步組態以使用一基於點雲之內插程序而判定該聽者位置。 實例9b。如實例7b之音頻解碼裝置,該處理電路經進一步組態以:獲得複數個聽者位置候選項;及在所獲得複數個聽者位置候選項中之至少兩個聽者位置候選項之間內插聽者位置。 實例10b。如實例1b之音頻解碼裝置,處理電路經進一步組態以應用使用與一或多個音頻對象之背景音頻對象相關聯的各別位置計算的背景平移因數。 實例11b。如實例1b之音頻解碼裝置,該處理電路經進一步組態以將前景衰減因數應用於該一或多個音頻對象之各別前景音頻對象。 實例12b。如實例1b之音頻解碼裝置,處理電路經進一步組態以:判定用於各別前景音頻對象之最小傳輸值;判定應用傳輸因數至各別前景音頻對象是否產生低於最小傳輸值之經調整傳輸值;及回應於判定低於最小傳輸值之經調整傳輸值,使用最小傳輸值顯現各別前景音頻對象。 實例13b。如實例1b之音頻解碼裝置,處理電路經進一步組態以調整各別前景音頻對象之能量。 實例14b。如實例12b之音頻解碼裝置,處理電路經進一步組態以使各別前景音頻對象之各別能量衰減。 實例15b。如實例12b之音頻解碼裝置,處理電路經進一步組態以調整各別前景音頻對象之方向特性。 實例16b。如實例12b之音頻解碼裝置,處理電路經進一步組態以調整各別前景音頻對象之位差資訊。 實例17b。如實例16b之音頻解碼裝置,處理電路經進一步組態以調整位差資訊以考慮在與3D音場相關聯之視頻串流中表示的一或多個靜默對象。 實例18b。如實例1b之音頻解碼裝置,處理電路經進一步組態以接收位元串流內之後設資料。 實例19b。如實例1b之音頻解碼裝置,處理電路經進一步組態以相對於位元串流在帶外接收後設資料。 實例20b。如實例1b之音頻解碼裝置,處理電路經進一步組態以輸出與3D音場相關聯的視頻資料至一或多個顯示器。 實例21b。如實例20b之音頻解碼裝置,其進一步包含一或多個顯示器,該一或多個顯示器經組態以:自處理電路接收視頻資料;及以視覺形式輸出接收之視頻資料。 實例22b。如實例1b之音頻解碼裝置,處理電路經進一步組態以使一或多個音頻對象之前景音頻對象的能量衰減。 實例23b。如實例1b之音頻解碼裝置,處理電路經進一步組態以將平移因數應用於背景音頻對象。 實例24b。如實例1b之音頻解碼裝置,處理電路經進一步組態以:對於該一或多個音頻對象的複數個背景音頻對象中之每一各別背景音頻對象,計算各別背景音頻信號與各別平移因數之各別乘積;及計算該複數個背景音頻對象之所有背景音頻對象的各別乘積之和。 實例25b。如實例24b之音頻解碼裝置,處理電路經進一步組態以將前景音頻對象的乘積之和相加至背景音頻對象的乘積之和。 實例26b。一種方法,其包含:在一位元串流中接收一三維(3D)音場之音頻對象的經編碼表示;接收與該位元串流相關聯之後設資料;自該接收之後設資料獲得與該等音頻對象中之一或多者相關聯的一或多個傳輸因數;及將該等傳輸因數應用於該一或多個音頻對象以獲得該3D音場之經位差調整音頻對象。 實例27b。如實例26b之方法,其中應用傳輸因數包含應用使用與該一或多個音頻對象之背景音頻對象相關聯之各別位置計算的背景平移因數。 實例28b。如實例26b之方法,其中應用傳輸因數包含應用前景衰減因數至該一或多個音頻對象之各別前景音頻對象。 實例29b。如實例26b之方法,其進一步包含:判定用於各別前景音頻對象之最小傳輸值;判定應用傳輸因數至各別前景音頻對象是否產生低於最小傳輸值之經調整傳輸值;及回應於判定低於最小傳輸值之經調整傳輸值,使用最小傳輸值顯現各別前景音頻對象。 實例30b。如實例26b之方法,其中應用傳輸因數包含調整各別前景音頻對象之能量。 實例31b。如請求項30b之方法,其中調整能量包含使各別前景音頻對象之各別能量衰減。 實例32b。如實例26b之方法,其中應用傳輸因數包含調整各別前景音頻對象之方向特性。 實例33b。如實例26b之方法,其中應用傳輸因數包含調整各別前景音頻對象之位差資訊。 實例34b。如請求項33b之方法,其中調整該位差資訊包含調整該位差資訊以考慮在與3D音場相關聯之視頻串流中表示的一或多個靜默對象。 實例35b。如實例26b之方法,其中接收後設資料包含接收位元串流內之後設資料。 實例36b。如實例26b之方法,其中接收後設資料包含相對於位元串流在帶外接收後設資料。 實例37b。一種編碼有指令之非暫時性電腦可讀儲存媒體,該等指令當執行時引起音頻編碼裝置之處理電路:在位元串流中接收三維(3D)音場之音頻對象的經編碼表示;接收與位元串流相關聯之後設資料;自接收之後設資料獲得與該等音頻對象中之一或多者相關聯的一或多個傳輸因數;及應用傳輸因數至一或多個音頻對象以獲得3D音場之經位差調整音頻對象。 實例38b。一種音頻解碼設備,其包含:用於在位元串流中接收三維(3D)音場之音頻對象的經編碼表示的構件;用於接收與位元串流相關聯之後設資料的構件;用於自接收之後設資料獲得與該等音頻對象中之一或多者相關聯的一或多個傳輸因數的構件;及用於應用傳輸因數至該一或多個音頻對象以獲得3D音場之經位差調整音頻對象的構件。 實例1c。一種方法,其包含:判定聽者位置同與三維(3D)音場的一或多個前景音頻對象相關聯之各別位置之間的相對前景位置資訊,與該一或多個前景音頻對象相關聯之各別位置係自與3D音場相關聯的視頻資料獲得。 實例2c。如實例1c之方法,其進一步包含應用座標系統以判定相對前景位置資訊。 實例3c。如實例1c或2c中任一者之方法,其進一步包含藉由偵測一裝置判定聽者位置資訊。 實例4c。如實例3c之方法,其中該裝置包含虛擬實境(VR)耳機。 實例5c。如實例1c或2c中任一者之方法,其進一步包含藉由偵測一個人判定聽者位置資訊。 實例6c。如實例1c或2c中任一者之方法,其進一步包含使用基於點雲之內插程序判定聽者位置。 實例7c。如實例6c之方法,其中使用基於點雲之內插程序包含:獲得複數個聽者位置候選項;及在所獲得複數個聽者位置候選項中之至少兩個聽者位置候選項之間內插聽者位置。 實例8c。一種音頻解碼裝置,其包含:一記憶體裝置,其經組態以儲存聽者位置及與三維(3D)音場之一或多個前景音頻對象相關聯的各別位置,與該一或多個前景音頻對象相關聯的各別位置係自與3D音場相關聯之視頻資料獲得;及處理電路,其耦接至該記憶體裝置,該處理電路經組態以判定聽者位置同與3D音場之一或多個前景音頻對象相關聯之各別位置之間的相對前景位置資訊。 實例9c。如實例8c之音頻解碼裝置,該處理電路經進一步組態以應用座標系統以判定相對前景位置資訊。 實例10c。如實例8c或9c中之任一者的音頻解碼裝置,該處理電路經進一步組態以藉由偵測一裝置判定聽者位置資訊。 實例11c。如實例10c之音頻解碼裝置,其中該所偵測裝置包含虛擬實境(VR)耳機、混合實境(MR)耳機或增強實境(AR)耳機中之一或多者。 實例12c。如實例8c或9c中之任一者的音頻解碼裝置,該處理電路經進一步組態以藉由偵測一個人判定聽者位置資訊。 實例13c。如實例8c或9c中之任一者的音頻解碼裝置,該處理電路經進一步組態以使用基於點雲之內插程序判定聽者位置。 實例14c。如實例13c之音頻解碼裝置,該處理電路經進一步組態以:獲得複數個聽者位置候選項;及在所獲得複數個聽者位置候選項中之至少兩個聽者位置候選項之間內插聽者位置。 實例15c。一種音頻解碼設備,其包含:用於判定聽者位置同與三維(3D)音場之一或多個前景音頻對象相關聯的各別位置之間的相對前景位置資訊的構件,與一或多個前景音頻對象相關聯之各別位置係自與3D音場相關聯的視頻資料獲得。 實例16c。一種編碼有指令之非暫時性電腦可讀儲存媒體,該等指令當執行時引起音頻解碼裝置之處理電路:判定聽者位置同與三維(3D)音場之一或多個前景音頻對象相關聯的各別位置之間的相對前景位置資訊,與一或多個前景音頻對象相關聯之各別位置係自與3D音場相關聯之視頻資料獲得。 實例1d。一種方法,其包含:產生與包括三維(3D)音場之音頻對象之經編碼表示的位元串流相關聯之後設資料,該後設資料包括關於音頻對象之傳輸因數、聽者位置資訊同與音頻對象之前景音頻對象相關聯的各別位置之間的相對前景位置資訊,或用於音頻對象之一或多個靜默對象的位置資訊中之一或多者。 實例2d。如實例1d之方法,其中產生後設資料包含基於與靜默對象及前景音頻對象相關聯之衰減資訊產生傳輸因數。 實例3d。如方法項2d,其中傳輸因數表示關於前景音頻對象基於靜默對象之位置資訊的能量衰減資訊。 實例4d。如實例2d或3d中之任一者的方法,其中傳輸因數表示關於前景音頻對象之基於靜默對象之位置資訊的方向衰減資訊。 實例5d。如實例2d至4d中之任一者的方法,其進一步包含基於聽者位置資訊及靜默對象之位置資訊而判定傳輸因數。 實例6d。如實例2d至5d中之任一者的方法,其進一步包含基於聽者位置資訊及前景音頻對象之位置資訊而判定傳輸因數。 實例7d。如實例1d至6d中之任一者的方法,其進一步包含:產生包括3D音場之音頻對象的經編碼表示的位元串流;及發信該位元串流。 實例8d。如實例7d之方法,其進一步包含發信位元串流內之後設資料。 實例9d。如實例7d之方法,其進一步包含相對於位元串流在帶外發信後設資料。 實例10d。方法包含:獲得包括關於三維(3D)音場之一或多個音頻對象之傳輸因數的後設資料;及應用傳輸因數至與3D音場之一或多個音頻對象相關聯的音頻信號。 實例11d。如實例10d之方法,其中應用傳輸因數至音頻信號包含使一或多個音頻信號之能量資訊衰減。 實例12d。如實例10d或11d中之任一者的方法,其中該一或多個音頻對象包含3D音場之前景音頻對象。 實例13d。一種音頻編碼裝置,其包含:一記憶體裝置,其經組態以儲存三維(3D)音場之音頻對象的經編碼表示;及處理電路,其耦接至記憶體裝置且經組態以產生與包括3D音場之音頻對象之經編碼表示的位元串流相關聯的後設資料,該後設資料包括關於音頻對象之傳輸因數、聽者位置資訊同與音頻對象的前景音頻對象相關聯之各別位置之間的相對前景位置資訊,或音頻對象之一或多個靜默對象的位置資訊中之一或多者。 實例14d。如實例13d之音頻編碼裝置,處理電路經組態以基於與靜默對象及前景音頻對象相關聯之衰減資訊產生傳輸因數。 實例15d。如實例14d之音頻編碼裝置,其中傳輸因數表示關於前景音頻對象之基於靜默對象之位置資訊的能量衰減資訊。 實例16d。如實例14d或15d中之任一者的音頻編碼裝置,其中傳輸因數表示關於前景音頻對象之基於靜默對象之位置資訊的方向衰減資訊。 實例17d。如實例14d至16d中之任一者的音頻編碼裝置,處理電路經進一步組態以基於聽者位置資訊及靜默對象之位置資訊判定傳輸因數。 實例18d。如實例14d至17d中之任一者的音頻編碼裝置,處理電路經進一步組態以基於聽者位置資訊及前景音頻對象之位置資訊判定傳輸因數。 實例19d。如實例13d至18d中之任一者的音頻編碼裝置,處理電路經進一步組態以:產生包括3D音場之音頻對象之經編碼表示的位元串流;及發信位元串流。 實例20d。如實例19d之音頻編碼裝置,處理電路經組態以發信位元串流內之後設資料。 實例21d。如實例19d之音頻編碼裝置,處理電路經組態以相對於位元串流在帶外發信後設資料。 實例22d。一種音頻解碼裝置,其包含:一記憶體裝置,其經組態以儲存三維(3D)音場之一或多個音頻對象;及處理電路,其耦接至記憶體裝置,且經組態以:獲得包括關於3D音場之一或多個音頻對象之傳輸因數的後設資料;及將傳輸因數應用於與3D音場之一或多個音頻對象相關聯的音頻信號。 實例23d。如實例22d之音頻解碼裝置,處理電路經進一步組態以使一或多個音頻信號之能量資訊衰減。 實例24d。如實例22d或23d中之任一者的音頻解碼裝置,其中一或多個音頻對象包含3D音場之前景音頻對象。 實例25d。一種音頻編碼設備,其包含:用於產生與包括三維(3D)音場之音頻對象之經編碼表示的位元串流相關聯之後設資料的構件,該後設資料包括關於音頻對象之傳輸因數、聽者位置資訊同與音頻對象之前景音頻對象相關聯的各別位置之間的相對前景位置資訊,或用於音頻對象之一或多個靜默對象的位置資訊中之一或多者。 實例26d。一種音頻解碼設備,其包含:用於獲得包括關於三維(3D)音場之一或多個音頻對象的傳輸因數之後設資料的構件;及用於應用傳輸因數至與3D音場之一或多個音頻對象相關聯的音頻信號的構件。 實例27d。一種積體裝置,其包含:實例13d之音頻編碼裝置;及實例14d之音頻解碼裝置。 實例1e。一種顯現三維(3D)音場之方法,該方法包含:應用傳輸因數至前景音頻對象之前景音頻信號以使前景音頻信號之一或多個特性衰減。 實例2e。如實例1e之方法,其中使前景音頻信號之特性衰減包含使前景音頻信號之能量衰減。 實例3e。如實例1e或2e中之任一者的方法,其進一步包含應用平移因數至背景音頻對象。 實例4e。一種音頻解碼裝置,其包含:一記憶體裝置,其經組態以儲存三維(3D)音場之前景音頻對象;及處理電路,其耦接至記憶體裝置且經組態以應用傳輸因數至前景音頻對象之前景音頻信號以使前景音頻信號之一或多個特性衰減。 實例5e。如實例4e之音頻解碼裝置,處理電路經組態以使前景音頻信號之能量衰減。 實例6e。如實例4e或5e中之任一者的音頻解碼裝置,處理電路經進一步組態以將平移因數應用於背景音頻對象。 實例7e。一種音頻解碼設備,其包含:用於應用傳輸因數至三維(3d)音場之前景音頻對象之前景音頻信號以使前景音頻信號之一或多個特性衰減的構件。 實例1f。一種顯現三維(3D)音場之方法,該方法包含:對於複數個前景音頻對象之每一各別前景音頻對象,計算傳輸因數、前景音頻信號及方向向量之各別集合的各別乘積;及計算該複數個前景音頻對象之所有前景音頻對象的各別乘積的和。 實例2f。如實例1f之方法,其進一步包含:對於複數個背景音頻對象中之每一各別背景音頻對象,計算各別背景音頻信號與各別平移因數之各別乘積;及計算該複數個背景音頻對象之所有背景音頻對象之各別乘積的和。 實例3f。如實例2f之方法,其進一步包含將前景音頻對象之乘積的和相加至背景音頻對象之乘積的和。 實例4f。如實例1f至3f中之任一者的方法,其進一步包含在高階立體混響(HOA)域中執行所有計算。 實例5f。一種音頻解碼裝置,其包含:一記憶體裝置,其經組態以儲存三維(3D)音場之複數個前景音頻對象;及處理電路,其耦接至記憶體裝置,且經組態以:對於該複數個前景音頻對象之每一各別前景音頻對象,計算傳輸因數、前景音頻信號及方向向量之各別集合的各別乘積;及計算該複數個前景音頻對象之所有前景音頻對象的各別乘積之和。 實例6f。如實例5f之音頻解碼裝置,記憶體裝置經進一步組態以儲存複數個背景音頻對象,處理電路經進一步組態以:對於複數個背景音頻對象中之每一各別背景音頻對象,計算各別背景音頻信號與各別平移因數之各別乘積;及計算該複數個背景音頻對象之所有背景音頻對象的各別乘積之和。 實例7f。如實例6f之音頻解碼裝置,處理電路經進一步組態以將前景音頻對象的乘積之和相加至背景音頻對象的乘積之和。 實例8f。如實例5f至7f中之任一者的音頻解碼裝置,處理電路經進一步組態以在高階立體混響(HOA)域中執行所有計算。 實例9f。一種音頻解碼設備,其包含:用於對於三維(3D)音場之複數個前景音頻對象之每一各別前景音頻對象,計算傳輸因數、前景音頻信號及方向向量之各別者的各別乘積的構件;及用於計算該複數個前景音頻對象之所有前景音頻對象的各別乘積的和的構件。 應理解,取決於實例,本文所描述之方法中之任一者的某些動作或事件可以不同序列被執行、可被添加、合併或完全省去(例如,並非所有所描述動作或事件為實踐該等技術所必要)。此外,在某些實例中,可例如經由多線程處理、中斷處理或多個處理器同時而非順序執行動作或事件。 另外,儘管出於清晰之目的,本發明之某些態樣被描述為由單一模組或單元執行,但應理解,本發明之技術可藉由與視頻寫碼器相關聯之單元或模組之組合來執行。 在一或多個實例中,所描述功能可以硬體、軟體、韌體或其任何組合來實施。若實施於軟體中,則該等功能可作為一或多個指令或程式碼而儲存於電腦可讀媒體上或經由電腦可讀媒體進行傳輸,且由基於硬體之處理單元執行。電腦可讀媒體可包括電腦可讀儲存媒體(其對應於諸如資料儲存媒體之有形媒體)或通信媒體(其包括(例如)根據通信協定促進電腦程式自一處傳送至另一處的任何媒體)。 以此方式,電腦可讀媒體通常可對應於(1)非暫時性之有形電腦可讀儲存媒體,或(2)諸如信號或載波之通信媒體。資料儲存媒體可為可藉由一或多個電腦或一或多個處理器存取以擷取指令、程式碼及/或資料結構以用於實施本發明所描述之技術的任何可用媒體。電腦程式產品可包括電腦可讀媒體。 藉由實例而非限制,此等電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存裝置、快閃記憶體或可用於儲存呈指令或資料結構形式之所要程式碼且可由電腦存取的任何其他媒體。而且,任何連接被恰當地稱為電腦可讀媒體。舉例而言,若使用同軸纜線、光纖纜線、雙絞線、數位用戶線(DSL)或諸如紅外線、無線電及微波之無線技術,自網站、伺服器或其他遠端源來傳輸指令,則同軸纜線、光纖纜線、雙絞線、DSL或諸如紅外線、無線電及微波之無線技術包括於媒體之定義中。 然而,應理解,電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體,而實情為係關於非暫時性有形儲存媒體。如本文中所使用之磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位多功能光碟(DVD)、軟碟及藍光光碟,其中磁碟通常以磁性方式再生資料,而光碟用雷射以光學方式再生資料。以上各者的組合亦應包括於電腦可讀媒體之範疇內。 可由一或多個處理器執行指令,該一或多個處理器諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效之整合或離散邏輯電路。因此,如本文中所使用之術語「處理器」可指上述結構或適合於實施本文中所描述之技術的任何其他結構中之任一者。術語「處理器」可形成於一或多個微處理器、特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)、數位信號處理器(DSP)、處理電路(包括固定功能電路及/或可程式化處理電路)或其他等效積體或離散邏輯電路中。此外,在一些態樣中,本文所描述之功能性可提供於經組態以供編碼及解碼或併入於經組合編解碼器中之專用硬體及/或軟體模組內。此外,該等技術可完全實施於一或多個電路或邏輯元件中。 本發明之技術可實施在多種裝置或設備中,包括無線手機、積體電路(IC)或IC集合(例如晶片組)。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術之裝置的功能態樣,但未必需要藉由不同硬體單元來實現。確切而言,如上文所描述,各種單元可與合適的軟體及/或韌體一起組合於編碼解碼器硬體單元中或由互操作性硬體單元之集合提供,硬件單元包括如上文所描述之一或多個處理器。 已描述該等技術之各種實施例。此等及其他實施例係在以下申請專利範圍之範疇內。
3‧‧‧揚聲器座
5‧‧‧麥克風座
7‧‧‧實時記錄座
9‧‧‧音頻對象座
10‧‧‧系統座
10B‧‧‧系統座
10C‧‧‧系統座
10D‧‧‧系統座
11‧‧‧HOA係數座
11'‧‧‧HOA係數座
12‧‧‧內容創建者裝置座
13‧‧‧擴音器資訊座
14‧‧‧內容消費者裝置座
16‧‧‧音頻播放系統座
18‧‧‧音頻編輯系統座
20‧‧‧音頻編碼裝置座
21‧‧‧位元串流座
22‧‧‧顯現器座
23‧‧‧後設資料座
24‧‧‧音頻解碼裝置座
25‧‧‧擴音器饋入座
30A‧‧‧VR場景座
30B‧‧‧虛擬場景座
30C‧‧‧虛擬場景座
30D‧‧‧虛擬場景座
40A‧‧‧虛擬場景座
40B‧‧‧虛擬場景座
50A‧‧‧編碼程序座
50B‧‧‧編碼程序座
50C‧‧‧編碼程序座
50D‧‧‧程序座
52‧‧‧圖例座
70‧‧‧解碼程序座
90‧‧‧程序座
460‧‧‧汽車座
462‧‧‧飛行裝置座
464‧‧‧機器人裝置座
1200‧‧‧程序座
1300‧‧‧程序座
1400‧‧‧程序座
1500‧‧‧程序座
1600‧‧‧程序座
1700‧‧‧程序座
1800‧‧‧程序
圖1為說明自零階(n = 0)至四階(n = 4)之球諧基底函數的圖。 圖2A為說明可執行本發明中所描述之技術之各種態樣的系統的圖。 圖2B至圖2D為說明圖2A之實例中展示的系統之不同實例的圖。 圖3為說明用於AVR及/或AR應用之六自由度(6-DOF)頭部運動方案的圖。 圖4A至圖4D為說明可在VR場景中呈現的位差問題之實例的圖。 圖5A及圖5B為說明可在VR場景中呈現的位差問題之另一實例的圖。 圖6A至圖6D為說明本發明之各種編碼器側技術的流程圖。 圖7為說明根據本發明態樣之音頻解碼裝置可執行的解碼程序之流程圖。 圖8為說明根據本發明之態樣的音頻編碼裝置可實施以分類靜默對象、前景對象及背景對象的對象分類機制之圖。 圖9A為說明根據本發明之態樣的來自多個麥克風及攝影機之音頻/視頻捕捉資料之拼接的實例之圖。 圖9B為說明根據本發明之態樣的包括運用拼接及內插的位差調整之編碼器及解碼器側操作的程序之流程圖。 圖9C為說明在多個位置處的前景對象及背景對象之捕捉的圖。 圖9D說明根據本發明之態樣的音頻解碼裝置可執行的內插技術之數學表達。 圖9E為說明根據本發明之態樣的音頻解碼裝置可實施的基於點雲之內插之應用的圖。 圖10為說明根據本發明之態樣的音頻解碼裝置可執行的前景音頻對象之衰減的HOA域計算之態樣的圖。 圖11為說明根據本發明之一或多種技術的音頻編碼裝置可執行的傳輸因數計算之態樣的圖。 圖12為說明根據本發明之態樣的可藉由整合編碼/顯現裝置執行的程序之圖。 圖13為說明根據本發明之態樣的音頻編碼裝置或整合編碼/顯現裝置可執行的程序之流程圖。 圖14說明根據本發明之態樣的音頻解碼裝置或整合編碼/解碼/顯現裝置可執行的實例程序之流程圖。 圖15為說明根據本發明之態樣的音頻解碼裝置或整合編碼/解碼/顯現裝置可執行的實例程序之流程圖。 圖16為說明根據本發明之態樣的音頻編碼裝置或整合編碼/顯現裝置可執行的程序之流程圖。 圖17為說明根據本發明之態樣的音頻解碼裝置或整合編碼/解碼/顯現裝置可執行的實例程序之流程圖。 圖18為說明根據本發明之態樣的音頻解碼裝置或整合編碼/解碼/顯現裝置可執行的實例程序之流程圖。
Claims (30)
- 一種音頻解碼裝置,其包含: 處理電路,其經組態以: 在一位元串流中接收一三維(3D)音場之音頻對象的經編碼表示; 接收與該位元串流相關聯之後設資料; 自該接收之後設資料獲得與該等音頻對象中之一或多者相關聯的一或多個傳輸因數;及 將該等傳輸因數應用於該一或多個音頻對象以獲得該3D音場之經位差調整音頻對象;及 一記憶體裝置,其耦接至該處理電路,該記憶體裝置經組態以儲存該接收之位元串流的至少一部分、該接收之後設資料或該3D音場的該經位差調整之音頻對象。
- 如請求項1之音頻解碼裝置,該處理電路經進一步組態以: 判定聽者位置資訊; 除了將該等傳輸因數應用於該一或多個音頻對象之外,亦將該聽者位置資訊應用於該一或多個音頻對象。
- 如請求項2之音頻解碼裝置,該處理電路經進一步組態以應用該聽者位置資訊同與該一或多個音頻對象之前景音頻對象相關聯的各別位置之間的相對前景位置資訊。
- 如請求項3之音頻解碼裝置,該處理電路經進一步組態以應用一座標系統以判定該相對前景位置資訊。
- 如請求項2之音頻解碼裝置,該處理電路經進一步組態以藉由偵測一裝置而判定該聽者位置資訊。
- 如請求項5之音頻解碼裝置,其中該所偵測裝置包含一虛擬實境(VR)耳機、一混合實境(MR)耳機或一增強實境(AR)耳機中之一或多者。
- 如請求項2之音頻解碼裝置,該處理電路經進一步組態以藉由偵測一個人而判定該聽者位置資訊。
- 如請求項2之音頻解碼裝置,該處理電路經進一步組態以使用一基於點雲之內插程序而判定該聽者位置。
- 如請求項8之音頻解碼裝置,該處理電路經進一步組態以: 獲得複數個聽者位置候選項;及 在該獲得之複數個聽者位置候選項中之至少兩個聽者位置候選項之間內插該聽者位置。
- 如請求項1之音頻解碼裝置,該處理電路經進一步組態以應用使用與該一或多個音頻對象之背景音頻對象相關聯之各別位置計算的背景平移因數。
- 如請求項1之音頻解碼裝置,該處理電路經進一步組態以: 判定用於該等各別前景音頻對象之一最小傳輸值; 判定將該等傳輸因數應用於該等各別前景音頻對象是否產生低於該最小傳輸值之一經調整傳輸值;及 回應於判定低於該最小傳輸值之該經調整傳輸值,使用該最小傳輸值顯現該等各別前景音頻對象。
- 如請求項1之音頻解碼裝置,該處理電路經進一步組態以將前景衰減因數應用於該一或多個音頻對象之各別前景音頻對象。
- 如請求項12之音頻解碼裝置,該處理電路經進一步組態以調整該等各別前景音頻對象之一能量。
- 如請求項12之音頻解碼裝置,該處理電路經進一步組態以使該等各別前景音頻對象之各別能量衰減。
- 如請求項12之音頻解碼裝置,該處理電路經進一步組態以調整該等各別前景音頻對象之方向特性。
- 如請求項12之音頻解碼裝置,該處理電路經進一步組態以調整該等各別前景音頻對象之位差資訊。
- 如請求項16之音頻解碼裝置,該處理電路經進一步組態以調整該位差資訊以考慮在與該3D音場相關聯之一視頻串流中表示的一或多個靜默對象。
- 如請求項1之音頻解碼裝置,該處理電路經進一步組態以接收該位元串流內之該後設資料。
- 如請求項1之音頻解碼裝置,該處理電路經進一步組態以相對於該位元串流在帶外接收該後設資料。
- 如請求項1之音頻解碼裝置,該處理電路經進一步組態以輸出與該3D音場相關聯的視頻資料至一或多個顯示器。
- 如請求項20之音頻解碼裝置,其進一步包含該一或多個顯示器,該一或多個顯示器經組態以: 自該處理電路接收該視頻資料;及 以視覺形式輸出該接收之視頻資料。
- 如請求項1之音頻解碼裝置,該處理電路經進一步組態以使該一或多個音頻對象之一前景音頻對象的一能量衰減。
- 如請求項1之音頻解碼裝置,該處理電路經進一步組態以將一平移因數應用於一背景音頻對象。
- 如請求項1之音頻解碼裝置,該處理電路經進一步組態以: 對於該一或多個音頻對象的複數個背景音頻對象中之每一各別背景音頻對象,計算一各別背景音頻信號與一各別平移因數之一各別乘積;及 計算該複數個背景音頻對象之所有背景音頻對象的該等各別乘積之一和。
- 如請求項24之音頻解碼裝置,該處理電路經進一步組態以將該等前景音頻對象的該等乘積之該和相加至該等背景音頻對象的該等乘積之該和。
- 一種方法,其包含: 在一位元串流中接收一三維(3D)音場之音頻對象的經編碼表示; 接收與該位元串流相關聯之後設資料; 自該接收之後設資料獲得與該等音頻對象中之一或多者相關聯的一或多個傳輸因數;及 將該等傳輸因數應用於該一或多個音頻對象以獲得該3D音場之經位差調整音頻對象。
- 如請求項26之方法,其進一步包含: 判定聽者位置資訊;及 除了將該等傳輸因數應用於該一或多個音頻對象之外,亦將該聽者位置資訊應用於該一或多個音頻對象。
- 如請求項27之方法,其中應用該等傳輸因數及該聽者位置資訊包含應用該聽者位置資訊同與該一或多個音頻對象之前景音頻對象相關聯之各別位置之間的相對前景位置資訊。
- 一種音頻解碼設備,其包含: 用於在一位元串流中接收一三維(3D)音場之音頻對象的經編碼表示的構件; 用於接收與該位元串流相關聯之後設資料的構件; 用於自該接收之後設資料獲得與該等音頻對象中之一或多者相關聯的一或多個傳輸因數的構件;及 用於將該等傳輸因數應用於該一或多個音頻對象以獲得該3D音場之經位差調整音頻對象的構件。
- 一種編碼有指令之非暫時性電腦可讀儲存媒體,該等指令當執行時引起一音頻解碼裝置之處理電路執行以下操作: 在一位元串流中接收一三維(3D)音場之音頻對象的經編碼表示; 接收與該位元串流相關聯之後設資料; 自該接收之後設資料獲得與該等音頻對象中之一或多者相關聯的一或多個傳輸因數;及 將該等傳輸因數應用於該一或多個音頻對象以獲得該3D音場之經位差調整音頻對象。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762446324P | 2017-01-13 | 2017-01-13 | |
US62/446,324 | 2017-01-13 | ||
US15/868,656 | 2018-01-11 | ||
US15/868,656 US10659906B2 (en) | 2017-01-13 | 2018-01-11 | Audio parallax for virtual reality, augmented reality, and mixed reality |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201830380A true TW201830380A (zh) | 2018-08-16 |
Family
ID=61132913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107101265A TW201830380A (zh) | 2017-01-13 | 2018-01-12 | 用於虛擬實境,增強實境及混合實境之音頻位差 |
Country Status (4)
Country | Link |
---|---|
US (2) | US10659906B2 (zh) |
CN (2) | CN110168638B (zh) |
TW (1) | TW201830380A (zh) |
WO (1) | WO2018132677A1 (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10659906B2 (en) | 2017-01-13 | 2020-05-19 | Qualcomm Incorporated | Audio parallax for virtual reality, augmented reality, and mixed reality |
US20180284894A1 (en) * | 2017-03-31 | 2018-10-04 | Intel Corporation | Directional haptics for immersive virtual reality |
US10405126B2 (en) | 2017-06-30 | 2019-09-03 | Qualcomm Incorporated | Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems |
AU2018298878A1 (en) | 2017-07-14 | 2020-01-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for generating an enhanced sound-field description or a modified sound field description using a depth-extended dirac technique or other techniques |
AR112504A1 (es) * | 2017-07-14 | 2019-11-06 | Fraunhofer Ges Forschung | Concepto para generar una descripción mejorada de campo de sonido o un campo de sonido modificado utilizando una descripción multi-capa |
RU2736418C1 (ru) | 2017-07-14 | 2020-11-17 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием многоточечного описания звукового поля |
RU2750505C1 (ru) * | 2017-10-12 | 2021-06-29 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Оптимизация доставки звука для приложений виртуальной реальности |
US10848894B2 (en) * | 2018-04-09 | 2020-11-24 | Nokia Technologies Oy | Controlling audio in multi-viewpoint omnidirectional content |
WO2019199046A1 (ko) * | 2018-04-11 | 2019-10-17 | 엘지전자 주식회사 | 무선 통신 시스템에서 오디오에 대한 메타데이터를 송수신하는 방법 및 장치 |
US11435977B2 (en) * | 2018-04-20 | 2022-09-06 | Lg Electronics Inc. | Method for transmitting and receiving audio data related to transition effect and device therefor |
EP3623908A1 (en) * | 2018-09-14 | 2020-03-18 | InterDigital CE Patent Holdings | A system for controlling audio-capable connected devices in mixed reality environments |
US11128976B2 (en) * | 2018-10-02 | 2021-09-21 | Qualcomm Incorporated | Representing occlusion when rendering for computer-mediated reality systems |
GB201818959D0 (en) * | 2018-11-21 | 2019-01-09 | Nokia Technologies Oy | Ambience audio representation and associated rendering |
US10728689B2 (en) | 2018-12-13 | 2020-07-28 | Qualcomm Incorporated | Soundfield modeling for efficient encoding and/or retrieval |
EP3903510A1 (en) | 2018-12-24 | 2021-11-03 | DTS, Inc. | Room acoustics simulation using deep learning image analysis |
US20210006976A1 (en) * | 2019-07-03 | 2021-01-07 | Qualcomm Incorporated | Privacy restrictions for audio rendering |
US11937065B2 (en) * | 2019-07-03 | 2024-03-19 | Qualcomm Incorporated | Adjustment of parameter settings for extended reality experiences |
US11354085B2 (en) * | 2019-07-03 | 2022-06-07 | Qualcomm Incorporated | Privacy zoning and authorization for audio rendering |
US11026037B2 (en) * | 2019-07-18 | 2021-06-01 | International Business Machines Corporation | Spatial-based audio object generation using image information |
US11356793B2 (en) * | 2019-10-01 | 2022-06-07 | Qualcomm Incorporated | Controlling rendering of audio data |
US11356796B2 (en) * | 2019-11-22 | 2022-06-07 | Qualcomm Incorporated | Priority-based soundfield coding for virtual reality audio |
CN111885414B (zh) * | 2020-07-24 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及可读存储介质 |
US11750998B2 (en) | 2020-09-30 | 2023-09-05 | Qualcomm Incorporated | Controlling rendering of audio data |
US11743670B2 (en) | 2020-12-18 | 2023-08-29 | Qualcomm Incorporated | Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications |
EP4068076A1 (en) * | 2021-03-29 | 2022-10-05 | Nokia Technologies Oy | Processing of audio data |
WO2024081504A1 (en) * | 2022-10-11 | 2024-04-18 | Dolby Laboratories Licensing Corporation | Conversion of scene based audio representations to object based audio representations |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2374507B (en) | 2001-01-29 | 2004-12-29 | Hewlett Packard Co | Audio user interface with audio cursor |
EP2154911A1 (en) * | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus for determining a spatial output multi-channel audio signal |
WO2010070225A1 (fr) | 2008-12-15 | 2010-06-24 | France Telecom | Codage perfectionne de signaux audionumeriques multicanaux |
RU2558612C2 (ru) * | 2009-06-24 | 2015-08-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Декодер аудиосигнала, способ декодирования аудиосигнала и компьютерная программа с использованием ступеней каскадной обработки аудиообъектов |
US8587631B2 (en) | 2010-06-29 | 2013-11-19 | Alcatel Lucent | Facilitating communications using a portable communication device and directed sound output |
US10326978B2 (en) | 2010-06-30 | 2019-06-18 | Warner Bros. Entertainment Inc. | Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning |
US9122053B2 (en) * | 2010-10-15 | 2015-09-01 | Microsoft Technology Licensing, Llc | Realistic occlusion for a head mounted augmented reality display |
GB201211512D0 (en) | 2012-06-28 | 2012-08-08 | Provost Fellows Foundation Scholars And The Other Members Of Board Of The | Method and apparatus for generating an audio output comprising spartial information |
US9338420B2 (en) | 2013-02-15 | 2016-05-10 | Qualcomm Incorporated | Video analysis assisted generation of multi-channel audio data |
WO2014204330A1 (en) | 2013-06-17 | 2014-12-24 | 3Divi Company | Methods and systems for determining 6dof location and orientation of head-mounted display and associated user movements |
US9451162B2 (en) | 2013-08-21 | 2016-09-20 | Jaunt Inc. | Camera array including camera modules |
EP2866227A1 (en) * | 2013-10-22 | 2015-04-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder |
GB2523555B (en) | 2014-02-26 | 2020-03-25 | Sony Interactive Entertainment Europe Ltd | Image encoding and display |
EP2934025A1 (en) * | 2014-04-15 | 2015-10-21 | Thomson Licensing | Method and device for applying dynamic range compression to a higher order ambisonics signal |
US9612722B2 (en) | 2014-10-31 | 2017-04-04 | Microsoft Technology Licensing, Llc | Facilitating interaction between users and their environments using sounds |
WO2016077320A1 (en) * | 2014-11-11 | 2016-05-19 | Google Inc. | 3d immersive spatial audio systems and methods |
US9767618B2 (en) | 2015-01-28 | 2017-09-19 | Samsung Electronics Co., Ltd. | Adaptive ambisonic binaural rendering |
US9712936B2 (en) | 2015-02-03 | 2017-07-18 | Qualcomm Incorporated | Coding higher-order ambisonic audio data with motion stabilization |
US9530426B1 (en) | 2015-06-24 | 2016-12-27 | Microsoft Technology Licensing, Llc | Filtering sounds for conferencing applications |
CN108370487B (zh) | 2015-12-10 | 2021-04-02 | 索尼公司 | 声音处理设备、方法和程序 |
US10034066B2 (en) | 2016-05-02 | 2018-07-24 | Bao Tran | Smart device |
WO2017197156A1 (en) | 2016-05-11 | 2017-11-16 | Ossic Corporation | Systems and methods of calibrating earphones |
US10089063B2 (en) | 2016-08-10 | 2018-10-02 | Qualcomm Incorporated | Multimedia device for processing spatialized audio based on movement |
US11032663B2 (en) * | 2016-09-29 | 2021-06-08 | The Trustees Of Princeton University | System and method for virtual navigation of sound fields through interpolation of signals from an array of microphone assemblies |
EP3301951A1 (en) * | 2016-09-30 | 2018-04-04 | Koninklijke KPN N.V. | Audio object processing based on spatial listener information |
US10659906B2 (en) | 2017-01-13 | 2020-05-19 | Qualcomm Incorporated | Audio parallax for virtual reality, augmented reality, and mixed reality |
US10158963B2 (en) | 2017-01-30 | 2018-12-18 | Google Llc | Ambisonic audio with non-head tracked stereo based on head position and time |
US10133544B2 (en) | 2017-03-02 | 2018-11-20 | Starkey Hearing Technologies | Hearing device incorporating user interactive auditory display |
US10242486B2 (en) | 2017-04-17 | 2019-03-26 | Intel Corporation | Augmented reality and virtual reality feedback enhancement system, apparatus and method |
US11164606B2 (en) | 2017-06-30 | 2021-11-02 | Qualcomm Incorporated | Audio-driven viewport selection |
-
2018
- 2018-01-11 US US15/868,656 patent/US10659906B2/en active Active
- 2018-01-12 CN CN201880005983.4A patent/CN110168638B/zh active Active
- 2018-01-12 TW TW107101265A patent/TW201830380A/zh unknown
- 2018-01-12 CN CN202310509268.7A patent/CN116564318A/zh active Pending
- 2018-01-12 WO PCT/US2018/013526 patent/WO2018132677A1/en active Application Filing
-
2020
- 2020-04-30 US US16/863,626 patent/US10952009B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20180206057A1 (en) | 2018-07-19 |
US10952009B2 (en) | 2021-03-16 |
US20200260210A1 (en) | 2020-08-13 |
CN110168638A (zh) | 2019-08-23 |
CN116564318A (zh) | 2023-08-08 |
CN110168638B (zh) | 2023-05-09 |
WO2018132677A1 (en) | 2018-07-19 |
US10659906B2 (en) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10952009B2 (en) | Audio parallax for virtual reality, augmented reality, and mixed reality | |
CN111466124B (zh) | 用于渲染用户的视听记录的方法,处理器系统和计算机可读介质 | |
CN112771894B (zh) | 针对计算机介导现实系统进行渲染时表示遮挡 | |
CN109906616A (zh) | 用于确定一或多个音频源的一或多个音频表示的方法、系统和设备 | |
WO2018122449A1 (en) | An apparatus and associated methods in the field of virtual reality | |
TWI713017B (zh) | 用於處理媒介資料之器件及方法與其之非暫時性電腦可讀儲存媒體 | |
US10728689B2 (en) | Soundfield modeling for efficient encoding and/or retrieval | |
CN114424587A (zh) | 控制音频数据的呈现 | |
CN114747231A (zh) | 基于运动来选择音频流 | |
US20240089694A1 (en) | A Method and Apparatus for Fusion of Virtual Scene Description and Listener Space Description | |
CN114072792A (zh) | 用于音频渲染的基于密码的授权 | |
Kim et al. | Immersive audio-visual scene reproduction using semantic scene reconstruction from 360 cameras | |
TW202024896A (zh) | 六自由度及三自由度向後相容性 | |
TW202105164A (zh) | 用於低頻率效應之音訊呈現 | |
EP3777248A1 (en) | An apparatus, a method and a computer program for controlling playback of spatial audio | |
US11272308B2 (en) | File format for spatial audio | |
US20220036075A1 (en) | A system for controlling audio-capable connected devices in mixed reality environments | |
US20220386060A1 (en) | Signalling of audio effect metadata in a bitstream | |
US11184731B2 (en) | Rendering metadata to control user movement based audio rendering | |
US11967329B2 (en) | Signaling for rendering tools | |
CN114128312B (zh) | 用于低频效果的音频渲染 | |
Okubo et al. | Directional Sound Source Representation Using Paired Microphone Array with Different Characteristics Suitable for Volumetric Video Capture | |
Mušanovic et al. | 3D sound for digital cultural heritage | |
CN116472725A (zh) | 用于增强现实/虚拟现实音频的智能混合渲染 |