TW202126048A - 用於沈浸式視訊的編碼方案 - Google Patents
用於沈浸式視訊的編碼方案 Download PDFInfo
- Publication number
- TW202126048A TW202126048A TW109132693A TW109132693A TW202126048A TW 202126048 A TW202126048 A TW 202126048A TW 109132693 A TW109132693 A TW 109132693A TW 109132693 A TW109132693 A TW 109132693A TW 202126048 A TW202126048 A TW 202126048A
- Authority
- TW
- Taiwan
- Prior art keywords
- video
- view
- data
- source
- views
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 100
- 238000005070 sampling Methods 0.000 claims abstract description 15
- 238000001914 filtration Methods 0.000 claims description 60
- 238000012360 testing method Methods 0.000 claims description 49
- 238000012545 processing Methods 0.000 claims description 35
- 238000004422 calculation algorithm Methods 0.000 claims description 30
- 238000010801 machine learning Methods 0.000 claims description 25
- 238000004458 analytical method Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013461 design Methods 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 description 17
- 238000013528 artificial neural network Methods 0.000 description 16
- 238000012549 training Methods 0.000 description 16
- 238000003860 storage Methods 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000009966 trimming Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 238000013526 transfer learning Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000003827 upregulation Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000023320 Luma <angiosperm> Species 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000007688 edging Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000012858 packaging process Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/139—Format conversion, e.g. of frame-rate or size
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/2365—Multiplexing of several video streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/161—Encoding, multiplexing or demultiplexing different image signal components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/172—Processing image signals image signals comprising non-image signal components, e.g. headers or format information
- H04N13/178—Metadata, e.g. disparity information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
- H04N19/139—Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/154—Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/59—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/21805—Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234345—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234363—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the spatial resolution, e.g. for clients with a lower screen resolution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/2662—Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440245—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/4728—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2213/00—Details of stereoscopic systems
- H04N2213/003—Aspects relating to the "2D+depth" image format
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Library & Information Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
提供編碼及解碼沈浸式視訊之方法。在一編碼方法中,將包含複數個來源視圖的來源視訊資料編碼至一視訊位元流中。該等來源視圖中之至少一者係在編碼前降取樣。與該視訊流相關聯之一後設資料位元流包含描述該降取樣之一組態的後設資料,以輔助一解碼器解碼該視訊位元流。據信,相較於基於補片的一編碼方法,使用經降取樣的視圖可有助於減少編碼假影。亦提供用於沈浸式視訊之一編碼器及一解碼器、及一沈浸式視訊位元流。
Description
本發明係關於視訊編碼。具體而言,其係關於用於編碼及解碼沈浸式視訊(immersive video)的方法及設備。
沈浸式視頻,亦已知為六自由度(six-degree-of-freedom, 6DoF)視訊,係三維(3D)場景的視訊,其允許場景之視圖針對在位置及定向上變化的視點來重建。其代表三自由度(3DoF)視訊的開發,其允許視圖針對具有任意定向的視點來重建,但僅在空間中的固定點。在3DoF中,自由度係角度的,亦即,俯仰、翻滾、及偏擺。3DoF視訊支援頭部旋轉;換言之,觀看該視訊之使用者可以場景中之任何方向來觀看,但無法移動至場景中之不同位置。6DoF視訊支援頭部旋轉且額外地支援場景中之位置(場景係從該位置觀看)的選擇。
為了產生6DoF,視訊需要多個攝影機來記錄場景。各攝影機產生影像資料(在此背景中通常稱為紋理資料)及對應的深度資料。對於各像素,深度資料表示藉由給定攝影機觀察到對應影像像素資料的深度。該多個攝影機之各者提供場景之各別視圖。在許多應用中,針對所有視圖的所有紋理資料及深度資料可能不是實用或有效率的。
為了減少視圖之間的冗餘,已提議針對視訊流之各框修整視圖並將其包裝入「紋理輿圖(texture atlas)」中。此方法嘗試減少或消除多個視圖之間的重疊部分,從而改善效率。不同視圖之非重疊部分(其在修整後仍保留)可稱為「補片(patch)」。此方法之一實例係描述於Alvaro Collet等人的著作「High-quality streamable free-viewpoint video」,ACM Trans. Graphics (SIGGRAPH), 34(4), 2015。
所欲的係改善沈浸式視訊之品質及編碼效率。如上文所述,使用修整以產生紋理輿圖的方法具有補片邊緣可能在解碼後所演現 (rendered) 的重建視圖中引起可見假影的問題。此特別係當補片邊緣不與內容中的自然邊緣對準時之情況(例如,若補片係選擇為矩形)。矩形補片可引起鋸齒狀邊界,成為經解碼輸出中的可見假影。反光強調(specular highlight)可對這些編碼方法造成特定困難,因為強調的位置隨各視圖而變化,即使物體的位置不改變。若物體的視圖係從取自多個視圖的多個補片重建,則視圖之間的變化可在該強調附近特別顯眼。此可在經解碼輸出中係可見的。
本發明由申請專利範圍定義。
根據本發明之一態樣的實例,提供一種編碼沈浸式視訊之方法,該方法包含:
接收來源視訊資料,該來源視訊資料包含複數個來源視圖,各來源視圖包含紋理資料及深度資料;
處理該來源視訊資料以產生經處理來源視訊資料,該處理包含降取樣該等來源視圖之一或多者;及
編碼該經處理來源視訊資料以產生一視訊位元流及一後設資料位元流,
其中該視訊位元流包含經編碼紋理資料及經編碼深度資料,且該後設資料位元流包含用於輔助一解碼器解碼該視訊位元流的後設資料,其中該後設資料描述在該一或多個來源視圖上所執行的該處理之一組態。
根據本方法的實施例,可避免對於修整視圖及產生補片的需求。取代將該等來源視圖修整並轉換成補片,可整體地編碼各來源視圖(但其中該等來源視圖之一或多者經次取樣以減少冗餘且從而減少資料速率)。
該紋理資料可至少包含明亮度(luma)(亦即,亮度或強度)資訊。其亦可包含色度(亦即,色彩)資訊。該深度資料可包含正規化深度資料,例如包含計算為1/Z的正規化深度值,其中Z係距一預定參考點或參考平面的深度。在各視圖中,該紋理資料及/或該深度資料可包含一2D像素陣列。
該處理包含降取樣該等來源視圖之一或多者。各來源視圖一般包含一二維像素陣列。降取樣意指藉由減少該視圖的解析度(在各別維度中)來減少此陣列的大小(在一或兩個維度中)。
除了降取樣以外,該處理可進一步包含濾波。例如,該處理可包含抗混疊(anti-alias)濾波,後續接著降取樣。該後設資料可描述該降取樣之一組態、該濾波之一組態、或該濾波及該降取樣兩者之該等組態。
將該一或多個來源視圖濾波及降取樣可包含將該紋理資料或該深度資料(或兩者)濾波及降取樣。該降取樣可藉由一比例因數來描述,例如在各維度中藉由2、4、或8之一因數來降取樣。注意,該紋理資料可藉由與該深度資料相同的因數或藉由一不同的因數來降取樣。
該經處理來源視訊資料的編碼可包括該紋理資料及/或該深度資料的有損壓縮。
該後設資料可進一步包含與該複數個來源視圖相關聯的攝影機參數。一般而言,攝影機參數可依使其等獨立於影像解析度的方式來指定。例如,該等攝影機參數可指定相對於該感測器寬度的該焦距,或者可使用正規化影像座標。替代地(例如,當焦距係相對於像素節距(亦已知為「像素單元」)來指定時),則該等攝影機參數可係指該等全解析度來源影像或該等降取樣影像。一般而言,該影像大小係從該視訊位元流得知,但其亦可係該後設資料的部分。該影像大小亦可係該攝影機參數組的部分。
在該後設資料中,該降取樣因數可藉由定義兩個不同的影像解析度(一者係以視訊位元流而另一者係以攝影機參數)來隱含地指定。該解碼器可藉由其用以計算該比例因數(藉由比較這些解析度)所需的設計/規格來理解。
一般而言,該編碼器輸出後設資料,其使該解碼器能夠判定已執行的降取樣之量。
該方法可進一步包含分析該來源視訊資料以選擇用於該處理之一組態,該處理包含根據該經選定組態之該一或多個來源視圖的降取樣(及可選地濾波)。
此可允許將該降取樣(及可選地濾波)調適至該來源視訊資料的該內容。例如,該分析可基於與該複數個來源視圖相關聯的該等攝影機參數。替代地或額外地,其可基於該等視圖之中的視覺內容之相似性(亦即,冗餘)。
在一些實施例中,該分析係在該來源視訊資料的該處理之前實行。在其他實施例中,該分析涉及或取決於該處理(濾波及降取樣)。
該分析可選地包含:分析該等視圖之中的視覺內容之相似性;指派一第一降取樣因數給一第一視圖;指派一第二降取樣因數給一第二視圖;及指派一第三降取樣因數給一第三視圖,其中若該第一視圖與該第二視圖之間的該相似性大於該第一視圖與該第三視圖之間的該相似性,則該第二降取樣因數高於該第三降取樣因數。
該分析可包含:基於該來源視訊資料來獲得至少一參考視圖;根據複數個不同組態將該等來源視圖的該一或多者濾波及降取樣;針對該複數個不同組態之各者:編碼各別之該經處理來源視訊資料以產生一候選視訊位元流;從該候選視訊位元流解碼該複數個來源視圖的一或多者;從經解碼之該一或多個來源視圖重建至少一個測試視圖,該至少一個測試視圖對應於該至少一個參考視圖;及比較該經重建測試視圖與該參考視圖,該分析進一步包含基於該比較的該等結果來選擇該組態,該方法進一步包含選擇與該選定組態相關聯的該候選視訊位元流作為該視訊位元流。
該至少一個參考視圖可包含該等來源視圖之一者。在一些實施例中,獲得至少一個參考視圖可包含從該來源視訊資料合成一參考視圖。該經合成參考視圖可對應於不同於該等來源視圖之一視埠(viewport)。
在一些實施例中,該分析包含選擇其經重建測試視圖最接近地匹配該參考視圖的該組態。換言之,該組態可基於減少或最小化該參考視圖與該經重建測試視圖之間的一誤差來選擇。
該方法可進一步包含使用一機器學習演算法來設計一重建濾波器,其中當將一或多個經解碼視圖升取樣及濾波時,該重建濾波器可由一解碼器使用,且該後設資料進一步包含該重建濾波器的一描述。
在一些實施例中,該機器學習演算法係一卷積類神經網路(convolutional neural network, CNN),其可選地使用轉移學習。
該重建濾波器之描述可包含用於一CNN之一組係數(權重)。該組權重可係部分的(例如,僅描述該CNN之一些層)或完整的。
設計該重建濾波器可包含使用該機器學習演算法來訓練該重建濾波器之濾波係數以減少一重建誤差。該重建誤差可包含一經重建測試視圖與一參考視圖之間的一差異。
該方法可包含:基於該來源視訊資料來獲得至少一個參考視圖;從該視訊位元流解碼該複數個來源視圖之一或多者;及界定對應於該參考視圖的一測試視圖,該測試視圖係從經解碼之該一或多個來源視圖來重建,其中設計該重建濾波器包含使用該機器學習演算法來訓練該重建濾波器的濾波係數,以便減少該測試視圖與該參考視圖之間的一誤差。
該機器學習演算法可經訓練以最小化該測試視圖與該參考視圖之間的該誤差。
該測試視圖及該參考視圖至少在其等具有相同視埠參數的意義上可彼此對應。
在一些情況下,該參考視圖可僅係該等來源視圖之一者,且該測試視圖係該來源視圖之一重建。(在此情況下,合成該參考視圖可包含單純複製該來源視圖。)在其他情況下,該參考視圖可係不同於該等來源視圖之任一者的一經合成視圖。
亦揭示一種解碼沈浸式視訊的方法,該方法包含:
接收一視訊位元流及一後設資料位元流,其中該視訊位元流包含用於複數個來源視圖之各者的經編碼紋理資料及經編碼深度資料,且該後設資料位元流包含用於輔助該視訊位元流之解碼的後設資料;
獲得待演現之至少一個目標視圖的視埠參數;
從該視訊位元流解碼該複數個來源視圖之一或多者;及
基於該等獲得的視埠參數,從經解碼之該一或多個來源視圖重建該至少一個目標視圖,
其中該後設資料描述當編碼該一或多個來源視圖時所執行的降取樣之一組態,且
該重建包含基於所描述之該組態來將經解碼之該一或多個來源視圖中之至少一者或其一衍生物升取樣及濾波。
一視圖之該等視埠參數可包括界定該視圖的一位置及定向。該等參數可進一步包括一視場。
該至少一個經解碼來源視圖的該衍生物可係一經合成目標視圖,該經合成目標視圖係衍生自該來源視圖(例如,藉由根據該等目標視埠參數以投射(projecting)/扭曲(warping)該來源視圖)。
該解碼方法可包含:從該視訊位元流解碼該複數個來源視圖中之至少兩者;且針對經解碼之該至少兩個來源視圖之各者,基於該等視埠參數來合成一合成目標視圖,其中重建該至少一個目標視圖包含根據該後設資料中所描述之該組態將該等合成目標視圖升取樣、濾波、及結合。
合成各合成目標視圖可包含根據該目標視圖的該等視埠參數以投射或扭曲該各別經解碼來源視圖。
經解碼之該至少兩個來源視圖可已在該編碼器處由不同因數(1x, 2x, 4x, …)來降取樣。其等可具有不同的大小/解析度。
該升取樣、濾波、及結合可在分開的步驟中實行,或全部一起實行。例如,其等可藉由諸如一CNN之一類神經網路來一起實施。
該等合成目標視圖可具有不同的尺度/解析度。亦即,其等可能需要藉由不同因數的升取樣。
該升取樣及濾波可在不同尺度/解析度的各種合成目標視圖中採用,且將其等升取樣及濾波以重建該至少一個目標視圖。該升取樣、濾波、及結合可包含使用一類神經網路、在作為輸入之該等合成目標視圖上操作以產生作為一輸出之該至少一目標視圖。
該後設資料可包含一重建濾波器之一描述,該重建濾波器係待用於該升取樣及濾波,且該升取樣及濾波可包含使用所描述的重建濾波器。
本描述可識別一預定組濾波器之一者。替代地或額外地,該描述可包括濾波係數。
該濾波器描述可包含用於一類神經網路之一部分或完整組權重,且該升取樣及濾波可包含使用施加該等權重之一類神經網路來處理經解碼之該一或多個來源視圖。
該視訊位元流可係接收自一遠端編碼器,該方法進一步包含傳輸視埠參數至該編碼器。
所傳輸之該等視埠參數可係該至少一個目標視圖、或未來待演現之一目標視圖的一預測的該等視埠參數。在上游傳輸該目標視圖的一指示或預測可促進在該編碼器處之更有效率的編碼,因為該編碼器可針對預期的該目標視圖來定製(tailor)該編碼。
亦提供一種電腦程式,其包含當該程式在一處理系統上運行時用於使該處理系統實施如上文所概述之一方法的電腦碼。
該電腦程式可儲存在電腦可讀儲存媒體上。此可係一非暫時性儲存媒體。
進一步提供一種視訊編碼器,其經組態以編碼沈浸式視訊,該視訊編碼器包含:
一輸入,其經組態以接收來源視訊資料,該來源視訊資料包含複數個來源視圖,各來源視圖包含紋理資料及深度資料;
一視訊處理器,其經組態以處理該來源視訊資料以產生經處理來源視訊資料,該處理包含降取樣該等來源視圖之一或多者;
一編碼器,其經組態以編碼該經處理來源視訊資料以產生一視訊位元流及一後設資料位元流;及
一輸出,其經組態以輸出該視訊位元流及該後設資料位元流,
其中該視訊位元流包含經編碼紋理資料及經編碼深度資料,且該後設資料位元流包含用於輔助一解碼器解碼該視訊位元流的後設資料,其中該後設資料描述在該一或多個來源視圖上所執行的該處理之一組態。
該視訊編碼器可進一步包含一視訊分析器,該視訊分析器經組態以分析該來源視訊資料以選擇用於該視訊處理器的一組態,其中該視訊處理器經組態以根據該選定組態來將該一或多個來源視圖濾波及降取樣。
該視訊編碼器可進一步包含一參考視圖產生器及一參考解碼器,其中:該參考視圖產生器經組態以基於該來源視訊資料來產生至少一個參考視圖,該視訊處理器經組態以根據複數個不同組態將該等來源視圖的該一或多者濾波及降取樣,針對該複數個不同組態之各者:該編碼器經組態以編碼各別之該經處理來源視訊資料以產生一候選視訊位元流;且該參考解碼器經組態以:從該候選視訊位元流解碼該複數個來源視圖的一或多者;從經解碼之該一或多個來源視圖重建至少一個測試視圖,該至少一個測試視圖對應於該至少一個參考視圖;比較該經重建測試視圖與該參考視圖,其中該分析器經組態以基於該比較的該等結果來選擇該組態,且該輸出經組態以輸出與該選定組態相關聯的該候選視訊位元流作為該視訊位元流。
該參考視圖產生器可經組態以選擇該等來源視圖之一者作為該至少一個參考視圖及/或可經組態以從該來源視訊資料合成一參考視圖。
該視訊編碼器可替代地或額外地包含一參考視圖產生器、一參考解碼器、及一訓練器,其中:
該參考視圖產生器經組態以基於該來源視訊資料來產生至少一個參考視圖;
該參考解碼器經組態以從該候選視訊位元流解碼該複數個來源視圖的一或多者;及
該訓練器經組態以:
界定對應於該參考視圖的一測試視圖,該測試視圖係從經解碼之該一或多個來源視圖重建;
使用一機器學習演算法來設計一重建濾波器,該重建濾波器係當將一或多個經解碼視圖升取樣及濾波時待由一解碼器使用,
其中該重建濾波器經設計以減少該測試視圖與該參考視圖之間的一誤差。
更進一步提供一種視訊解碼器,其經組態以解碼沈浸式視訊,該視訊解碼器包含:
一位元流輸入,其經組態以接收一視訊位元流及一後設資料位元流,其中該視訊位元流包含用於複數個來源視圖之各者的經編碼紋理資料及經編碼深度資料,且該後設資料位元流包含用於輔助該視訊位元流之解碼的後設資料;
一控制輸入,其經組態以接收待演現之至少一個目標視圖的視埠參數;
一解碼器,其經組態以從該視訊位元流解碼該複數個來源視圖的一或多者;及
一重建處理器,其經組態以基於該等獲得的視埠參數,從經解碼之該一或多個來源視圖重建該至少一個目標視圖,其中該重建包含基於該後設資料來將經解碼之該一或多個來源視圖中之至少一者或其一衍生物升取樣及濾波。
該後設資料可包含一重建濾波器之一描述,該重建濾波器係待用於該升取樣及濾波,且該重建處理器可經組態以使用所描述的該重建濾波器來將經解碼之該一或多個來源視圖中之該至少一者升取樣及濾波。
該重建處理器可包含一合成器,該合成器經組態以從該一或多個來源視圖之各者合成一合成目標視圖;及一上調器(upscaler),其經組態以將該等合成目標視圖升取樣、濾波、及結合。
額外地,揭示一種編碼沈浸式視訊之位元流,該位元流包含:
一視訊位元流,其包含用於複數個來源視圖之各者的經編碼紋理資料及經編碼深度資料;及
一後設資料位元流,其包含用於輔助一解碼器解碼該視訊位元流的後設資料,
其中該後設資料描述在編碼該視訊位元流之該程序中執行在該一或多個來源視圖上之降取樣之一組態。
具體而言,該後設資料可包括在當將一或多個經解碼視圖升取樣及濾波時待由一解碼器使用的一重建濾波器之一描述。
該沈浸式視訊位元流可使用如上文所概述的方法來編碼及解碼。其可體現在一電腦可讀媒體上,或作為經調節至一電磁載波上的一信號。
本發明的此等及其他態樣將參考下文描述的(多個)實施例闡明且將係顯而易見的。
將參考圖式描述本發明。
應該理解到,詳細說明與特定實例雖然指示了設備、系統、與方法的例示性實施例,但僅意圖用於說明的目的,而不意圖限制本發明的範圍。從以下描述、所附申請專利範圍、與附圖,將更佳地理解本發明的設備、系統、與方法的這些與其他特徵、態樣、與優點。應該理解到,圖式僅是示意性的,且未按比例繪製。也應該理解到,整個圖式使用相同的元件符號來表示相同或相似的部分。
揭示編碼及解碼沈浸式視訊之方法。在一編碼方法中,將包含複數個來源視圖的來源視訊資料編碼至一視訊位元流中。該等來源視圖中之至少一者係在編碼前濾波及降取樣。與該視訊流相關聯之一後設資料位元流包含描述該濾波及降取樣之一組態的後設資料,以輔助一解碼器解碼該視訊位元流。據信,相較於基於補片的一編碼方法,使用經降取樣的視圖可有助於減少編碼假影。亦提供用於沈浸式視訊之一編碼器及一解碼器、及一沈浸式視訊位元流。
本發明之實施例可適用於實施技術標準的部分,諸如MPEG-I Part 12沈浸式視訊。在可能的情況下,在本文中所使用的用語係選為與MPEG-I Part 12中所使用的用語一致。儘管如此,將理解本發明之範圍不限於MPEG-I Part 12,也不限於任何其他技術標準。
闡述下列定義/解釋係有幫助的:
「3D場景(3D scene)」係指全域參考座標系統中之視覺內容。
「輿圖(atlas)」係在包裝程序後來自一或多個視圖表示的補片之聚集,成為含有一紋理分量圖片及一對應的深度分量圖片之圖片對。
「輿圖分量(atlas component)」係一輿圖之一紋理或深度分量。
「攝影機參數(camera parameter)」界定用以從3D場景產生視圖表示的投射。
「修整(pruning)」係一識別並擷取跨視圖的遮擋區域之程序,其產生補片。
「演現器(renderer)」係用以從3D場景表示(對應於觀看位置及定向)建立視埠或全向視圖之程序的實施例。
「來源視圖(source view)」係在其對應於一視圖表示的格式之編碼前的來源視訊材料,該來源視訊材料可已藉由真實攝影機之3D場景的擷取或藉由虛擬攝影機使用來源攝影機參數投射至表面上來獲取。
「目標視圖(target view)」係定義為在所欲觀看位置及定向處的透視視埠或全向視圖。
「視圖表示(view representation)」包含紋理分量及對應的深度分量之2D樣本陣列,表示使用攝影機參數之3D場景至表面上之投射。
「視埠(viewport)」意指紋理至全向性或3D影像或視訊之視場的平面表面上之投射,適於展示及由具有特定觀看位置及定向的使用者觀看。
機器學習演算法係任何自訓練演算法,其處理輸入資料以產生或預測輸出資料。在本發明之一些實施例中,輸入資料包含從一位元流解碼的一或多個視圖,而輸出資料包含一目標視圖的一預測/重建。
用於本發明中之合適的機器學習演算法對於所屬技術領域中具有通常知識者將係顯而易見的。合適的機器學習演算法之實例包括決策樹演算法及人工類神經網路。其他機器學習演算法(諸如邏輯式迴歸、支援向量機、或天真貝氏(Naïve Bayesian)模型)係合適的替代方案。
人工類神經網路(或,簡稱,類神經網路)之結構係由人腦所啟發。類神經網路包含層,各層包含複數個神經元。各神經元包含一數學運算。具體而言,各神經元可包含單一類型的轉換之不同加權組合(例如,相同類型的轉換、S形等,但具有不同權重)。在處理輸入資料的過程中,各神經元的數學運算係在輸入資料上執行以產生一數值輸出,且類神經網路中之各層的輸出係饋入一或多個其他層中(例如,循序地)。最終層提供輸出。
訓練機器學習演算法之方法係熟知的。一般而言,此類方法包含獲得訓練資料集,該訓練資料集包含訓練輸入資料項目及對應的訓練輸出資料項目。將初始化的機器學習演算法施加至各輸入資料項目,以產生預測的輸出資料項目。預測的輸出資料項目與對應的訓練輸出資料項目之間的一誤差係用以修改機器學習演算法。可重複此程序直到誤差收斂,且該等預測的輸出資料項目係充分地類似(例如,±1%)於訓練輸出資料項目。此通常已知為監督式學習技術。
例如,在該機器學習演算法係從一類神經網路形成的情況下,各神經元之數學運算(的權重)可係修改直到誤差收斂。修改類神經網路之已知方法包括梯度下降、倒傳遞(backpropagation)演算法等。
在實施例中,訓練輸入資料項目可對應於例如來自一測試視訊序列的經解碼視圖、或從那些經解碼視圖所重建的合成視圖。訓練輸出資料項目可對應於原始來源視圖(在編碼之前)或直接從原始來源視圖合成的參考視圖。
卷積類神經網路(CNN、或ConvNet)係深度類神經網路的一類別,最常應用於分析視覺影像。CNN係多層感知器的正規化版本。
圖1係根據第一實施例之編碼沈浸式視訊的方法之流程圖。圖2顯示可執行圖1之方法的一視訊編碼器300的方塊圖。
在步驟110中,編碼器300之輸入(接收器310)接收來源視訊資料。來源視訊資料包含多個來源視圖,該等來源視圖之各者包括紋理資料及深度資料。接收器310係耦合至視訊分析器320。在步驟120中,該視訊分析器分析該來源視訊資料以判定用於後續濾波及降取樣步驟的最佳組態。此分析將於下文更詳細描述。
視訊分析器320係耦合至視訊處理器330。視訊處理器亦耦合至接收器310。視訊處理器接收來自接收器310的來源視訊資料,並接收來自視訊分析器之關於由其所判定的組態之資訊。在步驟130中,視訊處理器將來源視圖之至少一者濾波;且在步驟140中,視訊處理器降取樣該經濾波來源視圖。該濾波及降取樣係根據由視訊分析器所判定的組態來執行。
將視訊處理器的輸出傳遞至編碼器340。在步驟150中,編碼器編碼該經處理來源視訊資料以產生視訊位元流。視訊位元流包含經編碼紋理資料及經編碼深度資料。編碼器340亦產生一後設資料位元流,其包含用於輔助解碼器解碼視訊位元流的後設資料。具體而言,後設資料位元流包括在一或多個來源視圖上執行之濾波及降取樣的描述。
視訊位元流及後設資料位元流兩者皆經由視訊編碼器300的輸出來輸出。可將其等傳輸至一解碼器或可將其等儲存在一機器可讀儲存媒體上,以用於稍後的讀取及解碼。該等來源視圖中之至少一者的降取樣達成壓縮(位元率減少)。同時,因為第一實施例之方法並非依賴於來源視圖之基於補片的包裝至紋理輿圖中,所以避免可能與補片邊緣相關聯的假影。
圖3顯示根據第二實施例之編碼沈浸式視訊的方法之流程圖。類似於圖1之實施例的步驟係給予相似的元件符號。圖3之方法與圖1之方法的主要差異在於其在視訊編碼器中使用參考解碼器。
如圖2中所示,視訊編碼器300包括參考視圖產生器375。其亦包括參考解碼器,其包含解碼器350、選擇器360、及合成器370。視訊編碼器300進一步包含訓練器380,其係耦合至參考視圖產生器375及參考解碼器的輸出(具體而言,合成器370的輸出)。在步驟122中,參考視圖產生器375產生來自來源視訊資料的至少一個參考視圖。該參考視圖可係該等來源視圖之一者或其可係一經合成視圖。所選擇的參考視圖係由測試視埠參數、視訊編碼器300的輸入來判定。
分析120a、濾波130a、及降取樣140a之步驟係類似於圖1之對應步驟120、130、及140,除此之外,在本實施例中,濾波及降取樣係根據複數個不同組態來執行。目標係用以判定用於濾波及降取樣來源視訊資料之特定內容的最佳組態。參考視圖將作為參考或「黃金標準」使用,以判定最佳組態。
針對濾波及降取樣之各組態,編碼器340編碼各別之該經處理來源視訊資料,以產生候選位元流(參見步驟150a)。經由一開關390,該等候選位元流係從編碼器340傳遞至該參考解碼器。在步驟124中,參考解碼器從各候選視訊位元流解碼該複數個來源視圖之一或多者。解碼(步驟124)係由解碼器350來實行。相關的一或多個來源視圖係由選擇器360根據測試視埠來選擇。從選定的經解碼來源視圖,合成器370根據測試視埠(步驟126)以重建一測試視圖。注意,若該測試視埠直接對應於該等來源視圖之一者,則該合成器僅將該(經解碼)來源視圖傳遞至訓練器380。同樣地,參考視圖在此情況下將係原始來源視圖。然而,一般而言,測試視埠與來源視圖之任一者不同。在此情況下,合成器370從經解碼之該一或多個來源視圖重建(步驟126)對應於測試視埠的測試視圖。同樣地,參考視圖產生器375將已從原始來源視圖合成參考視圖。
實際上,參考解碼器再現解碼操作,其將由視訊位元流之一真實解碼器執行。因此,合成器370之輸出係一經重建視訊位元流,其係相同於可能在遠端解碼器處所演現者。在步驟128中,訓練器380比較經重建測試視圖與參考視圖。將比較結果傳遞至分析器320,且分析器選擇導致經重建測試視圖與參考視圖之間的最低誤差之濾波及降取樣組態。接著,經由開關390,選擇與此組態相關聯的候選視訊位元流作為用以輸出的視訊位元流。
依此方式,在編碼器處的分析可以不同組態(例如,不同的濾波器核心及/或不同的降取樣率)來實驗,且可選擇將提供在解碼器處之最佳效能(就給定位元速率之最小編碼誤差方面)的組態。
圖4係繪示根據第三實施例之一編碼方法的另一流程圖。此係類似於第二實施例,在於其利用編碼迴路中的參考解碼器。然而,與第二實施例不同之處在於:訓練器380(在步驟129中)設計一重建濾波器以待由解碼器在將經解碼視圖升取樣及濾波時使用。此可使用機器學習技術來完成。類似於第二實施例,獲得參考視圖及對應的測試視圖。在步驟129中,訓練器使用一機器學習演算法來訓練重建濾波器的濾波係數,使得所得之重建濾波器最小化測試視圖與參考視圖之間的誤差。換言之,涵蓋視訊資料之圖框及/或涵蓋各圖框之像素,機器學習演算法學習其導致最佳重建效能的該組係數。在機器學習演算法的各疊代中(例如,針對視訊之各圖框),合成器370係施加目前組濾波係數,如由機器學習演算法至今所導出者。隨著機器學習演算法最佳化該等係數(例如涵蓋連續圖框),該經重建測試視圖變成該參考視圖的一較佳近似。
注意,與第二實施例不同,第三實施例之方法不必然需要編碼多個候選視訊位元流。所最佳化者係解碼,而非(必然)係編碼。當來源視訊資料已編碼至視訊位元流中,且重建濾波器的訓練完成時,編碼器340將重建濾波器的描述嵌入後設資料位元流中。解碼器將使用此來形成重建濾波器,該解碼器將使用該重建濾波器以在解碼程序中組態其升取樣及濾波。
圖5係根據第四實施例之解碼沈浸式視訊的方法之流程圖。圖6顯示根據一實施例之對應的沈浸式視訊解碼器之方塊圖,該沈浸式視訊解碼器可實施該解碼方法。沈浸式視訊解碼器400包含一位元流輸入(接收器410);一控制輸入(選擇器450);一解碼器420;及一重建處理器,其包含合成器430及上調器440。視訊解碼器進一步包含一選擇器450。
在步驟210中,位元流輸入接收由一視訊編碼器300所產生之一視訊位元流及一後設資料位元流,如上文所描述。選擇器450接收待演現之至少一個目標視圖的視埠參數。在步驟220中,解碼器420從視訊位元流解碼該複數個來源視圖之一或多者(其可由選擇器450基於目標視埠參數來選擇)。若解碼器420具有目標視埠的知識或預測,則其可據此選擇性地解碼視訊位元流(首先解碼與該目標視埠最相關的來源視圖且可選地跳過不相關於該目標視埠的來源視圖之解碼)。
合成器430及上調器440基於目標視埠參數來從經解碼之該一或多個來源視圖重建該至少一個目標視圖。該重建依賴於後設資料位元流,其描述在視訊編碼器300處所執行之濾波及降取樣的組態。該重建包含將該一或多個經解碼來源視圖升取樣230及濾波240,取決於在該後設資料位元流中所描述之組態。例如,若某一來源視圖係在視訊編碼器300處以二的因數降取樣,則升取樣步驟230可在解碼後以二的因數升取樣此視圖。例如,可將該經重建目標視圖輸出至準備用於顯示之一圖框緩衝器。
藉由在編碼器處將該等來源視圖之一或多者濾波及降取樣,且傳訊至解碼器(例如該等視圖係降取樣),且藉由該降取樣因數,可減少視訊流的位元率,同時允許解碼器達到高品質的重建結果。在一些實施例中,該後設資料位元流包含由編碼器所設計的重建濾波器之描述,以供在解碼器處使用。在此情況下,將該等經解碼來源視圖濾波的步驟240可包含使用在該後設資料位元流中所定義的重建濾波器來濾波。
圖7繪示根據第五實施例之圖5的方法之變體。在此變體中,目標視埠參數係在步驟250上游傳輸至編碼器。在編碼器處,可使用目標視埠之知識以最佳化編碼,例如,藉由將較高的位元率分配至更相關於重建目標視圖的視圖。根據另一實例,編碼器可以多個比例因數編碼各視圖,且基於該視埠,分析器可決定哪些位元流傳輸至用戶端。(該決定可每框內期間(intra period)僅改變一次。)有利的是,類似於該視埠的一視圖係以高解析度傳輸。
圖8係繪示根據第六實施例的解碼方法之流程圖。在步驟220a中,解碼器420解碼來自視訊位元流之至少兩個來源視圖。在步驟225中,合成器430基於目標視埠之視埠參數來從該等經解碼來源視圖之各者合成一合成目標視圖。此可包含扭曲各經解碼來源視圖至該目標視埠,以產生該各別合成目標視圖。在圖8所繪示的實例中,兩個合成目標視圖係分開地升取樣及濾波,一者係在步驟232中升取樣及在步驟242中濾波;且另一者係在步驟234中升取樣及在步驟244中濾波。升取樣及濾波可由上調器440來執行。然而,此並非必要,且確實可共用或結合上調器440與合成器430的功能。在步驟260中,結合兩個合成目標視圖。此可包含在不同合成目標視圖之間的平均或內插。再次,在本實施例中,假設結合(步驟260)係由上調器440所實行,但此並非必要。
在一些實施例中,升取樣230、232、234;濾波240、242、244;及結合260可整合成單一程序。這可係該情況,特別是,若重建濾波器已使用機器學習演算法來設計。例如,重建濾波器可包含用於類神經網路之一組權重/係數。此類神經網路可經組態以從該等多個合成目標視圖重建目標視圖,藉此升取樣、濾波、及結合之步驟全部由類神經網路一起執行,其採取合成目標視圖(在不同的尺度/解析度)作為輸入及輸出經重建目標視圖。
再次參考圖2,現在將額外詳細地描述視訊編碼器300的組件、及其等在各種實施例中的操作。
來源視訊資料(在圖2中標示為「來源材料」)可係6DoF來源材料,其係由具有明亮度、色度、及深度分量的視圖所組成。可提供攝影機參數,該等攝影機參數允許將點從一視圖再投射至另一視圖。例如,可能從另一視圖合成一視圖,及比較由於反射及遮擋相似性及差異。
深度可表示為密集深度圖(可選地與紋理資料對齊),或其可係與2D座標相關聯的3D網格至紋理圖框中。該紋理資料可包含明亮度及色度,例如YUV或RGB。
6DoF來源材料可係獲得及評估程序的結果或後製程序的結果。來源視訊資料可包含圖框序列(6DoF視訊)。該來源可含有其他資訊,諸如音訊資料。
接收器310可立刻接收所有材料(離線處理)、一次一圖框區段或一次一個圖框(線上)。該接收器可緩衝資訊及將區段中之圖框給至該分析器。
分析器320可執行計算以識別用於縮小及任何其他濾波的合適視圖。分析器320可具備限制,包括但不限於:就位元率或像素率的限制;或可能的濾波操作之列表。至該分析器之另一輸入可係一解碼器輪廓,該解碼器輪廓包括最大視圖數及/或解碼器能夠解碼之像素的總數。分析器之輸出係1)用於後續操作的組態、及2)待傳輸至解碼器的後設資料。
濾波操作之列表可例如係{無(none)、縮小2倍(downscale 2x)、縮小4倍(downscale 4x)、跳過(skip)等},但亦可包括其他濾波操作,如以下將進一步描述者。一些視圖可以較低時間解析度來發送,例如15 fps而非120 fps。
分析器可僅研究攝影機組態(尤其是在場景空間中之其等相對位置)以識別合適的濾波操作。例如,最中間的、前視攝影機可保持於全解析度(無濾波器),及接著將周圍的攝影機分群。從各群集,可將中央攝影機縮小2倍。接著可將各群集中之剩餘攝影機縮小4倍。此模式可持續以針對一些攝影機具有縮小8倍、16倍(依此類推)。替代地,跳過在最低位準的視圖。此類經8倍或16倍降取樣的縮圖(thumbnail)視圖不攜載大量邊緣資訊,但其等確實提供取決於視點的色偏及移動的(半)反光強調之資訊。根據本發明之一些實施例,經訓練濾波器能夠合併高解析度視圖與低解析度近視圖的精確邊緣。
來源視圖可具有不同視場、位置、及投射(例如,魚眼、透視圖等),且其對於比較攝影機並非不重要的。此處,視埠相似性的概念可幫助。將來自第一視埠之點的一子集(在典型深度值處)再投射至第二視埠,且計數與第二視埠中之點匹配的點數目。該等射線可藉由角度或解析度來加權。計算視埠相似性的各種方法係本技術中已知的。
在一些實施例中,該分析器可執行從來源視圖至來源視圖的點再投射或視圖合成操作,以形成視圖間冗餘的一圖。基於此圖,選擇最有用的視圖以具有最佳的品質。從剩餘的視圖,可將其中大部分資訊不存在高品質視圖中的視圖縮小2倍,且接著所有其他視圖可變成4倍。可能是一些視圖經識別為(幾乎)完全冗餘的,且分析器可決定在後續編碼程序中跳過此類視圖。
在一些實施例中,分析器執行多遍(multi-pass)分析,其中6DoF參考解碼器係在具有6DoF編碼器之迴路中,且分析器接收測試視埠(其可與來源視圖重合)之實際品質的資訊。基於此,分析器可修改下一遍的組態。遍數可係預定的或者係基於預期品質與實際品質(如由運作6DoF解碼器作為6DoF編碼器之部分所判定者)之間的相關性。例如,此方法可在圖4的實施例中採用。
視訊處理器330接收該來源材料且係由分析器320組態。所有操作可針對每視圖或視圖分量來執行。例如,給定視圖的紋理可保持未經濾波,但深度可以4倍的因數來降取樣。至少一個視圖係以一些量來縮放。
當目標係具有對應於2至4個來源視圖的像素數、但輸入視圖數可係10至100時,則降取樣2倍不夠好。然而,若將一個視圖保持在全解析度,且所有其他視圖皆降取樣8倍,則很可能沒有足夠高解析度的資訊可用來演現接近觀看空間之周邊的視圖。取而代之,預期可有多個降取樣選項,例如2倍、4倍、8倍、16倍。
視訊處理器可經組態以變形視圖,使得經處理視圖在一些區(一般而言係那些判定為較重要者,例如較非冗餘者)中具有相對較高的解析度,且在其他區(一般而言係那些判定為較不重要者,例如因為其等與其他視圖的相似性)中具有相對較低的解析度。總視圖仍將適配於給定矩形內,且該矩形一般將小於原始(全解析度)來源視圖者。注意,此可變解析度操作並不引入邊緣(edging)假影,不同於基於補片的修整/包裝。
視訊處理器可經組態以合成虛擬視圖,諸如全向中央視圖。通常,解碼器可能不知道經編碼視圖係真實的或虛擬的。可能有用的是將此標記在後設資料中。旗標接著可(例如)由在解碼器處的重建濾波器使用,其可經組態以更加偏好針對物件邊緣的實體視圖。
視訊處理器可經組態以移除某些空間解析度。例如,可移除高解析度視圖的低解析度資訊,因為有附近的低解析度視圖。另一實例係以故意造成混疊的代價而使用降取樣以維持更多高頻資訊。例如,可將視圖帶通或高通濾波,以移除低頻,及接著降取樣。高頻資訊經混疊,但因為其不與低頻資訊混合而不會損失。
視頻可依多種方式來濾波,導致針對單一來源視圖的多個經濾波視圖。例如,視圖可依多種方式來帶通濾波(形成濾波器組)。
一般而言,編碼器340在其核心處使用2D視訊壓縮技術,以用不同解析度壓縮多個視圖。編碼器可將視圖編碼為分開的位元流,其等係傳輸為多播串流(multicast stream),例如,HEVC (H.265)或多層HEVC (H.265 Annex F)。替代地或額外地,編碼器可編碼相同視點的視圖,但利用不同的濾波,使用可縮放視訊編解碼器(codec),諸如可縮放HEVC (H.265 Annex H)。作為進一步選項,編碼器可應用多視圖編解碼器。此一編碼器可使用視圖間預測。此一編解碼器之實例係MV-HEVC (H.265 Annex G)。作為又另一選項,編碼器本身可使用深度圖以進行視圖間預測。此一編解碼器之實例係3D-HEVC (H.265 Annex I)。此一編解碼器可藉由使用根據本發明之一實施例的6DoF參考解碼器來改善,以預測視圖。
編碼器340可將一些視圖一起包裝至單一圖框(輿圖)中以更佳地利用解碼能力。例如,具有太多解碼器可能導致同步化問題。此類輿圖一般係藉由防護帶來分開視圖,及對準整個編碼單元上的視圖。
編碼器可每視圖使用不同的量化參數(quantization parameter, QP),及/或可基於該等視圖之各者中之每區域的目標位元率來執行位元率分配。例如,若判定一視圖中的一區域具有對於最終演現品質的較少影響,則可將此區域以平均較少的位元/像素來編碼。
視訊編碼器300可包括參考解碼器之組件(解碼器350、選擇器360、及合成器370)。此參考解碼器或迴路濾波器可演現測試視埠。該等測試視埠係與參考視圖比較。參考視圖可係來源視圖,或其可係直接從來源合成的視圖。
使用經解碼視圖的原因是,可訓練重建濾波器以補償得自來源視圖之有損壓縮的品質減少。同時,可能發生的是,利用未壓縮視圖,分析器320可判斷一特定視圖係冗餘的,因為其可準確地預測;然而,當使用視圖的經解碼版本時,由於深度/紋理保真度的損失,可判定其實際上必須編碼該視圖(即使非處於全解析度)。
該經重建測試視圖及該參考視圖係使用為訓練輸入,以訓練或更新重建濾波器的濾波係數。在一些實施例中,這些係數在後設資料位元流中發送至6DoF解碼器400。
然而,濾波係數之線上訓練/更新並非必要。在一些實施例中,所有濾波器係離線訓練(及/或由人類專家設計/調諧)。在此情況中,在視訊編碼器300中可能沒有訓練器380。取而代之地,測試視圖與參考視圖之間的誤差(每視圖或空間地)係轉送至分析器320,且分析器可使用這些誤差圖以改善組態,包括位元率分配。此類誤差圖可基於諸如PSNR、VIF、VMAF等的度量。
第三實施例之一實例(參見圖4)利用具有轉移學習之卷積類神經網路。可藉由使用轉移學習來獲取顯著優點。轉移學習離線訓練一類神經網路之部分,但線上更新另一部分的訓練,例如線上訓練類神經網路之最後幾個層。依此方式,需要較少訓練資料來將類神經網路調適至特定內容,且類神經網路係數之僅小比例需傳輸至視訊解碼器400,因此減少後設資料位元率。
離線(在編碼迴路之外)的多個卷積類神經網路(CNN)可針對一給定組的多視圖預測情境來預訓練。例如,一個CNN係訓練使得使用兩個參考視圖以用於預測,其中一個參考具有原始解析度而另一個參考具有原始解析度的一半。第二CNN係訓練以使用三個參考視圖以用於預測,其中第三參考係以原始解析度的四分之一。針對各多視圖預測情境有一經訓練CNN。編碼器可比較情境,及選擇最佳的一者。接著將此組態選擇加入作為後設資料。注意,紋理及深度圖不需要具有相同解析度,其等可係不同地濾波及降取樣。
經預訓練之CNN可在編碼期間細調,以使用轉移學習來更佳地模擬一給定視訊、一組圖框、或單一圖框。為達此目的,大多數濾波器(一般係網路中較早的層)的權重保持固定,但後續濾波器的權重經調整。這些權重係特別適配以模擬經編碼之視訊的特性。後設資料現在含有對於所使用的網路之參考加上針對經修改層之視訊特定權重。此可允許更低甚多的後設資料位元率,而無品質的損失。
再次參考圖6,現在將額外詳細地描述視訊解碼器400的組件、及其在各個實施例中的操作。
6DoF解碼器400接收一6DoF位元流(或此一位元流之部分)。在一些實施例中,接收器410接收所有經編碼資訊,但在其他實施例中,使用目標視埠的預測來判定需要基本位元流的哪個子集,且透過客戶端-伺服器通訊,伺服器將僅把資訊之一子集串流至客戶端(視訊解碼器400)。此表示如先前用於2D視訊之適應性串流的增強。
在一些實施例中,解碼器420僅解碼已接收的所有(基本)位元流。然而,應用適應性解碼可係所欲的。因為解碼器420與顯示器之間的潛時(latency)甚小於6DoF編碼器300與6DoF解碼器400之間者,所以解碼器具有對於更精確的目標視埠預測之存取。解碼器420因此可判定已接收資料的僅部分需被解碼。此可幫助減少客戶端裝置(6DoF解碼器400)的複雜度及/或功率使用。
合成器430採取經解碼視圖及目標視埠,及使用視圖合成以預測目標視圖。在一實施例中,目標視埠可藉由虛擬實境(virtual reality, VR)頭戴式耳機之定向來定義。對於立體VR頭戴式耳機而言,可能每眼有一個目標視埠。在另一實施例中,目標視埠可使用手持裝置(諸如智慧型手機或平板運算裝置)的慣性測量單元(inertial measurement unit, IMU)來計算。在此情況下,視埠將取決於裝置之姿勢。此方法可例如用於「基於平板的擴增實境(augmented reality, AR)」。
如上文所提及,可能深度資訊及紋理資訊來自不同視圖,在此情況下,可首先投射深度,而接著提取紋理。
在視圖合成程序中,可能發生:一些資訊在目標視圖中遺失(補洞(disocclusion)),或一些資訊將係在較低解析度(延展(stretching))。合成器430可輸出品質度量,諸如可信度圖、或更特定的圖,諸如解析度圖、射線角度圖(即,點、來源與目標視埠之間的角度圖)、延展圖等。接著將此額外資訊輸入至上調器440、及可選地在6DoF編碼器300處的訓練器380中。
視圖合成程序可與視圖合成一起執行上調,或者可以類似解析度產生經合成視圖作為輸入視圖。在後者情況下,上調係留給上調器440。
一般而言,上調器440包含影像濾波器。其執行上調(若上調尚未由合成器430所執行)。其可補償遺失的頻率。其一般將在視圖之間執行一些混合(blending)。
上調器通常將係一使用係數的經訓練濾波器,該等係數係預定的及/或在後設資料位元流中所接收,以將經合成來源視圖轉換成每視埠之單一影像。
在6DoF編碼器300處的分析器320可判定需要視圖的紋理,但來自附近視圖的深度資訊係足夠的。在該情況下,可下降視圖的深度分量。在另一情況下,分析器320可判定需要一視圖的深度分量以精確地模擬前景與背景間的轉換,但附近視圖的紋理足以在6DoF解碼器400處再紋理化深度圖。在兩種情況下,上調器440經設計使得其可接受具有遺失分量的視圖。在一極端情況下,僅有一個深度圖或網格(有時稱為幾何代理)及多個紋理。(該等紋理中之至少一者將具有比至少一個其他者更低的解析度。)
如在接收器410及解碼器420之描述中所提及,期望可用資料之僅部分將用於6DoF解碼器400內。接近目標視埠之視圖攜載比更遠離之視圖更多有關目標視埠的資訊。
可藉由僅允許特定數目的視圖作為輸入來減少訓練濾波器的複雜度。例如,可訓練CNN以採取一個全視圖、一個2倍縮小、及一個4倍縮小。可有多個網路,其取決於那些縮放之何者對於目標視埠最接近、第2接近等。
在此情況下,甚至當更多視圖將係暫時可用時,選擇器450仍將選擇固定數目的視圖。6DoF編碼器300可利用此性質以訓練更特定的濾波器。
該編解碼器可定義視圖之哪個子集在給定情況下係現用的(active)。此可係在選擇器450中實施的演算法(例如,像「總是採取三個最接近視圖」的規則),或可係該分析器320所判定及傳輸作為後設資料的某演算法。後設資料可例如採取下列形式之任一者:
• 指定該3D空間中之每網格點的子集,
• 將該3D空間劃分成單元,其中各單元具有作為屬性的子集,
• 演算法(選擇規則),其中參數作為後設資料而傳輸。
注意,雖然上文所述之大部分實施例已使用完整視圖的濾波及降取樣作為針對基於補片的修整之替代方案,但在一些實施例中有可能可結合這些技術。例如,6DoF編碼器可實施兩項技術且可選擇其等之何者在施加於給定視訊序列時給出最佳編碼效率。
圖1、圖3、圖4、圖5、圖7、及圖8之編碼及解碼方法、以及圖2及圖6之編碼器及解碼器可在硬體或軟體、或兩者之混合(例如,作為硬體裝置上運行的韌體)來實施。在實施例部分或全部實施以軟體的情況下,程序流程圖中所繪示的功能性步驟可係由適當程式化的實體計算裝置(諸如一或多個中央處理單元(central processing unit, CPU)、圖形處理單元(graphics processing unit, GPU)、或類神經網路加速器(neural network accelerator, NNA))來執行。各程序(及如流程中所繪示之其個別組成步驟)可由相同或不同的計算裝置來執行。根據實施例,一種電腦可讀儲存媒體儲存一電腦程式,該電腦程式包含電腦程式碼,該電腦程式碼經組態以當該程式在一或多個實體計算裝置上運行時使該一或多個實體計算裝置執行如上所述之編碼方法或解碼方法。
儲存媒體可包括揮發性及非揮發性電腦記憶體,諸如RAM、PROM、EPROM、及EEPROM。各種儲存媒體可係固定在計算裝置內或可係可轉移的,使得儲存在其上之一或多個程式可載入一處理器中。
根據一實施例之後設資料可儲存在一儲存媒體上。根據一實施例之一位元流可儲存在相同儲存媒體或不同儲存媒體上。後設資料可嵌入位元流中,但此並非必要。同樣地,後設資料及/或位元流(其中後設資料在位元流中或與其分開)可傳輸為一經調變至電磁載波上之信號。信號可根據用於數位通訊的標準來定義。該載波可係一光學載波、一射頻波、一毫米波、或一近場通訊波。其可係有線的或無線的。
在實施例部分或全部以硬體實施的情況下,圖2及圖6之方塊圖中所顯示的方塊可係分開的實體組件、或單一實體組件的邏輯子分割,或可全部以一整合方式實施在一個實體組件中。圖式中所顯示之一個方塊的功能可在一實施方案中的多個組件之間分割,或者圖式中所顯示之多個方塊的功能可組合在一實施方案中的單一組件中。適用於本發明之實施例中的硬體組件包括,但不限於,習知微處理器、特殊應用積體電路(application specific integrated circuit, ASIC)、及場可程式化閘陣列(field-programmable gate array, FPGA)。一或多個方塊可實施為用以實行一些功能的專用硬體、及一或多個程式化微處理器、以及用以執行其他功能的相關聯電路系統之組合。
一般而言,編碼及解碼資料的方法、實施這些方法的電腦程式、視訊編碼器及解碼器、及位元流之實例係由以下實施例所指示。
實施例:
1. 一種編碼沈浸式視訊的方法,該方法包含:
接收(110)來源視訊資料,該來源視訊資料包含複數個來源視圖,各來源視圖包含紋理資料及深度資料;
處理該來源視訊資料以產生經處理來源視訊資料,該處理包含降取樣(140)該等來源視圖之一或多者;及
編碼(150)該經處理來源視訊資料以產生一視訊位元流及一後設資料位元流,
其中該視訊位元流包含經編碼紋理資料及經編碼深度資料,且該後設資料位元流包含用於輔助一解碼器解碼該視訊位元流的後設資料,其中該後設資料描述在該一或多個來源視圖上所執行的該處理之一組態。
2. 如實施例1之方法,其進一步包含分析(120)該來源視訊資料以選擇用於該處理之一組態,該處理包含根據該經選定組態之該一或多個來源視圖的濾波及降取樣。
3. 如實施例2之方法,其中該分析(120)包含:
分析該等視圖之中的視覺內容之相似性;
指派一第一降取樣因數給一第一視圖;
指派一第二降取樣因數給一第二視圖;及
指派一第三降取樣因數給一第三視圖,
其中若該第一視圖與該第二視圖之間的該相似性大於該第一視圖與該第三視圖之間的該相似性,則該第二降取樣因數高於該第三降取樣因數。
4. 如實施例2或實施例3之方法,其中該分析包含:
基於該來源視訊資料來獲得(122)至少一個參考視圖,
根據複數個不同組態將該等來源視圖的該一或多者濾波(130)及降取樣(140),
針對該複數個不同組態之各者:
編碼(150) 各別之該經處理來源視訊資料以產生一候選視訊位元流;
從該候選視訊位元流解碼(124)該複數個來源視圖的一或多者;
從經解碼之該一或多個來源視圖重建(126)至少一個測試視圖,該至少一個測試視圖對應於該至少一個參考視圖;及
比較(128)該經重建測試視圖與該參考視圖,
該分析(120a)進一步包含基於該比較之結果來選擇該組態,
該方法進一步包含選擇與該選定組態相關聯的該候選視訊位元流作為該視訊位元流。
5. 如前述實施例中任一項之方法,其進一步包含使用一機器學習演算法來設計(129)一重建濾波器,
其中當將一或多個經解碼視圖升取樣及濾波時,該重建濾波器可由一解碼器使用,且
該後設資料進一步包含該重建濾波器的一描述。
6. 如實施例5之方法,其包含:
基於該來源視訊資料來獲得(122)至少一個參考視圖,
從該視訊位元流解碼(124)該複數個來源視圖的一或多者,及
界定對應於該參考視圖的一測試視圖,該測試視圖係從經解碼之該一或多個來源視圖重建(126);
其中設計該重建濾波器包含使用該機器學習演算法來訓練該重建濾波器的濾波係數,以便減少該測試視圖與該參考視圖之間的一誤差。
7. 一種解碼沈浸式視訊的方法,該方法包含:
接收(210)一視訊位元流及一後設資料位元流,其中該視訊位元流包含用於複數個來源視圖之各者的經編碼紋理資料及經編碼深度資料,且該後設資料位元流包含用於輔助該視訊位元流之解碼的後設資料;
獲得待演現之至少一個目標視圖的視埠參數;
從該視訊位元流解碼(220)該複數個來源視圖的一或多者;及
基於該等獲得的視埠參數,從經解碼之該一或多個來源視圖重建該至少一個目標視圖,
其中該後設資料描述當編碼該一或多個來源視圖時所執行的降取樣之一組態,且
該重建包含基於所描述之組態來將經解碼之該一或多個來源視圖中之至少一者或其一衍生物升取樣(230)及濾波(240)。
8. 如實施例7之方法,其包含:
從該視訊位元流解碼(220a)該複數個來源視圖之至少兩者;及
針對經解碼之該至少兩個來源視圖之各者,基於該等視埠參數來合成(225)一合成目標視圖,
其中重建該至少一個目標視圖包含根據該後設資料中所描述之該組態將該等合成目標視圖升取樣(232, 234)、濾波(242,244)、及結合(260)。
9. 如實施例7或實施例8之方法,其中該後設資料包含待用於該升取樣及濾波之一重建濾波器之一描述,且該升取樣(230, 232, 234)及濾波(240, 242, 244)包含使用所描述的重建濾波器。
10. 如實施例7至9中任一項之方法,其中該視訊位元流係從一遠端編碼器接收,該方法進一步包含傳輸(250)視埠參數至該編碼器。
11. 一種電腦程式,其包含當該程式在一處理系統上運行時用於使該處理系統實施如實施例1至10中任一項之方法的電腦碼。
12. 一種視訊編碼器(300),其經組態以編碼沈浸式視訊,該編碼器包含:
一輸入(310),其經組態以接收來源視訊資料,該來源視訊資料包含複數個來源視圖,各來源視圖包含紋理資料及深度資料;
一視訊處理器(330),其經組態以處理該來源視訊資料以產生經處理來源視訊資料,該處理包含降取樣該等來源視圖之一或多者;
一編碼器(340),其經組態以編碼該經處理來源視訊資料以產生一視訊位元流及一後設資料位元流;及
一輸出,其經組態以輸出該視訊位元流及該後設資料位元流,
其中該視訊位元流包含經編碼紋理資料及經編碼深度資料,且該後設資料位元流包含用於輔助一解碼器解碼該視訊位元流的後設資料,其中該後設資料描述在該一或多個來源視圖上所執行的該處理之一組態。
13. 如實施例12之視訊編碼器,其進一步包含一視訊分析器(320),該視訊分析器經組態以分析該來源視訊資料以選擇用於該視訊處理器(330)的一組態,其中該視訊處理器經組態以根據該選定組態來將該一或多個來源視圖濾波及降取樣。
14. 一種視訊解碼器(400),其經組態以解碼沈浸式視訊,該視訊解碼器包含:
一位元流輸入(410),其經組態以接收一視訊位元流及一後設資料位元流,其中該視訊位元流包含用於複數個來源視圖之各者的經編碼紋理資料及經編碼深度資料,且該後設資料位元流包含用於輔助該視訊位元流之解碼的後設資料;
一控制輸入,其經組態以接收待演現之至少一個目標視圖的視埠參數;
一解碼器(420),其經組態以從該視訊位元流解碼該複數個來源視圖的一或多者;及
一重建處理器(430, 440),其經組態以基於該等獲得的視埠參數,從經解碼之該一或多個來源視圖重建該至少一個目標視圖,其中該重建包含基於該後設資料來將經解碼之該一或多個來源視圖中之至少一者或其一衍生物升取樣及濾波。
15. 一種位元流,其編碼沈浸式視訊,該位元流包含:
一視訊位元流,其包含用於複數個來源視圖之各者的經編碼紋理資料及經編碼深度資料;及
一後設資料位元流,其包含用於輔助一解碼器解碼該視訊位元流的後設資料,
其中該後設資料描述在編碼該視訊位元流之該程序中執行在該一或多個來源視圖上之降取樣之一組態。
更具體而言,本發明由隨附之申請專利範圍來定義。
在實踐所主張的發明時,所屬技術領域中具有通常知識者可藉由研究圖式、本揭露、及所附申請專利範圍而理解與實現所揭示之實施例的變化。在申請專利範圍中,詞語「包含(comprising)」不排除其他元素或步驟,且不定冠詞「一(a)」或「一(an)」不排除複數個。單一處理器或其他單元可滿足申請專利範圍中所述之數個項目的功能。在相互不同的附屬項中所敘述的某些測量的這一事實並未指示此等測量之組合無法用以得利。若電腦程式係於上文討論,則其可儲存/分布在合適的媒體上,諸如光學儲存媒體或固態媒體,其連同其他硬體來供應或作為其他硬體的部分,但亦可以其他形式來分布,諸如經由網際網路或其他有線或無線電信系統。若用語「經調適以(adapted to)」使用在申請專利範圍或說明書中,應注意用語「經調適以(adapted to)」意圖等效於用語「經組態以(configured to)」。申請專利範圍中的任何元件符號不應解釋為限制範圍。
110,120,120a,122,124,126,128,129,130,130a,140,140a,150,150a:步驟
210,220,220a,225,230,232,234,240,242,244,250,260:步驟
300:視訊編碼器/編碼器
310:接收器
320:視訊分析器/分析器
330:視訊處理器
340:編碼器
350:解碼器
360:選擇器
370:合成器
375:參考視圖產生器
380:訓練器
390:開關
400:視訊解碼器/解碼器
410:接收器/位元流輸入
420:解碼器
430:合成器/重建處理器
440:上調器/重建處理器
450:選擇器
為更佳地瞭解本發明,並更清楚顯示可如何使其生效,現在將僅通過實例方式參考隨附圖式,其中:
〔圖1〕係根據第一實施例之編碼6DoF視訊的方法之流程圖;
〔圖2〕係根據一實施例之一6DoF編碼器的方塊圖;
〔圖3〕係根據第二實施例之編碼6DoF視訊的方法之流程圖;
〔圖4〕係根據第三實施例之編碼6DoF視訊的方法之流程圖;
〔圖5〕係繪示根據第四實施例之解碼6DoF視訊的方法之流程圖;
〔圖6〕係根據一實施例之一6DoF解碼器的方塊圖;
〔圖7〕係繪示根據第五實施例之解碼6DoF視訊的方法之流程圖;及
〔圖8〕係繪示根據第六實施例之解碼6DoF視訊的方法之流程圖。
110,120,130,140,150:步驟
Claims (10)
- 一種編碼沈浸式視訊的方法,該方法包含: 接收(110)來源視訊資料,該來源視訊資料包含複數個來源視圖,各來源視圖包含紋理資料及深度資料; 分析(120)該來源視訊資料以選擇用於處理該來源視訊資料的一組態; 處理該來源視訊資料以產生經處理來源視訊資料,該處理包含根據該選定組態來降取樣(140)該等來源視圖之一或多者;及 編碼(150)該經處理來源視訊資料以產生一視訊位元流及一後設資料位元流, 其中該視訊位元流包含經編碼紋理資料及經編碼深度資料,且該後設資料位元流包含用於輔助一解碼器解碼該視訊位元流的後設資料,其中該後設資料描述在該一或多個來源視圖上所執行的該處理之一組態,且 其中該分析(120)包含: 分析該等來源視圖之中的視覺內容之相似性; 指派一第一降取樣因數給一第一視圖; 指派一第二降取樣因數給一第二視圖;及 指派一第三降取樣因數給一第三視圖, 其中若該第一視圖與該第二視圖之間的該相似性大於該第一視圖與該第三視圖之間的該相似性,則該第二降取樣因數高於該第三降取樣因數。
- 如請求項1之方法,其中該分析包含: 基於該來源視訊資料來獲得(122)至少一個參考視圖, 根據複數個不同組態將該等來源視圖的該一或多者濾波(130)及降取樣(140), 針對該複數個不同組態之各者: 編碼(150)各別之該經處理來源視訊資料以產生一候選視訊位元流; 從該候選視訊位元流解碼(124)該複數個來源視圖的一或多者; 從經解碼之該一或多個來源視圖重建(126)至少一個測試視圖,該至少一個測試視圖對應於該至少一個參考視圖;及 比較(128)該經重建測試視圖與該參考視圖, 該分析(120a)進一步包含基於該比較之結果來選擇該組態, 該方法進一步包含選擇與該選定組態相關聯的該候選視訊位元流作為該視訊位元流。
- 如前述請求項中任一項之方法,其進一步包含使用一機器學習演算法來設計(129)一重建濾波器, 其中當將一或多個經解碼視圖升取樣及濾波時,該重建濾波器可由一解碼器使用,且 該後設資料進一步包含該重建濾波器的一描述。
- 如請求項3之方法,其包含: 基於該來源視訊資料來獲得(122)至少一個參考視圖, 從該視訊位元流解碼(124)該複數個來源視圖的一或多者,及 界定對應於該參考視圖的一測試視圖,該測試視圖係從經解碼之該一或多個來源視圖重建(126); 其中設計該重建濾波器包含使用該機器學習演算法來訓練該重建濾波器的濾波係數,以便減少該測試視圖與該參考視圖之間的一誤差。
- 一種解碼沈浸式視訊的方法,該方法包含: 接收(210)一視訊位元流及一後設資料位元流,其中該視訊位元流包含用於複數個來源視圖之各者的經編碼紋理資料及經編碼深度資料,且該後設資料位元流包含用於輔助該視訊位元流之解碼的後設資料; 獲得待演現之至少一個目標視圖的視埠參數; 從該視訊位元流解碼(220a)該複數個來源視圖之至少兩者;及 基於該等獲得的視埠參數,從經解碼之該至少兩個來源視圖重建該至少一個目標視圖, 其中該後設資料描述當編碼該一或多個來源視圖時所執行的降取樣之一組態, 其中該方法包含,針對經解碼之該至少兩個來源視圖之各者,基於該等視埠參數來合成(225)一合成目標視圖,且 其中重建該至少一個目標視圖包含根據該後設資料中所描述之該組態將該等合成目標視圖升取樣(232, 234)、濾波(242,244)、及結合(260)。
- 如請求項5之方法,其中該後設資料包含待用於該升取樣及濾波之一重建濾波器之一描述,且該升取樣(230, 232, 234)及濾波(240, 242, 244)包含使用所描述的該重建濾波器。
- 如請求項5至6中任一項之方法,其中該視訊位元流係從一遠端編碼器接收,該方法進一步包含傳輸(250)視埠參數至該編碼器。
- 一種電腦程式,其包含當該程式在一處理系統上運行時用於使該處理系統實施如請求項1至7中任一項之方法的電腦碼。
- 一種視訊編碼器(300),其經組態以編碼沈浸式視訊,該編碼器包含: 一輸入(310),其經組態以接收來源視訊資料,該來源視訊資料包含複數個來源視圖,各來源視圖包含紋理資料及深度資料; 一視訊分析器(320); 一視訊處理器(330); 一編碼器(340);及 一輸出, 該視訊分析器(320)經組態以分析該來源視訊資料以選擇用於該視訊處理器(330)之一組態; 該視訊處理器(330)經組態以處理該來源視訊資料以產生經處理來源視訊資料,該處理包含降取樣該等來源視圖之一或多者,其中該視訊處理器經組態以根據該選定組態降取樣該一或多個來源視圖; 該編碼器(340)經組態以編碼該經處理來源視訊資料以產生一視訊位元流及一後設資料位元流;且 該輸出經組態以輸出該視訊位元流及該後設資料位元流, 其中該視訊位元流包含經編碼紋理資料及經編碼深度資料,且該後設資料位元流包含用於輔助一解碼器解碼該視訊位元流的後設資料,其中該後設資料描述在該一或多個來源視圖上所執行的該處理之一組態, 其中用以分析該來源視訊資料之該視訊分析器(320)經組態以: 分析該等來源視圖之中的視覺內容之相似性; 指派一第一降取樣因數給一第一視圖; 指派一第二降取樣因數給一第二視圖;及 指派一第三降取樣因數給一第三視圖, 其中若該第一視圖與該第二視圖之間的該相似性大於該第一視圖與該第三視圖之間的該相似性,則該第二降取樣因數高於該第三降取樣因數。
- 一種視訊解碼器(400),其經組態以解碼沈浸式視訊,該視訊解碼器包含: 一位元流輸入(410),其經組態以接收一視訊位元流及一後設資料位元流,其中該視訊位元流包含用於複數個來源視圖之各者的經編碼紋理資料及經編碼深度資料,且該後設資料位元流包含用於輔助該視訊位元流之解碼的後設資料; 一控制輸入,其經組態以接收待演現之至少一個目標視圖的視埠參數; 一解碼器(420),其經組態以從該視訊位元流解碼該複數個來源視圖之至少兩者;及 一重建處理器(430, 440),其經組態以基於該等獲得的視埠參數,從經解碼之該至少兩個來源視圖重建該至少一個目標視圖, 其中該重建處理器包含一合成器,該合成器經組態以從經解碼之該至少兩個來源視圖之各者合成一合成目標視圖;及一上調器(upscaler),其經組態以將該等合成目標視圖升取樣、濾波、及結合。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19199240.3A EP3799433A1 (en) | 2019-09-24 | 2019-09-24 | Coding scheme for immersive video with asymmetric down-sampling and machine learning |
EP19199240.3 | 2019-09-24 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202126048A true TW202126048A (zh) | 2021-07-01 |
Family
ID=68066634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109132693A TW202126048A (zh) | 2019-09-24 | 2020-09-22 | 用於沈浸式視訊的編碼方案 |
Country Status (11)
Country | Link |
---|---|
US (1) | US11792453B2 (zh) |
EP (2) | EP3799433A1 (zh) |
JP (1) | JP7577740B2 (zh) |
KR (1) | KR20220064410A (zh) |
CN (1) | CN114450940B (zh) |
AR (1) | AR120018A1 (zh) |
BR (1) | BR112022005350A2 (zh) |
CA (1) | CA3155157A1 (zh) |
MX (1) | MX2022003455A (zh) |
TW (1) | TW202126048A (zh) |
WO (1) | WO2021058402A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4038576A1 (en) * | 2019-10-02 | 2022-08-10 | InterDigital VC Holdings France, SAS | A method and apparatus for encoding, transmitting and decoding volumetric video |
EP3840389A1 (en) * | 2019-12-18 | 2021-06-23 | Koninklijke Philips N.V. | Coding scheme for video data using down-sampling/up-sampling and non-linear filter for depth map |
US20220122311A1 (en) * | 2020-10-21 | 2022-04-21 | Samsung Electronics Co., Ltd. | 3d texturing via a rendering loss |
KR20230125985A (ko) | 2022-02-22 | 2023-08-29 | 한국전자통신연구원 | 심층신경망 기반 다계층 구조를 활용한 오디오 신호의 압축 방법, 압축 장치, 및 그 훈련 방법 |
GB2625720A (en) * | 2022-12-21 | 2024-07-03 | V Nova Int Ltd | Immersive Video Data Processing |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6389178B1 (en) * | 1994-07-28 | 2002-05-14 | Lucent Technologies Inc. | Method of downsampling documents |
RU2689191C2 (ru) | 2009-01-26 | 2019-05-24 | Томсон Лайсенсинг | Упаковка кадров для кодирования видео |
US8681873B2 (en) * | 2010-02-19 | 2014-03-25 | Skype | Data compression for video |
US20120170841A1 (en) | 2011-01-05 | 2012-07-05 | Samsung Electronics Co., Ltd. | Image processing apparatus and method |
CN103379349B (zh) * | 2012-04-25 | 2016-06-29 | 浙江大学 | 一种视点合成预测编码方法、解码方法、对应的装置及码流 |
CN103442231A (zh) * | 2013-08-19 | 2013-12-11 | 中山大学深圳研究院 | 一种视频编码的方法 |
GB2524478A (en) * | 2014-03-20 | 2015-09-30 | Nokia Technologies Oy | Method, apparatus and computer program product for filtering of media content |
US10192347B2 (en) * | 2016-05-17 | 2019-01-29 | Vangogh Imaging, Inc. | 3D photogrammetry |
TWI650994B (zh) * | 2016-09-02 | 2019-02-11 | 聯發科技股份有限公司 | 提升品質遞送及合成處理 |
WO2018156243A1 (en) * | 2017-02-22 | 2018-08-30 | Twitter, Inc. | Transcoding video |
US10764494B2 (en) * | 2018-05-25 | 2020-09-01 | Microsoft Technology Licensing, Llc | Adaptive panoramic video streaming using composite pictures |
-
2019
- 2019-09-24 EP EP19199240.3A patent/EP3799433A1/en not_active Withdrawn
-
2020
- 2020-09-18 KR KR1020227013349A patent/KR20220064410A/ko unknown
- 2020-09-18 JP JP2022517762A patent/JP7577740B2/ja active Active
- 2020-09-18 MX MX2022003455A patent/MX2022003455A/es unknown
- 2020-09-18 WO PCT/EP2020/076197 patent/WO2021058402A1/en unknown
- 2020-09-18 CA CA3155157A patent/CA3155157A1/en active Pending
- 2020-09-18 EP EP20771597.0A patent/EP4035401A1/en active Pending
- 2020-09-18 US US17/642,965 patent/US11792453B2/en active Active
- 2020-09-18 BR BR112022005350A patent/BR112022005350A2/pt unknown
- 2020-09-18 CN CN202080067116.0A patent/CN114450940B/zh active Active
- 2020-09-21 AR ARP200102616A patent/AR120018A1/es active IP Right Grant
- 2020-09-22 TW TW109132693A patent/TW202126048A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
JP7577740B2 (ja) | 2024-11-05 |
WO2021058402A1 (en) | 2021-04-01 |
CA3155157A1 (en) | 2021-04-01 |
US11792453B2 (en) | 2023-10-17 |
CN114450940A (zh) | 2022-05-06 |
US20220345756A1 (en) | 2022-10-27 |
EP4035401A1 (en) | 2022-08-03 |
JP2022548374A (ja) | 2022-11-18 |
KR20220064410A (ko) | 2022-05-18 |
AR120018A1 (es) | 2022-01-26 |
BR112022005350A2 (pt) | 2022-06-14 |
CN114450940B (zh) | 2024-05-31 |
MX2022003455A (es) | 2022-04-19 |
EP3799433A1 (en) | 2021-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11405643B2 (en) | Sequential encoding and decoding of volumetric video | |
US11599968B2 (en) | Apparatus, a method and a computer program for volumetric video | |
US10419737B2 (en) | Data structures and delivery methods for expediting virtual reality playback | |
US11202086B2 (en) | Apparatus, a method and a computer program for volumetric video | |
JP7577740B2 (ja) | 非対称ダウンサンプリング及び機械学習を用いた没入型ビデオのためのコーディング体系 | |
US10567464B2 (en) | Video compression with adaptive view-dependent lighting removal | |
US20170244948A1 (en) | Spatial random access enabled video system with a three-dimensional viewing volume | |
US20230080852A1 (en) | Use of tiered hierarchical coding for point cloud compression | |
EP3669330A1 (en) | Encoding and decoding of volumetric video | |
US20180098090A1 (en) | Method and Apparatus for Rearranging VR Video Format and Constrained Encoding Parameters | |
CN112889282B (zh) | 用于对图像执行人工智能编码和人工智能解码的方法和设备 | |
TW202131695A (zh) | 用於視訊資料之編碼方案 | |
US20220217314A1 (en) | Method for transmitting 360 video, method for receiving 360 video, 360 video transmitting device, and 360 video receiving device | |
WO2019229293A1 (en) | An apparatus, a method and a computer program for volumetric video | |
US12096027B2 (en) | Method, an apparatus and a computer program product for volumetric video encoding and decoding | |
US20200267385A1 (en) | Method for processing synchronised image, and apparatus therefor | |
WO2019115867A1 (en) | An apparatus, a method and a computer program for volumetric video | |
TW202406340A (zh) | 沉浸式視訊編解碼中之冗餘資料減少 | |
EP3729805B1 (en) | Method and apparatus for encoding and decoding volumetric video data | |
EP3698332A1 (en) | An apparatus, a method and a computer program for volumetric video |