JP2024512914A - マシンビジョンのためのビデオ符号化のための方法および装置 - Google Patents
マシンビジョンのためのビデオ符号化のための方法および装置 Download PDFInfo
- Publication number
- JP2024512914A JP2024512914A JP2023554897A JP2023554897A JP2024512914A JP 2024512914 A JP2024512914 A JP 2024512914A JP 2023554897 A JP2023554897 A JP 2023554897A JP 2023554897 A JP2023554897 A JP 2023554897A JP 2024512914 A JP2024512914 A JP 2024512914A
- Authority
- JP
- Japan
- Prior art keywords
- codec
- input
- video
- hybrid
- downsampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000013139 quantization Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 15
- 230000006835 compression Effects 0.000 claims description 13
- 238000007906 compression Methods 0.000 claims description 13
- 230000002123 temporal effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 description 22
- 238000004891 communication Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/12—Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/59—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/13—Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/132—Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/91—Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Discrete Mathematics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
本出願は、2021年11月9日に出願された米国仮特許出願第63/277,517号および2022年9月22日に出願された米国特許出願第17/950,564号に基づく優先権を米国特許法第119条の下に主張し、それらの開示内容はそれらの全体が参照により本明細書に組み込まれる。
一例示的な実施形態によれば、マシンビジョンおよび人間/マシンハイブリッドビジョンのためのビデオを符号化するための装置は、コンピュータプログラムコードを記憶するように構成された少なくとも1つのメモリ、およびコンピュータプログラムコードにアクセスし、コンピュータプログラムコードによって命令されるように動作するように構成された少なくとも1つのプロセッサを備える。コンピュータプログラムコードは、少なくとも1つのプロセッサに、ビデオまたは画像データのうちの少なくとも1つを含む入力をハイブリッドコーデックで受信させるように構成された設定コードを含み、ハイブリッドコーデックは、第1および第2のコーデックを含み、第1のコーデックは、人間が消費するために設計された従来のコーデックであり、第2のコーデックは、マシンビジョンのために設計された学習ベースのコーデックである。コンピュータプログラムコードは、第1のコーデックを使用して少なくとも1つのプロセッサに入力を圧縮させるように構成された圧縮コードをさらに含み、圧縮コードは、ダウンサンプリングモジュールを使用して少なくとも1つのプロセッサに入力をダウンサンプリングさせるように構成されたダウンサンプリングコードを含み、圧縮コードは、残差信号を生成するアップサンプリングモジュールを使用して少なくとも1つのプロセッサに圧縮された入力をアップサンプリングさせるように構成されたアップサンプリングコードを含む。コンピュータプログラムコードは、少なくとも1つのプロセッサに残差信号を量子化させて入力の量子化表現を取得させるように構成された量子化コードをさらに含む。コンピュータプログラムコードは、少なくとも1つのプロセッサに、1つまたは複数の畳み込みフィルタモジュールを使用して入力の量子化表現を符号化させるように構成されたエントロピー符号化コードをさらに含む。コンピュータプログラムコードは、エントロピー符号化された量子化表現を使用して1つまたは複数のネットワークを引き起こすように構成された訓練コードをさらに含む。
一例示的な実施形態によれば、プロセッサによって実行されると、プロセッサに、マシンビジョンおよび人間/マシンハイブリッドビジョンのためのビデオを符号化するための方法を実行させる、命令がそこに格納された非一時的コンピュータ可読媒体。方法は、ビデオまたは画像データのうちの少なくとも1つを含む入力をハイブリッドコーデックで受信するステップを含み、ハイブリッドコーデックは、第1および第2のコーデックを含み、第1のコーデックは、人間が消費するために設計された従来のコーデックであり、第2のコーデックは、マシンビジョンのために設計された学習ベースのコーデックである。方法は、第1のコーデックを使用して入力を圧縮するステップをさらに含み、圧縮するステップは、ダウンサンプリングモジュールを使用して入力をダウンサンプリングし、残差信号を生成するアップサンプリングモジュールを使用して圧縮された入力をアップサンプリングするステップを含む。方法は、入力の量子化表現を取得するために残差信号を量子化するステップをさらに含む。方法は、1つまたは複数の畳み込みフィルタモジュールを使用して入力の量子化表現をエントロピー符号化するステップ、およびエントロピー符号化された量子化表現を使用して1つまたは複数のネットワークを訓練するステップをさらに含む。
Loverall=R+λmseLmse (1)
いくつかの実施形態では、レート歪み損失は、以下のように修正し得る。
Loverall=R+λms-ssimLms-ssim (2)
ここで、Lms-ssimは、残差画像202および対応する再構築された残差画像205を使用して計算されたMS-SSIMメトリックであり、λms-ssimは重み係数である。
Loverall=R+λmseLmse+λdetectLdetect (3)
Loverall=R+λms-ssimLms-ssim+λdetectLdetect (4)
ここで、λdetectは正の重み係数である。訓練中、マシンビジョンネットワークのためのモデルパラメータは固定されてもよく、残差エンコーダ231/デコーダ238、エントロピーエンコーダ233/デコーダ236、およびエントロピーモデル235のパラメータのみが訓練される。いくつかの実施形態では、マシンビジョンネットワークのパラメータは、図2のネットワークの残りと共に訓練されてもよい。
110 バス
120 プロセッサ
130 メモリ
140 記憶構成要素
150 入力構成要素
160 出力構成要素
170 通信インターフェース
200 ハイブリッドビデオコーデック
201 入力ビデオ
202 ダウンサンプリングされたビデオ
203 復号されダウンサンプリングされたビデオ、低解像度ビデオ
204 高解像度ビデオ
205 再構築されたビデオ
210 ダウンサンプリングモジュール
220 従来のビデオコーデック
221 エンコーダ
222 デコーダ
223 デコーダ
224 ビットストリーム
230 学習ベースのビデオまたは画像コーデック
231 残差エンコーダ
232 量子化器、量子化モジュール
233 エントロピーエンコーダ
235 エントロピーモデル
236 エントロピーデコーダ
237 逆量子化モジュール
238 残差デコーダ
240 コアネットワーク、アップサンプリングモジュール
250 アップサンプリングモジュール
300 センサ出力
305 マシンビジョン
306 人間の視覚
310 マシン用ビデオ符号化(VCM)エンコーダ
311 ビデオ符号化経路
312 特徴抽出
313 特徴変換
314 特徴符号化
320 VCMデコーダ
321 ビデオ復号
322 特徴復号
401A 量子化
401B 量子化
402A 算術コーダ
402B 算術コーダ
403A 算術デコーダ
403B 算術デコーダ
410 分析ネットワーク
420 合成ネットワーク
430 エントロピーモデル
511 一般化除算正規化(GDN)モジュール
521 逆一般化除算正規化(IGDN)モジュール
Claims (20)
- マシンビジョンおよび人間/マシンハイブリッドビジョンのためのビデオを符号化するための方法であって、前記方法は1つまたは複数のプロセッサによって実行され、前記方法は、
ハイブリッドコーデックで、ビデオまたは画像データのうちの少なくとも1つを含む入力を受信するステップであって、前記ハイブリッドコーデックは第1および第2のコーデックを含み、前記第1のコーデックは、人間が消費するために設計された従来のコーデックであり、前記第2のコーデックは、マシンビジョンのために設計された学習ベースのコーデックである、ステップと、
前記第1のコーデックを使用して前記入力を圧縮するステップであって、圧縮する前記ステップは、ダウンサンプリングモジュールを使用して前記入力をダウンサンプリングし、残差信号を生成するアップサンプリングモジュールを使用して前記圧縮された入力をアップサンプリングするステップを含む、ステップと、
前記入力の量子化表現を取得するために前記残差信号を量子化するステップと、
1つまたは複数の畳み込みフィルタモジュールを使用して前記入力の前記量子化表現をエントロピー符号化するステップと、
前記エントロピー符号化された量子化表現を使用して1つまたは複数のネットワークを訓練するステップと
を含む、方法。 - 前記従来のコーデックが、VVC、HEVC、H264、JPEG、またはJPEG2000コーデックのいずれかを含む、請求項1に記載の方法。
- 前記学習用コーデックが、画像コーデックを含み、前記残差信号が、時間的冗長性を考慮せずにフレームごとに圧縮される、請求項1に記載の方法。
- 前記ダウンサンプリングモジュールが、古典的な画像ダウンサンプラおよび学習ベースの画像ダウンサンプラのうちの1つである、請求項1に記載の方法。
- 前記ダウンサンプリングモジュールが、固定されており、エンコーダおよびデコーダの両方で知られている、またはユーザ定義のダウンサンプリング比Nを使用する、請求項4に記載の方法。
- 前記アップサンプリングモジュールが、古典的な画像アップサンプラおよび学習ベースの画像アップサンプラのうちの1つである、請求項1に記載の方法。
- 前記アップサンプリングされた圧縮入力が前記入力から減算されて第2の残差信号を生成し、前記第2の残差信号が前記学習ベースのコーデックに提供される、請求項1に記載の方法。
- 前記第2のコーデックの前記出力が、前記アップサンプリングされた圧縮入力の上に追加されて、マシンビジョンタスクに適した前記再構築されたビデオを形成する、請求項7に記載の方法。
- 前記ハイブリッドコーデックへの前記入力がグランドトゥルースである、請求項1に記載の方法。
- 前記マシンビジョンネットワークが固定され、前記第2のコーデックの残差コーダ、エントロピーコーダ、およびエントロピーモデルのパラメータが訓練される、請求項1に記載の方法。
- マシンビジョンおよび人間/マシンハイブリッドビジョンのためのビデオを符号化するための装置であって、前記装置は、
コンピュータプログラムコードを記憶するように構成された少なくとも1つのメモリと、
前記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードによって命令されるように動作するよう構成された少なくとも1つのプロセッサであって、前記コンピュータプログラムコードは、
前記少なくとも1つのプロセッサに、ビデオまたは画像データのうちの少なくとも1つを含む入力を、ハイブリッドコーデックで受信させるように構成された設定コードであって、前記ハイブリッドコーデックは第1および第2のコーデックを含み、前記第1のコーデックは人間が消費するために設計された従来のコーデックであり、前記第2のコーデックはマシンビジョンのために設計された学習ベースのコーデックである、設定コードと、
前記少なくとも1つのプロセッサに、前記第1のコーデックを使用して前記入力を圧縮させるように構成された圧縮コードであって、前記圧縮コードは、前記少なくとも1つのプロセッサに、ダウンサンプリングモジュールを使用して前記入力をダウンサンプリングさせるように構成されたダウンサンプリングコードを含み、前記圧縮コードは、前記少なくとも1つのプロセッサに、残差信号を生成するアップサンプリングモジュールを使用して前記圧縮された入力をアップサンプリングさせるように構成されたアップサンプリングコードを含む、圧縮コードと、
前記少なくとも1つのプロセッサに、前記入力の量子化表現を取得するために前記残差信号を量子化させるように構成された量子化コードと、
前記少なくとも1つのプロセッサに、1つまたは複数の畳み込みフィルタモジュールを使用して前記入力の前記量子化表現を符号化させるように構成されたエントロピー符号化コードと、
前記エントロピー符号化された量子化表現を使用して前記1つまたは複数のネットワークを引き起こすように構成された訓練コードと
を含む、少なくとも1つのプロセッサと
を備える、装置。 - 前記従来のコーデックが、VVCコーデック、HEVCコーデック、H264コーデック、JPEGコーデック、またはJPEG2000コーデックのうちの少なくとも1つを含む、請求項11に記載の装置。
- 前記学習用コーデックが、画像コーデックを含み、前記残差信号が、時間的冗長性を考慮せずにフレームごとに圧縮される、請求項11に記載の装置。
- 前記ダウンサンプリングモジュールが、古典的な画像ダウンサンプラおよび学習ベースの画像ダウンサンプラのうちの1つである、請求項11に記載の装置。
- 前記ダウンサンプリングモジュールが、固定されており、エンコーダおよびデコーダの両方で知られている、またはユーザ定義のダウンサンプリング比Nを使用する、請求項14に記載の装置。
- 前記アップサンプリングモジュールが、古典的な画像アップサンプラおよび学習ベースの画像アップサンプラのうちの1つである、請求項11に記載の装置。
- 前記アップサンプリングされた圧縮入力が前記入力から減算されて第2の残差信号を生成し、前記第2の残差信号が前記学習ベースのコーデックに提供される、請求項11に記載の装置。
- 前記第2のコーデックの前記出力が、前記アップサンプリングされた圧縮入力の上に追加されて、マシンビジョンタスクのために構成された前記再構築されたビデオを形成する、請求項17に記載の装置。
- 前記ハイブリッドコーデックへの前記入力がグランドトゥルースである、請求項11に記載の装置。
- コンピュータ命令を記憶している非一時的コンピュータ可読媒体であって、少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに、
ハイブリッドコーデックで、ビデオまたは画像データのうちの少なくとも1つを含む入力を受信させ、前記ハイブリッドコーデックは第1および第2のコーデックを含み、前記第1のコーデックは、人間が消費するために設計された従来のコーデックであり、前記第2のコーデックは、マシンビジョンのために設計された学習ベースのコーデックであり、
前記第1のコーデックを使用して前記入力を圧縮させ、前記圧縮させることは、ダウンサンプリングモジュールを使用して前記入力をダウンサンプリングし、残差信号を生成するアップサンプリングモジュールを使用して前記圧縮された入力をアップサンプリングすることを含み、
前記入力の量子化表現を取得するために前記残差信号を量子化させ、
1つまたは複数の畳み込みフィルタモジュールを使用して前記入力の前記量子化表現をエントロピー符号化し、
前記エントロピー符号化された量子化表現を使用して1つまたは複数のネットワークを訓練させる、
非一時的コンピュータ可読媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163277517P | 2021-11-09 | 2021-11-09 | |
US63/277,517 | 2021-11-09 | ||
US17/950,564 | 2022-09-22 | ||
US17/950,564 US12219140B2 (en) | 2021-11-09 | 2022-09-22 | Method and apparatus for video coding for machine vision |
PCT/US2022/045004 WO2023086164A1 (en) | 2021-11-09 | 2022-09-28 | Method and apparatus for video coding for machine vision |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024512914A true JP2024512914A (ja) | 2024-03-21 |
Family
ID=86228994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023554897A Pending JP2024512914A (ja) | 2021-11-09 | 2022-09-28 | マシンビジョンのためのビデオ符号化のための方法および装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US12219140B2 (ja) |
EP (1) | EP4430826A1 (ja) |
JP (1) | JP2024512914A (ja) |
KR (1) | KR20230133330A (ja) |
CN (1) | CN116982313A (ja) |
WO (1) | WO2023086164A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230334718A1 (en) | 2022-04-14 | 2023-10-19 | Tencent America LLC | Online training computer vision task models in compression domain |
CN116437102B (zh) * | 2023-06-14 | 2023-10-20 | 中国科学技术大学 | 可学习通用视频编码方法、系统、设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9571856B2 (en) | 2008-08-25 | 2017-02-14 | Microsoft Technology Licensing, Llc | Conversion operations in scalable video encoding and decoding |
EP3398114B1 (en) | 2016-02-05 | 2022-08-24 | Deepmind Technologies Limited | Compressing images using neural networks |
DE202017007512U1 (de) | 2016-04-11 | 2022-04-28 | Magic Pony Technology Limited | Bewegungsschätzung durch maschinelles Lernen |
WO2018199051A1 (ja) | 2017-04-25 | 2018-11-01 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 符号化装置、復号装置、符号化方法および復号方法 |
US11019364B2 (en) * | 2019-03-23 | 2021-05-25 | Uatc, Llc | Compression of images having overlapping fields of view using machine-learned models |
CN111988609B (zh) | 2019-05-22 | 2024-07-16 | 富士通株式会社 | 图像编码装置、概率模型生成装置和图像解码装置 |
EP4088454A4 (en) * | 2020-01-10 | 2024-01-17 | Nokia Technologies Oy | CASCADED PREDICTION TRANSFORMATION METHOD FOR TARGETED MIXED MACHINE-HUMAN VIDEO CODING |
EP4133740A4 (en) * | 2020-04-07 | 2024-04-17 | Nokia Technologies Oy | FEATURE DOMAIN RESIDUE FOR VIDEO CODING FOR MACHINES |
-
2022
- 2022-09-22 US US17/950,564 patent/US12219140B2/en active Active
- 2022-09-28 WO PCT/US2022/045004 patent/WO2023086164A1/en active Application Filing
- 2022-09-28 KR KR1020237027619A patent/KR20230133330A/ko active Search and Examination
- 2022-09-28 CN CN202280016592.9A patent/CN116982313A/zh active Pending
- 2022-09-28 EP EP22893442.8A patent/EP4430826A1/en active Pending
- 2022-09-28 JP JP2023554897A patent/JP2024512914A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
KR20230133330A (ko) | 2023-09-19 |
US12219140B2 (en) | 2025-02-04 |
WO2023086164A1 (en) | 2023-05-19 |
EP4430826A1 (en) | 2024-09-18 |
US20230144455A1 (en) | 2023-05-11 |
CN116982313A (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11800136B2 (en) | Constrained motion field estimation for hardware efficiency | |
US10735749B2 (en) | Coded-block-flag coding and derivation | |
CN113796014B (zh) | 一种对视频数据进行解码的方法和装置 | |
US10462467B2 (en) | Refining filter for inter layer prediction of scalable video coding | |
US20150189269A1 (en) | Recursive block partitioning | |
US11647223B2 (en) | Dynamic motion vector referencing for video coding | |
CN107205156B (zh) | 通过缩放的运动矢量预测 | |
JP2024520151A (ja) | 特徴データ符号化および復号方法および装置 | |
JP2024512914A (ja) | マシンビジョンのためのビデオ符号化のための方法および装置 | |
EP4300958A1 (en) | Video image encoding method, video image decoding method and related devices | |
JP7589427B2 (ja) | ビデオフレーム圧縮方法、ビデオフレーム伸長方法及び装置 | |
WO2022081307A1 (en) | Joint termination of bidirectional data blocks for parallel coding | |
TW201842771A (zh) | 用於顯示串流壓縮之中點預測誤差擴散 | |
KR20230136226A (ko) | 학습된 비디오 압축을 위한 다중 스케일 광학 흐름 | |
US9544596B1 (en) | Optimized template matching approach to intra-coding in video/image compression | |
JP2016506165A (ja) | インターレイヤの動きデータ継承 | |
CN111886864A (zh) | 分辨率自适应视频编码 | |
KR102613527B1 (ko) | 낮은 비트레이트 비디오 압축을 위한 마이크로도싱 | |
US20240121408A1 (en) | Region of interest coding for vcm | |
JP2020145667A (ja) | 画像圧縮のためのハイブリッドパレット−dpcm符号化 | |
EP4369710A1 (en) | Method and device with image processing | |
CN103702129A (zh) | 视频编码方法与视频编码装置 | |
US20240333950A1 (en) | Efficient upsample methods in neural network image compression decoder | |
CN110784719B (zh) | 在视频注释的存在下视频数据的高效编码 | |
KR20240160612A (ko) | 인코딩 방법 및 장치, 디코딩 방법 및 장치, 디바이스, 저장 매체 및 컴퓨터 프로그램 제품 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230907 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230907 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20241007 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20241111 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20241120 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20250106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250130 |