JP2022531639A - ビデオへの情報埋め込み方法、コンピュータ機器及びコンピュータプログラム - Google Patents
ビデオへの情報埋め込み方法、コンピュータ機器及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2022531639A JP2022531639A JP2021532214A JP2021532214A JP2022531639A JP 2022531639 A JP2022531639 A JP 2022531639A JP 2021532214 A JP2021532214 A JP 2021532214A JP 2021532214 A JP2021532214 A JP 2021532214A JP 2022531639 A JP2022531639 A JP 2022531639A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- embedded
- pixel
- detected
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004590 computer program Methods 0.000 title claims description 7
- 238000000034 method Methods 0.000 claims abstract description 83
- 238000009826 distribution Methods 0.000 claims abstract description 75
- 230000000903 blocking effect Effects 0.000 claims abstract description 4
- 230000015654 memory Effects 0.000 claims description 23
- 238000001514 detection method Methods 0.000 claims description 22
- 230000008859 change Effects 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 11
- 238000002156 mixing Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 abstract description 9
- 230000000873 masking effect Effects 0.000 abstract 1
- 238000006243 chemical reaction Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 10
- 230000009466 transformation Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000033001 locomotion Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000004549 pulsed laser deposition Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/272—Means for inserting a foreground image in a background image, i.e. inlay, outlay
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/66—Remote control of cameras or camera parts, e.g. by remote control devices
- H04N23/661—Transmitting camera control signals through networks, e.g. control via the Internet
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/64—Circuits for processing colour signals
- H04N9/68—Circuits for processing colour signals for controlling the amplitude of colour signals, e.g. automatic chroma control circuits
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/70—Circuitry for compensating brightness variation in the scene
- H04N23/71—Circuitry for evaluating the brightness variation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/2628—Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本願は、ビデオへの情報埋め込み方法、コンピュータ機器及び記憶媒体を提供する。方法は、参照フレームにおける埋め込み領域の画素分布特性を満たすモデルを構築し、前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御するステップと、前記モデルに基づいて、前記検出対象のフレームにおける埋め込み領域内の背景及び前景を認識し、前記背景を遮蔽し前景を露出させるためのテンプレートを生成するステップと、埋め込み対象の情報を前記テンプレートに適用することで、前記埋め込み対象の情報のうち、前記前景を遮蔽するコンテンツをブロックするステップと、前記テンプレートが適用された前記埋め込み対象の情報を前記検出対象のフレームにおける埋め込み領域に被覆することで、前記前景を前記埋め込み対象の情報に対して強調表示するステップと、をさらに含む。本願によれば、情報をビデオの背景コンテンツに高効率に融合することができる。【選択図】図3
Description
本願は、2019年5月9日に提出された、出願番号が201910385878.4であり、発明名称が「ビデオへの情報埋め込み方法、装置及び記憶媒体」である中国特許出願の優先権について優先権を主張し、その内容の全てが参照により本願に組み込まれる。
本願は、グラフィック画像技術に関し、特に、ビデオへの情報埋め込み方法、コンピュータ機器及び記憶媒体に関する。
ビデオは、現在の主流の情報媒体であり、インターネット、特にモバイルインターネットの発展に伴い、ビデオの伝播速度が迅速に向上されることで、ビデオが情報伝播の重要な経路となっている。ビデオの情報埋め込みとは、ビデオの主要内容(例えば、前景コンテンツ)の視聴に影響を与えることなく、ビデオの背景に、様々な情報、例えば、画像、文字又は両者の組み合わせなどを含む普及情報を重畳することである。
ビデオの主体コンテンツ(例えば、ビデオ内の人物、ビデオの後期製作際に追加された特殊効果など)は、前景コンテンツの形式で表示される。ビデオを放送する際、ユーザから常にビデオの主体コンテンツを見えるようにするために、情報をビデオの背景コンテンツに融合する必要がある。関連技術では、効果的な解決案に欠けている。
本願の実施例は、情報をビデオの背景コンテンツに高効率に融合することができる、ビデオへの情報埋め込み方法、コンピュータ機器及び記憶媒体を提供する。
本願の実施例の技術案は、以下のように実現される。
本願の実施例は、
参照フレームにおける埋め込み領域の画素分布特性を満たすモデルを構築し、前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御するステップと、
前記モデルに基づいて、前記検出対象のフレームにおける埋め込み領域内の背景及び前景を認識し、前記背景を遮蔽し前記前景を露出させるためのテンプレートを生成するステップと、
埋め込み対象の情報を前記テンプレートに適用することで、前記埋め込み対象の情報のうち、前記前景を遮蔽するコンテンツをブロックするステップと、
前記テンプレートが適用された前記埋め込み対象の情報を前記検出対象のフレームにおける埋め込み領域に被覆することで、前記前景を前記埋め込み対象の情報に対して強調表示するステップと、を含む、ビデオへの情報埋め込み方法を提供する。
本願の実施例は、
参照フレームにおける埋め込み領域の画素分布特性を満たすモデルを構築し、前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御するステップと、
前記モデルに基づいて、前記検出対象のフレームにおける埋め込み領域内の背景及び前景を認識し、前記背景を遮蔽し前記前景を露出させるためのテンプレートを生成するステップと、
埋め込み対象の情報を前記テンプレートに適用することで、前記埋め込み対象の情報のうち、前記前景を遮蔽するコンテンツをブロックするステップと、
前記テンプレートが適用された前記埋め込み対象の情報を前記検出対象のフレームにおける埋め込み領域に被覆することで、前記前景を前記埋め込み対象の情報に対して強調表示するステップと、を含む、ビデオへの情報埋め込み方法を提供する。
本願の実施例は、
参照フレームにおける埋め込み領域の画素分布特性を満たすモデルを構築し、前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御するモデル構築モジュールと、
前記モデルに基づいて、前記検出対象のフレームにおける埋め込み領域内の背景及び前景を認識し、前記背景を遮蔽し前記前景を露出させるためのテンプレートを生成するテンプレート生成モジュールと、
埋め込み対象の情報を前記テンプレートに適用することで、前記埋め込み対象の情報のうち、前記前景を遮蔽するコンテンツをブロックするテンプレート適用モジュールと、
前記テンプレートが適用された前記埋め込み対象の情報を前記検出対象のフレームにおける埋め込み領域に被覆することで、前記前景を前記埋め込み対象の情報に対して強調表示する情報被覆モジュールと、を含む、ビデオへの情報埋め込み装置を提供する。
参照フレームにおける埋め込み領域の画素分布特性を満たすモデルを構築し、前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御するモデル構築モジュールと、
前記モデルに基づいて、前記検出対象のフレームにおける埋め込み領域内の背景及び前景を認識し、前記背景を遮蔽し前記前景を露出させるためのテンプレートを生成するテンプレート生成モジュールと、
埋め込み対象の情報を前記テンプレートに適用することで、前記埋め込み対象の情報のうち、前記前景を遮蔽するコンテンツをブロックするテンプレート適用モジュールと、
前記テンプレートが適用された前記埋め込み対象の情報を前記検出対象のフレームにおける埋め込み領域に被覆することで、前記前景を前記埋め込み対象の情報に対して強調表示する情報被覆モジュールと、を含む、ビデオへの情報埋め込み装置を提供する。
1つの選択的な実施形態では、前記装置は、
前記参照フレームにおける埋め込み領域の各ピクセルに対応して、前記ピクセルに対応する少なくとも1つのサブモデルと前記少なくとも1つのサブモデルに対応する重み付けとを初期化するパラメータ初期化モジュールと、
各ピクセルに対応して構築されたサブモデルを初期化された重み付けに基づいて混合することで、前記ピクセルに対応するモデルを形成する重み付け混合モジュールと、をさらに含む。
前記参照フレームにおける埋め込み領域の各ピクセルに対応して、前記ピクセルに対応する少なくとも1つのサブモデルと前記少なくとも1つのサブモデルに対応する重み付けとを初期化するパラメータ初期化モジュールと、
各ピクセルに対応して構築されたサブモデルを初期化された重み付けに基づいて混合することで、前記ピクセルに対応するモデルを形成する重み付け混合モジュールと、をさらに含む。
1つの選択的な実施形態では、前記装置は、
前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されたことに応じて、前記モデルを前記検出対象のフレームにおける埋め込み領域へフィッティングする速度を低減させる重み付け維持モジュールと、
前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されていないとともに、前記検出対象のフレームにおける埋め込み領域の光照射状況が変化したことに応じて、前記モデルを前記検出対象のフレームにおける埋め込み領域へフィッティングする速度を向上させるフィッティング加速モジュールと、をさらに含む。
前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されたことに応じて、前記モデルを前記検出対象のフレームにおける埋め込み領域へフィッティングする速度を低減させる重み付け維持モジュールと、
前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されていないとともに、前記検出対象のフレームにおける埋め込み領域の光照射状況が変化したことに応じて、前記モデルを前記検出対象のフレームにおける埋め込み領域へフィッティングする速度を向上させるフィッティング加速モジュールと、をさらに含む。
1つの選択的な実施形態では、前記装置は、
前記検出対象のフレームにおける埋め込み領域のピクセルが対応するモデルにおける少なくとも1つのサブモデルとマッチングされたことに応じて、前記マッチングされたサブモデルのパラメータを更新し、前記対応するモデルにおけるマッチングされていないサブモデルのパラメータを不変に維持するパラメータ更新モジュールをさらに含む。
前記検出対象のフレームにおける埋め込み領域のピクセルが対応するモデルにおける少なくとも1つのサブモデルとマッチングされたことに応じて、前記マッチングされたサブモデルのパラメータを更新し、前記対応するモデルにおけるマッチングされていないサブモデルのパラメータを不変に維持するパラメータ更新モジュールをさらに含む。
1つの選択的な実施形態では、前記装置は、
前記検出対象のフレームにおける埋め込み領域の各ピクセルの色値と、前記ピクセルに対応するモデルにおけるサブモデルとをマッチングする第1のマッチングモジュールと、
マッチングに成功したピクセルを前記背景のピクセルとして認識し、マッチングに失敗したピクセルを前記前景のピクセルとして認識する認識モジュールと、をさらに含む。
前記検出対象のフレームにおける埋め込み領域の各ピクセルの色値と、前記ピクセルに対応するモデルにおけるサブモデルとをマッチングする第1のマッチングモジュールと、
マッチングに成功したピクセルを前記背景のピクセルとして認識し、マッチングに失敗したピクセルを前記前景のピクセルとして認識する認識モジュールと、をさらに含む。
1つの選択的な実施形態では、前記装置は、
前記検出対象のフレームにおける埋め込み領域内の、背景として認識されたピクセルに対応し、中空の前記テンプレートにおける対応する位置に二進数の1を充填し、
前記検出対象のフレームにおける埋め込み領域内の、前景として認識されたピクセルに対応し、二進数の1が充填された前記テンプレートにおける対応する位置に二進数の0を充填する充填モジュールをさらに含む。
前記検出対象のフレームにおける埋め込み領域内の、背景として認識されたピクセルに対応し、中空の前記テンプレートにおける対応する位置に二進数の1を充填し、
前記検出対象のフレームにおける埋め込み領域内の、前景として認識されたピクセルに対応し、二進数の1が充填された前記テンプレートにおける対応する位置に二進数の0を充填する充填モジュールをさらに含む。
1つの選択的な実施形態では、前記装置は、
前記埋め込み対象の情報と、前記テンプレートにおける各位置に充填された二進数とをかけ算する演算モジュールをさらに含む。
前記埋め込み対象の情報と、前記テンプレートにおける各位置に充填された二進数とをかけ算する演算モジュールをさらに含む。
1つの選択的な実施形態では、前記装置は、
ビデオが移動ショットを用いて形成されたことに応じて、前記ビデオの参照フレームにおける埋め込み領域から抽出された特徴と、前記検出対象のフレームから抽出された特徴とをマッチングする第2のマッチングモジュールと、
マッチングに成功したことに応じて、前記検出対象のフレームが参照フレームにおける埋め込み領域に対応する埋め込み領域を含むと決定する領域決定モジュールと、をさらに含む。
ビデオが移動ショットを用いて形成されたことに応じて、前記ビデオの参照フレームにおける埋め込み領域から抽出された特徴と、前記検出対象のフレームから抽出された特徴とをマッチングする第2のマッチングモジュールと、
マッチングに成功したことに応じて、前記検出対象のフレームが参照フレームにおける埋め込み領域に対応する埋め込み領域を含むと決定する領域決定モジュールと、をさらに含む。
1つの選択的な実施形態では、前記装置は、
ビデオが移動ショットを用いて形成されたことに応じて、
前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御する前に、変換後の埋め込み領域における各ピクセルの位置が、前記参照フレームにおける埋め込み領域の対応するピクセルの位置に一致するように、前記検出対象のフレームにおける埋め込み領域を変換する領域変換モジュールと、
埋め込み対象の情報を前記テンプレートに適用する前に、変換後のテンプレートにおける各二進数の位置が、前記検出対象のフレームにおける埋め込み領域の対応するピクセルの位置に一致するように、前記テンプレートに対して前記変換の逆変換を行うテンプレート逆変換モジュールと、をさらに含む。
ビデオが移動ショットを用いて形成されたことに応じて、
前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御する前に、変換後の埋め込み領域における各ピクセルの位置が、前記参照フレームにおける埋め込み領域の対応するピクセルの位置に一致するように、前記検出対象のフレームにおける埋め込み領域を変換する領域変換モジュールと、
埋め込み対象の情報を前記テンプレートに適用する前に、変換後のテンプレートにおける各二進数の位置が、前記検出対象のフレームにおける埋め込み領域の対応するピクセルの位置に一致するように、前記テンプレートに対して前記変換の逆変換を行うテンプレート逆変換モジュールと、をさらに含む。
1つの選択的な実施形態では、前記装置は、
ビデオが固定ショットを用いて形成されたことに応じて、前記参照フレームにおける埋め込み領域の位置に基づいて、前記検出対象のフレームにおいて対応する位置の領域を位置づけすることで、前記検出対象のフレームにおける埋め込み領域を決定する領域位置づけモジュールをさらに含む。
ビデオが固定ショットを用いて形成されたことに応じて、前記参照フレームにおける埋め込み領域の位置に基づいて、前記検出対象のフレームにおいて対応する位置の領域を位置づけすることで、前記検出対象のフレームにおける埋め込み領域を決定する領域位置づけモジュールをさらに含む。
1つの選択的な実施形態では、前記装置は、
前記検出対象のフレームにおける埋め込み領域の第1の色空間分布と、前記参照フレームにおける埋め込み領域の第1の色空間分布とが第1の差異性条件を満たすことに応じて、前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されていると決定する第1の決定モジュールと、
前記検出対象のフレームにおける埋め込み領域の第2の色空間分布と、前記参照フレームにおける埋め込み領域の第2の色空間分布とが第2の差異性条件を満たすことに応じて、前記検出対象のフレームにおける埋め込み領域の光照射状況が変化したと決定する第2の決定モジュールと、をさらに含む。
前記検出対象のフレームにおける埋め込み領域の第1の色空間分布と、前記参照フレームにおける埋め込み領域の第1の色空間分布とが第1の差異性条件を満たすことに応じて、前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されていると決定する第1の決定モジュールと、
前記検出対象のフレームにおける埋め込み領域の第2の色空間分布と、前記参照フレームにおける埋め込み領域の第2の色空間分布とが第2の差異性条件を満たすことに応じて、前記検出対象のフレームにおける埋め込み領域の光照射状況が変化したと決定する第2の決定モジュールと、をさらに含む。
本願の実施例は、
実行可能な命令を記憶するメモリと
前記メモリに記憶されている実行可能な命令が実行されると、本願の実施例に係る方法を実現するプロセッサと、を含む、コンピュータ機器を提供する。
本願の実施例は、実行可能な命令が記憶されており、実行可能な命令がプロセッサによって実行されると、本願の実施例に係る方法を実現する、記憶媒体を提供する。
本願の実施例は、コンピュータプログラムが記憶されており、プロセッサによってロードされて実行されると、本願の実施例に係る方法を実現する、コンピュータプログラム製品を提供する。
実行可能な命令を記憶するメモリと
前記メモリに記憶されている実行可能な命令が実行されると、本願の実施例に係る方法を実現するプロセッサと、を含む、コンピュータ機器を提供する。
本願の実施例は、実行可能な命令が記憶されており、実行可能な命令がプロセッサによって実行されると、本願の実施例に係る方法を実現する、記憶媒体を提供する。
本願の実施例は、コンピュータプログラムが記憶されており、プロセッサによってロードされて実行されると、本願の実施例に係る方法を実現する、コンピュータプログラム製品を提供する。
本願の実施例は、以下の有益な効果を有する。
参照フレームにおける埋め込み領域の画素分布に基づいて特性モデルを構築し、モデルに基づいて検出対象のフレームにおける埋め込み領域の背景及び前景を認識し、背景を遮蔽し前景を露出させることができるテンプレートを生成し、埋め込み対象の情報にテンプレートを適用すると、埋め込まれた情報のうち、前景を遮蔽するコンテンツをフィルタリンすることができ、ビデオに埋め込まれた情報がビデオの前景を遮蔽することがないように確保し、埋め込まれた情報をビデオの背景によりよく融合することができ、それにより、より良好な視聴体験をもたらす。
参照フレームにおける埋め込み領域の画素分布に基づいて特性モデルを構築し、モデルに基づいて検出対象のフレームにおける埋め込み領域の背景及び前景を認識し、背景を遮蔽し前景を露出させることができるテンプレートを生成し、埋め込み対象の情報にテンプレートを適用すると、埋め込まれた情報のうち、前景を遮蔽するコンテンツをフィルタリンすることができ、ビデオに埋め込まれた情報がビデオの前景を遮蔽することがないように確保し、埋め込まれた情報をビデオの背景によりよく融合することができ、それにより、より良好な視聴体験をもたらす。
以下、本願の目的、技術案及び利点をより明瞭にするために、図面を参照しながら本願についてさらに詳細に説明し、説明される実施例は本願に対する制限と見なすべきではない。当業者が創造的な労力を要さずに得られる全ての他の実施例は、すべて本願の保護範囲に属する。
以下の説明において、「一部の実施例」に関し、すべての選択的な実施例のサブセットが説明されるが、「一部の実施例」は、すべての選択的な実施例の同じサブセット又は異なるサブセットであってもよく、矛盾しない限り、互いに組み合わせることができることが理解され得る。
以下の説明において、係る用語「第1\第2\第3」は、単に類似する対象を区別するものであり、対象に対する特定の順序付けを表すものではない。「第1\第2\第3」は、許可される場合に、特定の順番又は順序を交換することができ、ここで説明された本出願の実施例をここで図示又は説明される順序以外の順序で実施可能なことが理解され得る。
特別な定義がない限り、本明細書に使用される全ての技術及び科学的用語は、当業者が一般的に理解する意味と同じである。本明細書で使用される用語は、本出願の実施例の目的を説明するためのものに過ぎず、本出願を限定するものではない。
本願の実施例についてさらに詳細に説明する前に、本願の実施例に係る名詞及び用語について説明し、本願の実施例に係る名詞及び用語は以下の説明に該当する。
1)マスクは、フィルター又はテンプレートとも呼ばれ、処理対象の画像における(一部又は全部)画素を遮蔽するための画像であり、特定の画像の一部を強調表示するようにする。
マスクは、2次元行列配列であってもよく、多値画像を用いる場合もある。画像マスクは、主に、画像のいくつかの領域を遮蔽するためのものである。元画像における各画素での二進数と、マスクにおける同じ位置での二進数(マスクとも称する)とをAND演算する。例えば、1&1=1、1&0=0。
例えば、図1Aにおける101に示す3*3の画像と、図1Aにおける102に示す3*3のマスクとを演算し、図1Aでの103に示す結果画像を得る。
マスクは、2次元行列配列であってもよく、多値画像を用いる場合もある。画像マスクは、主に、画像のいくつかの領域を遮蔽するためのものである。元画像における各画素での二進数と、マスクにおける同じ位置での二進数(マスクとも称する)とをAND演算する。例えば、1&1=1、1&0=0。
例えば、図1Aにおける101に示す3*3の画像と、図1Aにおける102に示す3*3のマスクとを演算し、図1Aでの103に示す結果画像を得る。
2)固定ショットは、固定ショット(Fixed Shot、FS)であり、ビデオカメラの位置、レンズの光軸及び焦点距離が変わらないショットである。固定ショットのビデオにおけるキャラクター(リアルキャラクターが例えば人、仮想キャラクターが例えばアニメーションキャラクターである)は、静止しているものであってもよいし、移動している(画面に出入りする)ものであってもよいが、画面が依存するフレームワークは動かないものであり、すなわち、画面範囲及び可視領域面積は、常に同じである。
3)移動ショットは、様々な移動(例えば、ビデオカメラの位置、光軸、焦点距離の変化)を利用して撮像されるショットである。移動ショットのビデオにおける画面が依存するフレームワークは、変化可能であり、すなわち、画面範囲及び可視領域の面積は、変化可能であり、例えば、結像の距離、大きさ及び角度が変化可能である。
4)背景は、ビデオの画面における主体の後ろの景物であり、人物又はイベントが位置する時間・空間的環境を表すことができ、例えば、人物の後の建物、壁、地面である。
5)前景は、ビデオ画面における背景よりもショットに近いコンテンツであり、ビデオに表示される主体であり、例えば、建物の前に立っている人物である。
本願の実施例に係るビデオへの情報埋め込み方法についてよりよく理解するために、まず、関連技術で、ビデオに埋め込まれた情報による遮蔽の課題に対する解決案について分析して説明する。
背景削減は、一定の閾値を手動で設定し、ビデオにおける、潜在的な前景を含む新しい領域をオリジナルな背景領域と減算し、閾値と比較することで、背景が前景により遮蔽されているか否かを決定し、さらに遮蔽された部分に対応するマスクを形成することである。解決案は、前景と背景に対する判定が手動で選択された閾値に依存するため、自動化程度が低く、頻繁に調整する必要があり、前景の色が背景の色に近い場合、前景と背景との間の削減が徹底的ではなく、正確性が低い。
固定ショットのガウス混合背景モデリングは、固定ショットに対して、遮蔽されていない背景を選択してモデリングし、後続の画像フレームに対して、背景が前景により遮蔽されているか否かをモデルで判別することで、遮蔽された部分のマスクを形成することである。解決案は、固定ショットのビデオにしか適用できず、移動ショットのビデオの場合、背景を前景として認識しやすいため、同様に、正確性が低い。
軌跡分類は、初期フレームにおいて興味のあるターゲット点をマーキングし、移動追跡モデルを利用して、埋め込まれた情報における特徴点の軌跡を取得し、軌跡に基づいて、前景と背景とを判別することである。解決案は、画像フレームにおけるノイズに敏感であり、正確性が移動追跡モデルに依存する。選択された移動追跡モデルが不適切であると、前景と背景との判別の正確性に非常に大きい影響を与えてしまう。
上記複数の解決案に存在する技術課題に対して、本願の実施例は、ビデオへの情報埋め込み方法を提供し、ビデオ配列と全画素統計モデリングとを組み合わせる方法を用いることで、静止ショットのビデオに対して、背景を自動的に選択してモデリングし、後続のフレームが学習率を自動的に更新してモデルを最適化することを実現し、統計された特徴を使用して、遮蔽されているか否かを判定し、マスクを形成する一方、移動ショットのビデオに対して、変換技術を使用して参照フレームの標準画面にマッピングして画素統計モデリングを行い、後続のフレームの画面に戻って遮蔽マスクを取得し、移動追跡モデルが必要とされず、リアルタイム性が高く、適用範囲が広く、ロバスト性が高く、自動的かつ高効率に使用することができる。
以下、本願の実施例を実現する装置の例示的な適用について説明し、本願の実施例に係る装置は、携帯電話(スマートフォン)、タブレットパソコン、ノートパソコンなど、無線通信能力を有するモバイル端末として実施されてもよいし、移動しにくく、演算機能を有するデスクトップコンピュータ、デスクトップコンピュータなどとして実施されてもよい。また、本願の実施形態に係る装置は、サーバーとして実施されてもよい。サーバーとは、1台のサーバーであってもよいし、複数台のサーバーで構成されるサーバークラスター、クラウドコンピューティングセンターなどであってもよいが、ここでは限定しない。
図1Bを参照すると、図1Bは、本願の実施例に係る適用シーンの模式図であり、1つの例示的な適用をサポートすることを実現する。端末400は、ネットワーク300を介してサーバー200に接続されており、ネットワーク300は、広域エリアネットワーク、又は、ローカルエリアネットワーク、又は両者の組合せであることができ、無線リンクを用いてデータ伝送を実現する。
端末400がビデオ(端末により録画されたビデオであり得る)に情報(広告であり得る)を埋め込もうとすることに応じ、端末400は、ビデオ及び埋め込もうとする情報をサーバー200に送信し、ビデオに情報を埋め込むことをサーバー200に要求する。この場合、サーバー200は、ビデオ及び埋め込み対象の情報を受信すると、本願の実施例に係るビデオへの情報埋め込み方法を利用して、埋め込み対象の情報をビデオの各フレームに追加し、パッケージ化することで、パッケージ化されたビデオファイルを得て、最後にパッケージ化されたビデオファイルを端末400に送信する。端末400は、広告が埋め込まれたビデオを発表することができる。
一部の実施例では、端末400がビデオの録画を完了して埋め込み対象の情報を決定した場合、端末400自体は、本願の実施例に係るビデオへの情報埋め込み方法を利用して、埋め込み対象の情報をビデオの各フレームに追加し、パッケージ化してビデオファイルを取得し、次に、ビデオを見るAPPにより、広告が埋め込まれたビデオを発表してもよい。なお、端末の演算量及び埋め込み効率を低減させるために、一般的に、時間が短いビデオの場合に、端末自体が情報埋め込みを行う。
一部の実施形態では、端末400がサーバー200に記憶されているビデオに情報を埋め込もうとする場合、端末400は、埋め込み対象の情報及びビデオの識別情報をサーバー200に送信することで、埋め込み対象の情報を識別情報に対応するビデオに追加することをサーバー200に要求してもよい。サーバー200は、識別情報に基づいて、対応するビデオファイルを決定し、埋め込み対象の情報をビデオファイルに埋め込み、最後にパッケージ化し、パッケージ化されたビデオファイルを取得し、次に、パッケージ化されたビデオファイルを端末400に送信する。
本願の実施例に係る装置は、ハードウェア、又は、ソフトウェアとハードウェアの組み合わせ形態として実施されてもよい。以下、本願の実施例に係る装置の様々な例示的な実施形態について説明する。
図2を参照すると、図2は、本願の実施例に係るサーバー200の1つの任意選択的な構成の模式図であり、サーバー200は、デスクトップサーバーであってもよいし、複数台のサーバーで構成されるサーバークラスター、クラウドコンピューティングセンターなどであってもよい。サーバー200の構成に基づいて、装置がサーバーとして実施される場合の例示的な構成を予測することができる。従って、ここで説明された構成を制限するものとして見なすべきではない。例えば、以下に説明される一部のコンポーネントを省略してもよく、あるいは、あるアプリケーションの特殊なニーズを満たすために、以下に記載されていないコンポーネントを追加してもよい。
図2に示すサーバー200は、少なくとも1つのプロセッサ210と、メモリ240と、少なくとも1つのネットワークインターフェース220と、ユーザインターフェース230と、を含む。端末200における各コンポーネントがバスシステム250を介してカップリングされる。なお、バスシステム250は、これらのコンポーネント間の接続通信を実現するためのものであると理解できる。バスシステム250は、データバスを含むほか、電源バスと、制御バスと、状態信号バスと、をさらに含む。しかし、明瞭に説明するために、図2で、様々なバスをすべてバスシステム250としてマーキングする。
ユーザインターフェース230は、ディスプレイ、キーボード、マウス、トラックボール、クリックホイール、キー、ボタン、タッチパッドやタッチパネルなどを含むことができる。
メモリ240は、揮発性メモリ又は不揮発性メモリであってもよいし、揮発性及び不揮発性メモリの両者を含んでもよい。ここで、不揮発性メモリは、読み出し専用メモリ(ROM、Read Only Memory)であってもよい。揮発性メモリは、ランダムアクセスメモリ(RAM、Random Access Memory)であってもよい。本願の実施例で説明されたメモリ240は、任意の適切な種類のメモリを含むことを意図する。
本願の実施例におけるメモリ240は、サーバー200の動作をサポートするように、データを記憶することができる。これらのデータの例は、オペレーティングシステム及びアプリケーションプログラムなど、サーバー200において動作するための任意のコンピュータプログラムを含む。ここで、オペレーティングシステムは、様々な基本的サービスを実現するとともに、ハードウェアベースのタスクを処理するために、フレームワーク層、コアデータベース層、ドライバー層などの様々なシステムプログラムを含む。アプリケーションプログラムは、様々なアプリケーションプログラムを含んでもよい。
本願の実施例に係る方法がソフトウェアとハードウェアの組み合わせで実施される例としては、本願の実施例に係る方法は、プロセッサ210により実行されるソフトウェアモジュールの組合せとして直接具現化されてもよく、ソフトウェアモジュールが記憶媒体に位置してもよく、記憶媒体がメモリ240に位置し、プロセッサ210は、メモリ240におけるソフトウェアモジュールに含まれる実行可能な命令を読み取り、必要なハードウェア(例えば、プロセッサ210、及びバス250に接続された他のコンポーネント)と組み合わせて、本願の実施例に係る方法を完了する。
例としては、プロセッサ210は、信号の処理能力を有する集積回路チップであることができ、例えば、汎用プロセッサ、デジタル信号プロセッサ(DSP、Digital Signal Processor)、又は、他のプログラマブルロジックデバイス、個別ゲート、又は、トランジスタロジック素子、個別ハードウェアコンポーネントなどである。ここで、汎用プロセッサは、マイクロプロセッサー又は任意の通常のプロセッサなどであってもよい。
前述した、本願の実施例を実現する装置の例示的な適用及び実施形態を参照して、本願の実施例を実現する方法について説明する。本願の実施例に係る、実行機器が実行する方法では、この実行機器は、サーバーであってもよいし、端末であってもよい。つまり、本願の実施例に係る方法は、サーバーにより実行されてもよいし、端末により実行されてもよい。サーバーは、デスクトップサーバーであってもよいし、複数台のサーバーで構成されるサーバークラスター、クラウドコンピューティングセンターなどであってもよい。端末は、携帯電話(スマートフォン)、タブレットパソコン、ノートパソコンなど、無線通信能力を有するモバイル端末であってもよいし、移動しにくく、演算機能を有するデスクトップコンピュータ、デスクトップコンピュータなどとして実施されてもよい。
図3を参照すると、図3は、本願の実施例でビデオへの情報埋め込み方法の模式的なフローチャートであり、図3に示すステップを参照しながら説明する。
ステップS101において、参照フレームにおける埋め込み領域の画素分布特性を満たすモデルを構築し、前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御する。
ここで、参照フレームは、情報が埋め込まれた後の1フレームの画像であってもよく、埋め込まれた情報が位置する領域は、埋め込み領域である。参照フレーム及び埋め込み領域は、人為的に設定されるものであってもよいし、機械学習、ディープ学習などの技術を用いて自動的にスクリーニングされるものであってもよい。
参照フレームは、ビデオにおける、少なくとも埋め込み領域を含み、埋め込み領域に埋め込み対象の情報が埋め込まれているとともに、埋め込み対象の情報が遮蔽されていない画像フレームであり得る。例えば、ビデオに埋め込み領域が初めて出現した、埋め込み領域に埋め込み対象の情報が埋め込まれているとともに、埋め込み対象の情報が遮蔽されていない画像フレームであってもよい。埋め込み対象の情報が広告であることを例にすると、参照フレームは、ビデオにおける、完全な広告領域が初めて出現した(例えば、壁又は地面における特定の領域であり、特定の領域が広告を完全に表示するに十分である)画像フレームであってもよい。
例えば、参照フレームは、埋め込み対象の情報に関するターゲットキャラクターが出現した画像フレームであってもよいし、あるいは、表示された字幕に埋め込み対象の情報に関するキーワードが出現した画像フレームであってもよい。埋め込み対象の情報があるブランドのエアコンの広告であることを仮定する場合、ビデオにエアコンが出現したある画像フレームを参照フレームとしてもよいし、「冷」、「熱」などのキーワードが出現した画像フレームを参照フレームとしてもよい。
埋め込み領域は、人為的に分割されるものであってもよく、例えば、画像フレームにおける右上角の領域であってもよいし、画像フレームにおける中間上方の領域であってもよい。当然ながら、自動的に認識された特定の領域、例えば、地面、壁、空などの関連領域であってもよい。なお、モデルを初期化するとき、埋め込み領域の画素分布を完全に学習することができるために、参照フレームにおける埋め込み領域が前景により遮蔽されていないように求められている。
参照フレームにおける埋め込み領域の画素分布特性を満たすモデルの構築を実施する際に、埋め込み領域における各ピクセルのモデルを構築し、例えば、埋め込み領域における各ピクセルのガウス混合モデルを構築してもよい。この場合、ステップS101を実施する際に、まず、参照フレームにおける埋め込み領域の各ピクセルに基づいて、各ピクセルに対して予め定義されたガウス混合モデルを初期化し、ガウス混合モデルに複数のガウスモードが含まれ(一部の実施例では、ガウスモードは、モード/ガウス成分/サブモデルとも称する)、ガウスモードにおけるパラメータを初期化し、この後に用いるパラメータを求める。次に、後続の各検出対象のフレームにおける埋め込み領域の各ピクセルを処理し、ピクセルがあるモード(すなわち、ガウスモード)とマッチングするか否かを判断し、マッチングすれば、このピクセルをモードにまとめ、新しい画素値に基づいて、モードの重み付けを更新し、マッチングしなければ、ピクセルでガウスモードを構築し、パラメータを初期化することで、既存のモードのうち、重み付けが最小のモードを代替する。
ステップS102において、前記モデルに基づいて、前記検出対象のフレームにおける埋め込み領域内の背景及び前景を認識し、前記背景を遮蔽し前景を露出させるためのテンプレートを生成する。
ここで、ステップS102を実施する際に、順に検出対象のフレームにおける埋め込み領域の各ピクセルと、対応するモデルにおける各モードとをマッチングしてもよく、1つのピクセルとマッチングするモードが存在する場合、このピクセルが背景ピクセルであると考慮し、ピクセルとマッチングするモードが全くない場合、ピクセルが前景ピクセルであると考慮する。
埋め込み領域の各ピクセルが前景であるか、背景であるかを認識した後に、認識結果によって、前記背景を遮蔽し前景を露出させるためのテンプレートを生成してもよい。さらに、1つのピクセルが背景として認識される場合、テンプレートにおけるピクセルに対応する値を1にしてもよく、ピクセルが前景として認識される場合、テンプレートにおけるピクセルに対応する値を0にする。なお、0及び1が二進数であり、すなわち、テンプレートは、二進数の0及び1で構成されるマスクである。
ステップS103において、埋め込み対象の情報を前記テンプレートに適用することで、前記埋め込み対象の情報のうち、前記前景を遮蔽するコンテンツをブロックする。
ここで、ステップS103を実施する際に、埋め込み対象の情報とテンプレートとをかけ算してもよい。本実施例及び他の実施例では、埋め込み対象の情報とテンプレートとをかけ算することとは、埋め込み対象の情報と、テンプレートにおける各位置に充填された二進数とをかけ算することであってもよい。実施形態は、埋め込み対象の情報のピクセルと、テンプレートにおける対応する位置の二進数とをかけ算することであってもよい。テンプレートにおいて、背景ピクセルに対応する値が1であり、前景ピクセルに対応する値が0であり、従って、埋め込み対象の情報とテンプレートとをかけ算するとき、埋め込み対象の情報のうち、前景を遮蔽するコンテンツに影響を与えることなく、遮蔽された埋め込み対象の情報のうち、前景を遮蔽するコンテンツをブロックする。
ステップS104において、前記テンプレートが適用された前記埋め込み対象の情報を前記検出対象のフレームにおける埋め込み領域に被覆することで、前記前景を前記埋め込み対象の情報に対して強調表示する。
ここで、ステップS103で、埋め込まれた情報に対してテンプレートを適用し、埋め込み対象の情報のうち、前景を遮蔽するコンテンツをブロックしたため、テンプレートが適用された埋め込み対象の情報を検出対象のフレームにおける埋め込み領域に被覆すると、埋め込み対象の情報が検出対象のフレームにおける前景部分を遮蔽することなく、それにより、より良好な視聴体験をもたらす。
本願の実施例に係る方法を利用して、ビデオに埋め込み対象の情報を埋め込む場合、まず、参照フレームにおける埋め込み領域の画素分布特性に基づいて、各ピクセルに対してモデルを構築し、モデルのパラメータが検出対象のフレームにおける埋め込み領域の各ピクセルに基づいて更新可能であり、次に、検出対象のフレームにおける埋め込み領域の前景ピクセル及び背景ピクセルに基づいて、背景を遮蔽できるとともに、前景を遮蔽しないテンプレートを生成し、埋め込み対象の情報に対してテンプレートを適用し、最後にテンプレートが適用された埋め込み対象の情報を検出対象のフレームにおける埋め込み領域に被覆し、生成されたテンプレートが背景を遮蔽できるが、前景を遮蔽することはない。従って、埋め込み対象の情報に対してテンプレートを適用した後に、埋め込み対象の情報のうち、前景を遮蔽するコンテンツをブロックすることができ、それにより、検出対象のフレームに情報を埋め込むと、検出対象のフレームにおける前景部分を遮蔽することなく、さらにビデオの視聴体験を確保することができる。
一部の実施例では、図4を参照すると、図4は、本願の実施例でモデルを構築して更新する模式的なフローチャートであり、ステップS101は、図4に示す各ステップで実現することができる。
ステップS1011において、前記参照フレームにおける埋め込み領域の各ピクセルに対応して、前記ピクセルに対応する少なくとも1つのサブモデルと少なくとも1つのサブモデルに対応する重み付けとを初期化する。
本願の実施例では、モデルを構築する際、ピクセルを単位とし、つまり、各ピクセルに対して1つのモデルを構築し、1つのピクセルのモデルが少なくとも1つのサブモデルに対応してもよい。つまり、1つのピクセルのモデルは、1つのサブモデルに対応してもよいし、複数のサブモデルに対応してもよい。
例えば、ピクセルのモデルは、2個以上、一般的に3個~5個のサブモデルを含むガウス混合モデルであってもよい。サブモデルは、ガウス確率分布関数であってもよく、サブモデルを初期化することは、少なくとも、サブモデルのパラメータを初期化することであり、ここで、サブモデルのパラメータは、平均値、分散、重み付けなどのパラメータであってもよい。サブモデルのパラメータを初期化するとき、サブモデルのパラメータをデフォルト値に設定してもよい。初期化プロセスにおいて、一般的に、分散をできるだけ大きく設定するが、重み付けをできるだけ小さくする。このように設定する原因は、初期化のガウスモデルが不正確なモデルであり、常にその範囲を縮小し、パラメータ値を更新し、それにより、可能性が最も高いガウスモデルを得る必要があることにあり、分散をできるだけ大きく設定する原因は、できるだけ多くのピクセルをサブモデルとマッチングし、それにより、ピクセルの色値の、ビデオの各フレームの間での分布特性を正確に表すモデルを取得することにある。
一部の実施例では、モデルは、さらに、単一ガウスモデルであってもよく、この場合、1つのサブモデルのみが必要とされ、サブモデルのパラメータは平均値、分散などであってもよい。単一ガウスモデルが、背景が単一かつ変わらないシーンに適用されるため、通常、ガウス混合モデルを構築して後続の処理を行う。
ステップS1012において、各ピクセルに対応して構築されたサブモデルを初期化された重み付けに基づいて混合することで、前記ピクセルに対応するモデルを形成する。
ここで、各ピクセルが3つのサブモデルを有し、サブモデルがそれぞれF1、F2、F3であり、それらに対応する重み付けがそれぞれK1、K2及びK3であると仮定する場合、ステップS1012は、式(1-1)で実現することができる。
Fmはピクセルに対応するモデルである。
一部の実施例では、式(1-1)に対して簡単な数学変換を行って、ピクセルに対応するモデルを形成してもよい。
ステップS1011及びステップS1012を通して、参照フレームにおける埋め込み領域の画素分布特性を満たすモデルを構築することが完了される。
ステップS1013において、検出対象のフレームにおける埋め込み領域が前景により遮蔽されているか否かを判断する。
一部の実施例では、まず、検出対象のフレームにおける埋め込み領域の第1の色空間分布、及び参照フレームにおける埋め込み領域の第1の色空間分布を取得し、次に、検出対象のフレームの埋め込み領域と参照フレームの埋め込み領域との第1の色空間分布の差異度を決定し、さらに、差異度が第1の差異性条件を満たすか否かを判断することにより、検出対象のフレームにおける埋め込み領域が前景により遮蔽されているか否かを決定してもよい。
例えば、参照フレームにおける埋め込み領域が前景により遮蔽されていないため、検出対象のフレームにおける埋め込み領域の第1の色空間分布と、参照フレームにおける埋め込み領域の第1の色空間分布とが第1の差異性条件を満たす場合、両者の差異が非常に大きいことが示され、この場合、検出対象のフレームにおける埋め込み領域が前景により遮蔽されていることが示され、ステップS1014へ進む。検出対象のフレームにおける埋め込み領域の第1の色空間分布と、参照フレームにおける埋め込み領域の第1の色空間分布とが第1の差異性条件を満たさない場合、両者の差異が小さいことが示され、この場合、検出対象のフレームにおける埋め込み領域が前景により遮蔽されていないことが示され、この場合、ステップS1015へ進む。
一部の実施例では、第1の色空間分布は、赤緑青(Red Green Blue、RGB)空間分布であってもよい。埋め込み領域の第1の色空間分布を取得することは、埋め込み領域のRGBヒストグラムを取得することであってもよく、例えば、256個の階調を32個の区間に分割し、埋め込み領域の、この32個の区間内でのピクセルの分布状況を統計することで、RGBヒストグラムを得てもよい。
第1の差異性条件は、検出対象のフレームにおける埋め込み領域が遮蔽されていないことを決定する場合、参照フレーム埋め込み領域と検出対象のフレームの埋め込み領域との第1の色空間分布の最大差異度を表すために用いられ得る。例えば、合計でM個の区間に分けられると仮定すると、第1の差異性条件は、30%*M個の区間内のピクセル数の差値が個数の閾値の範囲の外にあることであり得る。例えば、32個の区間の場合、第1の差異性条件は、少なくとも9つの区間内のピクセル数の差値が10個を超えることであり得る。
ステップS1014において、前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されたことに応じて、前記検出対象のフレームにおける埋め込み領域への前記モデルのフィッティングを減速させ、前記モデルにおけるサブモデルの重み付けを不変にする。
前記検出対象のフレームにおける埋め込み領域への前記モデルのフィッティングを減速させることは、前記モデルを前記検出対象のフレームにおける埋め込み領域へフィッティングする速度を減少させることである。例えば、埋め込み領域の各ピクセルのモデルに対して、モデルにおけるフィッティング速度に関する学習率を0にすることで、モデルにおけるサブモデルの重み付けを不変に維持してもよい。検出対象のフレームにおける埋め込み領域が前景により遮蔽されている場合、検出対象のフレームにおける埋め込み領域へのモデルのフィッティングを減速させ、それにより、モデルが埋め込み領域の画素変化を学習する速度を低下させることで、この後に前景を背景として誤って認識することを回避する。
ステップS1015において、検出対象のフレームにおける埋め込み領域の光照射状況が変化したか否かを判断する。
一部の実施例では、まず、検出対象のフレームにおける埋め込み領域の第2の色空間分布及び参照フレームにおける埋め込み領域の第2の色空間分布を取得し、次に、検出対象のフレームの埋め込み領域と参照フレームの埋め込み領域との第2の色空間分布の差異度を決定し、さらに差異度が第2の差異性条件を満たすか否かを判断することにより、検出対象のフレームにおける埋め込み領域の光照射状況が変化したか否かを決定する。第2の差異性条件は、検出対象のフレームにおける埋め込み領域の光照射状況が変化したことを決定する場合、参照フレームの埋め込み領域と検出対象のフレームの埋め込み領域との第2の色空間分布の最大差異度を表すために用いられ得る。
例えば、前記検出対象のフレームにおける埋め込み領域の第2の色空間分布と、前記参照フレームにおける埋め込み領域の第2の色空間分布とが第2の差異性条件を満たすことに応じて、前記検出対象のフレームにおける埋め込み領域の光照射状況が変化したと決定し、この場合、ステップS1016へ進む。前記検出対象のフレームにおける埋め込み領域の第2の色空間分布と、前記参照フレームにおける埋め込み領域の第2の色空間分布とが第2の差異性条件を満たさないことに応じて、前記検出対象のフレームにおける埋め込み領域の光照射状況が変化していないと決定し、この場合、元の学習率を維持し、重み付けを更新する。
一部の実施例では、第2の色空間分布は、色相・彩度・明度(Hue Saturation Value、HSV)空間分布であってもよい。ステップS1015の実現プロセスについては、ステップS1013を参照して理解することができる。
ステップS1016において、前記検出対象のフレームにおける埋め込み領域への前記モデルのフィッティングを加速する。
前記検出対象のフレームにおける埋め込み領域への前記モデルのフィッティングを加速することは、前記モデルを前記検出対象のフレームにおける埋め込み領域へフィッティングする速度を向上させることである。一部の実施例では、ステップS1016を実行する前提条件が、検出対象のフレームにおける埋め込み領域が前景により遮蔽されていないとともに、検出対象のフレームにおける埋め込み領域の光照射状況が変化したことである場合、新しい光照射を前景として認識することを回避するために、フィッティング速度を加速する必要があり、それにより、モデルを早めに検出対象のフレームの埋め込み領域へフィッティングするようにすることで、モデルが埋め込み領域の画素分布特性を表すことができることを確保する。例えば、埋め込み領域の各ピクセルのモデルに対して、モデルにおけるフィッティング速度に関する学習率を-1にすることで実現することができる。
ステップS1013~ステップS1016を通して、モデルにおける各サブモデル重み付けに対する更新が完了され、この場合、さらにサブモデルのパラメータを更新する必要がある。
ステップS1017において、検出対象のフレームにおける埋め込み領域の各ピクセルのそれぞれが、対応するモデルにおけるサブモデルとマッチングするか否かを判断する。
一部の実施例では、埋め込み領域におけるいずれか1つのピクセルに対して、ピクセルの色値とピクセルのモデルにおける任意のサブモデルの平均値との偏差が所定の閾値より小さい場合、ピクセルがサブモデルとマッチングすると考慮する。例えば、実際の適用では、閾値は、標準偏差に関連するものであってもよく、サブモデルの標準偏差の2.5倍であってもよい。1つのピクセルがモデルにおける少なくとも1つのサブモデルとマッチングする場合、ステップS1018へ進み、1つのピクセルがモデルのうちのいずれのサブモデルともマッチングしない場合、ステップS1019へ進む。
ステップS1018において、前記検出対象のフレームにおける埋め込み領域のピクセルが対応するモデルにおける少なくとも1つのサブモデルとマッチングされたことに応じて、前記マッチングされたサブモデルのパラメータを更新する。
ピクセルに対応するモデルのうち、ピクセルとマッチングされていないサブモデルに対して、対応するサブモデルのパラメータを不変に維持する。
ステップS1019において、検出対象のフレームにおける埋め込み領域のピクセルが対応するモデルのうちのいずれのサブモデルともマッチングしないことに応じて、ピクセルに基づいて新しいサブモデルを初期化し、重み付けが最小のサブモデルを置き換える。
ここで、ステップS1017~ステップ1019を通して、サブモデルパラメータの更新が完了される。サブモデルパラメータを更新するとき、検出対象のフレームにおける埋め込み領域の各ピクセルに対して遮蔽検出を行う必要があり、すなわち、ピクセルが前景又は背景であることを決定し、遮蔽検出結果に基づいて、サブモデルのパラメータを更新し、背景を遮蔽し前景を露出させるためのテンプレートを生成し、それにより、検出対象のフレームの埋め込み領域に情報を埋め込むとき、背景とよく融合するとともに、前景を遮蔽することはない。
一部の実施例では、ステップS102は、ステップS1021~ステップS1024で実現することができる。
ステップS1021において、前記検出対象のフレームにおける埋め込み領域の各ピクセルの色値と、前記ピクセルに対応するモデルにおける各サブモデルとをマッチングする。
ここで、ステップS1021を実施する際、検出対象のフレームにおける埋め込み領域の各ピクセルの色値と、ピクセルに対応する各サブモデルとを比較してもよく、1つのピクセルの色値と少なくとも1つのサブモデルの平均値との偏差が所定の閾値範囲内にある場合、このサブモデルがピクセルとマッチングすることが示される。
ステップS1022において、マッチングに成功したピクセルを前記背景のピクセルとして認識し、マッチングに失敗したピクセルを前記前景のピクセルとして認識する。
ここで、参照フレームにおける埋め込み領域は、前景を遮蔽しない領域であるので、背景であってもよい。また、モデルは、構築されるとき、参照フレームにおける埋め込み領域の画素分布特性に基づいて構築される。検出対象のフレームにおける埋め込み領域内のピクセルがピクセルに対応するモデルにおける1つのサブモデルとマッチングする場合、ピクセルが背景ピクセルであると決定し、検出対象のフレームにおける埋め込み領域のピクセルがピクセルに対応するモデルのうちのいずれのサブモデルともマッチングしない場合、ピクセルが前景ピクセルであると決定する。
ステップS1023において、前記検出対象のフレームにおける埋め込み領域内の、背景として認識されたピクセルに対応して、中空の前記テンプレートにおける対応する位置に二進数の1を充填する。
ステップS1024において、前記検出対象のフレームにおける埋め込み領域内の、前景として認識されたピクセルに対応して、二進数の1が充填された前記テンプレートにおける対応する位置に二進数の0を充填する。
ステップS1021~ステップS1024を通して、二値化のテンプレートが生成される。テンプレートにおいて、背景として認識されたピクセルに対応するテンプレート位置が1であり、前景として認識されたピクセルに対応するテンプレート位置が0であり、従って、このテンプレートと埋め込み対象の情報とをかけ算すると、テンプレートが適用された埋め込み対象の情報を得る。テンプレートが適用された埋め込み対象の情報のうち、前景として認識されたピクセルの画素値が0であるが、背景として認識されたピクセルの画素値が変わらない。このように、テンプレートが適用された埋め込み対象の情報を検出対象のフレームにおける埋め込み領域に被覆すると、前景が遮蔽されていないとともに、埋め込まれた情報に対して強調表示されることを確保することができる。
一部の実施例では、ステップS101の前又は後に、検出対象のフレームにおける埋め込み領域を決定する必要がある。前記ビデオが固定ショットで形成される場合、ビデオにおける画面範囲及び可視領域面積が変わらない。この場合、検出対象のフレームにおける埋め込み領域を決定することを実際に実現するとき、前記参照フレームにおける埋め込み領域の位置に基づいて、前記検出対象のフレームにおいて、対応する位置の領域を位置づけすることで、前記検出対象のフレームにおける埋め込み領域を得てもよい。
一部の実施例では、前記ビデオが移動ショットで形成される場合、検出対象のフレームにおける埋め込み領域を決定することは、ステップ21及びステップ22で実現することができる。
ステップ21において、前記ビデオの参照フレームにおける埋め込み領域から抽出された特徴と、前記検出対象のフレームから抽出された特徴とをマッチングする。
ここで、ステップ21を実施する際に、まず、参照フレームにおける埋め込み領域から特徴点を抽出し、次に、検出対象のフレームにおける特徴点を抽出し、参照フレームにおける埋め込み領域から抽出された特徴点と検出対象のフレームにおける特徴点とをマッチングしてもよい。
さらに、特徴点を抽出するとき、方向付きの加速化断片試験による特徴(Features from Accelerated Segment Test、FAST)及び回転の二値頑健独立基本特徴(Binary Robust Independent Elementary Features、BRIEF)特徴点(Oriented FAST and Rotated BRIEF、ORB)、あるいは、スケール不変の特徴変換(Scale-Invariant Feature Transform、SIFT)特徴点を抽出してもよい。当然ながら、一部の実施例では、他の種類の特徴点を抽出してもよい。
ステップ22において、マッチングに成功したことに応じて、前記検出対象のフレームが参照フレームにおける埋め込み領域に対応する埋め込み領域を含むと決定する。
ここで、本実施例では、参照フレームにおける埋め込み領域の特徴点が、検出対象のフレームにおける特徴点とのマッチングに成功することは、全ての特徴点がマッチングに成功することであってもよく、一部の特徴点がマッチングに成功し、例えば、80%の特徴点がマッチングに成功することであってもよい。
参照フレームにおける埋め込み領域の特徴点が、検出対象のフレームにおける特徴点とのマッチングに成功したことに応じて、検出対象のフレームに、参照フレームにおける埋め込み領域に対応する埋め込み領域が存在することが示され、この場合、情報を埋め込むことができる。参照フレームにおける埋め込み領域の特徴点が、検出対象のフレームにおける特徴点とのマッチングに成功していないことに応じて、検出対象のフレームに、参照フレームにおける埋め込み領域に対応する埋め込み領域が存在しないことが示され、この場合、埋め込まれた情報が検出対象のフレームにおける前景を広く遮蔽する可能性があるため、情報を埋め込むことができない。
ステップ21~ステップ22では、参照フレームにおける埋め込み領域の特徴点と、検出対象のフレームにおける特徴点と、をマッチングすることで、検出対象のフレームにおける埋め込み領域を追跡する。移動追跡の実現形態に比べて、リアルタイム性が高く、適用範囲が広く、ロバスト性が高く、自動的かつ高効率に使用することができる。
一部の実施例では、前記ビデオが移動ショットで形成される場合、ショットの位置、光軸、焦点距離がすべて変化する可能性があるため、移動ショットを用いて形成されたビデオの各画像フレームにおける埋め込み領域の位置が変化可能である。この場合、ステップS1013の前に、ステップ31を実行する必要がある。
ステップ31において、変換後の埋め込み領域における各ピクセルの位置が、前記参照フレームにおける埋め込み領域の対応するピクセルの位置と一致するように、前記検出対象のフレームにおける埋め込み領域を変換する。
ここで、ステップ31を実施する際に、まず、埋め込み領域(すなわち、情報を埋め込む背景領域)を追跡してホモグラフィ行列(Homography matrix)Hを生成し、次に、変換後の埋め込み領域における各ピクセルの位置が、前記参照フレームにおける埋め込み領域の対応するピクセルの位置に一致するように、検出対象のフレームにおける埋め込み領域をホモグラフィ行列Hに基づいて参照フレームに変換してもよい。さらに、式(2-1)に基づいて実現されてもよい。
ここで、xt、ytは、現在のフレームにおけるピクセルを表し、x0、y0は、ピクセルに対応する参照フレームにおけるピクセルを表す。
前記ビデオが移動ショットで形成される場合、検出対象のフレームにおける埋め込み領域に基づいて、モデルの更新を制御するとき、ホモグラフィ行列により変換された埋め込み領域を実際に使用するため、ステップS102で検出対象のフレームにおける埋め込み領域の背景及び前景を認識するとき、及び、背景を遮蔽し前景を露出させるためのテンプレートを生成するときにも、ホモグラフィ行列により変換された埋め込み領域を用いる。対応して、ステップS103の前に、変換後のテンプレートにおける各二進数の位置が、前記検出対象のフレームにおける埋め込み領域の対応するピクセルの位置に一致するように、前記テンプレートに対して前記変換の逆変換を行う必要がある。
本願の実施例では、固定ショットを用いて形成されたビデオに対しては、検出対象のフレームにおける埋め込み領域の各ピクセルの画素分布特性を利用して、参照フレームにおける埋め込み領域の背景画素分布をフィッティングし、ガウス混合モデリングを用い、モデルを自動的に学習して更新し、遮蔽検出結果に基づいて、背景を遮蔽し前景を表示することができるテンプレートを決定し、それにより、埋め込まれた情報が前景を遮蔽することを回避する。一方、移動ショットに対しては、変換技術を用い、検出対象のフレームにおける埋め込み領域内のピクセル位置を参照フレームにおける埋め込み領域内の一致する位置にマッピングし、同様に、検出対象のフレームにおける埋め込み領域のピクセルに対して遮蔽検出を行い、テンプレートを生成し、テンプレートに対して逆変換を行い、背景を遮蔽し前景を表示することができるテンプレートを形成し、それにより、情報が埋め込まれた後に、前景を遮蔽しないことを確保する。
本願の実施例は、ビデオへの情報埋め込み方法をさらに提供し、図5は、本願の実施例でビデオへの情報埋め込み方法の他の模式的なフローチャートであり、図5に示すように、前記方法は、ステップS401~ステップS409を含む。
ステップS401において、端末が処理対象のビデオ及び埋め込み対象の情報を取得する。
ここで、処理対象のビデオは、端末により録画されたビデオであってもよいし、端末によりサーバーからダウンロードされたビデオであってもよく、当然ながら、他の端末から端末に送信されたビデオであってもよい。埋め込み対象の情報は、埋め込み対象の図面情報であってもよく、埋め込み対象の図面情報は、広告図面情報であってもよいし、公示情報などであってもよい。
本願の実施例では、処理対象のビデオは、多くの画像フレームを含むビデオファイルであってもよい。一部の実施例では、処理対象のビデオは、さらに、処理対象のビデオの識別情報であってもよく、例えば、処理対象のビデオの名称、主役などの情報を含んでもよい。
ステップS402において、端末が前記ビデオ及び埋め込み対象の情報を少なくとも含む埋め込み要求をサーバーに送信する。
一部の実施例では、埋め込み要求に、参照フレームの識別子及び参照フレームにおける埋め込み領域の情報が含まれてもよい。
埋め込み領域が矩形であることを例にすると、埋め込み要求に、参照フレームのフレーム番号、参照フレームにおける埋め込み領域の4つの頂点の座標が含まれてもよい。
ステップS403において、サーバーが受信した埋め込み要求に基づいて、参照フレーム及び参照フレームにおける埋め込み領域を決定する。
一部の実施例では、受信した埋め込み要求を解析することで、設定された参照フレーム、及び参照フレームにおいて設定された埋め込み領域を取得してもよい。他の一部の実施例では、画像を認識することで、ビデオファイルの画像フレームを解析し、それにより、情報埋め込み条件を満たす参照フレーム及び参照フレームにおける埋め込み領域を決定してもよい。
情報埋め込み条件の例としては、埋め込み領域の種類(例えば、壁、地面)、埋め込み領域のサイズ(例えば、埋め込み対象の情報に適応するための幅及び高さ、)、埋め込み領域の色(例えば、埋め込み対象の情報と所定のコントラストをなす)、埋め込み領域の露光時間(すなわち、ビデオに出現した累計時間)のうちの少なくともの1つを含んでもよい。
ステップS404において、サーバーが参照フレームにおける埋め込み領域の画素分布特性を満たすモデルを構築し、前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御する。
ステップS405において、サーバーが前記モデルに基づいて、前記検出対象のフレームにおける埋め込み領域内の背景及び前景を認識し、前記背景を遮蔽し前景を露出させるためのテンプレートを生成する。
ステップS406において、サーバーが埋め込み対象の情報を前記テンプレートに適用することで、前記埋め込み対象の情報のうち、前記前景を遮蔽するコンテンツをブロックする。
ステップS407において、前記テンプレートが適用された前記埋め込み対象の情報を前記検出対象のフレームにおける埋め込み領域に被覆することで、前記前景を前記埋め込み対象の情報に対して強調表示する。
ここで、ステップS404~ステップS407の実現プロセスについては、以上の同様なステップについての説明を参照して理解することができる。
ステップS408において、サーバーは、情報が埋め込まれた後のビデオをパッケージ化し、パッケージ化されたビデオを端末に送信する。
一部の実施例では、サーバーがビデオにおける各画像フレームに情報を埋め込む前に、まず、ビデオをフレーム分割し、1つずつの画像フレームを得てから、次に各画像フレームに情報を埋め込むため、情報を埋め込んだ後に、正常なビデオファイルを得るために、各画像フレーム、ビデオ、字幕などをまとめ、ビデオ、画像フレーム及び字幕を一体にする必要がある。
一部の実施例では、サーバーは、情報が埋め込まれた後のビデオをパッケージ化した後に、ビデオを見るアプリケーションに、情報が埋め込まれたビデオを発表してもよい。
ステップS409において、端末は、情報が埋め込まれた後のビデオを発表する。
一部の実施例では、ビデオを見るアプリケーションに発表してもよいし、他の端末に送信して発表してもよく、例えば、インスタントメッセンジャーアプリケーションの友達グループなどに発表してもよい。
本願の実施例に係る方法では、端末は、ビデオに情報を埋め込もうとする場合、処理対象のビデオ及び埋め込み対象の情報をサーバーに送信し、サーバーは、参照フレームにおける埋め込み領域の画素分布特性に基づいてモデルを構築する。参照フレームにおける埋め込み領域がビデオの前景を遮蔽することはないので、構築されたモデルに基づいて、後続の検出対象のフレームにおける埋め込み領域内のピクセルに対して背景及び前景の認識を行い、さらに、背景を遮蔽できるが前景を遮蔽しないテンプレートを生成する。埋め込み対象の情報にテンプレートを適用すると、埋め込み対象の情報のうち、前景を遮蔽するコンテンツをブロックすることができ、それにより、検出対象のフレームに情報を埋め込むと、検出対象のフレームにおける前景部分を遮蔽することなく、さらにビデオの視聴体験を確保することができる。
以下、本願の実施例で1つの実際の適用シーンにおける例示的な適用について説明する。
本願の実施例は、ビデオへの情報埋め込み方法をさらに提供し、方法の実現プロセスは、背景モデリング学習段階、及び遮蔽予測段階の2段階を含む。図6は、本願の実施例でビデオへの情報埋め込み方法の他の模式的なフローチャートであり、図6に示すように、前記方法は、ステップS501~ステップS506を含む。
ステップS501において、背景画像を取得する。
ステップS502において、背景画像に基づいてガウス混合モデリングを行う。
ステップS501及びステップS502を通して、背景モデリングプロセスが完了される。
ステップS503において、ビデオに対してフレーム分割を行う。
ステップS504において、予測対象の図面を取得する。
ステップS505において、背景モデリングに基づいて、予測対象の画像に対して逆変換を行って逆変換図面を得る。
ステップS506において、逆変換図面に対して正変換を行って遮蔽マスクを得る。
図6に示すフローチャートは、背景モデリング用の適応型ガウス混合モデルを構築し、ビデオ広告が埋め込まれた商機初期フレームに基づいて、後続のフレームに対してフレーム図面を適応的に選択して背景モデリングを行い、学習率を適応的に選択して反復更新することで、モードを最適化させる。
図7は、本願の実施例でビデオへの情報埋め込み方法の他の模式的なフローチャートであり、図7に示すように、本実施例で、ステップS60~ステップS605によってビデオに情報を埋め込んでもよい。
ステップS601において、ビデオのフレーム分解を行う。
ここで、入力されたビデオに対して画像処理技術によりフレーム分割動作を行い、ビデオを予測対象の図面として1フレームずつに分割する。
ステップS602において、商機初期フレーム(すなわち、広告を埋め込もうとするフレーム)、及び対応する埋め込み領域を位置づけする。
ここで、商機初期フレーム及び対応する埋め込み領域は、手動で設定されるものであってもよい。一部の実施例では、ビデオにおける、特定のキャラクター/領域(例えば、地面、壁)を含むフレームを商機初期フレームとして自動的に認識してもよく、さらに、ニューラルネットワークベースの画像認識技術を用いて、商機初期フレーム、埋め込み領域、及び埋め込み領域に対応する特定の位置(例えば、広告のサイズに一致する中間領域)を決定してもよい。
ステップS603において、商機初期フレームにおける埋め込み領域の画像に基づいて、埋め込み領域における各ピクセルのそれぞれに対応するガウス混合モデルを初期化する。
ステップS604において、後続のフレーム(すなわち、埋め込み領域を含むビデオの後続のフレーム)をステップS6041~ステップS6043で処理する。
ステップS6041において、後続のフレームの埋め込み領域と、初期フレームの埋め込み領域とに対して分布特性の比較を行い、遮蔽されているか否かを判断し、遮蔽されている場合、学習率を更新する。
ステップS6042において、光照射の変化が発生したか否かに基づいて、学習率を調整する。
ステップS6043において、背景/前景ピクセルを認識し、認識結果及び更新された学習率を組み合わせて、モデルを更新し、さらにマスクを決定する。
実際に実施する際に、まず、前景/背景を認識してもよく、すなわち、ピクセルが対応するモデルにおける少なくとも1つのモードを満たすか否かを判断し、満たす場合、ピクセルが背景ピクセルであり、いずれも満たさない場合、ピクセルが前景ピクセルであり、次に、モードの重み付け及びパラメータ(平均値及び標準偏差)の更新に係るモデルの更新を行う。
重み付けに対しては、更新された学習率に従って、モードの重み付けを更新し、パラメータに対しては、マッチングされていないモードの平均値及び標準偏差を変更せず、マッチングされたモードの平均値及び標準偏差を更新された学習率及び重み付けに基づいて更新する。いかなるモードもマッチングしない場合、重み付けが最小のモードが置き換えられる。各モードは、ω/α2の降順で配列され、重み付けが大きく、標準偏差が小さいほど、前の方に配列される。ここでは、ωは、重み付けであり、αは、学習率である。
ステップS6044において、マスクが適用された埋め込み対象の情報を後続のフレームの埋め込み領域に埋め込む。
このステップS6044の実現プロセスについては、以上の同様なステップについての説明を参照して理解することができる。
ステップS605において、ステップS604を繰り返し、すべての後続のフレーム処理が完了された後に、画像フレームをパッケージ化する。
ここで、パッケージ化済みのビデオを放送する際、埋め込まれた広告が画像フレームにおける前景部分を遮蔽することなく、それにより、より良好な視聴体験をもたらす。
上記ステップでは、ステップS601~ステップS603は、背景モデリング学習部分に対応し、ステップS604~ステップS605は、遮蔽予測部分に対応する。この2つの部分は、交互に実行される。まず、初期フレームに基づいてモデリングし、後続のフレームに対して遮蔽予測(判断)を行い、予測結果に基づいてモデルを更新し続ける。
一部の実施例では、ステップS603を実施する際に、ビデオにおける、広告アイテムが埋め込まれた参照フレーム(すなわち、埋め込み領域を含む商機初期フレーム)を背景として取得してモデリングすることで、事前の埋め込み領域(ビデオの参照フレームの背景領域における、広告を埋め込むための特定の領域、すなわち、埋め込み領域)に対してガウス混合モデル(GMM)の初期化を行ってもよい。
商機初期フレームにおける埋め込み領域は、商機初期フレームにおける埋め込み領域が前景により遮蔽されていない条件を満たす。それにより、モデルを初期化するとき、埋め込み領域の画素分布を完全に学習することができる。
埋め込み領域の各ピクセルの混合ガウスモデルを構築し、混合ガウスモデルは、ピクセルの色値をK個のモード(一部の実施例では、モードがガウスモード/ガウス成分/サブモデルとも称する)の重畳で表し、通常、Kは、3~5の間である。混合ガウスモデルは、ピクセルで示された色値Xをランダム変数として表すと、ビデオの各フレームの画像におけるピクセルの色値がランダム変数Xのサンプリング値となる。
ガウス背景のメインテナンスでは、シーンにおける各ピクセルの色値は、K個のガウス成分からなる混合分布で表されてもよく、すなわち、画像におけるピクセルjの時点tでの値がXjである確率は以下のとおりである。
ただし、
は、t時点でのピクセルjの混合ガウスモデルにおけるi番目のガウス成分の重み付けを表し、
を満たす。
ここで、
及び
は、それぞれ、i番目のガウス成分の平均値及び共分散を表し、ηは、ガウス確率密度関数を表す。
ここで、dは、Xjの次元数であり、RGB色空間の場合、dとXjとが相互に独立するものとして見なしてもよいと、共分散行列は、以下のように定義される。
ただし、σは、標準偏差を表し、Iは、単位行列を表す。
ただし、
は、t時点でのピクセルjの混合ガウスモデルにおけるi番目のガウス成分の重み付けを表し、
を満たす。
ここで、
及び
は、それぞれ、i番目のガウス成分の平均値及び共分散を表し、ηは、ガウス確率密度関数を表す。
ここで、dは、Xjの次元数であり、RGB色空間の場合、dとXjとが相互に独立するものとして見なしてもよいと、共分散行列は、以下のように定義される。
ただし、σは、標準偏差を表し、Iは、単位行列を表す。
ガウス混合モデルの初期化は、各パラメータに対する初期化であってもよく、本願の実施例で、以下の2つの初期化形態があってもよい。
1つの初期化形態は以下のとおりである。初期化段階に、混合ガウスパラメータの初期化速度に対する要求が高くない場合、ピクセルの各色のチャンネル範囲が[0,255]であり、直接K個のガウス成分を大きいσ2
initに初期化し、各ガウス成分の重み付けをωinit=1/Kとし、1フレーム目の画像の各ピクセルの色値を用いて、混合ガウスモデルにおけるK個のガウス成分の平均値を初期化してもよい。平均値は、ピクセルの色値であり、分散は、予め設定された経験値である。
もう1つの初期化形態は以下のとおりである。1フレーム目の画像の場合、各ピクセルに対応する1番目のガウス成分を初期化し、平均値を現在のピクセルの色値とし、重み付けを1とし、1番目のガウス成分以外のガウス成分の平均値、重み付けをいずれも0に初期化する。分散は、予め設定された経験値である。
一部の実施例では、後続のフレームの処理を行う際、ビデオの形成に用いられるショット種類によって、異なる処理を行う。
静止ショットを用いて形成されたビデオの場合、ステップS6041を実施する際に、以下のとおりであってもよい。
商機初期フレームの後続の各フレームの埋め込み領域に対して、後続のフレームの埋め込み領域と初期埋め込み領域(すなわち、初期フレームの埋め込み領域)とのRGB色空間分布を比較し、RGB分布の差異性に基づいて、遮蔽されているか否かを決定する。すなわち、商機初期フレームの埋め込み領域に埋め込まれた広告が、後続のフレームにおいて埋め込み領域に出現した前景を遮蔽しているか否かを決定し、例えば、図8Bにおける「ベビーポーズ」を遮蔽している。RGB分布の差異性が差異性条件を満たす場合、埋め込み領域の背景が前景により遮蔽されていると考慮する。RGB分布の差異性が差異性条件を満たすか否かを判断することは、ヒストグラム分布を比較することで実現されてもよく、例えば、0~255階調を16区間に分割し、各フレームのピクセルの16区間での分布状況を統計し、比較してもよい。後続のフレームの埋め込み領域のヒストグラム分布と初期埋め込み領域のヒストグラム分布との差異が所定の閾値を超える場合、RGB分布の差異性が差異性条件を満たすことが示され、この場合、後続のフレームの埋め込み領域の背景が前景により遮蔽されていると考慮する一方、後続のフレームの埋め込み領域のヒストグラム分布と初期埋め込み領域のヒストグラム分布との差異が閾値を超えない場合、RGB分布の差異性が差異性条件を満たさないことが示され、この場合、後続のフレームの埋め込み領域の背景が前景により遮蔽されていないと考慮する。
遮蔽されていると判断する場合、更新する学習率を0とし(すなわち、後続のフレームでモデルにおけるモードの重み付けを更新しない)、遮蔽されていない場合、元の学習率を維持してもよい。
一部の実施例では、ステップS6042を実施する際に、以下のとおりであってもよい。
商機初期フレームの後続の各フレームの埋め込み領域に対して、後続のフレームの埋め込み領域と初期埋め込み領域(すなわち、初期フレームの埋め込み領域)とのHSV分布を比較し、HSV分布の差異性に基づいて、背景の異なる光照射変化であるか否かを決定する。HSV分布の差異性が差異性条件を満たすか否かを判断することは、HSV色空間のヒストグラム分布を比較することで実現されてもよい。差異性条件を満たす場合、背景の光照射が変化したと考慮し、更新する学習率を-1とする。HSVが光照射の変化を反映することができるので、背景の光照射が変化した場合、学習率を-1に調整することで、新しい光照射変化を満たすモードの重み付けを大きく、新しい光照射が前景として認識される状況を回避することができ、光照射変化が発生していない場合、元の学習率を維持することができる。
一部の実施例では、ステップS6043を実施する際に、後続のフレームの埋め込み領域のピクセル種類を認識し、モデルを更新し、さらにマスクを決定してもよい。
商機初期フレームと後続のフレームとの共通ピクセルに対して、後続のフレーム(t時点)での色値Xtと、ピクセルの現在のK個のモード(すなわち、K個のガウス成分)とを比較し、少なくとも1つのモードの平均値との偏差がモードの2.5σ(すなわち、標準偏差の2.5倍)以下である場合、モードがピクセルとマッチングし、ピクセルがビデオの背景に属すると考慮し、マッチングしない場合、ピクセルが前景に属する。
ピクセルが前景であるか、又は、背景であるかを決定した上で、マスクを決定して形態学的改善を行う。
ピクセルがビデオの背景に属する場合、マスクにおけるピクセルに対応する値が1であり、ピクセルがビデオの前景に属する場合、マスクにおけるピクセルに対応する値が0である。
本願の実施例では、マスクを形態学的に改善することは、主に、モードの一部の前景と遮蔽との判断誤差に対して、マスクにおける穴の解消及び断層の連結を含む修復を行うことであり、遮蔽処理後に、露出されたビデオ前景にノイズが発生することを回避する。図9A及び図9Bは、マスクを形態学的に改善する模式図である。図9Aに示すように、901の白色領域における穴を形態学的に解消することで、902に示す完全に連通する領域を形成することができる。図9Bに示すように、911における断層を形態学的に連結し、同様に、912に示す連通する完全な領域を形成することができる。
モデルの更新は、更新された学習率に従って、モデルの重み付けを更新することであり得る。ピクセルが全くマッチングされていないモードの平均値及び標準偏差を変更せず、マッチングされたモードの平均値及び標準偏差のみを更新する。いかなるモードもピクセルとマッチングされていない場合、ピクセルに基づいて新しいモードを初期化し、重み付けが最小のモードを置き換える。各モードは、ω/α2の降順で配列され、重み付けが大きく、標準偏差が小さいほど、前の方に配列される。ここでは、ωが重み付けであり、αが学習率である。
実際に実施する際に、Xjがi番目のモードとマッチングすると、i番目のモードがXjで更新され、残りのモードが不変に維持され、更新形態は、以下のとおりである。
ただし、αは、モデルの学習率であり、ρは、パラメータの学習率であり、モードパラメータの収束速度を反映する。xjがピクセルのK個のモードといずれもマッチングされていない場合、混合ガウスモデルのうち、最後に配列されるいくつかのモードが新しいモードで代替され、新しいモードの平均値をxjとし、標準偏差及び重みをσinit及びωinitに初期化する。残りのモードが同じ平均値及び分散を維持し、重み付けを式(3-8)に従って更新する。
ただし、αは、モデルの学習率であり、ρは、パラメータの学習率であり、モードパラメータの収束速度を反映する。xjがピクセルのK個のモードといずれもマッチングされていない場合、混合ガウスモデルのうち、最後に配列されるいくつかのモードが新しいモードで代替され、新しいモードの平均値をxjとし、標準偏差及び重みをσinit及びωinitに初期化する。残りのモードが同じ平均値及び分散を維持し、重み付けを式(3-8)に従って更新する。
更新完了後に、各モードの重み付けを正規化する必要があり、パラメータ更新が完了された後に、ピクセルの混合ガウスモデルにおけるモードが背景により生成されるものであることを決定するために、各モードがω/α2の降順で配列されており、前の方のB個のモードを背景の分布として選択する。Bは、以下の式を満たし、パラメータQは、背景が占める割合を表す。
大きいものを用いることで、画素値が大きい分散及び高い出現確率を有することを表し、これによって、シーン背景の画素値の特性を表す。
以上は、固定ショットを用いて形成されたビデオに情報を埋め込む実現プロセスであると考慮することができる。図8A及び図8Bは、本願の実施例で固定ショットを用いて形成されたビデオに情報を埋め込む効果の模式図である。その中で、図8Aに示す画像は、図8Bに示す画像の前のあるフレームの画像(すなわち、ビデオで「ベビーポーズ」が解説される前のあるフレームの画像)であってよく、この場合、図8Aに示すように、画像フレームにおける壁領域801に「ベビーポーズ」が表示されていない。壁領域を広告埋め込み領域とすると、後続のフレーム、すなわち、図8Bに示す画像フレームに、前景の「ベビーポーズ」が出現し、そのまま埋め込み広告をレイヤーとして被覆すると、「ベビーポーズ」部分が遮蔽されてしまう。
本願の実施例に係るビデオに情報を埋め込む技術案を適用すると、図8Bに示すように、「ベビーポーズ」の3つの文字が広告の上に浮き、すなわち、埋め込まれた広告811がビデオの前景コンテンツを遮蔽することなく、それにより、オリジナルビデオの広告埋め込み位置での前景コンテンツの完全性を確保する。
移動ショットを用いて形成されたビデオの場合、ステップS604を実施する際に、ステップS6041の前に、ステップ71をさらに実行する必要がある。
ステップ71において、埋め込み領域を含む後続のフレームを追跡する。
特徴追跡技術によりテンプレートのマッチングを行うか(特徴点のテンプレート、例えば、orb方法で見つけられる特徴点)、又は、埋め込み領域を含む後続のフレームをsift方法で追跡する。
ビデオの後続のフレームに対して、まず、埋め込み領域(すなわち、情報を埋め込むための背景領域)を追跡してホモグラフィ行列Hを生成する必要がある。背景モデリングが各ピクセルに対してモデリングすることであるため、商機初期フレーム(参照フレーム)における埋め込み領域のピクセルの位置と、後続のフレームにおける埋め込み領域のピクセルの位置とを1つずつ対応させる必要がある。これは、カメラが移動すると、商機初期フレームにおける埋め込み領域のピクセルの位置と、現在のフレームの埋め込み領域のピクセルの位置とが対応しなくなるためである。
商機初期フレームにおける埋め込み領域のピクセルの位置と、後続のフレームの埋め込み領域のピクセルの位置とを1つずつ対応させる際には、式(3-10)により、現在のフレームの埋め込み領域をホモグラフィ行列Hに基づいて初期フレームに逆変換することができる。
移動ショットを用いて形成されたビデオの場合、ステップS6041及びステップS6042を実施する際に、固定ショットを用いて形成されたビデオステップS6041及びステップS6042の実現プロセスと同様であるため、上記の同様なステップについての説明を参照して理解することができる。
ステップS6043を実施する際にも、後続のフレームにおける埋め込み領域のピクセル種類を認識することで、モデルを更新してマスクを決定する必要がある。相違点は、マスクが決定されると、ホモグラフィ行列Hを利用して、mask(マスク)を後続のフレームの位置に逆変換することであり、変換は、以下の式(3-11)に示す。
後続のフレームにおける埋め込み領域に広告を埋め込み、遮蔽されていると判断された画像フレームに対して、対応するマスクを埋め込み領域に適用し、ビデオをパッケージ化する。
図8C及び図8Dは、本願の実施例で移動ショットを用いて形成されたビデオに情報を埋め込む効果の模式図である。図8Cは、人物が出現していないあるフレームであり、この場合、地面を広告埋め込み領域821とすると、広告が埋め込まれた後の画像フレームは、図8Cに示す。後続のフレームでは、埋め込まれる広告の「Hello 秦Pro」をそのままレイヤーで被覆すると、領域に出現している人物の脚部を遮蔽してしまう。本実施例に係るビデオに情報を埋め込む技術案を適用すると、図8Dに示すように、人物の脚が埋め込み広告のトップに表示され、広告埋め込み領域831がビデオの前景を遮蔽することはない。
本願の実施例に係るビデオへの情報埋め込み方法を利用して、ビデオ配列及び全画素統計モデリングを結合する方法を用いることで、静止ショットに対して、背景を自動的に選択してモデリングし、後続のフレームが学習率を自動的に更新してモデルを最適化し、統計された特徴を用いて遮蔽マスクを判定する一方、移動ショットに対して、変換技術を用いて標準画面にマッピングして画素の統計モデリングを行い、配列フレームに戻って遮蔽マスクを取得し、移動追跡モデルが必要とされず、ビデオに広告を埋め込むプロセスにおける遮蔽物を正確に処理し、埋め込まれた広告がよりリアルになるとともに、リアルタイム性が高く、適用範囲が広く、ロバスト性が高く、自動的かつ高効率に使用することができる。
以下、ソフトウェアモジュールの例示的な構成について説明する。一部の実施例では、図2に示すように、装置240におけるソフトウェアモジュールは、 参照フレームにおける埋め込み領域の画素分布特性を満たすモデルを構築し、前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御するモデル構築モジュール241と、
前記モデルに基づいて、前記検出対象のフレームにおける埋め込み領域内の背景及び前景を認識し、前記背景を遮蔽し前景を露出させるためのテンプレートを生成するテンプレート生成モジュール242と、
埋め込み対象の情報を前記テンプレートに適用することで、前記埋め込み対象の情報のうち、前記前景を遮蔽するコンテンツをブロックするテンプレート適用モジュール243と、
前記テンプレートが適用された前記埋め込み対象の情報を前記検出対象のフレームにおける埋め込み領域に被覆することで、前記前景を前記埋め込み対象の情報に対して強調表示する情報被覆モジュール244と、を含むことができる。
前記モデルに基づいて、前記検出対象のフレームにおける埋め込み領域内の背景及び前景を認識し、前記背景を遮蔽し前景を露出させるためのテンプレートを生成するテンプレート生成モジュール242と、
埋め込み対象の情報を前記テンプレートに適用することで、前記埋め込み対象の情報のうち、前記前景を遮蔽するコンテンツをブロックするテンプレート適用モジュール243と、
前記テンプレートが適用された前記埋め込み対象の情報を前記検出対象のフレームにおける埋め込み領域に被覆することで、前記前景を前記埋め込み対象の情報に対して強調表示する情報被覆モジュール244と、を含むことができる。
一部の実施例では、前記装置は、
前記参照フレームにおける埋め込み領域の各ピクセルに対応して、前記ピクセルに対応する少なくとも1つのサブモデルと少なくとも1つのサブモデルに対応する重み付けとを初期化するパラメータ初期化モジュールと、
各ピクセルに対応して構築されたサブモデルを初期化された重み付けに基づいて混合することで、前記ピクセルに対応するモデルを形成する重み付け混合モジュールと、をさらに含む。
前記参照フレームにおける埋め込み領域の各ピクセルに対応して、前記ピクセルに対応する少なくとも1つのサブモデルと少なくとも1つのサブモデルに対応する重み付けとを初期化するパラメータ初期化モジュールと、
各ピクセルに対応して構築されたサブモデルを初期化された重み付けに基づいて混合することで、前記ピクセルに対応するモデルを形成する重み付け混合モジュールと、をさらに含む。
一部の実施例では、前記装置は、
前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されたことに応じて、前記モデルを前記検出対象のフレームにおける埋め込み領域へフィッティングする速度を低減させ、前記モデルにおけるサブモデルの重み付けを不変にする重み付け維持モジュールと、
前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されていないとともに、前記検出対象のフレームにおける埋め込み領域の光照射状況が変化したことに応じて、前記モデルを前記検出対象のフレームにおける埋め込み領域へフィッティングする速度を向上させるフィッティング加速モジュールと、をさらに含む。
前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されたことに応じて、前記モデルを前記検出対象のフレームにおける埋め込み領域へフィッティングする速度を低減させ、前記モデルにおけるサブモデルの重み付けを不変にする重み付け維持モジュールと、
前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されていないとともに、前記検出対象のフレームにおける埋め込み領域の光照射状況が変化したことに応じて、前記モデルを前記検出対象のフレームにおける埋め込み領域へフィッティングする速度を向上させるフィッティング加速モジュールと、をさらに含む。
一部の実施例では、前記装置は、
前記検出対象のフレームにおける埋め込み領域のピクセルが対応するモデルにおける少なくとも1つのサブモデルとマッチングされたことに応じて、前記マッチングされたサブモデルのパラメータを更新し、前記対応するモデルにおけるマッチングされていないサブモデルのパラメータを不変に維持するパラメータ更新モジュールをさらに含む。
前記検出対象のフレームにおける埋め込み領域のピクセルが対応するモデルにおける少なくとも1つのサブモデルとマッチングされたことに応じて、前記マッチングされたサブモデルのパラメータを更新し、前記対応するモデルにおけるマッチングされていないサブモデルのパラメータを不変に維持するパラメータ更新モジュールをさらに含む。
一部の実施例では、前記装置は、
前記検出対象のフレームにおける埋め込み領域の各ピクセルの色値と、前記ピクセルに対応するモデルにおけるサブモデルとをマッチングする第1のマッチングモジュールと、
マッチングに成功したピクセルを前記背景のピクセルとして認識し、マッチングに失敗したピクセルを前記前景のピクセルとして認識する認識モジュールと、をさらに含む。
前記検出対象のフレームにおける埋め込み領域の各ピクセルの色値と、前記ピクセルに対応するモデルにおけるサブモデルとをマッチングする第1のマッチングモジュールと、
マッチングに成功したピクセルを前記背景のピクセルとして認識し、マッチングに失敗したピクセルを前記前景のピクセルとして認識する認識モジュールと、をさらに含む。
一部の実施例では、前記装置は、
前記検出対象のフレームにおける埋め込み領域内の、背景として認識されたピクセルに対応し、中空の前記テンプレートにおける対応する位置に二進数の1を充填し、
前記検出対象のフレームにおける埋め込み領域内の、前景として認識されたピクセルに対応し、二進数の1が充填された前記テンプレートにおける対応する位置に二進数の0を充填する充填モジュールをさらに含む。
前記検出対象のフレームにおける埋め込み領域内の、背景として認識されたピクセルに対応し、中空の前記テンプレートにおける対応する位置に二進数の1を充填し、
前記検出対象のフレームにおける埋め込み領域内の、前景として認識されたピクセルに対応し、二進数の1が充填された前記テンプレートにおける対応する位置に二進数の0を充填する充填モジュールをさらに含む。
一部の実施例では、前記装置は、
前記埋め込み対象の情報と、前記テンプレートにおける各位置に充填された二進数とをかけ算する演算モジュールをさらに含む。
前記埋め込み対象の情報と、前記テンプレートにおける各位置に充填された二進数とをかけ算する演算モジュールをさらに含む。
一部の実施例では、前記装置は、
ビデオが移動ショットを用いて形成されたことに応じて、前記ビデオの参照フレームにおける埋め込み領域から抽出された特徴と、前記検出対象のフレームから抽出された特徴とをマッチングする第2のマッチングモジュールと、
マッチングに成功したことに応じて、前記検出対象のフレームが参照フレームにおける埋め込み領域に対応する埋め込み領域を含むと決定する領域決定モジュールと、をさらに含む。
ビデオが移動ショットを用いて形成されたことに応じて、前記ビデオの参照フレームにおける埋め込み領域から抽出された特徴と、前記検出対象のフレームから抽出された特徴とをマッチングする第2のマッチングモジュールと、
マッチングに成功したことに応じて、前記検出対象のフレームが参照フレームにおける埋め込み領域に対応する埋め込み領域を含むと決定する領域決定モジュールと、をさらに含む。
一部の実施例では、前記装置は、
ビデオが移動ショットを用いて形成されたことに応じて、
前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御する前に、変換後の埋め込み領域における各ピクセルの位置が、前記参照フレームにおける埋め込み領域の対応するピクセルの位置に一致するように、前記検出対象のフレームにおける埋め込み領域を変換する領域変換モジュールと、
埋め込み対象の情報を前記テンプレートに適用する前に、変換後のテンプレートにおける各二進数の位置が、前記検出対象のフレームにおける埋め込み領域の対応するピクセルの位置に一致するように、前記テンプレートに対して前記変換の逆変換を行うテンプレート逆変換モジュールと、をさらに含む。
ビデオが移動ショットを用いて形成されたことに応じて、
前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御する前に、変換後の埋め込み領域における各ピクセルの位置が、前記参照フレームにおける埋め込み領域の対応するピクセルの位置に一致するように、前記検出対象のフレームにおける埋め込み領域を変換する領域変換モジュールと、
埋め込み対象の情報を前記テンプレートに適用する前に、変換後のテンプレートにおける各二進数の位置が、前記検出対象のフレームにおける埋め込み領域の対応するピクセルの位置に一致するように、前記テンプレートに対して前記変換の逆変換を行うテンプレート逆変換モジュールと、をさらに含む。
一部の実施例では、前記装置は、
ビデオが固定ショットを用いて形成されたことに応じて、前記参照フレームにおける埋め込み領域の位置に基づいて、前記検出対象のフレームにおいて対応する位置の領域を位置づけすることで、前記検出対象のフレームにおける埋め込み領域を決定する領域位置づけモジュールをさらに含む。
ビデオが固定ショットを用いて形成されたことに応じて、前記参照フレームにおける埋め込み領域の位置に基づいて、前記検出対象のフレームにおいて対応する位置の領域を位置づけすることで、前記検出対象のフレームにおける埋め込み領域を決定する領域位置づけモジュールをさらに含む。
一部の実施例では、前記装置は、
前記検出対象のフレームにおける埋め込み領域の第1の色空間分布と、前記参照フレームにおける埋め込み領域の第1の色空間分布とが第1の差異性条件を満たすことに応じて、前記参照フレームにおける埋め込み領域が前記前景により遮蔽されているか否かを決定する第1の決定モジュールと、
前記検出対象のフレームにおける埋め込み領域の第2の色空間分布と、前記参照フレームにおける埋め込み領域の第2の色空間分布とが第2の差異性条件を満たすことに応じて、前記参照フレームにおける埋め込み領域が前記前景により遮蔽されているか否かを決定する第2の決定モジュールと、をさらに含む。
前記検出対象のフレームにおける埋め込み領域の第1の色空間分布と、前記参照フレームにおける埋め込み領域の第1の色空間分布とが第1の差異性条件を満たすことに応じて、前記参照フレームにおける埋め込み領域が前記前景により遮蔽されているか否かを決定する第1の決定モジュールと、
前記検出対象のフレームにおける埋め込み領域の第2の色空間分布と、前記参照フレームにおける埋め込み領域の第2の色空間分布とが第2の差異性条件を満たすことに応じて、前記参照フレームにおける埋め込み領域が前記前景により遮蔽されているか否かを決定する第2の決定モジュールと、をさらに含む。
本願の実施例に係る方法がハードウェアで実施される例としては、本願の実施例に係る方法は、直接、ハードウェアデコードプロセッサの形態のプロセッサ410で実行されてもよく、例えば、1つ又は複数の特定用途向け集積回路(ASIC、Application Specific Integrated Circuit)、DSP、プログラマブルロジックデバイス(PLD、Programmable Logic Device)、複雑プログラマブルロジックデバイス(CPLD、Complex Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA、Field-Programmable Gate Array)又は他の電子部品によって実行されることで、本願の実施例に係る方法を実現する。
本願の実施例は、実行可能な命令が記憶されており、実行可能な命令がプロセッサによって実行されると、プロセッサに本願の実施例に係る方法、例えば、図3~図6に示す方法を実行させる、記憶媒体を提供する。
一部の実施例では、記憶媒体は、FRAM、ROM、PROM、EPROM、EEPROM、フラッシュメモリ、磁気表面メモリ、ディスク、又はCD-ROMなどのメモリであってもよいし、上記メモリの1つ又は任意の組合せを含む様々な機器であってもよい。
一部の実施例では、実行可能な命令は、プログラム、ソフトウェア、ソフトウェアモジュール、スクリプト又はコードの形式を用いてもよく、任意の形式のプログラミング言語(コンパイル又は解釈される言語、若しくは、宣言型又は手続型の言語を含む)で記述可能であり、任意の形式(独立するプログラム、又は、モジュール、コンポーネント、サブルーチン、若しくはコンピューティング環境での使用に適した他のユニットを含む)で配置可能である。
例としては、実行可能な命令は、必ずしもファイルシステムにおけるファイルに対応するわけではなく、他のプログラム又はデータが記憶されるファイルの一部に記憶されてもよく、例えば、HTML(HTML、Hyper Text Markup Language)ドキュメントにおける1つ又は複数のスクリプトに記憶されたり、検討されたプログラムの単一のファイルに記憶されたり、複数のコーディネートされたファイル(例えば、1つ又は複数のモジュール、サブルーチン又はコード部分を格納するファイル)に記憶されたりする。
例としては、実行可能な命令は、1つのコンピュータ上で、又は、1箇所に配置された複数のコンピュータ機器上で実行され、若しくは、複数の場所に跨って分散され通信ネットワークによりお互いに接続されている複数のコンピューティング機器上で実行されるように配置可能である。
以上をまとめると、本願の実施例によって、参照フレームにおける埋め込み領域の画素分布特性に基づいてモデルを構築することで、検出対象のフレームにおける埋め込み領域に対して遮蔽検出を行い、遮蔽検出結果に基づいてモデルパラメータを更新することができ、検出対象のフレームの埋め込み領域が参照フレームにおける埋め込み領域の背景画素分布をフィッティングするようにすることができ、前景を遮蔽することなく、埋め込まれた情報をビデオの背景に融合することができ、それにより、より良好な視聴体験をもたらす。また、移動ショットで形成されたビデオに対して、特徴点を利用して埋め込み領域を決定し、検出対象のフレームにおける埋め込み領域のピクセルを変換により参照フレームと一致する位置にマッピングすることで、移動追跡が必要とされず、リアルタイム性が高くなるとともに、ロバスト性が高くなる。
以上は、本願の実施例に過ぎず、本願の保護範囲を限定するためのものではない。本願の趣旨及び範囲内で行われる任意の補正、均等置換や改良などは、いずれも本願の保護範囲に含まれる。
Claims (13)
- 実行機器が実行する、ビデオへの情報埋め込み方法であって、
参照フレームにおける埋め込み領域の画素分布特性を満たすモデルを構築し、前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御するステップと、
前記モデルに基づいて、前記検出対象のフレームにおける埋め込み領域内の背景及び前景を認識し、前記背景を遮蔽し前記前景を露出させるためのテンプレートを生成するステップと、
埋め込み対象の情報を前記テンプレートに適用することで、前記埋め込み対象の情報のうち、前記前景を遮蔽するコンテンツをブロックするステップと、
前記テンプレートが適用された前記埋め込み対象の情報を、前記検出対象のフレームにおける埋め込み領域に被覆することで、前記前景を前記埋め込み対象の情報に対して強調表示するステップと、を含む、ことを特徴とするビデオへの情報埋め込み方法。 - 参照フレームにおける埋め込み領域の画素分布特性を満たすモデルを構築することは、
前記参照フレームにおける埋め込み領域の各ピクセルに対応して、前記ピクセルに対応する少なくとも1つのサブモデルと前記少なくとも1つのサブモデルに対応する重み付けとを初期化するステップと、
各ピクセルに対応して構築されたサブモデルを、初期化された重み付けに基づいて混合することで、前記ピクセルに対応するモデルを形成するステップと、を含む、ことを特徴とする請求項1に記載の方法。 - 前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御することは、
前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されたことに応じて、前記モデルを前記検出対象のフレームにおける埋め込み領域へフィッティングする速度を低減させるステップと、
前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されていないとともに、前記検出対象のフレームにおける埋め込み領域の光照射状況が変化したことに応じて、前記モデルを前記検出対象のフレームにおける埋め込み領域へフィッティングする速度を向上させるステップと、を含む、ことを特徴とする請求項1に記載の方法。 - 前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御することは、
前記検出対象のフレームにおける埋め込み領域のピクセルが対応するモデルにおける少なくとも1つのサブモデルとマッチングされたことに応じて、前記マッチングされたサブモデルのパラメータを更新し、前記対応するモデルにおけるマッチングされていないサブモデルのパラメータを不変に維持するステップを含む、ことを特徴とする請求項1に記載の方法。 - 前記モデルに基づいて、前記検出対象のフレームにおける埋め込み領域内の背景及び前景を認識することは、
前記検出対象のフレームにおける埋め込み領域の各ピクセルの色値と、前記ピクセルに対応するモデルにおけるサブモデルとをマッチングするステップと、
マッチングに成功したピクセルを前記背景のピクセルとして認識し、マッチングに失敗したピクセルを前記前景のピクセルとして認識するステップと、を含む、ことを特徴とする請求項1に記載の方法。 - 前記背景を遮蔽し前記前景を露出させるためのテンプレートを生成することは、
前記検出対象のフレームにおける埋め込み領域内の、背景として認識されたピクセルに対応し、中空の前記テンプレートにおける対応する位置に二進数の1を充填するステップと、
前記検出対象のフレームにおける埋め込み領域内の、前景として認識されたピクセルに対応し、二進数の1が充填された前記テンプレートにおける対応する位置に二進数の0を充填するステップと、を含む、ことを特徴とする請求項1に記載の方法。 - 埋め込み対象の情報を前記テンプレートに適用することは、
前記埋め込み対象の情報と、前記テンプレートにおける各位置に充填された二進数とをかけ算するステップを含む、ことを特徴とする請求項1に記載の方法。 - ビデオが移動ショットを用いて形成されたことに応じて、前記ビデオの参照フレームにおける埋め込み領域から抽出された特徴と、前記検出対象のフレームから抽出された特徴とをマッチングするステップと、
マッチングに成功したことに応じて、前記検出対象のフレームが前記参照フレームにおける埋め込み領域に対応する埋め込み領域を含むと決定するステップと、をさらに含む、ことを特徴とする請求項1~請求項7のいずれかに記載の方法。 - ビデオが移動ショットを用いて形成されたことに応じて、
前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御する前に、変換後の埋め込み領域における各ピクセルの位置が、前記参照フレームにおける埋め込み領域の対応するピクセルの位置に一致するように、前記検出対象のフレームにおける埋め込み領域を変換するステップと、
埋め込み対象の情報を前記テンプレートに適用する前に、変換後のテンプレートにおける各二進数の位置が、前記検出対象のフレームにおける埋め込み領域の対応するピクセルの位置に一致するように、前記テンプレートに対して前記変換の逆変換を行うステップと、をさらに含む、ことを特徴とする請求項1~請求項7のいずれかに記載の方法。 - ビデオが固定ショットを用いて形成されたことに応じて、前記参照フレームにおける埋め込み領域の位置に基づいて、前記検出対象のフレームにおいて対応する位置の領域を位置づけすることで、前記検出対象のフレームにおける埋め込み領域を決定するステップをさらに含む、ことを特徴とする請求項1~請求項7のいずれかに記載の方法。
- 前記検出対象のフレームにおける埋め込み領域の第1の色空間分布と、前記参照フレームにおける埋め込み領域の第1の色空間分布とが第1の差異性条件を満たすことに応じて、前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されていると決定するステップと、
前記検出対象のフレームにおける埋め込み領域の第2の色空間分布と、前記参照フレームにおける埋め込み領域の第2の色空間分布とが第2の差異性条件を満たすことに応じて、前記検出対象のフレームにおける埋め込み領域の光照射状況が変化したと決定するステップと、をさらに含む、ことを特徴とする請求項1~請求項7のいずれかに記載の方法。 - コンピュータ機器であって、
実行可能な命令を記憶するメモリと、
前記メモリに記憶されている実行可能な命令が実行されると、請求項1~請求項11のいずれかに記載の方法を実現するプロセッサと、を含む、ことを特徴とするコンピュータ機器。 - コンピュータプログラムであって、
コンピュータプログラムがプロセッサによってロードされて実行されると、請求項1~請求項11のいずれかに記載の方法を実現する、ことを特徴とするコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910385878.4 | 2019-05-09 | ||
CN201910385878.4A CN110121034B (zh) | 2019-05-09 | 2019-05-09 | 一种在视频中植入信息的方法、装置、设备及存储介质 |
PCT/CN2020/085939 WO2020224428A1 (zh) | 2019-05-09 | 2020-04-21 | 在视频中植入信息的方法、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022531639A true JP2022531639A (ja) | 2022-07-08 |
JP7146091B2 JP7146091B2 (ja) | 2022-10-03 |
Family
ID=67522038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021532214A Active JP7146091B2 (ja) | 2019-05-09 | 2020-04-21 | ビデオへの情報埋め込み方法、コンピュータ機器及びコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11785174B2 (ja) |
EP (1) | EP3968627A4 (ja) |
JP (1) | JP7146091B2 (ja) |
CN (1) | CN110121034B (ja) |
WO (1) | WO2020224428A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110121034B (zh) | 2019-05-09 | 2021-09-07 | 腾讯科技(深圳)有限公司 | 一种在视频中植入信息的方法、装置、设备及存储介质 |
CN111652207B (zh) * | 2019-09-21 | 2021-01-26 | 深圳久瀛信息技术有限公司 | 定位式数据加载装置和方法 |
CN113011227B (zh) * | 2019-12-19 | 2024-01-26 | 合肥君正科技有限公司 | 一种遮挡检测中背景更新预判断期间避免误报的辅助检测方法 |
CN111556336B (zh) * | 2020-05-12 | 2023-07-14 | 腾讯科技(深圳)有限公司 | 一种多媒体文件处理方法、装置、终端设备及介质 |
CN111556337B (zh) * | 2020-05-15 | 2021-09-21 | 腾讯科技(深圳)有限公司 | 一种媒体内容植入方法、模型训练方法以及相关装置 |
CN111556338B (zh) * | 2020-05-25 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 视频中区域的检测方法、信息融合方法、装置和存储介质 |
CN112672173A (zh) * | 2020-12-09 | 2021-04-16 | 上海东方传媒技术有限公司 | 一种电视直播信号中特定内容的遮挡方法及系统 |
CN113486803A (zh) * | 2021-07-07 | 2021-10-08 | 北京沃东天骏信息技术有限公司 | 视频中嵌入图像的装置 |
CN115761598B (zh) * | 2022-12-20 | 2023-09-08 | 易事软件(厦门)股份有限公司 | 一种基于云端业务平台的大数据分析方法及系统 |
CN116939294B (zh) * | 2023-09-17 | 2024-03-05 | 世优(北京)科技有限公司 | 视频植入方法、装置、存储介质及电子设备 |
CN116939293B (zh) * | 2023-09-17 | 2023-11-17 | 世优(北京)科技有限公司 | 植入位置的检测方法、装置、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014048949A (ja) * | 2012-08-31 | 2014-03-17 | Casio Comput Co Ltd | 動画像前景切抜き装置、方法、およびプログラム |
JP2018088247A (ja) * | 2016-11-28 | 2018-06-07 | ソニー株式会社 | オブジェクトセグメンテーションのための前景マスク補正のための画像処理装置及び方法 |
JP2019032830A (ja) * | 2017-07-20 | 2019-02-28 | タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited | 対象オブジェクトをつかみ取るための把持姿勢を検出するシステム及び方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL108957A (en) * | 1994-03-14 | 1998-09-24 | Scidel Technologies Ltd | Video sequence imaging system |
SG150527A1 (en) * | 2006-07-11 | 2009-03-30 | Agency Science Tech & Res | Method and system for multi-object tracking |
US8477246B2 (en) * | 2008-07-11 | 2013-07-02 | The Board Of Trustees Of The Leland Stanford Junior University | Systems, methods and devices for augmenting video content |
US8947534B2 (en) * | 2009-06-11 | 2015-02-03 | Google Technology Holdings LLC | System and method for providing depth imaging |
CN105191287B (zh) * | 2013-03-08 | 2019-06-21 | 迪基特阿雷纳股份公司 | 替换视频流中的对象的方法及计算机程序 |
CN105654458A (zh) * | 2014-11-14 | 2016-06-08 | 华为技术有限公司 | 图像处理的方法及装置 |
EP3433816A1 (en) * | 2016-03-22 | 2019-01-30 | URU, Inc. | Apparatus, systems, and methods for integrating digital media content into other digital media content |
WO2017182225A1 (en) * | 2016-04-21 | 2017-10-26 | Osram Gmbh | Training method and detection method for object recognition |
US20180048894A1 (en) * | 2016-08-11 | 2018-02-15 | Qualcomm Incorporated | Methods and systems of performing lighting condition change compensation in video analytics |
CN107347166B (zh) * | 2016-08-19 | 2020-03-03 | 北京市商汤科技开发有限公司 | 视频图像的处理方法、装置和终端设备 |
CN108961304B (zh) * | 2017-05-23 | 2022-04-26 | 阿里巴巴集团控股有限公司 | 识别视频中运动前景的方法和确定视频中目标位置的方法 |
US11720745B2 (en) * | 2017-06-13 | 2023-08-08 | Microsoft Technology Licensing, Llc | Detecting occlusion of digital ink |
CN107493488B (zh) * | 2017-08-07 | 2020-01-07 | 上海交通大学 | 基于Faster R-CNN模型的视频内容物智能植入的方法 |
CN108419115A (zh) * | 2018-02-13 | 2018-08-17 | 杭州炫映科技有限公司 | 一种广告植入方法 |
CN109461174B (zh) * | 2018-10-25 | 2021-01-29 | 北京陌上花科技有限公司 | 视频目标区域跟踪方法和视频平面广告植入方法及系统 |
CN110121034B (zh) * | 2019-05-09 | 2021-09-07 | 腾讯科技(深圳)有限公司 | 一种在视频中植入信息的方法、装置、设备及存储介质 |
-
2019
- 2019-05-09 CN CN201910385878.4A patent/CN110121034B/zh active Active
-
2020
- 2020-04-21 EP EP20802358.0A patent/EP3968627A4/en active Pending
- 2020-04-21 WO PCT/CN2020/085939 patent/WO2020224428A1/zh unknown
- 2020-04-21 JP JP2021532214A patent/JP7146091B2/ja active Active
-
2021
- 2021-08-05 US US17/394,579 patent/US11785174B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014048949A (ja) * | 2012-08-31 | 2014-03-17 | Casio Comput Co Ltd | 動画像前景切抜き装置、方法、およびプログラム |
JP2018088247A (ja) * | 2016-11-28 | 2018-06-07 | ソニー株式会社 | オブジェクトセグメンテーションのための前景マスク補正のための画像処理装置及び方法 |
JP2019032830A (ja) * | 2017-07-20 | 2019-02-28 | タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited | 対象オブジェクトをつかみ取るための把持姿勢を検出するシステム及び方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2020224428A1 (zh) | 2020-11-12 |
EP3968627A1 (en) | 2022-03-16 |
US11785174B2 (en) | 2023-10-10 |
US20210368112A1 (en) | 2021-11-25 |
EP3968627A4 (en) | 2022-06-29 |
CN110121034B (zh) | 2021-09-07 |
JP7146091B2 (ja) | 2022-10-03 |
CN110121034A (zh) | 2019-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7146091B2 (ja) | ビデオへの情報埋め込み方法、コンピュータ機器及びコンピュータプログラム | |
JP7236545B2 (ja) | ビデオターゲット追跡方法と装置、コンピュータ装置、プログラム | |
CN110163080B (zh) | 人脸关键点检测方法及装置、存储介质和电子设备 | |
CN112052787B (zh) | 基于人工智能的目标检测方法、装置及电子设备 | |
CN111739027B (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
CN109117760B (zh) | 图像处理方法、装置、电子设备和计算机可读介质 | |
CN108960090A (zh) | 视频图像处理方法及装置、计算机可读介质和电子设备 | |
CN111275034B (zh) | 从图像中提取文本区域的方法、装置、设备和存储介质 | |
KR102308889B1 (ko) | 영상 하이라이트 검출 방법 및 이를 수행하기 위한 컴퓨팅 장치 | |
CN112215171B (zh) | 目标检测方法、装置、设备及计算机可读存储介质 | |
US20230082715A1 (en) | Method for training image processing model, image processing method, apparatus, electronic device, and computer program product | |
EP4425423A1 (en) | Image processing method and apparatus, device, storage medium and program product | |
Delussu et al. | Scene-specific crowd counting using synthetic training images | |
CN112767294A (zh) | 深度图像的增强方法、装置、电子设备以及存储介质 | |
CN110689478B (zh) | 图像风格化处理方法、装置、电子设备及可读介质 | |
Wu et al. | Video interpolation by event-driven anisotropic adjustment of optical flow | |
CN114419322B (zh) | 一种图像实例分割方法、装置、电子设备及存储介质 | |
WO2023221292A1 (en) | Methods and systems for image generation | |
US20230131418A1 (en) | Two-dimensional (2d) feature database generation | |
CN113628349B (zh) | 基于场景内容自适应的ar导航方法、设备及可读存储介质 | |
CN117095251A (zh) | 一种图像分割网络的训练及图像分割方法、装置及设备 | |
CN115965736A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN112085025A (zh) | 物体分割方法、装置、设备 | |
CN111199547B (zh) | 图像分割的方法、装置和终端设备 | |
Yarram et al. | Forecasting Future Videos from Novel Views via Disentangled 3D Scene Representation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210701 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220830 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220920 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7146091 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |