JP2022531639A

JP2022531639A - ビデオへの情報埋め込み方法、コンピュータ機器及びコンピュータプログラム

Info

Publication number: JP2022531639A
Application number: JP2021532214A
Authority: JP
Inventors: ガオ，チェンチィォン; イン，ゼロン; シィエ，ニィェンフゥア
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2019-05-09
Filing date: 2020-04-21
Publication date: 2022-07-08
Anticipated expiration: 2040-04-21
Also published as: WO2020224428A1; EP3968627A1; US11785174B2; US20210368112A1; EP3968627A4; CN110121034B; JP7146091B2; CN110121034A

Abstract

本願は、ビデオへの情報埋め込み方法、コンピュータ機器及び記憶媒体を提供する。方法は、参照フレームにおける埋め込み領域の画素分布特性を満たすモデルを構築し、前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御するステップと、前記モデルに基づいて、前記検出対象のフレームにおける埋め込み領域内の背景及び前景を認識し、前記背景を遮蔽し前景を露出させるためのテンプレートを生成するステップと、埋め込み対象の情報を前記テンプレートに適用することで、前記埋め込み対象の情報のうち、前記前景を遮蔽するコンテンツをブロックするステップと、前記テンプレートが適用された前記埋め込み対象の情報を前記検出対象のフレームにおける埋め込み領域に被覆することで、前記前景を前記埋め込み対象の情報に対して強調表示するステップと、をさらに含む。本願によれば、情報をビデオの背景コンテンツに高効率に融合することができる。【選択図】図３

Description

本願は、２０１９年５月９日に提出された、出願番号が２０１９１０３８５８７８．４であり、発明名称が「ビデオへの情報埋め込み方法、装置及び記憶媒体」である中国特許出願の優先権について優先権を主張し、その内容の全てが参照により本願に組み込まれる。

本願は、グラフィック画像技術に関し、特に、ビデオへの情報埋め込み方法、コンピュータ機器及び記憶媒体に関する。

ビデオは、現在の主流の情報媒体であり、インターネット、特にモバイルインターネットの発展に伴い、ビデオの伝播速度が迅速に向上されることで、ビデオが情報伝播の重要な経路となっている。ビデオの情報埋め込みとは、ビデオの主要内容（例えば、前景コンテンツ）の視聴に影響を与えることなく、ビデオの背景に、様々な情報、例えば、画像、文字又は両者の組み合わせなどを含む普及情報を重畳することである。

ビデオの主体コンテンツ（例えば、ビデオ内の人物、ビデオの後期製作際に追加された特殊効果など）は、前景コンテンツの形式で表示される。ビデオを放送する際、ユーザから常にビデオの主体コンテンツを見えるようにするために、情報をビデオの背景コンテンツに融合する必要がある。関連技術では、効果的な解決案に欠けている。

本願の実施例は、情報をビデオの背景コンテンツに高効率に融合することができる、ビデオへの情報埋め込み方法、コンピュータ機器及び記憶媒体を提供する。

本願の実施例の技術案は、以下のように実現される。
本願の実施例は、
参照フレームにおける埋め込み領域の画素分布特性を満たすモデルを構築し、前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御するステップと、
前記モデルに基づいて、前記検出対象のフレームにおける埋め込み領域内の背景及び前景を認識し、前記背景を遮蔽し前記前景を露出させるためのテンプレートを生成するステップと、
埋め込み対象の情報を前記テンプレートに適用することで、前記埋め込み対象の情報のうち、前記前景を遮蔽するコンテンツをブロックするステップと、
前記テンプレートが適用された前記埋め込み対象の情報を前記検出対象のフレームにおける埋め込み領域に被覆することで、前記前景を前記埋め込み対象の情報に対して強調表示するステップと、を含む、ビデオへの情報埋め込み方法を提供する。

本願の実施例は、
参照フレームにおける埋め込み領域の画素分布特性を満たすモデルを構築し、前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御するモデル構築モジュールと、
前記モデルに基づいて、前記検出対象のフレームにおける埋め込み領域内の背景及び前景を認識し、前記背景を遮蔽し前記前景を露出させるためのテンプレートを生成するテンプレート生成モジュールと、
埋め込み対象の情報を前記テンプレートに適用することで、前記埋め込み対象の情報のうち、前記前景を遮蔽するコンテンツをブロックするテンプレート適用モジュールと、
前記テンプレートが適用された前記埋め込み対象の情報を前記検出対象のフレームにおける埋め込み領域に被覆することで、前記前景を前記埋め込み対象の情報に対して強調表示する情報被覆モジュールと、を含む、ビデオへの情報埋め込み装置を提供する。

１つの選択的な実施形態では、前記装置は、
前記参照フレームにおける埋め込み領域の各ピクセルに対応して、前記ピクセルに対応する少なくとも１つのサブモデルと前記少なくとも１つのサブモデルに対応する重み付けとを初期化するパラメータ初期化モジュールと、
各ピクセルに対応して構築されたサブモデルを初期化された重み付けに基づいて混合することで、前記ピクセルに対応するモデルを形成する重み付け混合モジュールと、をさらに含む。

１つの選択的な実施形態では、前記装置は、
前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されたことに応じて、前記モデルを前記検出対象のフレームにおける埋め込み領域へフィッティングする速度を低減させる重み付け維持モジュールと、
前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されていないとともに、前記検出対象のフレームにおける埋め込み領域の光照射状況が変化したことに応じて、前記モデルを前記検出対象のフレームにおける埋め込み領域へフィッティングする速度を向上させるフィッティング加速モジュールと、をさらに含む。

１つの選択的な実施形態では、前記装置は、
前記検出対象のフレームにおける埋め込み領域のピクセルが対応するモデルにおける少なくとも１つのサブモデルとマッチングされたことに応じて、前記マッチングされたサブモデルのパラメータを更新し、前記対応するモデルにおけるマッチングされていないサブモデルのパラメータを不変に維持するパラメータ更新モジュールをさらに含む。

１つの選択的な実施形態では、前記装置は、
前記検出対象のフレームにおける埋め込み領域の各ピクセルの色値と、前記ピクセルに対応するモデルにおけるサブモデルとをマッチングする第１のマッチングモジュールと、
マッチングに成功したピクセルを前記背景のピクセルとして認識し、マッチングに失敗したピクセルを前記前景のピクセルとして認識する認識モジュールと、をさらに含む。

１つの選択的な実施形態では、前記装置は、
前記検出対象のフレームにおける埋め込み領域内の、背景として認識されたピクセルに対応し、中空の前記テンプレートにおける対応する位置に二進数の１を充填し、
前記検出対象のフレームにおける埋め込み領域内の、前景として認識されたピクセルに対応し、二進数の１が充填された前記テンプレートにおける対応する位置に二進数の０を充填する充填モジュールをさらに含む。

１つの選択的な実施形態では、前記装置は、
前記埋め込み対象の情報と、前記テンプレートにおける各位置に充填された二進数とをかけ算する演算モジュールをさらに含む。

１つの選択的な実施形態では、前記装置は、
ビデオが移動ショットを用いて形成されたことに応じて、前記ビデオの参照フレームにおける埋め込み領域から抽出された特徴と、前記検出対象のフレームから抽出された特徴とをマッチングする第２のマッチングモジュールと、
マッチングに成功したことに応じて、前記検出対象のフレームが参照フレームにおける埋め込み領域に対応する埋め込み領域を含むと決定する領域決定モジュールと、をさらに含む。

１つの選択的な実施形態では、前記装置は、
ビデオが移動ショットを用いて形成されたことに応じて、
前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御する前に、変換後の埋め込み領域における各ピクセルの位置が、前記参照フレームにおける埋め込み領域の対応するピクセルの位置に一致するように、前記検出対象のフレームにおける埋め込み領域を変換する領域変換モジュールと、
埋め込み対象の情報を前記テンプレートに適用する前に、変換後のテンプレートにおける各二進数の位置が、前記検出対象のフレームにおける埋め込み領域の対応するピクセルの位置に一致するように、前記テンプレートに対して前記変換の逆変換を行うテンプレート逆変換モジュールと、をさらに含む。

１つの選択的な実施形態では、前記装置は、
ビデオが固定ショットを用いて形成されたことに応じて、前記参照フレームにおける埋め込み領域の位置に基づいて、前記検出対象のフレームにおいて対応する位置の領域を位置づけすることで、前記検出対象のフレームにおける埋め込み領域を決定する領域位置づけモジュールをさらに含む。

１つの選択的な実施形態では、前記装置は、
前記検出対象のフレームにおける埋め込み領域の第１の色空間分布と、前記参照フレームにおける埋め込み領域の第１の色空間分布とが第１の差異性条件を満たすことに応じて、前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されていると決定する第１の決定モジュールと、
前記検出対象のフレームにおける埋め込み領域の第２の色空間分布と、前記参照フレームにおける埋め込み領域の第２の色空間分布とが第２の差異性条件を満たすことに応じて、前記検出対象のフレームにおける埋め込み領域の光照射状況が変化したと決定する第２の決定モジュールと、をさらに含む。

本願の実施例は、
実行可能な命令を記憶するメモリと
前記メモリに記憶されている実行可能な命令が実行されると、本願の実施例に係る方法を実現するプロセッサと、を含む、コンピュータ機器を提供する。
本願の実施例は、実行可能な命令が記憶されており、実行可能な命令がプロセッサによって実行されると、本願の実施例に係る方法を実現する、記憶媒体を提供する。
本願の実施例は、コンピュータプログラムが記憶されており、プロセッサによってロードされて実行されると、本願の実施例に係る方法を実現する、コンピュータプログラム製品を提供する。

本願の実施例は、以下の有益な効果を有する。
参照フレームにおける埋め込み領域の画素分布に基づいて特性モデルを構築し、モデルに基づいて検出対象のフレームにおける埋め込み領域の背景及び前景を認識し、背景を遮蔽し前景を露出させることができるテンプレートを生成し、埋め込み対象の情報にテンプレートを適用すると、埋め込まれた情報のうち、前景を遮蔽するコンテンツをフィルタリンすることができ、ビデオに埋め込まれた情報がビデオの前景を遮蔽することがないように確保し、埋め込まれた情報をビデオの背景によりよく融合することができ、それにより、より良好な視聴体験をもたらす。

本願の実施例に係るマスクによる画像処理の模式図である。本願の実施例に係る適用シーンの模式図である。本願の実施例に係る装置の１つの選択的な構成の模式図である。本願の実施例に係るビデオへの情報埋め込み方法の模式的なフローチャートである。本願の実施例に係るモデルの構築及び更新の模式的なフローチャートである。本願の実施例に係るビデオへの情報埋め込み方法の他の模式的なフローチャートである。本願の実施例に係るビデオへの情報埋め込み方法の他の模式的なフローチャートである。本願の実施例に係るビデオへの情報埋め込み方法の他の模式的なフローチャートである。本願の実施例に係る固定ショットを用いたビデオに情報を埋め込む効果の模式図である。本願の実施例に係る固定ショットを用いたビデオに情報を埋め込む他の効果の模式図である。本願の実施例に係る移動ショットを用いたビデオに情報を埋め込む効果の模式図である。本願の実施例に係る移動ショットを用いたビデオに情報を埋め込む他の効果の模式図である。本願の実施例に係る形態学によるマスク改善の模式図である。本願の実施例に係る形態学によるマスク改善の他の模式図である。

以下、本願の目的、技術案及び利点をより明瞭にするために、図面を参照しながら本願についてさらに詳細に説明し、説明される実施例は本願に対する制限と見なすべきではない。当業者が創造的な労力を要さずに得られる全ての他の実施例は、すべて本願の保護範囲に属する。

以下の説明において、「一部の実施例」に関し、すべての選択的な実施例のサブセットが説明されるが、「一部の実施例」は、すべての選択的な実施例の同じサブセット又は異なるサブセットであってもよく、矛盾しない限り、互いに組み合わせることができることが理解され得る。

以下の説明において、係る用語「第１＼第２＼第３」は、単に類似する対象を区別するものであり、対象に対する特定の順序付けを表すものではない。「第１＼第２＼第３」は、許可される場合に、特定の順番又は順序を交換することができ、ここで説明された本出願の実施例をここで図示又は説明される順序以外の順序で実施可能なことが理解され得る。

特別な定義がない限り、本明細書に使用される全ての技術及び科学的用語は、当業者が一般的に理解する意味と同じである。本明細書で使用される用語は、本出願の実施例の目的を説明するためのものに過ぎず、本出願を限定するものではない。

本願の実施例についてさらに詳細に説明する前に、本願の実施例に係る名詞及び用語について説明し、本願の実施例に係る名詞及び用語は以下の説明に該当する。

１）マスクは、フィルター又はテンプレートとも呼ばれ、処理対象の画像における（一部又は全部）画素を遮蔽するための画像であり、特定の画像の一部を強調表示するようにする。
マスクは、２次元行列配列であってもよく、多値画像を用いる場合もある。画像マスクは、主に、画像のいくつかの領域を遮蔽するためのものである。元画像における各画素での二進数と、マスクにおける同じ位置での二進数（マスクとも称する）とをＡＮＤ演算する。例えば、１＆１＝１、１＆０＝０。
例えば、図１Ａにおける１０１に示す３＊３の画像と、図１Ａにおける１０２に示す３＊３のマスクとを演算し、図１Ａでの１０３に示す結果画像を得る。

２）固定ショットは、固定ショット（ＦｉｘｅｄＳｈｏｔ、ＦＳ）であり、ビデオカメラの位置、レンズの光軸及び焦点距離が変わらないショットである。固定ショットのビデオにおけるキャラクター（リアルキャラクターが例えば人、仮想キャラクターが例えばアニメーションキャラクターである）は、静止しているものであってもよいし、移動している（画面に出入りする）ものであってもよいが、画面が依存するフレームワークは動かないものであり、すなわち、画面範囲及び可視領域面積は、常に同じである。

３）移動ショットは、様々な移動（例えば、ビデオカメラの位置、光軸、焦点距離の変化）を利用して撮像されるショットである。移動ショットのビデオにおける画面が依存するフレームワークは、変化可能であり、すなわち、画面範囲及び可視領域の面積は、変化可能であり、例えば、結像の距離、大きさ及び角度が変化可能である。

４）背景は、ビデオの画面における主体の後ろの景物であり、人物又はイベントが位置する時間・空間的環境を表すことができ、例えば、人物の後の建物、壁、地面である。

５）前景は、ビデオ画面における背景よりもショットに近いコンテンツであり、ビデオに表示される主体であり、例えば、建物の前に立っている人物である。

本願の実施例に係るビデオへの情報埋め込み方法についてよりよく理解するために、まず、関連技術で、ビデオに埋め込まれた情報による遮蔽の課題に対する解決案について分析して説明する。

背景削減は、一定の閾値を手動で設定し、ビデオにおける、潜在的な前景を含む新しい領域をオリジナルな背景領域と減算し、閾値と比較することで、背景が前景により遮蔽されているか否かを決定し、さらに遮蔽された部分に対応するマスクを形成することである。解決案は、前景と背景に対する判定が手動で選択された閾値に依存するため、自動化程度が低く、頻繁に調整する必要があり、前景の色が背景の色に近い場合、前景と背景との間の削減が徹底的ではなく、正確性が低い。

固定ショットのガウス混合背景モデリングは、固定ショットに対して、遮蔽されていない背景を選択してモデリングし、後続の画像フレームに対して、背景が前景により遮蔽されているか否かをモデルで判別することで、遮蔽された部分のマスクを形成することである。解決案は、固定ショットのビデオにしか適用できず、移動ショットのビデオの場合、背景を前景として認識しやすいため、同様に、正確性が低い。

軌跡分類は、初期フレームにおいて興味のあるターゲット点をマーキングし、移動追跡モデルを利用して、埋め込まれた情報における特徴点の軌跡を取得し、軌跡に基づいて、前景と背景とを判別することである。解決案は、画像フレームにおけるノイズに敏感であり、正確性が移動追跡モデルに依存する。選択された移動追跡モデルが不適切であると、前景と背景との判別の正確性に非常に大きい影響を与えてしまう。

上記複数の解決案に存在する技術課題に対して、本願の実施例は、ビデオへの情報埋め込み方法を提供し、ビデオ配列と全画素統計モデリングとを組み合わせる方法を用いることで、静止ショットのビデオに対して、背景を自動的に選択してモデリングし、後続のフレームが学習率を自動的に更新してモデルを最適化することを実現し、統計された特徴を使用して、遮蔽されているか否かを判定し、マスクを形成する一方、移動ショットのビデオに対して、変換技術を使用して参照フレームの標準画面にマッピングして画素統計モデリングを行い、後続のフレームの画面に戻って遮蔽マスクを取得し、移動追跡モデルが必要とされず、リアルタイム性が高く、適用範囲が広く、ロバスト性が高く、自動的かつ高効率に使用することができる。

以下、本願の実施例を実現する装置の例示的な適用について説明し、本願の実施例に係る装置は、携帯電話（スマートフォン）、タブレットパソコン、ノートパソコンなど、無線通信能力を有するモバイル端末として実施されてもよいし、移動しにくく、演算機能を有するデスクトップコンピュータ、デスクトップコンピュータなどとして実施されてもよい。また、本願の実施形態に係る装置は、サーバーとして実施されてもよい。サーバーとは、１台のサーバーであってもよいし、複数台のサーバーで構成されるサーバークラスター、クラウドコンピューティングセンターなどであってもよいが、ここでは限定しない。

図１Ｂを参照すると、図１Ｂは、本願の実施例に係る適用シーンの模式図であり、１つの例示的な適用をサポートすることを実現する。端末４００は、ネットワーク３００を介してサーバー２００に接続されており、ネットワーク３００は、広域エリアネットワーク、又は、ローカルエリアネットワーク、又は両者の組合せであることができ、無線リンクを用いてデータ伝送を実現する。

端末４００がビデオ（端末により録画されたビデオであり得る）に情報（広告であり得る）を埋め込もうとすることに応じ、端末４００は、ビデオ及び埋め込もうとする情報をサーバー２００に送信し、ビデオに情報を埋め込むことをサーバー２００に要求する。この場合、サーバー２００は、ビデオ及び埋め込み対象の情報を受信すると、本願の実施例に係るビデオへの情報埋め込み方法を利用して、埋め込み対象の情報をビデオの各フレームに追加し、パッケージ化することで、パッケージ化されたビデオファイルを得て、最後にパッケージ化されたビデオファイルを端末４００に送信する。端末４００は、広告が埋め込まれたビデオを発表することができる。

一部の実施例では、端末４００がビデオの録画を完了して埋め込み対象の情報を決定した場合、端末４００自体は、本願の実施例に係るビデオへの情報埋め込み方法を利用して、埋め込み対象の情報をビデオの各フレームに追加し、パッケージ化してビデオファイルを取得し、次に、ビデオを見るＡＰＰにより、広告が埋め込まれたビデオを発表してもよい。なお、端末の演算量及び埋め込み効率を低減させるために、一般的に、時間が短いビデオの場合に、端末自体が情報埋め込みを行う。

一部の実施形態では、端末４００がサーバー２００に記憶されているビデオに情報を埋め込もうとする場合、端末４００は、埋め込み対象の情報及びビデオの識別情報をサーバー２００に送信することで、埋め込み対象の情報を識別情報に対応するビデオに追加することをサーバー２００に要求してもよい。サーバー２００は、識別情報に基づいて、対応するビデオファイルを決定し、埋め込み対象の情報をビデオファイルに埋め込み、最後にパッケージ化し、パッケージ化されたビデオファイルを取得し、次に、パッケージ化されたビデオファイルを端末４００に送信する。

本願の実施例に係る装置は、ハードウェア、又は、ソフトウェアとハードウェアの組み合わせ形態として実施されてもよい。以下、本願の実施例に係る装置の様々な例示的な実施形態について説明する。

図２を参照すると、図２は、本願の実施例に係るサーバー２００の１つの任意選択的な構成の模式図であり、サーバー２００は、デスクトップサーバーであってもよいし、複数台のサーバーで構成されるサーバークラスター、クラウドコンピューティングセンターなどであってもよい。サーバー２００の構成に基づいて、装置がサーバーとして実施される場合の例示的な構成を予測することができる。従って、ここで説明された構成を制限するものとして見なすべきではない。例えば、以下に説明される一部のコンポーネントを省略してもよく、あるいは、あるアプリケーションの特殊なニーズを満たすために、以下に記載されていないコンポーネントを追加してもよい。

図２に示すサーバー２００は、少なくとも１つのプロセッサ２１０と、メモリ２４０と、少なくとも１つのネットワークインターフェース２２０と、ユーザインターフェース２３０と、を含む。端末２００における各コンポーネントがバスシステム２５０を介してカップリングされる。なお、バスシステム２５０は、これらのコンポーネント間の接続通信を実現するためのものであると理解できる。バスシステム２５０は、データバスを含むほか、電源バスと、制御バスと、状態信号バスと、をさらに含む。しかし、明瞭に説明するために、図２で、様々なバスをすべてバスシステム２５０としてマーキングする。

ユーザインターフェース２３０は、ディスプレイ、キーボード、マウス、トラックボール、クリックホイール、キー、ボタン、タッチパッドやタッチパネルなどを含むことができる。

メモリ２４０は、揮発性メモリ又は不揮発性メモリであってもよいし、揮発性及び不揮発性メモリの両者を含んでもよい。ここで、不揮発性メモリは、読み出し専用メモリ（ＲＯＭ、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）であってもよい。揮発性メモリは、ランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）であってもよい。本願の実施例で説明されたメモリ２４０は、任意の適切な種類のメモリを含むことを意図する。

本願の実施例におけるメモリ２４０は、サーバー２００の動作をサポートするように、データを記憶することができる。これらのデータの例は、オペレーティングシステム及びアプリケーションプログラムなど、サーバー２００において動作するための任意のコンピュータプログラムを含む。ここで、オペレーティングシステムは、様々な基本的サービスを実現するとともに、ハードウェアベースのタスクを処理するために、フレームワーク層、コアデータベース層、ドライバー層などの様々なシステムプログラムを含む。アプリケーションプログラムは、様々なアプリケーションプログラムを含んでもよい。

本願の実施例に係る方法がソフトウェアとハードウェアの組み合わせで実施される例としては、本願の実施例に係る方法は、プロセッサ２１０により実行されるソフトウェアモジュールの組合せとして直接具現化されてもよく、ソフトウェアモジュールが記憶媒体に位置してもよく、記憶媒体がメモリ２４０に位置し、プロセッサ２１０は、メモリ２４０におけるソフトウェアモジュールに含まれる実行可能な命令を読み取り、必要なハードウェア（例えば、プロセッサ２１０、及びバス２５０に接続された他のコンポーネント）と組み合わせて、本願の実施例に係る方法を完了する。

例としては、プロセッサ２１０は、信号の処理能力を有する集積回路チップであることができ、例えば、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ、ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、又は、他のプログラマブルロジックデバイス、個別ゲート、又は、トランジスタロジック素子、個別ハードウェアコンポーネントなどである。ここで、汎用プロセッサは、マイクロプロセッサー又は任意の通常のプロセッサなどであってもよい。

前述した、本願の実施例を実現する装置の例示的な適用及び実施形態を参照して、本願の実施例を実現する方法について説明する。本願の実施例に係る、実行機器が実行する方法では、この実行機器は、サーバーであってもよいし、端末であってもよい。つまり、本願の実施例に係る方法は、サーバーにより実行されてもよいし、端末により実行されてもよい。サーバーは、デスクトップサーバーであってもよいし、複数台のサーバーで構成されるサーバークラスター、クラウドコンピューティングセンターなどであってもよい。端末は、携帯電話（スマートフォン）、タブレットパソコン、ノートパソコンなど、無線通信能力を有するモバイル端末であってもよいし、移動しにくく、演算機能を有するデスクトップコンピュータ、デスクトップコンピュータなどとして実施されてもよい。

図３を参照すると、図３は、本願の実施例でビデオへの情報埋め込み方法の模式的なフローチャートであり、図３に示すステップを参照しながら説明する。

ステップＳ１０１において、参照フレームにおける埋め込み領域の画素分布特性を満たすモデルを構築し、前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御する。

ここで、参照フレームは、情報が埋め込まれた後の１フレームの画像であってもよく、埋め込まれた情報が位置する領域は、埋め込み領域である。参照フレーム及び埋め込み領域は、人為的に設定されるものであってもよいし、機械学習、ディープ学習などの技術を用いて自動的にスクリーニングされるものであってもよい。

参照フレームは、ビデオにおける、少なくとも埋め込み領域を含み、埋め込み領域に埋め込み対象の情報が埋め込まれているとともに、埋め込み対象の情報が遮蔽されていない画像フレームであり得る。例えば、ビデオに埋め込み領域が初めて出現した、埋め込み領域に埋め込み対象の情報が埋め込まれているとともに、埋め込み対象の情報が遮蔽されていない画像フレームであってもよい。埋め込み対象の情報が広告であることを例にすると、参照フレームは、ビデオにおける、完全な広告領域が初めて出現した（例えば、壁又は地面における特定の領域であり、特定の領域が広告を完全に表示するに十分である）画像フレームであってもよい。

例えば、参照フレームは、埋め込み対象の情報に関するターゲットキャラクターが出現した画像フレームであってもよいし、あるいは、表示された字幕に埋め込み対象の情報に関するキーワードが出現した画像フレームであってもよい。埋め込み対象の情報があるブランドのエアコンの広告であることを仮定する場合、ビデオにエアコンが出現したある画像フレームを参照フレームとしてもよいし、「冷」、「熱」などのキーワードが出現した画像フレームを参照フレームとしてもよい。

埋め込み領域は、人為的に分割されるものであってもよく、例えば、画像フレームにおける右上角の領域であってもよいし、画像フレームにおける中間上方の領域であってもよい。当然ながら、自動的に認識された特定の領域、例えば、地面、壁、空などの関連領域であってもよい。なお、モデルを初期化するとき、埋め込み領域の画素分布を完全に学習することができるために、参照フレームにおける埋め込み領域が前景により遮蔽されていないように求められている。

参照フレームにおける埋め込み領域の画素分布特性を満たすモデルの構築を実施する際に、埋め込み領域における各ピクセルのモデルを構築し、例えば、埋め込み領域における各ピクセルのガウス混合モデルを構築してもよい。この場合、ステップＳ１０１を実施する際に、まず、参照フレームにおける埋め込み領域の各ピクセルに基づいて、各ピクセルに対して予め定義されたガウス混合モデルを初期化し、ガウス混合モデルに複数のガウスモードが含まれ（一部の実施例では、ガウスモードは、モード／ガウス成分／サブモデルとも称する）、ガウスモードにおけるパラメータを初期化し、この後に用いるパラメータを求める。次に、後続の各検出対象のフレームにおける埋め込み領域の各ピクセルを処理し、ピクセルがあるモード（すなわち、ガウスモード）とマッチングするか否かを判断し、マッチングすれば、このピクセルをモードにまとめ、新しい画素値に基づいて、モードの重み付けを更新し、マッチングしなければ、ピクセルでガウスモードを構築し、パラメータを初期化することで、既存のモードのうち、重み付けが最小のモードを代替する。

ステップＳ１０２において、前記モデルに基づいて、前記検出対象のフレームにおける埋め込み領域内の背景及び前景を認識し、前記背景を遮蔽し前景を露出させるためのテンプレートを生成する。

ここで、ステップＳ１０２を実施する際に、順に検出対象のフレームにおける埋め込み領域の各ピクセルと、対応するモデルにおける各モードとをマッチングしてもよく、１つのピクセルとマッチングするモードが存在する場合、このピクセルが背景ピクセルであると考慮し、ピクセルとマッチングするモードが全くない場合、ピクセルが前景ピクセルであると考慮する。

埋め込み領域の各ピクセルが前景であるか、背景であるかを認識した後に、認識結果によって、前記背景を遮蔽し前景を露出させるためのテンプレートを生成してもよい。さらに、１つのピクセルが背景として認識される場合、テンプレートにおけるピクセルに対応する値を１にしてもよく、ピクセルが前景として認識される場合、テンプレートにおけるピクセルに対応する値を０にする。なお、０及び１が二進数であり、すなわち、テンプレートは、二進数の０及び１で構成されるマスクである。

ステップＳ１０３において、埋め込み対象の情報を前記テンプレートに適用することで、前記埋め込み対象の情報のうち、前記前景を遮蔽するコンテンツをブロックする。

ここで、ステップＳ１０３を実施する際に、埋め込み対象の情報とテンプレートとをかけ算してもよい。本実施例及び他の実施例では、埋め込み対象の情報とテンプレートとをかけ算することとは、埋め込み対象の情報と、テンプレートにおける各位置に充填された二進数とをかけ算することであってもよい。実施形態は、埋め込み対象の情報のピクセルと、テンプレートにおける対応する位置の二進数とをかけ算することであってもよい。テンプレートにおいて、背景ピクセルに対応する値が１であり、前景ピクセルに対応する値が０であり、従って、埋め込み対象の情報とテンプレートとをかけ算するとき、埋め込み対象の情報のうち、前景を遮蔽するコンテンツに影響を与えることなく、遮蔽された埋め込み対象の情報のうち、前景を遮蔽するコンテンツをブロックする。

ステップＳ１０４において、前記テンプレートが適用された前記埋め込み対象の情報を前記検出対象のフレームにおける埋め込み領域に被覆することで、前記前景を前記埋め込み対象の情報に対して強調表示する。

ここで、ステップＳ１０３で、埋め込まれた情報に対してテンプレートを適用し、埋め込み対象の情報のうち、前景を遮蔽するコンテンツをブロックしたため、テンプレートが適用された埋め込み対象の情報を検出対象のフレームにおける埋め込み領域に被覆すると、埋め込み対象の情報が検出対象のフレームにおける前景部分を遮蔽することなく、それにより、より良好な視聴体験をもたらす。

本願の実施例に係る方法を利用して、ビデオに埋め込み対象の情報を埋め込む場合、まず、参照フレームにおける埋め込み領域の画素分布特性に基づいて、各ピクセルに対してモデルを構築し、モデルのパラメータが検出対象のフレームにおける埋め込み領域の各ピクセルに基づいて更新可能であり、次に、検出対象のフレームにおける埋め込み領域の前景ピクセル及び背景ピクセルに基づいて、背景を遮蔽できるとともに、前景を遮蔽しないテンプレートを生成し、埋め込み対象の情報に対してテンプレートを適用し、最後にテンプレートが適用された埋め込み対象の情報を検出対象のフレームにおける埋め込み領域に被覆し、生成されたテンプレートが背景を遮蔽できるが、前景を遮蔽することはない。従って、埋め込み対象の情報に対してテンプレートを適用した後に、埋め込み対象の情報のうち、前景を遮蔽するコンテンツをブロックすることができ、それにより、検出対象のフレームに情報を埋め込むと、検出対象のフレームにおける前景部分を遮蔽することなく、さらにビデオの視聴体験を確保することができる。

一部の実施例では、図４を参照すると、図４は、本願の実施例でモデルを構築して更新する模式的なフローチャートであり、ステップＳ１０１は、図４に示す各ステップで実現することができる。

ステップＳ１０１１において、前記参照フレームにおける埋め込み領域の各ピクセルに対応して、前記ピクセルに対応する少なくとも１つのサブモデルと少なくとも１つのサブモデルに対応する重み付けとを初期化する。

本願の実施例では、モデルを構築する際、ピクセルを単位とし、つまり、各ピクセルに対して１つのモデルを構築し、１つのピクセルのモデルが少なくとも１つのサブモデルに対応してもよい。つまり、１つのピクセルのモデルは、１つのサブモデルに対応してもよいし、複数のサブモデルに対応してもよい。

例えば、ピクセルのモデルは、２個以上、一般的に３個～５個のサブモデルを含むガウス混合モデルであってもよい。サブモデルは、ガウス確率分布関数であってもよく、サブモデルを初期化することは、少なくとも、サブモデルのパラメータを初期化することであり、ここで、サブモデルのパラメータは、平均値、分散、重み付けなどのパラメータであってもよい。サブモデルのパラメータを初期化するとき、サブモデルのパラメータをデフォルト値に設定してもよい。初期化プロセスにおいて、一般的に、分散をできるだけ大きく設定するが、重み付けをできるだけ小さくする。このように設定する原因は、初期化のガウスモデルが不正確なモデルであり、常にその範囲を縮小し、パラメータ値を更新し、それにより、可能性が最も高いガウスモデルを得る必要があることにあり、分散をできるだけ大きく設定する原因は、できるだけ多くのピクセルをサブモデルとマッチングし、それにより、ピクセルの色値の、ビデオの各フレームの間での分布特性を正確に表すモデルを取得することにある。

一部の実施例では、モデルは、さらに、単一ガウスモデルであってもよく、この場合、１つのサブモデルのみが必要とされ、サブモデルのパラメータは平均値、分散などであってもよい。単一ガウスモデルが、背景が単一かつ変わらないシーンに適用されるため、通常、ガウス混合モデルを構築して後続の処理を行う。

ステップＳ１０１２において、各ピクセルに対応して構築されたサブモデルを初期化された重み付けに基づいて混合することで、前記ピクセルに対応するモデルを形成する。

ここで、各ピクセルが３つのサブモデルを有し、サブモデルがそれぞれＦ_１、Ｆ_２、Ｆ_３であり、それらに対応する重み付けがそれぞれＫ_１、Ｋ_２及びＫ_３であると仮定する場合、ステップＳ１０１２は、式（１－１）で実現することができる。

Ｆ_ｍはピクセルに対応するモデルである。

一部の実施例では、式（１－１）に対して簡単な数学変換を行って、ピクセルに対応するモデルを形成してもよい。

ステップＳ１０１１及びステップＳ１０１２を通して、参照フレームにおける埋め込み領域の画素分布特性を満たすモデルを構築することが完了される。

ステップＳ１０１３において、検出対象のフレームにおける埋め込み領域が前景により遮蔽されているか否かを判断する。

一部の実施例では、まず、検出対象のフレームにおける埋め込み領域の第１の色空間分布、及び参照フレームにおける埋め込み領域の第１の色空間分布を取得し、次に、検出対象のフレームの埋め込み領域と参照フレームの埋め込み領域との第１の色空間分布の差異度を決定し、さらに、差異度が第１の差異性条件を満たすか否かを判断することにより、検出対象のフレームにおける埋め込み領域が前景により遮蔽されているか否かを決定してもよい。

例えば、参照フレームにおける埋め込み領域が前景により遮蔽されていないため、検出対象のフレームにおける埋め込み領域の第１の色空間分布と、参照フレームにおける埋め込み領域の第１の色空間分布とが第１の差異性条件を満たす場合、両者の差異が非常に大きいことが示され、この場合、検出対象のフレームにおける埋め込み領域が前景により遮蔽されていることが示され、ステップＳ１０１４へ進む。検出対象のフレームにおける埋め込み領域の第１の色空間分布と、参照フレームにおける埋め込み領域の第１の色空間分布とが第１の差異性条件を満たさない場合、両者の差異が小さいことが示され、この場合、検出対象のフレームにおける埋め込み領域が前景により遮蔽されていないことが示され、この場合、ステップＳ１０１５へ進む。

一部の実施例では、第１の色空間分布は、赤緑青（ＲｅｄＧｒｅｅｎＢｌｕｅ、ＲＧＢ）空間分布であってもよい。埋め込み領域の第１の色空間分布を取得することは、埋め込み領域のＲＧＢヒストグラムを取得することであってもよく、例えば、２５６個の階調を３２個の区間に分割し、埋め込み領域の、この３２個の区間内でのピクセルの分布状況を統計することで、ＲＧＢヒストグラムを得てもよい。

第１の差異性条件は、検出対象のフレームにおける埋め込み領域が遮蔽されていないことを決定する場合、参照フレーム埋め込み領域と検出対象のフレームの埋め込み領域との第１の色空間分布の最大差異度を表すために用いられ得る。例えば、合計でＭ個の区間に分けられると仮定すると、第１の差異性条件は、３０％＊Ｍ個の区間内のピクセル数の差値が個数の閾値の範囲の外にあることであり得る。例えば、３２個の区間の場合、第１の差異性条件は、少なくとも９つの区間内のピクセル数の差値が１０個を超えることであり得る。

ステップＳ１０１４において、前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されたことに応じて、前記検出対象のフレームにおける埋め込み領域への前記モデルのフィッティングを減速させ、前記モデルにおけるサブモデルの重み付けを不変にする。

前記検出対象のフレームにおける埋め込み領域への前記モデルのフィッティングを減速させることは、前記モデルを前記検出対象のフレームにおける埋め込み領域へフィッティングする速度を減少させることである。例えば、埋め込み領域の各ピクセルのモデルに対して、モデルにおけるフィッティング速度に関する学習率を０にすることで、モデルにおけるサブモデルの重み付けを不変に維持してもよい。検出対象のフレームにおける埋め込み領域が前景により遮蔽されている場合、検出対象のフレームにおける埋め込み領域へのモデルのフィッティングを減速させ、それにより、モデルが埋め込み領域の画素変化を学習する速度を低下させることで、この後に前景を背景として誤って認識することを回避する。

ステップＳ１０１５において、検出対象のフレームにおける埋め込み領域の光照射状況が変化したか否かを判断する。

一部の実施例では、まず、検出対象のフレームにおける埋め込み領域の第２の色空間分布及び参照フレームにおける埋め込み領域の第２の色空間分布を取得し、次に、検出対象のフレームの埋め込み領域と参照フレームの埋め込み領域との第２の色空間分布の差異度を決定し、さらに差異度が第２の差異性条件を満たすか否かを判断することにより、検出対象のフレームにおける埋め込み領域の光照射状況が変化したか否かを決定する。第２の差異性条件は、検出対象のフレームにおける埋め込み領域の光照射状況が変化したことを決定する場合、参照フレームの埋め込み領域と検出対象のフレームの埋め込み領域との第２の色空間分布の最大差異度を表すために用いられ得る。

例えば、前記検出対象のフレームにおける埋め込み領域の第２の色空間分布と、前記参照フレームにおける埋め込み領域の第２の色空間分布とが第２の差異性条件を満たすことに応じて、前記検出対象のフレームにおける埋め込み領域の光照射状況が変化したと決定し、この場合、ステップＳ１０１６へ進む。前記検出対象のフレームにおける埋め込み領域の第２の色空間分布と、前記参照フレームにおける埋め込み領域の第２の色空間分布とが第２の差異性条件を満たさないことに応じて、前記検出対象のフレームにおける埋め込み領域の光照射状況が変化していないと決定し、この場合、元の学習率を維持し、重み付けを更新する。

一部の実施例では、第２の色空間分布は、色相・彩度・明度（ＨｕｅＳａｔｕｒａｔｉｏｎＶａｌｕｅ、ＨＳＶ）空間分布であってもよい。ステップＳ１０１５の実現プロセスについては、ステップＳ１０１３を参照して理解することができる。

ステップＳ１０１６において、前記検出対象のフレームにおける埋め込み領域への前記モデルのフィッティングを加速する。

前記検出対象のフレームにおける埋め込み領域への前記モデルのフィッティングを加速することは、前記モデルを前記検出対象のフレームにおける埋め込み領域へフィッティングする速度を向上させることである。一部の実施例では、ステップＳ１０１６を実行する前提条件が、検出対象のフレームにおける埋め込み領域が前景により遮蔽されていないとともに、検出対象のフレームにおける埋め込み領域の光照射状況が変化したことである場合、新しい光照射を前景として認識することを回避するために、フィッティング速度を加速する必要があり、それにより、モデルを早めに検出対象のフレームの埋め込み領域へフィッティングするようにすることで、モデルが埋め込み領域の画素分布特性を表すことができることを確保する。例えば、埋め込み領域の各ピクセルのモデルに対して、モデルにおけるフィッティング速度に関する学習率を－１にすることで実現することができる。

ステップＳ１０１３～ステップＳ１０１６を通して、モデルにおける各サブモデル重み付けに対する更新が完了され、この場合、さらにサブモデルのパラメータを更新する必要がある。

ステップＳ１０１７において、検出対象のフレームにおける埋め込み領域の各ピクセルのそれぞれが、対応するモデルにおけるサブモデルとマッチングするか否かを判断する。

一部の実施例では、埋め込み領域におけるいずれか１つのピクセルに対して、ピクセルの色値とピクセルのモデルにおける任意のサブモデルの平均値との偏差が所定の閾値より小さい場合、ピクセルがサブモデルとマッチングすると考慮する。例えば、実際の適用では、閾値は、標準偏差に関連するものであってもよく、サブモデルの標準偏差の２．５倍であってもよい。１つのピクセルがモデルにおける少なくとも１つのサブモデルとマッチングする場合、ステップＳ１０１８へ進み、１つのピクセルがモデルのうちのいずれのサブモデルともマッチングしない場合、ステップＳ１０１９へ進む。

ステップＳ１０１８において、前記検出対象のフレームにおける埋め込み領域のピクセルが対応するモデルにおける少なくとも１つのサブモデルとマッチングされたことに応じて、前記マッチングされたサブモデルのパラメータを更新する。

ピクセルに対応するモデルのうち、ピクセルとマッチングされていないサブモデルに対して、対応するサブモデルのパラメータを不変に維持する。

ステップＳ１０１９において、検出対象のフレームにおける埋め込み領域のピクセルが対応するモデルのうちのいずれのサブモデルともマッチングしないことに応じて、ピクセルに基づいて新しいサブモデルを初期化し、重み付けが最小のサブモデルを置き換える。

ここで、ステップＳ１０１７～ステップ１０１９を通して、サブモデルパラメータの更新が完了される。サブモデルパラメータを更新するとき、検出対象のフレームにおける埋め込み領域の各ピクセルに対して遮蔽検出を行う必要があり、すなわち、ピクセルが前景又は背景であることを決定し、遮蔽検出結果に基づいて、サブモデルのパラメータを更新し、背景を遮蔽し前景を露出させるためのテンプレートを生成し、それにより、検出対象のフレームの埋め込み領域に情報を埋め込むとき、背景とよく融合するとともに、前景を遮蔽することはない。

一部の実施例では、ステップＳ１０２は、ステップＳ１０２１～ステップＳ１０２４で実現することができる。

ステップＳ１０２１において、前記検出対象のフレームにおける埋め込み領域の各ピクセルの色値と、前記ピクセルに対応するモデルにおける各サブモデルとをマッチングする。

ここで、ステップＳ１０２１を実施する際、検出対象のフレームにおける埋め込み領域の各ピクセルの色値と、ピクセルに対応する各サブモデルとを比較してもよく、１つのピクセルの色値と少なくとも１つのサブモデルの平均値との偏差が所定の閾値範囲内にある場合、このサブモデルがピクセルとマッチングすることが示される。

ステップＳ１０２２において、マッチングに成功したピクセルを前記背景のピクセルとして認識し、マッチングに失敗したピクセルを前記前景のピクセルとして認識する。

ここで、参照フレームにおける埋め込み領域は、前景を遮蔽しない領域であるので、背景であってもよい。また、モデルは、構築されるとき、参照フレームにおける埋め込み領域の画素分布特性に基づいて構築される。検出対象のフレームにおける埋め込み領域内のピクセルがピクセルに対応するモデルにおける１つのサブモデルとマッチングする場合、ピクセルが背景ピクセルであると決定し、検出対象のフレームにおける埋め込み領域のピクセルがピクセルに対応するモデルのうちのいずれのサブモデルともマッチングしない場合、ピクセルが前景ピクセルであると決定する。

ステップＳ１０２３において、前記検出対象のフレームにおける埋め込み領域内の、背景として認識されたピクセルに対応して、中空の前記テンプレートにおける対応する位置に二進数の１を充填する。

ステップＳ１０２４において、前記検出対象のフレームにおける埋め込み領域内の、前景として認識されたピクセルに対応して、二進数の１が充填された前記テンプレートにおける対応する位置に二進数の０を充填する。

ステップＳ１０２１～ステップＳ１０２４を通して、二値化のテンプレートが生成される。テンプレートにおいて、背景として認識されたピクセルに対応するテンプレート位置が１であり、前景として認識されたピクセルに対応するテンプレート位置が０であり、従って、このテンプレートと埋め込み対象の情報とをかけ算すると、テンプレートが適用された埋め込み対象の情報を得る。テンプレートが適用された埋め込み対象の情報のうち、前景として認識されたピクセルの画素値が０であるが、背景として認識されたピクセルの画素値が変わらない。このように、テンプレートが適用された埋め込み対象の情報を検出対象のフレームにおける埋め込み領域に被覆すると、前景が遮蔽されていないとともに、埋め込まれた情報に対して強調表示されることを確保することができる。

一部の実施例では、ステップＳ１０１の前又は後に、検出対象のフレームにおける埋め込み領域を決定する必要がある。前記ビデオが固定ショットで形成される場合、ビデオにおける画面範囲及び可視領域面積が変わらない。この場合、検出対象のフレームにおける埋め込み領域を決定することを実際に実現するとき、前記参照フレームにおける埋め込み領域の位置に基づいて、前記検出対象のフレームにおいて、対応する位置の領域を位置づけすることで、前記検出対象のフレームにおける埋め込み領域を得てもよい。

一部の実施例では、前記ビデオが移動ショットで形成される場合、検出対象のフレームにおける埋め込み領域を決定することは、ステップ２１及びステップ２２で実現することができる。

ステップ２１において、前記ビデオの参照フレームにおける埋め込み領域から抽出された特徴と、前記検出対象のフレームから抽出された特徴とをマッチングする。

ここで、ステップ２１を実施する際に、まず、参照フレームにおける埋め込み領域から特徴点を抽出し、次に、検出対象のフレームにおける特徴点を抽出し、参照フレームにおける埋め込み領域から抽出された特徴点と検出対象のフレームにおける特徴点とをマッチングしてもよい。

さらに、特徴点を抽出するとき、方向付きの加速化断片試験による特徴（ＦｅａｔｕｒｅｓｆｒｏｍＡｃｃｅｌｅｒａｔｅｄＳｅｇｍｅｎｔＴｅｓｔ、ＦＡＳＴ）及び回転の二値頑健独立基本特徴（ＢｉｎａｒｙＲｏｂｕｓｔＩｎｄｅｐｅｎｄｅｎｔＥｌｅｍｅｎｔａｒｙＦｅａｔｕｒｅｓ、ＢＲＩＥＦ）特徴点（ＯｒｉｅｎｔｅｄＦＡＳＴａｎｄＲｏｔａｔｅｄＢＲＩＥＦ、ＯＲＢ）、あるいは、スケール不変の特徴変換（Ｓｃａｌｅ－ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ、ＳＩＦＴ）特徴点を抽出してもよい。当然ながら、一部の実施例では、他の種類の特徴点を抽出してもよい。

ステップ２２において、マッチングに成功したことに応じて、前記検出対象のフレームが参照フレームにおける埋め込み領域に対応する埋め込み領域を含むと決定する。

ここで、本実施例では、参照フレームにおける埋め込み領域の特徴点が、検出対象のフレームにおける特徴点とのマッチングに成功することは、全ての特徴点がマッチングに成功することであってもよく、一部の特徴点がマッチングに成功し、例えば、８０％の特徴点がマッチングに成功することであってもよい。

参照フレームにおける埋め込み領域の特徴点が、検出対象のフレームにおける特徴点とのマッチングに成功したことに応じて、検出対象のフレームに、参照フレームにおける埋め込み領域に対応する埋め込み領域が存在することが示され、この場合、情報を埋め込むことができる。参照フレームにおける埋め込み領域の特徴点が、検出対象のフレームにおける特徴点とのマッチングに成功していないことに応じて、検出対象のフレームに、参照フレームにおける埋め込み領域に対応する埋め込み領域が存在しないことが示され、この場合、埋め込まれた情報が検出対象のフレームにおける前景を広く遮蔽する可能性があるため、情報を埋め込むことができない。

ステップ２１～ステップ２２では、参照フレームにおける埋め込み領域の特徴点と、検出対象のフレームにおける特徴点と、をマッチングすることで、検出対象のフレームにおける埋め込み領域を追跡する。移動追跡の実現形態に比べて、リアルタイム性が高く、適用範囲が広く、ロバスト性が高く、自動的かつ高効率に使用することができる。

一部の実施例では、前記ビデオが移動ショットで形成される場合、ショットの位置、光軸、焦点距離がすべて変化する可能性があるため、移動ショットを用いて形成されたビデオの各画像フレームにおける埋め込み領域の位置が変化可能である。この場合、ステップＳ１０１３の前に、ステップ３１を実行する必要がある。

ステップ３１において、変換後の埋め込み領域における各ピクセルの位置が、前記参照フレームにおける埋め込み領域の対応するピクセルの位置と一致するように、前記検出対象のフレームにおける埋め込み領域を変換する。

ここで、ステップ３１を実施する際に、まず、埋め込み領域（すなわち、情報を埋め込む背景領域）を追跡してホモグラフィ行列（Ｈｏｍｏｇｒａｐｈｙｍａｔｒｉｘ）Ｈを生成し、次に、変換後の埋め込み領域における各ピクセルの位置が、前記参照フレームにおける埋め込み領域の対応するピクセルの位置に一致するように、検出対象のフレームにおける埋め込み領域をホモグラフィ行列Ｈに基づいて参照フレームに変換してもよい。さらに、式（２－１）に基づいて実現されてもよい。

ここで、ｘ_ｔ、ｙ_ｔは、現在のフレームにおけるピクセルを表し、ｘ_０、ｙ_０は、ピクセルに対応する参照フレームにおけるピクセルを表す。

前記ビデオが移動ショットで形成される場合、検出対象のフレームにおける埋め込み領域に基づいて、モデルの更新を制御するとき、ホモグラフィ行列により変換された埋め込み領域を実際に使用するため、ステップＳ１０２で検出対象のフレームにおける埋め込み領域の背景及び前景を認識するとき、及び、背景を遮蔽し前景を露出させるためのテンプレートを生成するときにも、ホモグラフィ行列により変換された埋め込み領域を用いる。対応して、ステップＳ１０３の前に、変換後のテンプレートにおける各二進数の位置が、前記検出対象のフレームにおける埋め込み領域の対応するピクセルの位置に一致するように、前記テンプレートに対して前記変換の逆変換を行う必要がある。

本願の実施例では、固定ショットを用いて形成されたビデオに対しては、検出対象のフレームにおける埋め込み領域の各ピクセルの画素分布特性を利用して、参照フレームにおける埋め込み領域の背景画素分布をフィッティングし、ガウス混合モデリングを用い、モデルを自動的に学習して更新し、遮蔽検出結果に基づいて、背景を遮蔽し前景を表示することができるテンプレートを決定し、それにより、埋め込まれた情報が前景を遮蔽することを回避する。一方、移動ショットに対しては、変換技術を用い、検出対象のフレームにおける埋め込み領域内のピクセル位置を参照フレームにおける埋め込み領域内の一致する位置にマッピングし、同様に、検出対象のフレームにおける埋め込み領域のピクセルに対して遮蔽検出を行い、テンプレートを生成し、テンプレートに対して逆変換を行い、背景を遮蔽し前景を表示することができるテンプレートを形成し、それにより、情報が埋め込まれた後に、前景を遮蔽しないことを確保する。

本願の実施例は、ビデオへの情報埋め込み方法をさらに提供し、図５は、本願の実施例でビデオへの情報埋め込み方法の他の模式的なフローチャートであり、図５に示すように、前記方法は、ステップＳ４０１～ステップＳ４０９を含む。

ステップＳ４０１において、端末が処理対象のビデオ及び埋め込み対象の情報を取得する。

ここで、処理対象のビデオは、端末により録画されたビデオであってもよいし、端末によりサーバーからダウンロードされたビデオであってもよく、当然ながら、他の端末から端末に送信されたビデオであってもよい。埋め込み対象の情報は、埋め込み対象の図面情報であってもよく、埋め込み対象の図面情報は、広告図面情報であってもよいし、公示情報などであってもよい。

本願の実施例では、処理対象のビデオは、多くの画像フレームを含むビデオファイルであってもよい。一部の実施例では、処理対象のビデオは、さらに、処理対象のビデオの識別情報であってもよく、例えば、処理対象のビデオの名称、主役などの情報を含んでもよい。

ステップＳ４０２において、端末が前記ビデオ及び埋め込み対象の情報を少なくとも含む埋め込み要求をサーバーに送信する。

一部の実施例では、埋め込み要求に、参照フレームの識別子及び参照フレームにおける埋め込み領域の情報が含まれてもよい。

埋め込み領域が矩形であることを例にすると、埋め込み要求に、参照フレームのフレーム番号、参照フレームにおける埋め込み領域の４つの頂点の座標が含まれてもよい。

ステップＳ４０３において、サーバーが受信した埋め込み要求に基づいて、参照フレーム及び参照フレームにおける埋め込み領域を決定する。

一部の実施例では、受信した埋め込み要求を解析することで、設定された参照フレーム、及び参照フレームにおいて設定された埋め込み領域を取得してもよい。他の一部の実施例では、画像を認識することで、ビデオファイルの画像フレームを解析し、それにより、情報埋め込み条件を満たす参照フレーム及び参照フレームにおける埋め込み領域を決定してもよい。

情報埋め込み条件の例としては、埋め込み領域の種類（例えば、壁、地面）、埋め込み領域のサイズ（例えば、埋め込み対象の情報に適応するための幅及び高さ、）、埋め込み領域の色（例えば、埋め込み対象の情報と所定のコントラストをなす）、埋め込み領域の露光時間（すなわち、ビデオに出現した累計時間）のうちの少なくともの１つを含んでもよい。

ステップＳ４０４において、サーバーが参照フレームにおける埋め込み領域の画素分布特性を満たすモデルを構築し、前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御する。

ステップＳ４０５において、サーバーが前記モデルに基づいて、前記検出対象のフレームにおける埋め込み領域内の背景及び前景を認識し、前記背景を遮蔽し前景を露出させるためのテンプレートを生成する。

ステップＳ４０６において、サーバーが埋め込み対象の情報を前記テンプレートに適用することで、前記埋め込み対象の情報のうち、前記前景を遮蔽するコンテンツをブロックする。

ステップＳ４０７において、前記テンプレートが適用された前記埋め込み対象の情報を前記検出対象のフレームにおける埋め込み領域に被覆することで、前記前景を前記埋め込み対象の情報に対して強調表示する。

ここで、ステップＳ４０４～ステップＳ４０７の実現プロセスについては、以上の同様なステップについての説明を参照して理解することができる。

ステップＳ４０８において、サーバーは、情報が埋め込まれた後のビデオをパッケージ化し、パッケージ化されたビデオを端末に送信する。

一部の実施例では、サーバーがビデオにおける各画像フレームに情報を埋め込む前に、まず、ビデオをフレーム分割し、１つずつの画像フレームを得てから、次に各画像フレームに情報を埋め込むため、情報を埋め込んだ後に、正常なビデオファイルを得るために、各画像フレーム、ビデオ、字幕などをまとめ、ビデオ、画像フレーム及び字幕を一体にする必要がある。

一部の実施例では、サーバーは、情報が埋め込まれた後のビデオをパッケージ化した後に、ビデオを見るアプリケーションに、情報が埋め込まれたビデオを発表してもよい。

ステップＳ４０９において、端末は、情報が埋め込まれた後のビデオを発表する。

一部の実施例では、ビデオを見るアプリケーションに発表してもよいし、他の端末に送信して発表してもよく、例えば、インスタントメッセンジャーアプリケーションの友達グループなどに発表してもよい。

本願の実施例に係る方法では、端末は、ビデオに情報を埋め込もうとする場合、処理対象のビデオ及び埋め込み対象の情報をサーバーに送信し、サーバーは、参照フレームにおける埋め込み領域の画素分布特性に基づいてモデルを構築する。参照フレームにおける埋め込み領域がビデオの前景を遮蔽することはないので、構築されたモデルに基づいて、後続の検出対象のフレームにおける埋め込み領域内のピクセルに対して背景及び前景の認識を行い、さらに、背景を遮蔽できるが前景を遮蔽しないテンプレートを生成する。埋め込み対象の情報にテンプレートを適用すると、埋め込み対象の情報のうち、前景を遮蔽するコンテンツをブロックすることができ、それにより、検出対象のフレームに情報を埋め込むと、検出対象のフレームにおける前景部分を遮蔽することなく、さらにビデオの視聴体験を確保することができる。

以下、本願の実施例で１つの実際の適用シーンにおける例示的な適用について説明する。

本願の実施例は、ビデオへの情報埋め込み方法をさらに提供し、方法の実現プロセスは、背景モデリング学習段階、及び遮蔽予測段階の２段階を含む。図６は、本願の実施例でビデオへの情報埋め込み方法の他の模式的なフローチャートであり、図６に示すように、前記方法は、ステップＳ５０１～ステップＳ５０６を含む。

ステップＳ５０１において、背景画像を取得する。

ステップＳ５０２において、背景画像に基づいてガウス混合モデリングを行う。

ステップＳ５０１及びステップＳ５０２を通して、背景モデリングプロセスが完了される。

ステップＳ５０３において、ビデオに対してフレーム分割を行う。

ステップＳ５０４において、予測対象の図面を取得する。

ステップＳ５０５において、背景モデリングに基づいて、予測対象の画像に対して逆変換を行って逆変換図面を得る。

ステップＳ５０６において、逆変換図面に対して正変換を行って遮蔽マスクを得る。

図６に示すフローチャートは、背景モデリング用の適応型ガウス混合モデルを構築し、ビデオ広告が埋め込まれた商機初期フレームに基づいて、後続のフレームに対してフレーム図面を適応的に選択して背景モデリングを行い、学習率を適応的に選択して反復更新することで、モードを最適化させる。

図７は、本願の実施例でビデオへの情報埋め込み方法の他の模式的なフローチャートであり、図７に示すように、本実施例で、ステップＳ６０～ステップＳ６０５によってビデオに情報を埋め込んでもよい。

ステップＳ６０１において、ビデオのフレーム分解を行う。

ここで、入力されたビデオに対して画像処理技術によりフレーム分割動作を行い、ビデオを予測対象の図面として１フレームずつに分割する。

ステップＳ６０２において、商機初期フレーム（すなわち、広告を埋め込もうとするフレーム）、及び対応する埋め込み領域を位置づけする。

ここで、商機初期フレーム及び対応する埋め込み領域は、手動で設定されるものであってもよい。一部の実施例では、ビデオにおける、特定のキャラクター／領域（例えば、地面、壁）を含むフレームを商機初期フレームとして自動的に認識してもよく、さらに、ニューラルネットワークベースの画像認識技術を用いて、商機初期フレーム、埋め込み領域、及び埋め込み領域に対応する特定の位置（例えば、広告のサイズに一致する中間領域）を決定してもよい。

ステップＳ６０３において、商機初期フレームにおける埋め込み領域の画像に基づいて、埋め込み領域における各ピクセルのそれぞれに対応するガウス混合モデルを初期化する。

ステップＳ６０４において、後続のフレーム（すなわち、埋め込み領域を含むビデオの後続のフレーム）をステップＳ６０４１～ステップＳ６０４３で処理する。

ステップＳ６０４１において、後続のフレームの埋め込み領域と、初期フレームの埋め込み領域とに対して分布特性の比較を行い、遮蔽されているか否かを判断し、遮蔽されている場合、学習率を更新する。

ステップＳ６０４２において、光照射の変化が発生したか否かに基づいて、学習率を調整する。

ステップＳ６０４３において、背景／前景ピクセルを認識し、認識結果及び更新された学習率を組み合わせて、モデルを更新し、さらにマスクを決定する。

実際に実施する際に、まず、前景／背景を認識してもよく、すなわち、ピクセルが対応するモデルにおける少なくとも１つのモードを満たすか否かを判断し、満たす場合、ピクセルが背景ピクセルであり、いずれも満たさない場合、ピクセルが前景ピクセルであり、次に、モードの重み付け及びパラメータ（平均値及び標準偏差）の更新に係るモデルの更新を行う。

重み付けに対しては、更新された学習率に従って、モードの重み付けを更新し、パラメータに対しては、マッチングされていないモードの平均値及び標準偏差を変更せず、マッチングされたモードの平均値及び標準偏差を更新された学習率及び重み付けに基づいて更新する。いかなるモードもマッチングしない場合、重み付けが最小のモードが置き換えられる。各モードは、ω／α^２の降順で配列され、重み付けが大きく、標準偏差が小さいほど、前の方に配列される。ここでは、ωは、重み付けであり、αは、学習率である。

ステップＳ６０４４において、マスクが適用された埋め込み対象の情報を後続のフレームの埋め込み領域に埋め込む。

このステップＳ６０４４の実現プロセスについては、以上の同様なステップについての説明を参照して理解することができる。

ステップＳ６０５において、ステップＳ６０４を繰り返し、すべての後続のフレーム処理が完了された後に、画像フレームをパッケージ化する。

ここで、パッケージ化済みのビデオを放送する際、埋め込まれた広告が画像フレームにおける前景部分を遮蔽することなく、それにより、より良好な視聴体験をもたらす。

上記ステップでは、ステップＳ６０１～ステップＳ６０３は、背景モデリング学習部分に対応し、ステップＳ６０４～ステップＳ６０５は、遮蔽予測部分に対応する。この２つの部分は、交互に実行される。まず、初期フレームに基づいてモデリングし、後続のフレームに対して遮蔽予測（判断）を行い、予測結果に基づいてモデルを更新し続ける。

一部の実施例では、ステップＳ６０３を実施する際に、ビデオにおける、広告アイテムが埋め込まれた参照フレーム（すなわち、埋め込み領域を含む商機初期フレーム）を背景として取得してモデリングすることで、事前の埋め込み領域（ビデオの参照フレームの背景領域における、広告を埋め込むための特定の領域、すなわち、埋め込み領域）に対してガウス混合モデル（ＧＭＭ）の初期化を行ってもよい。

商機初期フレームにおける埋め込み領域は、商機初期フレームにおける埋め込み領域が前景により遮蔽されていない条件を満たす。それにより、モデルを初期化するとき、埋め込み領域の画素分布を完全に学習することができる。

埋め込み領域の各ピクセルの混合ガウスモデルを構築し、混合ガウスモデルは、ピクセルの色値をＫ個のモード（一部の実施例では、モードがガウスモード／ガウス成分／サブモデルとも称する）の重畳で表し、通常、Ｋは、３～５の間である。混合ガウスモデルは、ピクセルで示された色値Ｘをランダム変数として表すと、ビデオの各フレームの画像におけるピクセルの色値がランダム変数Ｘのサンプリング値となる。

ガウス背景のメインテナンスでは、シーンにおける各ピクセルの色値は、Ｋ個のガウス成分からなる混合分布で表されてもよく、すなわち、画像におけるピクセルｊの時点ｔでの値がＸ_ｊである確率は以下のとおりである。

ただし、

は、ｔ時点でのピクセルｊの混合ガウスモデルにおけるｉ番目のガウス成分の重み付けを表し、

を満たす。
ここで、

及び

は、それぞれ、ｉ番目のガウス成分の平均値及び共分散を表し、ηは、ガウス確率密度関数を表す。

ここで、ｄは、Ｘ_ｊの次元数であり、ＲＧＢ色空間の場合、ｄとＸ_ｊとが相互に独立するものとして見なしてもよいと、共分散行列は、以下のように定義される。

ただし、σは、標準偏差を表し、Ｉは、単位行列を表す。

ガウス混合モデルの初期化は、各パラメータに対する初期化であってもよく、本願の実施例で、以下の２つの初期化形態があってもよい。

１つの初期化形態は以下のとおりである。初期化段階に、混合ガウスパラメータの初期化速度に対する要求が高くない場合、ピクセルの各色のチャンネル範囲が［０，２５５］であり、直接Ｋ個のガウス成分を大きいσ^２ _ｉｎｉｔに初期化し、各ガウス成分の重み付けをω_ｉｎｉｔ＝１／Ｋとし、１フレーム目の画像の各ピクセルの色値を用いて、混合ガウスモデルにおけるＫ個のガウス成分の平均値を初期化してもよい。平均値は、ピクセルの色値であり、分散は、予め設定された経験値である。

もう１つの初期化形態は以下のとおりである。１フレーム目の画像の場合、各ピクセルに対応する１番目のガウス成分を初期化し、平均値を現在のピクセルの色値とし、重み付けを１とし、１番目のガウス成分以外のガウス成分の平均値、重み付けをいずれも０に初期化する。分散は、予め設定された経験値である。

一部の実施例では、後続のフレームの処理を行う際、ビデオの形成に用いられるショット種類によって、異なる処理を行う。

静止ショットを用いて形成されたビデオの場合、ステップＳ６０４１を実施する際に、以下のとおりであってもよい。

商機初期フレームの後続の各フレームの埋め込み領域に対して、後続のフレームの埋め込み領域と初期埋め込み領域（すなわち、初期フレームの埋め込み領域）とのＲＧＢ色空間分布を比較し、ＲＧＢ分布の差異性に基づいて、遮蔽されているか否かを決定する。すなわち、商機初期フレームの埋め込み領域に埋め込まれた広告が、後続のフレームにおいて埋め込み領域に出現した前景を遮蔽しているか否かを決定し、例えば、図８Ｂにおける「ベビーポーズ」を遮蔽している。ＲＧＢ分布の差異性が差異性条件を満たす場合、埋め込み領域の背景が前景により遮蔽されていると考慮する。ＲＧＢ分布の差異性が差異性条件を満たすか否かを判断することは、ヒストグラム分布を比較することで実現されてもよく、例えば、０～２５５階調を１６区間に分割し、各フレームのピクセルの１６区間での分布状況を統計し、比較してもよい。後続のフレームの埋め込み領域のヒストグラム分布と初期埋め込み領域のヒストグラム分布との差異が所定の閾値を超える場合、ＲＧＢ分布の差異性が差異性条件を満たすことが示され、この場合、後続のフレームの埋め込み領域の背景が前景により遮蔽されていると考慮する一方、後続のフレームの埋め込み領域のヒストグラム分布と初期埋め込み領域のヒストグラム分布との差異が閾値を超えない場合、ＲＧＢ分布の差異性が差異性条件を満たさないことが示され、この場合、後続のフレームの埋め込み領域の背景が前景により遮蔽されていないと考慮する。

遮蔽されていると判断する場合、更新する学習率を０とし（すなわち、後続のフレームでモデルにおけるモードの重み付けを更新しない）、遮蔽されていない場合、元の学習率を維持してもよい。

一部の実施例では、ステップＳ６０４２を実施する際に、以下のとおりであってもよい。

商機初期フレームの後続の各フレームの埋め込み領域に対して、後続のフレームの埋め込み領域と初期埋め込み領域（すなわち、初期フレームの埋め込み領域）とのＨＳＶ分布を比較し、ＨＳＶ分布の差異性に基づいて、背景の異なる光照射変化であるか否かを決定する。ＨＳＶ分布の差異性が差異性条件を満たすか否かを判断することは、ＨＳＶ色空間のヒストグラム分布を比較することで実現されてもよい。差異性条件を満たす場合、背景の光照射が変化したと考慮し、更新する学習率を－１とする。ＨＳＶが光照射の変化を反映することができるので、背景の光照射が変化した場合、学習率を－１に調整することで、新しい光照射変化を満たすモードの重み付けを大きく、新しい光照射が前景として認識される状況を回避することができ、光照射変化が発生していない場合、元の学習率を維持することができる。

一部の実施例では、ステップＳ６０４３を実施する際に、後続のフレームの埋め込み領域のピクセル種類を認識し、モデルを更新し、さらにマスクを決定してもよい。

商機初期フレームと後続のフレームとの共通ピクセルに対して、後続のフレーム（ｔ時点）での色値Ｘ_ｔと、ピクセルの現在のＫ個のモード（すなわち、Ｋ個のガウス成分）とを比較し、少なくとも１つのモードの平均値との偏差がモードの２．５σ（すなわち、標準偏差の２．５倍）以下である場合、モードがピクセルとマッチングし、ピクセルがビデオの背景に属すると考慮し、マッチングしない場合、ピクセルが前景に属する。

ピクセルが前景であるか、又は、背景であるかを決定した上で、マスクを決定して形態学的改善を行う。

ピクセルがビデオの背景に属する場合、マスクにおけるピクセルに対応する値が１であり、ピクセルがビデオの前景に属する場合、マスクにおけるピクセルに対応する値が０である。

本願の実施例では、マスクを形態学的に改善することは、主に、モードの一部の前景と遮蔽との判断誤差に対して、マスクにおける穴の解消及び断層の連結を含む修復を行うことであり、遮蔽処理後に、露出されたビデオ前景にノイズが発生することを回避する。図９Ａ及び図９Ｂは、マスクを形態学的に改善する模式図である。図９Ａに示すように、９０１の白色領域における穴を形態学的に解消することで、９０２に示す完全に連通する領域を形成することができる。図９Ｂに示すように、９１１における断層を形態学的に連結し、同様に、９１２に示す連通する完全な領域を形成することができる。

モデルの更新は、更新された学習率に従って、モデルの重み付けを更新することであり得る。ピクセルが全くマッチングされていないモードの平均値及び標準偏差を変更せず、マッチングされたモードの平均値及び標準偏差のみを更新する。いかなるモードもピクセルとマッチングされていない場合、ピクセルに基づいて新しいモードを初期化し、重み付けが最小のモードを置き換える。各モードは、ω／α^２の降順で配列され、重み付けが大きく、標準偏差が小さいほど、前の方に配列される。ここでは、ωが重み付けであり、αが学習率である。

実際に実施する際に、Ｘ_ｊがｉ番目のモードとマッチングすると、ｉ番目のモードがＸ_ｊで更新され、残りのモードが不変に維持され、更新形態は、以下のとおりである。

ただし、αは、モデルの学習率であり、ρは、パラメータの学習率であり、モードパラメータの収束速度を反映する。ｘ_ｊがピクセルのＫ個のモードといずれもマッチングされていない場合、混合ガウスモデルのうち、最後に配列されるいくつかのモードが新しいモードで代替され、新しいモードの平均値をｘ_ｊとし、標準偏差及び重みをσ_ｉｎｉｔ及びω_ｉｎｉｔに初期化する。残りのモードが同じ平均値及び分散を維持し、重み付けを式（３－８）に従って更新する。

更新完了後に、各モードの重み付けを正規化する必要があり、パラメータ更新が完了された後に、ピクセルの混合ガウスモデルにおけるモードが背景により生成されるものであることを決定するために、各モードがω／α^２の降順で配列されており、前の方のＢ個のモードを背景の分布として選択する。Ｂは、以下の式を満たし、パラメータＱは、背景が占める割合を表す。

大きいものを用いることで、画素値が大きい分散及び高い出現確率を有することを表し、これによって、シーン背景の画素値の特性を表す。

以上は、固定ショットを用いて形成されたビデオに情報を埋め込む実現プロセスであると考慮することができる。図８Ａ及び図８Ｂは、本願の実施例で固定ショットを用いて形成されたビデオに情報を埋め込む効果の模式図である。その中で、図８Ａに示す画像は、図８Ｂに示す画像の前のあるフレームの画像（すなわち、ビデオで「ベビーポーズ」が解説される前のあるフレームの画像）であってよく、この場合、図８Ａに示すように、画像フレームにおける壁領域８０１に「ベビーポーズ」が表示されていない。壁領域を広告埋め込み領域とすると、後続のフレーム、すなわち、図８Ｂに示す画像フレームに、前景の「ベビーポーズ」が出現し、そのまま埋め込み広告をレイヤーとして被覆すると、「ベビーポーズ」部分が遮蔽されてしまう。

本願の実施例に係るビデオに情報を埋め込む技術案を適用すると、図８Ｂに示すように、「ベビーポーズ」の３つの文字が広告の上に浮き、すなわち、埋め込まれた広告８１１がビデオの前景コンテンツを遮蔽することなく、それにより、オリジナルビデオの広告埋め込み位置での前景コンテンツの完全性を確保する。

移動ショットを用いて形成されたビデオの場合、ステップＳ６０４を実施する際に、ステップＳ６０４１の前に、ステップ７１をさらに実行する必要がある。

ステップ７１において、埋め込み領域を含む後続のフレームを追跡する。

特徴追跡技術によりテンプレートのマッチングを行うか（特徴点のテンプレート、例えば、ｏｒｂ方法で見つけられる特徴点）、又は、埋め込み領域を含む後続のフレームをｓｉｆｔ方法で追跡する。

ビデオの後続のフレームに対して、まず、埋め込み領域（すなわち、情報を埋め込むための背景領域）を追跡してホモグラフィ行列Ｈを生成する必要がある。背景モデリングが各ピクセルに対してモデリングすることであるため、商機初期フレーム（参照フレーム）における埋め込み領域のピクセルの位置と、後続のフレームにおける埋め込み領域のピクセルの位置とを１つずつ対応させる必要がある。これは、カメラが移動すると、商機初期フレームにおける埋め込み領域のピクセルの位置と、現在のフレームの埋め込み領域のピクセルの位置とが対応しなくなるためである。

商機初期フレームにおける埋め込み領域のピクセルの位置と、後続のフレームの埋め込み領域のピクセルの位置とを１つずつ対応させる際には、式（３－１０）により、現在のフレームの埋め込み領域をホモグラフィ行列Ｈに基づいて初期フレームに逆変換することができる。

ただし、ｘ_ｔ、ｙ_ｔは、現在のフレームにおける１つのピクセルを表し、ｘ_０、ｙ_０は、商機初期フレームにおける、ピクセルに対応するピクセルを表す。

移動ショットを用いて形成されたビデオの場合、ステップＳ６０４１及びステップＳ６０４２を実施する際に、固定ショットを用いて形成されたビデオステップＳ６０４１及びステップＳ６０４２の実現プロセスと同様であるため、上記の同様なステップについての説明を参照して理解することができる。

ステップＳ６０４３を実施する際にも、後続のフレームにおける埋め込み領域のピクセル種類を認識することで、モデルを更新してマスクを決定する必要がある。相違点は、マスクが決定されると、ホモグラフィ行列Ｈを利用して、ｍａｓｋ（マスク）を後続のフレームの位置に逆変換することであり、変換は、以下の式（３－１１）に示す。

後続のフレームにおける埋め込み領域に広告を埋め込み、遮蔽されていると判断された画像フレームに対して、対応するマスクを埋め込み領域に適用し、ビデオをパッケージ化する。

図８Ｃ及び図８Ｄは、本願の実施例で移動ショットを用いて形成されたビデオに情報を埋め込む効果の模式図である。図８Ｃは、人物が出現していないあるフレームであり、この場合、地面を広告埋め込み領域８２１とすると、広告が埋め込まれた後の画像フレームは、図８Ｃに示す。後続のフレームでは、埋め込まれる広告の「Ｈｅｌｌｏ秦Ｐｒｏ」をそのままレイヤーで被覆すると、領域に出現している人物の脚部を遮蔽してしまう。本実施例に係るビデオに情報を埋め込む技術案を適用すると、図８Ｄに示すように、人物の脚が埋め込み広告のトップに表示され、広告埋め込み領域８３１がビデオの前景を遮蔽することはない。

本願の実施例に係るビデオへの情報埋め込み方法を利用して、ビデオ配列及び全画素統計モデリングを結合する方法を用いることで、静止ショットに対して、背景を自動的に選択してモデリングし、後続のフレームが学習率を自動的に更新してモデルを最適化し、統計された特徴を用いて遮蔽マスクを判定する一方、移動ショットに対して、変換技術を用いて標準画面にマッピングして画素の統計モデリングを行い、配列フレームに戻って遮蔽マスクを取得し、移動追跡モデルが必要とされず、ビデオに広告を埋め込むプロセスにおける遮蔽物を正確に処理し、埋め込まれた広告がよりリアルになるとともに、リアルタイム性が高く、適用範囲が広く、ロバスト性が高く、自動的かつ高効率に使用することができる。

以下、ソフトウェアモジュールの例示的な構成について説明する。一部の実施例では、図２に示すように、装置２４０におけるソフトウェアモジュールは、参照フレームにおける埋め込み領域の画素分布特性を満たすモデルを構築し、前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御するモデル構築モジュール２４１と、
前記モデルに基づいて、前記検出対象のフレームにおける埋め込み領域内の背景及び前景を認識し、前記背景を遮蔽し前景を露出させるためのテンプレートを生成するテンプレート生成モジュール２４２と、
埋め込み対象の情報を前記テンプレートに適用することで、前記埋め込み対象の情報のうち、前記前景を遮蔽するコンテンツをブロックするテンプレート適用モジュール２４３と、
前記テンプレートが適用された前記埋め込み対象の情報を前記検出対象のフレームにおける埋め込み領域に被覆することで、前記前景を前記埋め込み対象の情報に対して強調表示する情報被覆モジュール２４４と、を含むことができる。

一部の実施例では、前記装置は、
前記参照フレームにおける埋め込み領域の各ピクセルに対応して、前記ピクセルに対応する少なくとも１つのサブモデルと少なくとも１つのサブモデルに対応する重み付けとを初期化するパラメータ初期化モジュールと、
各ピクセルに対応して構築されたサブモデルを初期化された重み付けに基づいて混合することで、前記ピクセルに対応するモデルを形成する重み付け混合モジュールと、をさらに含む。

一部の実施例では、前記装置は、
前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されたことに応じて、前記モデルを前記検出対象のフレームにおける埋め込み領域へフィッティングする速度を低減させ、前記モデルにおけるサブモデルの重み付けを不変にする重み付け維持モジュールと、
前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されていないとともに、前記検出対象のフレームにおける埋め込み領域の光照射状況が変化したことに応じて、前記モデルを前記検出対象のフレームにおける埋め込み領域へフィッティングする速度を向上させるフィッティング加速モジュールと、をさらに含む。

一部の実施例では、前記装置は、
前記検出対象のフレームにおける埋め込み領域のピクセルが対応するモデルにおける少なくとも１つのサブモデルとマッチングされたことに応じて、前記マッチングされたサブモデルのパラメータを更新し、前記対応するモデルにおけるマッチングされていないサブモデルのパラメータを不変に維持するパラメータ更新モジュールをさらに含む。

一部の実施例では、前記装置は、
前記検出対象のフレームにおける埋め込み領域の各ピクセルの色値と、前記ピクセルに対応するモデルにおけるサブモデルとをマッチングする第１のマッチングモジュールと、
マッチングに成功したピクセルを前記背景のピクセルとして認識し、マッチングに失敗したピクセルを前記前景のピクセルとして認識する認識モジュールと、をさらに含む。

一部の実施例では、前記装置は、
前記検出対象のフレームにおける埋め込み領域内の、背景として認識されたピクセルに対応し、中空の前記テンプレートにおける対応する位置に二進数の１を充填し、
前記検出対象のフレームにおける埋め込み領域内の、前景として認識されたピクセルに対応し、二進数の１が充填された前記テンプレートにおける対応する位置に二進数の０を充填する充填モジュールをさらに含む。

一部の実施例では、前記装置は、
前記埋め込み対象の情報と、前記テンプレートにおける各位置に充填された二進数とをかけ算する演算モジュールをさらに含む。

一部の実施例では、前記装置は、
ビデオが移動ショットを用いて形成されたことに応じて、前記ビデオの参照フレームにおける埋め込み領域から抽出された特徴と、前記検出対象のフレームから抽出された特徴とをマッチングする第２のマッチングモジュールと、
マッチングに成功したことに応じて、前記検出対象のフレームが参照フレームにおける埋め込み領域に対応する埋め込み領域を含むと決定する領域決定モジュールと、をさらに含む。

一部の実施例では、前記装置は、
ビデオが移動ショットを用いて形成されたことに応じて、
前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御する前に、変換後の埋め込み領域における各ピクセルの位置が、前記参照フレームにおける埋め込み領域の対応するピクセルの位置に一致するように、前記検出対象のフレームにおける埋め込み領域を変換する領域変換モジュールと、
埋め込み対象の情報を前記テンプレートに適用する前に、変換後のテンプレートにおける各二進数の位置が、前記検出対象のフレームにおける埋め込み領域の対応するピクセルの位置に一致するように、前記テンプレートに対して前記変換の逆変換を行うテンプレート逆変換モジュールと、をさらに含む。

一部の実施例では、前記装置は、
ビデオが固定ショットを用いて形成されたことに応じて、前記参照フレームにおける埋め込み領域の位置に基づいて、前記検出対象のフレームにおいて対応する位置の領域を位置づけすることで、前記検出対象のフレームにおける埋め込み領域を決定する領域位置づけモジュールをさらに含む。

一部の実施例では、前記装置は、
前記検出対象のフレームにおける埋め込み領域の第１の色空間分布と、前記参照フレームにおける埋め込み領域の第１の色空間分布とが第１の差異性条件を満たすことに応じて、前記参照フレームにおける埋め込み領域が前記前景により遮蔽されているか否かを決定する第１の決定モジュールと、
前記検出対象のフレームにおける埋め込み領域の第２の色空間分布と、前記参照フレームにおける埋め込み領域の第２の色空間分布とが第２の差異性条件を満たすことに応じて、前記参照フレームにおける埋め込み領域が前記前景により遮蔽されているか否かを決定する第２の決定モジュールと、をさらに含む。

本願の実施例に係る方法がハードウェアで実施される例としては、本願の実施例に係る方法は、直接、ハードウェアデコードプロセッサの形態のプロセッサ４１０で実行されてもよく、例えば、１つ又は複数の特定用途向け集積回路（ＡＳＩＣ、ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＤＳＰ、プログラマブルロジックデバイス（ＰＬＤ、ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、複雑プログラマブルロジックデバイス（ＣＰＬＤ、ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ、Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）又は他の電子部品によって実行されることで、本願の実施例に係る方法を実現する。

本願の実施例は、実行可能な命令が記憶されており、実行可能な命令がプロセッサによって実行されると、プロセッサに本願の実施例に係る方法、例えば、図３～図６に示す方法を実行させる、記憶媒体を提供する。

一部の実施例では、記憶媒体は、ＦＲＡＭ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、磁気表面メモリ、ディスク、又はＣＤ－ＲＯＭなどのメモリであってもよいし、上記メモリの１つ又は任意の組合せを含む様々な機器であってもよい。

一部の実施例では、実行可能な命令は、プログラム、ソフトウェア、ソフトウェアモジュール、スクリプト又はコードの形式を用いてもよく、任意の形式のプログラミング言語（コンパイル又は解釈される言語、若しくは、宣言型又は手続型の言語を含む）で記述可能であり、任意の形式（独立するプログラム、又は、モジュール、コンポーネント、サブルーチン、若しくはコンピューティング環境での使用に適した他のユニットを含む）で配置可能である。

例としては、実行可能な命令は、必ずしもファイルシステムにおけるファイルに対応するわけではなく、他のプログラム又はデータが記憶されるファイルの一部に記憶されてもよく、例えば、ＨＴＭＬ（ＨＴＭＬ、ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）ドキュメントにおける１つ又は複数のスクリプトに記憶されたり、検討されたプログラムの単一のファイルに記憶されたり、複数のコーディネートされたファイル（例えば、１つ又は複数のモジュール、サブルーチン又はコード部分を格納するファイル）に記憶されたりする。

例としては、実行可能な命令は、１つのコンピュータ上で、又は、１箇所に配置された複数のコンピュータ機器上で実行され、若しくは、複数の場所に跨って分散され通信ネットワークによりお互いに接続されている複数のコンピューティング機器上で実行されるように配置可能である。

以上をまとめると、本願の実施例によって、参照フレームにおける埋め込み領域の画素分布特性に基づいてモデルを構築することで、検出対象のフレームにおける埋め込み領域に対して遮蔽検出を行い、遮蔽検出結果に基づいてモデルパラメータを更新することができ、検出対象のフレームの埋め込み領域が参照フレームにおける埋め込み領域の背景画素分布をフィッティングするようにすることができ、前景を遮蔽することなく、埋め込まれた情報をビデオの背景に融合することができ、それにより、より良好な視聴体験をもたらす。また、移動ショットで形成されたビデオに対して、特徴点を利用して埋め込み領域を決定し、検出対象のフレームにおける埋め込み領域のピクセルを変換により参照フレームと一致する位置にマッピングすることで、移動追跡が必要とされず、リアルタイム性が高くなるとともに、ロバスト性が高くなる。

以上は、本願の実施例に過ぎず、本願の保護範囲を限定するためのものではない。本願の趣旨及び範囲内で行われる任意の補正、均等置換や改良などは、いずれも本願の保護範囲に含まれる。

Claims

実行機器が実行する、ビデオへの情報埋め込み方法であって、
参照フレームにおける埋め込み領域の画素分布特性を満たすモデルを構築し、前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御するステップと、
前記モデルに基づいて、前記検出対象のフレームにおける埋め込み領域内の背景及び前景を認識し、前記背景を遮蔽し前記前景を露出させるためのテンプレートを生成するステップと、
埋め込み対象の情報を前記テンプレートに適用することで、前記埋め込み対象の情報のうち、前記前景を遮蔽するコンテンツをブロックするステップと、
前記テンプレートが適用された前記埋め込み対象の情報を、前記検出対象のフレームにおける埋め込み領域に被覆することで、前記前景を前記埋め込み対象の情報に対して強調表示するステップと、を含む、ことを特徴とするビデオへの情報埋め込み方法。
参照フレームにおける埋め込み領域の画素分布特性を満たすモデルを構築することは、
前記参照フレームにおける埋め込み領域の各ピクセルに対応して、前記ピクセルに対応する少なくとも１つのサブモデルと前記少なくとも１つのサブモデルに対応する重み付けとを初期化するステップと、
各ピクセルに対応して構築されたサブモデルを、初期化された重み付けに基づいて混合することで、前記ピクセルに対応するモデルを形成するステップと、を含む、ことを特徴とする請求項１に記載の方法。
前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御することは、
前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されたことに応じて、前記モデルを前記検出対象のフレームにおける埋め込み領域へフィッティングする速度を低減させるステップと、
前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されていないとともに、前記検出対象のフレームにおける埋め込み領域の光照射状況が変化したことに応じて、前記モデルを前記検出対象のフレームにおける埋め込み領域へフィッティングする速度を向上させるステップと、を含む、ことを特徴とする請求項１に記載の方法。
前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御することは、
前記検出対象のフレームにおける埋め込み領域のピクセルが対応するモデルにおける少なくとも１つのサブモデルとマッチングされたことに応じて、前記マッチングされたサブモデルのパラメータを更新し、前記対応するモデルにおけるマッチングされていないサブモデルのパラメータを不変に維持するステップを含む、ことを特徴とする請求項１に記載の方法。
前記モデルに基づいて、前記検出対象のフレームにおける埋め込み領域内の背景及び前景を認識することは、
前記検出対象のフレームにおける埋め込み領域の各ピクセルの色値と、前記ピクセルに対応するモデルにおけるサブモデルとをマッチングするステップと、
マッチングに成功したピクセルを前記背景のピクセルとして認識し、マッチングに失敗したピクセルを前記前景のピクセルとして認識するステップと、を含む、ことを特徴とする請求項１に記載の方法。
前記背景を遮蔽し前記前景を露出させるためのテンプレートを生成することは、
前記検出対象のフレームにおける埋め込み領域内の、背景として認識されたピクセルに対応し、中空の前記テンプレートにおける対応する位置に二進数の１を充填するステップと、
前記検出対象のフレームにおける埋め込み領域内の、前景として認識されたピクセルに対応し、二進数の１が充填された前記テンプレートにおける対応する位置に二進数の０を充填するステップと、を含む、ことを特徴とする請求項１に記載の方法。
埋め込み対象の情報を前記テンプレートに適用することは、
前記埋め込み対象の情報と、前記テンプレートにおける各位置に充填された二進数とをかけ算するステップを含む、ことを特徴とする請求項１に記載の方法。
ビデオが移動ショットを用いて形成されたことに応じて、前記ビデオの参照フレームにおける埋め込み領域から抽出された特徴と、前記検出対象のフレームから抽出された特徴とをマッチングするステップと、
マッチングに成功したことに応じて、前記検出対象のフレームが前記参照フレームにおける埋め込み領域に対応する埋め込み領域を含むと決定するステップと、をさらに含む、ことを特徴とする請求項１～請求項７のいずれかに記載の方法。
ビデオが移動ショットを用いて形成されたことに応じて、
前記参照フレームの後続の検出対象のフレームに基づいて前記モデルの更新を制御する前に、変換後の埋め込み領域における各ピクセルの位置が、前記参照フレームにおける埋め込み領域の対応するピクセルの位置に一致するように、前記検出対象のフレームにおける埋め込み領域を変換するステップと、
埋め込み対象の情報を前記テンプレートに適用する前に、変換後のテンプレートにおける各二進数の位置が、前記検出対象のフレームにおける埋め込み領域の対応するピクセルの位置に一致するように、前記テンプレートに対して前記変換の逆変換を行うステップと、をさらに含む、ことを特徴とする請求項１～請求項７のいずれかに記載の方法。
ビデオが固定ショットを用いて形成されたことに応じて、前記参照フレームにおける埋め込み領域の位置に基づいて、前記検出対象のフレームにおいて対応する位置の領域を位置づけすることで、前記検出対象のフレームにおける埋め込み領域を決定するステップをさらに含む、ことを特徴とする請求項１～請求項７のいずれかに記載の方法。
前記検出対象のフレームにおける埋め込み領域の第１の色空間分布と、前記参照フレームにおける埋め込み領域の第１の色空間分布とが第１の差異性条件を満たすことに応じて、前記検出対象のフレームにおける埋め込み領域が前記前景により遮蔽されていると決定するステップと、
前記検出対象のフレームにおける埋め込み領域の第２の色空間分布と、前記参照フレームにおける埋め込み領域の第２の色空間分布とが第２の差異性条件を満たすことに応じて、前記検出対象のフレームにおける埋め込み領域の光照射状況が変化したと決定するステップと、をさらに含む、ことを特徴とする請求項１～請求項７のいずれかに記載の方法。
コンピュータ機器であって、
実行可能な命令を記憶するメモリと、
前記メモリに記憶されている実行可能な命令が実行されると、請求項１～請求項１１のいずれかに記載の方法を実現するプロセッサと、を含む、ことを特徴とするコンピュータ機器。
コンピュータプログラムであって、
コンピュータプログラムがプロセッサによってロードされて実行されると、請求項１～請求項１１のいずれかに記載の方法を実現する、ことを特徴とするコンピュータプログラム。