JP7635372B2 - 画像処理の方法、装置、デバイス及びコンピュータプログラム - Google Patents
画像処理の方法、装置、デバイス及びコンピュータプログラム Download PDFInfo
- Publication number
- JP7635372B2 JP7635372B2 JP2023524819A JP2023524819A JP7635372B2 JP 7635372 B2 JP7635372 B2 JP 7635372B2 JP 2023524819 A JP2023524819 A JP 2023524819A JP 2023524819 A JP2023524819 A JP 2023524819A JP 7635372 B2 JP7635372 B2 JP 7635372B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- region
- target
- trimap
- line segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 25
- 238000004590 computer program Methods 0.000 title claims description 5
- 238000000034 method Methods 0.000 claims description 76
- 230000008569 process Effects 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 35
- 238000003709 image segmentation Methods 0.000 claims description 22
- 210000000746 body region Anatomy 0.000 claims description 13
- 239000003086 colorant Substances 0.000 claims description 2
- 230000001815 facial effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 16
- 230000011218 segmentation Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 9
- 230000002093 peripheral effect Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000005094 computer simulation Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241000556720 Manga Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Description
関連出願の相互参照
本願は、2021年01月18日に中国専利局に提出された、出願番号が2021100625671で、出願名称が「画像処理の方法、装置、デバイス及び記憶媒体」の中国特許出願についての優先権を主張し、その全ての内容は参照により本願に組み込まれる。
本願は、2021年01月18日に中国専利局に提出された、出願番号が2021100625671で、出願名称が「画像処理の方法、装置、デバイス及び記憶媒体」の中国特許出願についての優先権を主張し、その全ての内容は参照により本願に組み込まれる。
本願は、人工知能技術分野に関し、特に画像処理の方法、装置、デバイス、記憶媒体及びコンピュータプログラム製品に関する。
コンピュータ技術の発展に伴い、画像処理はますます一般的になっている。その中で、画像マッティング(Image Matting)は、非常に広く使用されている画像処理技術であり、具体的には、画像における前景領域を画像における背景領域から分離することを指す。
関連技術において、通常、分割(Segmentation)の方法を用いて画像マッティングを実現し、具体的に画像の各画素点を分類して、各異なるカテゴリのブロック分割結果を取得することにより、人物画像領域や建築領域などの画像の前景領域を得る。
しかしながら、上記方法を用いると、各画素点には固定的な分類が与えられるため、前景領域のエッジが荒くなりやすく、画像マッティングが悪くなってしまう。
本願の実施例は、画像処理の方法、装置、デバイス、記憶媒体及びコンピュータプログラム製品を提供する。
一態様では、コンピュータデバイスが実行する画像処理の方法であって、
原画像に対して画像の意味的領域分割を行い、第1画像、第2画像及び第3画像を取得するステップであって、該第1画像における前景領域は該原画像における目標対象の位置する領域であり、該第2画像は該目標対象の第1目標領域の分割画像であり、該第3画像は該目標対象の第2目標領域の分割画像であり、前記前景領域のサブ領域は前記第1目標領域と前記第2目標領域を含むステップと、
該第1画像、該第2画像及び該第3画像に基づき、目標トリマップを生成するステップであって、該目標トリマップは該前景領域と線分描画領域を含み、該線分描画領域は該前景領域の輪郭線に線分を描画して得られたものであり、該前景領域の異なるサブ領域は異なる線幅に対応するステップと、
該目標トリマップに基づき、該原画像における該目標対象に対して画像マッティング処理を行い、該目標対象を含む目標画像を取得するステップとを含む、画像処理の方法を提供する。
原画像に対して画像の意味的領域分割を行い、第1画像、第2画像及び第3画像を取得するステップであって、該第1画像における前景領域は該原画像における目標対象の位置する領域であり、該第2画像は該目標対象の第1目標領域の分割画像であり、該第3画像は該目標対象の第2目標領域の分割画像であり、前記前景領域のサブ領域は前記第1目標領域と前記第2目標領域を含むステップと、
該第1画像、該第2画像及び該第3画像に基づき、目標トリマップを生成するステップであって、該目標トリマップは該前景領域と線分描画領域を含み、該線分描画領域は該前景領域の輪郭線に線分を描画して得られたものであり、該前景領域の異なるサブ領域は異なる線幅に対応するステップと、
該目標トリマップに基づき、該原画像における該目標対象に対して画像マッティング処理を行い、該目標対象を含む目標画像を取得するステップとを含む、画像処理の方法を提供する。
他の態様では、画像処理の装置であって、
原画像に対して画像の意味的領域分割を行い、第1画像、第2画像及び第3画像を取得する画像分割モジュールであって、該第1画像における前景領域は該原画像における目標対象の位置する領域であり、該第2画像は該目標対象の第1目標領域の分割画像であり、該第3画像は該目標対象の第2目標領域の分割画像であり、該前景領域のサブ領域は該第1目標領域と該第2目標領域を含む画像分割モジュールと、
該第1画像、該2画像及び該第3画像に基づき、目標トリマップを生成するトリマップ生成モジュールであって、該目標トリマップは該前景領域と線分描画領域を含み、該線分描画領域は該前景領域の輪郭線に線分を描画して得られたものであり、該前景領域の異なるサブ領域は異なる線幅に対応するトリマップ生成モジュールと、
該目標トリマップに基づき、該原画像における該目標対象に対して画像マッティング処理を行い、該目標対象を含む目標画像を取得する画像マッティングモジュールと、を含む、画像処理の装置を提供する。
原画像に対して画像の意味的領域分割を行い、第1画像、第2画像及び第3画像を取得する画像分割モジュールであって、該第1画像における前景領域は該原画像における目標対象の位置する領域であり、該第2画像は該目標対象の第1目標領域の分割画像であり、該第3画像は該目標対象の第2目標領域の分割画像であり、該前景領域のサブ領域は該第1目標領域と該第2目標領域を含む画像分割モジュールと、
該第1画像、該2画像及び該第3画像に基づき、目標トリマップを生成するトリマップ生成モジュールであって、該目標トリマップは該前景領域と線分描画領域を含み、該線分描画領域は該前景領域の輪郭線に線分を描画して得られたものであり、該前景領域の異なるサブ領域は異なる線幅に対応するトリマップ生成モジュールと、
該目標トリマップに基づき、該原画像における該目標対象に対して画像マッティング処理を行い、該目標対象を含む目標画像を取得する画像マッティングモジュールと、を含む、画像処理の装置を提供する。
他の態様では、1つ又は複数のプロセッサー及びメモリーを含むコンピュータデバイスであって、該メモリーは、該1つ又は複数のプロセッサーによってロードされて実行されることで本願の実施例に係る画像処理の方法で実行される操作を実現する少なくとも1つのコンピュータ読み取り可能な命令を記憶する。
他の態様では、1つ又は複数のプロセッサーによってロードされ実行されることで本願の実施例に係る画像処理の方法で実行される操作を実現する少なくとも1つのコンピュータ読み取り可能な命令が記憶されている、1つ又は複数のコンピュータ読み取り可能な記憶媒体を提供する。
他の態様では、コンピュータ読み取り可能な記憶媒体に記憶されているコンピュータ読み取り可能な命令を含む、コンピュータプログラム製品を提供する。コンピュータデバイスの1つ又は複数のプロセッサーは該コンピュータ読み取り可能な命令をコンピュータ読み取り可能な記憶媒体から読み取り、1つ又は複数のプロセッサーが該コンピュータ読み取り可能な命令を実行すると、該コンピュータデバイスは上記各実施例による画像処理の方法を実行する。
以下、本願の実施例における技術案をより明確に説明するために、実施例の説明に必要な図面を簡単に説明する。ただし、以下の説明における図面は本願のいくつかの実施例に過ぎず、当業者であれば、創造的な労力を払うことなく、これらの図面に基づいて他の図面を取得できることは自明である。
以下、本願の目的、技術案及び利点をより明確にするために、図面を参照しながら本願の実施形態についてさらに詳細に説明する。
ここで例示的な実施例について詳細に説明するが、その例は図面に表される。以下の説明が図面に関わる場合、別段の指示がない限り、異なる図面の同じ数字は同一又は類似の要素を示す。以下の例示的な実施例で説明される実施形態は、本願と一致する全ての実施形態を表すものではない。むしろ、それらは添付の特許請求の範囲に記載される、本願のいくつかの態様と一致する装置及び方法の例に過ぎない。
本願における用語「第1」及び「第2」などの表現は、基本的に同じ役割及び機能を有する同一項又は類似項を区別するために使用されるものであり、「第1」、「第2」、「第n」の間には論理的又は時系列的な依存関係がなく、数及び実行順に制限もないことを理解されたい。なお、以下の説明では、第1、第2などの用語を使用して様々な要素を説明するが、これらの要素は用語によって限定されてはならない。
これらの用語は、1つの要素を別の要素と区別するために使用されるものに過ぎない。例えば、様々な例示範囲を逸脱することなく、第1画像を第2画像と呼ぶことができ、同様に、第2画像を第1画像とも呼ぶことができる。第1画像と第2画像は両方とも画像であってもよく、場合によっては、単独でかつ異なる画像であってもよい。
ここで、少なくとも1つとは、1つ又はそれ以上を指し、例えば、少なくとも1つの画像は1つの画像、2つの画像、3つの画像などの1以上の任意の整数の画像であってもよい。複数とは、2つ又はそれ以上を指し、例えば、複数の画像は2つの画像、3つの画像などの2以上の任意の整数の画像であってもよい。
本願の実施例による画像処理の方案は、人工知能技術におけるコンピュータビジョン技術を使用する可能性がある。例えば、本願における意味的領域分割処理では、コンピュータビジョン技術を使用している。具体的には、本願の各実施例による画像処理の方案において、高解像度ネットワークを用いて画像特徴情報を抽出し、オブジェクト文脈表現(Object-Contextual Representations、OCR)技術を用いて画像における各画素の意味的カテゴリを計算することができる。
高解像度ネットワーク(High Resolution Network、HRNET)は、画像特徴情報を取得するための計算モデルであり、演算の全過程においても高解像度表現を維持することができる。HRNETは高解像度の畳み込みから始まり、低解像度の畳み込み分岐を徐々に追加し、それらを並列に接続していく。図1を参照すると、図1は本願による高解像度ネットワークの構造を示す図である。図1に示すように、このネットワークは異なる解像度の特徴マップ(feature map)を並列に接続し、各解像度は1つのチャネルを占め、全過程において並列演算の組み合わせの間でマルチ解像度融合によって情報を継続的に交換していく。
OCRは、画像における画素の意味的カテゴリを示すための計算モデルである。
図2を参照すると、図2は本願によるオブジェクト文脈表現の構造を示す図である。図2に示すように、1番目は、バックボーンの中間層を通じて大まかな意味的領域分割結果、即ちソフトオブジェクト領域(Soft Object Regions)を取得する。2番目は、バックボーンの深層から出力された画素表現(Pixel Representation)及びソフトオブジェクト領域を通じてK組(K>1)のベクトル、即ちオブジェクト領域表現(Object Region Representations)を算出し、各ベクトルは1つの意味的カテゴリの表現に対応する。3番目は、画素表現とオブジェクト領域表現との間の関係マトリックスを計算する。4番目は、各画素の画素表現及びオブジェクト領域表現の関係マトリックスにおける数値に応じて、各オブジェクト領域特徴を重み付けして合計し、オブジェクト文脈表現、即ちOCRを取得する。最後に、OCR及び画素表現に基づいて文脈情報としての拡張表現(Augmented Representation)を取得し、該拡張表現は、各画素の意味的カテゴリを予測することができる。
以下、本願の実施例による画像処理の方案に使用され得る肝心な用語又は略語を簡単に説明する。
意味的領域分割(Semantic Segmentation):入力された画像について、各画素に対する意味的理解に基づき、同じ意味を持つ画素を同一の部分又は領域に分割し、いくつかの異なる意味的領域を取得するプロセスである。
前景(Foreground):ポートレート撮影における人物画像など、画像内の被写体である。
背景(Background):ポートレート撮影における風景、道路、建物などのような、画像の中で被写体が置かれている環境である。
画像マッティング(Image Matting):画像の前景を背景から分離する画像処理技術である。
トリマップ(Trimap):前景、背景、及び前景・背景混在領域の3つのマーカーを含む画像として、通常、原画像と共に画像マッティングモデルの入力として使用されるものである。なお、下記の実施例において、前景・背景混在領域は線分描画領域とも呼ばれる。
識別値:画像における画素点の色を識別するための数値である。例えば、画素点の識別値が255である場合は、この画素点のRGB(Red-Green-Blue、赤-緑-青)値が(255,255,255)であり、白として表現されることを示し、また例えば、画素点の識別値が0である場合は、該画素点のRGB値が(0,0,0)であり、黒として表現されることを示し、さらに例えば、画素点の識別値が128である場合は、該画素点のRGB値が(128,128,128)であり、灰色として表現されることを示す。
オープンソースのコンピュータビジョン(Open Source Computer Vision Library、OpenCV):様々なオペレーティングシステムで実行することができるクロスプラットフォームのコンピュータビジョン及び機械学習ソフトウェアライブラリである。OpenCVは、リアルタイムの画像処理、コンピュータビジョン、及びパターン認識プログラムを開発するために使用することができる。
findContours:画像から輪郭を検出するためのOpenCVの関数である。
drawContours:画像に輪郭を描画するためのOpenCVの関数である。
画像マッティングモデル:原画像及びトリマップに基づき、原画像における各画素点が前景に属する確率を計算するための計算モデルである。例えば、画像マッティングには、IndexNetモデル、GCAMattingモデル及びContextNetモデルなどが含まれる。
以下、本願の実施例による画像処理の方法の実施環境を説明する。
図3は、本願の実施例による画像処理の方法の実施環境を示す図である。この実施環境は、端末301及びサーバ302を含む。
端末301及びサーバ302は、有線又は無線通信によって直接的又は間接的に接続することができるが、本願はこれに限定されない。いくつかの実施例において、端末301は、スマートフォン、タブレット、ラップトップ、デスクトップコンピュータなどであるが、これらに限定されない。端末301には、アプリケーションプログラムをインストールし、実行することができる。いくつかの実施例において、このアプリケーションプログラムは、ソーシャルアプリケーションプログラム、画像処理アプリケーションプログラム、又は撮影アプリケーションプログラムなどである。例示的には、端末301は、ユーザーによって使用される端末として、端末301にソーシャルアプリケーションプログラムが実行されると、ユーザーはこのソーシャルアプリケーションプログラムによって写真の中の人物画像をマッティングすることができる。
サーバ302は、独立した物理サーバであってもよく、複数の物理サーバからなるサーバクラスタ又は分散システムであってもよく、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメインネームサービス、セキュリティサービス、コンテンツ配信ネットワーク(Content Delivery Network、CDN)、及びビッグデータ・人工知能プラットフォームなどの基本的なクラウドコンピューティングサービスを提供できるクラウドサーバであってもよい。サーバ302は、端末301で実行されるアプリケーションプログラムにバックグラウンドサービスを提供するために使用される。
いくつかの実施例において、画像処理プロセスでは、サーバ302が主な計算を行い、端末301が二次的な計算を行うか、又は、サーバ302が二次的な計算を行い、端末301が主な計算を行うか、又は、サーバ302或いは端末301がそれぞれ独立して計算を行うことができる。
いくつかの実施例において、端末301は一般的に、複数の端末のうちの1つを指し、本実施例は、端末301のみを例として説明する。当業者であれば、上記端末301の数がより多くてもよいことは分かるであろう。例えば、上記端末301は、数十、数百個、又はそれ以上であり、この場合、上記画像処理の方法の実施環境には、その他の端末も含まれる。本願の実施例は、端末の数とデバイスの種類を限定しない。
いくつかの実施例において、上記無線ネットワーク又は有線ネットワークは標準の通信技術及び/又はプロトコルを使用する。ネットワークは、通常、インターネットであってもよいが、ローカルエリアネットワーク(Local Area Network、LAN)、メトロポリタンエリアネットワーク(Metropolitan Area Network、MAN)、ワイドエリアネットワーク(Wide Area Network、WAN)、モバイル、有線又は無線ネットワーク、プライベートネットワーク又は仮想プライベートネットワークの任意の組み合わせなどを含むが、これらに限定されない任意のネットワークであってもよい。いくつかの実施例において、HTML、拡張可能マークアップ言語(Extensible Markup Language、XML)などを含む技術及び/又はフォーマットを使用して、ネットワークを介して交換されるデータを表す。また、セキュア・ソケッツ・レイヤー(Secure Socket Layer、SSL)、トランスポート・レイヤー・セキュリティ(Transport Layer Security、TLS)、バーチャルプライベートネットワーク(Virtual Private Network、VPN)、インターネットプロトコルセキュリティ(Internet Protocol Security、IPsec)などの従来の暗号化技術を使用して、全部又は一部のリンクを暗号化することができる。他のいくつかの実施例において、さらに上記データ通信技術の代わり又は追加として、カスタム及び/又は専用のデータ通信技術を使用することができる。
本願の実施例において、様々なシーンで目標対象をマッティングするニーズを満たすことができる画像処理の方法を提供する。また、目標対象を含む原画像について、この目標対象の比較的に細かい第1目標領域及び第2目標領域などの局所領域を原画像から自動的にマッティングすることができ、マッティング効果が繊細かつ自然である。図4は本願の実施例による画像処理の方法のフローチャートである。図4に示すように、本願の実施例において、コンピュータデバイスへの適用を例として説明する。コンピュータデバイスは端末又はサーバであってもよく、上記の方法は以下のステップ401、402、403を含む。
401では、原画像に対して画像の意味的領域分割を行い、第1画像、第2画像及び第3画像を取得し、該第1画像における前景領域は該原画像における目標対象の位置する領域であり、該第2画像は該目標対象の第1目標領域の分割画像であり、該第3画像は該目標対象の第2目標領域の分割画像である。
本願の実施例において、原画像とは画像マッティングの必要がある画像である。目標対象とは、目標画像を生成するために分離されるべき原画像における対象である。
なお、第1画像、第2画像及び第3画像は実質的に全て分割画像に属し、第1画像は目標対象全体を分割して得られた分割画像であるため、第1画像における前景領域は、原画像における目標対象の全ての要素である。第2画像は目標対象の第1目標領域という局所部位を分割して得られた分割画像であるため、第2画像における前景領域は目標対象の第1目標領域内の全ての要素であり、第1目標領域以外の領域は第2画像において全て背景領域に属する。同様に、第2画像は目標対象の第2目標領域という局所部位を分割して得られた分割画像であるため、第3画像における前景領域は目標対象の第2目標領域内の全ての要素であり、第1目標領域以外の領域は第3画像において全て背景領域に属する。
なお、目標対象は、原画像における人物肖像、動物画像、植物画像などのうちの少なくとも1つを含んでもよいことを理解されたい。
なお、第1画像における目標対象の前景領域は、目標対象の全体を示すための領域であり、第1目標領域と第2目標領域は目標対象の局所部位の領域であるため、第1目標領域及び第2目標領域は、いずれも第1画像における目標対象の前景領域のサブ領域であることを理解されたい。
一実施例において、第1目標領域は、目標対象のうち、精細化した画像マッティングを行う必要がある領域であってもよい。第2目標領域は、目標対象のうち、第1目標領域に関連する、第1目標領域とは異なる画像マッティングの精細化要件を有する領域であってもよい。具体的には、第2目標領域の画像マッティングの精細化要件は、第1目標領域の画像マッティングの精細化要件よりも低くてもよい。例えば、第2目標領域の詳細情報は第1目標領域の詳細情報よりも低いため、その画像マッティングの精細化要件は第1目標領域よりも低い。
一実施例において、目標対象が人物肖像である場合、第1目標領域と第2目標領域はそれぞれ髪領域と顔部領域であってもよい。
一実施例において、目標対象が動物画像である場合、第1目標領域と第2目標領域はそれぞれ毛髪領域と頭部領域であってもよい。
一実施例において、目標対象が植物画像である場合、第1目標領域と第2目標領域はそれぞれ葉領域と枝領域であってもよい。
なお、目標対象は実在の人物の肖像であってもよく、カートゥーンのキャラクターの肖像やアニメ・漫画のキャラクターの肖像などであってもよい。
402では、第1画像、第2画像及び第3画像に基づき、目標トリマップを生成し、該目標トリマップは前景領域と線分描画領域を含み、該線分描画領域は前景領域の輪郭線に線分を描画して得られたものであり、該前景領域の異なるサブ領域は異なる線幅に対応する。
本願の実施例において、サブ領域は前景領域における部分領域を指し、第1目標領域と第2目標領域などを含む。
403では、該目標トリマップに基づき、該原画像における目標対象に対して画像マッティング処理を行い、該目標対象を含む目標画像を取得する。
本願の実施例において、画像マッティング処理とは、原画像における目標対象を背景領域から分離することで、目標画像を取得するプロセスである。
本願の実施例において、原画像に対して画像マッティングを行う際に、まず意味的領域分割の方式を用いて異なる領域を含む複数の分割画像を取得し、さらに、これらの分割画像に基づき、前景領域の輪郭線に異なる幅の線で描画することで、目標トリマップを取得し、最終的に該目標トリマップに基づき、目標画像を生成する。上記目標トリマップについては、前景領域の輪郭線に異なる幅の線で描画するため、領域ごとに指向性のある画像マッティングを実現することができ、精細化した画像マッティングを行う必要がある領域の画像マッティング精度を向上させることができるとともに、その他の領域の画像マッティング精度を確保し、最終的に効果が精細でかつ自然なマッティング画像を取得することができる。また、上記画像マッティングプロセスの全自動化が実現され、画像マッティング効率を大幅に向上させる。
上記図4は本願の基本的なフローのみを示す。以下、具体的な実施形態に基づき、本願による方案をさらに説明する。
図5は本願の実施例による他の画像処理の方法のフローチャートであり、本実施例において、第1目標領域は髪領域であり、前記第2目標領域は顔部領域である。図5に示すように、本願の実施例において、端末への適用を例として説明する。上記の方法は以下のステップ501~508を含む。
501では、原画像を取得する。
本願の実施例において、端末は画像マッティング機能を提供し、ユーザーは端末で画像マッティングの操作を行うことができ、端末は該画像マッティングの操作に応答し、該原画像を取得する。いくつかの実施例において、該原画像は、端末に記憶されるローカル画像であるか、又は、オンライン画像であるが、本願の実施例は原画像の出所を限定しない。
いくつかの実施例において、端末に該原画像の画像処理インターフェースが表示され、該画像処理インターフェースに画像マッティングオプション、トリミングオプションなどが含まれ、ユーザーは該画像マッティングオプションに対してヒット操作を行うことができ、端末は該ヒット操作に応答し、該原画像を取得する。
いくつかの実施例において、端末に画像処理インターフェースが表示され、該画像処理インターフェースに画像マッティングオプションが含まれ、ユーザーは該画像マッティングオプションに対してヒット操作を行うことができる。端末は該ヒット操作に応答し、画像選択インターフェースを表示し、ユーザーはマッティングしようとする画像に対してクリック操作を行い、原画像を選択して画像マッティングを行うことができ、端末は該クリック操作に応答し、該原画像を取得する。
なお、本願の実施例は端末の原画像取得方法を限定しない。
502では、該原画像を画像分割モデルに入力する。
本願の実施例において、画像分割モデルは、入力された原画像に基づき、該原画像における各画素点の意味的カテゴリを計算し、該原画像の少なくとも1つの画像を出力するために用いられる。
いくつかの実施例において、該画像分割モデルは、HRNET-OCRモデルとして、HRNETモデルとOCRモデルを組み合わせた計算モデルである。該HRNET-OCRモデルの計算プロセスは以下の通りである。まず、HRNETモデルによって該原画像の特徴抽出を行い、該原画像の特徴情報を取得する。次に、取得された特徴情報をOCRモデルのバックボーンに入力する。その後、OCRモデルに基づき、該原画像における各画素点の意味的カテゴリを計算し、例えば、意味的カテゴリには、髪、鼻、眼、胴体、衣類及び建物などが含まれる。最後に、各画素点の意味的カテゴリに基づき、該原画像の少なくとも1つの画像を出力する。上記HRNET-OCRモデルの具体的な計算プロセスは、図1及び図2と組み合わせて詳しく説明したので、ここでは説明を省略する。
なお、実際の応用において、上記HRNET-OCRモデルにおける一部の構造を調整することによって、原画像の少なくとも1つの画像を出力することができるが、本願の実施例はHRNET-OCRモデルにおける構造の構成を限定しない。他のいくつかの実施例において、上記画像分割モデルはさらに他のネットワークモデルによって実現することができるが、本願の実施例は画像の意味的領域分割モデルのタイプを限定しない。
503では、該画像分割モデルから出力された第1画像、第2画像及び第3画像を取得する。該第1画像は該原画像における目標対象の位置する前景領域を含み、該第2画像は該目標対象の髪領域の分割画像であり、該第3画像は該目標対象の顔部領域の分割画像である。
本願の実施例において、画像分割モデルで原画像における各画素点を分類することによって、端末は本ステップにおける第1画像、第2画像及び第3画像の3種類の分割画像を取得することができる。ここで、各画像はいずれも2種類の領域を含み、この2種類の領域はそれぞれ異なる識別値によってマークされ、例えば、第1画像を例にすると、該第1画像は前景領域と背景領域を含む。ここで、前景領域における各画素点の識別値は255であり、背景領域における各画素点の識別値は0である。なお、実際の応用において、開発者は必要に応じて識別値を柔軟に設定することができるが、本願の実施例はこれを限定しない。
例示的には、図6を参照すると、図6は本願の実施例による画像の意味的領域分割結果を示す図である。図6に示すように、原画像は人物肖像であり、図6における(a)に示す画像は、即ち、前景領域1と背景領域2を含む第1画像であり、該前景領域1は人物肖像の全ての要素を含み、図6における(b)に示す画像は、即ち、髪領域3と背景領域4を含む第2画像であり、図6における(c)に示す画像は、即ち、顔部領域5と背景領域6を含む第3画像である。
504では、該第1画像及び該第2画像に基づき、第1トリマップを生成し、該第1トリマップは、前景領域、第1線分描画サブ領域及び第2線分描画サブ領域を含む。
本願の実施例において、該第1線分描画サブ領域は、第1画像における背景領域側に近接する髪領域の輪郭線を被覆し、該第2線分描画サブ領域は前景領域における髪領域以外の領域である非髪領域の輪郭線を被覆する。第1線幅は第2線幅よりも大きく、該第1線幅は第1線分描画サブ領域を描画するために用いられ、該第2線幅は第2線分描画サブ領域を描画するために用いられる。
ここで、該第1トリマップは背景領域をさらに含み、また、該第1線分描画サブ領域と第2線分描画サブ領域の識別値は前景領域の識別値と異なり、該背景領域の識別値とも異なる。例えば、前景領域における各画素点の識別値は255であり、背景領域における各画素点の識別値は0であり、第1線分描画サブ領域と第2線分描画サブ領域における各画素点の識別値は128である。
なお、実際の応用において、開発者は必要に応じて線分描画領域の識別値を柔軟に設定することができるが、本願の実施例はこれを限定しない。
図7は本願の実施例による第1トリマップを示す図である。図7における右図に示すように、該第1トリマップには、前景領域7、背景領域8、第1線分描画サブ領域9及び第2線分描画サブ領域10が含まれ、第1線分描画サブ領域9は第1線幅に基づいて描画され、第2線分描画サブ領域10は第2線幅に基づいて描画される。
なお、本願の実施例において、異なる画像における前景領域間の領域範囲に差異があり、異なる画像における背景領域間の領域範囲にも差異があり、例えば、図6における背景領域2と背景領域4を参照すると、両者の領域範囲に明らかな差異があるものの、いずれも背景領域である。さらに例えば、図6における前景領域1と図7における前景領域7を参照すると、両者の領域範囲に細やかな差異があるものの、いずれも前景領域である。
以下、本ステップにおいて端末が第1トリマップを生成する具体的な実施形態について詳しく説明する。本ステップは、以下のステップ5041~ステップ5045を含む。
5041では、第1画像において、前景領域の完全な輪郭線を取得する。
ここで、前景領域の完全な輪郭線とは、前景領域と背景領域との間の境界線である。端末は、取得された第1画像に基づき、輪郭検出アルゴリズムによって、前景領域の完全な輪郭線を該第1画像から取得する。いくつかの実施例において、上記輪郭検出アルゴリズムはfindContours関数によって実現することができるが、本願の実施例はこれを限定しない。
5042では、第2線幅に基づいて、前景領域の完全な輪郭線に線分を描画し、第2トリマップを取得する。
ここで、第2トリマップは、前景領域と前景領域の完全な輪郭線を被覆する第3線分描画サブ領域とを含む。第2線幅は原画像の寸法に基づいて計算される。いくつかの実施例において、第2線幅は以下の式(1)によって計算される。
S=[min(width,height)/1000]*N (1)
式中、Sは第2線幅で、widthとheightはそれぞれ原画像の幅と高さで、min()は最小値関数で、min(width,height)は原画像の幅と高さから最小値を選択することを示し、Nはデフォルトの線サイズで、例えば、Nは17であってもよく、本願の実施例はこれを限定しない。
端末は前景領域の完全な輪郭線を取得した後、輪郭描画アルゴリズムによって、第2線幅に基づいて該完全な輪郭線に線分を描画し、また、線分の識別値は前景領域と背景領域の識別値のいずれとも異なる。いくつかの実施例において、上記輪郭描画アルゴリズムはdrawContours関数によって実現することができ、例えば、前景領域の識別値が255で、背景領域の識別値が0であることを例とし、以下の式(2)によって前景領域の完全な輪郭線に線分を描画することを実現する。
cv::drawContours(segResult,contours,-1,Scalar(128,128,128),S) (2)
式中、segResultは第1画像で、contoursはfindContours関数によって検出された前景領域の完全な輪郭線で、-1は全ての輪郭線を操作することを示し、Scalarは識別値で、Scalar(128,128,128)はRGBチャネルのR、G及びBチャネルの色値をいずれも128に設定することを示し、Sは第2線幅である。
なお、上記線分描画方法は、取得された完全な輪郭線を操作すること、即ち該完全な輪郭線を被覆することである。例えば、findContours関数によって取得された完全な輪郭線に画素点A1~A10が含まれる場合、これらの画素点を操作し、線分描画を実現する。即ち、線分描画によって得られた第3線分描画サブ領域は、第1画像の前景領域を被覆するだけではなく、第1画像における背景領域も被覆する。
図8は一実施例による第2トリマップを示す図である。図8における左図に示すものは第1画像で、図8における右図に示すものは第2トリマップで、第2トリマップには、前景領域11、背景領域12及び第3線分描画サブ領域が含まれ、該第3線分描画サブ領域13は第2線幅に基づいて描画される。
5043では、第2画像において、髪領域の完全な輪郭線を取得する。
ここで、髪領域の完全な輪郭線とは、髪領域と背景領域との間の境界線である。端末は取得された第2画像に基づき、輪郭検出アルゴリズムによって、髪領域の完全な輪郭線を該第2画像から取得する。いくつかの実施例において、上記輪郭検出アルゴリズムはfindContours関数によって実現することができるが、本願の実施例はこれを限定しない。
5044では、第1線幅に基づいて、髪領域の完全な輪郭線に線分を描画し、第3トリマップを取得する。
ここで、第3トリマップは、髪領域と髪領域の完全な輪郭線を被覆する第4線分描画サブ領域とを含む。第1線幅は第2線幅のM倍(M>1)である。例えば、第1線幅は第2線幅の3倍であり、即ち、第2線幅がSである場合、第1線幅はS*3となるが、本願の実施例はこれを限定しない。
なお、本ステップにおいて髪領域の完全な輪郭線に線分を描画する方法は、上記ステップ5042におけるものと同様であるため、以下の式(3)のみによって例を挙げて説明し、ここでは説明を省略する。
cv::drawContours(segResultHair,contours,-1,Scalar(128,128,128),S*3) (3)
式中、segResultHairは第2画像で、contoursはfindContours関数によって検出された髪領域の完全な輪郭線で、-1は全ての輪郭線を操作することを示し、Scalarは識別値で、Scalar(128,128,128)はRGBチャネルのR、G及びBチャネルの色値をいずれも128に設定することを示し、S*3は第1線幅である。
図9は一実施例による第3トリマップを示す図である。図9における左図に示すものは第2画像で、図9における右図に示すものは第3トリマップで、第3トリマップには、前景領域14、背景領域15及び第4線分描画サブ領域16が含まれ、該第4線分描画サブ領域16は第1線幅に基づいて描画される。
5045では、第2トリマップと第3トリマップに対してマージ処理を行い、第1トリマップを取得する。
ここで、第2トリマップと第3トリマップに対するマージ処理とは、2枚のトリマップにおける同じ位置の最大の識別値を、第1トリマップにおける対応する位置の識別値とすることである。
以下、本ステップの具体的な実施形態について詳しく説明する。本ステップは、以下のステップA~ステップCを含む。
ステップAでは、第2トリマップにおける各画素点の第1識別値を取得し、該第1識別値は第2トリマップにおける画素点の色を識別するために用いられる。
ステップBでは、第3トリマップにおける各画素点の第2識別値を取得し、該第2識別値は第3トリマップにおける画素点の色を識別するために用いられる。
ステップCでは、第1識別値と第2識別値との間の大きさ関係に基づき、第1トリマップを生成する。
ここで、ステップCの実施形態は、第2トリマップの任意の位置における画素点の第1識別値を、第3トリマップの同じ位置における画素点の第2識別値と比較し、第1識別値及び第2識別値のうちの最大のものを、第1トリマップの同じ位置における画素点の第3識別値とし、該第3識別値は第1トリマップにおける画素点の色を識別するために用いられることを含む。
例示的には、図7を引き続き参照すると、端末は、第2トリマップと第3トリマップを取得した後、以下の式(4)によってこの2枚のトリマップのマージ処理を実現し、第1トリマップを取得する。式(4)は以下のとおりである。
Pixelresult=PixelleftUp>PixelleftDown?PixelleftUp:PixelleftDown (4)
式中、Pixelresultは第1トリマップで、即ち図7における右図であり、PixelleftUpは第2トリマップで、即ち図7における左上図で、PixelleftDownは第3トリマップで、即ち図7における左下図である。
図7における右図に示すように、上記ステップ5045で生成された第1トリマップにおいて、髪領域に対応する第1線分描画サブ領域9を描画する線幅は、髪領域以外のその他の領域に対応する第2線分描画サブ領域10を描画する線幅よりも大きく、このような異なる線幅に基づいて描画することで異なる線分描画領域を取得する方法を通じて、後続の画像マッティング処理において、髪領域などの比較的複雑な画像マッティング領域について、画像マッティングの精細度を向上させ、この部分の領域の画像マッティング効果を向上させることができる。
505では、第3画像及び第1トリマップに基づき、目標トリマップを生成する。
本願の実施例において、目標トリマップは前景領域と線分描画領域を含み、該線分描画領域は前景領域の輪郭線に線分を描画して得られたものであり、該前景領域の異なるサブ領域は異なる線幅に対応する。いくつかの実施例において、該前景領域は目標対象の胴体領域をさらに含む。ここで、目標トリマップにおいて、髪領域に対応する線幅は、胴体領域に対応する線幅よりも大きく、該胴体領域に対応する線幅は、顔部領域に対応する線幅よりも大きい。
図10は一実施例による目標トリマップを示す図である。図10における右上図に示すものは即ち目標トリマップで、該図には前景領域17、背景領域18及び線分描画領域19が含まれる。該線分描画領域19において、髪領域に対応する線幅は、胴体領域に対応する線幅よりも大きく、胴体領域に対応する線幅は、顔部領域に対応する線幅よりも大きい。例示的には、線分描画領域19における線幅の関係は図10における右下図を引き続き参照することができ、図に線分描画領域19a、19b及び19cが含まれ、図において、19aは髪領域に対応する線幅を示し、19bは顔部領域に対応する線幅を示し、19cは胴体領域に対応する線幅を示し、図に示すように、髪領域に対応する線幅19aは胴体領域に対応する線幅19cよりも大きく、胴体領域に対応する線幅19cは顔部領域に対応する線幅19bよりも大きい。
以下、本ステップにおいて端末が目標トリマップを生成する具体的な実施形態について詳しく説明する。本ステップは、以下のステップ5051~ステップ5052を含む。
5051では、第3画像における顔部領域に基づき、第1トリマップの目標重複領域を決定し、該目標重複領域は顔部領域と第2線分描画サブ領域との重複領域である。
ここで、端末は第1トリマップを取得した後、第3画像における顔部領域の画素点の位置に基づき、第1トリマップから目標重複領域を決定する。例示的には、図10を引き続き参照すると、図10における右下図に示すように、図に目標重複領域20が含まれ、この領域は即ち第3画像における顔部領域と第1トリマップにおける第2線分描画サブ領域19との間の重複領域である。
5052では、目標識別値を目標重複領域の画素点に割り当て、目標トリマップを生成し、該目標識別値は顔部領域における画素点の色を識別するために用いられる。
ここで、第1トリマップにおいて、目標重複領域の識別値は第2線分描画サブ領域の識別値であり、本ステップにおいて、第1トリマップにおける目標重複領域の識別値を変更し、目標識別値をこの領域の画素点に割り当て、目標トリマップを生成する。例えば、顔部領域の識別値が255で、第2線分描画サブ領域の識別値が128であることを例にすると、第1トリマップにおいて、目標重複領域の識別値は128であったが、本ステップ5052の後、該目標重複領域の画素点に255の識別値を再割り当てして、目標トリマップを取得する。
いくつかの実施例において、上記ステップ5051とステップ5052は以下のステップ(5)によって実現することができる。
Pixel=Pixel∈Φ{Face}?255:Pixeltrimp (5)
式中、Φ{Face}は顔部領域を示し、255は目標識別値を示し、Pixeltrimpは目標トリマップである。該式(5)により、第1トリマップの顔部領域に属する画素点に目標識別値を割り当てることで、顔部領域が下記のステップ506~ステップ507において、画像マッティングモデルを利用して透明度を計算するプロセスに参加しないようにすることができる。
上記ステップ501~ステップ505を経て、端末は原画像を取得した後、目標トリマップを自動的に生成し、該目標トリマップにおいて、前景領域の異なるサブ領域に対応する線幅は異なる。
なお、実際の応用において、トリマップにおける前景・背景混在領域のマークは画像マッティング効果の精細度に直接影響を与えてしまい、トリマップにおいて前景領域を前景・背景混在領域にマークすると、不正確な画像マッティング結果を引き起こす。
本願の実施例において、目標トリマップにおける線分描画領域は即ち前景・背景混在領域であり、端末による目標トリマップの自動生成プロセスにおいて、異なる線幅に基づいて髪領域及び髪領域以外のその他の領域に対して線分描画を行い、髪領域などの複雑な領域の画像マッティング範囲を確保し、この部分の領域の画像マッティング精度を向上させるとともに、顔部領域に属する画素点に、前景領域と同一の目標識別値を割り当て、人物肖像における肝心な領域に対する保護を考慮し、画像マッティングの細部の損失を回避する。
506では、該目標トリマップと該原画像を画像マッティングモデルに入力する。
本願の実施例において、画像マッティングモデルは入力された目標トリマップと原画像に基づき、該原画像における各画素点が目標画像に属する確率を計算し、透明度を出力する。いくつかの実施例において、下記の式(6)によって透明度を計算する。
I=α*F+(1―α)*B (6)
式中、Iは原画像を示し、Fは前景、即ち目標対象の全ての要素を含む領域を示し、Bは背景を示し、αは透明度で、原画像における前景色の割合を示すために用いられる。式(6)は、原画像が前景と背景を一定の透明度で重ね合わせたものであることを示す。
いくつかの実施例において、上記画像マッティングモデルは、IndexNet画像マッティングモデルであってもよく、又は、GCAMatting画像マッティングモデルであってもよく、又は、ContextNetモデルなどであってもよく、本願の実施例は上記画像マッティングモデルの具体的なタイプを限定しない。
以下、IndexNet画像マッティングモデルを例とし、本ステップを例示的に説明する。例示的には、図11を参照すると、図11は本画の実施例による画像マッティングモデルを示す図である。図11に示すように、目標トリマップと原画像を入力とし、大まかなAlpha(即ちα)図、及びAlpha予測損失を取得し、同時に大まかな前景と背景を合成した後に原画像と比較し、画像の合成損失を取得し、最終的に畳み込み層を利用して最適化することで精細なAlpha図を取得し、画像マッティングの精細な結果、即ち各画素点のAlpha値を出力する。
507では、該画像マッティングモデルから出力される透明度を取得し、該透明度は画素点が目標対象に属する確率を示すために用いられる。
508では、該透明度に基づき、該原画像に対して画像マッティング処理を行い、目標対象を含む目標画像を取得する。
本願の実施例において、本ステップ508の画像マッティング処理とは、各画素点の透明度に基づき、原画像における目標対象を背景から分離し、目標画像を取得するプロセスである。例示的には、図12を参照すると、図12は本願の実施例による目標画像を示す図である。図12における左図に示すものは原画像で、図12における右上図に示すものは本方法により得られた目標画像であり、図において、人物肖像は毛先までさらさらな精細な画像マッティングを行っており、顔部も完全であり、図12における右下図に示すものは関連技術における画像分割方法に従って得られた目標画像であり、図において、画像が正確に分割されているが、人物肖像の毛先が非常に粗末で、顔部の細部に損失がある。
本願の実施例において、原画像に対して画像マッティングを行う際に、まず意味的領域分割の方式を用いて異なる領域を含む複数の分割画像を取得し、さらに、これらの分割画像に基づき、前景領域の輪郭線に異なる幅の線で描画することで、目標トリマップを取得し、最終的に該目標トリマップに基づき、目標画像を生成する。上記目標トリマップについては、前景領域の輪郭線に異なる幅の線で描画するため、領域ごとに指向性のある画像マッティングを実現することができ、精細化した画像マッティングを行う必要がある領域の画像マッティング精度を向上させることができるとともに、その他の領域の画像マッティング精度を確保し、最終的に効果が精細でかつ自然なマッティング画像を取得することができる。また、上記画像マッティングプロセスの全自動化が実現され、画像マッティング効率を大幅に向上させる。
以下、図13を参照しながら本願の実施例による画像処理の方法を例示的に簡単に要約する。図13に示すように、以下の6つの画像処理段階を含む。
1番目は、原画像を取得し、原画像は人物肖像を含む画像である。
2番目は、HRNET-OCRモデルに基づいて原画像に対して画像の意味的領域分割を行い、分割結果に基づいて3種類の分割画像を取得する。第1種の分割画像は前景領域を含み、該前景領域は人物肖像の全ての要素を含み、第2種の分割画像は髪領域を含み、人類の胴体と背景は縁部の線が比較的明確であるが、髪はその形状の特性により、背景とひどく融合することが多く、画像マッティングに焦点を当てる必要があり、第3種の分割画像は顔部領域を含み、保護領域と理解されてもよく、顔は人物肖像の重要な注目部位として、誤ってマッティングされたり損傷されたりすると、見た目に大きな影響を与えてしまうため、この部分の領域が画像マッティングによって破損されないように保護する必要がある。
3番目は、第1種の分割画像について、基本サイズで前景領域の輪郭線に線分を描画し、第2トリマップを取得し、第2種の分割画像について、3倍の基本サイズで髪領域の輪郭線に線分を描画し、第3トリマップを取得する。ここで、描かれた線の識別値は128である。
4番目は、第2トリマップと第3トリマップに対してマージ処理を行い、マージされた第1トリマップを取得する。
5番目は、第1トリマップにおける顔部領域を前景マーカーとして再設定し、即ち第1トリマップにおける顔部領域の各画素点に255を再割り当てして、目標トリマップを取得する。
6番目は、目標トリマップに基づき、最終的に目標画像、即ち原画像における人物肖像を取得する。
上記目標トリマップについては、前景領域の輪郭線に異なる幅の線で描画するため、領域ごとに指向性のある画像マッティングを実現することができ、精細化した画像マッティングを行う必要がある領域の画像マッティング精度を向上させることができるとともに、その他の領域の画像マッティング精度を確保し、最終的に効果が精細でかつ自然なマッティング画像を取得することができる。また、上記画像マッティングプロセスの全自動化が実現され、画像マッティング効率を大幅に向上させる。
例示的には、本願の実施例による画像処理の方法の適用シーンは、以下を含むがこれらに限定されない。
シーン1、スタンプシーン
スタンプ文化の流行に伴い、多くのアプリケーションにもスタンプ作成の機能が追加されており、これによりユーザーがスタンプを作成する方法で、自分の感情や気分を表現することを容易にする。いくつかのシナリオで、ユーザーはピクチャ内の人物肖像をマッティングし、その人物肖像を基にステッカーやテキスト、背景などを追加することで、希望する絵文字を作成しようとする。
例えば、端末はアプリケーションによって人物肖像のスタンプ作成機能を提供する。ユーザーは端末で操作を実行し、人物肖像をマッティングしようとする原画像を入力する。端末は原画像を取得した後、本願の実施例による画像処理の方法を用いて、該原画像における人物肖像を自動的にマッティングし、端末に表示する。これにより、ユーザーはその後、該人物肖像を基にその他の画像処理の操作を行い、ユーザーの希望するスタンプを得る。例示的には、端末が人物肖像をマッティングするプロセスは、以下のステップ1~ステップ8を含む。
1、端末は原画像を取得する。
2、端末は該原画像を画像分割モデルに入力する。
3、端末は該画像分割モデルから出力される第1画像、第2画像及び第3画像を取得する。該第1画像は該原画像における人物肖像の位置する前景領域を含み、該第2画像は該人物肖像の髪領域を含み、該第3画像は該人物肖像の顔部領域を含む。
4、端末は該第1画像及び該第2画像に基づき、第1トリマップを生成し、該第1トリマップは前景領域、第1線分描画サブ領域及び第2線分描画サブ領域を含む。
5、端末は第3画像及び第1トリマップに基づき、目標トリマップを生成する。
6、端末は該目標トリマップと該原画像を画像マッティングモデルに入力する。
7、端末は該画像マッティングモデルから出力される透明度を取得し、該透明度は画素点が人物肖像に属する確率を示すために用いられる。
8、端末は該目標トリマップに基づき、該原画像に対して画像マッティング処理を行い、人物肖像を含む目標画像を取得する。その後、ユーザーは該目標画像を基にスタンプを作成する。
2、端末は該原画像を画像分割モデルに入力する。
3、端末は該画像分割モデルから出力される第1画像、第2画像及び第3画像を取得する。該第1画像は該原画像における人物肖像の位置する前景領域を含み、該第2画像は該人物肖像の髪領域を含み、該第3画像は該人物肖像の顔部領域を含む。
4、端末は該第1画像及び該第2画像に基づき、第1トリマップを生成し、該第1トリマップは前景領域、第1線分描画サブ領域及び第2線分描画サブ領域を含む。
5、端末は第3画像及び第1トリマップに基づき、目標トリマップを生成する。
6、端末は該目標トリマップと該原画像を画像マッティングモデルに入力する。
7、端末は該画像マッティングモデルから出力される透明度を取得し、該透明度は画素点が人物肖像に属する確率を示すために用いられる。
8、端末は該目標トリマップに基づき、該原画像に対して画像マッティング処理を行い、人物肖像を含む目標画像を取得する。その後、ユーザーは該目標画像を基にスタンプを作成する。
本願の実施例による画像処理の方法によれば、人物肖像の自動マッティングを実現することができ、マッティングされた人物肖像は効果が精細かつ自然で、スタンプ作成に対するユーザーの個性的なニーズを満たすことができる。
シーン2、ライブ配信シーン
いくつかのライブ配信シーンでは、ライバーは個人プライバシーを保護するために、自分のいる本当の背景環境を隠し、またライブ配信画面にライバーの人物肖像のみを表示するか、又はライバーの人物肖像を基にその他の仮想背景を追加しようとする場合がある。
例えば、端末がライブ配信中における人物肖像モードを提供する。ライバーが該人物肖像モードをオンにすることで、端末はカメラによって撮像された各フレームの原画像をリアルタイムで取得し、続いて本願の実施例による画像処理の方法を用いて、各フレームの原画像におけるライバーの人物肖像をマッティングし、ライブ配信画面をリアルタイムで生成してライブ配信する。端末による人物肖像の具体的なマッティングプロセスは上記シーン1と類似するため、ここでは説明を省略する。
このように、本願の実施例による画像処理の方法は、人物画像の自動マッティングを実現するため、人物肖像のリアルタイムなマッティングが必要とされるシーンに直接適用することができる。
なお、上記各実施例のフローチャートにおける各ステップは、矢印の指示に従って順次示されるが、これらのステップは必ずしも矢印の指示される順序で順次実行されないことを理解されたい。本明細書に明示的に記載されていない限り、これらのステップの実行に厳密な順序上の制限がなく、これらのステップは他の順序で実行されてもよい。また、上記各実施例のフローチャートにおける少なくとも一部のステップは複数のステップ又は複数の段階を含んでもよく、これらのステップ又は段階は必ずしも同時に実行されるとは限らず、異なる時刻で実行されてもよく、これらのステップ又は段階の実行順序も必ずしも順次実行されるとは限らず、他のステップ又は他のステップにおけるステップ又は段階の少なくとも一部と交替又は交互に実行されてもよい。
図14は本願の実施例による画像処理の装置の構造を示す図である。該装置は、上記画像処理の方法の実行時のステップを実行するために用いられ、図14を参照すると、装置は、画像分割モジュール1401、トリマップ生成モジュール1402及び画像マッティング1403を含む。
画像分割モジュール1401は、原画像に対して画像の意味的領域分割を行い、第1画像、第2画像及び第3画像を取得し、該第1画像は該原画像における目標対象の位置する前景領域を含み、該第2画像は該目標対象の髪領域を含み、該第3画像は該目標対象の顔部領域を含む。
トリマップ生成モジュール1402は、該第1画像、該第2画像及び該第3画像に基づき、目標トリマップを生成し、該目標トリマップは該前景領域と線分描画領域を含み、該線分描画領域は該前景領域の輪郭線に線分を描画して得られたものであり、該前景領域の異なるサブ領域は異なる線幅に対応する。
画像マッティングモジュール1403は、該目標トリマップに基づき、該原画像に対して画像マッティング処理を行い、該目標対象を含む目標画像を取得する。
いくつかの実施例において、該前景領域は該目標対象の胴体領域をさらに含む。ここで、該目標トリマップにおいて、該髪領域に対応する線幅は、該胴体領域に対応する線幅よりも大きく、該胴体領域に対応する線幅は、該顔部領域に対応する線幅よりも大きい。
いくつかの実施例において、該トリマップ生成モジュール1402は、第1生成ユニットと第2生成ユニットを含む。
第1生成ユニットは、該第1画像及び該第2画像に基づき、第1トリマップを生成し、該第1トリマップは該前景領域、第1線分描画サブ領域及び第2線分描画サブ領域を含む。
ここで、該第1線分描画サブ領域は、背景領域側に近接する該髪領域の輪郭線を被覆し、該第2線分描画サブ領域は、該前景領域における該髪領域以外の領域であるその他の領域の輪郭線を被覆し、第1線幅は第2線幅よりも大きく、該第1線幅は該第1線分描画サブ領域を描画するために用いられ、該第2線幅は該第2線分描画サブ領域を描画するために用いられる。
第2生成ユニットは、該第3画像及び該第1トリマップに基づき、該目標トリマップを生成する。
いくつかの実施例において、該第1生成ユニットは、該第1画像において、該前景領域の完全な輪郭線を取得し、該第2線幅に基づいて、該前景領域の完全な輪郭線に線分を描画し、該前景領域と、該前景領域の完全な輪郭線を被覆する第3線分描画サブ領域とを含む第2トリマップを取得し、該第2画像において、該髪領域の完全な輪郭線を取得し、該第1線幅に基づいて、該髪領域の完全な輪郭線に線分を描画し、該髪領域と、該髪領域の完全な輪郭線を被覆する第4線分描画サブ領域とを含む第3トリマップを取得し、該第2トリマップ及び該第3トリマップに対してマージ処理を行い、該第1トリマップを取得する。
いくつかの実施例において、該第1線幅は第2線幅のM倍(M>1)である。
いくつかの実施例において、該第1生成ユニットはさらに、該第2トリマップにおける各画素点の第1識別値を取得し、該第1識別値は該第2トリマップにおける画素点の色を識別するために用いられ、該第3トリマップにおける各画素点の第2識別値を取得し、該第2識別値は該第3トリマップにおける画素点の色を識別するために用いられ、また、該第1識別値と該第2識別値との間の大きさ関係に基づき、該第1トリマップを生成する。
いくつかの実施例において、該第1生成ユニットはさらに、該第2トリマップの任意の位置における画素点の第1識別値を、該第3トリマップの同じ位置における画素点の第2識別値と比較し、該第1識別値及び該第2識別値のうちの最大のものを、該第1トリマップの同じ位置における画素点の第3識別値とし、該第3識別値は第1トリマップにおける画素点の色を識別するために用いられる。
いくつかの実施例において、該第2生成ユニットは、該第3画像における顔部領域に基づき、第1トリマップの目標重複領域を決定し、該目標重複領域は顔部領域と第2線分描画サブ領域との重複領域であり、目標識別値を該目標重複領域の画素点に割り当て、該目標トリマップを生成し、該目標識別値は該顔部領域における画素点の色を識別するために用いられる。
いくつかの実施例において、該画像マッティングモジュール1403は、該目標トリマップに基づき、該原画像における各画素点の透明度を取得し、該透明度は該画素点が該目標対象に属する確率を示すために用いられ、また、該透明度に基づいて該原画像に対して画像マッティング処理を行い、該目標画像を取得する。
いくつかの実施例において、該画像分割モジュール1401はさらに、該原画像を取得し、入力される該原画像に基づき、該原画像における各画素点の意味的カテゴリを計算することで、該原画像の少なくとも1つの画像を出力するための画像分割モデルに、該原画像を入力し、該画像分割モデルから出力される該第1画像、該第2画像及び該第3画像を取得する。
いくつかの実施例において、該画像マッティングモジュール1403はさらに、入力される該目標トリマップと該原画像に基づき、該原画像における各画素点が該目標画像に属する確率を計算することで、該透明度を出力するための画像マッティングモデルに、該目標トリマップ及び該原画像を入力し、該画像マッティングモデルから出力される該透明度を取得する。
本願の実施例において、原画像に対して画像マッティングを行う際に、まず意味的領域分割の方式を用いて異なる領域を含む複数の分割画像を取得し、さらに、これらの分割画像に基づき、前景領域の輪郭線に異なる幅の線で描画することで、目標トリマップを取得し、最終的に該目標トリマップに基づき、目標画像を生成する。上記目標トリマップについては、前景領域の輪郭線に異なる幅の線で描画するため、領域ごとに指向性のある画像マッティングを実現することができ、精細化した画像マッティングを行う必要がある領域の画像マッティング精度を向上させることができるとともに、その他の領域の画像マッティング精度を確保し、最終的に効果が精細でかつ自然なマッティング画像を取得することができる。また、上記画像マッティングプロセスの全自動化が実現され、画像マッティング効率を大幅に向上させる。
なお、上記実施例による画像処理の装置は画像処理を行う際に、単に上記各機能モジュールの分割を例として説明したが、実際の応用において、必要に応じて上記機能の割り当てを異なる機能モジュールが完了してもよく、即ち、装置の内部構造を異なる機能モジュールに分割し、以上に説明された機能の全部又は一部を完了してもよい。上記装置における各モジュールの全部又は一部は、ソフトウェア、ハードウェア及びその組み合わせによって実現することできる。プロセッサーが以上の各モジュールに対応する操作を呼び出して実行することができるように、上記の各モジュールは、ハードウェアの形態でコンピュータデバイス内のプロセッサーに内蔵されるか、或いはプロセッサーから独立されてもよく、ソフトウェアの形態でコンピュータデバイス内のメモリーに記憶されてもよい。また、上記実施例による画像処理の装置は、画像処理の方法の実施例と同一の思想に属し、その具体的な実現プロセスは方法の実施例で詳述されたため、ここでは説明を省略する。
例示的な実施例において、コンピュータデバイスをさらに提供する。コンピュータデバイスを端末とすることを例として、図15は本願の一例示的な実施例による端末1500の構造を示す図である。該端末1500は、スマートフォン、タブレット、MP3プレーヤー(Moving Picture Experts Group Audio Layer III、動画エキスパートグループオーディオレイヤー3)、MP4(Moving Picture Experts Group Audio Layer IV、動画エキスパートグループオーディオレイヤー4)プレーヤー、ラップトップ又はデスクトップコンピュータであってもよい。端末1500は、ユーザーデバイス、携帯端末、ラップトップ端末、デスクトップ端末などの他の名称で呼ばれることもある。
通常、端末1500は、1つ又は複数のプロセッサー1501とメモリー1502を含む。
プロセッサー1501は、4コアプロセッサー、8コアプロセッサーなどの1つ又は複数の処理コアを含むことができる。プロセッサー1501は、DSP(Digital Signal Processing、デジタル信号処理)、FPGA(Field-Programmable Gate Array、フィールドプログラマブルゲートアレイ)、PLA(Programmable Logic Array、プログラマブルロジックアレイ)のうちの少なくとも1つのハードウェア形態を用いて実現することができる。プロセッサー1501は、CPU(Central Processing Unit、中央処理装置)とも呼ばれる、ウェイクアップ状態でのデータを処理するプロセッサーであるメインプロセッサーと、スタンバイ状態でのデータを処理する低電力プロセッサーであるコプロセッサーと、を含んでもよい。いくつかの実施例において、プロセッサー1501は、ディスプレイスクリーンに表示されるべきコンテンツのレンダリング及び描画を行うためのGPU(Graphics Processing Unit、グラフィックスプロセッサー)と統合されてもよい。いくつかの実施例において、プロセッサー1501は、機械学習に関連する計算操作を処理するためのAI(Artificial Intelligence、人工知能)プロセッサーをさらに含んでもよい。
メモリー1502は、非一時的であり得る1つ又は複数のコンピュータ読み取り可能な記憶媒体を含んでもよい。メモリー1502は、高速ランダムメモリー、及び1つ又は複数の磁気記憶デバイス、フラッシュメモリーなどの不揮発性メモリーをさらに含んでもよい。いくつかの実施例において、メモリー1502内の非一時的コンピュータ読み取り可能な記憶媒体は、1つ又は複数のプロセッサー1501によって実行されると、本願に係る方法の実施例による画像処理の方法を実現するための少なくとも1つのコンピュータ読み取り可能な命令を記憶する。
いくつかの実施例において、端末1500は、周辺デバイスインターフェース1503と、少なくとも1つの周辺デバイスとをさらに含んでもよい。1つ又は複数のプロセッサー1501、メモリー1502及び周辺デバイスインターフェース1503の間は、バス又は信号線によって互いに接続されてもよい。各周辺デバイスは、バス、信号線又は回路基板によって周辺デバイスインターフェース1503に接続されてもよい。具体的には、周辺デバイスは、無線周波数回路1504、ディスプレイスクリーン1505、カメラアセンブリ1506、オーディオ回路1507、位置決めアセンブリ1508及び電源1509のうちの少なくとも1つを含む。
周辺デバイスインターフェース1503は、I/O(Input/Output、入力/出力)に関連する少なくとも1つの周辺デバイスを、1つ又は複数のプロセッサー1501及びメモリー1502に接続するために用いられてもよい。
無線周波数回路1504は、電磁波信号とも呼ばれるRF(Radio Frequency、無線周波数)信号を送受信する。無線周波数回路1504は、電磁波信号によって通信ネットワーク及びその他の通信デバイスと通信する。
ディスプレイスクリーン1505は、UI(User Interface、ユーザーインターフェース)を表示する。該UIは、グラフィックス、テキスト、アイコン、ビデオ及びそれらの任意の組み合わせを含んでもよい。ディスプレイスクリーン1505がタッチディスプレイスクリーンである場合、ディスプレイスクリーン1505は、ディスプレイスクリーン1505の表面又は表面上方にあるタッチ信号を収集する機能も有する。該タッチ信号は、制御信号として1つ又は複数のプロセッサー1501に入力して処理することができる。この場合、ディスプレイスクリーン1505はさらに、ソフトボタン及び/又はソフトキーボードとも呼ばれる仮想ボタン及び/又は仮想キーボードを提供することができる。いくつかの実施例において、ディスプレイスクリーン1505は1つで、端末1500の前面パネルに設置されてもよく、他のいくつかの実施例において、ディスプレイスクリーン1505は少なくとも2つで、それぞれ端末1500の異なる表面に設置されるか又は折り畳まれるように設計されてもよく、他のいくつかの実施例において、ディスプレイスクリーン1505はフレキシブルディスプレイスクリーンで、端末1500の曲面又は折り畳み面に設置されてもよい。さらに、ディスプレイスクリーン1505はさらに非矩形の不規則な形状、すなわち異形ディスプレイスクリーンに設定されてもよい。ディスプレイスクリーン1505は、LCD(Liquid Crystal Display、液晶ディスプレイ)、OLED(Organic Light-Emitting Diode、有機発光ダイオード)などの材質で製造されてもよい。
カメラアセンブリ1506は、画像又はビデオを収集する。
オーディオ回路1507は、マイクロフォン及びスピーカーを含んでもよい。マイクロフォンは、ユーザー及び環境の音波を収集し、音波を電気信号に変換して1つ又は複数のプロセッサー1501に入力し、又は無線周波数回路1504に入力して音声通信を実現する。スピーカーは、1つ又は複数のプロセッサー1501又は無線周波数回路1504からの電気信号を音波に変換する。
位置決めアセンブリ1508は、端末1500の現在の地理的位置を位置決めし、ナビゲーション又はLBS(Location Based Service、位置に基づくサービス)を実現する。
電源1509は、端末1500内の各アセンブリに電源を供給する。
いくつかの実施例において、端末は1つ又は複数のセンサー1510をさらに含む。該1つ又は複数のセンサー1510は、加速度センサー1511、ジャイロセンサー1512、圧力センサー1513、指紋センサー1514、光学センサー1515、及び近接センサー1516を含むが、これらに限定されない。
加速度センサー1511は、端末1500によって確立された座標系の3つの座標軸上の加速度の大きさを検出することができる。
ジャイロセンサー1512は、端末1500の本体の向き及び回転角を検出することができ、加速度センサー1511と協同して端末1500に対するユーザーの3D動作を収集することができる。
圧力センサー1513は、端末1500のサイドフレーム及び/又はディスプレイスクリーン1505の下層に設置されてもよい。
指紋センサー1514は、ユーザーの指紋を収集し、1つ又は複数のプロセッサー1501が指紋センサー1514によって収集された指紋でユーザーの身元を識別するか、又は指紋センサー1514が収集された指紋でユーザーの身元を識別する。
光学センサー1515は、環境光強度を収集する。一実施例において、1つまたは複数のプロセッサー1501は、光学センサー1515によって収集された環境光強度に基づき、ディスプレイスクリーン1505の表示輝度を制御することができる。
近接センサー1516は、距離センサーとも呼ばれ、通常、端末1500の前面パネルに設置される。近接センサー1516は、ユーザーと端末1500の正面との距離を収集する。
図15に示す構造は、端末1500に対する限定を構成するものではなく、図示されるものよりも多い又は少ない構成要素を含むか、又は特定の構成要素を組合せるか、又は異なる構成要素の配置を用いることを、当業者であれば理解できる。
本願の実施例は、コンピュータデバイスに応用される1つ又は複数のコンピュータ読み取り可能な記憶媒体をさらに提供する。該コンピュータ読み取り可能な記憶媒体には、1つ又は複数のプロセッサーによってロードされて実行されることで上記実施例に係る画像処理の方法におけるコンピュータデバイスで実行される操作を実現する少なくとも1つのコンピュータ読み取り可能な命令が記憶されている。
本願の実施例は、コンピュータ読み取り可能な命令製品又はコンピュータ読み取り可能な命令をさらに提供する。該コンピュータ読み取り可能な命令は、コンピュータ読み取り可能な記憶媒体に記憶されるコンピュータ読み取り可能な命令コードを含む。コンピュータデバイスの1つ又は複数のプロセッサーは、該コンピュータ読み取り可能な命令コードをコンピュータ読み取り可能な記憶媒体から読み取り、1つ又は複数のプロセッサーが該コンピュータ読み取り可能な命令コードを実行すると、該コンピュータデバイスは上記様々な選択可能な実現形態による画像処理の方法を実行する。
上記実施例を実現するための全部又は一部のステップはハードウェアによって完了してもよく、プログラムで関連ハードウェアを命令することで完了してもよく、前記プログラムはコンピュータ読み取り可能な記憶媒体に記憶されてもよく、上記の記憶媒体は、読み出し専用メモリー、磁気ディスク或いは光ディスクなどであってもよいことを、当業者であれば理解できる。
以上の記載は、本願の選択可能な実施例に過ぎず、本願を限定するものではなく、本願の精神及び原則内で行われるいかなる修正、均等な置換、改善などは、いずれも本願の保護範囲内に含まれるべきである。
1401 画像分割モジュール
1402 トリマップ生成モジュール
1403 画像マッティングモジュール
1501 プロセッサー
1502 メモリー
1503 周辺デバイスインターフェース
1504 無線周波数回路
1505 ディスプレイスクリーン
1506 カメラアセンブリ
1507 オーディオ回路
1508 位置決めアセンブリ
1509 電源
1510 センサー
1511 加速度センサー
1512 ジャイロセンサー
1513 圧力センサー
1514 指紋センサー
1515 光学センサー
1516 近接センサー
1402 トリマップ生成モジュール
1403 画像マッティングモジュール
1501 プロセッサー
1502 メモリー
1503 周辺デバイスインターフェース
1504 無線周波数回路
1505 ディスプレイスクリーン
1506 カメラアセンブリ
1507 オーディオ回路
1508 位置決めアセンブリ
1509 電源
1510 センサー
1511 加速度センサー
1512 ジャイロセンサー
1513 圧力センサー
1514 指紋センサー
1515 光学センサー
1516 近接センサー
Claims (16)
- コンピュータデバイスが実行する画像処理の方法であって、
原画像に対して画像の意味的領域分割を行い、第1画像、第2画像及び第3画像を取得するステップであって、前記第1画像における前景領域は前記原画像における目標対象の位置する領域であり、前記第2画像は前記目標対象の第1目標領域の分割画像であり、前記第3画像は前記目標対象の第2目標領域の分割画像であり、前記前景領域のサブ領域は前記第1目標領域と前記第2目標領域を含み、前記第1目標領域及び前記第2目標領域は、前記目標対象のうち、精細化した画像マッティングを行う必要がある領域であり、前記第2目標領域の画像マッティングの精細化要件は前記第1目標領域の画像マッティングの精細化要件よりも低いステップと、
前記第1画像、前記第2画像及び前記第3画像に基づき、目標トリマップを生成するステップであって、前記目標トリマップは前記前景領域と線分描画領域を含み、前記線分描画領域は前記前景領域の輪郭線に線分を描画して得られたものであり、前記前景領域の異なるサブ領域は異なる線幅に対応するステップと
前記目標トリマップに基づき、前記原画像における前記目標対象に対して画像マッティング処理を行い、前記目標対象を含む目標画像を取得するステップと、を含むことを特徴とする、画像処理の方法。 - 前記第1目標領域は髪領域で、前記第2目標領域は顔部領域であり、前記前景領域は前記目標対象の胴体領域をさらに含み、
前記目標トリマップにおいて、前記髪領域に対応する線幅は、前記胴体領域に対応する線幅よりも大きく、前記胴体領域に対応する線幅は、前記顔部領域に対応する線幅よりも大きいことを特徴とする、請求項1に記載の方法。 - 前記第1目標領域は髪領域で、前記第2目標領域は顔部領域であり、
前記第1画像、前記第2画像及び前記第3画像に基づき、目標トリマップを生成する前記ステップは、
前記第1画像及び前記第2画像に基づき、第1トリマップを生成するステップであって、前記第1トリマップは、前記前景領域、第1線分描画サブ領域及び第2線分描画サブ領域を含み、前記第1線分描画サブ領域は、前記第1画像における背景領域側に近接する前記髪領域の輪郭線を被覆し、前記第2線分描画サブ領域は、前記前景領域における前記髪領域以外の領域である非髪領域の輪郭線を被覆し、前記第1線分描画サブ領域は第1線幅で描画され、前記第2線分描画サブ領域は第2線幅で描画され、前記第1線幅が第2線幅よりも大きいステップと、
前記第3画像及び前記第1トリマップに基づき、前記目標トリマップを生成するステップと、を含むことを特徴とする、請求項1に記載の方法。 - 前記第1画像及び前記第2画像に基づき、第1トリマップを生成する前記ステップは、
前記第1画像において、前記前景領域の完全な輪郭線を取得するステップと、
前記第2線幅に基づいて、前記前景領域の完全な輪郭線に線分を描画し、第2トリマップを取得するステップであって、前記第2トリマップは前記前景領域と第3線分描画サブ領域を含み、前記第3線分描画サブ領域は前記前景領域の完全な輪郭線を被覆するものであるステップと、
前記第2画像において、前記髪領域の完全な輪郭線を取得するステップと、
前記第1線幅に基づいて、前記髪領域の完全な輪郭線に線分を描画し、第3トリマップを取得するステップであって、前記第3トリマップは前記髪領域と第4線分描画サブ領域を含み、前記第4線分描画サブ領域は前記髪領域の完全な輪郭線を被覆するものであるステップと、
前記第2トリマップと前記第3トリマップに対してマージ処理を行い、前記第1トリマップを取得するステップと、を含むことを特徴とする、請求項3に記載の方法。 - 前記第1線幅は、前記第2線幅のM倍(M>1)であることを特徴とする、請求項3又は4に記載の方法。
- 前記第2トリマップと前記第3トリマップに対してマージ処理を行い、前記第1トリマップを取得する前記ステップは、
前記第2トリマップにおける各画素点の第1識別値を取得するステップであって、前記第1識別値は、第2トリマップにおける画素点の色を識別するために用いられるステップと、
前記第3トリマップにおける各画素点の第2識別値を取得するステップであって、前記第2識別値は、第3トリマップにおける画素点の色を識別するために用いられるステップと、
前記第1識別値と前記第2識別値との間の大きさ関係に基づき、第1トリマップを生成するステップと、を含むことを特徴とする、請求項4に記載の方法。 - 前記第1識別値と前記第2識別値との間の大きさ関係に基づき、前記第1トリマップを生成する前記ステップは、
前記第2トリマップの任意の位置における画素点の第1識別値を、前記第3トリマップの同じ位置における画素点の第2識別値と比較するステップと、
前記第1識別値及び前記第2識別値のうちの最大のものを、前記第1トリマップの同じ位置における画素点の第3識別値とするステップであって、前記第3識別値は、前記第1トリマップにおける画素点の色を識別するために用いられるステップと、を含むことを特徴とする、請求項6に記載の方法。 - 前記第3画像及び前記第1トリマップに基づき、前記目標トリマップを生成する前記ステップは、
前記第3画像における前記顔部領域に基づき、前記第1トリマップの目標重複領域を決定するステップであって、前記目標重複領域は、前記顔部領域と前記第2線分描画サブ領域との重複領域であるステップと、
目標識別値を前記目標重複領域の画素点に割り当て、前記目標トリマップを生成するステップであって、前記目標識別値は、前記顔部領域における画素点の色を識別するために用いられるステップと、を含むことを特徴とする、請求項3に記載の方法。 - 前記目標トリマップに基づき、前記原画像における前記目標対象に対して画像マッティング処理を行い、前記目標対象を含む目標画像を取得する前記ステップは、
前記目標トリマップに基づき、前記原画像における各画素点の透明度を取得するステップであって、前記透明度は、前記画素点が前記目標対象に属する確率を示すために用いられるステップと、
前記透明度に基づき、前記原画像に対して画像マッティング処理を行い、前記目標画像を取得するステップと、を含むことを特徴とする、請求項1に記載の方法。 - 前記目標トリマップに基づき、前記原画像における各画素点の透明度を取得する前記ステップは、
前記目標トリマップと前記原画像を画像マッティングモデルに入力し、前記画像マッティングモデルを利用して、前記目標トリマップと前記原画像に基づき、前記原画像における各画素点が目標画像に属する確率を計算し、透明度を出力するステップと、
前記画像マッティングモデルから出力された前記透明度を取得するステップと、を含むことを特徴とする、請求項9に記載の方法。 - 原画像に対して画像の意味的領域分割を行い、第1画像、第2画像及び第3画像を取得する画像分割モジュールであって、前記第1画像における前景領域は前記原画像における目標対象の位置する領域であり、前記第2画像は前記目標対象の第1目標領域の分割画像であり、前記第3画像は前記目標対象の第2目標領域の分割画像であり、前記前景領域のサブ領域は前記第1目標領域と前記第2目標領域を含み、前記第1目標領域及び前記第2目標領域は、前記目標対象のうち、精細化した画像マッティングを行う必要がある領域であり、前記第2目標領域の画像マッティングの精細化要件は前記第1目標領域の画像マッティングの精細化要件よりも低い画像分割モジュールと、
前記第1画像、前記第2画像及び前記第3画像に基づき、目標トリマップを生成するトリマップ生成モジュールであって、前記目標トリマップは前記前景領域と線分描画領域を含み、前記線分描画領域は前記前景領域の輪郭線に線分を描画して得られたものであり、前記前景領域の異なるサブ領域は異なる線幅に対応するトリマップ生成モジュールと、
前記目標トリマップに基づき、前記原画像における前記目標対象に対して画像マッティング処理を行い、前記目標対象を含む目標画像を取得する画像マッティングモジュールと、を含むことを特徴とする、画像処理の装置。 - 前記第1目標領域は髪領域で、前記第2目標領域は顔部領域であり、前記前景領域は前記目標対象の胴体領域をさらに含み、
前記目標トリマップにおいて、前記髪領域に対応する線幅は、前記胴体領域に対応する線幅よりも大きく、前記胴体領域に対応する線幅は、前記顔部領域に対応する線幅よりも大きいことを特徴とする、請求項11に記載の装置。 - 前記第1目標領域は髪領域で、前記第2目標領域は顔部領域であり、
前記トリマップ生成モジュールは、
前記第1画像及び前記第2画像に基づき、第1トリマップを生成する第1生成ユニットであって、前記第1トリマップは、前記前景領域、第1線分描画サブ領域及び第2線分描画サブ領域を含み、前記第1線分描画サブ領域は、背景領域側に近接する前記髪領域の輪郭線を被覆し、前記第2線分描画サブ領域は、前記前景領域における前記髪領域以外の領域であるその他の領域の輪郭線を被覆し、第1線幅は第2線幅よりも大きく、前記第1線幅は前記第1線分描画サブ領域を描画するために用いられ、前記第2線幅は前記第2線分描画サブ領域を描画するために用いられる第1生成ユニットと、
前記第3画像及び前記第1トリマップに基づき、前記目標トリマップを生成する第2生成ユニットと、を含むことを特徴とする、請求項11に記載の装置。 - 前記第1生成ユニットは、
前記第1画像において、前記前景領域の完全な輪郭線を取得し、
前記第2線幅に基づいて、前記前景領域の完全な輪郭線に線分を描画し、前記前景領域と前記前景領域の完全な輪郭線を被覆する第3線分描画サブ領域とを含む第2トリマップを取得し、
前記第2画像において、前記髪領域の完全な輪郭線を取得し、
前記第1線幅に基づいて、前記髪領域の完全な輪郭線に線分を描画し、前記髪領域と前記髪領域の完全な輪郭線を被覆する第4線分描画サブ領域とを含む第3トリマップを取得し、
前記第2トリマップと前記第3トリマップに対してマージ処理を行い、前記第1トリマップを取得することを特徴とする、請求項13に記載の装置。 - 1つ又は複数のプロセッサー及びメモリーを含むコンピュータデバイスであって、
前記メモリーは少なくとも1つのコンピュータ読み取り可能な命令を記憶し、前記少なくとも1つのコンピュータ読み取り可能な命令は、前記1つ又は複数のプロセッサーによってロードされ、請求項1~10のいずれか1項に記載の画像処理の方法を実行することを特徴とする、コンピュータデバイス。 - 1つ又は複数のプロセッサーによって実行されると、請求項1~10のいずれか1項に記載の画像処理の方法を実現するコンピュータ読み取り可能な命令を含むことを特徴とする、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110062567.1 | 2021-01-18 | ||
CN202110062567.1A CN113570614A (zh) | 2021-01-18 | 2021-01-18 | 图像处理方法、装置、设备及存储介质 |
PCT/CN2022/071306 WO2022152116A1 (zh) | 2021-01-18 | 2022-01-11 | 图像处理方法、装置、设备、存储介质及计算机程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023546607A JP2023546607A (ja) | 2023-11-06 |
JP7635372B2 true JP7635372B2 (ja) | 2025-02-25 |
Family
ID=
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015141633A (ja) | 2014-01-29 | 2015-08-03 | キヤノン株式会社 | 画像処理装置、画像処理方法、プログラム、及び記憶媒体 |
JP2019525515A (ja) | 2016-06-09 | 2019-09-05 | グーグル エルエルシー | マルチビューシーンのセグメンテーションおよび伝播 |
JP2020091867A (ja) | 2018-12-04 | 2020-06-11 | エヌエイチエヌ コーポレーション | ディープラーニング基盤の仮想ヘア染色方法及びこれを利用した仮想ヘア染色サービス提供方法 |
CN111383232A (zh) | 2018-12-29 | 2020-07-07 | Tcl集团股份有限公司 | 抠图方法、装置、终端设备及计算机可读存储介质 |
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015141633A (ja) | 2014-01-29 | 2015-08-03 | キヤノン株式会社 | 画像処理装置、画像処理方法、プログラム、及び記憶媒体 |
JP2019525515A (ja) | 2016-06-09 | 2019-09-05 | グーグル エルエルシー | マルチビューシーンのセグメンテーションおよび伝播 |
JP2020091867A (ja) | 2018-12-04 | 2020-06-11 | エヌエイチエヌ コーポレーション | ディープラーニング基盤の仮想ヘア染色方法及びこれを利用した仮想ヘア染色サービス提供方法 |
CN111383232A (zh) | 2018-12-29 | 2020-07-07 | Tcl集团股份有限公司 | 抠图方法、装置、终端设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10255681B2 (en) | Image matting using deep learning | |
US11308655B2 (en) | Image synthesis method and apparatus | |
CN107993216B (zh) | 一种图像融合方法及其设备、存储介质、终端 | |
US11450075B2 (en) | Virtually trying cloths on realistic body model of user | |
WO2022152116A1 (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN111541907B (zh) | 物品显示方法、装置、设备及存储介质 | |
JP2022542573A (ja) | 衣服の3次元モデルデータを生成するための方法およびコンピュータプログラム製品 | |
JP5299173B2 (ja) | 画像処理装置および画像処理方法、並びにプログラム | |
CN112749613B (zh) | 视频数据处理方法、装置、计算机设备及存储介质 | |
CN108876886B (zh) | 图像处理方法、装置和计算机设备 | |
US11978216B2 (en) | Patch-based image matting using deep learning | |
US20200065559A1 (en) | Generating a video using a video and user image or video | |
CN111738914A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
JP2024503794A (ja) | 2次元(2d)顔画像から色を抽出するための方法、システム及びコンピュータプログラム | |
CN110675413B (zh) | 三维人脸模型构建方法、装置、计算机设备及存储介质 | |
WO2017141223A1 (en) | Generating a video using a video and user image or video | |
CN111353069A (zh) | 一种人物场景视频生成方法、系统、装置及存储介质 | |
WO2022022260A1 (zh) | 图像风格迁移方法及其装置 | |
CN111107264A (zh) | 图像处理方法、装置、存储介质以及终端 | |
KR20240006814A (ko) | 신분증 인식 딥러닝을 위한 트레이닝 데이터 생성 방법 및 시스템 | |
Syahputra et al. | Finger recognition as interaction media in Augmented Reality for historical buildings in Matsum and Kesawan regions of Medan City | |
CN117689782B (zh) | 一种生成海报图像的方法、装置、设备及存储介质 | |
JP7635372B2 (ja) | 画像処理の方法、装置、デバイス及びコンピュータプログラム | |
Liu et al. | Light direction estimation and hand touchable interaction for augmented reality | |
CN114676360B (zh) | 图像处理方法、装置、电子设备及存储介质 |