Nothing Special   »   [go: up one dir, main page]

JP7476428B2 - 画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム - Google Patents

画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP7476428B2
JP7476428B2 JP2023528175A JP2023528175A JP7476428B2 JP 7476428 B2 JP7476428 B2 JP 7476428B2 JP 2023528175 A JP2023528175 A JP 2023528175A JP 2023528175 A JP2023528175 A JP 2023528175A JP 7476428 B2 JP7476428 B2 JP 7476428B2
Authority
JP
Japan
Prior art keywords
image
correction
gaze
target
eye
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023528175A
Other languages
English (en)
Other versions
JP2023548921A (ja
Inventor
珂珂 ▲賀▼
正▲カイ▼ ▲蒋▼
瑾▲龍▼ 彭
▲陽▼ 易
▲曉▼▲銘▼ 余
娟▲輝▼ ▲塗▼
易 周
▲亞▼▲彪▼ 王
▲穎▼ ▲タイ▼
▲チェン▼杰 汪
季▲リン▼ 李
▲飛▼▲躍▼ 黄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2023548921A publication Critical patent/JP2023548921A/ja
Application granted granted Critical
Publication of JP7476428B2 publication Critical patent/JP7476428B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Ophthalmology & Optometry (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Geometry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Description

(関連出願への相互参照)
本願は、2021年01月22日に中国特許局に提出された、出願番号が202110088338.7である中国特許出願の優先権を主張し、その内容の全てが引用により本願に組み込まれる。
本願は、人工知能技術の分野に関し、特に、画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品に関する。
人物や動物などの画像における対象の視線補正は、グラフィック画像処理における人工知能の代表的な適用であり、様々な適用シーンを有する。
一般的に、視線補正は通常、三角形の面の変形に基づいて実現され、まず、眼部輪郭上の複数のレジストレーションポイントを識別し、次に、当該複数のレジストレーションポイントに基づいて、眼部領域を複数の三角形領域に分割し、複数の三角形の面を得、次に、当該複数の三角形の面を伸ばすなどの変形を行い、目の開き具合を調整して視線を補正する。
しかしながら、上述した三角形の面の変形による視線補正の実現過程では、目の視線方向が左右にずれると、視線補正の精度が低下し、視線補正の効果が低下する。
本願の実施例は、視線補正の精度を向上させる画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品を提供する。
本願の実施例は、電子機器が実行する画像の視線補正方法を提供し、前記方法は、
補正対象画像から補正対象眼部画像を取得するステップと、
前記補正対象眼部画像に対して特徴抽出処理を行い、前記補正対象眼部画像の特徴情報を得るステップと、
前記特徴情報及び目標視線方向に基づいて、前記補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るステップであって、前記目標視線方向は、前記補正対象眼部画像における眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクは、前記補正対象眼部画像内の画素位置が眼部領域に属する確率を示すために用いられる、ステップと、
前記眼部輪郭マスクを採用して前記初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得るステップと、
前記補正後の眼部画像に基づいて、視線補正後の画像を生成するステップと、を含む。
本願の実施例は、電子機器が実行する視線補正モデルの訓練方法を提供し、前記方法は、
訓練対象視線補正モデルの訓練サンプルを取得するステップであって、前記訓練サンプルは、補正対象眼部画像サンプル及び目標補正眼部画像を含む、ステップと、
前記訓練対象視線補正モデルを介して、前記補正対象眼部画像サンプル、前記目標補正眼部画像、及び目標視線方向サンプルに対して視線補正処理を行い、初歩的補正後の眼部画像サンプル及び眼部輪郭マスクサンプルを得るステップであって、前記目標視線方向サンプルは、前記補正対象眼部画像サンプルにおける眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクサンプルは、前記補正対象眼部画像サンプルにおける画素位置が眼部領域に属する確率を示すために用いられる、ステップと、
前記眼部輪郭マスクサンプルを採用して前記初歩的補正後の眼部画像サンプルに対して調整処理を行い、補正後の眼部画像サンプルを得るステップと、
前記補正後の眼部画像サンプル及び前記目標補正眼部画像に基づいて、前記訓練対象視線補正モデルの損失を決定し、前記損失に基づいて前記訓練対象視線補正モデルのパラメータを調整して、視線補正モデルを得るステップと、を含む。
本願の実施例は、画像の視線補正装置を提供し、前記装置は、
補正対象画像から補正対象眼部画像を取得するように構成される眼部画像取得モジュールと、
前記補正対象眼部画像に対して特徴抽出処理を行い、前記補正対象眼部画像の特徴情報を得るように構成される特徴情報抽出モジュールと、
前記特徴情報及び目標視線方向に基づいて、前記補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るように構成される視線補正処理モジュールであって、前記目標視線方向は、前記補正対象眼部画像における眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクは、前記補正対象眼部画像内の画素位置が眼部領域に属する確率を示すために用いられる、視線補正処理モジュールと、
前記眼部輪郭マスクを採用して前記初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得るように構成される画像調整処理モジュールと、
前記補正後の眼部画像に基づいて、視線補正後の顔画像を生成するように構成される眼部画像統合モジュールと、を備える。
本願の実施例は、視線補正モデルの訓練装置を提供し、前記装置は、
訓練対象視線補正モデルの訓練サンプルを取得するように構成されるサンプル取得モジュールであって、前記訓練サンプルは、補正対象眼部画像サンプル及び目標補正眼部画像を含む、サンプル取得モジュールと、
前記訓練対象視線補正モデルを介して、前記補正対象眼部画像サンプル、前記目標補正眼部画像、及び目標視線方向サンプルに対して視線補正処理を行い、初歩的補正後の眼部画像サンプル及び眼部輪郭マスクサンプルを得るように構成されるモデル処理モジュールであって、前記目標視線方向サンプルは、前記補正対象眼部画像サンプルにおける眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクサンプルは、前記補正対象眼部画像サンプルにおける画素位置が眼部領域に属する確率を示すために用いられる、モデル処理モジュールと、
前記眼部輪郭マスクサンプルを採用して前記初歩的補正後の眼部画像サンプルに対して調整処理を行い、補正後の眼部画像サンプルを得るように構成される画像調整モジュールと、
前記補正後の眼部画像サンプル及び前記目標補正眼部画像に基づいて、前記訓練対象視線補正モデルの損失を決定し、前記損失に基づいて前記訓練対象視線補正モデルのパラメータを調整して、視線補正モデルを得るように構成されるパラメータ調整モジュールと、を備える。
本願の実施例は、電子機器を提供し、前記電子機器は、プロセッサと、メモリと、を備え、前記メモリに、少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶され、前記少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットは、前記プロセッサによってロードされて実行されることにより、本願の実施例によって提供される画像の視線補正方法、又は視線補正モデルの訓練方法を実現する。
本願の実施例は、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体に、少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶され、前記少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットは、プロセッサによってロードされて実行されることにより、本願の実施例によって提供される画像の視線補正方法、又は視線補正モデルの訓練方法を実現する。
本願の実施例は、コンピュータプログラム製品又はコンピュータプログラムを提供し、前記コンピュータプログラム製品又はコンピュータプログラムは、コンピュータ命令を含み、前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶される。電子機器のプロセッサは、コンピュータ可読記憶媒体から前記コンピュータ命令を読み取り、プロセッサは、前記コンピュータ命令を実行することにより、前記電子機器に、本願によって提供される画像の視線補正方法、又は視線補正モデルの訓練方法を実行させる。
本願の実施例による技術的方案の実施環境の概略図である。 ビデオ会議シーンにおけるカメラ、人の目、人の目の視線到達位置間のなす角度を示す模式図である。 本願の実施例による画像の視線補正方法のフローチャート1である。 本願の実施例による視線補正前後の対比図1である。 本願の実施例による視線補正前後の対比図2である。 本願の実施例による画像の視線補正方法のフローチャート2である。 本願の実施例による視線補正モデルの使用フローの概略図である。 本願の実施例による視線補正モデルの訓練方法のフローチャートである。 本願の実施例による視線補正モデルの訓練フローの概略図である。 本願の実施例による画像の視線補正装置のブロック図である。 本願の実施例による視線補正モデルの訓練装置のブロック図である。 本願実施例によるコンピュータ機器の構成を示す模式図である。
本願の実施例の技術的解決策をより明確に説明するために、上記で、実施例の説明で使用される図面について簡単に紹介している。明らかに、上記の図面は、本願のいくつかの実施例に過ぎず、当業者にとっては、創造的な労力を払わなくても、これらの図面に基づいて他の関連図面を得ることもできる。
本願の目的、技術方案及び利点をより明確に説明するために、以下では、添付の図面を参照して本願の実施形態についてさらに詳細に説明する。
本願の実施例を詳細に説明する前に、本願の実施例に係る名詞及び用語を説明する。本願の実施例に係る名詞及び用語の説明は、次の通りである。
1)人工知能は、デジタルコンピュータ又はデジタルコンピュータによって制御される機械を利用して、人間の知能に対してシミュレート、伸ばし及び拡張を行い、環境を知覚し、知識を取得し、知識を使用して最善の結果を得る理論、方法、技術、及びアプリケーションシステムである。つまり、人工知能は、知能の本質を理解し、人間の知能と同様の方式で反応できる新しい知能機械を作ろうとする、コンピュータ科学における総合的な技術である。人工知能は、機械に知覚、推論、意思決定の機能を有させるように、様々な知能機械の設計原理及び実現方法を研究することである。
説明すべきこととして、人工知能技術は、ハードウェア技術とソフトウェア技術の両方を含む幅広い分野を含む総合的な分野である。人工知能の基本技術に、一般的に、センサ、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、医用画像処理技術、操作/相互作用システム、メカトロニクスなどの技術が含まれる。人工知能ソフトウェア技術に、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習/深層学習などが含まれる。
2)コンピュータビジョン技術(CV:Computer Vision)は、機械に「見させる」方法を研究する科学であり、つまり、人間の目の代わりにカメラ及びコンピュータを使用して、目標を識別、追跡、測定などを実行する機械ビジョンであり、さらにグラフィックス処理を実行して、コンピュータの処理結果を、人間の目で観察したり、デバイスに伝送して検出したりするのにより適する画像にさせる。科学分野として、コンピュータビジョンは、関連する理論と技術を研究し、画像又は多次元データから情報を取得できる人工知能システムの構築を試みる。コンピュータビジョン技術に、通常、画像処理、画像認識、画像セマンティック理解、画像検索、光学式文字認識(OCR:Optical Character Recognition)、ビデオ処理、ビデオセマンティック理解、ビデオコンテンツ/動作認識、三次元オブジェクト再構築、三次元(3D:3 Dimension)技術、仮想現実、拡張現実、位置推定と地図生成の同時実行(SLAM)が含まれ、顔認識や指紋認識などの一般的な生物学的特徴認識技術も含まれる。
3)機械学習(ML:Machine Learning)は、確率論、統計学、近似理論、凸解析、アルゴリズム複雑性理論などの様々な分野に関連する多領域の学際的な分野である。機械学習は、コンピュータが人間の学習行動をシミュレート又は実現して、新しい知識やスキルを取得し、既存の知識構造を再編成して性能を継続的に向上させる方法を専門的に研究する。機械学習は人工知能のコアであり、コンピュータに知能を有させるための根本的な手段であり、人工知能の様々な分野に適用される。機械学習及び深層学習に、通常、人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納的学習(inductive learning)、デモンストレーションからの学習(Learning from Demonstration)などの技術が含まれる。
本願の実施例によって提供される画像の視線補正方法及び視線補正モデルの訓練方法は、人工知能の機械学習及びコンピュータビジョンなどの技術に関するものであり、以下に説明する。
図1を参照すると、図1は、本願の実施例による技術的方案の実施環境の概略図である。本方案の実施環境は、ビデオ会議システムであってもよい。本方案の実施環境は、視線補正システム100を実現するためのものであり、サーバ10及び複数の端末20を備えることができる。
端末20は、携帯電話、タブレット、パーソナルコンピュータ(PC:Personal Computer)、スマートテレビ、マルチメディア再生装置などの電子機器であり得る。端末20に、ビデオ会議アプリケーションを実行するクライアントがインストールされ、それにより、ユーザにビデオ会議機能を提供することができる。
サーバ10は、1つのサーバであってもよいし、複数のサーバから構成されるサーバクラスタであってもよいし、クラウドコンピューティングサービスセンターなどの電子機器であってもよい。サーバ10は、ビデオ会議アプリケーションのバックグラウンドサーバであり得、ビデオ会議アプリケーションのクライアントにバックグラウンドサービスを提供するために用いられる。
端末20とサーバ10との間は、ネットワーク30を介して通信することができる。また、当該視線補正システム100は、例えば、モデル訓練中に、サーバ20に訓練サンプルを提供することによって、サーバ20にデータサポートを提供するためのデータベース40をさらに備える。
端末20は、ビデオ会議中に、ネットワーク30を介して補正対象画像をサーバ10に送信し、ネットワーク30を介してサーバ10から送信された視線補正後の画像を受信し、当該視線補正後の画像を表示するために用いられる。
サーバ10は、ネットワーク30を介して端末20から送信された補正対象画像を受信し、補正対象画像から補正対象眼部画像を取得し、補正対象眼部画像に対して特徴抽出処理を行い、補正対象眼部画像の特徴情報を得、特徴情報及び目標視線方向に基づいて、補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得、ここで、目標視線方向は、補正対象眼部画像における眼部視線の補正予定の視線方向を指し、眼部輪郭マスクは、補正対象眼部画像内の画素位置が眼部領域に属する確率を示すために用いられ、眼部輪郭マスクを採用して初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を生成し、補正後の眼部画像に基づいて、視線補正後の画像を生成するために用いられる。また、ネットワーク30を介して視線補正後の画像を端末20に送信するために用いられる。
図2に示すように、ビデオ会議シーンでは、ユーザの視線として、通常、スクリーン21内の相手を見るが、カメラ22は、スクリーン21内に位置しておらず、他の位置(図2に示すスクリーン21の上方)に位置しているため、カメラ22、人の目及び人の目の視線で見る位置の間に通常、角度(図2の点線で示す角度α)がある。相手のユーザから見ると、ユーザの視線が相手を見ておらず、やや下を向いているように見えるため、ユーザのコミュニケーション体験に影響を与える。また、ビデオ会議シーンのほかにも、ビデオ通話やビデオ生配信などのシーンでも同様の問題がある。したがって、画像の表示効果が芳しくない問題を解決し、画像の表示効果及び視線補正の効率を向上させるために、視線補正を行う必要がある。
これに基づき、本願の実施例は、瞳のずれが大きい画像に対しても、リアルで正確な視線補正効果を得ることができる画像の視線補正方法及び視線補正モデルの訓練方法を提供する。
また、本願の実施例によって提供される画像の視線補正方法は、ビデオ会議、ビデオ通話、ビデオ生配信、及び画像処理などのシーンに適用することもでき、ここで、画像処理シーンはソーシャルソフトウェア共有シーンが挙げられ、視線変更の編集機能を提供し、ユーザの画像やビデオ内の対象の視線の補正をサポートし、例えば、本来aを見ている画像内の対象は、補正後にbを見るようになり、それによって、画像やビデオでオリジナルの画像やビデオと異なる情報を伝わせる。
図3を参照すると、図3は、本願の実施例によって提供される画像の視線補正方法のフローチャートである。当該画像の視線補正方法の実行主体(本願の実施例によって提供される電子機器である)は、携帯電話、タブレット、PCなどの端末機器であってもよいし、サーバであってもよい。当該画像の視線補正方法は、ステップ310~ステップ350を含み得る。
ステップ310において、補正対象画像から補正対象眼部画像を取得する。
本願の実施例では、補正対象画像は、顔面部を含む画像、例えば、顔を含む画像を指し、当該補正対象画像は、1枚の写真又は画像であってもよいし、ビデオ内の1つのビデオフレーム画像であってもよいし、本願の実施例は、これらに限定されない。補正対象眼部画像は、補正対象画像から切り出した、視線補正が必要な眼部領域を含む画像である。
説明すべきこととして、補正対象画像に2つの目が含まれる場合、例えば、1つの顔画像に左右の目が含まれる場合、1枚の補正対象画像から2枚の補正対象眼部画像を取得することができ、一方の補正対象眼部画像は、左目の補正対象眼部画像に対応し、他方の補正対象眼部画像は、右目の補正対象眼部画像に対応する。
本願の実施例では、電子機器は、補正対象画像に対して顔面部検出を行い、ここで、補正対象画像は、顔画像、顔面部検出が顔検出である場合を例として説明しており、顔画像に顔が含まれているか否かを決定し、顔が含まれている場合に顔の位置を決定し、つまり、顔画像に顔が含まれている場合、顔キーポイント検出を行う。本願の実施例は、視線補正を行うために用いられ、眼部領域に焦点が当てられているため、電子機器は、顔キーポイント検出を行うとき、眼部キーポイントの検出のみ行うことができ、口や鼻など他の部位のキーポイントを検出する必要がない。
本願の実施例では、電子機器は、目の輪郭キーポイントに基づいて、目の最小外接矩形を決定し、目の最小外接矩形を指定された倍数で外部拡張して、目の画像切り出し枠を得、当該目の画像切り出し枠に基づいて、補正対象画像から目の補正対象眼部画像を切り出す。
説明すべきこととして、目の最小外接矩形は、当該目を含む最小外接矩形枠を指す。例えば、左目の最小外接矩形は、当該左目の最小外接矩形枠を指す。上記の指定倍数は、例えば、1.5倍、2倍、又は3倍などの所定の値であってもよいし、本願の実施例は、これらに限定されない。電子機器は、目の最小外接矩形を外部拡張して画像切り出し枠を得る過程で、当該最小外接矩形の中心点を中心として、最小外接矩形に対して等比例拡大処理を行い、画像切り出し枠を得る、当該画像切り出し枠の中心点は、上記の最小外接矩形の中心点と同じである。最後に、画像切り出し技術を採用して、補正対象画像から当該目の画像切り出し枠内の画像内容を切り出し、目の補正対象眼部画像を得る。
理解可能なこととして、補正対象画像から補正対象眼部画像を取得し、当該補正対象眼部画像に対して視線補正処理を行うことにより、後続の視線補正ステップの計算量を減らし、視線補正の効率を向上させるのに有利である。
ステップ320において、補正対象眼部画像に対して特徴抽出処理を行い、補正対象眼部画像の特徴情報を得る。
本願の実施例では、電子機器は、補正対象眼部画像に対して特徴抽出処理を行い、目つき特徴、眼部テクスチャ特徴、及び環境特徴を得、特定目つき特徴、眼部テクスチャ特徴、及び環境関連特徴を、特徴情報として決定する。また、特徴抽出処理では、ニューラルネットワークモデルを介して当該補正対象眼部画像に対して特徴抽出処理を行い、補正対象眼部画像の特徴情報を得ることもできる。特徴情報は、当該補正対象眼部画像の画像特徴を反映するために用いられる。
説明すべきこととして、特徴情報は、目つき特徴、目つき無関連特徴、及び環境特徴を含む。ここで、目つき特徴は、目の視線に関連する特徴情報を指し、目つき無関連特徴は、目の視線に関連しない特徴情報、例えば、眼部テクスチャ特徴などの情報を指し、環境特徴は、画像の照度、明暗、彩度などの特徴を表す情報を指す。
本願の実施例では、複数の特徴情報を合わせて視線補正を行うため、異なる環境における視線補正の頑健性を向上させるのに有利であり、様々な異なる環境でも良好な視線補正効果を得ることができる。
ステップ330において、特徴情報及び目標視線方向に基づいて、補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得る。
説明すべきこととして、目標視線方向は、補正対象眼部画像における眼部視線の補正予定の視線方向を指す。本願の実施例では、目標視線方向は、カメラを正視する方向を指し、それにより、補正対象眼部画像における眼部視線をカメラの方向を正視する方向に補正することができる。本願の実施例では、目標視線方向は、ピッチ角(Pitch)及びヨー角(Yaw)を含み、例えば、カメラを正視する場合、ピッチ角は0°に等しく、且つヨー角も0°に等しいと定義する。
本願の実施例では、眼部輪郭マスクは、補正対象眼部画像サンプルにおける画素位置が眼部領域に属する確率を示すために用いられる。例えば、眼部輪郭マスクは1つの1次元画像として表すことができ、当該1次元画像のサイズ(高さと幅を含む)は補正対象眼部画像のサイズと同じである。眼部輪郭マスクにおける画素の画素値は確率値であり得、補正対象眼部画像における同じ位置にある画素が眼部領域に属する確率を表す。例えば、眼部輪郭マスクにおける座標が(i,j)である位置の画素値は、[0,1]の範囲に属する確率値であり得、補正対象眼部画像における座標が(i,j)である位置の画素が眼部領域に属する確率を表す。
本願の実施例では、上記のステップ320及びステップ330は、視線補正モデルによって実現することができる。視線補正モデルは、ニューラルネットワークモデルであり得、符号化ネットワーク及び復号化ネットワークを含み得る。符号化ネットワークは、入力データ(即ち、補正対象眼部画像)に対して特徴抽出処理を行い、当該補正対象眼部画像の特徴情報を得るために用いられ、復号化ネットワークは、上記の特徴情報及び目標視線方向に基づいて、補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るために用いられる。
ステップ340において、眼部輪郭マスクを採用して初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得る。
説明すべきこととして、調整処理は、初歩的補正後の眼部画像における眼部領域以外の領域を復元するために用いられる。本願の実施例では、ステップ340は、以下のようないくつかのステップを含む。
ステップ3401において、眼部輪郭マスクと、初歩的補正後の眼部画像における対応位置の画素値とを融合(例えば、乗算)して、第1中間画像を得る。
ステップ3402において、眼部輪郭マスクに対応するマッピング画像と、補正対象眼部画像における対応位置の画素値とを融合(例えば、乗算)して、第2中間画像を得る。
ステップ3403において、第1中間画像と第2中間画像における対応位置の画素値とを融合(例えば、加算)して、補正後の眼部画像を得る。
本願の実施例では、眼部輪郭マスクにおける各位置の画素値は、[0,1]の範囲に属する確率値であり、眼部輪郭マスクに対応するマッピング画像における任意の位置の画素値は、1から眼部輪郭マスクにおける同じ位置の画素値(即ち、確率値)を減算して得られた値である。例えば、眼部輪郭マスクにおける座標が(i,j)である位置の画素値(即ち、確率値)が0.2である場合、眼部輪郭マスクに対応するマッピング画像における座標が(i,j)である位置の画素値は、1-0.2=0.8である。
本願の実施例では、電子機器が生成する補正後の眼部画像は、下記の式、即ち、補正後の眼部画像=眼部輪郭マスク×初歩的補正後の眼部画像+(1-眼部輪郭マスク)×補正対象眼部画像という式で表すことができる。
ステップ350において、補正後の眼部画像に基づいて、視線補正後の画像を生成するステップと、を含む。
本願の実施例では、電子機器は、補正後の眼部画像をオリジナルの補正対象画像に統合し、補正後の眼部画像を採用して補正対象画像内の補正対象眼部画像を上書き又は置き換えて、視線補正後の画像を得る。
本願の実施例では、電子機器は、補正後の眼部画像を補正対象眼部画像在補正対象画像の画像切り出し枠位置に統合して、統合画像を得、当該統合画像における前記画像切り出し枠位置に対して画像調和処理を行い、視線補正後の画像を得る。ここで、画像調和処理は、画像切り出し枠位置での境界痕跡を除去するために用いられる。
本願の実施例では、電子機器は、ガウスぼかし、収縮膨張、深度学習に基づく画像の調和方法など、画像調和処理に採用する方式を限定しない。
本願の実施例では、電子機器は、以下のステップで統合画像における画像切り出し枠位置に対して画像調和処理を行い、視線補正後の画像を得る。
まず、電子機器は、補正対象画像と同じサイズの初期化マスク画像を生成し、当該初期化マスク画像の画像切り出し枠位置の画素値は、1であり、残りの位置の画素値は、0である。例えば、オリジナルの補正対象画像のサイズが、C×H×Wであると仮定すると、ここで、Cは、チャンネル数(例えば、赤(R:Red)、緑(G:Green)、青(B:Blue)の3チャンネルを含む)であり、Hは、高さ(例えば、高さ方向に含まれる画素数)であり、Wは、幅(例えば、幅方向に含まれる画素数)である。画像切り出し枠は、補正対象画像における目標位置のサイズがh×wである矩形枠であり、hが高さ(例えば、高さ方向に含まれる画素数)であり、wが幅(例えば、幅方向に含まれる画素数)である場合、補正対象眼部画像及び補正後の眼部画像のサイズは、いずれもc×h×wであり、cは、チャンネル数(例えば、R、G、Bの3チャンネルを含む)である。
説明すべきこととして、電子機器は、サイズがC×H×Wである初期化マスク画像を生成し、C個のチャンネル内の各単一チャンネル画像H×Wを対象にして、上記の目標位置のh×w画像切り出し枠における画素値を、1と設定し、当該画像切り出し枠を除いた他の領域の画素値を、0と設定して、初期化マスク画像とする。
次に、電子機器は、初期化マスク画像に対してノイズ処理(例えば、収縮処理及びガウスぼかし処理)を行い、処理後のマスク画像を得る。
説明すべきこととして、収縮処理は、物体間の境界点を除去するために用いられ、例えば、楕円テンプレートを採用して、初期化マスク画像に対して収縮処理を行い、収縮後のマスク画像を得ることができる。ガウスぼかし処理は、ガウス平滑化処理とも呼ばれ、画像ノイズを減らし、細部のレベルを低減するために用いられる。上記の収縮後のマスク画像を得た後、電子機器は、当該収縮後のマスク画像に対してガウスぼかし処理を行い、処理後のマスク画像を得ることができる。処理後のマスク画像は、依然としてサイズがC×H×Wである画像であり、各画素の値は、[0,1]の範囲内にあり、本来の0と1の間の境界位置にある画素については、上記の収縮操作及びガウスぼかし処理を行った後、値が0と1の間となり、それにより、滑らかな遷移が可能となる。
次に、電子機器は、処理後のマスク画像と、統合画像における対応位置の画素値とを融合(例えば、乗算)して、第1生成画像を得る。
次に、電子機器は、処理後のマスク画像に対応するマッピング画像と、顔画像における対応位置の画素値とを融合(例えば、乗算)して、第2生成画像を得る。
最後に、電子機器は、第1生成画像と、第2生成画像における対応位置の画素値とを加算して、視線補正後の画像を得る。
説明すべきこととして、処理後のマスク画像における各位置の画素値は、[0,1]の範囲に属する値であり、処理後のマスク画像に対応するマッピング画像の任意の位置の画素値は、1から処理後のマスク画像における同じ位置の画素値を減算して得られた値である。例えば、処理後のマスク画像における座標が(i,j)である位置の画素値が0.3である場合、処理後のマスク画像に対応するマッピング画像における座標が(i,j)である位置の画素値は、1-0.3=0.7である。
本願の実施例では、電子機器が視線補正後の画像を生成するステップは、下記の式、即ち、視線補正後の画像=処理後のマスク画像×統合画像+(1-処理後のマスク画像)×補正対象画像という式で表すことができる。
理解可能なこととして、画像調和処理により、統合画像における画像切り出し枠位置での境界痕跡を除去することができるため、最終的に得られる視線補正後の画像に目立つステッチの跡がなく、それにより、視線補正効果を高めることができる。
図4に示すように、図4は、本願の実施例によって提供される画像の視線補正方法による視線補正前後の対比図である。図4に示すように、画像41は、補正対象画像であり、人の目の視線がオフセットされており、画像42は、視線補正後の画像であり、視線が真正面に集中した状態である。
説明すべきこととして、視線補正を実現するために、補正対象眼部画像によって眼部運動フローフィールドを生成し、次に、当該眼部運動フローフィールドに基づいて上記の補正対象眼部画像における画素に対して変位処理を行い、補正後の眼部画像を生成してもよいが、上記の視線補正を実現する過程は、画素位置の移動を学習することにより実現され、このようにして、生成された画素はすべて入力された画素からのものであるため、柔軟性が悪く、歪みを生じやすい。例えば、瞳のずれが大きい場合、歪みが発生する。
図5に示すように、画像51は、視線補正が行われていない補正対象画像であり、瞳のずれが大きく、画像52は、フローモデルに基づく視線補正方法によって生成された視線補正後の画像であり、図5から明らかに分かるように、瞳の位置に歪がある。画像53は、本願の実施例によって提供される画像の視線補正方法を採用して視線補正を行った後の画像であり、人の目の視線が真正面に集中し、瞳の位置に歪がない。
理解可能なこととして、本願の実施例によって提供される画像の視線補正方法は、補正対象眼部画像の特徴情報及び目標視線方向に基づいて、当該補正対象眼部画像に対して視線補正処理を行い、補正後の眼部画像を得ることにより、瞳のずれが大きい画像に対しても、リアルで正確な視線補正効果を得ることができる。
さらに、本願の実施例では、視線補正の過程で眼部輪郭マスクを利用し、アテンションメカニズムに従って補正対象眼部画像と、眼部運動フローフィールドによって得られる初歩的補正後の眼部画像とを融合することにより、生成された画像の安定性を向上させるだけでなく、眼部輪郭外部の画像内容に対して視線補正を行わずに、眼部輪郭内部の画像内容のみを視線補正することも保証し、最終的に得られる補正後の眼部画像の視線補正効果を向上させることができる。
図6を参照すると、図6は、願の実施例によって提供される画像の視線補正方法のフローチャートである。当該画像の視線補正方法の実行主体は、携帯電話、タブレット、PCなどの端末機器であってもよいし、サーバなどの電子機器であってもよい。当該画像の視線補正方法は、ステップ610~ステップ670を含み得る。
ステップ610において、補正対象画像から補正対象眼部画像を取得する。
説明すべきこととして、ステップ610は、ステップ310と同様又は類似している。
ステップ620において、視線補正モデルの符号化ネットワークを介して、補正対象眼部画像に対して特徴抽出処理を行い、特徴情報を得る。
ここで、特徴情報は、目つき特徴、眼部テクスチャ特徴、及び環境特徴を含む。
ステップ630において、特徴情報と目標視線方向とをチャンネル次元で組み合わせて、組み合わせデータを得る。
本願の実施例では、電子機器は、特徴情報を得た後、当該特徴情報と目標視線方向とをチャンネル次元で組み合わせて、組み合わせデータを得る。例示的に、補正対象眼部画像の高さは、Hであり、幅は、Wであり、H及びWは、それぞれ高さ方向の画素数、幅方向の画素数を表すことができる。そして、補正対象眼部画像は、1つのH×W×3の3チャンネル画像であり、当該補正対象眼部画像を視線補正モデルの符号化ネットワークに入力して、特徴情報を出力する。その後、特徴情報と目標視線方向とをチャンネル次元で組み合わせて、組み合わせデータを得る。目標視線方向は、ピッチ角及びヨー角を含み、例えば、カメラを正視する場合、ピッチ角は0°に等しく、且つヨー角も0°に等しいと定義し、補正対象眼部画像の目の視線をカメラを正視する方向に補正するために用いられる。
ステップ640において、視線補正モデルの復号化ネットワークを介して、組み合わせデータを処理して、視線補正モデルの出力データを得る。
ステップ650において、出力データから初歩的補正後の眼部画像及び眼部輪郭マスクを抽出する。
説明すべきこととして、復号化ネットワークは、上記の特徴情報と目標視線方向との組み合わせデータに基づいて、補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るために用いられる。例示的に、視線補正モデルの出力データは、H×W×4の4チャンネル画像を含み得、その中から3チャンネルのデータH×W×3を、眼部運動フローフィールドとして抽出し、残りの1チャンネルのデータH×W×1を眼部輪郭マスクとする。
ステップ660において、眼部輪郭マスクを採用して初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得る。
説明すべきこととして、ステップ660は、ステップ340と同様又は類似している。
ステップ670において、補正後の眼部画像に基づいて、視線補正後の画像を生成する。
説明すべきこととして、ステップ670は、ステップ350と同様又は類似している。
図7を参照すると、入力された補正対象画像71に対して顔検出とレジストレーションを行い、入力された補正対象画像71から補正対象眼部画像72を切り出し、当該補正対象眼部画像72を視線補正モデルの符号化ネットワーク(即ち、図7に示すエンコーダ731)に入力して、目つき特徴771、目つき無関連特徴772、及び環境特徴773などの特徴情報を得、次に、当該特徴情報と目標視線方向78とを融合し、融合結果を視線補正モデルの復号化ネットワーク(即ち、図7に示すデコーダ732)に入力し、当該復号化ネットワークから初歩的補正後の眼部画像741及び眼部輪郭マスク742を出力し、次に、眼部輪郭マスク742を採用して初歩的補正後の眼部画像741に対して調整処理を行い、補正後の眼部画像75を生成し、最後に、補正後の眼部画像75と補正対象画像71とを統合処理して、視線補正後の画像76を得る。
理解可能なこととして、本願の実施例によって提供される画像の視線補正方法では、特徴抽出、及び初歩的補正後の眼部画像及び眼部輪郭マスクの生成により、プロセスが簡単で効率的になり、視線補正機能を実際に使用可能なレベルまでさせ、ビデオ会議、ビデオ通話、ビデオ生配信などのシーンに適合することができる。
以下、視線補正モデルの訓練フローについて説明するが、当該視線補正モデルの使用中に関する内容及び訓練過程中に関する内容は類似している。
図8を参照すると、図8は、本願の実施例による視線補正モデルの訓練方法のフローチャートである。当該視線補正モデルの訓練方法の実行主体は、コンピュータやサーバなどの電子機器であってもよい。当該視線補正モデルの訓練方法は、ステップ810~ステップ840を含み得る。
ステップ810において、訓練対象視線補正モデルの訓練サンプルを取得し、訓練サンプルは、補正対象眼部画像サンプル及び目標補正眼部画像を含む。
説明すべきこととして、訓練対象の補正モデルは、視線補正のための訓練対象のモデルであるニューラルネットワークモデルであってもよいし、オリジナルモデルであってもよいし、事前に訓練したモデルであってもよいし、本願の実施例は、これらに限定されない。
本願の実施例では、訓練対象視線補正モデルの入力データは、補正対象眼部画像サンプルを含み、出力データは、初歩的補正後の眼部画像及び眼部輪郭マスクを含む。
説明すべきこととして、各訓練サンプルは、それぞれ同じ対象(例えば、人)が同じ頭部姿勢角度で撮影した異なる視線の2枚の画像を含み、一方の画像は、補正対象眼部画像サンプルとして使用される任意の視線方向の画像(例えば、視線が正視するディスプレイ領域)であり得、他方の画像は、目標補正眼部画像として使用される、視線がカメラを正視する画像である。このような訓練サンプルで訓練対象視線補正モデルを訓練することにより、エンドツーエンドの視線補正モデルを訓練して得ることができ、視線補正モデルは、入力された補正対象眼部画像に基づいて、正視効果(例えば、視線がカメラを正視する)を有する補正後の眼部画像を出力する。
さらに、異なる訓練サンプルは、異なる対象(例えば、異なる人物)に基づいて取得されてもよいし、異なる頭部姿勢角度に基づいて取得されてもよいし、本願の実施例は、これらに限定されない。即ち、訓練対象視線補正モデルの訓練サンプルセットは、複数の訓練サンプルを含み得、当該複数の訓練サンプルは、異なる対象を有する訓練サンプル、異なる頭部姿勢角度を有する訓練サンプルを含み得、それにより、訓練された視線補正モデルを異なる対象及び異なる頭部姿勢角度に適応させ、視線補正モデルの頑健性を向上させることができる。
ステップ820において、訓練対象視線補正モデルを介して、前記補正対象眼部画像サンプル、前記目標補正眼部画像、及び目標視線方向サンプルに対して視線補正処理を行い、初歩的補正後の眼部画像サンプル及び眼部輪郭マスクサンプルを得る。
本願の実施例では、目標視線方向サンプルは、補正対象眼部画像サンプルにおける眼部視線の補正予定の視線方向を指す。説明すべきこととして、訓練中に、目標視線方向サンプルは、カメラを正視する(0°,0°)方向であってもよいし、他の任意の方向であってもよいため、訓練された視線補正モデルは、視線を任意の視線方向に補正することができる。
本願の実施例では、眼部輪郭マスクは、補正対象眼部画像サンプルにおける画素位置が眼部領域に属する確率を示すために用いられる。
本願の実施例では、図9に示すように、訓練対象視線補正モデルは、第1訓練対象符号化ネットワーク911、第2訓練対象符号化ネットワーク912、及び訓練対象復号化ネットワーク913を含む。
第1訓練対象符号化ネットワーク911を介して、補正対象眼部画像サンプル921に対して特徴抽出処理を行い、補正対象眼部画像サンプルに対応する特徴情報サンプルを得、目つき特徴サンプルZ_i、目つき無関連特徴サンプルI_i、及び環境特徴サンプルL_iを含む。ここで、補正対象眼部画像サンプル921は、画像サンプル93に対して顔検出及びレジストレーションを行うことによって取得される。
第2訓練対象符号化ネットワーク912を介して、目標補正眼部画像922に対して特徴抽出処理を行い、目標補正眼部画像に対応する目標特徴情報を得、目標目つき特徴Z_g、目標目つき無関連特徴I_g、及び目標環境特徴L_gを含む。
訓練対象復号化ネットワーク913を介して、補正対象眼部画像サンプルに対応する目つき特徴サンプルZ_i、及び目つき無関連特徴サンプルI_i、目標補正眼部画像に対応する目標環境特徴L_g、及び目標視線方向94(θ1,θ2)に対して視線補正処理を行い、初歩的補正後の眼部画像サンプル951及び眼部輪郭マスクサンプル952を得、ここで、眼部輪郭マスクサンプル952を採用して初歩的補正後の眼部画像サンプル951に対して調整処理を行い、補正後の眼部画像サンプル96を得る。
理解可能なこととして、訓練中に、各訓練サンプルに含まれる補正対象眼部画像サンプルと目標補正眼部画像の2枚の画像に、光などの環境ノイズの違いがあるため、電子機器は、エンコーダ(即ち、第1訓練対象符号化ネットワーク)の学習中に、特徴情報を、目つき特徴サンプルと目つき無関連特徴サンプルにデカップリングし、目標補正眼部画像に対応する目標環境特徴を訓練対象復号化ネットワークに入力することにより、環境ノイズによる干渉を低減し、視線補正の精度を向上させることができる。
ステップ830において、眼部輪郭マスクサンプルを採用して初歩的補正後の眼部画像サンプルに対して調整処理を行い、補正後の眼部画像サンプルを得る。
本願の実施例では、電子機器は、眼部輪郭マスクサンプルと、初歩的補正後の眼部画像サンプルにおける対応位置の画素値とを乗算して、第3中間画像を得、眼部輪郭マスクサンプルに対応するマッピング画像と、補正対象眼部画像サンプルにおける対応位置の画素値とを乗算して、第4中間画像を得、第3中間画像と第4中間画像における対応位置の画素値を加算して、補正後の眼部画像サンプルを得る。当該補正後の眼部画像サンプルを取得する過程は、ステップ340と類似している。
ステップ840において、補正後の眼部画像サンプル及び目標補正眼部画像に基づいて、訓練対象視線補正モデルの損失を決定し、損失に基づいて訓練対象視線補正モデルのパラメータを調整して、視線補正モデルを得る。
説明すべきこととして、訓練対象視線補正モデルの損失は、訓練対象視線補正モデルの性能を判断するために用いられる。
本願の実施例では、電子機器は、当該訓練対象視線補正モデルの損失に基づいて、勾配降下アルゴリズムを採用して訓練対象視線補正モデルのパラメータを調整して、モデルパラメータを最適化し、訓練が完了すると、視線補正モデルも得られる。
本願の実施例では、訓練対象視線補正モデルの損失は、以下のいくつかの態様を含み得る。
まず、電子機器は、補正後の眼部画像サンプルと目標補正眼部画像との画素差に基づいて、再構成損失を決定する。
説明すべきこととして、再構成損失は、2つの画像の画素上の違いを判断するために用いられ、当該再構成損失は下記の式1によって算出することができる。
[式1]
Reconstruction_loss=|fake_img-gt_img|
ここで、Reconstruction_lossは、再構成損失を表し、fake_imgは、補正後の眼部画像サンプルを表し、gt_imgは、目標補正眼部画像を表す。当該再構成損失は、L1損失、L2損失又は他のいくつかのアルゴリズムを採用して得られる損失であり得、本願実施例は、これらに限定されない。
次に、電子機器は、補正後の眼部画像サンプルと目標補正眼部画像との画像特徴差に基づいて、特徴損失を決定する。
説明すべきこととして、特徴損失は、2つの画像の画像特徴の差を判断するために用いられる。
本願の実施例では、特徴損失は、学習知覚画像パッチ類似性(LPIPS:Learned Perceptual Image Patch Similarity)損失を含み、LPIPS損失によって2つの画像間の視覚的感知差を正確に取得することができる。
説明すべきこととして、LPIPS損失は、事前に訓練して生成された損失計算モデルによって得られる。ここで、電子機器は、補正後の眼部画像サンプル及び目標補正眼部画像を損失計算モデルに入力し、損失計算モデルによって、補正後の眼部画像サンプルと目標補正眼部画像とのLPIPS損失が出力される。ここで、損失計算モデルは、ビジュアルジオメトリグループ(VGG:Visual Geometry Group)モデルなど、事前に訓練された畳み込みニューラルネットワークモデルであり得る。
例えば、VGGモデルを介して補正後の眼部画像サンプルfake_imgから抽出した画像特徴を、vgg_feature(fake_img)とし、VGGモデルを介して目標補正眼部画像gt_imgから抽出した画像特徴を、vgg_feature(gt_img)とする。vgg_feature(fake_img)に対応する異なるネットワーク層の特徴が、fake_img_fea1、fake_img_fea2、fake_img_fea3、及びfake_img_fea4を含み、vgg_feature(gt_img)に対応する異なるネットワーク層の特徴が、gt_img_fea1、gt_img_fea2、gt_img_fea3、及びgt_img_fea4を含む場合、LPIPS損失LPIPS_lossは、下記の式2に示す通りである。
[式2]
LPIPS_loss=|fake_img_fea1-gt_img_fea1|+|fake_img_fea2-gt_img_fea2|+|fake_img_fea3-gt_img_fea4|+|fake_img_fea4-gt_img_fea4|
本願の実施例では、電子機器は、ソフトウェアシミュレーション技術を採用して、複数のシミュレーション画像対を生成し、各シミュレーション画像対は、1組の対応する非正視眼部シミュレーション画像及び正視眼部シミュレーション画像を含み、ここで、電子機器は、上記の複数のシミュレーション画像対を採用して損失計算モデルを訓練する。
説明すべきこととして、シミュレーション画像は、実際の目の外観テクスチャ情報とは差異があるが、シミュレーション画像の視線方向と眼球位置との関係は、実際な対象の視線方向と眼球位置との関係と同じであり、且つシミュレーション画像の視線方向は、データ生成時に決定されるため、大量のラベリングコストを削減し、基準効率を向上させることができる。
理解可能なこととして、本願の実施例においてシミュレーション画像により事前に訓練された損失計算モデルは、実際の目のデータに対応するモデル訓練におけるLPIPS損失の計算に直接用いられ得、損失計算モデルによって得られたLPIPS損失に表される視覚感知情報は、視線の方向であり、したがって、モデルの訓練効果及び効率を向上させることができる。
次に、電子機器は、補正後の眼部画像サンプルと目標補正眼部画像との生成対抗損失を決定する。
説明すべきこととして、生成対抗ネットワーク(GAN:Generative Adversarial Network)は、非監視的学習の1つの方法であり、2つのニューラルネットワークが互いに競う方式で学習し、1つの生成ネットワークと1つの判別ネットワークから構成される。生成ネットワークは、潜在空間(Latent Space)からランダムでサンプルを選択して入力とし、生成ネットワークの出力結果は、訓練セット内の実際のサンプルをできるだけ模倣する必要がある。判別ネットワークの入力は、実際のサンプル又は生成ネットワークの出力結果であり、判別ネットワークは、実際のサンプルから生成ネットワークの出力結果をできるだけ判別するために用いられる。一方、生成ネットワークは、判別ネットワークをできるだけ欺く必要がある。2つのネットワークは互いに対抗し、常にパラメータを調整し、最終的には偽の画像を生成する。
本願の実施例では、上述した第1訓練対象符号化ネットワーク、第2訓練対象符号化ネットワーク、及び訓練対象復号化ネットワークの視線補正モデルは、生成ネットワークであり、判別ネットワーク、即ち、図9に示すマルチスケール判別器97は、当該判別器Dに送り込まれる画像が生成ネットワークから生成された画像(即ち、補正後の眼部画像サンプル)であるか、実画像((即ち、目標補正眼部画像)であるかを判別するために用いられる。
本願の実施例では、当該判別器Dは、マルチスケール判別器であり得、例えば、マルチスケール判別器の入力は、原図、原図の1/2サイズ、原図の1/4サイズなど、複数の異なるサイズの画像であり得る。ここで、生成対抗損失は、生成ネットワーク損失及び判別ネットワーク損失を含み、生成ネットワーク損失は、生成ネットワークの損失であり、判別ネットワーク損失は、判別ネットワークの損失である。判別ネットワーク損失は、判別ネットワークの判別精度を判断するために用いられ、生成ネットワーク損失は、生成された補正後の眼部画像サンプルと目標補正眼部画像との近接度を判断するために用いられる。
例えば、判別ネットワーク損失D_lossは、式3で表すことができ、生成ネットワーク損失G_lossは、式4で表すことができ、式3及び式4は下記に示す通りである。
[式3]
D_loss=1/3*(-logD(gt_img)-log(1-D(fake_img))-logD(gt_img_1/2)-log(1-D(fake_img_1/2))-logD(gt_img_1/4)-log(1-D(fake_img_1/4)))
[式4]
G_loss=log(1-D(fake_img))
ここで、D(X)は、入力画像Xに対する判別ネットワークの判別結果を表し、gt_img_1/2は、目標補正眼部画像の1/2であり、gt_img_1/4は、目標補正眼部画像の1/4であり、fake_img_1/2は、補正後の眼部画像サンプルの1/2であり、fake_img_1/4は、補正後の眼部画像サンプルの1/4である。
最後に、電子機器は、再構成損失、特徴損失、及び生成対抗損失に基づいて、視線補正モデルの損失を決定する。例えば、上記の再構成損失Reconstruction_loss、特徴損失LPIPS_loss、及び生成対抗損失(判別ネットワークの損失D_loss及び生成ネットワークの損失G_lossを含む)に対して、直接加算又は重み付け加算を行い、訓練対象視線補正モデルの損失を得ることができる。
本願の実施例では、訓練対象視線補正モデルの損失は、視線推定損失をさらに含む。図9に示すように、補正後の眼部画像サンプル96を得た後、電子機器は、補正後の眼部画像サンプル96に対して視線推定を行い、補正後の眼部画像サンプル96の視線方向(θ1’,θ2’)を得、補正後の眼部画像サンプルの視線方向及び目標視線方向に基づいて、視線推定損失を決定する。ここで、補正後の眼部画像サンプルに対して視線推定を行い、補正後の眼部画像サンプルの視線方向を得ることは、視線推定能力を有する1つのニューラルネットワークを事前に訓練することにより実現することができる。
本願の実施例では、視線推定損失Gaze_lossは、式5で表すことができ、式5は、下記に示す通りである。
[式5]
Gaze_loss=||θ1’-θ1||+||θ2’-θ2||
ここで、(θ1’,θ2’)は、予測して得た補正後の眼部画像サンプルの視線方向を表し、(θ1,θ2)は、目標視線方向を表す。次に、電子機器は、視線推定損失Gaze_loss、再構成損失Reconstruction_loss、特徴損失LPIPS_loss、判別ネットワークの損失D_loss、及び生成ネットワークの損失G_lossに基づいて、訓練対象視線補正モデルの損失を決定する。例えば、訓練対象視線補正モデルの損失lossは、式6で表すことができ、式6は、下記に示す通りである。
[式6]
loss=Gaze_loss+Reconstruction_loss+LPIPS_loss+D_loss+G_loss
本願の実施例では、電子機器は、訓練対象視線補正モデルの損失lossを算出するときに、重み付け加算の方式を採用して算出することもでき、本願の実施例は、これらに限定されない。
説明すべきこととして、電子機器が訓練対象視線補正モデルの訓練を完了し、視線補正モデルを得た後、視線補正モデルの使用中には、訓練された第1訓練対象符号化ネットワークを符号化ネットワークとして使用すればよく、訓練された第2訓練対象符号化ネットワークを必要としない。
理解可能なこととして、本願の実施例によって提供される視線補正モデルの訓練方法では、訓練対象視線補正モデルの訓練中に、各訓練サンプルに含まれる補正対象眼部画像サンプルと目標補正眼部画像の2枚の画像に、光などの環境ノイズの違いがあるため、本願の実施例は、エンコーダの学習過程において、特徴情報を、特定目つき特徴、目つき特徴サンプル、及び環境関連特徴サンプルにデカップリングし、目標補正眼部画像に対応する目標環境特徴を訓練対象復号化ネットワークに入力することにより、環境ノイズによる干渉を低減し、最終的に訓練して得られる視線補正モデルの頑健性を向上させ、さらに、視線補正の精度を向上させることができる。
さらに理解可能なこととして、訓練対象視線補正モデルの損失を算出するときに、再構成損失、特徴損失、生成対抗損失、及び視線推定損失などの様々な損失を導入することにより、訓練対象視線補正モデルのパラメータ調整の効率及び精度を向上させ、視線補正モデルを取得する効率を向上させることができる。
図10を参照すると、図10は、本願の実施例による画像の視線補正装置のブロック図である。当該画像の視線補正装置は、本願の実施例によって提供される画像の視線補正方法を実現するための機能を含み、前記機能は、ハードウェアによって実現されてもよいし、対応するソフトウェアをハードウェアで実行することにより実現されてもよい。当該装置は、コンピュータ機器などの電子機器であってもよいし、コンピュータ機器などの電子機器に設けられてもよい。当該画像の視線補正装置1000は、眼部画像取得モジュール1010と、特徴情報抽出モジュール1020と、視線補正処理モジュール1030と、画像調整処理モジュール1040と、眼部画像統合モジュール1050と、を備えることができる。
眼部画像取得モジュール1010は、補正対象画像から補正対象眼部画像を取得するように構成される。
特徴情報抽出モジュール1020は、前記補正対象眼部画像に対して特徴抽出処理を行い、前記補正対象眼部画像の特徴情報を得るように構成される。
視線補正処理モジュール1030は、前記特徴情報及び目標視線方向に基づいて、前記補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るように構成され、ここで、前記目標視線方向は、前記補正対象眼部画像における眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクは、前記補正対象眼部画像内の画素位置が眼部領域に属する確率を示すために用いられる。
画像調整処理モジュール1040は、前記眼部輪郭マスクを採用して前記初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得るように構成される。
眼部画像統合モジュール1050は、前記補正後の眼部画像に基づいて、視線補正後の顔画像を生成するように構成される。
本願の実施例では、前記特徴情報抽出モジュール1020はさらに、前記補正対象眼部画像に対して特徴抽出処理を行い、目つき特徴、眼部テクスチャ特徴、及び環境特徴を得、前記特定目つき特徴、前記眼部テクスチャ特徴、及び前記環境関連特徴を、前記特徴情報として決定するように構成される。
本願の実施例では、前記視線補正処理モジュール1030はさらに、前記特徴情報と前記目標視線方向とをチャンネル次元で組み合わせて、組み合わせデータを得るステップと、前記補正対象眼部画像の特徴次元に基づいて、前記組み合わせデータに対して特徴再構成を行い、前記初歩的補正後の眼部画像及び前記眼部輪郭マスクを得るステップと、を行うように構成される。
本願の実施例では、前記画像調整処理モジュール1040はさらに、前記眼部輪郭マスクと、前記初歩的補正後の眼部画像における対応位置の画素値とを融合して、第1中間画像を得るステップと、前記眼部輪郭マスクに対応するマッピング画像と、前記補正対象眼部画像における対応位置の画素値とを融合して、第2中間画像を得るステップと、前記第1中間画像と前記第2中間画像における対応位置の画素値を統合して、前記補正後の眼部画像を得るステップと、を行うように構成される。
本願の実施例では、前記眼部画像統合モジュール1050はさらに、前記補正後の眼部画像を前記補正対象画像の画像切り出し枠位置に統合して、統合画像を得るステップであって、前記画像切り出し枠位置は、前記補正対象画像における前記補正対象眼部画像の位置である、ステップと、前記統合画像における前記画像切り出し枠位置に対して画像調和処理を行い、前記視線補正後の画像を得るステップであって、前記画像調和処理は、前記画像切り出し枠位置での境界痕跡を除去するために用いられる、ステップと、を行うように構成される。
本願の実施例では、前記特徴抽出処理及び前記視線補正処理は、いずれも視線補正モデルによって実現され、ここで、前記視線補正モデルは、符号化ネットワーク及び復号化ネットワークを含み、前記符号化ネットワークは、前記特徴抽出処理を実行するために用いられ、前記復号化ネットワークは、前記視線補正処理を実行するために用いられる。
図11を参照すると、図11は、本願の実施例による視線補正モデルの訓練装置のブロック図である。当該視線補正モデルの訓練装置は、本願の実施例によって提供される視線補正モデルの訓練方法を実現するための機能を含み、前記機能は、ハードウェアによって実現されてもよいし、対応するソフトウェアをハードウェアで実行することにより実現されてもよい。当該視線補正モデルの訓練装置は、コンピュータ機器などの電子機器であってもよいし、コンピュータ機器などの電子機器に設けられてもよい。当該視線補正モデルの訓練装置1100は、サンプル取得モジュール1110と、モデル処理モジュール1120と、画像調整モジュール1130と、パラメータ調整モジュール1140と、を備えることができる。
サンプル取得モジュール1110は、訓練対象視線補正モデルの訓練サンプルを取得するように構成され、前記訓練サンプルは、補正対象眼部画像サンプル及び目標補正眼部画像を含む。
モデル処理モジュール1120は、前記訓練対象視線補正モデルを介して、前記補正対象眼部画像サンプル、前記目標補正眼部画像、及び目標視線方向サンプルに対して視線補正処理を行い、初歩的補正後の眼部画像サンプル及び眼部輪郭マスクサンプルを得るように構成され、前記目標視線方向サンプルは、前記補正対象眼部画像サンプルにおける眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクサンプルは、前記補正対象眼部画像サンプルにおける画素位置が眼部領域に属する確率を示すために用いられる。
画像調整モジュール1130は、前記眼部輪郭マスクサンプルを採用して前記初歩的補正後の眼部画像サンプルに対して調整処理を行い、補正後の眼部画像サンプルを得るように構成される。
パラメータ調整モジュール1140は、前記補正後の眼部画像サンプル及び前記目標補正眼部画像に基づいて、前記訓練対象視線補正モデルの損失を決定し、前記損失に基づいて前記訓練対象視線補正モデルのパラメータを調整して、視線補正モデルを得るように構成される。
本願の実施例では、前記訓練対象視線補正モデルは、第1訓練対象符号化ネットワーク、第2訓練対象符号化ネットワーク、及び訓練対象復号化ネットワークを含み、前記モデル処理モジュール1120は、前記第1訓練対象符号化ネットワークを介して、前記補正対象眼部画像サンプルに対して特徴抽出処理を行い、目つき特徴サンプル及び眼部テクスチャ特徴サンプルを得るステップと、前記第2訓練対象符号化ネットワークを介して、前記目標補正眼部画像に対して特徴抽出処理を行い、目標環境特徴を得るステップと、前記訓練対象復号化ネットワークを介して、前記目つき特徴サンプル、前記目つき無関連特徴、前記目標環境特徴、及び前記目標視線方向サンプルに対して視線補正処理を行い、前記初歩的補正後の眼部画像サンプル及び前記眼部輪郭マスクサンプルを得るステップと、を行うように構成される。
本願の実施例では、前記パラメータ調整モジュール1140はさらに、前記補正後の眼部画像サンプルと前記目標補正眼部画像との画素差に基づいて、再構成損失を決定するステップと、前記補正後の眼部画像サンプルと前記目標補正眼部画像との画像特徴差に基づいて、特徴損失を決定するステップと、前記補正後の眼部画像サンプルと前記目標補正眼部画像との生成対抗損失を決定するステップと、前記再構成損失、前記特徴損失、及び前記生成対抗損失に基づいて、前記視線補正モデルの前記損失を決定するステップと、を行うように構成される。
本願の実施例では、前記パラメータ調整モジュール1140はさらに、特徴損失計算モデルを介して、前記補正後の眼部画像サンプルと前記目標補正眼部画像との学習知覚画像パッチ類似性(LPIPS)損失を出力するように構成され、前記特徴損失は、前記LPIPS損失を含む。
本願の実施例では、前記パラメータ調整モジュール1140はさらに、マルチスケール判別器による前記補正後の眼部画像サンプル及び前記目標補正眼部画像の判別結果に基づいて、生成ネットワーク損失及び判別ネットワーク損失を決定するステップと、前記生成ネットワーク損失及び前記判別ネットワーク損失を、前記生成対抗損失として決定するステップと、を行うように構成される。
本願の実施例では、前記パラメータ調整モジュール1140はさらに、前記補正後の眼部画像サンプルに対して視線推定を行い、前記補正後の眼部画像サンプルの視線方向を得るステップと、前記補正後の眼部画像サンプルの視線方向及び前記目標視線方向サンプルに基づいて、視線推定損失を決定するステップと、を行うように構成される。
本願の実施例では、前記パラメータ調整モジュール1140はさらに、前記視線推定損失、前記再構成損失、前記特徴損失、及び前記生成対抗損失に基づいて、前記訓練対象視線補正モデルの前記損失を決定するように構成される。
説明すべきこととして、本願の実施例によって提供される画像の視線補正装置及び視線補正モデルの訓練装置において、対応する機能を実現する場合に、上記の各機能モジュールの分割のみを例として説明しており、実際の応用では、必要に応じて、上記の機能を異なる機能モジュールに割り当てて完了させることができ、つまり、コンピュータ機器の内部構造を異なる機能モジュールに分割することにより、以上で説明された機能の全部又は一部を完了することができる。また、本願の実施例によって提供される画像の視線補正装置及び視線補正モデルの訓練装置は、本願の実施例によって提供される画像の視線補正及び視線補正モデルの訓練方法と同じ技術的構想に属する。
図12を参照すると、図12は、本願実施例によるコンピュータ機器の構成を示す模式図である。当該コンピュータ機器は、携帯電話、タブレット、PC又はサーバなどのデータ計算、処理、及び記憶機能を備えた任意の電子機器であり得る。当該コンピュータ機器は、本願の実施例によって提供される顔画像の視線補正方法又は視線補正モデルの訓練方法を実施するために用いられる。具体的には、
当該コンピュータ機器1200は、中央処理装置(例えば、CPU(Central Processing Unit)、グラフィックスプロセッサ(GPU:Graphics Processing Unit)、及びフィールドプログラマブルゲートアレイ(FPGA:Field Programmable Gate Array)など)1201、ランダムアクセスメモリ(RAM:Random-Access Memory)1202、読み取り専用メモリ(ROM:Read-Only Memory)1203を含むシステムメモリ1204及びシステムメモリ1204と中央処理装置1201とを接続するシステムバス1205を含む。当該コンピュータ機器1200は、サーバ内の各デバイス間の情報の転送を支援する基本入力/出力システム(I/Oシステム:Input Output System)1206と、オペレーティングシステム1213、アプリケーション1214、及びその他のプログラムモジュール1215を記憶する大容量記憶装置1207と、をさらに含む。
当該基本入力/出力システム1206は、情報を表示するディスプレイ1208と、ユーザが情報を入力するためのマウス、キーボードなどの入力機器1209とを含む。ここで、当該ディスプレイ1208及び入力機器1209は、いずれもシステムバス1205に接続された入出力コントローラ1210を介して中央処理装置1201に接続される。当該基本入力/出力システム1206は、キーボード、マウス、又は電子スタイラスなどの複数の他のデバイスからの入力を受信して処理するための入出力コントローラ1210をさらに含み得る。本願の実施例では、入出力コントローラ1210は、ディスプレイ、プリンタ、その他のタイプの出力装置にも出力を提供する。
当該大容量記憶装置1207は、システムバス1205に接続された大容量記憶コントローラ(図示せず)を介して中央処理装置1201に接続される。当該大容量記憶装置1207及びそれに関連するコンピュータ可読記憶媒体は、コンピュータ機器1200に不揮発性の記憶を提供する。つまり、当該大容量記憶装置1207は、ハードディスクや読み取り専用コンパクトディスク(CD-ROM:Compact Disc Read-Only Memory)ドライブなどのコンピュータ可読記憶媒体(図12に図示せず)を含み得る。
本願の実施例では、当該コンピュータ可読記憶媒体は、コンピュータ記憶媒体及び通信媒体を含み得る。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、又は他のデータなどの情報を記憶するための任意の方法又は技術的実装の揮発性及び不揮発性、リムーバブル及び非リムーバブル媒体を含む。コンピュータ可読記憶媒体は、RAM、ROM、消去可能なプログラマブル読み取り専用メモリ(EPROM:Erasable Programmable Read-Only Memory)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM:Electrically Erasable Programmable Read-Only Memory)、フラッシュメモリ又は他の固体記憶デバイス技術、CD-ROM、高密度デジタルビデオディスク(DVD:Digital Video Disc)又はその他の光ストレージ、テープカートリッジ、テープ、ディスクストレージ、又はその他の磁気ストレージデバイスを含む。もちろん、当業者であれば、当該コンピュータ可読記憶媒体は、上記したものに限定されるものではないことが分かる。上記のシステムメモリ1204及び大容量記憶装置1207を総称してメモリと呼ぶことができる。
本願の実施例によれば、当該コンピュータ機器1200は、インターネットなどのネットワークを介してネットワーク上のリモートコンピュータに接続して実行されることもできる。即ち、コンピュータ機器1200は、当該システムバス1205に接続されたネットワークインターフェースユニット1211を介して、ネットワーク1212に接続されてもよいし、又は、ネットワークインターフェースユニット1211を使用して他のタイプのネットワーク又はリモートコンピュータシステム(図12に図示せず)に接続されてもよい。
前記メモリは、少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットをさらに含み、当該少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットは、メモリに記憶され、1つ又は複数のプロセッサによって実行されることにより、本願の実施例によって提供される画像の視線補正方法又は視線補正モデルの訓練方法を実現する。
本願の実施例では、コンピュータ可読記憶媒体をさらに提供し、前記コンピュータ可読記憶媒体に、少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶され、前記少なくとも1つの命令、前記少なくとも1つのプログラム、前記コードセット又は前記命令セットは、コンピュータ機器のプロセッサによって実行されるときに、本願の実施例によって提供される画像の視線補正方法又は視線補正モデルの訓練方法を実現する。
本願の実施例では、当該コンピュータ可読記憶媒体は、ROM、RAM、ソリッドステートハードディスク(SSD:Solid State Drives)又は光ディスクなどを含み得る。ここで、RAMは、抵抗式ランダムアクセスメモリ(ReRAM:Resistance Random Access Memory)、及びダイナミックランダムアクセスメモリ(DRAM:Dynamic Random Access Memory)を含み得る。
本願の実施例では、コンピュータプログラム製品又はコンピュータプログラムをさらに提供し、前記コンピュータプログラム製品又はコンピュータプログラムは、コンピュータ命令を含み、前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶される。コンピュータ機器(電子機器である)のプロセッサは、前記コンピュータ可読記憶媒体から前記コンピュータ命令を読み取り、前記プロセッサは、前記コンピュータ命令を実行することにより前記コンピュータ機器に、本願の実施例によって提供される画像の視線補正方法又は視線補正モデルの訓練方法を実行させる。
説明すべきこととして、本明細書における「複数」は、2つ又は2つ以上を指す。及び/又は」という用語は、関連付けられた関係についてのみ説明し、3つの関係が存在し得ることを表示し、例えば、A及び/又はBは、Aが独立で存在する場合、AとBの両方が存在する場合、Bが独立で存在する場合の3つの場合を表示することができる。また、記号「/」は、通常、関連付けられた対象間の関係が、「又は」という関係にあることを表示する。また、本願の実施例で説明したステップの番号付けは、ステップ間の実行順序の1つの可能性を例示的に示しているに過ぎず、いくつかの他の実施例では、上記のステップは、番号順に実行しなくてもよい。例えば、2つの異なる番号のステップが同時に実行されてもよいし、また、2つの異なる番号のステップが図示と逆の順序で実行されてもよいし、本願の実施例は、これらに限定されない。
上記は、本願の例示的な実施例に過ぎず、本願を限定することを意図するものではなく、本願の精神及び原則内で行われるあらゆる修正、同等の置換、改善などは、本願の保護範囲に含まれるべきである。
1000 画像の視線補正装置
1010 眼部画像取得モジュール
1020 特徴情報抽出モジュール
1030 視線補正処理モジュール
1040 画像調整処理モジュール
1050 眼部画像統合モジュール
1100 視線補正モデルの訓練装置
1110 サンプル取得モジュール
1120 モデル処理モジュール
1130 画像調整モジュール
1140 パラメータ調整モジュール
1200 コンピュータ機器
1201 中央処理装置
1202 ランダムアクセスメモリ
1203 読み取り専用メモリ
1204 システムメモリ
1205 システムバス
1206 入力/出力システム
1207 大容量記憶装置
1208 ディスプレイ
1209 入力機器
1210 入出力コントローラ
1211 ネットワークインターフェースユニット
1212 ネットワーク
1213 オペレーティングシステム
1214 アプリケーションプログラム
1215 その他のプログラムモジュール

Claims (16)

  1. 電子機器が実行する画像の視線補正方法であって、
    補正対象画像から補正対象眼部画像を取得するステップと、
    前記補正対象眼部画像に対して特徴抽出処理を行い、前記補正対象眼部画像の特徴情報を得るステップと、
    前記特徴情報及び目標視線方向に基づいて、前記補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るステップであって、前記目標視線方向は、前記補正対象眼部画像における眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクは、前記補正対象眼部画像内の画素位置が眼部領域に属する確率を示すために用いられる、ステップと、
    前記眼部輪郭マスクを採用して前記初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得るステップと、
    前記補正後の眼部画像に基づいて、視線補正後の画像を生成するステップと、を含む、画像の視線補正方法。
  2. 前記補正対象眼部画像に対して特徴抽出処理を行い、前記補正対象眼部画像の特徴情報を得るステップは、
    前記補正対象眼部画像に対して特徴抽出処理を行い、目つき特徴、眼部テクスチャ特徴、及び環境特徴を得るステップと、
    記目つき特徴、前記眼部テクスチャ特徴、及び前記環境特徴を、前記特徴情報として決定するステップと、を含む、
    請求項1に記載の画像の視線補正方法。
  3. 前記特徴情報及び目標視線方向に基づいて、前記補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るステップは、
    前記特徴情報と前記目標視線方向とをチャンネル次元で組み合わせて、組み合わせデータを得るステップと、
    前記補正対象眼部画像の特徴次元に基づいて、前記組み合わせデータに対して特徴再構成を行い、前記初歩的補正後の眼部画像及び前記眼部輪郭マスクを得るステップと、を含む、
    請求項1に記載の画像の視線補正方法。
  4. 前記眼部輪郭マスクを採用して前記初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得るステップは、
    前記眼部輪郭マスクと、前記初歩的補正後の眼部画像における対応位置の画素値とを融合して、第1中間画像を得るステップと、
    前記眼部輪郭マスクに対応するマッピング画像と、前記補正対象眼部画像における対応位置の画素値とを融合して、第2中間画像を得るステップと、
    前記第1中間画像と前記第2中間画像における対応位置の画素値を統合して、前記補正後の眼部画像を得るステップと、を含む、
    請求項1に記載の画像の視線補正方法。
  5. 前記補正後の眼部画像に基づいて、視線補正後の画像を生成するステップは、
    前記補正後の眼部画像を前記補正対象画像の画像切り出し枠位置に統合して、統合画像を得るステップであって、前記画像切り出し枠位置は、前記補正対象画像における前記補正対象眼部画像の位置である、ステップと、
    前記統合画像における前記画像切り出し枠位置に対して画像調和処理を行い、前記視線補正後の画像を得るステップであって、前記画像調和処理は、前記画像切り出し枠位置での境界痕跡を除去するために用いられる、ステップと、を含む、
    請求項1~4のいずれか一項に記載の画像の視線補正方法。
  6. 前記特徴抽出処理及び前記視線補正処理は、いずれも視線補正モデルによって実現され、前記視線補正モデルは、符号化ネットワーク及び復号化ネットワークを含み、前記符号化ネットワークは、前記特徴抽出処理を実行するために用いられ、前記復号化ネットワークは、前記視線補正処理を実行するために用いられる、
    請求項1~4のいずれか一項に記載の画像の視線補正方法。
  7. 電子機器が実行する視線補正モデルの訓練方法であって、
    訓練対象視線補正モデルの訓練サンプルを取得するステップであって、前記訓練サンプルは、補正対象眼部画像サンプル及び目標補正眼部画像を含む、ステップと、
    前記訓練対象視線補正モデルを介して、前記補正対象眼部画像サンプル、前記目標補正眼部画像、及び目標視線方向サンプルに対して視線補正処理を行い、初歩的補正後の眼部画像サンプル及び眼部輪郭マスクサンプルを得るステップであって、前記目標視線方向サンプルは、前記補正対象眼部画像サンプルにおける眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクサンプルは、前記補正対象眼部画像サンプルにおける画素位置が眼部領域に属する確率を示すために用いられる、ステップと、
    前記眼部輪郭マスクサンプルを採用して前記初歩的補正後の眼部画像サンプルに対して調整処理を行い、補正後の眼部画像サンプルを得るステップと、
    前記補正後の眼部画像サンプル及び前記目標補正眼部画像に基づいて、前記訓練対象視線補正モデルの損失を決定し、前記損失に基づいて前記訓練対象視線補正モデルのパラメータを調整して、視線補正モデルを得るステップと、を含む、視線補正モデルの訓練方法。
  8. 前記訓練対象視線補正モデルは、第1訓練対象符号化ネットワーク、第2訓練対象符号化ネットワーク、及び訓練対象復号化ネットワークを含み、
    前記訓練対象視線補正モデルを介して、前記補正対象眼部画像サンプル、前記目標補正眼部画像、及び目標視線方向サンプルに対して視線補正処理を行い、初歩的補正後の眼部画像サンプル及び眼部輪郭マスクサンプルを得るステップは、
    前記第1訓練対象符号化ネットワークを介して、前記補正対象眼部画像サンプルに対して特徴抽出処理を行い、目つき特徴サンプル及び眼部テクスチャ特徴サンプルを得るステップと、
    前記第2訓練対象符号化ネットワークを介して、前記目標補正眼部画像に対して特徴抽出処理を行い、目標環境特徴を得るステップと、
    前記訓練対象復号化ネットワークを介して、前記目つき特徴サンプル、目つき無関連特徴サンプル、前記目標環境特徴、及び前記目標視線方向サンプルに対して視線補正処理を行い、前記初歩的補正後の眼部画像サンプル及び前記眼部輪郭マスクサンプルを得るステップと、を含む、
    請求項7に記載の視線補正モデルの訓練方法。
  9. 前記補正後の眼部画像サンプル及び前記目標補正眼部画像に基づいて、前記訓練対象視線補正モデルの損失を決定するステップは、
    前記補正後の眼部画像サンプルと前記目標補正眼部画像との画素差に基づいて、再構成損失を決定するステップと、
    前記補正後の眼部画像サンプルと前記目標補正眼部画像との画像特徴差に基づいて、特徴損失を決定するステップと、
    前記補正後の眼部画像サンプルと前記目標補正眼部画像との生成対抗損失を決定するステップと、
    前記再構成損失、前記特徴損失、及び前記生成対抗損失に基づいて、前記訓練対象視線補正モデルの前記損失を決定するステップと、を含む、
    請求項7又は8に記載の視線補正モデルの訓練方法。
  10. 前記補正後の眼部画像サンプルと前記目標補正眼部画像との画像特徴差に基づいて、特徴損失を決定するステップは、
    特徴損失計算モデルを介して、前記補正後の眼部画像サンプルと前記目標補正眼部画像との学習知覚画像パッチ類似性(LPIPS)損失を出力するステップを含み、前記特徴損失は、前記LPIPS損失を含む、
    請求項9に記載の視線補正モデルの訓練方法。
  11. 前記補正後の眼部画像サンプルと前記目標補正眼部画像との生成対抗損失を決定するステップは、
    マルチスケール判別器による前記補正後の眼部画像サンプル及び前記目標補正眼部画像の判別結果に基づいて、生成ネットワーク損失及び判別ネットワーク損失を決定するステップと、
    前記生成ネットワーク損失及び前記判別ネットワーク損失を、前記生成対抗損失として決定するステップと、を含む、
    請求項9に記載の視線補正モデルの訓練方法。
  12. 前記視線補正モデルの訓練方法は、
    前記補正後の眼部画像サンプルに対して視線推定を行い、前記補正後の眼部画像サンプルの視線方向を得るステップと、
    前記補正後の眼部画像サンプルの視線方向及び前記目標視線方向サンプルに基づいて、視線推定損失を決定するステップと、をさらに含み、
    前記再構成損失、前記特徴損失、及び前記生成対抗損失に基づいて、前記訓練対象視線補正モデルの損失を決定するステップは、
    前記視線推定損失、前記再構成損失、前記特徴損失、及び前記生成対抗損失に基づいて、前記訓練対象視線補正モデルの前記損失を決定するステップを含む、
    請求項9に記載の視線補正モデルの訓練方法。
  13. 像の視線補正装置であって、
    補正対象画像から補正対象眼部画像を取得するように構成される眼部画像取得モジュールと、
    前記補正対象眼部画像に対して特徴抽出処理を行い、前記補正対象眼部画像の特徴情報を得るように構成される特徴情報抽出モジュールと、
    前記特徴情報及び目標視線方向に基づいて、前記補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るように構成される視線補正処理モジュールであって、前記目標視線方向は、前記補正対象眼部画像における眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクは、前記補正対象眼部画像内の画素位置が眼部領域に属する確率を示すために用いられる、視線補正処理モジュールと、
    前記眼部輪郭マスクを採用して前記初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得るように構成される画像調整処理モジュールと、
    前記補正後の眼部画像に基づいて、視線補正後の画像を生成するように構成される眼部画像統合モジュールと、を備える、画像の視線補正装置。
  14. 視線補正モデルの訓練装置であって、
    訓練対象視線補正モデルの訓練サンプルを取得するように構成されるサンプル取得モジュールであって、前記訓練サンプルは、補正対象眼部画像サンプル及び目標補正眼部画像を含む、サンプル取得モジュールと、
    前記訓練対象視線補正モデルを介して、前記補正対象眼部画像サンプル、前記目標補正眼部画像、及び目標視線方向サンプルに対して視線補正処理を行い、初歩的補正後の眼部画像サンプル及び眼部輪郭マスクサンプルを得るように構成されるモデル処理モジュールであって、前記目標視線方向サンプルは、前記補正対象眼部画像サンプルにおける眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクサンプルは、前記補正対象眼部画像サンプルにおける画素位置が眼部領域に属する確率を示すために用いられる、モデル処理モジュールと、
    前記眼部輪郭マスクサンプルを採用して前記初歩的補正後の眼部画像サンプルに対して調整処理を行い、補正後の眼部画像サンプルを得るように構成される画像調整モジュールと、
    前記補正後の眼部画像サンプル及び前記目標補正眼部画像に基づいて、前記訓練対象視線補正モデルの損失を決定し、前記損失に基づいて前記訓練対象視線補正モデルのパラメータを調整して、視線補正モデルを得るように構成されるパラメータ調整モジュールと、を備える、視線補正モデルの訓練装置。
  15. プロセッサと、前記プロセッサによってロードされ、前記プロセッサに、請求項1~6のいずれか一項に記載の画像の視線補正方法、又は請求項7~12のいずれか一項に記載の視線補正モデルの訓練方法を実行させるための少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶されたメモリと、を備える、電子機器。
  16. プロセッサに、請求項1~6のいずれか一項に記載の画像の視線補正方法、又は請求項7~12のいずれか一項に記載の視線補正モデルの訓練方法を実行させる、コンピュータプログラム。
JP2023528175A 2021-01-22 2022-01-17 画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム Active JP7476428B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110088338.7 2021-01-22
CN202110088338.7A CN112733794B (zh) 2021-01-22 2021-01-22 人脸图像的视线矫正方法、装置、设备及存储介质
PCT/CN2022/072371 WO2022156640A1 (zh) 2021-01-22 2022-01-17 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品

Publications (2)

Publication Number Publication Date
JP2023548921A JP2023548921A (ja) 2023-11-21
JP7476428B2 true JP7476428B2 (ja) 2024-04-30

Family

ID=75593798

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023528175A Active JP7476428B2 (ja) 2021-01-22 2022-01-17 画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US20230049533A1 (ja)
EP (1) EP4198814A4 (ja)
JP (1) JP7476428B2 (ja)
CN (1) CN112733794B (ja)
WO (1) WO2022156640A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733794B (zh) * 2021-01-22 2021-10-15 腾讯科技(深圳)有限公司 人脸图像的视线矫正方法、装置、设备及存储介质
CN112733795B (zh) * 2021-01-22 2022-10-11 腾讯科技(深圳)有限公司 人脸图像的视线矫正方法、装置、设备及存储介质
CN112818809B (zh) * 2021-01-25 2022-10-11 清华大学 一种检测图像信息的方法、装置和存储介质
CN113222857A (zh) * 2021-05-27 2021-08-06 Oppo广东移动通信有限公司 图像处理方法、模型的训练方法及装置、介质和电子设备
CN113362243B (zh) * 2021-06-03 2024-06-11 Oppo广东移动通信有限公司 模型训练方法、图像处理方法及装置、介质和电子设备
CN113343931B (zh) * 2021-07-05 2024-07-26 Oppo广东移动通信有限公司 生成对抗网络的训练方法、图像视线校正方法与装置
CN113641247A (zh) * 2021-08-31 2021-11-12 北京字跳网络技术有限公司 视线角度调整方法、装置、电子设备及存储介质
CN113703579B (zh) * 2021-08-31 2023-05-30 北京字跳网络技术有限公司 数据处理方法、装置、电子设备及存储介质
CN114120412B (zh) * 2021-11-29 2022-12-09 北京百度网讯科技有限公司 图像处理方法和装置
CN114449345B (zh) * 2022-02-08 2023-06-23 腾讯科技(深圳)有限公司 视频处理方法、装置、设备及存储介质
CN116993929B (zh) * 2023-09-27 2024-01-16 北京大学深圳研究生院 基于人眼动态变化的三维人脸重建方法、装置及存储介质
CN117523543B (zh) * 2024-01-08 2024-03-19 成都大学 一种基于深度学习的金属压印字符识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170308992A1 (en) 2016-04-22 2017-10-26 Intel Corporation Eye contact correction in real time using machine learning

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4962917B2 (ja) * 2008-05-12 2012-06-27 トヨタ自動車株式会社 運転状態推定装置、及び運転状態推定方法
KR101977638B1 (ko) * 2012-02-29 2019-05-14 삼성전자주식회사 영상 내 사용자의 시선 보정 방법, 기계로 읽을 수 있는 저장 매체 및 통신 단말
CN103345619A (zh) * 2013-06-26 2013-10-09 上海永畅信息科技有限公司 视频聊天中的人眼自然对视自适应矫正方法
RU2596062C1 (ru) * 2015-03-20 2016-08-27 Автономная Некоммерческая Образовательная Организация Высшего Профессионального Образования "Сколковский Институт Науки И Технологий" Способ коррекции изображения глаз с использованием машинного обучения и способ машинного обучения
RU2016138608A (ru) * 2016-09-29 2018-03-30 Мэджик Лип, Инк. Нейронная сеть для сегментации изображения глаза и оценки качества изображения
CN110740246A (zh) * 2018-07-18 2020-01-31 阿里健康信息技术有限公司 一种图像矫正方法、移动设备和终端设备
US11024002B2 (en) * 2019-03-14 2021-06-01 Intel Corporation Generating gaze corrected images using bidirectionally trained network
CN111008929B (zh) * 2019-12-19 2023-09-26 维沃移动通信(杭州)有限公司 图像矫正方法及电子设备
CN111339928B (zh) * 2020-02-25 2022-06-28 苏州科达科技股份有限公司 眼神调节方法、装置及存储介质
CN111784604B (zh) * 2020-06-29 2022-02-18 北京字节跳动网络技术有限公司 图像处理方法、装置、设备及计算机可读存储介质
CN112733794B (zh) * 2021-01-22 2021-10-15 腾讯科技(深圳)有限公司 人脸图像的视线矫正方法、装置、设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170308992A1 (en) 2016-04-22 2017-10-26 Intel Corporation Eye contact correction in real time using machine learning

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Daniil Kononenko et al.,Photorealistic Monocular Gaze Redirection Using Machine Learning,IEEE Transactions on Pattern Analysis and Machine Intelligence,IEEE,2017年08月14日,VOL.40, NO.11,https://ieeexplore.ieee.org/document/8010348

Also Published As

Publication number Publication date
CN112733794A (zh) 2021-04-30
EP4198814A1 (en) 2023-06-21
CN112733794B (zh) 2021-10-15
US20230049533A1 (en) 2023-02-16
WO2022156640A1 (zh) 2022-07-28
EP4198814A4 (en) 2024-06-19
JP2023548921A (ja) 2023-11-21

Similar Documents

Publication Publication Date Title
JP7476428B2 (ja) 画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
JP7542740B2 (ja) 画像の視線補正方法、装置、電子機器、及びコンピュータプログラム
Yi et al. Audio-driven talking face video generation with learning-based personalized head pose
Martin et al. Scangan360: A generative model of realistic scanpaths for 360 images
Zhang et al. Video saliency prediction based on spatial-temporal two-stream network
JP7526412B2 (ja) パラメータ推定モデルの訓練方法、パラメータ推定モデルの訓練装置、デバイスおよび記憶媒体
WO2022156622A1 (zh) 脸部图像的视线矫正方法、装置、设备、计算机可读存储介质及计算机程序产品
CN111464834B (zh) 一种视频帧处理方法、装置、计算设备及存储介质
CN111652974B (zh) 三维人脸模型的构建方法、装置、设备及存储介质
CN111652123B (zh) 图像处理和图像合成方法、装置和存储介质
Li et al. Learning symmetry consistent deep cnns for face completion
CN113192132B (zh) 眼神捕捉方法及装置、存储介质、终端
CN113343878A (zh) 基于生成对抗网络的高保真人脸隐私保护方法和系统
US20230100427A1 (en) Face image processing method, face image processing model training method, apparatus, device, storage medium, and program product
EP4198896A1 (en) Feature tracking system and method
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
WO2024104144A1 (zh) 图像合成方法和装置、存储介质及电子设备
WO2020200082A1 (zh) 直播互动方法、装置、直播系统及电子设备
CN114898447B (zh) 一种基于自注意力机制的个性化注视点检测方法及装置
CN115393471A (zh) 图像处理方法、装置及电子设备
KR20220124490A (ko) 동작 유사도 평가 장치 및 동작 유사도 평가 방법
Chao et al. Omnidirectional video saliency
WO2024164596A1 (zh) 面部建模模型的训练方法、建模方法、装置、电子设备、存储介质及程序产品
馮起 Improving Mixed Reality with Multi-task Scene Understanding and Data Augmentation
CN117011910A (zh) 图像处理方法、装置及计算机设备、存储介质、程序产品

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230510

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240408

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240417

R150 Certificate of patent or registration of utility model

Ref document number: 7476428

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150