JP2023548921A

JP2023548921A - 画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム

Info

Publication number: JP2023548921A
Application number: JP2023528175A
Authority: JP
Inventors: 珂珂 ▲賀▼; 正▲カイ▼ ▲蒋▼; 瑾▲龍▼ 彭; ▲陽▼ 易; ▲曉▼▲銘▼ 余; 娟▲輝▼ ▲塗▼; 易周; ▲亞▼▲彪▼ 王; ▲穎▼ ▲タイ▼; ▲チェン▼杰汪; 季▲リン▼ 李; ▲飛▼▲躍▼ 黄
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-22
Filing date: 2022-01-17
Publication date: 2023-11-21
Anticipated expiration: 2042-01-17
Also published as: CN112733794A; EP4198814A1; CN112733794B; US20230049533A1; WO2022156640A1; JP7476428B2; EP4198814A4

Abstract

画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品は、人工知能技術分野に関する。前記画像の視線補正方法は、補正対象画像から補正対象眼部画像を取得するステップと、補正対象眼部画像に対して特徴抽出処理を行い、補正対象眼部画像の特徴情報を得るステップと、特徴情報及び目標視線方向に基づいて、補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るステップと、眼部輪郭マスクを採用して初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得るステップと、補正後の眼部画像に基づいて、視線補正後の画像を生成するステップと、を含む。

Description

（関連出願への相互参照）
本願は、２０２１年０１月２２日に中国特許局に提出された、出願番号が２０２１１００８８３３８．７である中国特許出願の優先権を主張し、その内容の全てが引用により本願に組み込まれる。

本願は、人工知能技術の分野に関し、特に、画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品に関する。

人物や動物などの画像における対象の視線補正は、グラフィック画像処理における人工知能の代表的な適用であり、様々な適用シーンを有する。

一般的に、視線補正は通常、三角形の面の変形に基づいて実現され、まず、眼部輪郭上の複数のレジストレーションポイントを識別し、次に、当該複数のレジストレーションポイントに基づいて、眼部領域を複数の三角形領域に分割し、複数の三角形の面を得、次に、当該複数の三角形の面を伸ばすなどの変形を行い、目の開き具合を調整して視線を補正する。

しかしながら、上述した三角形の面の変形による視線補正の実現過程では、目の視線方向が左右にずれると、視線補正の精度が低下し、視線補正の効果が低下する。

本願の実施例は、視線補正の精度を向上させる画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品を提供する。

本願の実施例は、電子機器が実行する画像の視線補正方法を提供し、前記方法は、
補正対象画像から補正対象眼部画像を取得するステップと、
前記補正対象眼部画像に対して特徴抽出処理を行い、前記補正対象眼部画像の特徴情報を得るステップと、
前記特徴情報及び目標視線方向に基づいて、前記補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るステップであって、前記目標視線方向は、前記補正対象眼部画像における眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクは、前記補正対象眼部画像内の画素位置が眼部領域に属する確率を示すために用いられる、ステップと、
前記眼部輪郭マスクを採用して前記初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得るステップと、
前記補正後の眼部画像に基づいて、視線補正後の画像を生成するステップと、を含む。

本願の実施例は、電子機器が実行する視線補正モデルの訓練方法を提供し、前記方法は、
訓練対象視線補正モデルの訓練サンプルを取得するステップであって、前記訓練サンプルは、補正対象眼部画像サンプル及び目標補正眼部画像を含む、ステップと、
前記訓練対象視線補正モデルを介して、前記補正対象眼部画像サンプル、前記目標補正眼部画像、及び目標視線方向サンプルに対して視線補正処理を行い、初歩的補正後の眼部画像サンプル及び眼部輪郭マスクサンプルを得るステップであって、前記目標視線方向サンプルは、前記補正対象眼部画像サンプルにおける眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクサンプルは、前記補正対象眼部画像サンプルにおける画素位置が眼部領域に属する確率を示すために用いられる、ステップと、
前記眼部輪郭マスクサンプルを採用して前記初歩的補正後の眼部画像サンプルに対して調整処理を行い、補正後の眼部画像サンプルを得るステップと、
前記補正後の眼部画像サンプル及び前記目標補正眼部画像に基づいて、前記訓練対象視線補正モデルの損失を決定し、前記損失に基づいて前記訓練対象視線補正モデルのパラメータを調整して、視線補正モデルを得るステップと、を含む。

本願の実施例は、画像の視線補正装置を提供し、前記装置は、
補正対象画像から補正対象眼部画像を取得するように構成される眼部画像取得モジュールと、
前記補正対象眼部画像に対して特徴抽出処理を行い、前記補正対象眼部画像の特徴情報を得るように構成される特徴情報抽出モジュールと、
前記特徴情報及び目標視線方向に基づいて、前記補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るように構成される視線補正処理モジュールであって、前記目標視線方向は、前記補正対象眼部画像における眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクは、前記補正対象眼部画像内の画素位置が眼部領域に属する確率を示すために用いられる、視線補正処理モジュールと、
前記眼部輪郭マスクを採用して前記初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得るように構成される画像調整処理モジュールと、
前記補正後の眼部画像に基づいて、視線補正後の顔画像を生成するように構成される眼部画像統合モジュールと、を備える。

本願の実施例は、視線補正モデルの訓練装置を提供し、前記装置は、
訓練対象視線補正モデルの訓練サンプルを取得するように構成されるサンプル取得モジュールであって、前記訓練サンプルは、補正対象眼部画像サンプル及び目標補正眼部画像を含む、サンプル取得モジュールと、
前記訓練対象視線補正モデルを介して、前記補正対象眼部画像サンプル、前記目標補正眼部画像、及び目標視線方向サンプルに対して視線補正処理を行い、初歩的補正後の眼部画像サンプル及び眼部輪郭マスクサンプルを得るように構成されるモデル処理モジュールであって、前記目標視線方向サンプルは、前記補正対象眼部画像サンプルにおける眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクサンプルは、前記補正対象眼部画像サンプルにおける画素位置が眼部領域に属する確率を示すために用いられる、モデル処理モジュールと、
前記眼部輪郭マスクサンプルを採用して前記初歩的補正後の眼部画像サンプルに対して調整処理を行い、補正後の眼部画像サンプルを得るように構成される画像調整モジュールと、
前記補正後の眼部画像サンプル及び前記目標補正眼部画像に基づいて、前記訓練対象視線補正モデルの損失を決定し、前記損失に基づいて前記訓練対象視線補正モデルのパラメータを調整して、視線補正モデルを得るように構成されるパラメータ調整モジュールと、を備える。

本願の実施例は、電子機器を提供し、前記電子機器は、プロセッサと、メモリと、を備え、前記メモリに、少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットが記憶され、前記少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットは、前記プロセッサによってロードされて実行されることにより、本願の実施例によって提供される画像の視線補正方法、又は視線補正モデルの訓練方法を実現する。

本願の実施例は、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体に、少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットが記憶され、前記少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットは、プロセッサによってロードされて実行されることにより、本願の実施例によって提供される画像の視線補正方法、又は視線補正モデルの訓練方法を実現する。

本願の実施例は、コンピュータプログラム製品又はコンピュータプログラムを提供し、前記コンピュータプログラム製品又はコンピュータプログラムは、コンピュータ命令を含み、前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶される。電子機器のプロセッサは、コンピュータ可読記憶媒体から前記コンピュータ命令を読み取り、プロセッサは、前記コンピュータ命令を実行することにより、前記電子機器に、本願によって提供される画像の視線補正方法、又は視線補正モデルの訓練方法を実行させる。

本願の実施例による技術的方案の実施環境の概略図である。ビデオ会議シーンにおけるカメラ、人の目、人の目の視線到達位置間のなす角度を示す模式図である。本願の実施例による画像の視線補正方法のフローチャート１である。本願の実施例による視線補正前後の対比図１である。本願の実施例による視線補正前後の対比図２である。本願の実施例による画像の視線補正方法のフローチャート２である。本願の実施例による視線補正モデルの使用フローの概略図である。本願の実施例による視線補正モデルの訓練方法のフローチャートである。本願の実施例による視線補正モデルの訓練フローの概略図である。本願の実施例による画像の視線補正装置のブロック図である。本願の実施例による視線補正モデルの訓練装置のブロック図である。本願実施例によるコンピュータ機器の構成を示す模式図である。

本願の実施例の技術的解決策をより明確に説明するために、上記で、実施例の説明で使用される図面について簡単に紹介している。明らかに、上記の図面は、本願のいくつかの実施例に過ぎず、当業者にとっては、創造的な労力を払わなくても、これらの図面に基づいて他の関連図面を得ることもできる。

本願の目的、技術方案及び利点をより明確に説明するために、以下では、添付の図面を参照して本願の実施形態についてさらに詳細に説明する。

本願の実施例を詳細に説明する前に、本願の実施例に係る名詞及び用語を説明する。本願の実施例に係る名詞及び用語の説明は、次の通りである。

１）人工知能は、デジタルコンピュータ又はデジタルコンピュータによって制御される機械を利用して、人間の知能に対してシミュレート、伸ばし及び拡張を行い、環境を知覚し、知識を取得し、知識を使用して最善の結果を得る理論、方法、技術、及びアプリケーションシステムである。つまり、人工知能は、知能の本質を理解し、人間の知能と同様の方式で反応できる新しい知能機械を作ろうとする、コンピュータ科学における総合的な技術である。人工知能は、機械に知覚、推論、意思決定の機能を有させるように、様々な知能機械の設計原理及び実現方法を研究することである。

説明すべきこととして、人工知能技術は、ハードウェア技術とソフトウェア技術の両方を含む幅広い分野を含む総合的な分野である。人工知能の基本技術に、一般的に、センサ、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、医用画像処理技術、操作／相互作用システム、メカトロニクスなどの技術が含まれる。人工知能ソフトウェア技術に、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習／深層学習などが含まれる。

２）コンピュータビジョン技術（ＣＶ：ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ）は、機械に「見させる」方法を研究する科学であり、つまり、人間の目の代わりにカメラ及びコンピュータを使用して、目標を識別、追跡、測定などを実行する機械ビジョンであり、さらにグラフィックス処理を実行して、コンピュータの処理結果を、人間の目で観察したり、デバイスに伝送して検出したりするのにより適する画像にさせる。科学分野として、コンピュータビジョンは、関連する理論と技術を研究し、画像又は多次元データから情報を取得できる人工知能システムの構築を試みる。コンピュータビジョン技術に、通常、画像処理、画像認識、画像セマンティック理解、画像検索、光学式文字認識（ＯＣＲ：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）、ビデオ処理、ビデオセマンティック理解、ビデオコンテンツ／動作認識、三次元オブジェクト再構築、三次元（３Ｄ：３Ｄｉｍｅｎｓｉｏｎ）技術、仮想現実、拡張現実、位置推定と地図生成の同時実行（ＳＬＡＭ）が含まれ、顔認識や指紋認識などの一般的な生物学的特徴認識技術も含まれる。

３）機械学習（ＭＬ：ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）は、確率論、統計学、近似理論、凸解析、アルゴリズム複雑性理論などの様々な分野に関連する多領域の学際的な分野である。機械学習は、コンピュータが人間の学習行動をシミュレート又は実現して、新しい知識やスキルを取得し、既存の知識構造を再編成して性能を継続的に向上させる方法を専門的に研究する。機械学習は人工知能のコアであり、コンピュータに知能を有させるための根本的な手段であり、人工知能の様々な分野に適用される。機械学習及び深層学習に、通常、人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納的学習（ｉｎｄｕｃｔｉｖｅｌｅａｒｎｉｎｇ）、デモンストレーションからの学習（ＬｅａｒｎｉｎｇｆｒｏｍＤｅｍｏｎｓｔｒａｔｉｏｎ）などの技術が含まれる。

本願の実施例によって提供される画像の視線補正方法及び視線補正モデルの訓練方法は、人工知能の機械学習及びコンピュータビジョンなどの技術に関するものであり、以下に説明する。

図１を参照すると、図１は、本願の実施例による技術的方案の実施環境の概略図である。本方案の実施環境は、ビデオ会議システムであってもよい。本方案の実施環境は、視線補正システム１００を実現するためのものであり、サーバ１０及び複数の端末２０を備えることができる。

端末２０は、携帯電話、タブレット、パーソナルコンピュータ（ＰＣ：ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、スマートテレビ、マルチメディア再生装置などの電子機器であり得る。端末２０に、ビデオ会議アプリケーションを実行するクライアントがインストールされ、それにより、ユーザにビデオ会議機能を提供することができる。

サーバ１０は、１つのサーバであってもよいし、複数のサーバから構成されるサーバクラスタであってもよいし、クラウドコンピューティングサービスセンターなどの電子機器であってもよい。サーバ１０は、ビデオ会議アプリケーションのバックグラウンドサーバであり得、ビデオ会議アプリケーションのクライアントにバックグラウンドサービスを提供するために用いられる。

端末２０とサーバ１０との間は、ネットワーク３０を介して通信することができる。また、当該視線補正システム１００は、例えば、モデル訓練中に、サーバ２０に訓練サンプルを提供することによって、サーバ２０にデータサポートを提供するためのデータベース４０をさらに備える。

端末２０は、ビデオ会議中に、ネットワーク３０を介して補正対象画像をサーバ１０に送信し、ネットワーク３０を介してサーバ１０から送信された視線補正後の画像を受信し、当該視線補正後の画像を表示するために用いられる。

サーバ１０は、ネットワーク３０を介して端末２０から送信された補正対象画像を受信し、補正対象画像から補正対象眼部画像を取得し、補正対象眼部画像に対して特徴抽出処理を行い、補正対象眼部画像の特徴情報を得、特徴情報及び目標視線方向に基づいて、補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得、ここで、目標視線方向は、補正対象眼部画像における眼部視線の補正予定の視線方向を指し、眼部輪郭マスクは、補正対象眼部画像内の画素位置が眼部領域に属する確率を示すために用いられ、眼部輪郭マスクを採用して初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を生成し、補正後の眼部画像に基づいて、視線補正後の画像を生成するために用いられる。また、ネットワーク３０を介して視線補正後の画像を端末２０に送信するために用いられる。

図２に示すように、ビデオ会議シーンでは、ユーザの視線として、通常、スクリーン２１内の相手を見るが、カメラ２２は、スクリーン２１内に位置しておらず、他の位置（図２に示すスクリーン２１の上方）に位置しているため、カメラ２２、人の目及び人の目の視線で見る位置の間に通常、角度（図２の点線で示す角度α）がある。相手のユーザから見ると、ユーザの視線が相手を見ておらず、やや下を向いているように見えるため、ユーザのコミュニケーション体験に影響を与える。また、ビデオ会議シーンのほかにも、ビデオ通話やビデオ生配信などのシーンでも同様の問題がある。したがって、画像の表示効果が芳しくない問題を解決し、画像の表示効果及び視線補正の効率を向上させるために、視線補正を行う必要がある。

これに基づき、本願の実施例は、瞳のずれが大きい画像に対しても、リアルで正確な視線補正効果を得ることができる画像の視線補正方法及び視線補正モデルの訓練方法を提供する。

また、本願の実施例によって提供される画像の視線補正方法は、ビデオ会議、ビデオ通話、ビデオ生配信、及び画像処理などのシーンに適用することもでき、ここで、画像処理シーンはソーシャルソフトウェア共有シーンが挙げられ、視線変更の編集機能を提供し、ユーザの画像やビデオ内の対象の視線の補正をサポートし、例えば、本来ａを見ている画像内の対象は、補正後にｂを見るようになり、それによって、画像やビデオでオリジナルの画像やビデオと異なる情報を伝わせる。

図３を参照すると、図３は、本願の実施例によって提供される画像の視線補正方法のフローチャートである。当該画像の視線補正方法の実行主体（本願の実施例によって提供される電子機器である）は、携帯電話、タブレット、ＰＣなどの端末機器であってもよいし、サーバであってもよい。当該画像の視線補正方法は、ステップ３１０～ステップ３５０を含み得る。

ステップ３１０において、補正対象画像から補正対象眼部画像を取得する。

本願の実施例では、補正対象画像は、顔面部を含む画像、例えば、顔を含む画像を指し、当該補正対象画像は、１枚の写真又は画像であってもよいし、ビデオ内の１つのビデオフレーム画像であってもよいし、本願の実施例は、これらに限定されない。補正対象眼部画像は、補正対象画像から切り出した、視線補正が必要な眼部領域を含む画像である。

説明すべきこととして、補正対象画像に２つの目が含まれる場合、例えば、１つの顔画像に左右の目が含まれる場合、１枚の補正対象画像から２枚の補正対象眼部画像を取得することができ、一方の補正対象眼部画像は、左目の補正対象眼部画像に対応し、他方の補正対象眼部画像は、右目の補正対象眼部画像に対応する。

本願の実施例では、電子機器は、補正対象画像に対して顔面部検出を行い、ここで、補正対象画像は、顔画像、顔面部検出が顔検出である場合を例として説明しており、顔画像に顔が含まれているか否かを決定し、顔が含まれている場合に顔の位置を決定し、つまり、顔画像に顔が含まれている場合、顔キーポイント検出を行う。本願の実施例は、視線補正を行うために用いられ、眼部領域に焦点が当てられているため、電子機器は、顔キーポイント検出を行うとき、眼部キーポイントの検出のみ行うことができ、口や鼻など他の部位のキーポイントを検出する必要がない。

本願の実施例では、電子機器は、目の輪郭キーポイントに基づいて、目の最小外接矩形を決定し、目の最小外接矩形を指定された倍数で外部拡張して、目の画像切り出し枠を得、当該目の画像切り出し枠に基づいて、補正対象画像から目の補正対象眼部画像を切り出す。

説明すべきこととして、目の最小外接矩形は、当該目を含む最小外接矩形枠を指す。例えば、左目の最小外接矩形は、当該左目の最小外接矩形枠を指す。上記の指定倍数は、例えば、１．５倍、２倍、又は３倍などの所定の値であってもよいし、本願の実施例は、これらに限定されない。電子機器は、目の最小外接矩形を外部拡張して画像切り出し枠を得る過程で、当該最小外接矩形の中心点を中心として、最小外接矩形に対して等比例拡大処理を行い、画像切り出し枠を得る、当該画像切り出し枠の中心点は、上記の最小外接矩形の中心点と同じである。最後に、画像切り出し技術を採用して、補正対象画像から当該目の画像切り出し枠内の画像内容を切り出し、目の補正対象眼部画像を得る。

理解可能なこととして、補正対象画像から補正対象眼部画像を取得し、当該補正対象眼部画像に対して視線補正処理を行うことにより、後続の視線補正ステップの計算量を減らし、視線補正の効率を向上させるのに有利である。

ステップ３２０において、補正対象眼部画像に対して特徴抽出処理を行い、補正対象眼部画像の特徴情報を得る。

本願の実施例では、電子機器は、補正対象眼部画像に対して特徴抽出処理を行い、目つき特徴、眼部テクスチャ特徴、及び環境特徴を得、特定目つき特徴、眼部テクスチャ特徴、及び環境関連特徴を、特徴情報として決定する。また、特徴抽出処理では、ニューラルネットワークモデルを介して当該補正対象眼部画像に対して特徴抽出処理を行い、補正対象眼部画像の特徴情報を得ることもできる。特徴情報は、当該補正対象眼部画像の画像特徴を反映するために用いられる。

説明すべきこととして、特徴情報は、目つき特徴、目つき無関連特徴、及び環境特徴を含む。ここで、目つき特徴は、目の視線に関連する特徴情報を指し、目つき無関連特徴は、目の視線に関連しない特徴情報、例えば、眼部テクスチャ特徴などの情報を指し、環境特徴は、画像の照度、明暗、彩度などの特徴を表す情報を指す。

本願の実施例では、複数の特徴情報を合わせて視線補正を行うため、異なる環境における視線補正の頑健性を向上させるのに有利であり、様々な異なる環境でも良好な視線補正効果を得ることができる。

ステップ３３０において、特徴情報及び目標視線方向に基づいて、補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得る。

説明すべきこととして、目標視線方向は、補正対象眼部画像における眼部視線の補正予定の視線方向を指す。本願の実施例では、目標視線方向は、カメラを正視する方向を指し、それにより、補正対象眼部画像における眼部視線をカメラの方向を正視する方向に補正することができる。本願の実施例では、目標視線方向は、ピッチ角（Ｐｉｔｃｈ）及びヨー角（Ｙａｗ）を含み、例えば、カメラを正視する場合、ピッチ角は０°に等しく、且つヨー角も０°に等しいと定義する。

本願の実施例では、眼部輪郭マスクは、補正対象眼部画像サンプルにおける画素位置が眼部領域に属する確率を示すために用いられる。例えば、眼部輪郭マスクは１つの１次元画像として表すことができ、当該１次元画像のサイズ（高さと幅を含む）は補正対象眼部画像のサイズと同じである。眼部輪郭マスクにおける画素の画素値は確率値であり得、補正対象眼部画像における同じ位置にある画素が眼部領域に属する確率を表す。例えば、眼部輪郭マスクにおける座標が（ｉ，ｊ）である位置の画素値は、［０，１］の範囲に属する確率値であり得、補正対象眼部画像における座標が（ｉ，ｊ）である位置の画素が眼部領域に属する確率を表す。

本願の実施例では、上記のステップ３２０及びステップ３３０は、視線補正モデルによって実現することができる。視線補正モデルは、ニューラルネットワークモデルであり得、符号化ネットワーク及び復号化ネットワークを含み得る。符号化ネットワークは、入力データ（即ち、補正対象眼部画像）に対して特徴抽出処理を行い、当該補正対象眼部画像の特徴情報を得るために用いられ、復号化ネットワークは、上記の特徴情報及び目標視線方向に基づいて、補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るために用いられる。

ステップ３４０において、眼部輪郭マスクを採用して初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得る。

説明すべきこととして、調整処理は、初歩的補正後の眼部画像における眼部領域以外の領域を復元するために用いられる。本願の実施例では、ステップ３４０は、以下のようないくつかのステップを含む。

ステップ３４０１において、眼部輪郭マスクと、初歩的補正後の眼部画像における対応位置の画素値とを融合（例えば、乗算）して、第１中間画像を得る。

ステップ３４０２において、眼部輪郭マスクに対応するマッピング画像と、補正対象眼部画像における対応位置の画素値とを融合（例えば、乗算）して、第２中間画像を得る。

ステップ３４０３において、第１中間画像と第２中間画像における対応位置の画素値とを融合（例えば、加算）して、補正後の眼部画像を得る。

本願の実施例では、眼部輪郭マスクにおける各位置の画素値は、［０，１］の範囲に属する確率値であり、眼部輪郭マスクに対応するマッピング画像における任意の位置の画素値は、１から眼部輪郭マスクにおける同じ位置の画素値（即ち、確率値）を減算して得られた値である。例えば、眼部輪郭マスクにおける座標が（ｉ，ｊ）である位置の画素値（即ち、確率値）が０．２である場合、眼部輪郭マスクに対応するマッピング画像における座標が（ｉ，ｊ）である位置の画素値は、１－０．２＝０．８である。

本願の実施例では、電子機器が生成する補正後の眼部画像は、下記の式、即ち、補正後の眼部画像＝眼部輪郭マスク×初歩的補正後の眼部画像＋（１－眼部輪郭マスク）×補正対象眼部画像という式で表すことができる。

ステップ３５０において、補正後の眼部画像に基づいて、視線補正後の画像を生成するステップと、を含む。

本願の実施例では、電子機器は、補正後の眼部画像をオリジナルの補正対象画像に統合し、補正後の眼部画像を採用して補正対象画像内の補正対象眼部画像を上書き又は置き換えて、視線補正後の画像を得る。

本願の実施例では、電子機器は、補正後の眼部画像を補正対象眼部画像在補正対象画像の画像切り出し枠位置に統合して、統合画像を得、当該統合画像における前記画像切り出し枠位置に対して画像調和処理を行い、視線補正後の画像を得る。ここで、画像調和処理は、画像切り出し枠位置での境界痕跡を除去するために用いられる。

本願の実施例では、電子機器は、ガウスぼかし、収縮膨張、深度学習に基づく画像の調和方法など、画像調和処理に採用する方式を限定しない。

本願の実施例では、電子機器は、以下のステップで統合画像における画像切り出し枠位置に対して画像調和処理を行い、視線補正後の画像を得る。

まず、電子機器は、補正対象画像と同じサイズの初期化マスク画像を生成し、当該初期化マスク画像の画像切り出し枠位置の画素値は、１であり、残りの位置の画素値は、０である。例えば、オリジナルの補正対象画像のサイズが、Ｃ×Ｈ×Ｗであると仮定すると、ここで、Ｃは、チャンネル数（例えば、赤（Ｒ：Ｒｅｄ）、緑（Ｇ：Ｇｒｅｅｎ）、青（Ｂ：Ｂｌｕｅ）の３チャンネルを含む）であり、Ｈは、高さ（例えば、高さ方向に含まれる画素数）であり、Ｗは、幅（例えば、幅方向に含まれる画素数）である。画像切り出し枠は、補正対象画像における目標位置のサイズがｈ×ｗである矩形枠であり、ｈが高さ（例えば、高さ方向に含まれる画素数）であり、ｗが幅（例えば、幅方向に含まれる画素数）である場合、補正対象眼部画像及び補正後の眼部画像のサイズは、いずれもｃ×ｈ×ｗであり、ｃは、チャンネル数（例えば、Ｒ、Ｇ、Ｂの３チャンネルを含む）である。

説明すべきこととして、電子機器は、サイズがＣ×Ｈ×Ｗである初期化マスク画像を生成し、Ｃ個のチャンネル内の各単一チャンネル画像Ｈ×Ｗを対象にして、上記の目標位置のｈ×ｗ画像切り出し枠における画素値を、１と設定し、当該画像切り出し枠を除いた他の領域の画素値を、０と設定して、初期化マスク画像とする。

次に、電子機器は、初期化マスク画像に対してノイズ処理（例えば、収縮処理及びガウスぼかし処理）を行い、処理後のマスク画像を得る。

説明すべきこととして、収縮処理は、物体間の境界点を除去するために用いられ、例えば、楕円テンプレートを採用して、初期化マスク画像に対して収縮処理を行い、収縮後のマスク画像を得ることができる。ガウスぼかし処理は、ガウス平滑化処理とも呼ばれ、画像ノイズを減らし、細部のレベルを低減するために用いられる。上記の収縮後のマスク画像を得た後、電子機器は、当該収縮後のマスク画像に対してガウスぼかし処理を行い、処理後のマスク画像を得ることができる。処理後のマスク画像は、依然としてサイズがＣ×Ｈ×Ｗである画像であり、各画素の値は、［０，１］の範囲内にあり、本来の０と１の間の境界位置にある画素については、上記の収縮操作及びガウスぼかし処理を行った後、値が０と１の間となり、それにより、滑らかな遷移が可能となる。

次に、電子機器は、処理後のマスク画像と、統合画像における対応位置の画素値とを融合（例えば、乗算）して、第１生成画像を得る。

次に、電子機器は、処理後のマスク画像に対応するマッピング画像と、顔画像における対応位置の画素値とを融合（例えば、乗算）して、第２生成画像を得る。

最後に、電子機器は、第１生成画像と、第２生成画像における対応位置の画素値とを加算して、視線補正後の画像を得る。

説明すべきこととして、処理後のマスク画像における各位置の画素値は、［０，１］の範囲に属する値であり、処理後のマスク画像に対応するマッピング画像の任意の位置の画素値は、１から処理後のマスク画像における同じ位置の画素値を減算して得られた値である。例えば、処理後のマスク画像における座標が（ｉ，ｊ）である位置の画素値が０．３である場合、処理後のマスク画像に対応するマッピング画像における座標が（ｉ，ｊ）である位置の画素値は、１－０．３＝０．７である。

本願の実施例では、電子機器が視線補正後の画像を生成するステップは、下記の式、即ち、視線補正後の画像＝処理後のマスク画像×統合画像＋（１－処理後のマスク画像）×補正対象画像という式で表すことができる。

理解可能なこととして、画像調和処理により、統合画像における画像切り出し枠位置での境界痕跡を除去することができるため、最終的に得られる視線補正後の画像に目立つステッチの跡がなく、それにより、視線補正効果を高めることができる。

図４に示すように、図４は、本願の実施例によって提供される画像の視線補正方法による視線補正前後の対比図である。図４に示すように、画像４１は、補正対象画像であり、人の目の視線がオフセットされており、画像４２は、視線補正後の画像であり、視線が真正面に集中した状態である。

説明すべきこととして、視線補正を実現するために、補正対象眼部画像によって眼部運動フローフィールドを生成し、次に、当該眼部運動フローフィールドに基づいて上記の補正対象眼部画像における画素に対して変位処理を行い、補正後の眼部画像を生成してもよいが、上記の視線補正を実現する過程は、画素位置の移動を学習することにより実現され、このようにして、生成された画素はすべて入力された画素からのものであるため、柔軟性が悪く、歪みを生じやすい。例えば、瞳のずれが大きい場合、歪みが発生する。

図５に示すように、画像５１は、視線補正が行われていない補正対象画像であり、瞳のずれが大きく、画像５２は、フローモデルに基づく視線補正方法によって生成された視線補正後の画像であり、図５から明らかに分かるように、瞳の位置に歪がある。画像５３は、本願の実施例によって提供される画像の視線補正方法を採用して視線補正を行った後の画像であり、人の目の視線が真正面に集中し、瞳の位置に歪がない。

理解可能なこととして、本願の実施例によって提供される画像の視線補正方法は、補正対象眼部画像の特徴情報及び目標視線方向に基づいて、当該補正対象眼部画像に対して視線補正処理を行い、補正後の眼部画像を得ることにより、瞳のずれが大きい画像に対しても、リアルで正確な視線補正効果を得ることができる。

さらに、本願の実施例では、視線補正の過程で眼部輪郭マスクを利用し、アテンションメカニズムに従って補正対象眼部画像と、眼部運動フローフィールドによって得られる初歩的補正後の眼部画像とを融合することにより、生成された画像の安定性を向上させるだけでなく、眼部輪郭外部の画像内容に対して視線補正を行わずに、眼部輪郭内部の画像内容のみを視線補正することも保証し、最終的に得られる補正後の眼部画像の視線補正効果を向上させることができる。

図６を参照すると、図６は、願の実施例によって提供される画像の視線補正方法のフローチャートである。当該画像の視線補正方法の実行主体は、携帯電話、タブレット、ＰＣなどの端末機器であってもよいし、サーバなどの電子機器であってもよい。当該画像の視線補正方法は、ステップ６１０～ステップ６７０を含み得る。

ステップ６１０において、補正対象画像から補正対象眼部画像を取得する。

説明すべきこととして、ステップ６１０は、ステップ３１０と同様又は類似している。

ステップ６２０において、視線補正モデルの符号化ネットワークを介して、補正対象眼部画像に対して特徴抽出処理を行い、特徴情報を得る。

ここで、特徴情報は、目つき特徴、眼部テクスチャ特徴、及び環境特徴を含む。

ステップ６３０において、特徴情報と目標視線方向とをチャンネル次元で組み合わせて、組み合わせデータを得る。

本願の実施例では、電子機器は、特徴情報を得た後、当該特徴情報と目標視線方向とをチャンネル次元で組み合わせて、組み合わせデータを得る。例示的に、補正対象眼部画像の高さは、Ｈであり、幅は、Ｗであり、Ｈ及びＷは、それぞれ高さ方向の画素数、幅方向の画素数を表すことができる。そして、補正対象眼部画像は、１つのＨ×Ｗ×３の３チャンネル画像であり、当該補正対象眼部画像を視線補正モデルの符号化ネットワークに入力して、特徴情報を出力する。その後、特徴情報と目標視線方向とをチャンネル次元で組み合わせて、組み合わせデータを得る。目標視線方向は、ピッチ角及びヨー角を含み、例えば、カメラを正視する場合、ピッチ角は０°に等しく、且つヨー角も０°に等しいと定義し、補正対象眼部画像の目の視線をカメラを正視する方向に補正するために用いられる。

ステップ６４０において、視線補正モデルの復号化ネットワークを介して、組み合わせデータを処理して、視線補正モデルの出力データを得る。

ステップ６５０において、出力データから初歩的補正後の眼部画像及び眼部輪郭マスクを抽出する。

説明すべきこととして、復号化ネットワークは、上記の特徴情報と目標視線方向との組み合わせデータに基づいて、補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るために用いられる。例示的に、視線補正モデルの出力データは、Ｈ×Ｗ×４の４チャンネル画像を含み得、その中から３チャンネルのデータＨ×Ｗ×３を、眼部運動フローフィールドとして抽出し、残りの１チャンネルのデータＨ×Ｗ×１を眼部輪郭マスクとする。

ステップ６６０において、眼部輪郭マスクを採用して初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得る。

説明すべきこととして、ステップ６６０は、ステップ３４０と同様又は類似している。

ステップ６７０において、補正後の眼部画像に基づいて、視線補正後の画像を生成する。

説明すべきこととして、ステップ６７０は、ステップ３５０と同様又は類似している。

図７を参照すると、入力された補正対象画像７１に対して顔検出とレジストレーションを行い、入力された補正対象画像７１から補正対象眼部画像７２を切り出し、当該補正対象眼部画像７２を視線補正モデルの符号化ネットワーク（即ち、図７に示すエンコーダ７３１）に入力して、目つき特徴７７１、目つき無関連特徴７７２、及び環境特徴７７３などの特徴情報を得、次に、当該特徴情報と目標視線方向７８とを融合し、融合結果を視線補正モデルの復号化ネットワーク（即ち、図７に示すデコーダ７３２）に入力し、当該復号化ネットワークから初歩的補正後の眼部画像７４１及び眼部輪郭マスク７４２を出力し、次に、眼部輪郭マスク７４２を採用して初歩的補正後の眼部画像７４１に対して調整処理を行い、補正後の眼部画像７５を生成し、最後に、補正後の眼部画像７５と補正対象画像７１とを統合処理して、視線補正後の画像７６を得る。

理解可能なこととして、本願の実施例によって提供される画像の視線補正方法では、特徴抽出、及び初歩的補正後の眼部画像及び眼部輪郭マスクの生成により、プロセスが簡単で効率的になり、視線補正機能を実際に使用可能なレベルまでさせ、ビデオ会議、ビデオ通話、ビデオ生配信などのシーンに適合することができる。

以下、視線補正モデルの訓練フローについて説明するが、当該視線補正モデルの使用中に関する内容及び訓練過程中に関する内容は類似している。

図８を参照すると、図８は、本願の実施例による視線補正モデルの訓練方法のフローチャートである。当該視線補正モデルの訓練方法の実行主体は、コンピュータやサーバなどの電子機器であってもよい。当該視線補正モデルの訓練方法は、ステップ８１０～ステップ８４０を含み得る。

ステップ８１０において、訓練対象視線補正モデルの訓練サンプルを取得し、訓練サンプルは、補正対象眼部画像サンプル及び目標補正眼部画像を含む。

説明すべきこととして、訓練対象の補正モデルは、視線補正のための訓練対象のモデルであるニューラルネットワークモデルであってもよいし、オリジナルモデルであってもよいし、事前に訓練したモデルであってもよいし、本願の実施例は、これらに限定されない。

本願の実施例では、訓練対象視線補正モデルの入力データは、補正対象眼部画像サンプルを含み、出力データは、初歩的補正後の眼部画像及び眼部輪郭マスクを含む。

説明すべきこととして、各訓練サンプルは、それぞれ同じ対象（例えば、人）が同じ頭部姿勢角度で撮影した異なる視線の２枚の画像を含み、一方の画像は、補正対象眼部画像サンプルとして使用される任意の視線方向の画像（例えば、視線が正視するディスプレイ領域）であり得、他方の画像は、目標補正眼部画像として使用される、視線がカメラを正視する画像である。このような訓練サンプルで訓練対象視線補正モデルを訓練することにより、エンドツーエンドの視線補正モデルを訓練して得ることができ、視線補正モデルは、入力された補正対象眼部画像に基づいて、正視効果（例えば、視線がカメラを正視する）を有する補正後の眼部画像を出力する。

さらに、異なる訓練サンプルは、異なる対象（例えば、異なる人物）に基づいて取得されてもよいし、異なる頭部姿勢角度に基づいて取得されてもよいし、本願の実施例は、これらに限定されない。即ち、訓練対象視線補正モデルの訓練サンプルセットは、複数の訓練サンプルを含み得、当該複数の訓練サンプルは、異なる対象を有する訓練サンプル、異なる頭部姿勢角度を有する訓練サンプルを含み得、それにより、訓練された視線補正モデルを異なる対象及び異なる頭部姿勢角度に適応させ、視線補正モデルの頑健性を向上させることができる。

ステップ８２０において、訓練対象視線補正モデルを介して、前記補正対象眼部画像サンプル、前記目標補正眼部画像、及び目標視線方向サンプルに対して視線補正処理を行い、初歩的補正後の眼部画像サンプル及び眼部輪郭マスクサンプルを得る。

本願の実施例では、目標視線方向サンプルは、補正対象眼部画像サンプルにおける眼部視線の補正予定の視線方向を指す。説明すべきこととして、訓練中に、目標視線方向サンプルは、カメラを正視する（０°，０°）方向であってもよいし、他の任意の方向であってもよいため、訓練された視線補正モデルは、視線を任意の視線方向に補正することができる。

本願の実施例では、眼部輪郭マスクは、補正対象眼部画像サンプルにおける画素位置が眼部領域に属する確率を示すために用いられる。

本願の実施例では、図９に示すように、訓練対象視線補正モデルは、第１訓練対象符号化ネットワーク９１１、第２訓練対象符号化ネットワーク９１２、及び訓練対象復号化ネットワーク９１３を含む。

第１訓練対象符号化ネットワーク９１１を介して、補正対象眼部画像サンプル９２１に対して特徴抽出処理を行い、補正対象眼部画像サンプルに対応する特徴情報サンプルを得、目つき特徴サンプルＺ＿ｉ、目つき無関連特徴サンプルＩ＿ｉ、及び環境特徴サンプルＬ＿ｉを含む。ここで、補正対象眼部画像サンプル９２１は、画像サンプル９３に対して顔検出及びレジストレーションを行うことによって取得される。

第２訓練対象符号化ネットワーク９１２を介して、目標補正眼部画像９２２に対して特徴抽出処理を行い、目標補正眼部画像に対応する目標特徴情報を得、目標目つき特徴Ｚ＿ｇ、目標目つき無関連特徴Ｉ＿ｇ、及び目標環境特徴Ｌ＿ｇを含む。

訓練対象復号化ネットワーク９１３を介して、補正対象眼部画像サンプルに対応する目つき特徴サンプルＺ＿ｉ、及び目つき無関連特徴サンプルＩ＿ｉ、目標補正眼部画像に対応する目標環境特徴Ｌ＿ｇ、及び目標視線方向９４（θ１，θ２）に対して視線補正処理を行い、初歩的補正後の眼部画像サンプル９５１及び眼部輪郭マスクサンプル９５２を得、ここで、眼部輪郭マスクサンプル９５２を採用して初歩的補正後の眼部画像サンプル９５１に対して調整処理を行い、補正後の眼部画像サンプル９６を得る。

理解可能なこととして、訓練中に、各訓練サンプルに含まれる補正対象眼部画像サンプルと目標補正眼部画像の２枚の画像に、光などの環境ノイズの違いがあるため、電子機器は、エンコーダ（即ち、第１訓練対象符号化ネットワーク）の学習中に、特徴情報を、目つき特徴サンプルと目つき無関連特徴サンプルにデカップリングし、目標補正眼部画像に対応する目標環境特徴を訓練対象復号化ネットワークに入力することにより、環境ノイズによる干渉を低減し、視線補正の精度を向上させることができる。

ステップ８３０において、眼部輪郭マスクサンプルを採用して初歩的補正後の眼部画像サンプルに対して調整処理を行い、補正後の眼部画像サンプルを得る。

本願の実施例では、電子機器は、眼部輪郭マスクサンプルと、初歩的補正後の眼部画像サンプルにおける対応位置の画素値とを乗算して、第３中間画像を得、眼部輪郭マスクサンプルに対応するマッピング画像と、補正対象眼部画像サンプルにおける対応位置の画素値とを乗算して、第４中間画像を得、第３中間画像と第４中間画像における対応位置の画素値を加算して、補正後の眼部画像サンプルを得る。当該補正後の眼部画像サンプルを取得する過程は、ステップ３４０と類似している。

ステップ８４０において、補正後の眼部画像サンプル及び目標補正眼部画像に基づいて、訓練対象視線補正モデルの損失を決定し、損失に基づいて訓練対象視線補正モデルのパラメータを調整して、視線補正モデルを得る。

説明すべきこととして、訓練対象視線補正モデルの損失は、訓練対象視線補正モデルの性能を判断するために用いられる。

本願の実施例では、電子機器は、当該訓練対象視線補正モデルの損失に基づいて、勾配降下アルゴリズムを採用して訓練対象視線補正モデルのパラメータを調整して、モデルパラメータを最適化し、訓練が完了すると、視線補正モデルも得られる。

本願の実施例では、訓練対象視線補正モデルの損失は、以下のいくつかの態様を含み得る。

まず、電子機器は、補正後の眼部画像サンプルと目標補正眼部画像との画素差に基づいて、再構成損失を決定する。

説明すべきこととして、再構成損失は、２つの画像の画素上の違いを判断するために用いられ、当該再構成損失は下記の式１によって算出することができる。

［式１］
Ｒｅｃｏｎｓｔｒｕｃｔｉｏｎ＿ｌｏｓｓ＝｜ｆａｋｅ＿ｉｍｇ－ｇｔ＿ｉｍｇ｜

ここで、Ｒｅｃｏｎｓｔｒｕｃｔｉｏｎ＿ｌｏｓｓは、再構成損失を表し、ｆａｋｅ＿ｉｍｇは、補正後の眼部画像サンプルを表し、ｇｔ＿ｉｍｇは、目標補正眼部画像を表す。当該再構成損失は、Ｌ１損失、Ｌ２損失又は他のいくつかのアルゴリズムを採用して得られる損失であり得、本願実施例は、これらに限定されない。

次に、電子機器は、補正後の眼部画像サンプルと目標補正眼部画像との画像特徴差に基づいて、特徴損失を決定する。

説明すべきこととして、特徴損失は、２つの画像の画像特徴の差を判断するために用いられる。

本願の実施例では、特徴損失は、学習知覚画像パッチ類似性（ＬＰＩＰＳ：ＬｅａｒｎｅｄＰｅｒｃｅｐｔｕａｌＩｍａｇｅＰａｔｃｈＳｉｍｉｌａｒｉｔｙ）損失を含み、ＬＰＩＰＳ損失によって２つの画像間の視覚的感知差を正確に取得することができる。

説明すべきこととして、ＬＰＩＰＳ損失は、事前に訓練して生成された損失計算モデルによって得られる。ここで、電子機器は、補正後の眼部画像サンプル及び目標補正眼部画像を損失計算モデルに入力し、損失計算モデルによって、補正後の眼部画像サンプルと目標補正眼部画像とのＬＰＩＰＳ損失が出力される。ここで、損失計算モデルは、ビジュアルジオメトリグループ（ＶＧＧ：ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ）モデルなど、事前に訓練された畳み込みニューラルネットワークモデルであり得る。

例えば、ＶＧＧモデルを介して補正後の眼部画像サンプルｆａｋｅ＿ｉｍｇから抽出した画像特徴を、ｖｇｇ＿ｆｅａｔｕｒｅ（ｆａｋｅ＿ｉｍｇ）とし、ＶＧＧモデルを介して目標補正眼部画像ｇｔ＿ｉｍｇから抽出した画像特徴を、ｖｇｇ＿ｆｅａｔｕｒｅ（ｇｔ＿ｉｍｇ）とする。ｖｇｇ＿ｆｅａｔｕｒｅ（ｆａｋｅ＿ｉｍｇ）に対応する異なるネットワーク層の特徴が、ｆａｋｅ＿ｉｍｇ＿ｆｅａ１、ｆａｋｅ＿ｉｍｇ＿ｆｅａ２、ｆａｋｅ＿ｉｍｇ＿ｆｅａ３、及びｆａｋｅ＿ｉｍｇ＿ｆｅａ４を含み、ｖｇｇ＿ｆｅａｔｕｒｅ（ｇｔ＿ｉｍｇ）に対応する異なるネットワーク層の特徴が、ｇｔ＿ｉｍｇ＿ｆｅａ１、ｇｔ＿ｉｍｇ＿ｆｅａ２、ｇｔ＿ｉｍｇ＿ｆｅａ３、及びｇｔ＿ｉｍｇ＿ｆｅａ４を含む場合、ＬＰＩＰＳ損失ＬＰＩＰＳ＿ｌｏｓｓは、下記の式２に示す通りである。

［式２］
ＬＰＩＰＳ＿ｌｏｓｓ＝｜ｆａｋｅ＿ｉｍｇ＿ｆｅａ１－ｇｔ＿ｉｍｇ＿ｆｅａ１｜＋｜ｆａｋｅ＿ｉｍｇ＿ｆｅａ２－ｇｔ＿ｉｍｇ＿ｆｅａ２｜＋｜ｆａｋｅ＿ｉｍｇ＿ｆｅａ３－ｇｔ＿ｉｍｇ＿ｆｅａ４｜＋｜ｆａｋｅ＿ｉｍｇ＿ｆｅａ４－ｇｔ＿ｉｍｇ＿ｆｅａ４｜

本願の実施例では、電子機器は、ソフトウェアシミュレーション技術を採用して、複数のシミュレーション画像対を生成し、各シミュレーション画像対は、１組の対応する非正視眼部シミュレーション画像及び正視眼部シミュレーション画像を含み、ここで、電子機器は、上記の複数のシミュレーション画像対を採用して損失計算モデルを訓練する。

説明すべきこととして、シミュレーション画像は、実際の目の外観テクスチャ情報とは差異があるが、シミュレーション画像の視線方向と眼球位置との関係は、実際な対象の視線方向と眼球位置との関係と同じであり、且つシミュレーション画像の視線方向は、データ生成時に決定されるため、大量のラベリングコストを削減し、基準効率を向上させることができる。

理解可能なこととして、本願の実施例においてシミュレーション画像により事前に訓練された損失計算モデルは、実際の目のデータに対応するモデル訓練におけるＬＰＩＰＳ損失の計算に直接用いられ得、損失計算モデルによって得られたＬＰＩＰＳ損失に表される視覚感知情報は、視線の方向であり、したがって、モデルの訓練効果及び効率を向上させることができる。

次に、電子機器は、補正後の眼部画像サンプルと目標補正眼部画像との生成対抗損失を決定する。

説明すべきこととして、生成対抗ネットワーク（ＧＡＮ：ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）は、非監視的学習の１つの方法であり、２つのニューラルネットワークが互いに競う方式で学習し、１つの生成ネットワークと１つの判別ネットワークから構成される。生成ネットワークは、潜在空間（ＬａｔｅｎｔＳｐａｃｅ）からランダムでサンプルを選択して入力とし、生成ネットワークの出力結果は、訓練セット内の実際のサンプルをできるだけ模倣する必要がある。判別ネットワークの入力は、実際のサンプル又は生成ネットワークの出力結果であり、判別ネットワークは、実際のサンプルから生成ネットワークの出力結果をできるだけ判別するために用いられる。一方、生成ネットワークは、判別ネットワークをできるだけ欺く必要がある。２つのネットワークは互いに対抗し、常にパラメータを調整し、最終的には偽の画像を生成する。

本願の実施例では、上述した第１訓練対象符号化ネットワーク、第２訓練対象符号化ネットワーク、及び訓練対象復号化ネットワークの視線補正モデルは、生成ネットワークであり、判別ネットワーク、即ち、図９に示すマルチスケール判別器９７は、当該判別器Ｄに送り込まれる画像が生成ネットワークから生成された画像（即ち、補正後の眼部画像サンプル）であるか、実画像（（即ち、目標補正眼部画像）であるかを判別するために用いられる。

本願の実施例では、当該判別器Ｄは、マルチスケール判別器であり得、例えば、マルチスケール判別器の入力は、原図、原図の１／２サイズ、原図の１／４サイズなど、複数の異なるサイズの画像であり得る。ここで、生成対抗損失は、生成ネットワーク損失及び判別ネットワーク損失を含み、生成ネットワーク損失は、生成ネットワークの損失であり、判別ネットワーク損失は、判別ネットワークの損失である。判別ネットワーク損失は、判別ネットワークの判別精度を判断するために用いられ、生成ネットワーク損失は、生成された補正後の眼部画像サンプルと目標補正眼部画像との近接度を判断するために用いられる。

例えば、判別ネットワーク損失Ｄ＿ｌｏｓｓは、式３で表すことができ、生成ネットワーク損失Ｇ＿ｌｏｓｓは、式４で表すことができ、式３及び式４は下記に示す通りである。

［式３］
Ｄ＿ｌｏｓｓ＝１／３＊（－ｌｏｇＤ（ｇｔ＿ｉｍｇ）－ｌｏｇ（１－Ｄ（ｆａｋｅ＿ｉｍｇ））－ｌｏｇＤ（ｇｔ＿ｉｍｇ＿１／２）－ｌｏｇ（１－Ｄ（ｆａｋｅ＿ｉｍｇ＿１／２））－ｌｏｇＤ（ｇｔ＿ｉｍｇ＿１／４）－ｌｏｇ（１－Ｄ（ｆａｋｅ＿ｉｍｇ＿１／４）））
［式４］
Ｇ＿ｌｏｓｓ＝ｌｏｇ（１－Ｄ（ｆａｋｅ＿ｉｍｇ））

ここで、Ｄ（Ｘ）は、入力画像Ｘに対する判別ネットワークの判別結果を表し、ｇｔ＿ｉｍｇ＿１／２は、目標補正眼部画像の１／２であり、ｇｔ＿ｉｍｇ＿１／４は、目標補正眼部画像の１／４であり、ｆａｋｅ＿ｉｍｇ＿１／２は、補正後の眼部画像サンプルの１／２であり、ｆａｋｅ＿ｉｍｇ＿１／４は、補正後の眼部画像サンプルの１／４である。

最後に、電子機器は、再構成損失、特徴損失、及び生成対抗損失に基づいて、視線補正モデルの損失を決定する。例えば、上記の再構成損失Ｒｅｃｏｎｓｔｒｕｃｔｉｏｎ＿ｌｏｓｓ、特徴損失ＬＰＩＰＳ＿ｌｏｓｓ、及び生成対抗損失（判別ネットワークの損失Ｄ＿ｌｏｓｓ及び生成ネットワークの損失Ｇ＿ｌｏｓｓを含む）に対して、直接加算又は重み付け加算を行い、訓練対象視線補正モデルの損失を得ることができる。

本願の実施例では、訓練対象視線補正モデルの損失は、視線推定損失をさらに含む。図９に示すように、補正後の眼部画像サンプル９６を得た後、電子機器は、補正後の眼部画像サンプル９６に対して視線推定を行い、補正後の眼部画像サンプル９６の視線方向（θ１’，θ２’）を得、補正後の眼部画像サンプルの視線方向及び目標視線方向に基づいて、視線推定損失を決定する。ここで、補正後の眼部画像サンプルに対して視線推定を行い、補正後の眼部画像サンプルの視線方向を得ることは、視線推定能力を有する１つのニューラルネットワークを事前に訓練することにより実現することができる。

本願の実施例では、視線推定損失Ｇａｚｅ＿ｌｏｓｓは、式５で表すことができ、式５は、下記に示す通りである。

［式５］
Ｇａｚｅ＿ｌｏｓｓ＝｜｜θ１’－θ１｜｜＋｜｜θ２’－θ２｜｜

ここで、（θ１’，θ２’）は、予測して得た補正後の眼部画像サンプルの視線方向を表し、（θ１，θ２）は、目標視線方向を表す。次に、電子機器は、視線推定損失Ｇａｚｅ＿ｌｏｓｓ、再構成損失Ｒｅｃｏｎｓｔｒｕｃｔｉｏｎ＿ｌｏｓｓ、特徴損失ＬＰＩＰＳ＿ｌｏｓｓ、判別ネットワークの損失Ｄ＿ｌｏｓｓ、及び生成ネットワークの損失Ｇ＿ｌｏｓｓに基づいて、訓練対象視線補正モデルの損失を決定する。例えば、訓練対象視線補正モデルの損失ｌｏｓｓは、式６で表すことができ、式６は、下記に示す通りである。

［式６］
ｌｏｓｓ＝Ｇａｚｅ＿ｌｏｓｓ＋Ｒｅｃｏｎｓｔｒｕｃｔｉｏｎ＿ｌｏｓｓ＋ＬＰＩＰＳ＿ｌｏｓｓ＋Ｄ＿ｌｏｓｓ＋Ｇ＿ｌｏｓｓ

本願の実施例では、電子機器は、訓練対象視線補正モデルの損失ｌｏｓｓを算出するときに、重み付け加算の方式を採用して算出することもでき、本願の実施例は、これらに限定されない。

説明すべきこととして、電子機器が訓練対象視線補正モデルの訓練を完了し、視線補正モデルを得た後、視線補正モデルの使用中には、訓練された第１訓練対象符号化ネットワークを符号化ネットワークとして使用すればよく、訓練された第２訓練対象符号化ネットワークを必要としない。

理解可能なこととして、本願の実施例によって提供される視線補正モデルの訓練方法では、訓練対象視線補正モデルの訓練中に、各訓練サンプルに含まれる補正対象眼部画像サンプルと目標補正眼部画像の２枚の画像に、光などの環境ノイズの違いがあるため、本願の実施例は、エンコーダの学習過程において、特徴情報を、特定目つき特徴、目つき特徴サンプル、及び環境関連特徴サンプルにデカップリングし、目標補正眼部画像に対応する目標環境特徴を訓練対象復号化ネットワークに入力することにより、環境ノイズによる干渉を低減し、最終的に訓練して得られる視線補正モデルの頑健性を向上させ、さらに、視線補正の精度を向上させることができる。

さらに理解可能なこととして、訓練対象視線補正モデルの損失を算出するときに、再構成損失、特徴損失、生成対抗損失、及び視線推定損失などの様々な損失を導入することにより、訓練対象視線補正モデルのパラメータ調整の効率及び精度を向上させ、視線補正モデルを取得する効率を向上させることができる。

図１０を参照すると、図１０は、本願の実施例による画像の視線補正装置のブロック図である。当該画像の視線補正装置は、本願の実施例によって提供される画像の視線補正方法を実現するための機能を含み、前記機能は、ハードウェアによって実現されてもよいし、対応するソフトウェアをハードウェアで実行することにより実現されてもよい。当該装置は、コンピュータ機器などの電子機器であってもよいし、コンピュータ機器などの電子機器に設けられてもよい。当該画像の視線補正装置１０００は、眼部画像取得モジュール１０１０と、特徴情報抽出モジュール１０２０と、視線補正処理モジュール１０３０と、画像調整処理モジュール１０４０と、眼部画像統合モジュール１０５０と、を備えることができる。

眼部画像取得モジュール１０１０は、補正対象画像から補正対象眼部画像を取得するように構成される。

特徴情報抽出モジュール１０２０は、前記補正対象眼部画像に対して特徴抽出処理を行い、前記補正対象眼部画像の特徴情報を得るように構成される。

視線補正処理モジュール１０３０は、前記特徴情報及び目標視線方向に基づいて、前記補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るように構成され、ここで、前記目標視線方向は、前記補正対象眼部画像における眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクは、前記補正対象眼部画像内の画素位置が眼部領域に属する確率を示すために用いられる。

画像調整処理モジュール１０４０は、前記眼部輪郭マスクを採用して前記初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得るように構成される。

眼部画像統合モジュール１０５０は、前記補正後の眼部画像に基づいて、視線補正後の顔画像を生成するように構成される。

本願の実施例では、前記特徴情報抽出モジュール１０２０はさらに、前記補正対象眼部画像に対して特徴抽出処理を行い、目つき特徴、眼部テクスチャ特徴、及び環境特徴を得、前記特定目つき特徴、前記眼部テクスチャ特徴、及び前記環境関連特徴を、前記特徴情報として決定するように構成される。

本願の実施例では、前記視線補正処理モジュール１０３０はさらに、前記特徴情報と前記目標視線方向とをチャンネル次元で組み合わせて、組み合わせデータを得るステップと、前記補正対象眼部画像の特徴次元に基づいて、前記組み合わせデータに対して特徴再構成を行い、前記初歩的補正後の眼部画像及び前記眼部輪郭マスクを得るステップと、を行うように構成される。

本願の実施例では、前記画像調整処理モジュール１０４０はさらに、前記眼部輪郭マスクと、前記初歩的補正後の眼部画像における対応位置の画素値とを融合して、第１中間画像を得るステップと、前記眼部輪郭マスクに対応するマッピング画像と、前記補正対象眼部画像における対応位置の画素値とを融合して、第２中間画像を得るステップと、前記第１中間画像と前記第２中間画像における対応位置の画素値を統合して、前記補正後の眼部画像を得るステップと、を行うように構成される。

本願の実施例では、前記眼部画像統合モジュール１０５０はさらに、前記補正後の眼部画像を前記補正対象画像の画像切り出し枠位置に統合して、統合画像を得るステップであって、前記画像切り出し枠位置は、前記補正対象画像における前記補正対象眼部画像の位置である、ステップと、前記統合画像における前記画像切り出し枠位置に対して画像調和処理を行い、前記視線補正後の画像を得るステップであって、前記画像調和処理は、前記画像切り出し枠位置での境界痕跡を除去するために用いられる、ステップと、を行うように構成される。

本願の実施例では、前記特徴抽出処理及び前記視線補正処理は、いずれも視線補正モデルによって実現され、ここで、前記視線補正モデルは、符号化ネットワーク及び復号化ネットワークを含み、前記符号化ネットワークは、前記特徴抽出処理を実行するために用いられ、前記復号化ネットワークは、前記視線補正処理を実行するために用いられる。

図１１を参照すると、図１１は、本願の実施例による視線補正モデルの訓練装置のブロック図である。当該視線補正モデルの訓練装置は、本願の実施例によって提供される視線補正モデルの訓練方法を実現するための機能を含み、前記機能は、ハードウェアによって実現されてもよいし、対応するソフトウェアをハードウェアで実行することにより実現されてもよい。当該視線補正モデルの訓練装置は、コンピュータ機器などの電子機器であってもよいし、コンピュータ機器などの電子機器に設けられてもよい。当該視線補正モデルの訓練装置１１００は、サンプル取得モジュール１１１０と、モデル処理モジュール１１２０と、画像調整モジュール１１３０と、パラメータ調整モジュール１１４０と、を備えることができる。

サンプル取得モジュール１１１０は、訓練対象視線補正モデルの訓練サンプルを取得するように構成され、前記訓練サンプルは、補正対象眼部画像サンプル及び目標補正眼部画像を含む。

モデル処理モジュール１１２０は、前記訓練対象視線補正モデルを介して、前記補正対象眼部画像サンプル、前記目標補正眼部画像、及び目標視線方向サンプルに対して視線補正処理を行い、初歩的補正後の眼部画像サンプル及び眼部輪郭マスクサンプルを得るように構成され、前記目標視線方向サンプルは、前記補正対象眼部画像サンプルにおける眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクサンプルは、前記補正対象眼部画像サンプルにおける画素位置が眼部領域に属する確率を示すために用いられる。

画像調整モジュール１１３０は、前記眼部輪郭マスクサンプルを採用して前記初歩的補正後の眼部画像サンプルに対して調整処理を行い、補正後の眼部画像サンプルを得るように構成される。

パラメータ調整モジュール１１４０は、前記補正後の眼部画像サンプル及び前記目標補正眼部画像に基づいて、前記訓練対象視線補正モデルの損失を決定し、前記損失に基づいて前記訓練対象視線補正モデルのパラメータを調整して、視線補正モデルを得るように構成される。

本願の実施例では、前記訓練対象視線補正モデルは、第１訓練対象符号化ネットワーク、第２訓練対象符号化ネットワーク、及び訓練対象復号化ネットワークを含み、前記モデル処理モジュール１１２０は、前記第１訓練対象符号化ネットワークを介して、前記補正対象眼部画像サンプルに対して特徴抽出処理を行い、目つき特徴サンプル及び眼部テクスチャ特徴サンプルを得るステップと、前記第２訓練対象符号化ネットワークを介して、前記目標補正眼部画像に対して特徴抽出処理を行い、目標環境特徴を得るステップと、前記訓練対象復号化ネットワークを介して、前記目つき特徴サンプル、前記目つき無関連特徴、前記目標環境特徴、及び前記目標視線方向サンプルに対して視線補正処理を行い、前記初歩的補正後の眼部画像サンプル及び前記眼部輪郭マスクサンプルを得るステップと、を行うように構成される。

本願の実施例では、前記パラメータ調整モジュール１１４０はさらに、前記補正後の眼部画像サンプルと前記目標補正眼部画像との画素差に基づいて、再構成損失を決定するステップと、前記補正後の眼部画像サンプルと前記目標補正眼部画像との画像特徴差に基づいて、特徴損失を決定するステップと、前記補正後の眼部画像サンプルと前記目標補正眼部画像との生成対抗損失を決定するステップと、前記再構成損失、前記特徴損失、及び前記生成対抗損失に基づいて、前記視線補正モデルの前記損失を決定するステップと、を行うように構成される。

本願の実施例では、前記パラメータ調整モジュール１１４０はさらに、特徴損失計算モデルを介して、前記補正後の眼部画像サンプルと前記目標補正眼部画像との学習知覚画像パッチ類似性（ＬＰＩＰＳ）損失を出力するように構成され、前記特徴損失は、前記ＬＰＩＰＳ損失を含む。

本願の実施例では、前記パラメータ調整モジュール１１４０はさらに、マルチスケール判別器による前記補正後の眼部画像サンプル及び前記目標補正眼部画像の判別結果に基づいて、生成ネットワーク損失及び判別ネットワーク損失を決定するステップと、前記生成ネットワーク損失及び前記判別ネットワーク損失を、前記生成対抗損失として決定するステップと、を行うように構成される。

本願の実施例では、前記パラメータ調整モジュール１１４０はさらに、前記補正後の眼部画像サンプルに対して視線推定を行い、前記補正後の眼部画像サンプルの視線方向を得るステップと、前記補正後の眼部画像サンプルの視線方向及び前記目標視線方向サンプルに基づいて、視線推定損失を決定するステップと、を行うように構成される。

本願の実施例では、前記パラメータ調整モジュール１１４０はさらに、前記視線推定損失、前記再構成損失、前記特徴損失、及び前記生成対抗損失に基づいて、前記訓練対象視線補正モデルの前記損失を決定するように構成される。

説明すべきこととして、本願の実施例によって提供される画像の視線補正装置及び視線補正モデルの訓練装置において、対応する機能を実現する場合に、上記の各機能モジュールの分割のみを例として説明しており、実際の応用では、必要に応じて、上記の機能を異なる機能モジュールに割り当てて完了させることができ、つまり、コンピュータ機器の内部構造を異なる機能モジュールに分割することにより、以上で説明された機能の全部又は一部を完了することができる。また、本願の実施例によって提供される画像の視線補正装置及び視線補正モデルの訓練装置は、本願の実施例によって提供される画像の視線補正及び視線補正モデルの訓練方法と同じ技術的構想に属する。

図１２を参照すると、図１２は、本願実施例によるコンピュータ機器の構成を示す模式図である。当該コンピュータ機器は、携帯電話、タブレット、ＰＣ又はサーバなどのデータ計算、処理、及び記憶機能を備えた任意の電子機器であり得る。当該コンピュータ機器は、本願の実施例によって提供される顔画像の視線補正方法又は視線補正モデルの訓練方法を実施するために用いられる。具体的には、
当該コンピュータ機器１２００は、中央処理装置（例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、グラフィックスプロセッサ（ＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、及びフィールドプログラマブルゲートアレイ（ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）など）１２０１、ランダムアクセスメモリ（ＲＡＭ：Ｒａｎｄｏｍ－ＡｃｃｅｓｓＭｅｍｏｒｙ）１２０２、読み取り専用メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）１２０３を含むシステムメモリ１２０４及びシステムメモリ１２０４と中央処理装置１２０１とを接続するシステムバス１２０５を含む。当該コンピュータ機器１２００は、サーバ内の各デバイス間の情報の転送を支援する基本入力／出力システム（Ｉ／Ｏシステム：ＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）１２０６と、オペレーティングシステム１２１３、アプリケーション１２１４、及びその他のプログラムモジュール１２１５を記憶する大容量記憶装置１２０７と、をさらに含む。

当該基本入力／出力システム１２０６は、情報を表示するディスプレイ１２０８と、ユーザが情報を入力するためのマウス、キーボードなどの入力機器１２０９とを含む。ここで、当該ディスプレイ１２０８及び入力機器１２０９は、いずれもシステムバス１２０５に接続された入出力コントローラ１２１０を介して中央処理装置１２０１に接続される。当該基本入力／出力システム１２０６は、キーボード、マウス、又は電子スタイラスなどの複数の他のデバイスからの入力を受信して処理するための入出力コントローラ１２１０をさらに含み得る。本願の実施例では、入出力コントローラ１２１０は、ディスプレイ、プリンタ、その他のタイプの出力装置にも出力を提供する。

当該大容量記憶装置１２０７は、システムバス１２０５に接続された大容量記憶コントローラ（図示せず）を介して中央処理装置１２０１に接続される。当該大容量記憶装置１２０７及びそれに関連するコンピュータ可読記憶媒体は、コンピュータ機器１２００に不揮発性の記憶を提供する。つまり、当該大容量記憶装置１２０７は、ハードディスクや読み取り専用コンパクトディスク（ＣＤ－ＲＯＭ：ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）ドライブなどのコンピュータ可読記憶媒体（図１２に図示せず）を含み得る。

本願の実施例では、当該コンピュータ可読記憶媒体は、コンピュータ記憶媒体及び通信媒体を含み得る。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、又は他のデータなどの情報を記憶するための任意の方法又は技術的実装の揮発性及び不揮発性、リムーバブル及び非リムーバブル媒体を含む。コンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ：ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ：ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ又は他の固体記憶デバイス技術、ＣＤ－ＲＯＭ、高密度デジタルビデオディスク（ＤＶＤ：ＤｉｇｉｔａｌＶｉｄｅｏＤｉｓｃ）又はその他の光ストレージ、テープカートリッジ、テープ、ディスクストレージ、又はその他の磁気ストレージデバイスを含む。もちろん、当業者であれば、当該コンピュータ可読記憶媒体は、上記したものに限定されるものではないことが分かる。上記のシステムメモリ１２０４及び大容量記憶装置１２０７を総称してメモリと呼ぶことができる。

本願の実施例によれば、当該コンピュータ機器１２００は、インターネットなどのネットワークを介してネットワーク上のリモートコンピュータに接続して実行されることもできる。即ち、コンピュータ機器１２００は、当該システムバス１２０５に接続されたネットワークインターフェースユニット１２１１を介して、ネットワーク１２１２に接続されてもよいし、又は、ネットワークインターフェースユニット１２１１を使用して他のタイプのネットワーク又はリモートコンピュータシステム（図１２に図示せず）に接続されてもよい。

前記メモリは、少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットをさらに含み、当該少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットは、メモリに記憶され、１つ又は複数のプロセッサによって実行されることにより、本願の実施例によって提供される画像の視線補正方法又は視線補正モデルの訓練方法を実現する。

本願の実施例では、コンピュータ可読記憶媒体をさらに提供し、前記コンピュータ可読記憶媒体に、少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットが記憶され、前記少なくとも１つの命令、前記少なくとも１つのプログラム、前記コードセット又は前記命令セットは、コンピュータ機器のプロセッサによって実行されるときに、本願の実施例によって提供される画像の視線補正方法又は視線補正モデルの訓練方法を実現する。

本願の実施例では、当該コンピュータ可読記憶媒体は、ＲＯＭ、ＲＡＭ、ソリッドステートハードディスク（ＳＳＤ：ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅｓ）又は光ディスクなどを含み得る。ここで、ＲＡＭは、抵抗式ランダムアクセスメモリ（ＲｅＲＡＭ：ＲｅｓｉｓｔａｎｃｅＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、及びダイナミックランダムアクセスメモリ（ＤＲＡＭ：ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を含み得る。

本願の実施例では、コンピュータプログラム製品又はコンピュータプログラムをさらに提供し、前記コンピュータプログラム製品又はコンピュータプログラムは、コンピュータ命令を含み、前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶される。コンピュータ機器（電子機器である）のプロセッサは、前記コンピュータ可読記憶媒体から前記コンピュータ命令を読み取り、前記プロセッサは、前記コンピュータ命令を実行することにより前記コンピュータ機器に、本願の実施例によって提供される画像の視線補正方法又は視線補正モデルの訓練方法を実行させる。

説明すべきこととして、本明細書における「複数」は、２つ又は２つ以上を指す。及び／又は」という用語は、関連付けられた関係についてのみ説明し、３つの関係が存在し得ることを表示し、例えば、Ａ及び／又はＢは、Ａが独立で存在する場合、ＡとＢの両方が存在する場合、Ｂが独立で存在する場合の３つの場合を表示することができる。また、記号「／」は、通常、関連付けられた対象間の関係が、「又は」という関係にあることを表示する。また、本願の実施例で説明したステップの番号付けは、ステップ間の実行順序の１つの可能性を例示的に示しているに過ぎず、いくつかの他の実施例では、上記のステップは、番号順に実行しなくてもよい。例えば、２つの異なる番号のステップが同時に実行されてもよいし、また、２つの異なる番号のステップが図示と逆の順序で実行されてもよいし、本願の実施例は、これらに限定されない。

上記は、本願の例示的な実施例に過ぎず、本願を限定することを意図するものではなく、本願の精神及び原則内で行われるあらゆる修正、同等の置換、改善などは、本願の保護範囲に含まれるべきである。

1000 画像の視線補正装置
1010 眼部画像取得モジュール
1020 特徴情報抽出モジュール
1030 視線補正処理モジュール
1040 画像調整処理モジュール
1050 眼部画像統合モジュール
1100 視線補正モデルの訓練装置
1110 サンプル取得モジュール
1120 モデル処理モジュール
1130 画像調整モジュール
1140 パラメータ調整モジュール
1200 コンピュータ機器
1201 中央処理装置
1202 ランダムアクセスメモリ
1203 読み取り専用メモリ
1204 システムメモリ
1205 システムバス
1206 入力／出力システム
1207 大容量記憶装置
1208 ディスプレイ
1209 入力機器
1210 入出力コントローラ
1211 ネットワークインターフェースユニット
1212 ネットワーク
1213 オペレーティングシステム
1214 アプリケーションプログラム
1215 その他のプログラムモジュール

Claims

電子機器が実行する画像の視線補正方法であって、
補正対象画像から補正対象眼部画像を取得するステップと、
前記補正対象眼部画像に対して特徴抽出処理を行い、前記補正対象眼部画像の特徴情報を得るステップと、
前記特徴情報及び目標視線方向に基づいて、前記補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るステップであって、前記目標視線方向は、前記補正対象眼部画像における眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクは、前記補正対象眼部画像内の画素位置が眼部領域に属する確率を示すために用いられる、ステップと、
前記眼部輪郭マスクを採用して前記初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得るステップと、
前記補正後の眼部画像に基づいて、視線補正後の画像を生成するステップと、を含む、画像の視線補正方法。
前記補正対象眼部画像に対して特徴抽出処理を行い、前記補正対象眼部画像の特徴情報を得るステップは、
前記補正対象眼部画像に対して特徴抽出処理を行い、目つき特徴、眼部テクスチャ特徴、及び環境特徴を得るステップと、
前記特定目つき特徴、前記眼部テクスチャ特徴、及び前記環境関連特徴を、前記特徴情報として決定するステップと、を含む、
請求項１に記載の画像の視線補正方法。
前記特徴情報及び目標視線方向に基づいて、前記補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るステップは、
前記特徴情報と前記目標視線方向とをチャンネル次元で組み合わせて、組み合わせデータを得るステップと、
前記補正対象眼部画像の特徴次元に基づいて、前記組み合わせデータに対して特徴再構成を行い、前記初歩的補正後の眼部画像及び前記眼部輪郭マスクを得るステップと、を含む、
請求項１に記載の画像の視線補正方法。
前記眼部輪郭マスクを採用して前記初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得るステップは、
前記眼部輪郭マスクと、前記初歩的補正後の眼部画像における対応位置の画素値とを融合して、第１中間画像を得るステップと、
前記眼部輪郭マスクに対応するマッピング画像と、前記補正対象眼部画像における対応位置の画素値とを融合して、第２中間画像を得るステップと、
前記第１中間画像と前記第２中間画像における対応位置の画素値を統合して、前記補正後の眼部画像を得るステップと、を含む、
請求項１に記載の画像の視線補正方法。
前記補正後の眼部画像に基づいて、視線補正後の画像を生成するステップは、
前記補正後の眼部画像を前記補正対象画像の画像切り出し枠位置に統合して、統合画像を得るステップであって、前記画像切り出し枠位置は、前記補正対象画像における前記補正対象眼部画像の位置である、ステップと、
前記統合画像における前記画像切り出し枠位置に対して画像調和処理を行い、前記視線補正後の画像を得るステップであって、前記画像調和処理は、前記画像切り出し枠位置での境界痕跡を除去するために用いられる、ステップと、を含む、
請求項１～４のいずれか一項に記載の画像の視線補正方法。
前記特徴抽出処理及び前記視線補正処理は、いずれも視線補正モデルによって実現され、前記視線補正モデルは、符号化ネットワーク及び復号化ネットワークを含み、前記符号化ネットワークは、前記特徴抽出処理を実行するために用いられ、前記復号化ネットワークは、前記視線補正処理を実行するために用いられる、
請求項１～４のいずれか一項に記載の画像の視線補正方法。
電子機器が実行する視線補正モデルの訓練方法であって、
訓練対象視線補正モデルの訓練サンプルを取得するステップであって、前記訓練サンプルは、補正対象眼部画像サンプル及び目標補正眼部画像を含む、ステップと、
前記訓練対象視線補正モデルを介して、前記補正対象眼部画像サンプル、前記目標補正眼部画像、及び目標視線方向サンプルに対して視線補正処理を行い、初歩的補正後の眼部画像サンプル及び眼部輪郭マスクサンプルを得るステップであって、前記目標視線方向サンプルは、前記補正対象眼部画像サンプルにおける眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクサンプルは、前記補正対象眼部画像サンプルにおける画素位置が眼部領域に属する確率を示すために用いられる、ステップと、
前記眼部輪郭マスクサンプルを採用して前記初歩的補正後の眼部画像サンプルに対して調整処理を行い、補正後の眼部画像サンプルを得るステップと、
前記補正後の眼部画像サンプル及び前記目標補正眼部画像に基づいて、前記訓練対象視線補正モデルの損失を決定し、前記損失に基づいて前記訓練対象視線補正モデルのパラメータを調整して、視線補正モデルを得るステップと、を含む、視線補正モデルの訓練方法。
前記訓練対象視線補正モデルは、第１訓練対象符号化ネットワーク、第２訓練対象符号化ネットワーク、及び訓練対象復号化ネットワークを含み、
前記訓練対象視線補正モデルを介して、前記補正対象眼部画像サンプル、前記目標補正眼部画像、及び目標視線方向サンプルに対して視線補正処理を行い、初歩的補正後の眼部画像サンプル及び眼部輪郭マスクサンプルを得るステップは、
前記第１訓練対象符号化ネットワークを介して、前記補正対象眼部画像サンプルに対して特徴抽出処理を行い、目つき特徴サンプル及び眼部テクスチャ特徴サンプルを得るステップと、
前記第２訓練対象符号化ネットワークを介して、前記目標補正眼部画像に対して特徴抽出処理を行い、目標環境特徴を得るステップと、
前記訓練対象復号化ネットワークを介して、前記目つき特徴サンプル、前記目つき無関連特徴、前記目標環境特徴、及び前記目標視線方向サンプルに対して視線補正処理を行い、前記初歩的補正後の眼部画像サンプル及び前記眼部輪郭マスクサンプルを得るステップと、を含む、
請求項７に記載の視線補正モデルの訓練方法。
前記補正後の眼部画像サンプル及び前記目標補正眼部画像に基づいて、前記訓練対象視線補正モデルの損失を決定するステップは、
前記補正後の眼部画像サンプルと前記目標補正眼部画像との画素差に基づいて、再構成損失を決定するステップと、
前記補正後の眼部画像サンプルと前記目標補正眼部画像との画像特徴差に基づいて、特徴損失を決定するステップと、
前記補正後の眼部画像サンプルと前記目標補正眼部画像との生成対抗損失を決定するステップと、
前記再構成損失、前記特徴損失、及び前記生成対抗損失に基づいて、前記視線補正モデルの前記損失を決定するステップと、を含む、
請求項７又は８に記載の視線補正モデルの訓練方法。
前記補正後の眼部画像サンプルと前記目標補正眼部画像との画像特徴差に基づいて、特徴損失を決定するステップは、
特徴損失計算モデルを介して、前記補正後の眼部画像サンプルと前記目標補正眼部画像との学習知覚画像パッチ類似性（ＬＰＩＰＳ）損失を出力するステップを含み、前記特徴損失は、前記ＬＰＩＰＳ損失を含む、
請求項９に記載の視線補正モデルの訓練方法。
前記補正後の眼部画像サンプルと前記目標補正眼部画像との生成対抗損失を決定するステップは、
マルチスケール判別器による前記補正後の眼部画像サンプル及び前記目標補正眼部画像の判別結果に基づいて、生成ネットワーク損失及び判別ネットワーク損失を決定するステップと、
前記生成ネットワーク損失及び前記判別ネットワーク損失を、前記生成対抗損失として決定するステップと、を含む、
請求項９に記載の視線補正モデルの訓練方法。
前記視線補正モデルの訓練方法は、
前記補正後の眼部画像サンプルに対して視線推定を行い、前記補正後の眼部画像サンプルの視線方向を得るステップと、
前記補正後の眼部画像サンプルの視線方向及び前記目標視線方向サンプルに基づいて、視線推定損失を決定するステップと、をさらに含み、
前記再構成損失、前記特徴損失、及び前記生成対抗損失に基づいて、前記訓練対象視線補正モデルの損失を決定するステップは、
前記視線推定損失、前記再構成損失、前記特徴損失、及び前記生成対抗損失に基づいて、前記訓練対象視線補正モデルの前記損失を決定するステップを含む、
請求項９に記載の視線補正モデルの訓練方法。
顔画像の視線補正装置であって、
補正対象画像から補正対象眼部画像を取得するように構成される眼部画像取得モジュールと、
前記補正対象眼部画像に対して特徴抽出処理を行い、前記補正対象眼部画像の特徴情報を得るように構成される特徴情報抽出モジュールと、
前記特徴情報及び目標視線方向に基づいて、前記補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るように構成される視線補正処理モジュールであって、前記目標視線方向は、前記補正対象眼部画像における眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクは、前記補正対象眼部画像内の画素位置が眼部領域に属する確率を示すために用いられる、視線補正処理モジュールと、
前記眼部輪郭マスクを採用して前記初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得るように構成される画像調整処理モジュールと、
前記補正後の眼部画像に基づいて、視線補正後の画像を生成するように構成される眼部画像統合モジュールと、を備える、顔画像の視線補正装置。
視線補正モデルの訓練装置であって、
訓練対象視線補正モデルの訓練サンプルを取得するように構成されるサンプル取得モジュールであって、前記訓練サンプルは、補正対象眼部画像サンプル及び目標補正眼部画像を含む、サンプル取得モジュールと、
前記訓練対象視線補正モデルを介して、前記補正対象眼部画像サンプル、前記目標補正眼部画像、及び目標視線方向サンプルに対して視線補正処理を行い、初歩的補正後の眼部画像サンプル及び眼部輪郭マスクサンプルを得るように構成されるモデル処理モジュールであって、前記目標視線方向サンプルは、前記補正対象眼部画像サンプルにおける眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクサンプルは、前記補正対象眼部画像サンプルにおける画素位置が眼部領域に属する確率を示すために用いられる、モデル処理モジュールと、
前記眼部輪郭マスクサンプルを採用して前記初歩的補正後の眼部画像サンプルに対して調整処理を行い、補正後の眼部画像サンプルを得るように構成される画像調整モジュールと、
前記補正後の眼部画像サンプル及び前記目標補正眼部画像に基づいて、前記訓練対象視線補正モデルの損失を決定し、前記損失に基づいて前記訓練対象視線補正モデルのパラメータを調整して、視線補正モデルを得るように構成されるパラメータ調整モジュールと、を備える、視線補正モデルの訓練装置。
プロセッサと、前記プロセッサによってロードされ、前記プロセッサに、請求項１～６のいずれか一項に記載の画像の視線補正方法、又は請求項７～１２のいずれか一項に記載の視線補正モデルの訓練方法を実行させるための少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットが記憶されたメモリと、を備える、電子機器。
プロセッサによってロードされ、プロセッサに、請求項１～６のいずれか一項に記載の画像の視線補正方法、又は請求項７～１２のいずれか一項に記載の視線補正モデルの訓練方法を実行させるための少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットが記憶された、コンピュータ可読記憶媒体。
プロセッサに、請求項１～６のいずれか一項に記載の画像の視線補正方法、又は請求項７～１２のいずれか一項に記載の視線補正モデルの訓練方法を実行させるコンピュータプログラム又は命令を含む、コンピュータプログラム製品。