JP7476428B2 - 画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム - Google Patents
画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム Download PDFInfo
- Publication number
- JP7476428B2 JP7476428B2 JP2023528175A JP2023528175A JP7476428B2 JP 7476428 B2 JP7476428 B2 JP 7476428B2 JP 2023528175 A JP2023528175 A JP 2023528175A JP 2023528175 A JP2023528175 A JP 2023528175A JP 7476428 B2 JP7476428 B2 JP 7476428B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- correction
- gaze
- target
- eye
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims description 420
- 238000000034 method Methods 0.000 title claims description 123
- 238000004590 computer program Methods 0.000 title claims description 12
- 238000003860 storage Methods 0.000 title description 31
- 238000012549 training Methods 0.000 claims description 146
- 238000012545 processing Methods 0.000 claims description 71
- 230000008569 process Effects 0.000 claims description 44
- 238000000605 extraction Methods 0.000 claims description 40
- 230000007613 environmental effect Effects 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 10
- 230000010354 integration Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 14
- 238000013473 artificial intelligence Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 210000001747 pupil Anatomy 0.000 description 6
- 238000004088 simulation Methods 0.000 description 6
- 230000003628 erosive effect Effects 0.000 description 4
- 230000004424 eye movement Effects 0.000 description 4
- 210000003128 head Anatomy 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000001976 improved effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011982 device technology Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/803—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/19—Sensors therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Ophthalmology & Optometry (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Geometry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Description
本願は、2021年01月22日に中国特許局に提出された、出願番号が202110088338.7である中国特許出願の優先権を主張し、その内容の全てが引用により本願に組み込まれる。
補正対象画像から補正対象眼部画像を取得するステップと、
前記補正対象眼部画像に対して特徴抽出処理を行い、前記補正対象眼部画像の特徴情報を得るステップと、
前記特徴情報及び目標視線方向に基づいて、前記補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るステップであって、前記目標視線方向は、前記補正対象眼部画像における眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクは、前記補正対象眼部画像内の画素位置が眼部領域に属する確率を示すために用いられる、ステップと、
前記眼部輪郭マスクを採用して前記初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得るステップと、
前記補正後の眼部画像に基づいて、視線補正後の画像を生成するステップと、を含む。
訓練対象視線補正モデルの訓練サンプルを取得するステップであって、前記訓練サンプルは、補正対象眼部画像サンプル及び目標補正眼部画像を含む、ステップと、
前記訓練対象視線補正モデルを介して、前記補正対象眼部画像サンプル、前記目標補正眼部画像、及び目標視線方向サンプルに対して視線補正処理を行い、初歩的補正後の眼部画像サンプル及び眼部輪郭マスクサンプルを得るステップであって、前記目標視線方向サンプルは、前記補正対象眼部画像サンプルにおける眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクサンプルは、前記補正対象眼部画像サンプルにおける画素位置が眼部領域に属する確率を示すために用いられる、ステップと、
前記眼部輪郭マスクサンプルを採用して前記初歩的補正後の眼部画像サンプルに対して調整処理を行い、補正後の眼部画像サンプルを得るステップと、
前記補正後の眼部画像サンプル及び前記目標補正眼部画像に基づいて、前記訓練対象視線補正モデルの損失を決定し、前記損失に基づいて前記訓練対象視線補正モデルのパラメータを調整して、視線補正モデルを得るステップと、を含む。
補正対象画像から補正対象眼部画像を取得するように構成される眼部画像取得モジュールと、
前記補正対象眼部画像に対して特徴抽出処理を行い、前記補正対象眼部画像の特徴情報を得るように構成される特徴情報抽出モジュールと、
前記特徴情報及び目標視線方向に基づいて、前記補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るように構成される視線補正処理モジュールであって、前記目標視線方向は、前記補正対象眼部画像における眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクは、前記補正対象眼部画像内の画素位置が眼部領域に属する確率を示すために用いられる、視線補正処理モジュールと、
前記眼部輪郭マスクを採用して前記初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得るように構成される画像調整処理モジュールと、
前記補正後の眼部画像に基づいて、視線補正後の顔画像を生成するように構成される眼部画像統合モジュールと、を備える。
訓練対象視線補正モデルの訓練サンプルを取得するように構成されるサンプル取得モジュールであって、前記訓練サンプルは、補正対象眼部画像サンプル及び目標補正眼部画像を含む、サンプル取得モジュールと、
前記訓練対象視線補正モデルを介して、前記補正対象眼部画像サンプル、前記目標補正眼部画像、及び目標視線方向サンプルに対して視線補正処理を行い、初歩的補正後の眼部画像サンプル及び眼部輪郭マスクサンプルを得るように構成されるモデル処理モジュールであって、前記目標視線方向サンプルは、前記補正対象眼部画像サンプルにおける眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクサンプルは、前記補正対象眼部画像サンプルにおける画素位置が眼部領域に属する確率を示すために用いられる、モデル処理モジュールと、
前記眼部輪郭マスクサンプルを採用して前記初歩的補正後の眼部画像サンプルに対して調整処理を行い、補正後の眼部画像サンプルを得るように構成される画像調整モジュールと、
前記補正後の眼部画像サンプル及び前記目標補正眼部画像に基づいて、前記訓練対象視線補正モデルの損失を決定し、前記損失に基づいて前記訓練対象視線補正モデルのパラメータを調整して、視線補正モデルを得るように構成されるパラメータ調整モジュールと、を備える。
Reconstruction_loss=|fake_img-gt_img|
LPIPS_loss=|fake_img_fea1-gt_img_fea1|+|fake_img_fea2-gt_img_fea2|+|fake_img_fea3-gt_img_fea4|+|fake_img_fea4-gt_img_fea4|
D_loss=1/3*(-logD(gt_img)-log(1-D(fake_img))-logD(gt_img_1/2)-log(1-D(fake_img_1/2))-logD(gt_img_1/4)-log(1-D(fake_img_1/4)))
[式4]
G_loss=log(1-D(fake_img))
Gaze_loss=||θ1’-θ1||+||θ2’-θ2||
loss=Gaze_loss+Reconstruction_loss+LPIPS_loss+D_loss+G_loss
当該コンピュータ機器1200は、中央処理装置(例えば、CPU(Central Processing Unit)、グラフィックスプロセッサ(GPU:Graphics Processing Unit)、及びフィールドプログラマブルゲートアレイ(FPGA:Field Programmable Gate Array)など)1201、ランダムアクセスメモリ(RAM:Random-Access Memory)1202、読み取り専用メモリ(ROM:Read-Only Memory)1203を含むシステムメモリ1204及びシステムメモリ1204と中央処理装置1201とを接続するシステムバス1205を含む。当該コンピュータ機器1200は、サーバ内の各デバイス間の情報の転送を支援する基本入力/出力システム(I/Oシステム:Input Output System)1206と、オペレーティングシステム1213、アプリケーション1214、及びその他のプログラムモジュール1215を記憶する大容量記憶装置1207と、をさらに含む。
1010 眼部画像取得モジュール
1020 特徴情報抽出モジュール
1030 視線補正処理モジュール
1040 画像調整処理モジュール
1050 眼部画像統合モジュール
1100 視線補正モデルの訓練装置
1110 サンプル取得モジュール
1120 モデル処理モジュール
1130 画像調整モジュール
1140 パラメータ調整モジュール
1200 コンピュータ機器
1201 中央処理装置
1202 ランダムアクセスメモリ
1203 読み取り専用メモリ
1204 システムメモリ
1205 システムバス
1206 入力/出力システム
1207 大容量記憶装置
1208 ディスプレイ
1209 入力機器
1210 入出力コントローラ
1211 ネットワークインターフェースユニット
1212 ネットワーク
1213 オペレーティングシステム
1214 アプリケーションプログラム
1215 その他のプログラムモジュール
Claims (16)
- 電子機器が実行する画像の視線補正方法であって、
補正対象画像から補正対象眼部画像を取得するステップと、
前記補正対象眼部画像に対して特徴抽出処理を行い、前記補正対象眼部画像の特徴情報を得るステップと、
前記特徴情報及び目標視線方向に基づいて、前記補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るステップであって、前記目標視線方向は、前記補正対象眼部画像における眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクは、前記補正対象眼部画像内の画素位置が眼部領域に属する確率を示すために用いられる、ステップと、
前記眼部輪郭マスクを採用して前記初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得るステップと、
前記補正後の眼部画像に基づいて、視線補正後の画像を生成するステップと、を含む、画像の視線補正方法。 - 前記補正対象眼部画像に対して特徴抽出処理を行い、前記補正対象眼部画像の特徴情報を得るステップは、
前記補正対象眼部画像に対して特徴抽出処理を行い、目つき特徴、眼部テクスチャ特徴、及び環境特徴を得るステップと、
前記目つき特徴、前記眼部テクスチャ特徴、及び前記環境特徴を、前記特徴情報として決定するステップと、を含む、
請求項1に記載の画像の視線補正方法。 - 前記特徴情報及び目標視線方向に基づいて、前記補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るステップは、
前記特徴情報と前記目標視線方向とをチャンネル次元で組み合わせて、組み合わせデータを得るステップと、
前記補正対象眼部画像の特徴次元に基づいて、前記組み合わせデータに対して特徴再構成を行い、前記初歩的補正後の眼部画像及び前記眼部輪郭マスクを得るステップと、を含む、
請求項1に記載の画像の視線補正方法。 - 前記眼部輪郭マスクを採用して前記初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得るステップは、
前記眼部輪郭マスクと、前記初歩的補正後の眼部画像における対応位置の画素値とを融合して、第1中間画像を得るステップと、
前記眼部輪郭マスクに対応するマッピング画像と、前記補正対象眼部画像における対応位置の画素値とを融合して、第2中間画像を得るステップと、
前記第1中間画像と前記第2中間画像における対応位置の画素値を統合して、前記補正後の眼部画像を得るステップと、を含む、
請求項1に記載の画像の視線補正方法。 - 前記補正後の眼部画像に基づいて、視線補正後の画像を生成するステップは、
前記補正後の眼部画像を前記補正対象画像の画像切り出し枠位置に統合して、統合画像を得るステップであって、前記画像切り出し枠位置は、前記補正対象画像における前記補正対象眼部画像の位置である、ステップと、
前記統合画像における前記画像切り出し枠位置に対して画像調和処理を行い、前記視線補正後の画像を得るステップであって、前記画像調和処理は、前記画像切り出し枠位置での境界痕跡を除去するために用いられる、ステップと、を含む、
請求項1~4のいずれか一項に記載の画像の視線補正方法。 - 前記特徴抽出処理及び前記視線補正処理は、いずれも視線補正モデルによって実現され、前記視線補正モデルは、符号化ネットワーク及び復号化ネットワークを含み、前記符号化ネットワークは、前記特徴抽出処理を実行するために用いられ、前記復号化ネットワークは、前記視線補正処理を実行するために用いられる、
請求項1~4のいずれか一項に記載の画像の視線補正方法。 - 電子機器が実行する視線補正モデルの訓練方法であって、
訓練対象視線補正モデルの訓練サンプルを取得するステップであって、前記訓練サンプルは、補正対象眼部画像サンプル及び目標補正眼部画像を含む、ステップと、
前記訓練対象視線補正モデルを介して、前記補正対象眼部画像サンプル、前記目標補正眼部画像、及び目標視線方向サンプルに対して視線補正処理を行い、初歩的補正後の眼部画像サンプル及び眼部輪郭マスクサンプルを得るステップであって、前記目標視線方向サンプルは、前記補正対象眼部画像サンプルにおける眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクサンプルは、前記補正対象眼部画像サンプルにおける画素位置が眼部領域に属する確率を示すために用いられる、ステップと、
前記眼部輪郭マスクサンプルを採用して前記初歩的補正後の眼部画像サンプルに対して調整処理を行い、補正後の眼部画像サンプルを得るステップと、
前記補正後の眼部画像サンプル及び前記目標補正眼部画像に基づいて、前記訓練対象視線補正モデルの損失を決定し、前記損失に基づいて前記訓練対象視線補正モデルのパラメータを調整して、視線補正モデルを得るステップと、を含む、視線補正モデルの訓練方法。 - 前記訓練対象視線補正モデルは、第1訓練対象符号化ネットワーク、第2訓練対象符号化ネットワーク、及び訓練対象復号化ネットワークを含み、
前記訓練対象視線補正モデルを介して、前記補正対象眼部画像サンプル、前記目標補正眼部画像、及び目標視線方向サンプルに対して視線補正処理を行い、初歩的補正後の眼部画像サンプル及び眼部輪郭マスクサンプルを得るステップは、
前記第1訓練対象符号化ネットワークを介して、前記補正対象眼部画像サンプルに対して特徴抽出処理を行い、目つき特徴サンプル及び眼部テクスチャ特徴サンプルを得るステップと、
前記第2訓練対象符号化ネットワークを介して、前記目標補正眼部画像に対して特徴抽出処理を行い、目標環境特徴を得るステップと、
前記訓練対象復号化ネットワークを介して、前記目つき特徴サンプル、目つき無関連特徴サンプル、前記目標環境特徴、及び前記目標視線方向サンプルに対して視線補正処理を行い、前記初歩的補正後の眼部画像サンプル及び前記眼部輪郭マスクサンプルを得るステップと、を含む、
請求項7に記載の視線補正モデルの訓練方法。 - 前記補正後の眼部画像サンプル及び前記目標補正眼部画像に基づいて、前記訓練対象視線補正モデルの損失を決定するステップは、
前記補正後の眼部画像サンプルと前記目標補正眼部画像との画素差に基づいて、再構成損失を決定するステップと、
前記補正後の眼部画像サンプルと前記目標補正眼部画像との画像特徴差に基づいて、特徴損失を決定するステップと、
前記補正後の眼部画像サンプルと前記目標補正眼部画像との生成対抗損失を決定するステップと、
前記再構成損失、前記特徴損失、及び前記生成対抗損失に基づいて、前記訓練対象視線補正モデルの前記損失を決定するステップと、を含む、
請求項7又は8に記載の視線補正モデルの訓練方法。 - 前記補正後の眼部画像サンプルと前記目標補正眼部画像との画像特徴差に基づいて、特徴損失を決定するステップは、
特徴損失計算モデルを介して、前記補正後の眼部画像サンプルと前記目標補正眼部画像との学習知覚画像パッチ類似性(LPIPS)損失を出力するステップを含み、前記特徴損失は、前記LPIPS損失を含む、
請求項9に記載の視線補正モデルの訓練方法。 - 前記補正後の眼部画像サンプルと前記目標補正眼部画像との生成対抗損失を決定するステップは、
マルチスケール判別器による前記補正後の眼部画像サンプル及び前記目標補正眼部画像の判別結果に基づいて、生成ネットワーク損失及び判別ネットワーク損失を決定するステップと、
前記生成ネットワーク損失及び前記判別ネットワーク損失を、前記生成対抗損失として決定するステップと、を含む、
請求項9に記載の視線補正モデルの訓練方法。 - 前記視線補正モデルの訓練方法は、
前記補正後の眼部画像サンプルに対して視線推定を行い、前記補正後の眼部画像サンプルの視線方向を得るステップと、
前記補正後の眼部画像サンプルの視線方向及び前記目標視線方向サンプルに基づいて、視線推定損失を決定するステップと、をさらに含み、
前記再構成損失、前記特徴損失、及び前記生成対抗損失に基づいて、前記訓練対象視線補正モデルの損失を決定するステップは、
前記視線推定損失、前記再構成損失、前記特徴損失、及び前記生成対抗損失に基づいて、前記訓練対象視線補正モデルの前記損失を決定するステップを含む、
請求項9に記載の視線補正モデルの訓練方法。 - 画像の視線補正装置であって、
補正対象画像から補正対象眼部画像を取得するように構成される眼部画像取得モジュールと、
前記補正対象眼部画像に対して特徴抽出処理を行い、前記補正対象眼部画像の特徴情報を得るように構成される特徴情報抽出モジュールと、
前記特徴情報及び目標視線方向に基づいて、前記補正対象眼部画像に対して視線補正処理を行い、初歩的補正後の眼部画像及び眼部輪郭マスクを得るように構成される視線補正処理モジュールであって、前記目標視線方向は、前記補正対象眼部画像における眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクは、前記補正対象眼部画像内の画素位置が眼部領域に属する確率を示すために用いられる、視線補正処理モジュールと、
前記眼部輪郭マスクを採用して前記初歩的補正後の眼部画像に対して調整処理を行い、補正後の眼部画像を得るように構成される画像調整処理モジュールと、
前記補正後の眼部画像に基づいて、視線補正後の画像を生成するように構成される眼部画像統合モジュールと、を備える、画像の視線補正装置。 - 視線補正モデルの訓練装置であって、
訓練対象視線補正モデルの訓練サンプルを取得するように構成されるサンプル取得モジュールであって、前記訓練サンプルは、補正対象眼部画像サンプル及び目標補正眼部画像を含む、サンプル取得モジュールと、
前記訓練対象視線補正モデルを介して、前記補正対象眼部画像サンプル、前記目標補正眼部画像、及び目標視線方向サンプルに対して視線補正処理を行い、初歩的補正後の眼部画像サンプル及び眼部輪郭マスクサンプルを得るように構成されるモデル処理モジュールであって、前記目標視線方向サンプルは、前記補正対象眼部画像サンプルにおける眼部視線の補正予定の視線方向を指し、前記眼部輪郭マスクサンプルは、前記補正対象眼部画像サンプルにおける画素位置が眼部領域に属する確率を示すために用いられる、モデル処理モジュールと、
前記眼部輪郭マスクサンプルを採用して前記初歩的補正後の眼部画像サンプルに対して調整処理を行い、補正後の眼部画像サンプルを得るように構成される画像調整モジュールと、
前記補正後の眼部画像サンプル及び前記目標補正眼部画像に基づいて、前記訓練対象視線補正モデルの損失を決定し、前記損失に基づいて前記訓練対象視線補正モデルのパラメータを調整して、視線補正モデルを得るように構成されるパラメータ調整モジュールと、を備える、視線補正モデルの訓練装置。 - プロセッサと、前記プロセッサによってロードされ、前記プロセッサに、請求項1~6のいずれか一項に記載の画像の視線補正方法、又は請求項7~12のいずれか一項に記載の視線補正モデルの訓練方法を実行させるための少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶されたメモリと、を備える、電子機器。
- プロセッサに、請求項1~6のいずれか一項に記載の画像の視線補正方法、又は請求項7~12のいずれか一項に記載の視線補正モデルの訓練方法を実行させる、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110088338.7 | 2021-01-22 | ||
CN202110088338.7A CN112733794B (zh) | 2021-01-22 | 2021-01-22 | 人脸图像的视线矫正方法、装置、设备及存储介质 |
PCT/CN2022/072371 WO2022156640A1 (zh) | 2021-01-22 | 2022-01-17 | 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023548921A JP2023548921A (ja) | 2023-11-21 |
JP7476428B2 true JP7476428B2 (ja) | 2024-04-30 |
Family
ID=75593798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023528175A Active JP7476428B2 (ja) | 2021-01-22 | 2022-01-17 | 画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230049533A1 (ja) |
EP (1) | EP4198814A4 (ja) |
JP (1) | JP7476428B2 (ja) |
CN (1) | CN112733794B (ja) |
WO (1) | WO2022156640A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733794B (zh) * | 2021-01-22 | 2021-10-15 | 腾讯科技(深圳)有限公司 | 人脸图像的视线矫正方法、装置、设备及存储介质 |
CN112733795B (zh) * | 2021-01-22 | 2022-10-11 | 腾讯科技(深圳)有限公司 | 人脸图像的视线矫正方法、装置、设备及存储介质 |
CN112818809B (zh) * | 2021-01-25 | 2022-10-11 | 清华大学 | 一种检测图像信息的方法、装置和存储介质 |
CN113222857A (zh) * | 2021-05-27 | 2021-08-06 | Oppo广东移动通信有限公司 | 图像处理方法、模型的训练方法及装置、介质和电子设备 |
CN113362243B (zh) * | 2021-06-03 | 2024-06-11 | Oppo广东移动通信有限公司 | 模型训练方法、图像处理方法及装置、介质和电子设备 |
CN113343931B (zh) * | 2021-07-05 | 2024-07-26 | Oppo广东移动通信有限公司 | 生成对抗网络的训练方法、图像视线校正方法与装置 |
CN113641247A (zh) * | 2021-08-31 | 2021-11-12 | 北京字跳网络技术有限公司 | 视线角度调整方法、装置、电子设备及存储介质 |
CN113703579B (zh) * | 2021-08-31 | 2023-05-30 | 北京字跳网络技术有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN114120412B (zh) * | 2021-11-29 | 2022-12-09 | 北京百度网讯科技有限公司 | 图像处理方法和装置 |
CN114449345B (zh) * | 2022-02-08 | 2023-06-23 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、设备及存储介质 |
CN116993929B (zh) * | 2023-09-27 | 2024-01-16 | 北京大学深圳研究生院 | 基于人眼动态变化的三维人脸重建方法、装置及存储介质 |
CN117523543B (zh) * | 2024-01-08 | 2024-03-19 | 成都大学 | 一种基于深度学习的金属压印字符识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170308992A1 (en) | 2016-04-22 | 2017-10-26 | Intel Corporation | Eye contact correction in real time using machine learning |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4962917B2 (ja) * | 2008-05-12 | 2012-06-27 | トヨタ自動車株式会社 | 運転状態推定装置、及び運転状態推定方法 |
KR101977638B1 (ko) * | 2012-02-29 | 2019-05-14 | 삼성전자주식회사 | 영상 내 사용자의 시선 보정 방법, 기계로 읽을 수 있는 저장 매체 및 통신 단말 |
CN103345619A (zh) * | 2013-06-26 | 2013-10-09 | 上海永畅信息科技有限公司 | 视频聊天中的人眼自然对视自适应矫正方法 |
RU2596062C1 (ru) * | 2015-03-20 | 2016-08-27 | Автономная Некоммерческая Образовательная Организация Высшего Профессионального Образования "Сколковский Институт Науки И Технологий" | Способ коррекции изображения глаз с использованием машинного обучения и способ машинного обучения |
RU2016138608A (ru) * | 2016-09-29 | 2018-03-30 | Мэджик Лип, Инк. | Нейронная сеть для сегментации изображения глаза и оценки качества изображения |
CN110740246A (zh) * | 2018-07-18 | 2020-01-31 | 阿里健康信息技术有限公司 | 一种图像矫正方法、移动设备和终端设备 |
US11024002B2 (en) * | 2019-03-14 | 2021-06-01 | Intel Corporation | Generating gaze corrected images using bidirectionally trained network |
CN111008929B (zh) * | 2019-12-19 | 2023-09-26 | 维沃移动通信(杭州)有限公司 | 图像矫正方法及电子设备 |
CN111339928B (zh) * | 2020-02-25 | 2022-06-28 | 苏州科达科技股份有限公司 | 眼神调节方法、装置及存储介质 |
CN111784604B (zh) * | 2020-06-29 | 2022-02-18 | 北京字节跳动网络技术有限公司 | 图像处理方法、装置、设备及计算机可读存储介质 |
CN112733794B (zh) * | 2021-01-22 | 2021-10-15 | 腾讯科技(深圳)有限公司 | 人脸图像的视线矫正方法、装置、设备及存储介质 |
-
2021
- 2021-01-22 CN CN202110088338.7A patent/CN112733794B/zh active Active
-
2022
- 2022-01-17 WO PCT/CN2022/072371 patent/WO2022156640A1/zh active Application Filing
- 2022-01-17 JP JP2023528175A patent/JP7476428B2/ja active Active
- 2022-01-17 EP EP22742119.5A patent/EP4198814A4/en active Pending
- 2022-10-31 US US17/977,646 patent/US20230049533A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170308992A1 (en) | 2016-04-22 | 2017-10-26 | Intel Corporation | Eye contact correction in real time using machine learning |
Non-Patent Citations (1)
Title |
---|
Daniil Kononenko et al.,Photorealistic Monocular Gaze Redirection Using Machine Learning,IEEE Transactions on Pattern Analysis and Machine Intelligence,IEEE,2017年08月14日,VOL.40, NO.11,https://ieeexplore.ieee.org/document/8010348 |
Also Published As
Publication number | Publication date |
---|---|
CN112733794A (zh) | 2021-04-30 |
EP4198814A1 (en) | 2023-06-21 |
CN112733794B (zh) | 2021-10-15 |
US20230049533A1 (en) | 2023-02-16 |
WO2022156640A1 (zh) | 2022-07-28 |
EP4198814A4 (en) | 2024-06-19 |
JP2023548921A (ja) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7476428B2 (ja) | 画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
JP7542740B2 (ja) | 画像の視線補正方法、装置、電子機器、及びコンピュータプログラム | |
Yi et al. | Audio-driven talking face video generation with learning-based personalized head pose | |
Martin et al. | Scangan360: A generative model of realistic scanpaths for 360 images | |
Zhang et al. | Video saliency prediction based on spatial-temporal two-stream network | |
JP7526412B2 (ja) | パラメータ推定モデルの訓練方法、パラメータ推定モデルの訓練装置、デバイスおよび記憶媒体 | |
WO2022156622A1 (zh) | 脸部图像的视线矫正方法、装置、设备、计算机可读存储介质及计算机程序产品 | |
CN111464834B (zh) | 一种视频帧处理方法、装置、计算设备及存储介质 | |
CN111652974B (zh) | 三维人脸模型的构建方法、装置、设备及存储介质 | |
CN111652123B (zh) | 图像处理和图像合成方法、装置和存储介质 | |
Li et al. | Learning symmetry consistent deep cnns for face completion | |
CN113192132B (zh) | 眼神捕捉方法及装置、存储介质、终端 | |
CN113343878A (zh) | 基于生成对抗网络的高保真人脸隐私保护方法和系统 | |
US20230100427A1 (en) | Face image processing method, face image processing model training method, apparatus, device, storage medium, and program product | |
EP4198896A1 (en) | Feature tracking system and method | |
CN117218246A (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
WO2024104144A1 (zh) | 图像合成方法和装置、存储介质及电子设备 | |
WO2020200082A1 (zh) | 直播互动方法、装置、直播系统及电子设备 | |
CN114898447B (zh) | 一种基于自注意力机制的个性化注视点检测方法及装置 | |
CN115393471A (zh) | 图像处理方法、装置及电子设备 | |
KR20220124490A (ko) | 동작 유사도 평가 장치 및 동작 유사도 평가 방법 | |
Chao et al. | Omnidirectional video saliency | |
WO2024164596A1 (zh) | 面部建模模型的训练方法、建模方法、装置、电子设备、存储介质及程序产品 | |
馮起 | Improving Mixed Reality with Multi-task Scene Understanding and Data Augmentation | |
CN117011910A (zh) | 图像处理方法、装置及计算机设备、存储介质、程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230510 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230510 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240325 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240408 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240417 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7476428 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |