CN111738122A - 图像处理的方法及相关装置 - Google Patents
图像处理的方法及相关装置 Download PDFInfo
- Publication number
- CN111738122A CN111738122A CN202010540595.5A CN202010540595A CN111738122A CN 111738122 A CN111738122 A CN 111738122A CN 202010540595 A CN202010540595 A CN 202010540595A CN 111738122 A CN111738122 A CN 111738122A
- Authority
- CN
- China
- Prior art keywords
- face
- target
- image
- model
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Geometry (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种图像处理的方法及相关装置,应用于电子设备,方法包括:获取待处理人脸图像,将待处理人脸图像输入预训练的目标模型,得到目标掩膜集,目标掩膜集中包括多个掩膜,每一掩膜对应一个人脸部位;进而,根据目标掩膜集对待解析人脸图像中每一人脸部位进行人脸解析,得到与目标掩膜集中目标掩膜的数量相对应的多通道的多个二值图像,其中,每一通道对应一个人脸部位,每一二值图像对应一种颜色;最后,可将多个二值图像进行合成处理,得到人脸解析结果。采用本申请实施例有利于提高人脸解析效果。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种图像处理的方法及相关装置。
背景技术
图像分割是计算视觉领域一个基础的课题,而人脸图像相关的人脸分割和解析是其中一个相当重要的应用。随着在当下各种相机手机等电子设备的发展,需要高精度的人像相关解析技术。但是,当下的人脸解析的深度学习模型往往是重复利用基础网络提取出来的特征,或者往往只利用了分辨率最低、通道数最高的特征图来实现人脸的解析,上述方式在人脸解析时具有一定的局限性,使得人脸解析的效果不佳。
发明内容
本申请实施例提供了一种图像处理的方法及相关装置,有利于提高人脸解析效果。
第一方面,本申请实施例提供一种图像处理的方法,应用与电子设备,所述方法包括:
获取待处理人脸图像,将所述待处理人脸图像输入预训练的目标模型,得到目标掩膜集,所述目标掩膜集中包括多个掩膜,每一掩膜对应一个人脸部位;
根据所述目标掩膜集对所述待解析人脸图像中每一所述人脸部位进行人脸解析,得到与所述目标掩膜集中所述目标掩膜的数量相对应的多通道的多个二值图像,其中,每一通道对应一个人脸部位,每一二值图像对应一种颜色;
将所述多个二值图像进行合成处理,得到人脸解析结果。
第二方面,本申请实施例提供一种图像处理装置,应用于电子设备,所述装置包括:获取单元、人脸解析单元和合成单元,其中,
所述获取单元,用于获取待处理人脸图像,将所述待处理人脸图像输入预训练的目标模型,得到目标掩膜集,所述目标掩膜集中包括多个掩膜,每一掩膜对应一个人脸部位;
所述人脸解析单元,用于根据所述目标掩膜集对所述待解析人脸图像中每一所述人脸部位进行人脸解析,得到与所述目标掩膜集中所述目标掩膜的数量相对应的多通道的多个二值图像,其中,每一通道对应一个人脸部位,每一二值图像对应一种颜色;
所述合成单元,用于将所述多个二值图像进行合成处理,得到人脸解析结果。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
可以看出,本申请实施例中,电子设备可获取待处理人脸图像,将待处理人脸图像输入预训练的目标模型,得到目标掩膜集,目标掩膜集中包括多个掩膜,每一掩膜对应一个人脸部位;进而,根据目标掩膜集对待解析人脸图像中每一人脸部位进行人脸解析,得到与目标掩膜集中目标掩膜的数量相对应的多通道的多个二值图像,其中,每一通道对应一个人脸部位,每一二值图像对应一种颜色;最后,可将多个二值图像进行合成处理,得到人脸解析结果。如此,在本申请实施例中,电子设备可实现对待处理人脸图像中包括皮肤、鼻子、饰品、衣服、头发、脖子等多个人脸部位的高精度人脸解析效果,通过目标模型,可输出每一部位对应的二值图像,每一二值图像可对应于一种颜色,由多个二值图像合成得到的人脸解析结果,可区分于待处理人脸图像中的不同的人脸部位,有利于提高人脸解析效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种电子设备的结构示意图;
图2是本申请实施例提供的一种电子设备的软件结构示意图;
图3是本申请实施例提供的一种图像处理的方法的流程示意图;
图4A是本申请实施例提供的一种图像处理的方法的流程示意图;
图4B是本申请实施例提供的一种模型预训练方法的流程示意图;
图4C是本申请实施例提供的一种模型预训练方法的流程示意图;
图4D是本申请实施例提供的一种卷积块的网络结构示意图;
图4E是本申请实施例提供的一种卷积块的网络结构示意图;
图4F是本申请实施例提供的一种图像处理的结果示意图;
图5是本申请实施例提供的一种图像处理装置的功能单元组成框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
1)电子设备可以是还包含其它功能诸如个人数字助理和/或音乐播放器功能的便携式电子设备,诸如手机、平板电脑、具备无线通讯功能的可穿戴电子设备(如智能手表)等。便携式电子设备的示例性实施例包括但不限于搭载IOS系统、Android系统、Microsoft系统或者其它操作系统的便携式电子设备。上述便携式电子设备也可以是其它便携式电子设备,诸如膝上型计算机(Laptop)等。还应当理解的是,在其他一些实施例中,上述电子设备也可以不是便携式电子设备,而是台式计算机。
2)特征金字塔(Feature Pyramid Network)是一种利用高低几种分辨率的特征图的结构。
3)卷积神经网络(Convolutional Neural Network,CNN)一种专门用来处理具有类似网格结构的数据的神经网络,例如时间序列和图像数据等。使用了卷积这一种特殊的线性运算。
4)MobileNetV2网络是由谷歌提出主要应用在移动端的一种轻量级CNN网络。
第一部分,本申请所公开的技术方案的软硬件运行环境介绍如下。
示例性的,图1示出了电子设备100的结构示意图。电子设备100可以包括处理器110、外部存储器接口120、内部存储器121、通用串行总线(universal serial bus,USB)接口130、充电管理模块140、电源管理模块141、电池142、天线1、天线2、移动通信模块150、无线通信模块160、音频模块170、扬声器170A、受话器170B、麦克风170C、耳机接口170D、传感器模块180、指南针190、马达191、指示器192、摄像头193、显示屏194以及用户标识模块(subscriber identification module,SIM)卡接口195等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的部件,也可以集成在一个或多个处理器中。在一些实施例中,电子设备100也可以包括一个或多个处理器110。其中,控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。在其他一些实施例中,处理器110中还可以设置存储器,用于存储指令和数据。示例性地,处理器110中的存储器可以为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。这样就避免了重复存取,减少了处理器110的等待时间,因而提高了电子设备100处理数据或执行指令的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路间(inter-integrated circuit,I2C)接口、集成电路间音频(inter-integrated circuitsound,I2S)接口、脉冲编码调制(pulse code modulation,PCM)接口、通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口、移动产业处理器接口(mobile industry processor interface,MIPI)、用输入输出(general-purpose input/output,GPIO)接口、SIM卡接口和/或USB接口等。其中,USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口、Micro USB接口、USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电,也可以用于电子设备100与外围设备之间传输数据。该USB接口130也可以用于连接耳机,通过耳机播放音频。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110、内部存储器121、外部存储器、显示屏194、摄像头193和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量、电池循环次数、电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备100的无线通信功能可以通过天线1、天线2、移动通信模块150、无线通信模块160、调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络)、蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS)、调频(frequency modulation,FM)、近距离无线通信技术(near field communication,NFC)、红外技术(infrared,IR)、UWB等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像、视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD)、有机发光二极管(organic light-emittingdiode,OLED)、有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED)、柔性发光二极管(flex light-emittingdiode,FLED)、迷你发光二极管(mini light-emitting diode,miniled)、MicroLed、Micro-oLed、量子点发光二极管(quantum dot light emitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或多个显示屏194。
电子设备100可以通过ISP、摄像头193、视频编解码器、GPU、显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点、亮度、肤色进行算法优化。ISP还可以对拍摄场景的曝光、色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或多个摄像头193。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1、MPEG2、MPEG3、MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别、人脸识别、语音识别、文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储一个或多个计算机程序,该一个或多个计算机程序包括指令。处理器110可以通过运行存储在内部存储器121的上述指令,从而使得电子设备100执行本申请一些实施例中所提供的显示页面元素的方法,以及各种应用以及数据处理等。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统;该存储程序区还可以存储一个或多个应用(比如图库、联系人等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如照片,联系人等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如一个或多个磁盘存储部件,闪存部件,通用闪存存储器(universal flash storage,UFS)等。在一些实施例中,处理器110可以通过运行存储在内部存储器121的指令,和/或存储在设置于处理器110中的存储器的指令,来使得电子设备100执行本申请实施例中所提供的显示页面元素的方法,以及其他应用及数据处理。电子设备100可以通过音频模块170、扬声器170A、受话器170B、麦克风170C、耳机接口170D、以及应用处理器等实现音频功能。例如音乐播放、录音等。
传感器模块180可以包括压力传感器180A、陀螺仪传感器180B、气压传感器180C、磁传感器180D、加速度传感器180E、距离传感器180F、接近光传感器180G、指纹传感器180H、温度传感器180J、触摸传感器180K、环境光传感器180L、骨传导传感器180M等。
其中,压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即X、Y和Z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180B检测电子设备100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测电子设备100是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,电子设备100利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,电子设备100执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备100对电池142加热,以避免低温导致电子设备100异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备100对电池142的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器180K,也称“触控面板”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于电子设备100的表面,与显示屏194所处的位置不同。
示例性的,图2示出了电子设备100的软件结构框图。分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和系统库,以及内核层。应用程序层可以包括一系列应用程序包。
如图2所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图2所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(media libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
第二部分,本申请实施例所公开的示例应用场景介绍如下。
示例性的,图3示出了一种本申请所适用的图像处理的方法的流程示意图,如图所示,上述流程示意图中可包括预训练的目标模型,该目标模型中可多尺度编码器、特征金字塔模块和多尺度解码器。
其中,上述多尺度编码器中的基础网络可选用特征提取能力较强同时较为轻量级的MobileNetV2网络。
本申请实施例中,电子设备可获取待处理人脸图像,将待处理人脸图像输入预训练的目标模型,经过上述多尺度编码器,特征金字塔模块和多尺度解码器,得到目标掩膜集,该目标掩膜集中包括多个掩膜,每一掩膜可对应一个人脸部位;经由上述特征金字塔模型可将多尺度编码器从待处理人脸图像提取出的特征进行充分复用和融合,使得图像中的特征充分交换,以促进待处理人脸图像的分割效果。
进而,电子设备可根据目标掩膜集对待解析人脸图像中每一人脸部位进行人脸解析,得到与目标掩膜集中目标掩膜的数量相对应的多通道的多个二值图像,其中,每一通道对应一个人脸部位,每一二值图像对应一种颜色;最后,可将多个二值图像进行合成处理,得到人脸解析结果。如此,在本申请实施例中,电子设备可实现对待处理人脸图像中包括皮肤、鼻子、饰品、衣服、头发、脖子等多个人脸部位的高精度人脸解析效果,通过目标模型,可输出每一部位对应的二值图像,每一二值图像可对应于一种颜色,由多个二值图像合成得到的人脸解析结果,可区分于待处理人脸图像中的不同的人脸部位,有利于提高人脸解析效果。
第三部分,本申请实施例所公开的权要保护范围介绍如下。
请参阅图4A,图4A是本申请实施例提供了一种图像处理的方法的流程示意图,应用于电子设备,如图所示,本图像处理的方法包括以下操作。
S401、获取待处理人脸图像,将所述待处理人脸图像输入预训练的目标模型,得到目标掩膜集,所述目标掩膜集中包括多个掩膜,每一掩膜对应一个人脸部位。
其中,上述人脸部位可包括以下至少一项:左眼、右眼、鼻子、嘴巴、头发、皮肤等等,在此不作限定,当然,在实际应用中,上述人脸部位还可包括待处理人脸图像中的其他类别,例如,饰品、衣服等等,在此不做限定。
其中,上述预训练的目标模型可指事先预训练的目标模型,该目标模型可为卷积神经网络模型,在此不做限定;上述目标模型可包括如下几个模块:多尺度编码器、特征金字塔模块和多尺度解码器等等,在此不作限定。
具体实现中,可将上述待处理人脸图像输入目标模型,通过目标模型中的多层模块的处理,得到上述待处理人脸图像中多个人脸部位分别对应的掩膜,得到多个掩膜。
在一种可能的示例中,上述所述将所述待处理人脸图像输入预训练的目标模型,得到目标掩膜集,包括:
将所述待处理人脸图像输入预训练的目标模型,对所述待处理人脸图像进行人脸分割,得到多个人脸部位,其中,所述目标模型不同于所述待训练模型,所述目标模型中不包括所述深度监督模块;
基于所述模型调整参数,通过所述目标模型得到每一人脸部位分别对应的目标掩膜,得到所述多个人脸部位对应的多个目标掩膜,所述多个目标掩膜组成所述目标掩膜集。
其中,上述待训练模型可指还没有经过数据训练的模型,该待训练模型中可包括如下模块:多尺度编码器、特征金字塔模块、深度监督模块和多尺度解码器等等,在此不做限定;
其中,上述模型调整参数可在上述待训练模型训练完成以后得到,可基于该模型调整参数,根据目标模型,输出多个人脸部位对应的多个目标掩膜。
可见,在本申请实施例中,与待训练模型相比,上述目标模型中不包括深度监督模块,那么,在后续计算多个人脸部位对应的掩膜时,不需要额外的计算资源需求,可提高最终的人脸解析效率。
可选地,在上述步骤S401之前,还可包括如下步骤:
获取人脸解析数据集,所述人脸解析数据集包括样本图像对应的人脸解析数据;
将所述人脸解析数据集输入待训练模型,对所述待训练模型进行训练,得到所述目标模型,所述待训练模型包括:多尺度编码器、特征金字塔模块、深度监督模块和多尺度解码器。
其中,在上述获取待处理人脸图像之前,可对待训练模型进行预训练,以得到训练好的目标模型。
其中,上述待训练模型中的模块可包括以下至少一项:多尺度编码器、特征金字塔模块、深度监督模块和多尺度解码器等等,在此不作限定。
其中,上述人脸解析数据集可通过对样本图像处理得到,具体实现中,可由上述待训练模型遍历多张样本图像,并对多张样本图像进行随机旋转、翻转、随机裁剪或者伽玛(Gamma)变换等处理,以增强多张样本图像中包含的人脸解析数据集中的多组人脸解析数据,每一组人脸解析数据可对应一张样本图像;如此,上述对样本图像的处理,有利于后续模型训练时,以提高模型的泛化能力。
在一种可能的示例中,所述对所述待训练模型进行训练操作,得到所述目标模型,包括:
通过所述多尺度编码器生成与所述样本图像不同分辨率的多个不同尺寸的特征图;
通过所述特征金字塔模块对所述多个不同尺寸的特征图进行第一处理,生成目标特征金字塔,所述目标特征金字塔中包括所述多个不同尺寸的特征图对应的多层特征;
将所述多层特征输入所述深度监督模块,得到与所述样本图像相同尺寸的多个深监督预测掩膜;
将所述多层特征通过所述多尺度解码器,得到输出掩膜;
基于所述输出掩膜和所述多个深监督预测掩膜,确定所述人脸解析数据集对应的目标交叉熵损失;
基于预设反向传播算法和所述目标交叉熵损失,对所述待训练模型进行训练;
当所述目标交叉熵损失收敛时,确定所述待训练模型对应的模型调整参数,得到训练好的所述目标模型。
其中,上述预设反向传播算法可由用户自行设置或者系统默认,在此不作限定。
其中,如图4B所示,为一种模型预训练方法的流程示意图;如图中所示,上述方法应用于上述待训练模型,该待训练模型可包括以下模块:多尺度编码器、特征金字塔模块、深度监督模块和多尺度解码器;其中,上述多尺度编码器中的基础网络可选用特征提取能力较强同时较为轻量级的MobileNetV2网络,如此,可提取不同尺度的特征图以组成特征金字塔,与图3所示的流程示意图中目标模型的模型结构相比,待训练模型中可包括深度监督模块。
此外,上述人脸解析数据的训练可基于PyTorch框架实现,该PyTorch框架是torch的python版本,是由Facebook开源的神经网络框架;人脸解析数据集的训练可由上述待训练模型完成,举例来说,具体地,上述人脸解析数据集可从多尺度编码器输入,进而,可通过特征金字塔模型对输入的人脸解析数据进行特征提取处理;然后,可通过深度监督模型实现上采样,并得到多个深监督预设掩膜,进而,可通过多尺度解码器得到上述输出掩膜。
如图4C所示,为一种模型预训练方法的流程示意图,如图中所示,图中模型可包括多尺度编码器,特征金字塔模块、深度监督模块和多尺度解码器,在模型训练时,可包括深度监督模块,在具体的实现中,可去除深度监督模块,以减少计算量,提高人脸解析的效率。
如图4D所示,为一种卷积块的网络结构示意图;如图中所示,该卷积块可对应于如图4C所示的Cgr2×模块以及sgr2×模块,该卷积块中可包括:卷积层、归一化层(GroupNormalization层)、激活层(Relu层)和上采样层,该上采样层可为双线性插值2倍上采样层;其中,该卷积块中的卷积层的层数与输入输出的通道数相同。
如图4E所示,为一种卷积块的网络结构示意图;该卷积块可对应于如图4C所示的sgr2模块,该卷积块中可包括:卷积层、归一化层(Group Normalization层)和激活层(Relu层);其中,该卷积块中的卷积层的层数与输入输出的通道数相同。
具体实现中,可在一个训练周期内,电子设备可将包含上述人脸解析数据集的样本图像输入多尺度编码器,需要说明的是,此处仅以一张样本图像进行说明;进而,可从多尺度编码器引出与样本图像不同分辨率的多个不同尺寸的特征图,例如,可由上述多尺度编码器分别引出样本图像分辨率的1/4,1/8,1/16和1/32尺寸的四个特征图,并由上述多个不同尺寸的特征图形成第一特征金字塔,那么,其对应的通道数可分别为24,32,64和320。
进一步地,上述多尺度编码器中可包括:卷积层和双线性上采样层,通过所述特征金字塔模块对所述多个不同尺寸的特征图进行第一处理可包括如下步骤:可依次将上述第一特征金字塔的低分辨率特征上采样2倍后和高一级的分辨率特征进行混合,最终将通道数都压缩至同一个通道数,例如,通道数可预先设置为128,形成通道数一致的目标特征金字塔,该目标特征金字塔中可包括多个不同尺寸的特征图对应的多层特征。
再进一步地,将上述目标特征金字塔的各层特征输入上述深监督模块,与上述四个特征图对应的,该深监督模块可包括4个上采样层,如此,可分别上采样32倍,16倍,8倍和4倍,最终,可得到和样本图像相同尺寸的深监督预测掩膜,可分别为:Mask32、Mask16、Mask8和Mask4。
最后,可将上述多层特征通过上述多尺度解码器,得到输出掩膜;并基于上述输出掩膜和多个深监督预测掩膜,确定目标交叉熵损失,该目标交叉熵损失可用于预测整个模型训练的预测结果;进而,可基于预设反向传播算法和目标交叉熵损失,对待训练模型进行训练。
此外,上述目标交叉熵损失即为实际输出(概率)与期望输出(概率)的距离,当交叉熵的值越小,两个概率分布就越接近,那么,模型训练的结果会越好,越接近期望达到的效果;因此,可在多个训练周期内,重复上述步骤,直到上述目标交叉熵损失收敛时,确定并保存此时待训练模型对应的模型调整参数,并得到此时的已训练好的目标模型。
可见,在本申请实施例中,电子设备可采用特征金字塔的方法对从基础网络提取出来的人脸图像的特征进行充分复用和融合,使得各个分辨率通道间产生充分信息交换,有利于促进分割效果的提升;另外,在本申请实施例中,上述待训练模型还包括:深监督模块,该深监督模块可对深层的特征提供额外的梯度,如此,可提升人脸分割效果,从而降低假阳性的预测。
在一种可能的示例中,若所述多尺度解码器包括:卷积层和采样层,所述将所述多层特征通过所述多尺度解码器,得到输出掩膜,包括:
将所述多层特征依次输入所述多尺度解码器,将所述多个不同尺寸的特征图中的每一特征图的分辨率调整为预设分辨率,得到多个目标特征图;
将所述多个目标特征图相加后经过所述卷积层的卷积处理以及采样层的第二处理,得到所述输出掩膜。
其中,上述预设分辨率可为用户自行设置或者系统默认,在此不作限定;上述第二处理可不同于上述第一处理,该第二处理可为用户自行设置或者系统默认,在此不作限定;上述多尺度解码器可至少包括:卷积层和采样层等等,在此不作限定,其中,上述采样层可为双线性上采样层。
具体实现中,可将上述目标特征金字塔的各层特征,首先通过生疏多尺度解码器中的卷积层和上采样层组成的多个卷积块,以将上述多个不同尺寸的特征图中的每一特征图的分辨率调整为预设分辨率,例如,该预设分辨率可统一为采样图像的1/4;进而,对应于上述实施例,得到四个目标特征图,进而,可将四个目标特征图相加后经过卷积层,然后进行第二处理,例如,可为4倍的上采样处理,以得到输出掩模Mask。
在一种可能的示例中,所述基于所述输出掩膜和所述多个深监督预测掩膜,确定所述人脸解析数据集对应的目标交叉熵损失,包括:
获取所述人脸解析数据集中的标注label以及预设交叉熵计算公式;
基于所述预设交叉熵计算公式,计算所述输出掩膜与所述标注label之间的输出交叉熵损失,计算每一所述深监督预测掩膜与所述标注label之间的交叉熵损失,得到多个深监督预测交叉熵损失;
确定所述多个深监督预测交叉熵损失与所述输出交叉熵损失的和为所述目标交叉熵损失。
其中,上述预设交叉熵计算公式可由用户自行设置或者系统默认,在此不作限定;在本申请实施例中,该预设交叉熵计算公式可为:
其中,上述yi表示输入实例xi的真实类别,该类别可指人脸中的人脸部位;pi表示为预测输入实例损失xi属于类别i的概率,对所有样本的对数损失表示对每个样本的对数损失的平均值。
具体实现中,电子设备可基于上述预设交叉熵损失计算公式,计算上述多个深监督预测掩膜(Mask32,Mask16,Mask8和Mask4)以及上述输出掩模Mask分别与标注Label之间的交叉熵损失,以得到多个深监督预测交叉熵损失以及输出交叉熵损失;并进行叠加运算,以得到目标交叉熵损失。
其中,目标交叉熵损失函数为:L=LMask+LMask32+LMask16+LMask8+LMask4;上述LMask可表示为由多尺度解码器输出的输出掩膜,LMask32、LMask16、LMask8和LMask4可分别表示由深监督模块输出的多个深监督预测掩膜。
可见,在本申请实施例中,电子设备将上述样本图像经过上述一系列处理,包括模型训练,针对样本图像的多个深监督预测掩膜的预测和输出掩膜的确定,并通过多个深监督预测掩膜和输出掩膜,确定目标交叉熵损失,基于该目标交叉熵损失可实现对待训练模型的训练,有利于提高模型训练的效果,从而,有利于提升人脸分割的效果以及后续人脸解析的精度,需要说明的是,上述输出掩膜和上述深监督预测掩膜可对应于人脸图像中的任意一个人脸部位,在具体的实际应用中,可基于上述介绍的模型同步实现上述步骤,以得到人脸图像中多个人脸部位中每一人脸部位分别对应的掩膜。
S402、根据所述目标掩膜集对所述待解析人脸图像中每一所述人脸部位进行人脸解析,得到与所述目标掩膜集中所述目标掩膜的数量相对应的多通道的多个二值图像,其中,每一通道对应一个人脸部位,每一二值图像对应一种颜色。
其中,上述二值图像可指由0和1组成的图像,每一二值图像可对应一种颜色,颜色的不同可用于区分不同的人脸部位。
其中,上述目标模型可输出多通道的图像分别对应的掩膜,每一掩膜可对应待解析人脸图像中的每一人脸部位;可在上述目标模型中实现人脸分割,分割为多个人脸部位,每一人脸部位可对应于一个通道,每一通道可对应一个掩膜,从而可输出多个通道的二值图像。
S403、将所述多个二值图像进行合成处理,得到人脸解析结果。
具体实现中,可确定每一人脸部位在待处理人脸图像中的位置信息,得到多个位置信息,并基于上述多个位置信息,将上述多个二值图像按照多个位置信息进行合成,以得到一个人脸图像,如此,可得到人脸解析结果。
在一种可能的示例中,上述将所述多个二值图像进行合成处理,得到人脸解析结果,包括:
将所述多个二值图像合成为一个三通道的RGB图像,所述RGB图像即为所述人脸解析结果,其中,所述RGB图像中每一人脸部位对应一种颜色。
具体实现中,上述输出的多个二值图像是分别对应于一个人脸部位的,每一二值图像可对应于图像中脸部的一个组成部分,例如,可包括:皮肤、鼻子、眼镜、眼睛、眉毛、嘴巴、头发、帽子、耳环、项链、脖子和衣服等等,最后,可将上述多通道的多个二值图像进行合成,以得到一个三通道的GRB图像,该RGB图像中包括多个人脸部位,每一人脸部位可对应于一种颜色。
举例来说,如图4F所示,为一种图像处理的结果示意图,如图中所示,可向上述预训练的目标模型中输入图中的输入待处理人脸图像,经过该预训练的目标模型进行人脸解析以后,得到的三通道的RGB图像即为上述人脸解析结果,该RGB图像中的人脸部位可包括皮肤、鼻子、眼镜、眼睛、眉毛、嘴巴、头发、帽子、耳环、项链、脖子和衣服等等,其中,每一人脸部位可对应一种颜色,例如,该RGB图像中的左眼可对应红色、右眼可对应蓝色、脸部皮肤可对应粉色等等,在此不作限定,如此,可区分于待处理人脸图像中的不同的人脸部位。
可见,在本申请实施例中,电子设备可获取待处理人脸图像,将待处理人脸图像输入预训练的目标模型,得到目标掩膜集,目标掩膜集中包括多个掩膜,每一掩膜对应一个人脸部位;进而,根据目标掩膜集对待解析人脸图像中每一人脸部位进行人脸解析,得到与目标掩膜集中目标掩膜的数量相对应的多通道的多个二值图像,其中,每一通道对应一个人脸部位,每一二值图像对应一种颜色;最后,可将多个二值图像进行合成处理,得到人脸解析结果。如此,在本申请实施例中,电子设备可实现对待处理人脸图像中包括皮肤、鼻子、饰品、衣服、头发、脖子等多个人脸部位的高精度人脸解析效果,通过目标模型,可输出每一部位对应的二值图像,每一二值图像可对应于一种颜色,由多个二值图像合成得到的人脸解析结果,可区分于待处理人脸图像中的不同的人脸部位,有利于提高人脸解析效果。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图5示出了图像处理装置的示意图,如图5所示,该图像处理装置500应用于电子设备,该图像处理装置500可以包括:获取单元501、人脸解析单元502和合成单元503。
其中,获取单元501可以用于支持电子设备执行上述步骤401,和/或用于本文所描述的技术的其他过程。
人脸解析单元502可以用于支持电子设备执行上述步骤402,和/或用于本文所描述的技术的其他过程。
合成单元503可以用于支持电子设备执行上述步骤403,和/或用于本文所描述的技术的其他过程。
需要说明的是,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
在一个可能的示例中,在所述将所述待处理人脸图像输入预训练的目标模型,得到目标掩膜集方面,上述获取单元501具体用于:
将所述待处理人脸图像输入预训练的目标模型,对所述待处理人脸图像进行人脸分割,得到多个人脸部位,其中,所述目标模型不同于所述待训练模型,所述目标模型中不包括所述深度监督模块;
基于所述模型调整参数,通过所述目标模型得到每一人脸部位分别对应的掩膜,得到所述多个人脸部位对应的多个掩膜,所述多个掩膜组成所述目标掩膜集。
在一个可能的示例中,在所述将所述多个二值图像进行合成处理,得到人脸解析结果方面,上述合成单元503具体用于:
将所述多个二值图像合成为一个三通道的RGB图像,所述RGB图像即为所述人脸解析结果,其中,所述RGB图像中每一人脸部位对应一种颜色。
本实施例提供的电子设备,用于执行上述图像处理的方法,因此可以达到与上述实现方法相同的效果。
在采用集成的单元的情况下,电子设备可以包括处理模块、存储模块和通信模块。其中,处理模块可以用于对电子设备的动作进行控制管理,例如,可以用于支持电子设备执行上述获取单元501、人脸解析单元502和合成单元503执行的步骤。存储模块可以用于支持电子设备执行存储程序代码和数据等。通信模块,可以用于支持电子设备与其他设备的通信。
其中,处理模块可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理(digital signal processing,DSP)和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片、Wi-Fi芯片等与其他电子设备交互的设备。
在一个实施例中,当处理模块为处理器,存储模块为存储器时,本实施例所涉及的电子设备可以为具有图1所示结构的设备。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种图像处理的方法,其特征在于,应用于电子设备,所述方法包括:
获取待处理人脸图像,将所述待处理人脸图像输入预训练的目标模型,得到目标掩膜集,所述目标掩膜集中包括多个掩膜,每一掩膜对应一个人脸部位;
根据所述目标掩膜集对所述待解析人脸图像中每一所述人脸部位进行人脸解析,得到与所述目标掩膜集中所述目标掩膜的数量相对应的多通道的多个二值图像,其中,每一通道对应一个人脸部位,每一二值图像对应一种颜色;
将所述多个二值图像进行合成处理,得到人脸解析结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取人脸解析数据集,所述人脸解析数据集包括样本图像对应的人脸解析数据;
将所述人脸解析数据集输入待训练模型,对所述待训练模型进行训练,得到所述目标模型,所述待训练模型包括:多尺度编码器、特征金字塔模块、深度监督模块和多尺度解码器。
3.根据权利要求2所述的方法,其特征在于,所述对所述待训练模型进行训练操作,得到所述目标模型,包括:
通过所述多尺度编码器生成与所述样本图像不同分辨率的多个不同尺寸的特征图;
通过所述特征金字塔模块对所述多个不同尺寸的特征图进行第一处理,生成目标特征金字塔,所述目标特征金字塔中包括所述多个不同尺寸的特征图对应的多层特征;
将所述多层特征输入所述深度监督模块,得到与所述样本图像相同尺寸的多个深监督预测掩膜;
将所述多层特征通过所述多尺度解码器,得到输出掩膜;
基于所述输出掩膜和所述多个深监督预测掩膜,确定所述人脸解析数据集对应的目标交叉熵损失;
基于预设反向传播算法和所述目标交叉熵损失,对所述待训练模型进行训练;
当所述目标交叉熵损失收敛时,确定所述待训练模型对应的模型调整参数,得到训练好的所述目标模型。
4.根据权利要求3所述的方法,其特征在于,所述多尺度解码器包括:卷积层和采样层,所述将所述多层特征通过所述多尺度解码器,得到输出掩膜,包括
将所述多层特征依次输入所述多尺度解码器,将所述多个不同尺寸的特征图中的每一特征图的分辨率调整为预设分辨率,得到多个目标特征图;
将所述多个目标特征图相加后经过所述卷积层的卷积处理以及采样层的第二处理,得到所述输出掩膜。
5.根据权利要求3所述的方法,其特征在于,所述基于所述输出掩膜和所述多个深监督预测掩膜,确定所述人脸解析数据集对应的目标交叉熵损失,包括:
获取所述人脸解析数据集中的标注label以及预设交叉熵计算公式;
基于所述预设交叉熵计算公式,计算所述输出掩膜与所述标注label之间的输出交叉熵损失,计算每一所述深监督预测掩膜与所述标注label之间的交叉熵损失,得到多个深监督预测交叉熵损失;
确定所述多个深监督预测交叉熵损失与所述输出交叉熵损失的和为所述目标交叉熵损失。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述将所述待处理人脸图像输入预训练的目标模型,得到目标掩膜集,包括:
将所述待处理人脸图像输入预训练的目标模型,对所述待处理人脸图像进行人脸分割,得到多个人脸部位,其中,所述目标模型不同于所述待训练模型,所述目标模型中不包括所述深度监督模块;
基于所述模型调整参数,通过所述目标模型得到每一人脸部位分别对应的掩膜,得到所述多个人脸部位对应的多个掩膜,所述多个掩膜组成所述目标掩膜集。
7.根据权利要求6所述的方法,其特征在于,所述将所述多个二值图像进行合成处理,得到人脸解析结果,包括:
将所述多个二值图像合成为一个三通道的RGB图像,所述RGB图像即为所述人脸解析结果,其中,所述RGB图像中每一人脸部位对应一种颜色。
8.一种图像处理装置,其特征在于,应用于电子设备,所述装置包括:获取单元、人脸解析单元和合成单元,其中,
所述获取单元,用于获取待处理人脸图像,将所述待处理人脸图像输入预训练的目标模型,得到目标掩膜集,所述目标掩膜集中包括多个掩膜,每一掩膜对应一个人脸部位;
所述人脸解析单元,用于根据所述目标掩膜集对所述待解析人脸图像中每一所述人脸部位进行人脸解析,得到与所述目标掩膜集中所述目标掩膜的数量相对应的多通道的多个二值图像,其中,每一通道对应一个人脸部位,每一二值图像对应一种颜色;
所述合成单元,用于将所述多个二值图像进行合成处理,得到人脸解析结果。
9.一种电子设备,其特征在于,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-7任一项所述的方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-7任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010540595.5A CN111738122B (zh) | 2020-06-12 | 2020-06-12 | 图像处理的方法及相关装置 |
PCT/CN2021/090350 WO2021249053A1 (zh) | 2020-06-12 | 2021-04-27 | 图像处理的方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010540595.5A CN111738122B (zh) | 2020-06-12 | 2020-06-12 | 图像处理的方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111738122A true CN111738122A (zh) | 2020-10-02 |
CN111738122B CN111738122B (zh) | 2023-08-22 |
Family
ID=72649166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010540595.5A Active CN111738122B (zh) | 2020-06-12 | 2020-06-12 | 图像处理的方法及相关装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111738122B (zh) |
WO (1) | WO2021249053A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112561847A (zh) * | 2020-12-24 | 2021-03-26 | Oppo广东移动通信有限公司 | 图像处理方法及装置、计算机可读介质和电子设备 |
CN113011326A (zh) * | 2021-03-18 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、存储介质及计算机设备 |
CN113221766A (zh) * | 2021-05-18 | 2021-08-06 | 北京百度网讯科技有限公司 | 训练活体人脸识别模型、识别活体人脸的方法及相关装置 |
WO2021179820A1 (zh) * | 2020-03-12 | 2021-09-16 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN113657213A (zh) * | 2021-07-30 | 2021-11-16 | 五邑大学 | 文本识别方法、装置和计算机可读存储介质 |
WO2021249053A1 (zh) * | 2020-06-12 | 2021-12-16 | Oppo广东移动通信有限公司 | 图像处理的方法及相关装置 |
CN114944003A (zh) * | 2022-06-24 | 2022-08-26 | 广联达科技股份有限公司 | 人脸识别方法、装置、计算机设备和可读存储介质 |
CN116662638A (zh) * | 2022-09-06 | 2023-08-29 | 荣耀终端有限公司 | 数据采集方法及相关装置 |
CN117974711A (zh) * | 2024-04-02 | 2024-05-03 | 荣耀终端有限公司 | 视频插帧方法及相关设备 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612971A (zh) * | 2022-03-04 | 2022-06-10 | 北京百度网讯科技有限公司 | 人脸检测方法、模型训练方法、电子设备及程序产品 |
CN115293971B (zh) * | 2022-09-16 | 2023-02-28 | 荣耀终端有限公司 | 图像拼接方法及装置 |
CN115578797B (zh) * | 2022-09-30 | 2023-08-29 | 北京百度网讯科技有限公司 | 模型训练方法、图像识别方法、装置及电子设备 |
CN117711040A (zh) * | 2023-05-24 | 2024-03-15 | 荣耀终端有限公司 | 标定方法和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090041068A (ko) * | 2007-10-23 | 2009-04-28 | 엘아이지넥스원 주식회사 | 표적 추적 방법 및 장치 |
US20110044506A1 (en) * | 2009-08-24 | 2011-02-24 | Samsung Electronics Co., Ltd. | Target analysis apparatus, method and computer-readable medium |
CN106056562A (zh) * | 2016-05-19 | 2016-10-26 | 京东方科技集团股份有限公司 | 一种人脸图像处理方法、装置及电子设备 |
CN109815850A (zh) * | 2019-01-02 | 2019-05-28 | 中国科学院自动化研究所 | 基于深度学习的虹膜图像分割及定位方法、系统、装置 |
CN111047509A (zh) * | 2019-12-17 | 2020-04-21 | 中国科学院深圳先进技术研究院 | 一种图像特效处理方法、装置及终端 |
CN111091576A (zh) * | 2020-03-19 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103456010B (zh) * | 2013-09-02 | 2016-03-30 | 电子科技大学 | 一种基于特征点定位的人脸卡通画生成方法 |
US10593023B2 (en) * | 2018-02-13 | 2020-03-17 | Adobe Inc. | Deep-learning-based automatic skin retouching |
CN110458172A (zh) * | 2019-08-16 | 2019-11-15 | 中国农业大学 | 一种基于区域对比度检测的弱监督图像语义分割方法 |
CN111738122B (zh) * | 2020-06-12 | 2023-08-22 | Oppo广东移动通信有限公司 | 图像处理的方法及相关装置 |
-
2020
- 2020-06-12 CN CN202010540595.5A patent/CN111738122B/zh active Active
-
2021
- 2021-04-27 WO PCT/CN2021/090350 patent/WO2021249053A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090041068A (ko) * | 2007-10-23 | 2009-04-28 | 엘아이지넥스원 주식회사 | 표적 추적 방법 및 장치 |
US20110044506A1 (en) * | 2009-08-24 | 2011-02-24 | Samsung Electronics Co., Ltd. | Target analysis apparatus, method and computer-readable medium |
CN106056562A (zh) * | 2016-05-19 | 2016-10-26 | 京东方科技集团股份有限公司 | 一种人脸图像处理方法、装置及电子设备 |
CN109815850A (zh) * | 2019-01-02 | 2019-05-28 | 中国科学院自动化研究所 | 基于深度学习的虹膜图像分割及定位方法、系统、装置 |
CN111047509A (zh) * | 2019-12-17 | 2020-04-21 | 中国科学院深圳先进技术研究院 | 一种图像特效处理方法、装置及终端 |
CN111091576A (zh) * | 2020-03-19 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
YANGYU ET AL: "Fruit detection for strawberry harvesting robot in non-structural environment based on Mask-RCNN", 《COMPUTERS AND ELECTRONICS IN AGRICULTURE》 * |
梅礼晔: "基于深度学习的图像融合和分割方法研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021179820A1 (zh) * | 2020-03-12 | 2021-09-16 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及电子设备 |
WO2021249053A1 (zh) * | 2020-06-12 | 2021-12-16 | Oppo广东移动通信有限公司 | 图像处理的方法及相关装置 |
CN112561847A (zh) * | 2020-12-24 | 2021-03-26 | Oppo广东移动通信有限公司 | 图像处理方法及装置、计算机可读介质和电子设备 |
CN112561847B (zh) * | 2020-12-24 | 2024-04-12 | Oppo广东移动通信有限公司 | 图像处理方法及装置、计算机可读介质和电子设备 |
CN113011326A (zh) * | 2021-03-18 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、存储介质及计算机设备 |
CN113221766A (zh) * | 2021-05-18 | 2021-08-06 | 北京百度网讯科技有限公司 | 训练活体人脸识别模型、识别活体人脸的方法及相关装置 |
CN113657213A (zh) * | 2021-07-30 | 2021-11-16 | 五邑大学 | 文本识别方法、装置和计算机可读存储介质 |
CN114944003A (zh) * | 2022-06-24 | 2022-08-26 | 广联达科技股份有限公司 | 人脸识别方法、装置、计算机设备和可读存储介质 |
CN116662638A (zh) * | 2022-09-06 | 2023-08-29 | 荣耀终端有限公司 | 数据采集方法及相关装置 |
CN116662638B (zh) * | 2022-09-06 | 2024-04-12 | 荣耀终端有限公司 | 数据采集方法及相关装置 |
CN117974711A (zh) * | 2024-04-02 | 2024-05-03 | 荣耀终端有限公司 | 视频插帧方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2021249053A1 (zh) | 2021-12-16 |
CN111738122B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111738122B (zh) | 图像处理的方法及相关装置 | |
CN115473957B (zh) | 一种图像处理方法和电子设备 | |
CN109559270B (zh) | 一种图像处理方法及电子设备 | |
CN111782879B (zh) | 模型训练方法及装置 | |
CN111553846B (zh) | 超分辨率处理方法及装置 | |
CN112114912A (zh) | 一种用户界面布局方法及电子设备 | |
CN111400605A (zh) | 基于眼球追踪的推荐方法及装置 | |
CN113838490B (zh) | 视频合成方法、装置、电子设备及存储介质 | |
WO2021013132A1 (zh) | 输入方法及电子设备 | |
WO2021218364A1 (zh) | 一种图像增强方法及电子设备 | |
CN110830645B (zh) | 一种操作方法和电子设备及计算机存储介质 | |
CN111882642B (zh) | 三维模型的纹理填充方法及装置 | |
CN111768416A (zh) | 照片裁剪方法及装置 | |
WO2022156473A1 (zh) | 一种播放视频的方法及电子设备 | |
CN111768352A (zh) | 图像处理方法及装置 | |
CN111612723B (zh) | 图像修复方法及装置 | |
CN113873083A (zh) | 续航时长确定方法、装置、电子设备及存储介质 | |
WO2022143314A1 (zh) | 一种对象注册方法及装置 | |
CN111524528B (zh) | 防录音检测的语音唤醒方法及装置 | |
CN111381996A (zh) | 内存异常处理方法及装置 | |
CN111768765B (zh) | 语言模型生成方法和电子设备 | |
CN115964231A (zh) | 基于负载模型的评估方法和装置 | |
CN111880661A (zh) | 手势识别方法及装置 | |
CN114422686A (zh) | 参数调整方法及相关装置 | |
CN114359335A (zh) | 一种目标跟踪方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |