CN110020653B - 图像语义分割方法、装置及计算机可读存储介质 - Google Patents
图像语义分割方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110020653B CN110020653B CN201910167586.3A CN201910167586A CN110020653B CN 110020653 B CN110020653 B CN 110020653B CN 201910167586 A CN201910167586 A CN 201910167586A CN 110020653 B CN110020653 B CN 110020653B
- Authority
- CN
- China
- Prior art keywords
- trademark
- semantic segmentation
- graph
- image
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 259
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 165
- 238000013136 deep learning model Methods 0.000 claims abstract description 78
- 238000004458 analytical method Methods 0.000 claims abstract description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 44
- 238000002372 labelling Methods 0.000 claims description 6
- 238000003709 image segmentation Methods 0.000 abstract description 5
- 238000001514 detection method Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种图像检测技术,揭露了一种图像语义分割方法,该方法包括:采集已公开的商标图形数据并将其作为模型训练的商标训练样本,利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型;利用训练后的所述深度学习模型,对需进行语义分割的商标图形提取对应的图像特征;针对提取出的所述图像特征,利用预设概率图模型进行解析,根据解析结果,对所述商标图形中不同的内容主体进行语义分割,得到对应的语义分割结果。本发明还提出一种图像语义分割装置以及一种计算机可读存储介质。本发明实现了一种针对商标图形的图像分割方法,使得对商标图形的语义分割更具针对性,提高了语义分割的识别准确率。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像语义分割方法、装置及计算机可读存储介质。
背景技术
目前,在各种应用场景(例如物体识别、物体检测等领域)中,需要对图像进行语义分割,图像语义分割是计算机视觉领域中一项重要的研究内容,其目的是将图像分割成具有不同语义信息的区域,并且标注每个区域相应的语义标签,例如通过对一幅图像进行图像语义分割后可以为图像中的物体添加语义标签(譬如桌子、墙壁、天空、人、狗等),可应用于例如商标侵权判定、无人驾驶等多个领域。现有的图像语义分割模型中,针对图像内容的提取基本上均为真实场景的照片且以单因素提取为主,没有针对图形商标这一特定领域的语义分割模型;且由于图形商标的特殊性,利用现有的图像语义分割模型进行图形商标的语义分割时,其语义分割算法的识别准确率不高。
发明内容
本发明提供一种图像语义分割方法、装置及计算机可读存储介质,其主要目的在于提供一种针对商标图形的图像分割方法,提高语义分割的识别准确率。
为实现上述目的,本发明提供一种图像语义分割方法,该方法包括:
采集已公开的商标图形数据并将其作为模型训练的商标训练样本,利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型;
利用训练后的所述深度学习模型,对需进行语义分割的商标图形提取对应的图像特征;
针对提取出的所述图像特征,利用预设概率图模型进行解析,根据解析结果,对所述商标图形中不同的内容主体进行语义分割,得到对应的语义分割结果。
可选地,所述采集已公开的商标图形数据并将其作为模型训练的商标训练样本,利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型,包括:
采集已公开的商标图形数据,对采集的所述商标图形数据标注对应的语义分割信息,得到已标注语义分割信息的商标训练样本;
将已标注语义分割信息的所述商标训练样本分别输入至预设分割子模型中,得到所述商标训练样本对应的包含语义信息的特征图;
将所述特征图与标注的所述语义分割信息同时输入至预设概率图模型中,利用所述概率图模型计算所述商标训练样本包含的每个特征图的权重;
将所述商标训练样本对应的所述特征图,按照所述特征图分别对应的权重进行融合,得到所述商标训练样本的预测语义分割结果;
根据所述预测语义分割结果以及标注的语义分割信息,对所述预设分割子模型和预设概率图模型的参数进行修正,直至所述预测语义分割结果与标注的所述语义分割信息之间的误差小于预设阈值,则得到训练完成的基于所述预设分割子模型的深度学习模型。
可选地,所述利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型,包括:
输入所述商标训练样本;
初始化各卷积神经网络以及所述卷积神经网络分别对应的参数;其中,所述卷积神经网络对应的参数包括:卷积神经网络中每个网络层分别对应的权重和偏置;
采用正向传播算法和后向传播算法,利用所述商标训练样本进行学习得出构建所述预设学习模型的网络参数;
根据得到的所述网络参数,配置所述预设学习模型,得到训练后的深度学习模型。
可选地,所述利用训练后的所述深度学习模型,对需进行语义分割的商标图形提取对应的图像特征,包括:
利用训练后的所述深度学习模型,识别需进行语义分割的商标图形的空白区域;
将识别出的所述商标图形中的空白区域去掉,得到处理空白区域后的商标图像;
在不改变所述商标图像比例的情况下,将所述商标图像调整为预设分辨率尺寸的灰度图。
可选地,所述对所述商标图形进行语义分割得到的语义分割结果包括:分割后所述商标图形对应的内容主体、所述内容主体的大小以及所述内容主体在所述商标图形中所处的位置。
此外,为实现上述目的,本发明还提供一种图像语义分割装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的图像语义分割程序,所述图像语义分割程序被所述处理器执行时实现如下步骤:
采集已公开的商标图形数据并将其作为模型训练的商标训练样本,利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型;
利用训练后的所述深度学习模型,对需进行语义分割的商标图形提取对应的图像特征;
针对提取出的所述图像特征,利用预设概率图模型进行解析,根据解析结果,对所述商标图形中不同的内容主体进行语义分割,得到对应的语义分割结果。
可选地,所述图像语义分割程序还可被所述处理器执行,以在采集已公开的商标图形数据并将其作为模型训练的商标训练样本,利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型,包括:
采集已公开的商标图形数据,对采集的所述商标图形数据标注对应的语义分割信息,得到已标注语义分割信息的商标训练样本;
将已标注语义分割信息的所述商标训练样本分别输入至预设分割子模型中,得到所述商标训练样本对应的包含语义信息的特征图;
将所述特征图与标注的所述语义分割信息同时输入至预设概率图模型中,利用所述概率图模型计算所述商标训练样本包含的每个特征图的权重;
将所述商标训练样本对应的所述特征图,按照所述特征图分别对应的权重进行融合,得到所述商标训练样本的预测语义分割结果;
根据所述预测语义分割结果以及标注的语义分割信息,对所述预设分割子模型和预设概率图模型的参数进行修正,直至所述预测语义分割结果与标注的所述语义分割信息之间的误差小于预设阈值,则得到训练完成的基于所述预设分割子模型的深度学习模型。
可选地,所述图像语义分割程序还可被所述处理器执行,以在利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型,包括:
输入所述商标训练样本;
初始化各卷积神经网络以及所述卷积神经网络分别对应的参数;其中,所述卷积神经网络对应的参数包括:卷积神经网络中每个网络层分别对应的权重和偏置;
采用正向传播算法和后向传播算法,利用所述商标训练样本进行学习得出构建所述预设学习模型的网络参数;
根据得到的所述网络参数,配置所述预设学习模型,得到训练后的深度学习模型。
可选地,所述图像语义分割程序还可被所述处理器执行,以在利用训练后的所述深度学习模型,对需进行语义分割的商标图形提取对应的图像特征,包括:
利用训练后的所述深度学习模型,识别需进行语义分割的商标图形的空白区域;
将识别出的所述商标图形中的空白区域去掉,得到处理空白区域后的商标图像;
在不改变所述商标图像比例的情况下,将所述商标图像调整为预设分辨率尺寸的灰度图。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有图像语义分割程序,所述图像语义分割程序可被一个或者多个处理器执行,以实现如上所述的图像语义分割方法的步骤。
本发明提出的图像语义分割方法、装置及计算机可读存储介质,采集已公开的商标图形数据并将其作为模型训练的商标训练样本,利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型;利用训练后的所述深度学习模型,对需进行语义分割的商标图形提取对应的图像特征;针对提取出的所述图像特征,利用预设概率图模型进行解析,根据解析结果,对所述商标图形中不同的内容主体进行语义分割,得到对应的语义分割结果,实现了一种针对商标图形的图像分割方法,使得对商标图形的语义分割更具针对性,提高了语义分割的识别准确率。
附图说明
图1为本发明一实施例提供的图像语义分割方法的流程示意图;
图2为本发明一实施例提供的图像语义分割装置的内部结构示意图;
图3为本发明一实施例提供的图像语义分割装置中图像语义分割程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种图像语义分割方法。如图1所示,图1为本发明一实施例提供的图像语义分割方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本发明实施例中,所述图像语义分割方法包括:
步骤S10,采集已公开的商标图形数据并将其作为模型训练的商标训练样本,利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型。
本发明实施例中,由于商标图形的特殊性,因此,在对预设学习模型进行训练时,直接采集已经公开的商标图形数据作为商标训练样本,并利用采集的商标图形数据直接对预设学习模型进行训练,得到满足条件的模型参数,进而根据得到的模型参数,配置预设学习模型,即可得到训练后的深度学习模型。
由于不同的学习模型,针对该学习模型可能采取的具体训练方式也不相同;比如,针对预设分割子模型进行训练时,先对商标训练样本进行标注,然后利用标注的商标训练样本对预设分割子模型进行训练,直至训练结果满足预设收敛条件。或者,针对卷积神经网络进行训练时,输入商标训练样本,利用卷积神经网络构建深度学习模型对应的网络参数,进而根据构建的网络参数,配置得到训练后的深度学习模型等。
本领域技术人员可以理解,不同的学习模型采取的具体训练方式不同,因此,针对该学习模型训练得到的深度学习模型的具体实施方式也不相同,本发明实施例对“利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型”的具体实施方式,不进行一一穷举和限定。
步骤S20,利用训练后的所述深度学习模型,对需进行语义分割的商标图形提取对应的图像特征。
步骤S30,针对提取出的所述图像特征,利用预设概率图模型进行解析,根据解析结果,对所述商标图形中不同的内容主体进行语义分割,得到对应的语义分割结果。
针对需要进行语义分割的商标图形,利用训练好的深度学习模型进行特征提取,得到该商标图形对应的图像特征;针对提取出的图像特征,利用预设概率图模型进行图像特征的解析,将所述商标图形中不同的内容主体进行语义分割,得到对应的语义分割结果。
在一个实施例中,将得到的语义分割结果自动返回至客户端,比如针对商标图形进行语义分割后得到的该商标图形对应的:内容主体、该内容主体对应的图像大小以及该内容主体在所述商标图形中所处的位置等。
本实施例提出的图像语义分割方法,采集已公开的商标图形数据并将其作为模型训练的商标训练样本,利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型;利用训练后的所述深度学习模型,对需进行语义分割的商标图形提取对应的图像特征;针对提取出的所述图像特征,利用预设概率图模型进行解析,根据解析结果,对所述商标图形中不同的内容主体进行语义分割,得到对应的语义分割结果,实现了一种针对商标图形的图像分割方法,使得对商标图形的语义分割更具针对性,提高了语义分割的识别准确率。
进一步地,在本发明方法的另一个实施例中,利用采集的商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型,可以通过如下方式实施:
采集已公开的商标图形数据,对采集的所述商标图形数据标注对应的语义分割信息,得到已标注语义分割信息的商标训练样本;其中,所述语义分割信息包括所述商标图形中每个像素对应的物体类别信息。
将已标注语义分割信息的所述商标训练样本分别输入至预设分割子模型中,得到所述商标训练样本对应的包含语义信息的特征图;
将所述特征图与标注的所述语义分割信息同时输入至预设概率图模型中,利用所述概率图模型计算所述商标训练样本包含的每个特征图的权重;
将所述商标训练样本对应的所述特征图,按照所述特征图对应的权重进行融合,得到所述商标训练样本的预测语义分割结果;
根据所述预测语义分割结果以及标注的语义分割信息,对所述预设分割子模型和预设概率图模型的参数进行修正,直至满足预设收敛条件:即所述预测语义分割结果与标注的所述语义分割信息之间的误差小于预设阈值,则得到训练完成的基于所述预设分割子模型的深度学习模型。
其中,本发明实施例中的预设分割子模型包括但不限于:FCN模型、Deep lab模型以及Dilated Net模型等。
进一步地,在本发明实施例中,对预设分割子模型和预设概率图模型的参数进行修正时,可以采用交叉熵损失函数来计算预测语义分割结果与上述标注的所述语义分割信息之间的误差,并利用反向传播的算法,根据预测语义分割结果与标注的语义分割信息之间的误差,更新预设分割子模型和概率图模型的参数,直至上述交叉熵损失函数计算的所述误差的值小于一预设的阈值,或者不断迭代重复执行上述训练步骤的迭代次数达到了一预定值,则表示训练完成,得到基于上述预设分割子模型的深度学习模型。
基于上述这种处理方式,可以得到较为准确的深度学习模型,进而能够对需进行语义分割的商标图形进行准确的特征提取,提高语义分割的准确率。
进一步地,在本发明方法的另一个实施例中,利用采集的商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型,还可以通过如下方式实施:
输入所述商标训练样本;
初始化各卷积神经网络以及所述卷积神经网络分别对应的参数;其中,所述卷积神经网络对应的参数包括:卷积神经网络中每个网络层分别对应的权重和偏置;
采用正向传播算法和后向传播算法,利用所述商标训练样本进行学习得出构建所述预设学习模型的网络参数;
根据得到的所述网络参数,配置所述预设学习模型,得到训练后的深度学习模型。
本发明实施例中,所描述的预设深度学习模型中的卷积神经网络包括两个依次串联的卷积神经网络,其中,第一卷积神经网络用于提取商标图形的特征,即对输入的商标训练样本对应的图像或者特征图在二维空间上进行卷积运算,提取上述图像或者特征图的层次化特征,该第一卷积神经网络包括了多个串联的卷积层;第二卷积神经网络包括一个卷积层,用于融合提取出的商标图形的局部特征和全局特征,进而预测该商标图形所属的物体类别,最终输出该商标图形对应的语义分割图。且第一卷积神经网络是在已公开的海量商标图形数据集上预先训练好的,第二卷积神经网络的参数是随机初始化的。
其中,针对融合提取出的商标图形的局部特征和全局特征的处理方式,可以采取如下方式实施:
对所述商标训练样本对应的每个特征图,均从该特征图的每个语义分割元素的维度去和该维度相应的权重相乘;再针对所有的特征图,将上述相乘结果按照对应的元素进行求和,并从求和结果中选取最大值所在的标号作为所述训练图像的预测语义分割结果。其中,所述语义分割元素是通过所述特征图中的语义信息中得到的。
基于卷积神经网络这种处理方式,可以通过相对简单的算法即可得到较为准确的深度学习模型,降低了运算复杂度,提高了语义分割的准确率。
进一步地,在本发明方法的另一个实施例中,针对商标图形的特殊性,即通常对商标图形的颜色没有特殊要求的情况下,利用训练后的所述深度学习模型,对需进行语义分割的商标图形提取对应的图像特征,还可以通过如下方式实施:
利用训练后的所述深度学习模型,识别需进行语义分割的商标图形的空白区域;
将识别出的所述商标图形中的空白区域去掉,得到处理空白区域后的商标图像;
在不改变所述商标图像比例的情况下,将所述商标图像调整为预设分辨率尺寸的灰度图。
即对需进行语义分割的商标图形进行空白区域的去除以及对整个商标图形进行灰度处理,节约了资源,提高了图像语义分割的处理效率。
本发明还提供一种图像语义分割装置。如图2所示,图2为本发明一实施例提供的图像语义分割装置的内部结构示意图。
在本实施例中,图像语义分割装置1可以是PC(Personal Computer,个人电脑),也可以是智能手机、平板电脑、便携计算机等终端设备。该图像语义分割装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是图像语义分割装置1的内部存储单元,例如该图像语义分割装置1的硬盘。存储器11在另一些实施例中也可以是图像语义分割装置1的外部存储设备,例如图像语义分割装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括图像语义分割装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于图像语义分割装置1的应用软件及各类数据,例如图像语义分割程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行图像语义分割程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在图像语义分割装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及图像语义分割程序01的图像语义分割装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对图像语义分割装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有图像语义分割程序01;处理器12执行存储器11中存储的图像语义分割程序01时实现如下步骤:
采集已公开的商标图形数据并将其作为模型训练的商标训练样本,利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型。
本发明实施例中,由于商标图形的特殊性,因此,在对预设学习模型进行训练时,直接采集已经公开的商标图形数据作为商标训练样本,并利用采集的商标图形数据直接对预设学习模型进行训练,得到满足条件的模型参数,进而根据得到的模型参数,配置预设学习模型,即可得到训练后的深度学习模型。
由于不同的学习模型,针对该学习模型可能采取的具体训练方式也不相同;比如,针对预设分割子模型进行训练时,先对商标训练样本进行标注,然后利用标注的商标训练样本对预设分割子模型进行训练,直至训练结果满足预设收敛条件。或者,针对卷积神经网络进行训练时,输入商标训练样本,利用卷积神经网络构建深度学习模型对应的网络参数,进而根据构建的网络参数,配置得到训练后的深度学习模型等。
本领域技术人员可以理解,不同的学习模型采取的具体训练方式不同,因此,针对该学习模型训练得到的深度学习模型的具体实施方式也不相同,本发明实施例对“利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型”的具体实施方式,不进行一一穷举和限定。
利用训练后的所述深度学习模型,对需进行语义分割的商标图形提取对应的图像特征。
针对提取出的所述图像特征,利用预设概率图模型进行解析,根据解析结果,对所述商标图形中不同的内容主体进行语义分割,得到对应的语义分割结果。
针对需要进行语义分割的商标图形,利用训练好的深度学习模型进行特征提取,得到该商标图形对应的图像特征;针对提取出的图像特征,利用预设概率图模型进行图像特征的解析,将所述商标图形中不同的内容主体进行语义分割,得到对应的语义分割结果。
在一个实施例中,将得到的语义分割结果自动返回至客户端,比如针对商标图形进行语义分割后得到的该商标图形对应的:内容主体、该内容主体对应的图像大小以及该内容主体在所述商标图形中所处的位置等。
本实施例提出的图像语义分割装置,采集已公开的商标图形数据并将其作为模型训练的商标训练样本,利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型;利用训练后的所述深度学习模型,对需进行语义分割的商标图形提取对应的图像特征;针对提取出的所述图像特征,利用预设概率图模型进行解析,根据解析结果,对所述商标图形中不同的内容主体进行语义分割,得到对应的语义分割结果,实现了一种针对商标图形的图像分割方法,使得对商标图形的语义分割更具针对性,提高了语义分割的识别准确率。
进一步地,在本发明方法的另一个实施例中,所述图像语义分割程序还可被所述处理器执行,以在利用采集的商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型,可以通过如下方式实施:
采集已公开的商标图形数据,对采集的所述商标图形数据标注对应的语义分割信息,得到已标注语义分割信息的商标训练样本;其中,所述语义分割信息包括所述商标图形中每个像素对应的物体类别信息。
将已标注语义分割信息的所述商标训练样本分别输入至预设分割子模型中,得到所述商标训练样本对应的包含语义信息的特征图;
将所述特征图与标注的所述语义分割信息同时输入至预设概率图模型中,利用所述概率图模型计算所述商标训练样本包含的每个特征图的权重;
将所述商标训练样本对应的所述特征图,按照所述特征图对应的权重进行融合,得到所述商标训练样本的预测语义分割结果;
根据所述预测语义分割结果以及标注的语义分割信息,对所述预设分割子模型和预设概率图模型的参数进行修正,直至满足预设收敛条件:即所述预测语义分割结果与标注的所述语义分割信息之间的误差小于预设阈值,则得到训练完成的基于所述预设分割子模型的深度学习模型。
其中,本发明实施例中的预设分割子模型包括但不限于:FCN模型、Deep lab模型以及Dilated Net模型等。
进一步地,在本发明实施例中,对预设分割子模型和预设概率图模型的参数进行修正时,可以采用交叉熵损失函数来计算预测语义分割结果与上述标注的所述语义分割信息之间的误差,并利用反向传播的算法,根据预测语义分割结果与标注的语义分割信息之间的误差,更新预设分割子模型和概率图模型的参数,直至上述交叉熵损失函数计算的所述误差的值小于一预设的阈值,或者不断迭代重复执行上述训练步骤的迭代次数达到了一预定值,则表示训练完成,得到基于上述预设分割子模型的深度学习模型。
基于上述这种处理方式,可以得到较为准确的深度学习模型,进而能够对需进行语义分割的商标图形进行准确的特征提取,提高语义分割的准确率。
进一步地,在本发明方法的另一个实施例中,所述图像语义分割程序还可被所述处理器执行,以在利用采集的商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型,还可以通过如下方式实施:
输入所述商标训练样本;
初始化各卷积神经网络以及所述卷积神经网络分别对应的参数;其中,所述卷积神经网络对应的参数包括:卷积神经网络中每个网络层分别对应的权重和偏置;
采用正向传播算法和后向传播算法,利用所述商标训练样本进行学习得出构建所述预设学习模型的网络参数;
根据得到的所述网络参数,配置所述预设学习模型,得到训练后的深度学习模型。
本发明实施例中,所描述的预设深度学习模型中的卷积神经网络包括两个依次串联的卷积神经网络,其中,第一卷积神经网络用于提取商标图形的特征,即对输入的商标训练样本对应的图像或者特征图在二维空间上进行卷积运算,提取上述图像或者特征图的层次化特征,该第一卷积神经网络包括了多个串联的卷积层;第二卷积神经网络包括一个卷积层,用于融合提取出的商标图形的局部特征和全局特征,进而预测该商标图形所属的物体类别,最终输出该商标图形对应的语义分割图。且第一卷积神经网络是在已公开的海量商标图形数据集上预先训练好的,第二卷积神经网络的参数是随机初始化的。
其中,针对融合提取出的商标图形的局部特征和全局特征的处理方式,可以采取如下方式实施:
对所述商标训练样本对应的每个特征图,均从该特征图的每个语义分割元素的维度去和该维度相应的权重相乘;再针对所有的特征图,将上述相乘结果按照对应的元素进行求和,并从求和结果中选取最大值所在的标号作为所述训练图像的预测语义分割结果。其中,所述语义分割元素是通过所述特征图中的语义信息中得到的。
基于卷积神经网络这种处理方式,可以通过相对简单的算法即可得到较为准确的深度学习模型,降低了运算复杂度,提高了语义分割的准确率。
进一步地,在本发明方法的另一个实施例中,针对商标图形的特殊性,即通常对商标图形的颜色没有特殊要求的情况下,所述图像语义分割程序还可被所述处理器执行,以在利用训练后的所述深度学习模型,对需进行语义分割的商标图形提取对应的图像特征,还可以通过如下方式实施:
利用训练后的所述深度学习模型,识别需进行语义分割的商标图形的空白区域;
将识别出的所述商标图形中的空白区域去掉,得到处理空白区域后的商标图像;
在不改变所述商标图像比例的情况下,将所述商标图像调整为预设分辨率尺寸的灰度图。
即对需进行语义分割的商标图形进行空白区域的去除以及对整个商标图形进行灰度处理,节约了资源,提高了图像语义分割的处理效率。
可选地,在其他实施例中,图像语义分割程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述图像语义分割程序在图像语义分割装置中的执行过程。
例如,如图3所示,图3为本发明图像语义分割装置一实施例中的图像语义分割程序的程序模块示意图,在图3所示的实施例中,图像语义分割程序01可以被分割为模型训练模块10、特征提取模块20和语义分割模块30,示例性地:
模型训练模块10用于:采集已公开的商标图形数据并将其作为模型训练的商标训练样本,利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型;
特征提取模块20用于:利用训练后的所述深度学习模型,对需进行语义分割的商标图形提取对应的图像特征;
语义分割模块30,用于:针对提取出的所述图像特征,利用预设概率图模型进行解析,根据解析结果,对所述商标图形中不同的内容主体进行语义分割,得到对应的语义分割结果。
上述模型训练模块10、特征提取模块20和语义分割模块30等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有图像语义分割程序,所述图像语义分割程序可被一个或多个处理器执行,以实现如下操作:
采集已公开的商标图形数据并将其作为模型训练的商标训练样本,利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型;
利用训练后的所述深度学习模型,对需进行语义分割的商标图形提取对应的图像特征;
针对提取出的所述图像特征,利用预设概率图模型进行解析,根据解析结果,对所述商标图形中不同的内容主体进行语义分割,得到对应的语义分割结果。
本发明计算机可读存储介质具体实施方式与上述图像语义分割装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种图像语义分割方法,其特征在于,所述方法包括:
采集已公开的商标图形数据并将其作为模型训练的商标训练样本,利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型;
利用训练后的所述深度学习模型,对需进行语义分割的商标图形提取对应的图像特征,包括:利用训练后的所述深度学习模型,识别需进行语义分割的商标图形的空白区域,将识别出的所述商标图形中的空白区域去掉,得到处理空白区域后的商标图像,在不改变所述商标图像比例的情况下,将所述商标图像调整为预设分辨率尺寸的灰度图,得到所述图像特征;
针对提取出的所述图像特征,利用预设概率图模型进行解析,根据解析结果,对所述商标图形中不同的内容主体进行语义分割,得到对应的语义分割结果,所述语义分割结果包括:分割后所述商标图形对应的内容主体、所述内容主体的大小以及所述内容主体在所述商标图形中所处的位置。
2.如权利要求1所述的图像语义分割方法,其特征在于,所述采集已公开的商标图形数据并将其作为模型训练的商标训练样本,利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型,包括:
采集已公开的商标图形数据,对采集的所述商标图形数据标注对应的语义分割信息,得到已标注语义分割信息的商标训练样本;
将已标注语义分割信息的所述商标训练样本分别输入至预设分割子模型中,得到所述商标训练样本对应的包含语义信息的特征图;
将所述特征图与标注的所述语义分割信息同时输入至预设概率图模型中,利用所述概率图模型计算所述商标训练样本包含的每个特征图的权重;
将所述商标训练样本对应的所述特征图,按照所述特征图分别对应的权重进行融合,得到所述商标训练样本的预测语义分割结果;
根据所述预测语义分割结果以及标注的语义分割信息,对所述预设分割子模型和预设概率图模型的参数进行修正,直至所述预测语义分割结果与标注的所述语义分割信息之间的误差小于预设阈值,则得到训练完成的基于所述预设分割子模型的深度学习模型。
3.如权利要求1所述的图像语义分割方法,其特征在于,所述利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型,包括:
输入所述商标训练样本;
初始化各卷积神经网络以及所述卷积神经网络分别对应的参数;其中,所述卷积神经网络对应的参数包括:卷积神经网络中每个网络层分别对应的权重和偏置;
采用正向传播算法和后向传播算法,利用所述商标训练样本进行学习得出构建所述预设学习模型的网络参数;
根据得到的所述网络参数,配置所述预设学习模型,得到训练后的深度学习模型。
4.一种图像语义分割装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的图像语义分割程序,所述图像语义分割程序被所述处理器执行时实现如下步骤:
采集已公开的商标图形数据并将其作为模型训练的商标训练样本,利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型;
利用训练后的所述深度学习模型,对需进行语义分割的商标图形提取对应的图像特征,包括:利用训练后的所述深度学习模型,识别需进行语义分割的商标图形的空白区域,将识别出的所述商标图形中的空白区域去掉,得到处理空白区域后的商标图像,在不改变所述商标图像比例的情况下,将所述商标图像调整为预设分辨率尺寸的灰度图,得到所述图像特征;
针对提取出的所述图像特征,利用预设概率图模型进行解析,根据解析结果,对所述商标图形中不同的内容主体进行语义分割,得到对应的语义分割结果,所述语义分割结果包括:分割后所述商标图形对应的内容主体、所述内容主体的大小以及所述内容主体在所述商标图形中所处的位置。
5.如权利要求4所述的图像语义分割装置,其特征在于,所述图像语义分割程序还可被所述处理器执行,以在采集已公开的商标图形数据并将其作为模型训练的商标训练样本,利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型,包括:
采集已公开的商标图形数据,对采集的所述商标图形数据标注对应的语义分割信息,得到已标注语义分割信息的商标训练样本;
将已标注语义分割信息的所述商标训练样本分别输入至预设分割子模型中,得到所述商标训练样本对应的包含语义信息的特征图;
将所述特征图与标注的所述语义分割信息同时输入至预设概率图模型中,利用所述概率图模型计算所述商标训练样本包含的每个特征图的权重;
将所述商标训练样本对应的所述特征图,按照所述特征图分别对应的权重进行融合,得到所述商标训练样本的预测语义分割结果;
根据所述预测语义分割结果以及标注的语义分割信息,对所述预设分割子模型和预设概率图模型的参数进行修正,直至所述预测语义分割结果与标注的所述语义分割信息之间的误差小于预设阈值,则得到训练完成的基于所述预设分割子模型的深度学习模型。
6.如权利要求4所述的图像语义分割装置,其特征在于,所述图像语义分割程序还可被所述处理器执行,以在利用采集的所述商标训练样本对预设学习模型进行训练,得到训练后的深度学习模型,包括:
输入所述商标训练样本;
初始化各卷积神经网络以及所述卷积神经网络分别对应的参数;其中,所述卷积神经网络对应的参数包括:卷积神经网络中每个网络层分别对应的权重和偏置;
采用正向传播算法和后向传播算法,利用所述商标训练样本进行学习得出构建所述预设学习模型的网络参数;
根据得到的所述网络参数,配置所述预设学习模型,得到训练后的深度学习模型。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有图像语义分割程序,所述图像语义分割程序可被一个或者多个处理器执行,以实现如权利要求1至3中任一项所述的图像语义分割方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910167586.3A CN110020653B (zh) | 2019-03-06 | 2019-03-06 | 图像语义分割方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910167586.3A CN110020653B (zh) | 2019-03-06 | 2019-03-06 | 图像语义分割方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110020653A CN110020653A (zh) | 2019-07-16 |
CN110020653B true CN110020653B (zh) | 2024-06-28 |
Family
ID=67189323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910167586.3A Active CN110020653B (zh) | 2019-03-06 | 2019-03-06 | 图像语义分割方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110020653B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634190B (zh) * | 2019-09-24 | 2024-08-13 | 上海汽车集团股份有限公司 | 一种涂胶检测方法及装置 |
CN110766007B (zh) * | 2019-10-28 | 2023-09-22 | 深圳前海微众银行股份有限公司 | 证件遮挡检测方法、装置、设备及可读存储介质 |
CN110930417B (zh) * | 2019-11-26 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 图像分割模型的训练方法和装置、图像分割方法和装置 |
CN113496442A (zh) * | 2020-03-19 | 2021-10-12 | 荷盛崧钜智财顾问股份有限公司 | 图表征产生系统,图表征产生方法与其图表征智能模块 |
CN111950605A (zh) * | 2020-07-28 | 2020-11-17 | 北京恒通智控机器人科技有限公司 | 表计识别模型的学习方法、装置、设备和表计识别方法 |
CN112307943B (zh) * | 2020-10-29 | 2022-06-03 | 宁波海棠信息技术有限公司 | 一种水域人船目标检测方法、系统、终端及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017180072A1 (en) * | 2016-04-14 | 2017-10-19 | Ader Bilgisayar Hizmetleri Ve Ticaret A.S. | Content based search and retrieval of trademark images |
CN108345887A (zh) * | 2018-01-29 | 2018-07-31 | 清华大学深圳研究生院 | 图像语义分割模型的训练方法及图像语义分割方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462380A (zh) * | 2014-12-11 | 2015-03-25 | 北京中细软移动互联科技有限公司 | 商标检索方法 |
US9972092B2 (en) * | 2016-03-31 | 2018-05-15 | Adobe Systems Incorporated | Utilizing deep learning for boundary-aware image segmentation |
WO2018035805A1 (en) * | 2016-08-25 | 2018-03-01 | Intel Corporation | Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation |
-
2019
- 2019-03-06 CN CN201910167586.3A patent/CN110020653B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017180072A1 (en) * | 2016-04-14 | 2017-10-19 | Ader Bilgisayar Hizmetleri Ve Ticaret A.S. | Content based search and retrieval of trademark images |
CN108345887A (zh) * | 2018-01-29 | 2018-07-31 | 清华大学深圳研究生院 | 图像语义分割模型的训练方法及图像语义分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110020653A (zh) | 2019-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020653B (zh) | 图像语义分割方法、装置及计算机可读存储介质 | |
CN110033018B (zh) | 图形相似度判断方法、装置及计算机可读存储介质 | |
CN112434721B (zh) | 一种基于小样本学习的图像分类方法、系统、存储介质及终端 | |
JP6843086B2 (ja) | 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体 | |
CN110532884B (zh) | 行人重识别方法、装置及计算机可读存储介质 | |
CN111160434B (zh) | 目标检测模型的训练方法、装置及计算机可读存储介质 | |
CN107944450B (zh) | 一种车牌识别方法及装置 | |
CN113283446B (zh) | 图像中目标物识别方法、装置、电子设备及存储介质 | |
CN110008997B (zh) | 图像纹理相似度识别方法、装置及计算机可读存储介质 | |
CN110780965B (zh) | 基于视觉的流程自动化方法、设备及可读存储介质 | |
CN113095475A (zh) | 一种神经网络的训练方法、图像处理方法以及相关设备 | |
CN110135889A (zh) | 智能推荐书单的方法、服务器及存储介质 | |
US20230334893A1 (en) | Method for optimizing human body posture recognition model, device and computer-readable storage medium | |
CN114049568B (zh) | 基于图像比对的标的物形变检测方法、装置、设备及介质 | |
CN111414916A (zh) | 图像中文本内容提取生成方法、装置及可读存储介质 | |
CN112749653A (zh) | 行人检测方法、装置、电子设备及存储介质 | |
WO2024060684A1 (zh) | 模型训练方法、图像处理方法、设备及存储介质 | |
CN112307994A (zh) | 基于扫地机的障碍物识别方法、电子装置及存储介质 | |
CN114155395A (zh) | 图像分类方法、装置、电子装置和存储介质 | |
CN116311214B (zh) | 车牌识别方法和装置 | |
CN110705547B (zh) | 图像内文字识别方法、装置及计算机可读存储介质 | |
CN113159315A (zh) | 一种神经网络的训练方法、数据处理方法以及相关设备 | |
CN112016617A (zh) | 细粒度分类方法、装置及计算机可读存储介质 | |
CN114220536A (zh) | 基于机器学习的疾病分析方法、装置、设备及存储介质 | |
CN111639523B (zh) | 目标检测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |