CN114973226A - 自监督对比学习自然场景中文本识别系统训练方法 - Google Patents
自监督对比学习自然场景中文本识别系统训练方法 Download PDFInfo
- Publication number
- CN114973226A CN114973226A CN202210532609.8A CN202210532609A CN114973226A CN 114973226 A CN114973226 A CN 114973226A CN 202210532609 A CN202210532609 A CN 202210532609A CN 114973226 A CN114973226 A CN 114973226A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- positive
- training
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000006870 function Effects 0.000 claims abstract description 68
- 239000013598 vector Substances 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/76—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries based on eigen-space representations, e.g. from pose or different illumination conditions; Shape manifolds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种自监督对比学习自然场景中文本识别系统训练方法,将图像正负样本中的文本标签作为文本标签正负样本,送入文本编码器中进行对比学习,作为图像编码器的辅助训练学习,再采用图像正负样本中提取的图像特征和文本标签正负样本中提取的文本特征组成特征对,分别计算图像‑文本损失和文本‑图像损失,将正样本图像‑文本对的两个损失的加权组合最小为目标对系统进行训练,最终获得图像编码器中参数化的图像编码器函数。采用自然图像文本与文本的正负样本集同时进行识别训练,获得具有对自然场景中文本对比学习能力的识别模型,训练后模型可对自然场景中文本进行检测识别,大大降低对有标注数据集的依赖程度。
Description
技术领域
本发明涉及一种文本检测与识别技术,特别涉及一种自监督对比学习自然场景中文本识别系统训练方法。
背景技术
深度学习的成功往往依赖于海量数据的支持,其中监督学习技术成熟,但是对海量的数据进行标注需要花费大量的时间和资源,自然场景文本检测与识别领域也不例外。而无监督学习不需要对数据标签产生依赖,可以自动发现数据中潜在的结构,节省了大量时间以及硬件资源。因此学术界以及工业界对无监督学习算法的投入与研究越来越多。
对比学习作为无监督学习中的一种,着重于学习同类实例之间的共同特征,区分非同类实例之间的不同之处。与生成式学习相比,对比式学习不需要关注实例上繁琐的细节,只需要在抽象语义级别的特征空间上学会对数据的区分即可,因此模型以及其优化变得更加简单,且泛化能力更强。对比学习的目标是学习一个编码器,此编码器对同类数据进行相似的编码,并使不同类的数据的编码结果尽可能的不同。
基于自监督对比学习的文本检测与识别方法,可分为以下五个部分:(1)数据增强流程;(2)编码器;(3)表征提取;(4)相似性度量;(5)损失函数。假设D={x1,x2,...,xN}是一个大小为N的无标记数据集,对比学习的前提条件是所有实例都单独归为一类,即数据集D共有N个类别标签。为了构建更多的同类数据样本,需要从相同的数据样本x∈D中生成两个特征(vα,v+),其中vα定义为锚特征(anchor feature),v+定义为正例特征(positivefeature)。同样地,为了构建不同类数据样本,从不同的数据样本x'生成负例特征v-。根据任务的实际情况,上述三个特征可以是向量或者是多维张量下面从五个部分进行展开描述:
数据增强流程:在自然场景文本检测与识别任务中,数据增强流程的目的是生成用于对比学习的锚、正例以及负例特征,即APN特征。将αn定义为一个随机自然场景文本图像增强处理,例如随机翻转和随机通道丢弃。随后,即可将A=(α1,α2,...,αN)定义为按顺序应用这些增强方式的流程。可以将A应用于x来生成一个新的自然场景文本图像数据样本xi,xi保留了x的本质上的特征。该策略提供了一种用来生成由样本x定义的同一个类别的多个样本。换句话说,可以将x作为监督信号。
对于生成自然场景文本图像的锚特征和正例特征,可供选择的方法不计其数。其中一种生成vα和v+的方法是从相同的特征向量采样两个子集,此时vα、v+∈vx(vx为样本x的特征全集)。第二种方法是对相同的输入,经过两次A,此时vα~A(x),由于A的随机性,该方法将生成两个不同的特征集。同样地,负例特征v-~A(x')通过一样的处理方式得到,不同的是基于样本x'。
编码器:将fθ定义为一个用θ参数化的编码器,该自然场景文本图像编码器可以是任何函数的近似,例如全连接或卷积神经网络。编码器将输入v映射为向量r的集合,向量r的集合可以称其为x的表示。当x为图像,输入通道为s,宽度为w,高度为h时,编码器fθ则进行如下映射:换句话说,自然场景文本图像编码器返回k个c维特征向量作为输入的表示。当编码器是一个卷积神经网络时,r是一个特征图m的向量集合,其中
表征提取:为了进行自然场景文本图像对比学习,需要提取可以相互比较的表征。令rα=fθ(vα)为锚表征、r+=fθ(v+)为正例表征、r-=fθ(v-)为负例表征。表征由应用于v·的编码器或编码器序列中提取得到。有许多方法可以执行表征提取,其中一种方法是对于任意一个表征生成一个单独的d维向量作为编码器的最后输出。另一种方法是为每一个表征输出一个矩阵,并将rα的一个子集与r-的一个子集进行比较,从而生成多个负例得分。
相似性度量:令φ(ra,rb)度量自然场景文本图像两种表征ra和rb之间的相似性。该函数输出一个标量得分S,用于度量ra和rb之间的相似性。举例来说,相似性度量有点积、余弦相似度或双线性变换,如在该情况下,φ有其独立的参数W。
损失函数:将S+=φ(rα,r+)作为自然场景文本图像正例得分,S-=φ(rα,r-)作为负例得分。将损失函数定义为反映学习进度的正负得分的组合。最小化这个损失函数对应于最大化正例得分和最小化负例得分。目前,广泛使用的损失函数有:负例对比估计损失、Triplet Loss以及InfoNCE。
目前,大部分文本检测与识别方法是基于有监督学习,该类方法极大程度上依赖于海量的自然场景文本数据,并且这些数据集无法覆盖千变万化的实际场景,导致实际应用时无法达到理想的精度。虽然有学者提出基于弱监督学习的文本识别方法,但只能用于虚拟数据集的训练中,无法适用于真实场景文本数据集。此外,目前尚未有相关学者基于对比式学习对文本识别任务展开相关研究。
对比学习作为自监督学习方法中的一种重要研究方法,最近在计算机视觉领域中有许多很成功的研究工作。在对比学习任务中,目标是生成实例的表示,使相似的实例彼此接近,而远离不相似的实例。在监督学习中,实例之间的相似性则是由标签决定。然而,如果没有标签,我们必须寻求一种新的方法来利用隐含在实例中的相似性。对比学习应运而生,通过从未标记的数据集生成锚点、正样本和负样本来表示样本间的相似性。
目前,自然场景文本检测与识别需要大量的人工标注,使得成本十分高昂,如何仍然是一个待解决的开放性问题。
发明内容
针对自然场景文本检测与识别算法依赖于大量有标注数据集的问题,提出了一种自监督对比学习自然场景中文本识别系统训练方法,采用自然图像文本与文本的正负样本集同时进行识别训练,获得具有对自然场景中文本对比学习能力的识别模型,训练后模型可对自然场景中文本进行检测识别,大大降低对有标注数据集的依赖程度。
本发明的技术方案为:一种自监督对比学习自然场景中文本识别系统训练方法,具体包括如下步骤:
1)图像正负样本:采用公开图像数据集,选取一张自然场景文本图像进行经过图像增强处理后,获得同类多个样本作为图像正样本,其他自然场景文本图像经过图像增强处理扩充样本后作为图像负样本;
2)文本标签正负样本:步骤1)图像正样本对应的文本标签进行文本增强处理后,获得同类多个样本作为文本标签正样本,步骤1)中图像负样本对应的文本标签进行文本增强处理扩充样本后作为文本负样本;
3)步骤1)获得的图像正负样本送入图像编码器进行特征向量提取,步骤2)获得的文本标签正负样本送入文本编码器进行特征向量提取;
4)步骤3)图像编码器输出的特征向量与文本编码器输出的特征向量作为向量对进行相似度计算,分别获得图像-文本损失和文本-图像损失,将正样本图像-文本对的两个损失的加权组合最小为目标对系统进行训练,最终获得图像编码器中参数化的图像编码器函数,用于对自然场景文本图像中文本特征进行提取。
进一步,所述步骤1)中图像增强处理为:对于一张自然场景文本图像,经过图像增强函数tv,tv为一个随机变换函数,自然场景文本图像增强处理后,获得m张增强处理后自然场景文本图像,处理后图像保留原图本质上的特征。
进一步,所述步骤3)具体实现方法:增强后的图像正负样本经过图像编码器函数fv后得到d维特征向量hv作为图像编码器的最后输出,同样地,增强后的文本标签正负样本经过文本编码器函数fu后得到d维特征向量hu作为文本编码器的最后输出;
得到hv和hu之后,为了避免模型在训练过程中出现过拟合现象,对hv和hu均采取非线性转化,将hv输入非线性投影函数gv,从而得到特征向量v作为gv的输出:
将hu输入非线性投影函数gu,从而得到特征向量u作为gu的输出:
gv和gu属于两个不同模态的投影函数,分别从它们的编码器空间投影到相同的d维空间进行对比学习。
进一步,所述步骤4)中损失计算方法:在训练时,从训练数据中抽取一个小批量的N个图像-文本输入对(xv,xu),并计算它们的特征向量对(v,u),用(vi,ui)表示第i对特征向量对,训练目标包含两个损失函数计算,第一个损失函数是第i对图像-文本对比损失为:
其中,<vi,ui>表示余弦相似度,即<vi,ui>=vTu/||v||||u||,用来度量vi和ui两者的相似性,表示温度系数,作为调节余弦相似度权重的超参数,第二个损失函数是第i对文本-图像对比损失为:
最终训练损失定义为对每个小批次处理中所有正例图像-文本对的两个损失的加权组合,选择所有小批次损失函数的平均值作为最终训练损失:
其中,λ∈[0,1]是标量权重。
进一步,所述文本编码器中文本编码器函数fu参与文本标签正负样本对比学习,通过两个损失函数的加权计算,辅助训练图像编码器函数,提升文本识别精度。
一种自监督对比学习自然场景中文本识别系统中图像编码器训练方法,将图像正负样本中的文本标签作为文本标签正负样本,送入文本编码器中进行对比学习,作为图像编码器的辅助训练学习,再采用图像正负样本中提取的图像特征和文本标签正负样本中提取的文本特征组成特征对,分别计算图像-文本损失和文本-图像损失,将正样本图像-文本对的两个损失的加权组合最小为目标对系统进行训练,最终获得图像编码器中参数化的图像编码器函数。
本发明的有益效果在于:本发明自监督对比学习自然场景中文本识别系统训练方法,解决了现有图像数据中文本识别模型对有标注数据集高度依赖的问题。
附图说明
图1为本发明基于自监督对比学习的自然场景文本检测与识别系统运用示意图;
图2为本发明基于自监督对比学习的自然场景文本检测与识别训练具体实现图;
图3为本发明中正负样本示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
图1基基于自监督对比学习的自然场景文本检测与识别系统运用示意图。相机捕获自然场景文本图像,送入训练后自然场景文本检测与识别模型,对输入的自然场景文本图像进行推理预测,识别出自然场景文本图像中的文本。
如图2所示基于自监督对比学习的自然场景文本检测与识别训练具体实现图,输入为公开数据集,分为两部分,分别是n张自然场景文本图像样本xv和对应图像中的n个文本标签样本xu。对于每一张自然场景文本图像,都会经过图像增强函数tv,tv为一个随机自然场景文本图像增强处理,例如随机翻转和随机通道丢弃,从而自然场景文本图像样本xv增强处理后得到n×m张自然场景文本图像样本保留了xv的本质上的特征。该策略为提供了一种用来生成由一个图像样本扩充为同一个类别的多个样本,即被称为图像正样本,与此同时,其余的所有文本图像扩充后样本均作为该图像的负样本,如图3所示正负样本示意图。同样地,对于每一个文本标签,都会经过文本增强函数tu,tu为一个随机文本增强处理,从而文本标签样本集xu增强处理后得到n×m个文本标签保留了xu的本质上的特征。该策略提供了一种用来生成由图像正样本对应的文本标签扩充为同一个类别的多个样本,即被称为标签正样本,与此同时,其余的所有文本标签扩充后文本标签样本作为该标签的负样本。通常情况下,只需要对图像进行增强处理即可得到对比学习所需的正负样本,本发明中同时也对文本标签进行增强处理,获取文本标签的正负样本,使得最终训练得到更鲁棒的模型,同时也充分利用公开数据集中的标签信息,提高了数据的利用效率。
随后,将增强后的图像样本输入图像编码器函数fv,将增强后的文本标签输入文本编码器函数fu。图像编码器函数fv和文本编码器函数fu均为参数化的编码器,可以是任何函数的近似,例如全连接或卷积神经网络。模型训练的目标是学习一个参数化的图像编码器函数fv,文本编码器函数fu也会在训练过程中学习得到,但是在训练结束后的推理过程中不需要用到文本编码器函数fu,换句话说,文本编码器函数fu是为了辅助训练一个更鲁棒的图像编码器函数fv。增强后的图像样本经过图像编码器函数fv后得到d维特征向量hv作为图像编码器的最后输出,同样地,增强后的文本标签经过文本编码器函数fu后得到d维特征向量hu作为文本编码器的最后输出。
得到hv和hu之后,为了避免模型在训练过程中出现过拟合现象,对hv和hu均采取非线性转化,具体地说,将hv输入非线性投影函数gv,从而得到特征向量v作为gv的输出:
类似地,将hu输入非线性投影函数gu,从而得到特征向量u作为gu的输出:
gv和gu属于两个不同模态的投影函数,分别从它们的编码器空间投影到相同的d维空间进行对比学习。
在训练时,从训练数据中抽取一个小批量的N个图像-文本输入对(xv,xu),并计算它们的特征向量对(v,u)。用(vi,ui)表示第i对特征向量对。训练目标包含两个损失函数计算。第一个损失函数是第i对图像-文本对比损失:
其中,<vi,ui〉表示余弦相似度,即<vi,ui〉=vTu/||v||||u||,用来度量vi和ui两者的相似性。此外,表示温度系数,作为调节余弦相似度权重的超参数。这种损失函数的形式与InfoNCE损失相同,最小化这种损失将导致编码器在表示函数下最大限度地保留正例对之间的互信息。直观地说,这是N路分类器的log损失,它试图预测(vi,ui)为正例对。值得注意的是,与之前使用相同模态输入之间的对比损失的工作不同,图像-文本对比损失对于每个输入对是不对称的模式。因此,将类似的第二个损失函数是第i对文本-图像对比损失定义为:
然后,最终训练损失定义为对每个小批次处理中所有正例图像-文本对的两个损失的加权组合,选择所有小批次损失函数的平均值作为最终训练损失:
其中,λ∈[0,1]是标量权重。值得注意的是,通过构造两个损失的加权组合,实现了显式上计算正例对的损失,隐式中使得模型学会分辨负例样本之间的区别。最小化这个损失函数对应于最大化正例得分和最小化负例得分,从而大幅提高模型辨别正负样本的能力,最终提升在推理过程中对自然场景文本图像中的文本的识别精度。
在本发明的实施例中,对评估结果考察精度和准确度时,通常采用数学统计中的均方误差方法,而结果实用性差。本发明提出了新的结果考察方法,能够实现像素级评价指标来评估输出结果,从而极大解决了实际问题中的评估不可靠性和准确度,验证了本系统的实际应用性。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种自监督对比学习自然场景中文本识别系统训练方法,其特征在于,具体包括如下步骤:
1)图像正负样本:采用公开图像数据集,选取一张自然场景文本图像进行经过图像增强处理后,获得同类多个样本作为图像正样本,其他自然场景文本图像经过图像增强处理扩充样本后作为图像负样本;
2)文本标签正负样本:步骤1)图像正样本对应的文本标签进行文本增强处理后,获得同类多个样本作为文本标签正样本,步骤1)中图像负样本对应的文本标签进行文本增强处理扩充样本后作为文本负样本;
3)步骤1)获得的图像正负样本送入图像编码器进行特征向量提取,步骤2)获得的文本标签正负样本送入文本编码器进行特征向量提取;
4)步骤3)图像编码器输出的特征向量与文本编码器输出的特征向量作为向量对进行相似度计算,分别获得图像-文本损失和文本-图像损失,将正样本图像-文本对的两个损失的加权组合最小为目标对系统进行训练,最终获得图像编码器中参数化的图像编码器函数,用于对自然场景文本图像中文本特征进行提取。
2.根据权利要求1所述自监督对比学习自然场景中文本识别系统训练方法,其特征在于,所述步骤1)中图像增强处理为:对于一张自然场景文本图像,经过图像增强函数tv,tv为一个随机变换函数,自然场景文本图像增强处理后,获得m张增强处理后自然场景文本图像,处理后图像保留原图本质上的特征。
3.根据权利要求1所述自监督对比学习自然场景中文本识别系统训练方法,其特征在于,所述步骤3)具体实现方法:增强后的图像正负样本经过图像编码器函数fv后得到d维特征向量hv作为图像编码器的最后输出,同样地,增强后的文本标签正负样本经过文本编码器函数fu后得到d维特征向量hu作为文本编码器的最后输出;
得到hv和hu之后,为了避免模型在训练过程中出现过拟合现象,对hv和hu均采取非线性转化,将hv输入非线性投影函数gv,从而得到特征向量v作为gv的输出:
将hu输入非线性投影函数gu,从而得到特征向量u作为gu的输出:
gv和gu属于两个不同模态的投影函数,分别从它们的编码器空间投影到相同的d维空间进行对比学习。
4.根据权利要求3所述自监督对比学习自然场景中文本识别系统训练方法,其特征在于,所述步骤4)中损失计算方法:在训练时,从训练数据中抽取一个小批量的N个图像-文本输入对(xv,xu),并计算它们的特征向量对(v,u),用(vi,ui)表示第i对特征向量对,训练目标包含两个损失函数计算,第一个损失函数是第i对图像-文本对比损失为:
其中,<vi,ui>表示余弦相似度,即<vi,ui>=vTu/||v||||u||,用来度量vi和ui两者的相似性,表示温度系数,作为调节余弦相似度权重的超参数,第二个损失函数是第i对文本-图像对比损失为:
最终训练损失定义为对每个小批次处理中所有正例图像-文本对的两个损失的加权组合,选择所有小批次损失函数的平均值作为最终训练损失:
其中,λ∈[0,1]是标量权重。
5.根据权利要求4所述自监督对比学习自然场景中文本识别系统训练方法,其特征在于,所述文本编码器中文本编码器函数fu参与文本标签正负样本对比学习,通过两个损失函数的加权计算,辅助训练图像编码器函数,提升文本识别精度。
6.一种自监督对比学习自然场景中文本识别系统中图像编码器训练方法,其特征在于,将图像正负样本中的文本标签作为文本标签正负样本,送入文本编码器中进行对比学习,作为图像编码器的辅助训练学习,再采用图像正负样本中提取的图像特征和文本标签正负样本中提取的文本特征组成特征对,分别计算图像-文本损失和文本-图像损失,将正样本图像-文本对的两个损失的加权组合最小为目标对系统进行训练,最终获得图像编码器中参数化的图像编码器函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210532609.8A CN114973226B (zh) | 2022-05-13 | 2022-05-13 | 自监督对比学习自然场景中文本识别系统训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210532609.8A CN114973226B (zh) | 2022-05-13 | 2022-05-13 | 自监督对比学习自然场景中文本识别系统训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114973226A true CN114973226A (zh) | 2022-08-30 |
CN114973226B CN114973226B (zh) | 2024-09-24 |
Family
ID=82982426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210532609.8A Active CN114973226B (zh) | 2022-05-13 | 2022-05-13 | 自监督对比学习自然场景中文本识别系统训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114973226B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115495712A (zh) * | 2022-09-28 | 2022-12-20 | 支付宝(杭州)信息技术有限公司 | 数字作品处理方法及装置 |
CN116631566A (zh) * | 2023-05-23 | 2023-08-22 | 重庆邮电大学 | 一种基于大数据的医学影像报告智能生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020248471A1 (zh) * | 2019-06-14 | 2020-12-17 | 华南理工大学 | 一种基于集聚交叉熵损失函数的序列识别方法 |
CN113836298A (zh) * | 2021-08-05 | 2021-12-24 | 合肥工业大学 | 基于视觉增强的文本分类方法和系统 |
CN114090815A (zh) * | 2021-11-12 | 2022-02-25 | 海信电子科技(武汉)有限公司 | 一种图像描述模型的训练方法及训练装置 |
CN114283162A (zh) * | 2021-12-27 | 2022-04-05 | 河北工业大学 | 基于对比自监督学习的现实场景图像分割方法 |
-
2022
- 2022-05-13 CN CN202210532609.8A patent/CN114973226B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020248471A1 (zh) * | 2019-06-14 | 2020-12-17 | 华南理工大学 | 一种基于集聚交叉熵损失函数的序列识别方法 |
CN113836298A (zh) * | 2021-08-05 | 2021-12-24 | 合肥工业大学 | 基于视觉增强的文本分类方法和系统 |
CN114090815A (zh) * | 2021-11-12 | 2022-02-25 | 海信电子科技(武汉)有限公司 | 一种图像描述模型的训练方法及训练装置 |
CN114283162A (zh) * | 2021-12-27 | 2022-04-05 | 河北工业大学 | 基于对比自监督学习的现实场景图像分割方法 |
Non-Patent Citations (1)
Title |
---|
刁海文: "基于跨模态交互的图像文本匹配方法", 《硕士电子期刊》, 31 January 2022 (2022-01-31) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115495712A (zh) * | 2022-09-28 | 2022-12-20 | 支付宝(杭州)信息技术有限公司 | 数字作品处理方法及装置 |
CN115495712B (zh) * | 2022-09-28 | 2024-04-16 | 支付宝(杭州)信息技术有限公司 | 数字作品处理方法及装置 |
CN116631566A (zh) * | 2023-05-23 | 2023-08-22 | 重庆邮电大学 | 一种基于大数据的医学影像报告智能生成方法 |
CN116631566B (zh) * | 2023-05-23 | 2024-05-24 | 广州合昊医疗科技有限公司 | 一种基于大数据的医学影像报告智能生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114973226B (zh) | 2024-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Boughida et al. | A novel approach for facial expression recognition based on Gabor filters and genetic algorithm | |
CN110866140A (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
CN109255289B (zh) | 一种基于统一式生成模型的跨衰老人脸识别方法 | |
CN112232184B (zh) | 一种基于深度学习和空间转换网络的多角度人脸识别方法 | |
CN115731441A (zh) | 基于数据跨模态迁移学习的目标检测和姿态估计方法 | |
Wang et al. | Advanced Multimodal Deep Learning Architecture for Image-Text Matching | |
CN113988215B (zh) | 一种配电网计量柜状态检测方法及系统 | |
CN114973226A (zh) | 自监督对比学习自然场景中文本识别系统训练方法 | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
CN110598022B (zh) | 一种基于鲁棒深度哈希网络的图像检索系统与方法 | |
Praseetha et al. | Secure fingerprint authentication using deep learning and minutiae verification | |
Zhu et al. | Feature distilled tracking | |
Wang et al. | Graph-based safe support vector machine for multiple classes | |
US20230186600A1 (en) | Method of clustering using encoder-decoder model based on attention mechanism and storage medium for image recognition | |
El Alami et al. | Efficient color face recognition based on quaternion discrete orthogonal moments neural networks | |
CN118196428B (zh) | 一种用于组合零次学习的视觉属性表征学习方法 | |
Elbarawy et al. | Facial expressions recognition in thermal images based on deep learning techniques | |
CN118093911A (zh) | 用于医学图像检索目标攻击的模糊Transformer哈希方法 | |
Ma et al. | Bottleneck feature extraction-based deep neural network model for facial emotion recognition | |
Mahesh et al. | Zernike moments and machine learning based gender classification using facial images | |
CN117154256A (zh) | 锂电池的电化学修复方法 | |
Shawon et al. | Bengali handwritten digit recognition using cnn with explainable ai | |
Li et al. | Deep convolutional neural network for real and fake face discrimination | |
Golchha et al. | Quantum-enhanced support vector classifier for image classification | |
Huang et al. | Age-puzzle facenet for cross-age face recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |