CN113723352A - 一种文本检测方法、系统、存储介质及电子设备 - Google Patents
一种文本检测方法、系统、存储介质及电子设备 Download PDFInfo
- Publication number
- CN113723352A CN113723352A CN202111069214.0A CN202111069214A CN113723352A CN 113723352 A CN113723352 A CN 113723352A CN 202111069214 A CN202111069214 A CN 202111069214A CN 113723352 A CN113723352 A CN 113723352A
- Authority
- CN
- China
- Prior art keywords
- feature map
- inputting
- attention
- text
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 80
- 238000012545 processing Methods 0.000 claims abstract description 93
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000010586 diagram Methods 0.000 claims description 46
- 238000011176 pooling Methods 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 23
- 230000003321 amplification Effects 0.000 claims description 10
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 10
- 230000006835 compression Effects 0.000 claims description 8
- 238000007906 compression Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 238000005549 size reduction Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000007670 refining Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种文本检测方法、系统、存储介质及电子设备,可应用于人工智能领域或金融领域。其中,方法包括:采用注意力金字塔网络模型对待检测图像进行特征提取,得到注意力金字塔特征图;采用区域建议网络对注意力金字塔特征图进行候选框选取,得到文本候选框;将注意力金字塔特征图和候选框的位置信息输入Faster R‑CNN模型进行候选框分类预测处理,以判断文本候选框所框选的区域是否为文本区域,得到文本检测结果。本发明通过注意力金字塔网络模型对待检测图像中的文本进行显著性检测,在突出文本的同时抑制背景信息,进而减少背景带来的干扰,能够提高特征的表示能力,从而提升文本检测的准确度。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种文本检测方法、系统、存储介质及电子设备。
背景技术
随着计算机技术和移动设备的快速发展,大量的实际应用需要获取场景文本所蕴含的高层语义信息。票据图像中文本检测用于精确定位出图像中票据的文本区域,其检测结果会直接影响最终识别效果。但因为票据文本在自由拍摄的票据图像中表现出稀疏性特点,大量的背景区域给真实文本检测带来极大困难,存在文本检测准确率低的问题。
发明内容
本发明实施例的目的在于提供一种文本检测方法、系统、存储介质及电子设备,能够提高文本检测准确率。具体技术方案如下:
本发明提供了一种文本检测方法,包括:
获取待检测图像;
采用注意力金字塔网络模型对所述待检测图像进行特征提取,得到注意力金字塔特征图;
采用区域建议网络对所述注意力金字塔特征图进行候选框选取,得到文本候选框;
将所述注意力金字塔特征图和所述文本候选框的位置信息输入Faster R-CNN模型进行候选框分类预测处理,以判断所述文本候选框所框选的区域是否为文本区域,得到文本检测结果。
可选地,所述注意力金字塔网络模型包括ResNet101网络、全局平均池化层、第一残差模块、通道注意力模块和第二残差模块;ResNet101网络包括顶层卷积单元、中间层卷积单元和底层卷积单元;
所述采用注意力金字塔网络模型对所述待检测图像进行特征提取,得到注意力金字塔特征图,具体包括:
将所述待检测图像输入所述底层卷积单元中进行特征提取,得到底层特征图;将所述底层特征图输入所述中间层卷积单元进行特征提取,得到中间层特征图;将所述中间层特征图输入所述顶层卷积单元,得到顶层特征图;
将所述顶层特征图输入全局平均池化层,得到池化处理结果;
将所述顶层特征图输入与所述顶层卷积单元对应的第一残差模块,得到第一残差特征图;
将所述池化处理结果和所述第一残差特征图输入与所述顶层卷积单元对应的通道注意力模块进行权重调整,得到第一通道注意力特征图;
将所述第一通道注意力特征图输入与所述顶层卷积单元对应的第二残差模块,得到第二残差特征图;
将所述中间层特征图输入与所述中间层卷积单元对应的第一残差模块,得到第三残差特征图;
将所述第二残差特征图和所述第三残差特征图输入与所述中间层卷积单元对应的通道注意力模块进行权重调整,得到第二通道注意力特征图;
将所述第二通道注意力特征图输入与所述中间层卷积单元对应的第二残差模块,得到注意力金字塔特征图。
可选地,所述将所述顶层特征图输入与所述顶层卷积单元对应的第一残差模块,得到第一残差特征图,具体包括:
将所述顶层特征图输入1×1卷积层进行通道合并处理,得到合并结果;
将所述合并结果输入3×3卷积层进行尺寸放大处理,得到放大处理结果;
将所述放大处理结果输入Batch Norm层进行批规范化处理,得到规范化处理结果;
将所述规范化处理结果输入ReLU函数后得到的结果通过3×3卷积层进行尺寸缩小处理,得到缩小处理结果;
将所述顶层特征图与所述缩小处理结果进行求和操作得到的结果输入ReLU函数,得到第一残差特征图。
可选地,所述将所述第二残差特征图和所述第三残差特征图输入与所述中间层卷积单元对应的通道注意力模块进行权重调整,得到第二通道注意力特征图,具体包括:
将所述第二残差特征图和所述第三残差特征图进行合并处理,得到合并后的特征图;
将所述合并后的特征图输入全局池化层进行压缩处理,得到压缩特征图;
将所述压缩特征图输入1×1卷积层进行处理,将处理后的结果输入ReLU函数后得到输出结果;
将所述输出结果输入1×1卷积层进行处理,将处理后的结果输入Sigmoid函数,得到注意力向量;
利用所述注意力向量对所述第二残差特征图进行权重调整,得到第二通道注意力特征图。
可选地,所述将所述输出结果输入1×1卷积层进行处理,将处理后的结果输入Sigmoid函数,得到注意力向量,具体包括:
将所述输出结果输入1×1卷积层进行特征图通道求和处理,得到分数图;
利用所述分数图中的分数确定文本预测概率;
根据所述文本预测概率和文本期望概率,利用Sigmoid函数,得到注意力向量。
可选地,所述利用所述注意力向量对所述第二残差特征图进行权重调整,得到第二通道注意力特征图,具体包括:
将所述注意力向量与所述第二残差特征图进行乘积运算,得到乘积运算结果;
将所述乘积运算结果与所述合并后的特征图进行求和运算,得到第二通道注意力特征图。
可选地,所述将所述注意力金字塔特征图和所述候选框信息输入Faster R-CNN模型进行候选框分类预测处理,以判断所述文本候选框是否为文本区域,得到文本检测结果,具体包括:
将所述注意力金字塔特征图和所述候选框信息输入Faster R-CNN模型进行候选框分类预测处理,得到检测框;
对所述检测框进行NMS去重处理,得到文本检测结果。
本发明还提供一种文本检测系统,包括:
图像获取模块,用于获取待检测图像;
特征提取模块,用于采用注意力金字塔网络模型对所述待检测图像进行特征提取,得到注意力金字塔特征图;
候选框生成模块,用于采用区域建议网络对所述注意力金字塔特征图进行候选框选取,得到文本候选框;
文本检测模块,用于将所述注意力金字塔特征图和所述文本候选框的位置信息输入Faster R-CNN模型进行候选框分类预测处理,以判断所述文本候选框所框选的区域是否为文本区域,得到文本检测结果。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有程序,所述程序被处理器执行时实现上述的文本检测方法。
本发明还提供一种电子设备,包括:
至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;
所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述的文本检测方法。
本发明实施例提供的一种文本检测方法、系统、存储介质及电子设备,采用注意力金字塔网络模型对待检测图像进行特征提取,得到注意力金字塔特征图;采用区域建议网络对注意力金字塔特征图进行候选框选取,得到文本候选框;将注意力金字塔特征图和候选框的位置信息输入Faster R-CNN模型进行候选框分类预测处理,以判断文本候选框所框选的区域是否为文本区域,得到文本检测结果。本发明通过注意力金字塔网络模型对待检测图像中的文本进行显著性检测,在突出文本的同时抑制背景信息,进而减少背景带来的干扰,能够提高特征的表示能力,从而提升文本的检测准确度。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的文本检测方法流程图;
图2为本发明实施例提供的注意力金字塔网络结构示意图;
图3为本发明实施例提供的细化残差模块示意图;
图4为本发明实施例提供的通道注意力模块示意图;
图5为本发明实施例提供的文本检测流程示意图;
图6为本发明实施例提供的文本检测系统结构图;
图7为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种文本检测方法,如图1所示,该方法包括:
步骤101:获取待检测图像。
步骤102:采用注意力金字塔网络模型对待检测图像进行特征提取,得到注意力金字塔特征图。
注意力金字塔网络(Attention Pyramid Network,APN)结构如图2所示,注意力金字塔网络模型包括ResNet101网络、全局平均池化层(Global Average Pooling,GAP)、2个细化残差模块(Refinement Residual Block,RRB)分别为第一残差模块和第二残差模块以及通道注意力模块(Channel Attention Block,CAB)。其中,CAB利用注意力机制对各阶段特征图通道进行权值自适应校准,来增强目标特征的表示能力,获取更具判别力的特征;RRB模块被附加在每个阶段的特征层,用于合并通道信息,并引入残差块对网络优化,实现细化特征图的效果。
ResNet101网络共有五组卷积,包括顶层卷积单元Res5、中间层卷积单元和底层卷积单元conv1;中间层卷积单元有三层,分别为Res2、Res3、Res4。这五组卷积共包含101层,其中conv1输入大小为224×224,Res5的输出大小为7×7,每个卷积阶段缩小2倍,经过五组共缩小32倍,最后针对网络中缺少全局信息的问题,本发明APN在ResNet101网络顶部引入全局平均池化层GAP,提供全局上下文信息,保证高层一致性约束,完成网络构建。
APN结构中的注意力融合模块包括细化残差模块RRB和通道注意力模块CAB。起横向连接作用的RRB模块用于合并通道信息,引入残差块来优化网络,实现细化特征图的效果;CAB模块从特征图通道的角度出发,利用注意力机制融合相邻阶段特征来校正各通道权重,获取更具判别力的特征用于后续文本检测任务。
步骤102,具体包括:
1)将待检测图像输入底层卷积单元中进行特征提取,得到底层特征图;将底层特征图输入中间层卷积单元进行特征提取,得到中间层特征图;将中间层特征图输入顶层卷积单元,得到顶层特征图。
将待检测图像输入conv1进行特征提取,得到底层特征图;将底层特征图输入Res2进行特征提取,得到第一中间层特征图;将第一中间层特征图输入Res3进行特征提取,得到第二中间层特征图;将第二中间层特征图输入Res4进行特征提取,得到第三中间层特征图;将第三中间层特征图输入顶层卷积单元Res5,得到顶层特征图。
2)将顶层特征图输入全局平均池化层,得到池化处理结果。
将顶层特征图输入全局平均池化层GAP,得到池化处理结果。
3)将顶层特征图输入与顶层卷积单元对应的第一残差模块,得到第一残差特征图。
如图3所示,该步骤具体包括:
将顶层特征图输入1×1卷积层(1×1conv)进行通道合并处理,得到合并结果,通过1×1个卷积层合并所有通道的信息,并固定来自卷积神经网络CNNs的特征图通道数为512;将合并结果输入3×3卷积层(3×3conv)进行尺寸放大处理,得到放大处理结果;将放大处理结果输入Batch Norm层(批规范化层,用于保证数据分布一致和ReLU加速训练速度)进行批规范化处理,得到规范化处理结果;将规范化处理结果输入ReLU函数后得到的结果通过3×3卷积层进行尺寸缩小处理,得到缩小处理结果;将顶层特征图与缩小处理结果进行求和操作(sum)得到的结果输入ReLU函数,得到第一残差特征图。
4)将池化处理结果和第一残差特征图输入与顶层卷积单元对应的通道注意力模块进行权重调整,得到第一通道注意力特征图。
如图4所示,通道注意力模块CAB用于结合相邻阶段特征,将池化处理结果和第一残差特征图作为输入,充分利用不同阶段的差异性。CAB模块首先连接(concate)高阶段(池化处理结果)和低阶段(第一残差特征图)的RRB特征,显式地建立通道之间的依赖关系,使用全局池化层(Global pool)压缩特征图生成通道的统计信息,加入两个1×1卷积(1×1conv)和ReLU函数来降低模型复杂度和辅助泛化,利用Sigmoid函数学习通道间的依赖关系,获取注意力向量,再利用注意力向量对低阶段特征通道进行权重调整,将注意力向量与第一残差特征图进行乘积运算,得到乘积(mul)运算结果;将乘积运算结果与池化处理结果进行求和(sum)运算,最后获得第一通道注意力特征图。
5)将第一通道注意力特征图输入与顶层卷积单元对应的第二残差模块,得到第二残差特征图。
如图3所示,第二残差特征图的生成方法和上述第一残差特征图的生成方法类似,不再赘述。
6)将中间层特征图输入与中间层卷积单元对应的第一残差模块,得到第三残差特征图。
将第三中间层特征图输入与第三中间层卷积单元对应的第一残差模块,得到第三残差特征图;
将第二中间层特征图输入与第二中间层卷积单元对应的第一残差模块,得到第二残差特征图;
将第一中间层特征图输入与第一中间层卷积单元对应的第一残差模块,得到第一残差特征图。
7)将第二残差特征图和第三残差特征图输入与中间层卷积单元对应的通道注意力模块进行权重调整,得到第二通道注意力特征图。
该步骤具体包括:
将第二残差特征图和第三残差特征图进行合并处理,得到合并后的特征图;将合并后的特征图输入全局池化层进行压缩处理,得到压缩特征图;将压缩特征图输入1×1卷积层进行处理,将处理后的结果输入ReLU函数后得到输出结果;将输出结果输入1×1卷积层进行处理,将处理后的结果输入Sigmoid函数,得到注意力向量;利用注意力向量对第二残差特征图进行权重调整,得到第二通道注意力特征图。
可选地,利用注意力向量对第二残差特征图进行权重调整,得到第二通道注意力特征图,具体包括:
将注意力向量与第二残差特征图进行乘积运算,得到乘积运算结果;将乘积运算结果与合并后的特征图进行求和运算,得到第二通道注意力特征图。
可选地,将输出结果输入1×1卷积层进行处理,将处理后的结果输入Sigmoid函数,得到注意力向量,具体包括:
将输出结果输入1×1卷积层进行特征图通道求和处理,得到分数图;利用分数图中的分数确定文本预测概率;根据文本预测概率和文本期望概率,利用Sigmoid函数,得到注意力向量。
CAB旨在整合相邻阶段特征来计算各通道的注意力向量,更改每个阶段特征权重优化特征一致性。APN扩展为FCN(Fully Convolutional Networks,全卷积神经网络)架构后,卷积操作输出分数图,给出像素在每个类别上的概率如公式(1-1),分数图的最终分数yn只是对所有特征图的通道求和。
公式(1-1)中,x是网络输出的特征,k是卷积核,n∈{1,2,…,n},n是通道数,D是像素位置(i表示行,j表示列)的集合,公式(1-1)隐式表示不同通道的权重相等。通道注意力权重的计算如公式(1-2)和公式(1-3)所示。公式(1-2)中δ是预测概率,y是网络输出,N为列总数。
由公式(1-2)和公式(1-3)得出,最终的预测标签为概率最高的类别。假设预测结果是y0,而真实标签是y1,则如公式(1-3),引入注意力权重参数将最高概率值y0更正为y1。
公式(1-3)中表示网络的新预测,α=Sigmoid(x;k)。为获得一致且准确的预测结果,提取具有判别力的特征并抑制非判别特征,因此在公式(1-3)中,α值为注意力权重用于特征图x,表示使用CAB进行注意力特征选择。通过这种方法,可以使用网络逐步获取判别力的特征,保证预测类别一致性。
为更准确地细化特征,采用深度监督方法获取更好性能并优化网络,在本发明的APN中,使用Softmax损失函数监督除全局平均池化层以外的每个阶段上采样输出,如公式(1-4)。
L=SoftmaxLoss(y;k) (1-4)
8)将第二通道注意力特征图输入与中间层卷积单元对应的第二残差模块,得到注意力金字塔特征图。
将第二通道注意力特征图输入与第三中间层卷积单元对应的第二残差模块,得到第一注意力金字塔特征图。
需要说明的是,由于有三个中间层特征图,能够得到三个注意力金字塔特征图,分别为第一注意力金字塔特征图、第二注意力金字塔特征图和第三注意力金字塔特征图。
步骤103:采用区域建议网络对注意力金字塔特征图进行候选框选取,得到文本候选框。
如图5所示,在利用注意力金字塔网络对待检测图像进行特征提取后,得到注意力金字塔特征,注意力金字塔特征同时输入给区域建议网络和Faster R-CNN模型。当注意力金字塔特征输入给区域建议网络后,锚框同样输入至区域建议网络,经过文本二分类处理和矩形边界框回归后,能够得到细化处理后的矩形文本候选框。本发明利用区域建议网络根据APN网络输出的注意力金字塔特征图生成候选框,并为每个候选框提取对应的有效RoI特征。
步骤104:将注意力金字塔特征图和文本候选框的位置信息输入Faster R-CNN模型进行候选框分类预测处理,以判断文本候选框所框选的区域是否为文本区域,得到文本检测结果。
使用Fast R-CNN模块中分类器区分已经提取的RoI类别,判断是否为文本,直接将修正后的文本候选框作为文本检测结果输出。
步骤104,具体包括:
将注意力金字塔特征图和候选框信息输入Faster R-CNN模型进行候选框分类预测处理,得到检测框;对检测框进行NMS去重处理,得到文本检测结果。
如图5所示,将注意力金字塔特征图和候选框信息输入Faster R-CNN模型后,将Faster R-CNN模型输出结果进行文本二分类和四边形候选框回归处理,处理得到的检测框进行NMS去重处理,得到文本检测结果。本发明对步骤103检测得到的文本候选框进行更精细的分类和边界框回归,分类任务学习判断候选框是文本区域和背景区域,候选框回归任务学习和回归四边形边界框位置信息,最后对候选框进行NMS去重,得到最终文本预测结果。
本发明基于注意力机制的特征提取模型APN,在ResNet101基础模型上利用注意力机制提取更具判别力的特征,提供对文本区域的显著性检测,突出文本信息的同时抑制背景信息,减少类似文本的背景干扰带来的误报。本发明的通道注意力模块是从特征图通道的角度出发,利用注意力机制融合相邻阶段特征来校正各通道权重,获取更具判别力的特征。本发明的细化残差模块起横向连接作用,用于合并通道信息,引入残差块来优化网络,实现细化特征图的效果。
作为一可选的实施例,本发明基于注意力金字塔网络进行银行票据文本检测,通过利用特征金字塔结构和注意力机制相融合,从文本特征图层次使用通道注意力向量调整权重参数,指导高阶段融合低阶段增强特征一致性,提高特征表示能力的同时选择更优的票据文本特征,使文本检测效果进一步提升,能够解决因为票据文本在自由拍摄的银行票据图像中表现出稀疏性特点,大量的背景区域给真实文本检测带来极大困难,导致文本检测准确率低的问题。
本发明还提供一种文本检测系统,如图6所示,该系统包括:
图像获取模块601,用于获取待检测图像。
特征提取模块602,用于采用注意力金字塔网络模型对待检测图像进行特征提取,得到注意力金字塔特征图。
注意力金字塔网络模型包括ResNet101网络、全局平均池化层、第一残差模块、通道注意力模块和第二残差模块;ResNet101网络包括顶层卷积单元、中间层卷积单元和底层卷积单元。
特征提取模块602,具体包括:
特征提取单元,用于将待检测图像输入底层卷积单元中进行特征提取,得到底层特征图;将底层特征图输入中间层卷积单元进行特征提取,得到中间层特征图;将中间层特征图输入顶层卷积单元,得到顶层特征图。
池化处理单元,用于将顶层特征图输入全局平均池化层,得到池化处理结果。
第一残差特征图生成单元,用于将顶层特征图输入与顶层卷积单元对应的第一残差模块,得到第一残差特征图。
第一通道注意力特征图生成单元,用于将池化处理结果和第一残差特征图输入与顶层卷积单元对应的通道注意力模块进行权重调整,得到第一通道注意力特征图。
第二残差特征图生成单元,用于将第一通道注意力特征图输入与顶层卷积单元对应的第二残差模块,得到第二残差特征图。
第三残差特征图生成单元,用于将中间层特征图输入与中间层卷积单元对应的第一残差模块,得到第三残差特征图。
第二通道注意力特征图生成单元,用于将第二残差特征图和第三残差特征图输入与中间层卷积单元对应的通道注意力模块进行权重调整,得到第二通道注意力特征图;
注意力金字塔特征图生成单元,用于将第二通道注意力特征图输入与中间层卷积单元对应的第二残差模块,得到注意力金字塔特征图。
其中,
第一残差特征图生成单元,具体用于:将顶层特征图输入1×1卷积层进行通道合并处理,得到合并结果;将合并结果输入3×3卷积层进行尺寸放大处理,得到放大处理结果;将放大处理结果输入Batch Norm层进行批规范化处理,得到规范化处理结果;将规范化处理结果输入ReLU函数后得到的结果通过3×3卷积层进行尺寸缩小处理,得到缩小处理结果;将顶层特征图与缩小处理结果进行求和操作得到的结果输入ReLU函数,得到第一残差特征图。
第二通道注意力特征图生成单元,具体用于:
将第二残差特征图和第三残差特征图进行合并处理,得到合并后的特征图;将合并后的特征图输入全局池化层进行压缩处理,得到压缩特征图;将压缩特征图输入1×1卷积层进行处理,将处理后的结果输入ReLU函数后得到输出结果;将输出结果输入1×1卷积层进行处理,将处理后的结果输入Sigmoid函数,得到注意力向量;利用注意力向量对第二残差特征图进行权重调整,得到第二通道注意力特征图。
可选地,将输出结果输入1×1卷积层进行处理,将处理后的结果输入Sigmoid函数,得到注意力向量,具体包括:将输出结果输入1×1卷积层进行特征图通道求和处理,得到分数图;利用分数图中的分数确定文本预测概率;根据文本预测概率和文本期望概率,利用Sigmoid函数,得到注意力向量。
可选地,利用注意力向量对第二残差特征图进行权重调整,得到第二通道注意力特征图,具体包括:将注意力向量与第二残差特征图进行乘积运算,得到乘积运算结果;将乘积运算结果与合并后的特征图进行求和运算,得到第二通道注意力特征图。
候选框生成模块603,用于采用区域建议网络对注意力金字塔特征图进行候选框选取,得到文本候选框。
文本检测模块604,用于将注意力金字塔特征图和文本候选框的位置信息输入Faster R-CNN模型进行候选框分类预测处理,以判断文本候选框所框选的区域是否为文本区域,得到文本检测结果。
文本检测模块604,具体用于:将所述注意力金字塔特征图和所述候选框信息输入Faster R-CNN模型进行候选框分类预测处理,得到检测框;对所述检测框进行NMS去重处理,得到文本检测结果。
本发明实施例提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现上述文本检测方法。
本发明实施例提供了一种电子设备,如图7所示,电子设备70包括至少一个处理器701、以及与处理器701连接的至少一个存储器702、总线703;其中,处理器701、存储器702通过总线703完成相互间的通信;处理器701用于调用存储器702中的程序指令,以执行上述的文本检测方法。本文中的电子设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有上述的文本检测方法包括的步骤的程序。
需要说明的是,本发明提供的一种文本检测方法、系统、存储介质及电子设备,可应用于人工智能领域或金融领域。上述仅为示例,并不对本发明提供的一种文本检测方法、系统、存储介质及电子设备的应用领域进行限定。
本申请是参照根据本申请实施例的方法、系统和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种文本检测方法,其特征在于,包括:
获取待检测图像;
采用注意力金字塔网络模型对所述待检测图像进行特征提取,得到注意力金字塔特征图;
采用区域建议网络对所述注意力金字塔特征图进行候选框选取,得到文本候选框;
将所述注意力金字塔特征图和所述文本候选框的位置信息输入Faster R-CNN模型进行候选框分类预测处理,以判断所述文本候选框所框选的区域是否为文本区域,得到文本检测结果。
2.根据权利要求1所述的文本检测方法,其特征在于,所述注意力金字塔网络模型包括ResNet101网络、全局平均池化层、第一残差模块、通道注意力模块和第二残差模块;ResNet101网络包括顶层卷积单元、中间层卷积单元和底层卷积单元;
所述采用注意力金字塔网络模型对所述待检测图像进行特征提取,得到注意力金字塔特征图,具体包括:
将所述待检测图像输入所述底层卷积单元中进行特征提取,得到底层特征图;将所述底层特征图输入所述中间层卷积单元进行特征提取,得到中间层特征图;将所述中间层特征图输入所述顶层卷积单元,得到顶层特征图;
将所述顶层特征图输入全局平均池化层,得到池化处理结果;
将所述顶层特征图输入与所述顶层卷积单元对应的第一残差模块,得到第一残差特征图;
将所述池化处理结果和所述第一残差特征图输入与所述顶层卷积单元对应的通道注意力模块进行权重调整,得到第一通道注意力特征图;
将所述第一通道注意力特征图输入与所述顶层卷积单元对应的第二残差模块,得到第二残差特征图;
将所述中间层特征图输入与所述中间层卷积单元对应的第一残差模块,得到第三残差特征图;
将所述第二残差特征图和所述第三残差特征图输入与所述中间层卷积单元对应的通道注意力模块进行权重调整,得到第二通道注意力特征图;
将所述第二通道注意力特征图输入与所述中间层卷积单元对应的第二残差模块,得到注意力金字塔特征图。
3.根据权利要求2所述的文本检测方法,其特征在于,所述将所述顶层特征图输入与所述顶层卷积单元对应的第一残差模块,得到第一残差特征图,具体包括:
将所述顶层特征图输入1×1卷积层进行通道合并处理,得到合并结果;
将所述合并结果输入3×3卷积层进行尺寸放大处理,得到放大处理结果;
将所述放大处理结果输入Batch Norm层进行批规范化处理,得到规范化处理结果;
将所述规范化处理结果输入ReLU函数后得到的结果通过3×3卷积层进行尺寸缩小处理,得到缩小处理结果;
将所述顶层特征图与所述缩小处理结果进行求和操作得到的结果输入ReLU函数,得到第一残差特征图。
4.根据权利要求2所述的文本检测方法,其特征在于,所述将所述第二残差特征图和所述第三残差特征图输入与所述中间层卷积单元对应的通道注意力模块进行权重调整,得到第二通道注意力特征图,具体包括:
将所述第二残差特征图和所述第三残差特征图进行合并处理,得到合并后的特征图;
将所述合并后的特征图输入全局池化层进行压缩处理,得到压缩特征图;
将所述压缩特征图输入1×1卷积层进行处理,将处理后的结果输入ReLU函数后得到输出结果;
将所述输出结果输入1×1卷积层进行处理,将处理后的结果输入Sigmoid函数,得到注意力向量;
利用所述注意力向量对所述第二残差特征图进行权重调整,得到第二通道注意力特征图。
5.根据权利要求4所述的文本检测方法,其特征在于,所述将所述输出结果输入1×1卷积层进行处理,将处理后的结果输入Sigmoid函数,得到注意力向量,具体包括:
将所述输出结果输入1×1卷积层进行特征图通道求和处理,得到分数图;
利用所述分数图中的分数确定文本预测概率;
根据所述文本预测概率和文本期望概率,利用Sigmoid函数,得到注意力向量。
6.根据权利要求4所述的文本检测方法,其特征在于,所述利用所述注意力向量对所述第二残差特征图进行权重调整,得到第二通道注意力特征图,具体包括:
将所述注意力向量与所述第二残差特征图进行乘积运算,得到乘积运算结果;
将所述乘积运算结果与所述合并后的特征图进行求和运算,得到第二通道注意力特征图。
7.根据权利要求1所述的文本检测方法,其特征在于,所述将所述注意力金字塔特征图和所述候选框信息输入Faster R-CNN模型进行候选框分类预测处理,以判断所述文本候选框是否为文本区域,得到文本检测结果,具体包括:
将所述注意力金字塔特征图和所述候选框信息输入Faster R-CNN模型进行候选框分类预测处理,得到检测框;
对所述检测框进行NMS去重处理,得到文本检测结果。
8.一种文本检测系统,其特征在于,包括:
图像获取模块,用于获取待检测图像;
特征提取模块,用于采用注意力金字塔网络模型对所述待检测图像进行特征提取,得到注意力金字塔特征图;
候选框生成模块,用于采用区域建议网络对所述注意力金字塔特征图进行候选框选取,得到文本候选框;
文本检测模块,用于将所述注意力金字塔特征图和所述文本候选框的位置信息输入Faster R-CNN模型进行候选框分类预测处理,以判断所述文本候选框所框选的区域是否为文本区域,得到文本检测结果。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有程序,所述程序被处理器执行时实现权利要求1-7任一项所述的文本检测方法。
10.一种电子设备,其特征在于,包括:
至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;
所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行权利要求1-7任一项所述的文本检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111069214.0A CN113723352B (zh) | 2021-09-13 | 2021-09-13 | 一种文本检测方法、系统、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111069214.0A CN113723352B (zh) | 2021-09-13 | 2021-09-13 | 一种文本检测方法、系统、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113723352A true CN113723352A (zh) | 2021-11-30 |
CN113723352B CN113723352B (zh) | 2024-08-02 |
Family
ID=78683569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111069214.0A Active CN113723352B (zh) | 2021-09-13 | 2021-09-13 | 一种文本检测方法、系统、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723352B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114743206A (zh) * | 2022-05-17 | 2022-07-12 | 北京百度网讯科技有限公司 | 文本检测方法、模型训练方法、装置、电子设备 |
CN117315702A (zh) * | 2023-11-28 | 2023-12-29 | 山东正云信息科技有限公司 | 基于集合预测的文本检测方法、系统及介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276316A (zh) * | 2019-06-26 | 2019-09-24 | 电子科技大学 | 一种基于深度学习的人体关键点检测方法 |
CN110895695A (zh) * | 2019-07-31 | 2020-03-20 | 上海海事大学 | 用于文本图片字符切分的深度学习网络、切分方法 |
US10671878B1 (en) * | 2019-01-11 | 2020-06-02 | Capital One Services, Llc | Systems and methods for text localization and recognition in an image of a document |
CN111291759A (zh) * | 2020-01-17 | 2020-06-16 | 北京三快在线科技有限公司 | 文字检测方法、装置、电子设备及存储介质 |
US10699715B1 (en) * | 2019-12-27 | 2020-06-30 | Alphonso Inc. | Text independent speaker-verification on a media operating system using deep learning on raw waveforms |
CN111401201A (zh) * | 2020-03-10 | 2020-07-10 | 南京信息工程大学 | 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法 |
CN111626300A (zh) * | 2020-05-07 | 2020-09-04 | 南京邮电大学 | 基于上下文感知的图像语义分割模型及建模方法 |
CN111914843A (zh) * | 2020-08-20 | 2020-11-10 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 文字检测方法、系统、设备及存储介质 |
KR20200143193A (ko) * | 2019-06-13 | 2020-12-23 | 네이버 주식회사 | 객체인식장치 및 객체인식방법 |
CN112232232A (zh) * | 2020-10-20 | 2021-01-15 | 城云科技(中国)有限公司 | 一种目标检测方法 |
CN112465820A (zh) * | 2020-12-22 | 2021-03-09 | 中国科学院合肥物质科学研究院 | 基于语义分割的融合全局上下文信息的水稻病害检测方法 |
-
2021
- 2021-09-13 CN CN202111069214.0A patent/CN113723352B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10671878B1 (en) * | 2019-01-11 | 2020-06-02 | Capital One Services, Llc | Systems and methods for text localization and recognition in an image of a document |
KR20200143193A (ko) * | 2019-06-13 | 2020-12-23 | 네이버 주식회사 | 객체인식장치 및 객체인식방법 |
CN110276316A (zh) * | 2019-06-26 | 2019-09-24 | 电子科技大学 | 一种基于深度学习的人体关键点检测方法 |
CN110895695A (zh) * | 2019-07-31 | 2020-03-20 | 上海海事大学 | 用于文本图片字符切分的深度学习网络、切分方法 |
US10699715B1 (en) * | 2019-12-27 | 2020-06-30 | Alphonso Inc. | Text independent speaker-verification on a media operating system using deep learning on raw waveforms |
CN111291759A (zh) * | 2020-01-17 | 2020-06-16 | 北京三快在线科技有限公司 | 文字检测方法、装置、电子设备及存储介质 |
CN111401201A (zh) * | 2020-03-10 | 2020-07-10 | 南京信息工程大学 | 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法 |
CN111626300A (zh) * | 2020-05-07 | 2020-09-04 | 南京邮电大学 | 基于上下文感知的图像语义分割模型及建模方法 |
CN111914843A (zh) * | 2020-08-20 | 2020-11-10 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 文字检测方法、系统、设备及存储介质 |
CN112232232A (zh) * | 2020-10-20 | 2021-01-15 | 城云科技(中国)有限公司 | 一种目标检测方法 |
CN112465820A (zh) * | 2020-12-22 | 2021-03-09 | 中国科学院合肥物质科学研究院 | 基于语义分割的融合全局上下文信息的水稻病害检测方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114743206A (zh) * | 2022-05-17 | 2022-07-12 | 北京百度网讯科技有限公司 | 文本检测方法、模型训练方法、装置、电子设备 |
CN114743206B (zh) * | 2022-05-17 | 2023-10-27 | 北京百度网讯科技有限公司 | 文本检测方法、模型训练方法、装置、电子设备 |
CN117315702A (zh) * | 2023-11-28 | 2023-12-29 | 山东正云信息科技有限公司 | 基于集合预测的文本检测方法、系统及介质 |
CN117315702B (zh) * | 2023-11-28 | 2024-02-23 | 山东正云信息科技有限公司 | 基于集合预测的文本检测方法、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113723352B (zh) | 2024-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Self-produced guidance for weakly-supervised object localization | |
Ma et al. | Feature split–merge–enhancement network for remote sensing object detection | |
US11055535B2 (en) | Method and device for video classification | |
Tian et al. | A dual neural network for object detection in UAV images | |
JP2015506026A (ja) | 画像分類 | |
CN111738269B (zh) | 模型训练方法、图像处理方法及装置、设备、存储介质 | |
CN111027576A (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
CN116310850B (zh) | 基于改进型RetinaNet的遥感图像目标检测方法 | |
CN113723352B (zh) | 一种文本检测方法、系统、存储介质及电子设备 | |
CN113297959A (zh) | 一种基于角点注意力孪生网络的目标跟踪方法及系统 | |
CN117036941A (zh) | 一种基于孪生Unet模型的建筑物变化检测方法及系统 | |
CN111126358B (zh) | 人脸检测方法、装置、存储介质及设备 | |
CN115631112B (zh) | 一种基于深度学习的建筑轮廓矫正方法及装置 | |
Zong et al. | A cascaded refined rgb-d salient object detection network based on the attention mechanism | |
Li et al. | ABYOLOv4: improved YOLOv4 human object detection based on enhanced multi-scale feature fusion | |
CN114821823A (zh) | 图像处理、人脸防伪模型的训练及活体检测方法和装置 | |
CN117974988B (zh) | 一种轻量化目标检测方法、装置、计算机程序产品 | |
CN113963236A (zh) | 目标检测方法及装置 | |
CN116912924B (zh) | 一种目标图像识别方法和装置 | |
KR101991043B1 (ko) | 비디오 서머리 방법 | |
Korgialas et al. | On explainable closed-set source device identification using log-Mel spectrograms from videos’ audio: a grad-CAM approach | |
CN117541868B (zh) | 图像分类模型的训练方法、图像分类方法、模型、计算机设备及介质 | |
Zhang et al. | Semantics reused context feature pyramid network for object detection in remote sensing images | |
CN114359711B (zh) | 自适应步幅卷积的细粒度图像识别方法及系统 | |
CN117593619B (zh) | 图像处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |