Nothing Special   »   [go: up one dir, main page]

CN113516697A - 图像配准的方法、装置、电子设备及计算机可读存储介质 - Google Patents

图像配准的方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113516697A
CN113516697A CN202110813026.8A CN202110813026A CN113516697A CN 113516697 A CN113516697 A CN 113516697A CN 202110813026 A CN202110813026 A CN 202110813026A CN 113516697 A CN113516697 A CN 113516697A
Authority
CN
China
Prior art keywords
image
images
homography matrix
homography
registration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110813026.8A
Other languages
English (en)
Other versions
CN113516697B (zh
Inventor
李盼盼
秦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110813026.8A priority Critical patent/CN113516697B/zh
Publication of CN113516697A publication Critical patent/CN113516697A/zh
Application granted granted Critical
Publication of CN113516697B publication Critical patent/CN113516697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种图像配准的方法、装置、电子设备及计算机可读存储介质,包括:获取待配准的第一图像和第二图像;将第一图像和第二图像输入至单应矩阵获取网络,由该单应矩阵获取网络输出第一图像和第二图像映射关系的第一单应矩阵;根据该第一单应矩阵进行第一图像和第二图像的配准;其中,该单应矩阵获取网络由多个第三图像、多个第四图像作为输入,多个该第三图像和多个该第四图像映射关系的多个第二单应矩阵作为标签进行训练得到。实现了对多个图像进行配准。

Description

图像配准的方法、装置、电子设备及计算机可读存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像配准的方法、装置、电子设备及计算机可读存储介质。
背景技术
图像配准及其相关技术是图像处理研究领域的一项热点和难点技术,其目的在于比较和融合针对同一对象在不同条件(不同时间、光照、拍摄角度等)下获取的图像,具体来说,就是对于两张待配准图像,通过一系列操作,得到一种空间变换,把一副图像映射到另一幅图像上,使得两图中对于空间同一位置的点一一对应起来;上述技术在目标检测、模型重建、运动估计、特征匹配,肿瘤检测、病变定位、血管造影、地质勘探、航空侦察等领域都有广泛的应用。
发明内容
根据本公开的一方面,提供了一种图像配准的方法,包括:
获取待配准的第一图像和第二图像;
将所述第一图像和所述第二图像输入至单应矩阵获取网络,由所述单应矩阵获取网络输出所述第一图像和所述第二图像映射关系的第一单应矩阵;
根据所述第一单应矩阵进行所述第一图像和所述第二图像的配准;
其中,所述单应矩阵获取网络由多个第三图像、多个第四图像作为输入,多个所述第三图像和多个所述第四图像映射关系的多个第二单应矩阵作为标签进行训练得到。
根据本公开的另一方面,提供了一种图像配准的装置,包括:
第一获取模块,用于获取待配准的第一图像和第二图像;
第一处理模块,用于将所述第一图像和所述第二图像输入至单应矩阵获取网络,由所述单应矩阵获取网络输出所述第一图像和所述第二图像映射关系的第一单应矩阵;
配准模块,用于根据所述第一单应矩阵进行所述第一图像和所述第二图像的配准;
其中,所述单应矩阵获取网络由多个第三图像、多个第四图像作为输入,多个所述第三图像和多个所述第四图像映射关系的多个第二单应矩阵作为标签进行训练得到。
根据本公开的另一方面,提供了一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据上述任一项所述的图像配准的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一项所述的图像配准的方法。
本申请实施例中提供的一个或多个技术方案,可以实现对多个图像进行配准。
附图说明
图1示出了根据本公开示例性实施例的图像配准方法的流程图;
图2示出了根据本公开示例性实施例的图像配准装置的示意性框图;
图3示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
现有技术尽管对图像配准技术已有大量的研究,但是由于其难以有统一客观结果评价标准,以及难以使用深度学习这种技术手段大幅提升性能(数据集难以设计和得到),所以大量的配置方法都是针对某一具体问题进行设计,通用的方法并不多见,主要是利用图像特征点匹配,然后计算单应矩阵的方法。
图像特征点是指图像中有典型代表性的像素点,它的应用场景主要有相机标定、图像拼接、稠密重建和场景理解,其中场景理解中常用的是词袋方法,即以特征点为中心生成关键词袋进行场景识别;图像特征点在计算机视觉的多项任务中有着重要应用,目前有3大类图像特征点获得方法,一是人工设计的特征点检测算法,如知名的sift、surf、orb、fast和hog等;二是使用基于深度学习的方法获得特征点,三是以场景中的人工标记点作为特征点,尽管目前基于深度学习的方法能够取得更好的效果,但是人工设计的算法依然因此较好的效果、较快的速度和易实现性在工业界大量应用,尤其是sift算法,自从提出以来经久不衰。图像上任何一个像素点想要成为图像特征点,必须要满足差异性和重复性两个基本要求,差异性是这像素点相比于其周围的点式显著的,灰度变换明显,如角点、边缘点等,重复性是指同一特征在不同视角中重复出现,且具有旋转、光度和尺度不变性。
目前对于逻辑可批改的小学数学口算题目,已经取得了比较良好的批改效果,已经出现了大量的应用程序,但这也只能满足用户的部分需求,无法解决小学数学中的全部题目的批改问题,只能处理一些常规计算题型,如横式、竖式和脱式,无法处理常见的带有语义信息的题型,比如选择、填空、判断题,这些题型在小学数学作业中非常常见,而且数量不少,尤其对于四五六年级来说,对这些题型的处理能极大的拓展拍照判题的应用范围,更是能极大的满足用户需要,不过,即便需求如此强烈,但是现在依然没有能很好地批改这类题的方法;目前针对逻辑不可批改的题目,大家普遍采用基于图题库的方式进行批改,而这种方式中,对于如何更加准确的将作答区域对应起来是非常关键的,尽管已经有各种方式,但是使用配准的方法能够有更好的效果。
目前利用图像特征点进行匹配,然后通过随机采样(RANSAC)等方法计算待配准的两张图像的单应矩阵,以此实现图像配准是比较通用的方法;目前小学数学的练习册由于书写习惯和拍照场景等多种原因,导致其文本图像可能出现背透(同一页纸两边都写字导致一边影响了另一边)、光照不均匀(做完作业灯光下拍摄)、影印和拍摄角度不正等大量问题,同时要想对小学数学中的所有文题进行全批全改,则必须建立图库,而如何将题库中提供的正确答案与待批改图像中相关问题作答对应上将对拍照判题的准确率有非常大的影响,利用图像配准的方法来将答案映射起来进行判题,能够实现很好的效果,但是这严重依赖于图像配准的效果,而目前的通用的图像配准方法在文本图像上,尤其是变化比较复杂的文本图像上效果不佳,这制约着拍照判题的准确率提高。
在本实施例中提供了一种图像配准的方法,可用于智能设备,如手机、平板电脑等,图1示出了根据本公开示例性实施例的图像配准方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,获取待配准的第一图像和第二图像。第一图像和第二图像的来源可以包括很多种,例如在对学生作业进行批改时,第一图像可以是待批改图像,第二图像可以是题库中正确答案的图像。本领域技术人员应当知晓,该第一图像和第二图像的来源并非用于限制本实施例,根据实际需要选用其他的图像亦在本实施例的保护范围之内。
步骤S102,将第一图像和第二图像输入至单应矩阵获取网络,由该单应矩阵获取网络输出第一图像和第二图像映射关系的第一单应矩阵。具体地,该单应矩阵获取网络由多个第三图像、多个第四图像作为输入,多个第三图像和多个第四图像映射关系的多个第二单应矩阵作为标签进行训练得到。直接通过对样本图像的学习来归纳得到两张待配准图像之间的单应矩阵,基于深度学习的方法实现图像配准。
步骤S103,根据该第一单应矩阵进行第一图像和第二图像的配准。
通过上述实施例,相比于现有技术基于手工设计特征提取器的方法,如sift、surf、orb等,其检测到的特征点对应的描述往往是基于其附近的像素值的统计特征,从某种意义上说,只是低层次的特征,例如仅能描述边缘、轮廓,而不是表征能力更强的语义等高层次特征,上述实施例通过使用神经网络来代替手工设计的特征提取器,能得到更有效的特征,能使用更加高级的特征进行特征点匹配,能够求得更好的单应矩阵,同时,利用网络强大的拟合能力,还可以对现实文本图像中存在的划痕等问题具有更好的抵抗力。上述实施例能够基于深度学习的方法实现图像配准,直接通过对样本图像的学习来归纳得到两张待配准图像之间的单应矩阵,基于该单应矩阵对待配准图像完成配准,从而实现更加准确和快速的图像配准,在对待批改图像和题库中正确答案的图像进行配准时,能够提高拍照判题的准确性。
对单应矩阵获取网络进行训练所采用的第三图像和第四图像的来源包括多种方式,训练该单应矩阵获取网络之前,在一些可选实施例中,可以通过变分自编码器(Variational Auto-Encoder,简称为VAE)实现,VAE模型是一种重要的生成式模型,它由编码器和解码器两部分组成,通常以对数似然的下确界作为优化目标,因此VAE模型的损失函数一般由重构损失和交叉熵损失两部分组成,VAE模型将输入通过编码器进行编码,然后将编码输入解码器,用于还原输入,在多数情况下,还原出的图片与原图片极为相近,相比于其他的生成式模型,VAE模型的训练更稳定,而且速度更快。将第三图像输入至VAE模型,由该VAE模型输出第四图像,其中,该VAE模型由多个第五图像作为输入,多个第六图像作为标签进行训练得到,该第六图像由该第五图像进行加噪处理得到,加噪处理例如可以是随机增加一些划痕、影印、背透、光照不均匀等操作。下面结合具体实施例进行详细说明,首先收集大量的正常文本图像(无划痕等)(即上述第五图像),为了减小计算量,将正常文本图像中的一部分数据复制一份,人工的随机增加一些划痕、影印、背透、光照不均匀等操作(即上述第六图像),接着利用上述正常文本图像作为输入,人为处理过的图像作为标签,训练一个VAE模型,即输入一张正常文本图像,得到一张随机有问题的文本图像。本可选实施例,通过VAE模型降低了人工制造原始不正常样本的工作量。
对于第三图像和第四图像的获取方式,在另一些可选实施例中,获取第七图像,将该第七图像输入至上述VAE模型,由该VAE模型输出第八图像,随机生成第三单应矩阵,使用该第三单应矩阵对该第八图像进行变换,得到第九图像,将该第七图像作为该第三图像,将该第九图像作为该第四图像,将该第三单应矩阵作为该第二单应矩阵。本可选实施例通过VAE模型,降低了人工制造原始不正常样本的工作量,同时,通过先确定单应矩阵(标签),再得到输入图像的方式有效的缓解了文本图像配准数据难以收集的问题。
为了衡量上述第一单应矩阵的准确性,该单应矩阵获取网络还包括分支网络,该单应矩阵获取网络的分支网络由多个该第三图像、多个该第四图像作为输入,多个该第三图像和多个该第四图像的多个配准概率值作为标签进行训练得到,将第一图像和第二图像输入至单应矩阵获取网络的分支网络,由单应矩阵获取网络的分支网络输出第一图像和第二图像的配准概率值,根据第一单应矩阵和该配准概率值进行第一图像和第二图像的配准,根据两张图像能否配准的概率值来衡量单应矩阵的准确性。图像配准是指两张内容相同(同一场景)但从不同角度拍摄的图像通过一些方法(如特征点匹配之类的),求得单应矩阵,利用单应矩阵,可以把一张图像的像素点变换到另一张图像上的对应位置,但是现实中,任意两张图像,无论内容是否相同,都可以求得单应矩阵,而且实际上,没法知道这两张图像是否内容相同,配准概率值可以认为是衡量这两张图像是否相似的概率,如果配准概率值高,那么这两张图像大概率是内容相同的,此时这个单应矩阵才有意义。
在一些可选实施例中,单应矩阵获取网络包括依次连接的多个卷积层和多个全连接层,为了描述一致,这里单应矩阵获取网络相当于下述的单应矩阵获取网络的第一个分支。单应矩阵获取网络的分支网络包括依次连接的多个卷积层和多个全连接层,为了描述一致,这里的单应矩阵获取网络的分支网络相当于下述的单应矩阵获取网络的第二个分支。具体地,接着构建一个单应矩阵获取网络,本实施例中使用常见的Resnet18网络并对其进行改进,Resnet18网络由4个block块串联构建,每个block块包括若干层卷积操作,第一个block块输出的特征映射大小为原图的1/4,第二个为原图1/8,第三个为原图1/16,第四个为原图1/32,在block块中,每个block块输出的特征映射数量都为128,将4组特征映射全部通过插值的方式将其大小变为原图1/4大小并串联,得到一组特征映射,其通道数量为512,至此,分为两个分支,第一个分支,接着对上述512通道的特征映射做五次卷积操作,最终得到特征映射数量为32,大小为原图1/128的特征映射,然后接一个全连接层,它的节点数量为32*H*W/128(其中H和W指原图的高和宽),然后再接一个全连接层,它的节点数量为8,表示两张输入图像映射关系的单应矩阵。
第二个分支则在上述512通道的特征映射做六次卷积操作,最终得到特征映射数量为10,大小为原图1/256的特征映射,然后接一个全连接层,它的节点数量为10*H*W/256(其中H和W指原图的高和宽),然后再接一个全连接层,它的节点数量为2,表示两张图像能否配准的概率值,单应矩阵获取网络的分支网络包括:多个卷积层和全连接层,每个卷积层对输入的通道特征映射做卷积处理,得到输出的通道特征映射,输出的通道特征映射的通道数量小于输入的通道特征映射的通道数量,通道数量的减小可以使得计算量减小,提升处理速度,卷积处理之后,选取预定大小的窗口,将所述预定大小的窗口内的预定数量的像素点对应位置的通道元素进行随机互换并重新排列,并再次进行卷积操作,得到指定通道数量的特征映射,所述预定大小随着卷积操作次数的增多而减小,从而进一步减小计算量,提升处理速度,对指定通道数量的特征映射进行维度变化之后输入至全连接层,得到重新确定的特征映射。通过单应矩阵获取网络的分支网络的上述结构可以增加特征的融合,从而可以将两张待配准图像的局部特征和全局特征有效结合,提升两张待配准图像能否配准的概率值的准确度。更具体地,第二分支首先对输入的512通道特征映射做一次卷积操作(卷积核大小3*3),得到256通道输出,然后以8*8为窗口,将窗口内4个像素点对应位置的所有通道元素进行随机互换,重新排列,接着进行第二次3*3卷积操作,得到256通道输出,与上一步操作一样,只是这次在6*6窗口,同理,第三次卷积后得到128通道输出,在4*4窗口,第四次卷积后得到128通道,在2*2窗口,第五次卷积之后得到64通道输出,此时特征图大小为8*8,接着将每个像素点对应的64个通道值拿出来重新排列为8*8(即将1*64变为8*8),然后继续进行第六次卷积操作,得到10通道输出,经过维度变换之后接在全连接层上,网络如此设计相比与常规设计,能很好的将两张待配准图像的局部特征和全局特征有效的结合起来;在训练过程中,第一个分支使用平滑L1损失函数,第二个分支使用softmax损失函数。
上述第三图像和第四图像包括了正样本的第三图像和第四图像,也包括负样本的第三图像和第四图像,为了较少对单应矩阵获取网络进行训练的样本数量,正样本与负样本的数量之比为预定阈值,例如比例可以是1:3,该正样本表示该第三图像与该第四图像对应,该负样本表示该第三图像与该第四图像不对应。
在本实施例中还提供了一种图像配准的装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”为可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种图像配准的装置,如图2所示,包括:
第一获取模块21,用于获取待配准的第一图像和第二图像;
第一处理模块22,用于将该第一图像和该第二图像输入至单应矩阵获取网络,由该单应矩阵获取网络输出该第一图像和该第二图像映射关系的第一单应矩阵;
配准模块23,用于根据该第一单应矩阵进行该第一图像和该第二图像的配准;
其中,该单应矩阵获取网络由多个第三图像、多个第四图像作为输入,多个该第三图像和多个该第四图像映射关系的多个第二单应矩阵作为标签进行训练得到。
可选地,该装置还包括:
第二处理模块,用于将该第三图像输入至变分自编码器,由该变分自编码器输出该第四图像;
其中,该变分自编码器由多个第五图像作为输入,多个第六图像作为标签进行训练得到,该第六图像由该第五图像进行加噪处理得到。
本实施例中的图像配准的装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
参考图3,现将描述可以作为本公开的服务器或客户端的电子设备300的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图3所示,电子设备300包括计算单元301,其可以根据存储在只读存储器(ROM)302中的计算机程序或者从存储单元308加载到随机访问存储器(RAM)303中的计算机程序,来执行各种适当的动作和处理。在RAM 303中,还可存储设备300操作所需的各种程序和数据。计算单元301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
电子设备300中的多个部件连接至I/O接口305,包括:输入单元306、输出单元307、存储单元308以及通信单元309。输入单元306可以是能向电子设备300输入信息的任何类型的设备,输入单元306可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元307可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元304可以包括但不限于磁盘、光盘。通信单元309允许电子设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元301执行上文所描述的各个方法和处理。例如,在一些实施例中,方法图像配准的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元308。在一些实施例中,计算机程序的部分或者全部可以经由ROM 302和/或通信单元309而被载入和/或安装到电子设备300上。在一些实施例中,计算单元301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像配准的方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims (10)

1.一种图像配准的方法,包括:
获取待配准的第一图像和第二图像;
将所述第一图像和所述第二图像输入至单应矩阵获取网络,由所述单应矩阵获取网络输出所述第一图像和所述第二图像映射关系的第一单应矩阵;
根据所述第一单应矩阵进行所述第一图像和所述第二图像的配准;
其中,所述单应矩阵获取网络由多个第三图像、多个第四图像作为输入,多个所述第三图像和多个所述第四图像映射关系的多个第二单应矩阵作为标签进行训练得到。
2.如权利要求1所述的图像配准的方法,其中,训练所述单应矩阵获取网络之前,获取所述第三图像和所述第四图像包括:
将所述第三图像输入至变分自编码器,由所述变分自编码器输出所述第四图像;
其中,所述变分自编码器由多个第五图像作为输入,多个第六图像作为标签进行训练得到,所述第六图像由所述第五图像进行加噪处理得到。
3.如权利要求2所述的图像配准的方法,其中,训练所述单应矩阵获取网络之前,获取所述第三图像和所述第四图像包括:
获取第七图像;
将所述第七图像输入至所述变分自编码器,由所述变分自编码器输出第八图像;
随机生成第三单应矩阵;
使用所述第三单应矩阵对所述第八图像进行变换,得到第九图像;
将所述第七图像作为所述第三图像,将所述第九图像作为所述第四图像,将所述第三单应矩阵作为所述第二单应矩阵。
4.如权利要求1所述的图像配准的方法,其中,所述单应矩阵获取网络还包括分支网络,所述单应矩阵获取网络的分支网络由多个所述第三图像、多个所述第四图像作为输入,多个所述第三图像和多个所述第四图像的多个配准概率值作为标签进行训练得到;
所述方法还包括:
将所述第一图像和所述第二图像输入至所述单应矩阵获取网络的分支网络,由所述单应矩阵获取网络的分支网络输出所述第一图像和所述第二图像的配准概率值;以及
根据所述第一单应矩阵和所述配准概率值进行所述第一图像和第二图像的配准。
5.如权利要求4所述的图像配准的方法,其中,所述单应矩阵获取网络的分支网络包括:多个卷积层和全连接层;
每个卷积层对输入的通道特征映射做卷积处理,得到输出的通道特征映射;输出的通道特征映射的通道数量小于输入的通道特征映射的通道数量;
卷积处理之后,选取预定大小的窗口,将所述预定大小的窗口内的预定数量的像素点对应位置的通道元素进行随机互换并重新排列,并再次进行卷积操作,得到指定通道数量的特征映射;所述预定大小随着卷积操作次数的增多而减小;
对所述指定通道数量的特征映射进行维度变化之后输入至所述全连接层,得到重新确定的特征映射。
6.如权利要求1至5中任一项所述的图像配准的方法,其中,正样本与负样本的数量之比为预定阈值;其中,所述正样本表示所述第三图像与所述第四图像对应,所述负样本表示所述第三图像与所述第四图像不对应。
7.一种图像配准的装置,包括:
第一获取模块,用于获取待配准的第一图像和第二图像;
第一处理模块,用于将所述第一图像和所述第二图像输入至单应矩阵获取网络,由所述单应矩阵获取网络输出所述第一图像和所述第二图像映射关系的第一单应矩阵;
配准模块,用于根据所述第一单应矩阵进行所述第一图像和所述第二图像的配准;
其中,所述单应矩阵获取网络由多个第三图像、多个第四图像作为输入,多个所述第三图像和多个所述第四图像映射关系的多个第二单应矩阵作为标签进行训练得到。
8.如权利要求7所述的图像配准的装置,其中,所述装置还包括:
第二处理模块,用于将所述第三图像输入至变分自编码器,由所述变分自编码器输出所述第四图像;
其中,所述变分自编码器由多个第五图像作为输入,多个第六图像作为标签进行训练得到,所述第六图像由所述第五图像进行加噪处理得到。
9.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
CN202110813026.8A 2021-07-19 2021-07-19 图像配准的方法、装置、电子设备及计算机可读存储介质 Active CN113516697B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110813026.8A CN113516697B (zh) 2021-07-19 2021-07-19 图像配准的方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110813026.8A CN113516697B (zh) 2021-07-19 2021-07-19 图像配准的方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113516697A true CN113516697A (zh) 2021-10-19
CN113516697B CN113516697B (zh) 2024-02-02

Family

ID=78067331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110813026.8A Active CN113516697B (zh) 2021-07-19 2021-07-19 图像配准的方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113516697B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120433A (zh) * 2021-11-30 2022-03-01 北京百度网讯科技有限公司 图像处理方法、图像处理装置、电子设备和介质
WO2023109221A1 (zh) * 2021-12-14 2023-06-22 北京地平线信息技术有限公司 确定单应性矩阵的方法、装置、介质、设备和程序产品

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160189359A1 (en) * 2014-12-31 2016-06-30 Inha-Industry Partnership Institute Sampling method and image processing apparatus of cs-ransac for estimating homography
CN110263918A (zh) * 2019-06-17 2019-09-20 北京字节跳动网络技术有限公司 训练卷积神经网络的方法、装置、电子设备和计算机可读存储介质
CN111666974A (zh) * 2020-04-29 2020-09-15 平安科技(深圳)有限公司 图像匹配方法、装置、计算机设备及存储介质
US20200293816A1 (en) * 2019-03-14 2020-09-17 Ubicquia Iq Llc Homography through satellite image matching
CN111833237A (zh) * 2020-01-19 2020-10-27 宁波大学 基于卷积神经网络和局部单应性变换的图像配准方法
US20200372679A1 (en) * 2019-05-21 2020-11-26 Sportlogiq Inc. System and Method for Image Registration and Camera Calibration Using Learned Error Functions
CN112991410A (zh) * 2021-04-29 2021-06-18 北京世纪好未来教育科技有限公司 一种文本图像配准方法、电子设备及其存储介质
CN113012207A (zh) * 2021-03-23 2021-06-22 北京安德医智科技有限公司 一种图像配准方法和装置
CN113066088A (zh) * 2021-06-03 2021-07-02 常州微亿智造科技有限公司 工业检测中的检测方法、检测装置和存储介质
US20210209775A1 (en) * 2018-12-19 2021-07-08 Shanghai Sensetime Intelligent Technology Co., Ltd. Image Processing Method and Apparatus, and Computer Readable Storage Medium

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160189359A1 (en) * 2014-12-31 2016-06-30 Inha-Industry Partnership Institute Sampling method and image processing apparatus of cs-ransac for estimating homography
US20210209775A1 (en) * 2018-12-19 2021-07-08 Shanghai Sensetime Intelligent Technology Co., Ltd. Image Processing Method and Apparatus, and Computer Readable Storage Medium
US20200293816A1 (en) * 2019-03-14 2020-09-17 Ubicquia Iq Llc Homography through satellite image matching
US20200372679A1 (en) * 2019-05-21 2020-11-26 Sportlogiq Inc. System and Method for Image Registration and Camera Calibration Using Learned Error Functions
CN110263918A (zh) * 2019-06-17 2019-09-20 北京字节跳动网络技术有限公司 训练卷积神经网络的方法、装置、电子设备和计算机可读存储介质
CN111833237A (zh) * 2020-01-19 2020-10-27 宁波大学 基于卷积神经网络和局部单应性变换的图像配准方法
CN111666974A (zh) * 2020-04-29 2020-09-15 平安科技(深圳)有限公司 图像匹配方法、装置、计算机设备及存储介质
CN113012207A (zh) * 2021-03-23 2021-06-22 北京安德医智科技有限公司 一种图像配准方法和装置
CN112991410A (zh) * 2021-04-29 2021-06-18 北京世纪好未来教育科技有限公司 一种文本图像配准方法、电子设备及其存储介质
CN113066088A (zh) * 2021-06-03 2021-07-02 常州微亿智造科技有限公司 工业检测中的检测方法、检测装置和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LINGXUAN等: "Investigation and evaluation of algorithms for unmanned aerial vehicle multispectral image registration", 《INTERNATIONAL JOURNAL OF APPLIED EARTH OBSERVATION AND GEOINFORMATION》, pages 127 - 128 *
盛明伟;唐松奇;万磊;秦洪德;李俊;: "基于改进CNN-RANSAC的水下图像特征配准方法", 计算机工程与科学, no. 05, pages 102 - 111 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120433A (zh) * 2021-11-30 2022-03-01 北京百度网讯科技有限公司 图像处理方法、图像处理装置、电子设备和介质
WO2023109221A1 (zh) * 2021-12-14 2023-06-22 北京地平线信息技术有限公司 确定单应性矩阵的方法、装置、介质、设备和程序产品

Also Published As

Publication number Publication date
CN113516697B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN111104962B (zh) 图像的语义分割方法、装置、电子设备及可读存储介质
CN109508681B (zh) 生成人体关键点检测模型的方法和装置
US10846870B2 (en) Joint training technique for depth map generation
CN110874594A (zh) 基于语义分割网络的人体外表损伤检测方法及相关设备
WO2023035531A1 (zh) 文本图像超分辨率重建方法及其相关设备
CN115457531A (zh) 用于识别文本的方法和装置
CN113379627A (zh) 图像增强模型的训练方法和对图像进行增强的方法
CN115063875B (zh) 模型训练方法、图像处理方法、装置和电子设备
CN109919971B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN108510084B (zh) 用于生成信息的方法和装置
CN111105375A (zh) 图像生成方法及其模型训练方法、装置及电子设备
CN114511041B (zh) 模型训练方法、图像处理方法、装置、设备和存储介质
TWI803243B (zh) 圖像擴增方法、電腦設備及儲存介質
CN110619334B (zh) 基于深度学习的人像分割方法、架构及相关装置
CN114792355A (zh) 虚拟形象生成方法、装置、电子设备和存储介质
CN113516697A (zh) 图像配准的方法、装置、电子设备及计算机可读存储介质
CN110717405B (zh) 人脸特征点定位方法、装置、介质及电子设备
CN115984856A (zh) 文档图像矫正模型的训练方法、文档图像的矫正方法
CN111815748B (zh) 一种动画处理方法、装置、存储介质及电子设备
CN111914850B (zh) 图片特征提取方法、装置、服务器和介质
CN113610856B (zh) 训练图像分割模型和图像分割的方法和装置
CN115272667B (zh) 农田图像分割模型训练方法、装置、电子设备和介质
US20230401670A1 (en) Multi-scale autoencoder generation method, electronic device and readable storage medium
CN113850239B (zh) 多文档检测方法、装置、电子设备及存储介质
CN117372607A (zh) 一种三维模型的生成方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant