CN118154417B - 基于sift与深度学习联合优化的铁塔天线全景图像拼接方法 - Google Patents
基于sift与深度学习联合优化的铁塔天线全景图像拼接方法 Download PDFInfo
- Publication number
- CN118154417B CN118154417B CN202410079474.3A CN202410079474A CN118154417B CN 118154417 B CN118154417 B CN 118154417B CN 202410079474 A CN202410079474 A CN 202410079474A CN 118154417 B CN118154417 B CN 118154417B
- Authority
- CN
- China
- Prior art keywords
- image
- sift
- feature
- images
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 42
- 229910052742 iron Inorganic materials 0.000 title claims abstract description 39
- 238000013135 deep learning Methods 0.000 title claims abstract description 26
- 238000005457 optimization Methods 0.000 title claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims abstract description 83
- 230000009466 transformation Effects 0.000 claims abstract description 76
- 238000001514 detection method Methods 0.000 claims abstract description 19
- 230000000007 visual effect Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 238000007689 inspection Methods 0.000 description 6
- 239000000306 component Substances 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Medical Informatics (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Image Analysis (AREA)
Abstract
一种基于SIFT与深度学习联合优化的铁塔天线全景图像拼接方法,先将相邻两帧图像分别输入进基于几何特征匹配网络、基于SIFT特征匹配网络以及回环检测网络得到图像多模态特征匹配关系;再将特征匹配关系输入进RANSAC的单应性估计器得到多模态单应性变换矩阵以及表示矩阵估计确定性协方差矩阵;再使用基于位姿图的联合优化方式,优化多模态单应性变换矩阵;最后使用优化后的矩阵进行图像拼接得到全景图像。本发明能够将SIFT的不变性以及效率高的优势与深度学习能捕捉更丰富的特征信息的优势结合起来,在保证图像拼接效率的同时,更准确地估算单应性矩阵,提升了整体铁塔天线全景图像拼接的准确性和稳定性。
Description
技术领域
本发明涉及一种全景图像拼接方法,具体是一种基于SIFT与深度学习联合优化的铁塔天线全景图像拼接方法,属于图像处理技术领域。
背景技术
铁塔天线数量的统计是铁塔巡检中一项重要的工作,铁塔天线是保证铁塔正常运行的核心部件,目前这项工作仍然主要依赖人工统计,但是这种方式存在很多弊端,比如巡检视角受限,传统的人工上塔受到塔体结构的限制,塔维人员通过肉眼观察,容易产生隐患遗漏的情况,无法确认信息准确性,导致巡检效率降低,并且铁塔具有一定的高度,给巡检人员的人身安全带来了较大的风险,因此可以引入无人机设备,在高空中围绕着铁塔天线处拍摄图片,再使用全景图像拼接算法就能得到完整的全景图以便于巡检人员清点天线数量,提高了巡检任务的安全性和效率。目前全景图像拼接方法主要有传统算法与深度学习算法。
传统基于尺度不变特征转换(Scale-Invariant Feature Transform,SIFT)算法在图像拼接中常用于特征点检测和匹配。SIFT算法提取图像特征点,并为每个关键点生成描述符。在进行图像匹配时,将这些关键点的描述符作为输入,通过最近邻搜索生成密集匹配的关键点描述符。SIFT算法具有旋转和尺度不变性,能够在不同尺度和角度下检测和描述相同的特征点,因此在进行全景图像拼接时有较高的效率。然而,对于铁塔天线场景,由于物体之间的相似度太高,比如天线,栏杆等物体,SIFT算法可能无法准确地匹配特征点,这种情况会影响图像拼接的质量,并可能导致错误的拼接结果。
相比较使用传统SIFT算法进行图像拼接,基于深度学习的图像拼接算法可以端到端学习图像表示,这使得它能够更全面地理解图像中的内容和结构。对于铁塔天线场景中外观相似度较高的物体,深度学习模型通常能够利用更丰富、更复杂的特征表达方式,从而提高对这些区域的识别和匹配能力。这种更高级的特征表示使得基于深度学习的图像拼接方法更具有鲁棒性和适应性。但是,深度学习模型在处理全景图像拼接时可能面临内存和计算资源的限制,导致难以实现高效的全景图像拼接。
发明内容
本发明的目的是提供一种基于SIFT与深度学习联合优化的铁塔天线全景图像拼接方法,能够在保证特征点匹配速度的同时,提升铁塔天线场景中的特征匹配的准确性,进而确保整体铁塔天线全景图像拼接的准确性和效率。
为了实现上述目的,本发明提供一种基于SIFT与深度学习联合优化的铁塔天线全景图像拼接方法,包括以下步骤:
S1:使用摄像机采集铁塔天线图像数据,要求相邻两张图像的重叠区域面积占到整副图像的1/4至1/2,得到图像序列,记为I,设图像序列为:I={I0,…,Ii,Ii+1},式中:0,…,i,i+1表示图像序列号;
S2:通过不同特征匹配网络获得图像几何特征对应关系以及图像SIFT特征对应关系,使用闭环检测网络来判断摄像机是否重访了之前的场景;
S3:将图像几何特征以及图像SIFT特征对应关系输入进单应性估计器生成相关的单应性变换矩阵,并且每个估计的变换矩阵都与一个协方差矩阵相关联,代表估计的确定性;
S4:通过构建位姿图来实现单应性变换矩阵的联合优化,根据优化后的单应性变换矩阵进行图像拼接,得到全景图像。
本发明步骤S2中,以图像对的方式同时放入基于深度学习的几何特征匹配网络NGeo以及SIFT特征匹配网络NSIFT,分别得到图像几何特征对应关系MGeo以及图像SIFT特征对应关系MSIFT,在闭环检测网络NLC中,只将第一帧记为关键帧,再计算关键帧与其他帧的对应关系,记为MLC,来判断摄像机是否重访了之前的场景。
本发明步骤S2中获得图像几何特征对应关系以及图像SIFT特征对应关系具体为:
S21:输入图像序列I={I0,...,Ii,Ii+1},对于几何特征匹配网络NGeo,流程是使用Res2Net网络提取图像对{Ii,Ii+1}的多尺度特征fi={fi 1,fi 2,fi 3,...,fi n},fi+1={fi+1 1,fi+1 2,fi+1 3,...,fi+1 n},其中,高维尺度特征经过粗匹配模块得到像素与像素粗略匹配Mc,并使用GeoFormer相应地识别输入图像对之间的潜在匹配区域,使用标准Transformer框架,GeoFormer以稀疏方式计算自注意力,同时,以集中的方式计算交叉注意力;通过两种注意力对粗略匹配Mc中的匹配点进行过滤,然后将过滤后的匹配点馈送到精细匹配模块,生成的精细匹配MGeo,即图像几何特征对应关系;
S22:输入图像序列I={I0,...,Ii,Ii+1},对于SIFT特征匹配网络NSIFT,流程是使用SIFT算法提取的特征描述子,在不同图像中寻找最相似的描述子,再通过计算描述子之间的相似性度量(如欧氏距离、汉明距离等),就能找到在不同图像中对应的特征点,这些匹配的特征点对表示了在不同图像中具有相似视觉特征的位置,从而建立了图像特征点之间的匹配关系MSIFT,即图像SIFT特征对应关系;
S23:输入图像序列I={I0,...,Ii,Ii+1},对于闭环检测网络NLC,序列中只有第一帧是关键帧,然后从关键帧中提取的SIFT关键点特征,并且关键帧的SIFT特征使用库存储;接下来计算关键帧与其他帧之间的相似度,以检查摄像机是否重访了之前的场景,并且使用SIFT算法得到关键帧与其他帧的对应关系MLC,上述对应关系MGeo、MSIFT和MLC具体定义为:
其中:关键帧IKey=I0
本发明步骤S3具体为:将图像几何特征以及图像SIFT特征对应关系输入进RANSAC的单应性估计器FRANSAC生成几何特征匹配的单应性变换矩阵、SIFT特征匹配的单应性变换矩阵和闭环检测的单应性变换矩阵,分别记为HGeo、HSIFT和HLC,上述单应性变换矩阵HGeo、HSIFT和HLC;具体定义为:
同时,每个估计的变换矩阵都与一个协方差矩阵Σ相关联,代表估计的确定性;使用RANSAC方法识别离群值和异常值,离群值和异常值的识别是基于一幅图像中的一个点与另一幅图像中通过对应单应性变换矩阵重新投影的对应点之间的像素距离,几何特征匹配的单应性变换矩阵的协方差是根据离群值的比率计算的;SIFT特征匹配的单应性变换矩阵的小协方差以及闭环检测的单应性变换矩阵的协方差是根据离群值比率和特征数量共同计算的。
本发明步骤S4具体为:
S41:将需要优化的位姿图构建为Φ={V,E},其中V={x0,x1,x2,...,xn}是顶点集,E={y0,1,y1,2,y2,3,...,yLC}是边集,y是由估计的单应性变换矩阵共同组成,x表示的第i幅图像相对于关键帧Ikey图像的变换,构成了需要估计的状态;边集定义了顶点对之间的约束条件,这些约束条件是由从单应性变换矩阵共同组成;
S42:对位姿图进行优化后能够得到最终进行图像拼接的优化后的单应性变换矩阵具体定义为:
S43:所有图像都能够根据序列中的中间帧进行拼接,得到全景图像。
本发明步骤S4中全景图像拼接过程具体为:使用优化后的单应性变换矩阵对每幅图像的位置进行扭曲全景图的四个角的坐标,通过所有扭曲图像的两个方向上的最小角和最大角获得,创建一个与全景图大小相同的画布,所有图像按照扭曲以后的坐标位置依次放入画布中,不同时刻的图像分别在画布中的不同位置;为了使得最终拼接效果更加自然,需要去除图像之间的重叠部分,即以中间帧为基准,按照由图像特征点之间的匹配关系得到的掩膜去裁剪相邻两帧图像之间的共有的部分,最后将裁剪以后的图片按照顺序拼接起来就得到了最终的铁塔天线全景拼接图像。
与现有技术相比,本发明针对SIFT算法无法准确地匹配特征点以及深度学习图像拼接算法效率低的问题,提供一种基于SIFT与深度学习联合优化的铁塔天线全景图像拼接方法,将获取的图像序列,以图像对的方式同时放入基于深度学习的几何特征匹配网络以及SIFT特征匹配网络分别得到图像几何特征对应关系以及图像SIFT特征对应关系,使用闭环检测得到关键帧与其他帧的对应关系来判断摄像机是否重访了之前的场景;将对应关系输入进RANSAC的单应性估计器生成基于几何特征匹配的单应性变换矩阵以及基于SIFT特征匹配的单应性变换矩阵;再通过构建位姿图来实现单应性变换矩阵的联合优化;最后根据获得的优化后的单应性变换矩阵进行图像拼接,得到全景图像。本发明在保证特征点匹配的速度的同时,使用深度学习方法提升铁塔天线场景中的特征匹配的准确性,进而确保整体全景图像拼接的准确性和效率。
附图说明
图1为本发明的方法的总体框架图;
图2为本发明的方法流程示意图;
图3为图像基于几何特征的匹配关系可视化效果图,其中图(a)表示第一帧图片与第二帧图片正确的几何特征匹配关系,图(b)表示第二帧图片与第三帧图片正确的几何特征匹配关系;
图4为图像基于SIFT特征的匹配关系可视化效果图,其中图(a)表示第一帧图片与第二帧图片正确的SIFT特征匹配关系,图(b)表示第二帧图片与第三帧图片正确的SIFT特征匹配关系,(c)表示表示第一帧图片与第三帧图片错误的SIFT特征匹配关系;
图5为由单应性变换矩阵构建的位姿图;
图6为第一帧图片在全景画布中的位置图;
图7为第二帧图片在全景画布中的位置图;
图8为第三帧图片在全景画布中的位置图;
图9为去除图像之间重叠区域的掩膜图;
图10为铁塔天线全景图像拼接图。
具体实施方式
下面结合附图对本发明做进一步说明。
如图1和图2所示,一种基于SIFT与深度学习联合优化的铁塔天线全景图像拼接方法,包括以下步骤:
S1:使用摄像机采集铁塔天线图像数据,要求相邻两张图像的重叠区域面积占到整副图像的1/4至1/2,得到图像序列,记为I,设图像序列为:I={I0,...,Ii,Ii+1},式中:0,...,i,i+1表示图像序列号;
S2:通过不同特征匹配网络获得图像几何特征对应关系以及图像SIFT特征对应关系,使用闭环检测网络来判断摄像机是否重访了之前的场景;
以图像对的方式同时放入基于深度学习的几何特征匹配网络NGeo以及SIFT特征匹配网络NSIFT,分别得到图像几何特征对应关系MGeo以及图像SIFT特征对应关系MSIFT,使用闭环检测网络NLC,只将第一帧记为关键帧,再计算关键帧与其他帧的对应关系,记为MLC,来判断摄像机是否重访了之前的场景。
获得图像几何特征对应关系以及图像SIFT特征对应关系具体为:
S21:输入图像序列I={I0,...,Ii,Ii+1},对于几何特征匹配网络NGeo,流程是使用Res2Net网络提取图像对{Ii,Ii+1}的多尺度特征fi={fi 1,fi 2,fi 3,...,fi n},fi+1={fi+1 1,fi+1 2,fi+1 3,...,fi+1 n},其中,高维尺度特征经过粗匹配模块得到像素与像素粗略匹配Mc,并使用GeoFormer相应地识别输入图像对之间的潜在匹配区域,使用标准Transformer框架,GeoFormer以稀疏方式计算自注意力,同时,以集中的方式计算交叉注意力;通过两种注意力对粗略匹配Mc中的匹配点进行过滤,然后将过滤后的匹配点馈送到精细匹配模块,生成的精细匹配MGeo,即图像几何特征对应关系;
S22:输入图像序列I={I0,...,Ii,Ii+1},对于SIFT特征匹配网络NSIFT,流程是使用SIFT算法提取的特征描述子,在不同图像中寻找最相似的描述子,再通过计算描述子之间的相似性度量(如欧氏距离、汉明距离等),就能找到在不同图像中对应的特征点,这些匹配的特征点对表示了在不同图像中具有相似视觉特征的位置,从而建立了图像特征点之间的匹配关系MSIFT,即即图像SIFT特征对应关系;
S23:输入图像序列I={I0,...,Ii,Ii+1},对于闭环检测网络NLC,序列中只有第一帧记为关键帧,然后从关键帧中提取的SIFT关键点特征,并且关键帧的SIFT特征使用库存储;接下计算计算关键帧与其他帧之间的相似度,以检查摄像机是否重访了之前的场景;并且使用SIFT算法得到关键帧与其他帧的对应关系MLC,上述对应关系MGeo、MSIFT和MLC具体定义为:
其中:关键帧IKey=I0
S3:将图像几何特征以及图像SIFT特征对应关系输入进单应性估计器生成相关的单应性变换矩阵,并且每个估计的变换矩阵都与一个协方差矩阵相关联,代表估计的确定性;
具体为:将图像几何特征以及图像SIFT特征对应关系输入进RANSAC的单应性估计器FRANSAC生成几何特征匹配的单应性变换矩阵、SIFT特征匹配的单应性变换矩阵和闭环检测的单应性变换矩阵,分别记为HGeo、HSIFT和HLC,上述单应性变换矩阵HGeo、HSIFT和HLC,具体定义为:
同时,每个估计的变换矩阵都与一个协方差矩阵Σ相关联,代表估计的确定性;使用RANSAC方法识别离群值和异常值,离群值和异常值的识别是基于一幅图像中的一个点与另一幅图像中通过对应单应性变换矩阵重新投影的对应点之间的像素距离,几何特征匹配的单应性变换矩阵的协方差是根据离群值的比率计算的;SIFT特征匹配的单应性变换矩阵的协方差以及闭环检测的单应性变换矩阵的协方差是根据离群值比率和特征数量共同计算的。
S4:通过构建位姿图来实现单应性变换矩阵的联合优化,根据优化后的单应性变换矩阵进行图像拼接,得到全景图像;
S4具体为:
S41:将需要优化的位姿图构建为Φ={V,E},其中V={x0,x1,x2,...,xn}是顶点集,E={y0,1,y1,2,...,yLC}是边集,y是由估计的单应性变换矩阵共同组成,x表示的第i幅图像相对于关键帧Ikey图像的变换,构成了需要估计的状态;边集定义了顶点对之间的约束条件,这些约束条件是由从单应性变换矩阵共同组成;
S42:对位姿图进行优化后能够得到最终进行图像拼接的优化后的单应性变换矩阵具体定义为:
S43:所有图像都能够根据序列中的中间帧进行拼接,得到全景图像。
所述步骤S4中全景图像拼接过程具体为:使用优化后的单应性变换矩阵对每幅图像的位置进行扭曲全景图的四个角的坐标,通过所有扭曲图像的两个方向上的最小角和最大角获得,创建一个与全景图大小相同的画布,所有图像按照扭曲以后的坐标位置依次放入画布中,不同时刻的图像分别在画布中的不同位置;为了使得最终拼接效果更加自然,需要去除图像之间的重叠部分,即以中间帧为基准,按照由图像特征点之间的匹配关系得到的掩膜去裁剪相邻两帧图像之间的共有的部分,最后将裁剪以后的图片按照顺序拼接起来就得到了最终的铁塔天线全景拼接图像。
给出本发明的一个实施例
在铁塔天线场景中,传统SIFT图像拼接算法会检测到过多的关键点,导致图像特征点之间的不准确匹配;而基于深度学习的图像拼接算法虽然能够利用更丰富、更复杂的特征表达方式,从而提高对这些区域的识别能力,会提高图像匹配的准确率,但是深度学习模型在处理全景图像拼接时面临内存和计算资源的限制,会使得整体拼接效率下降;为了有效解决这些缺点,本发明公开了一种基于SIFT与深度学习联合优化的铁塔天线全景图像拼接方法,具体步骤如下:
步骤S1:使用摄像机采集图像数据;
如图1的总体框架图所示,在图像数据采集的过程中,要求相邻两张图像的重叠区域面积占到整副图像的1/4至1/2,得到图像序列,记为I;
设图像序列为:I={I0,...,Ii,Ii+1},式中:0,...,i,i+1表示图像序列号;
步骤S2:多模态图像配准,通过不同特征匹配网络获得图像几何特征对应关系以及图像SIFT特征对应关系,由于图像采集是一个闭环的过程,因此可以使用闭环检测网络来判断摄像机是否重访了之前的场景;
对于图像几何特征对应关系匹配网络NGeo,输入图像序列I={I0,...,Ii,Ii+1},使用Res2Net网络(Gao S H,Cheng M M,Zhao K,et al.Res2net:A new multi-scalebackbone architecture[J].IEEE transactions on pattern analysis and machineintelligence,2019,43(2):652-662.)提取图像对{Pi,Pi+1}的多尺度特征fi={fi 1,fi 2,fi 3,...,fi n},fi+1={fi+1 1,fi+1 2,fi+1 3,...,fi+1 n}。Res2Net中的特征图分支允许不同分支之间进行信息交流,以及跨层级之间的信息传递。这种交流机制有助于提高特征的表征能力,增强网络对铁塔天线特征的表示能力,能够提取更加精细的特征,有利于后续的特征匹配。对于提取之后的多尺度特征,高维尺度特征经过粗匹配模块得到像素与像素粗略匹配Mc,并使用GeoFormer(Liu J,Li X.Geometrized Transformer for Self-SupervisedHomography Estimation[C]//Proceedings of the IEEE/CVF InternationalConference on Computer Vision.2023:9556-9565.)相应地识别输入图像对之间的潜在匹配区域,使用标准Transformer框架GeoFormer以稀疏方式计算自注意力,即重点关注单张图像本身的几何结构明显特征;同时,以集中的方式计算交叉注意力,即重点关注两张图像之间几何结构相似的特征。通过两种注意力对粗略匹配Mc中的匹配点进行过滤,然后将过滤后的匹配点馈送到精细匹配模块,生成图像几何特征对应关系MGeo;
将图像几何特征对应关系MGeo可视化,如图3所示,铁塔天线场景的几何结构特征之间的得到很好的匹配;
上述图像几何特征对应关系MGeo可以定义为:
对于SIFT特征匹配网络NSIFT,输入图像序列I={I0,...,Ii,Ii+1},使用SIFT算法提取的特征描述子,在不同图像中寻找最相似的描述子,再通过计算描述子之间的相似性度量(如欧氏距离、汉明距离等),就可以找到在不同图像中对应的特征点。这些匹配的特征点对表示了在不同图像中具有相似视觉特征的位置,从而建立了图像特征点之间的图像SIFT特征对应关系MSIFT;
将图像SIFT特征对应关系MSIFT可视化,如图4所示,铁塔天线场景的纹理特征之间的得到了一定程度的匹配,同时会出现一些错误匹配图4中,图(a)表示第一帧图片与第二帧图片正确的SIFT特征匹配关系,图(b)表示第二帧图片与第三帧图片正确的SIFT特征匹配关系,(c)表示表示第一帧图片与第三帧图片错误的SIFT特征匹配关系;但由于网络还学习到了铁塔天线场景中的几何结构特征匹配关系,所以网络能够在一定程度上抑制错误匹配,降低对最终全景图像拼接准确性的影响。
上述图像SIFT特征对应关系MSIFT可以定义为:
对于闭环检测网络NLC,输入图像序列I={I0,…,Ii,Ii+1},序列中的第一帧是关键帧,然后从关键帧中提取的SIFT关键点特征,并且将关键帧的SIFT特征使用库存储,将计算关键帧与其他帧之间的相似度,以检查摄像机是否重访了之前的场景,并且使用SIFT算法得到关键帧与其他帧的对应关系MLC;
上述对应关系MLC具体可以定义为:
步骤S3:单应性矩阵估计与方差估计,
将上述对应关系MGeo、MSIFT和MLC输入进RANSAC的单应性估计器FRANSAC生成几何特征匹配的单应性变换矩阵、SIFT特征匹配的单应性变换矩阵和闭环检测的单应性变换矩阵,分别记为HGeo、HSIFT和HLC;
基于RANSAC的单应性估计器过程可以建模为:
其中[u,v,1]表示目标图像的特征点齐次坐标,[u',v',1]表示源图像的特征点其次坐标,并且[u,v,1]、[u',v',1]是两幅图像中的匹配特征点中组成匹配点对,s表示图像缩放因子,H表示单应性变换矩阵。
上述对应关系HGeo、HSIFT和HLC;具体可以定义为:
同时,每个估计的变换矩阵都与一个协方差矩阵Σ相关联,代表估计的确定性;协方差矩阵可以用来衡量估计的变换矩阵的置信度或确定性,对角线上的元素通常表示估计参数的方差,非对角线元素则表示不同参数之间的协方差,较小的方差意味着估计结果更可靠,更大的方差可能表示估计结果的不确定性更高。
使用RANSAC方法识别离群值和异常值,离群值和异常值的识别是基于一幅图像中的一个点与另一幅图像中通过对应单应性变换举证重新投影的对应点之间的像素距离。
基于几何特征Geo的单应性变换矩阵的协方差是根据离群值的比率计算的。
基于手工特征SIFT的单应性变换矩阵的协方差以及用于闭环检测的协方差基于是根据离群值比率和特征数量共同计算的。
步骤S4:优化与拼接,
将需要优化的位姿图可以构建为Φ={V,E},其中V={x0,x1,x2,...,xn}是顶点集,E={y0,1,y1,2,...,yLC}是边集,y是由估计的单应性变换矩阵共同组成,x表示的第i幅图像相对于关键帧Ikey图像的变换,它们构成了需要估计(优化)的状态。边集定义了顶点对之间的约束条件,这些约束条件是由从单应性变换矩阵 共同组成;
所构建的位姿图如图5所示,随机生成起始点,根据单应性变换矩阵得到变换后的轨迹点,再对进行仿射变换得到对应的仿射变换矩阵,得到不同顶点之间基于几何特征以及基于SIFT特征的边约束,最后用基于闭环检测的边约束来进行整体位姿图收敛。
对位姿图进行优化后可以得到最终进行图像拼接的单应性变换矩阵具体可以定义为:
所有图像都可以根据序列中的中间帧进行拼接,使用优化后的单应性变换矩阵对每幅图像的位置进行扭曲;
全景图的四个角的坐标可以通过所有扭曲图像的两个方向上的最小角和最大角获得,创建一个与全景图大小相同的画布;
所有图像按照扭曲以后的坐标位置依次放入画布中,如图6、图7和图8所示,不同时刻的图像分别在画布中的不同位置。
为了使得最终拼接效果更加自然,需要去除图像之间的重叠部分,即以中间帧为基准,按照由图像特征点之间的匹配关系得到的掩膜去裁剪相邻两帧图像之间的共有的部分,如图8所示。
最后将裁剪以后的图片按照顺序拼接起来就得到了最终的铁塔天线全景拼接图像,如图10所示。
本发明提出一种新的全景图像拼接方法,结合了SIFT和深度学习优化。通过利用SIFT算法的不变性和高效性,以及深度学习对丰富特征的捕捉能力,使用基于位姿图的联合优化方式,解决了现有技术中SIFT算法在铁塔天线场景中特征点的错误匹配以及深度学习效率低的问题。这种方法保持了图像拼接的高效率,同时更准确地估算了单应性矩阵,提高了铁塔天线全景图像拼接的准确性和稳定性。本发明能够解决在铁塔天线场景中,现有技术SIFT算法无法准确地匹配特征点以及深度学习图像拼接算法效率低的问题。
Claims (2)
1.一种基于SIFT与深度学习联合优化的铁塔天线全景图像拼接方法,其特征在于,包括以下步骤:
S1:使用摄像机采集铁塔天线图像数据,要求相邻两张图像的重叠区域面积占到整幅图像的1/4至1/2,得到图像序列,记为I,设图像序列为:I={I0,…,Ii,Ii+1},式中:0,…,i,i+1表示图像序列号;
S2:通过不同特征匹配网络获得图像几何特征对应关系以及图像SIFT特征对应关系,使用闭环检测网络来判断摄像机是否重访了之前的场景;
S3:将图像几何特征对应关系以及图像SIFT特征对应关系输入进单应性估计器生成相关的单应性变换矩阵,并且每个估计的变换矩阵都与一个协方差矩阵相关联,代表估计的确定性;
S4:通过构建位姿图来实现单应性变换矩阵的联合优化,根据优化后的单应性变换矩阵进行图像拼接,得到全景图像;
步骤S2中,以图像对的方式同时放入基于深度学习的几何特征匹配网络NGeo以及基于SIFT特征匹配网络NSIFT,分别得到图像几何特征对应关系MGeo以及图像SIFT特征对应关系MSIFT,在闭环检测网络NLC中,只将第一帧记为关键帧,再计算关键帧与其他帧的对应关系,记为MLC,来判断摄像机是否重访了之前的场景;
步骤S2中获得图像几何特征对应关系以及图像SIFT特征对应关系具体为:
S21:输入图像序列I={I0,…,Ii,Ii+1},对于几何特征匹配网络NGeo,流程是使用Res2Net网络提取图像对{Ii,Ii+1}的多尺度特征fi={fi 1,fi 2,fi 3,…,fi n},fi+1={fi+1 1,fi+1 2,fi+1 3,…,fi+1 n},其中,高维尺度特征经过粗匹配模块得到像素与像素粗略匹配Mc,并使用GeoFormer相应地识别输入图像对之间的潜在匹配区域,使用标准Transformer框架,GeoFormer以稀疏方式计算自注意力,同时,以集中的方式计算交叉注意力;通过两种注意力对粗略匹配Mc中的匹配点进行过滤,然后将过滤后的匹配点馈送到精细匹配模块,生成的精细匹配,即图像几何特征对应关系MGeo;
S22:输入图像序列I={I0,…,Ii,Ii+1},对于SIFT特征匹配网络NSIFT,流程是使用SIFT算法提取的特征描述子,在不同图像中寻找最相似的描述子,再通过计算描述子之间的相似性度量,就能找到在不同图像中对应的特征点,这些匹配的特征点对表示了在不同图像中具有相似视觉特征的位置,从而建立了图像特征点之间的匹配关系,即图像SIFT特征对应关系MSIFT;
S23:输入图像序列I={I0,…,Ii,Ii+1},对于闭环检测网络NLC,序列中的第一帧记为关键帧Ikey,然后从关键帧Ikey中提取的SIFT关键点特征,并且关键帧的SIFT特征使用库存储;将计算关键帧与其他帧之间的相似度,以检查摄像机是否重访了之前的场景,并且使用SIFT算法得到关键帧与其他帧的对应关系MLC,上述对应关系MGeo、MSIFT和MLC具体定义为:
其中:关键帧Ikey=I0;
步骤S3具体为:将图像几何特征以及图像SIFT特征对应关系输入进RANSAC的单应性估计器FRANSAC生成几何特征匹配的单应性变换矩阵HGeo、SIFT特征匹配的单应性变换矩阵HSIFT和闭环检测的单应性变换矩阵HLC,上述单应性变换矩阵HGeo、HSIFT和HLC;具体定义为:
同时,每个估计的变换矩阵都与一个协方差矩阵Σ相关联,代表估计的确定性;使用RANSAC方法识别离群值和异常值,离群值和异常值的识别是基于一幅图像中的一个点与另一幅图像中通过对应单应性变换矩阵重新投影的对应点之间的像素距离,几何特征匹配的单应性变换矩阵的协方差是根据离群值的比率计算的;SIFT特征匹配的单应性变换矩阵的小协方差以及闭环检测的单应性变换矩阵的协方差是根据离群值比率和特征数量共同计算的;
所述步骤S4具体为:
S41:将需要优化的位姿图构建为Φ={V,E},其中V={x0,x1,x2,...,xn}是顶点集,E={y0,1,y1,2,y2,3,...,yLC}是边集,y是由估计的单应性变换矩阵共同组成,x表示的第i幅图像相对于关键帧Ikey图像的变换,构成了需要估计的状态;边集定义了顶点对之间的约束条件,这些约束条件是由从单应性变换矩阵共同组成;
S42:对位姿图进行优化后能够得到最终进行图像拼接的优化后的单应性变换矩阵具体定义为:
S43:所有图像都能够根据序列中的中间帧进行拼接,得到全景图像。
2.根据权利要求1所述的一种基于SIFT与深度学习联合优化的铁塔天线全景图像拼接方法,其特征在于,所述步骤S4中全景图像拼接过程具体为:使用优化后的单应性变换矩阵对每幅图像的位置进行扭曲全景图的四个角的坐标,通过所有扭曲图像的两个方向上的最小角和最大角获得,创建一个与全景图大小相同的画布,所有图像按照扭曲以后的坐标位置依次放入画布中,不同时刻的图像分别在画布中的不同位置;为了使得最终拼接效果更加自然,需要去除图像之间的重叠部分,即以中间帧为基准,按照由图像特征点之间的匹配关系得到的掩膜去裁剪相邻两帧图像之间的共有的部分,最后将裁剪以后的图片按照顺序拼接起来就得到了最终的铁塔天线全景拼接图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410079474.3A CN118154417B (zh) | 2024-01-19 | 2024-01-19 | 基于sift与深度学习联合优化的铁塔天线全景图像拼接方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410079474.3A CN118154417B (zh) | 2024-01-19 | 2024-01-19 | 基于sift与深度学习联合优化的铁塔天线全景图像拼接方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118154417A CN118154417A (zh) | 2024-06-07 |
CN118154417B true CN118154417B (zh) | 2024-09-03 |
Family
ID=91286107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410079474.3A Active CN118154417B (zh) | 2024-01-19 | 2024-01-19 | 基于sift与深度学习联合优化的铁塔天线全景图像拼接方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118154417B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968777A (zh) * | 2012-11-20 | 2013-03-13 | 河海大学 | 一种基于重叠区域sift特征点的图像拼接方法 |
CN106683137A (zh) * | 2017-01-11 | 2017-05-17 | 中国矿业大学 | 基于人工标志的单目多目标识别与定位方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7460730B2 (en) * | 2005-08-04 | 2008-12-02 | Microsoft Corporation | Video registration and image sequence stitching |
CN116579920A (zh) * | 2023-04-12 | 2023-08-11 | 哈尔滨工程大学 | 一种基于异构多模全景立体成像系统图像拼接方法及系统 |
-
2024
- 2024-01-19 CN CN202410079474.3A patent/CN118154417B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968777A (zh) * | 2012-11-20 | 2013-03-13 | 河海大学 | 一种基于重叠区域sift特征点的图像拼接方法 |
CN106683137A (zh) * | 2017-01-11 | 2017-05-17 | 中国矿业大学 | 基于人工标志的单目多目标识别与定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN118154417A (zh) | 2024-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021142902A1 (zh) | 基于DANet的无人机海岸线漂浮垃圾巡检系统 | |
CN108960211B (zh) | 一种多目标人体姿态检测方法以及系统 | |
CN110008909A (zh) | 一种基于ai的实名制业务实时稽核系统 | |
CN104598883A (zh) | 一种多摄像机监控网络中目标再识别的方法 | |
Zhang et al. | Detecting and extracting the photo composites using planar homography and graph cut | |
CN112163995A (zh) | 一种超大航拍条带图像的拼接生成方法及装置 | |
CN111861866A (zh) | 一种变电站设备巡检图像全景重建方法 | |
CN112528902A (zh) | 一种基于3d人脸模型的视频监控动态人脸识别方法及装置 | |
CN116052222A (zh) | 自然采集牛脸图像的牛脸识别方法 | |
CN109858433B (zh) | 一种基于三维人脸模型识别二维人脸图片的方法及装置 | |
CN109544608B (zh) | 一种无人机图像采集特征配准方法 | |
Fang et al. | He-slam: A stereo slam system based on histogram equalization and orb features | |
CN109711420B (zh) | 基于人类视觉注意机制的多仿射目标的检测与识别方法 | |
CN115456870A (zh) | 基于外参估计的多图像拼接方法 | |
CN113343927B (zh) | 一种适用于面瘫患者的智能化人脸识别方法和系统 | |
CN114581307A (zh) | 用于目标追踪识别的多图像拼接方法、系统、设备及介质 | |
Cai et al. | Improving CNN-based planar object detection with geometric prior knowledge | |
CN118154417B (zh) | 基于sift与深度学习联合优化的铁塔天线全景图像拼接方法 | |
CN106934395B (zh) | 一种采用surf特征和颜色特征相融合的刚体目标跟踪方法 | |
CN116883248B (zh) | 一种基于特征点匹配的红外全景图像拼接方法 | |
CN115393196B (zh) | 一种无人机面阵摆扫的红外多序列影像无缝拼接方法 | |
CN113096016A (zh) | 一种低空航拍图像拼接方法和系统 | |
CN112418262A (zh) | 车辆再识别的方法、客户端及系统 | |
Lau et al. | Atdetect: Face detection and keypoint extraction at range and altitude | |
CN113469216B (zh) | 零售终端海报识别与完整性判断方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |