CN118154417B

CN118154417B - 基于sift与深度学习联合优化的铁塔天线全景图像拼接方法

Info

Publication number: CN118154417B
Application number: CN202410079474.3A
Authority: CN
Inventors: 缪燕子; 徐辰伟; 魏薇; 卜冉; 刘润翌
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2024-01-19
Filing date: 2024-01-19
Publication date: 2024-09-03
Anticipated expiration: 2044-01-19
Also published as: CN118154417A

Abstract

一种基于SIFT与深度学习联合优化的铁塔天线全景图像拼接方法，先将相邻两帧图像分别输入进基于几何特征匹配网络、基于SIFT特征匹配网络以及回环检测网络得到图像多模态特征匹配关系；再将特征匹配关系输入进RANSAC的单应性估计器得到多模态单应性变换矩阵以及表示矩阵估计确定性协方差矩阵；再使用基于位姿图的联合优化方式，优化多模态单应性变换矩阵；最后使用优化后的矩阵进行图像拼接得到全景图像。本发明能够将SIFT的不变性以及效率高的优势与深度学习能捕捉更丰富的特征信息的优势结合起来，在保证图像拼接效率的同时，更准确地估算单应性矩阵，提升了整体铁塔天线全景图像拼接的准确性和稳定性。

Description

基于SIFT与深度学习联合优化的铁塔天线全景图像拼接方法

技术领域

本发明涉及一种全景图像拼接方法，具体是一种基于SIFT与深度学习联合优化的铁塔天线全景图像拼接方法，属于图像处理技术领域。

背景技术

铁塔天线数量的统计是铁塔巡检中一项重要的工作，铁塔天线是保证铁塔正常运行的核心部件，目前这项工作仍然主要依赖人工统计，但是这种方式存在很多弊端，比如巡检视角受限，传统的人工上塔受到塔体结构的限制，塔维人员通过肉眼观察，容易产生隐患遗漏的情况，无法确认信息准确性，导致巡检效率降低，并且铁塔具有一定的高度，给巡检人员的人身安全带来了较大的风险，因此可以引入无人机设备，在高空中围绕着铁塔天线处拍摄图片，再使用全景图像拼接算法就能得到完整的全景图以便于巡检人员清点天线数量，提高了巡检任务的安全性和效率。目前全景图像拼接方法主要有传统算法与深度学习算法。

传统基于尺度不变特征转换(Scale-Invariant Feature Transform，SIFT)算法在图像拼接中常用于特征点检测和匹配。SIFT算法提取图像特征点，并为每个关键点生成描述符。在进行图像匹配时，将这些关键点的描述符作为输入，通过最近邻搜索生成密集匹配的关键点描述符。SIFT算法具有旋转和尺度不变性，能够在不同尺度和角度下检测和描述相同的特征点，因此在进行全景图像拼接时有较高的效率。然而，对于铁塔天线场景，由于物体之间的相似度太高，比如天线，栏杆等物体，SIFT算法可能无法准确地匹配特征点，这种情况会影响图像拼接的质量，并可能导致错误的拼接结果。

相比较使用传统SIFT算法进行图像拼接，基于深度学习的图像拼接算法可以端到端学习图像表示，这使得它能够更全面地理解图像中的内容和结构。对于铁塔天线场景中外观相似度较高的物体，深度学习模型通常能够利用更丰富、更复杂的特征表达方式，从而提高对这些区域的识别和匹配能力。这种更高级的特征表示使得基于深度学习的图像拼接方法更具有鲁棒性和适应性。但是，深度学习模型在处理全景图像拼接时可能面临内存和计算资源的限制，导致难以实现高效的全景图像拼接。

发明内容

本发明的目的是提供一种基于SIFT与深度学习联合优化的铁塔天线全景图像拼接方法，能够在保证特征点匹配速度的同时，提升铁塔天线场景中的特征匹配的准确性，进而确保整体铁塔天线全景图像拼接的准确性和效率。

为了实现上述目的，本发明提供一种基于SIFT与深度学习联合优化的铁塔天线全景图像拼接方法，包括以下步骤：

S1：使用摄像机采集铁塔天线图像数据，要求相邻两张图像的重叠区域面积占到整副图像的1/4至1/2，得到图像序列，记为I，设图像序列为：I＝{I₀,…,I_i,I_i+1}，式中：0,…,i,i+1表示图像序列号；

S2：通过不同特征匹配网络获得图像几何特征对应关系以及图像SIFT特征对应关系，使用闭环检测网络来判断摄像机是否重访了之前的场景；

S3：将图像几何特征以及图像SIFT特征对应关系输入进单应性估计器生成相关的单应性变换矩阵，并且每个估计的变换矩阵都与一个协方差矩阵相关联，代表估计的确定性；

S4：通过构建位姿图来实现单应性变换矩阵的联合优化，根据优化后的单应性变换矩阵进行图像拼接，得到全景图像。

本发明步骤S2中，以图像对的方式同时放入基于深度学习的几何特征匹配网络N_Geo以及SIFT特征匹配网络N_SIFT，分别得到图像几何特征对应关系M_Geo以及图像SIFT特征对应关系M_SIFT，在闭环检测网络N_LC中，只将第一帧记为关键帧，再计算关键帧与其他帧的对应关系，记为M_LC，来判断摄像机是否重访了之前的场景。

本发明步骤S2中获得图像几何特征对应关系以及图像SIFT特征对应关系具体为：

S21：输入图像序列I＝{I₀,...,I_i,I_i+1}，对于几何特征匹配网络N_Geo，流程是使用Res2Net网络提取图像对{I_i,I_i+1}的多尺度特征f_i＝{f_i ¹,f_i ²,f_i ³,...,f_i ⁿ}，f_i+1＝{f_i+1 ¹,f_i+1 ²,f_i+1 ³,...,f_i+1 ⁿ}，其中，高维尺度特征经过粗匹配模块得到像素与像素粗略匹配M_c，并使用GeoFormer相应地识别输入图像对之间的潜在匹配区域，使用标准Transformer框架，GeoFormer以稀疏方式计算自注意力，同时，以集中的方式计算交叉注意力；通过两种注意力对粗略匹配M_c中的匹配点进行过滤，然后将过滤后的匹配点馈送到精细匹配模块，生成的精细匹配M_Geo，即图像几何特征对应关系；

S22：输入图像序列I＝{I₀,...,I_i,I_i+1}，对于SIFT特征匹配网络N_SIFT，流程是使用SIFT算法提取的特征描述子，在不同图像中寻找最相似的描述子，再通过计算描述子之间的相似性度量(如欧氏距离、汉明距离等)，就能找到在不同图像中对应的特征点，这些匹配的特征点对表示了在不同图像中具有相似视觉特征的位置，从而建立了图像特征点之间的匹配关系M_SIFT，即图像SIFT特征对应关系；

S23：输入图像序列I＝{I₀,...,I_i,I_i+1}，对于闭环检测网络N_LC，序列中只有第一帧是关键帧，然后从关键帧中提取的SIFT关键点特征，并且关键帧的SIFT特征使用库存储；接下来计算关键帧与其他帧之间的相似度，以检查摄像机是否重访了之前的场景，并且使用SIFT算法得到关键帧与其他帧的对应关系M_LC，上述对应关系M_Geo、M_SIFT和M_LC具体定义为：

其中：关键帧I_Key＝I₀

本发明步骤S3具体为：将图像几何特征以及图像SIFT特征对应关系输入进RANSAC的单应性估计器F_RANSAC生成几何特征匹配的单应性变换矩阵、SIFT特征匹配的单应性变换矩阵和闭环检测的单应性变换矩阵，分别记为H_Geo、H_SIFT和H_LC，上述单应性变换矩阵H_Geo、H_SIFT和H_LC；具体定义为：

同时，每个估计的变换矩阵都与一个协方差矩阵Σ相关联，代表估计的确定性；使用RANSAC方法识别离群值和异常值，离群值和异常值的识别是基于一幅图像中的一个点与另一幅图像中通过对应单应性变换矩阵重新投影的对应点之间的像素距离，几何特征匹配的单应性变换矩阵的协方差是根据离群值的比率计算的；SIFT特征匹配的单应性变换矩阵的小协方差以及闭环检测的单应性变换矩阵的协方差是根据离群值比率和特征数量共同计算的。

本发明步骤S4具体为：

S41：将需要优化的位姿图构建为Φ＝{V,E}，其中V＝{x₀,x₁,x₂,...,x_n}是顶点集，E＝{y_0,1,y_1,2,y_2,3,...,y_LC}是边集，y是由估计的单应性变换矩阵共同组成，x表示的第i幅图像相对于关键帧I_key图像的变换，构成了需要估计的状态；边集定义了顶点对之间的约束条件，这些约束条件是由从单应性变换矩阵共同组成；

S42：对位姿图进行优化后能够得到最终进行图像拼接的优化后的单应性变换矩阵具体定义为：

S43：所有图像都能够根据序列中的中间帧进行拼接，得到全景图像。

本发明步骤S4中全景图像拼接过程具体为：使用优化后的单应性变换矩阵对每幅图像的位置进行扭曲全景图的四个角的坐标，通过所有扭曲图像的两个方向上的最小角和最大角获得，创建一个与全景图大小相同的画布，所有图像按照扭曲以后的坐标位置依次放入画布中，不同时刻的图像分别在画布中的不同位置；为了使得最终拼接效果更加自然，需要去除图像之间的重叠部分，即以中间帧为基准，按照由图像特征点之间的匹配关系得到的掩膜去裁剪相邻两帧图像之间的共有的部分，最后将裁剪以后的图片按照顺序拼接起来就得到了最终的铁塔天线全景拼接图像。

与现有技术相比，本发明针对SIFT算法无法准确地匹配特征点以及深度学习图像拼接算法效率低的问题，提供一种基于SIFT与深度学习联合优化的铁塔天线全景图像拼接方法，将获取的图像序列，以图像对的方式同时放入基于深度学习的几何特征匹配网络以及SIFT特征匹配网络分别得到图像几何特征对应关系以及图像SIFT特征对应关系，使用闭环检测得到关键帧与其他帧的对应关系来判断摄像机是否重访了之前的场景；将对应关系输入进RANSAC的单应性估计器生成基于几何特征匹配的单应性变换矩阵以及基于SIFT特征匹配的单应性变换矩阵；再通过构建位姿图来实现单应性变换矩阵的联合优化；最后根据获得的优化后的单应性变换矩阵进行图像拼接，得到全景图像。本发明在保证特征点匹配的速度的同时，使用深度学习方法提升铁塔天线场景中的特征匹配的准确性，进而确保整体全景图像拼接的准确性和效率。

附图说明

图1为本发明的方法的总体框架图；

图2为本发明的方法流程示意图；

图3为图像基于几何特征的匹配关系可视化效果图，其中图(a)表示第一帧图片与第二帧图片正确的几何特征匹配关系，图(b)表示第二帧图片与第三帧图片正确的几何特征匹配关系；

图4为图像基于SIFT特征的匹配关系可视化效果图,其中图(a)表示第一帧图片与第二帧图片正确的SIFT特征匹配关系，图(b)表示第二帧图片与第三帧图片正确的SIFT特征匹配关系，(c)表示表示第一帧图片与第三帧图片错误的SIFT特征匹配关系；

图5为由单应性变换矩阵构建的位姿图；

图6为第一帧图片在全景画布中的位置图；

图7为第二帧图片在全景画布中的位置图；

图8为第三帧图片在全景画布中的位置图；

图9为去除图像之间重叠区域的掩膜图；

图10为铁塔天线全景图像拼接图。

具体实施方式

下面结合附图对本发明做进一步说明。

如图1和图2所示，一种基于SIFT与深度学习联合优化的铁塔天线全景图像拼接方法，包括以下步骤：

S1：使用摄像机采集铁塔天线图像数据，要求相邻两张图像的重叠区域面积占到整副图像的1/4至1/2，得到图像序列，记为I，设图像序列为：I＝{I₀,...,I_i,I_i+1}，式中：0,...,i,i+1表示图像序列号；

以图像对的方式同时放入基于深度学习的几何特征匹配网络N_Geo以及SIFT特征匹配网络N_SIFT，分别得到图像几何特征对应关系M_Geo以及图像SIFT特征对应关系M_SIFT，使用闭环检测网络N_LC，只将第一帧记为关键帧，再计算关键帧与其他帧的对应关系，记为M_LC，来判断摄像机是否重访了之前的场景。

获得图像几何特征对应关系以及图像SIFT特征对应关系具体为：

S21：输入图像序列I＝{I₀,...,Ii,Ii₊₁}，对于几何特征匹配网络N_Geo，流程是使用Res2Net网络提取图像对{I_i,I_i+1}的多尺度特征f_i＝{f_i ¹,f_i ²,f_i ³,...,f_i ⁿ}，f_i+1＝{f_i+1 ¹,f_i+1 ²,f_i+1 ³,...,f_i+1 ⁿ}，其中，高维尺度特征经过粗匹配模块得到像素与像素粗略匹配M_c，并使用GeoFormer相应地识别输入图像对之间的潜在匹配区域，使用标准Transformer框架，GeoFormer以稀疏方式计算自注意力，同时，以集中的方式计算交叉注意力；通过两种注意力对粗略匹配M_c中的匹配点进行过滤，然后将过滤后的匹配点馈送到精细匹配模块，生成的精细匹配M_Geo，即图像几何特征对应关系；

S22：输入图像序列I＝{I₀,...,Ii,Ii₊₁}，对于SIFT特征匹配网络N_SIFT，流程是使用SIFT算法提取的特征描述子，在不同图像中寻找最相似的描述子，再通过计算描述子之间的相似性度量(如欧氏距离、汉明距离等)，就能找到在不同图像中对应的特征点，这些匹配的特征点对表示了在不同图像中具有相似视觉特征的位置，从而建立了图像特征点之间的匹配关系M_SIFT，即即图像SIFT特征对应关系；

S23：输入图像序列I＝{I₀,...,I_i,I_i+1}，对于闭环检测网络N_LC，序列中只有第一帧记为关键帧，然后从关键帧中提取的SIFT关键点特征，并且关键帧的SIFT特征使用库存储；接下计算计算关键帧与其他帧之间的相似度，以检查摄像机是否重访了之前的场景；并且使用SIFT算法得到关键帧与其他帧的对应关系M_LC，上述对应关系M_Geo、M_SIFT和M_LC具体定义为：

其中：关键帧I_Key＝I₀

具体为：将图像几何特征以及图像SIFT特征对应关系输入进RANSAC的单应性估计器F_RANSAC生成几何特征匹配的单应性变换矩阵、SIFT特征匹配的单应性变换矩阵和闭环检测的单应性变换矩阵，分别记为H_Geo、H_SIFT和H_LC，上述单应性变换矩阵H_Geo、H_SIFT和H_LC，具体定义为：

同时，每个估计的变换矩阵都与一个协方差矩阵Σ相关联，代表估计的确定性；使用RANSAC方法识别离群值和异常值，离群值和异常值的识别是基于一幅图像中的一个点与另一幅图像中通过对应单应性变换矩阵重新投影的对应点之间的像素距离，几何特征匹配的单应性变换矩阵的协方差是根据离群值的比率计算的；SIFT特征匹配的单应性变换矩阵的协方差以及闭环检测的单应性变换矩阵的协方差是根据离群值比率和特征数量共同计算的。

S4：通过构建位姿图来实现单应性变换矩阵的联合优化，根据优化后的单应性变换矩阵进行图像拼接，得到全景图像；

S4具体为：

S41：将需要优化的位姿图构建为Φ＝{V,E}，其中V＝{x₀,x₁,x₂,...,x_n}是顶点集，E＝{y_0,1,y_1,2,...,y_LC}是边集，y是由估计的单应性变换矩阵共同组成，x表示的第i幅图像相对于关键帧I_key图像的变换，构成了需要估计的状态；边集定义了顶点对之间的约束条件，这些约束条件是由从单应性变换矩阵共同组成；

所述步骤S4中全景图像拼接过程具体为：使用优化后的单应性变换矩阵对每幅图像的位置进行扭曲全景图的四个角的坐标，通过所有扭曲图像的两个方向上的最小角和最大角获得，创建一个与全景图大小相同的画布，所有图像按照扭曲以后的坐标位置依次放入画布中，不同时刻的图像分别在画布中的不同位置；为了使得最终拼接效果更加自然，需要去除图像之间的重叠部分，即以中间帧为基准，按照由图像特征点之间的匹配关系得到的掩膜去裁剪相邻两帧图像之间的共有的部分，最后将裁剪以后的图片按照顺序拼接起来就得到了最终的铁塔天线全景拼接图像。

给出本发明的一个实施例

在铁塔天线场景中，传统SIFT图像拼接算法会检测到过多的关键点，导致图像特征点之间的不准确匹配；而基于深度学习的图像拼接算法虽然能够利用更丰富、更复杂的特征表达方式，从而提高对这些区域的识别能力，会提高图像匹配的准确率，但是深度学习模型在处理全景图像拼接时面临内存和计算资源的限制，会使得整体拼接效率下降；为了有效解决这些缺点，本发明公开了一种基于SIFT与深度学习联合优化的铁塔天线全景图像拼接方法，具体步骤如下：

步骤S1：使用摄像机采集图像数据；

如图1的总体框架图所示，在图像数据采集的过程中，要求相邻两张图像的重叠区域面积占到整副图像的1/4至1/2，得到图像序列，记为I；

设图像序列为：I＝{I₀,...,I_i,I_i+1}，式中：0,...,i,i+1表示图像序列号；

步骤S2：多模态图像配准，通过不同特征匹配网络获得图像几何特征对应关系以及图像SIFT特征对应关系，由于图像采集是一个闭环的过程，因此可以使用闭环检测网络来判断摄像机是否重访了之前的场景；

对于图像几何特征对应关系匹配网络N_Geo，输入图像序列I＝{I₀,...,Ii,Ii₊₁}，使用Res2Net网络(Gao S H,Cheng M M,Zhao K,et al.Res2net:A new multi-scalebackbone architecture[J].IEEE transactions on pattern analysis and machineintelligence,2019,43(2):652-662.)提取图像对{P_i,P_i+1}的多尺度特征f_i＝{f_i ¹,f_i ²,f_i ³,...,f_i ⁿ}，f_i+1＝{f_i+1 ¹,f_i+1 ²,f_i+1 ³,...,f_i+1 ⁿ}。Res2Net中的特征图分支允许不同分支之间进行信息交流，以及跨层级之间的信息传递。这种交流机制有助于提高特征的表征能力，增强网络对铁塔天线特征的表示能力，能够提取更加精细的特征，有利于后续的特征匹配。对于提取之后的多尺度特征，高维尺度特征经过粗匹配模块得到像素与像素粗略匹配M_c，并使用GeoFormer(Liu J,Li X.Geometrized Transformer for Self-SupervisedHomography Estimation[C]//Proceedings of the IEEE/CVF InternationalConference on Computer Vision.2023:9556-9565.)相应地识别输入图像对之间的潜在匹配区域，使用标准Transformer框架GeoFormer以稀疏方式计算自注意力，即重点关注单张图像本身的几何结构明显特征；同时，以集中的方式计算交叉注意力，即重点关注两张图像之间几何结构相似的特征。通过两种注意力对粗略匹配M_c中的匹配点进行过滤，然后将过滤后的匹配点馈送到精细匹配模块，生成图像几何特征对应关系M_Geo；

将图像几何特征对应关系M_Geo可视化，如图3所示，铁塔天线场景的几何结构特征之间的得到很好的匹配；

上述图像几何特征对应关系M_Geo可以定义为：

对于SIFT特征匹配网络N_SIFT，输入图像序列I＝{I₀,...,I_i,I_i+1}，使用SIFT算法提取的特征描述子，在不同图像中寻找最相似的描述子，再通过计算描述子之间的相似性度量(如欧氏距离、汉明距离等)，就可以找到在不同图像中对应的特征点。这些匹配的特征点对表示了在不同图像中具有相似视觉特征的位置，从而建立了图像特征点之间的图像SIFT特征对应关系M_SIFT；

将图像SIFT特征对应关系M_SIFT可视化，如图4所示，铁塔天线场景的纹理特征之间的得到了一定程度的匹配，同时会出现一些错误匹配图4中，图(a)表示第一帧图片与第二帧图片正确的SIFT特征匹配关系，图(b)表示第二帧图片与第三帧图片正确的SIFT特征匹配关系，(c)表示表示第一帧图片与第三帧图片错误的SIFT特征匹配关系；但由于网络还学习到了铁塔天线场景中的几何结构特征匹配关系，所以网络能够在一定程度上抑制错误匹配，降低对最终全景图像拼接准确性的影响。

上述图像SIFT特征对应关系M_SIFT可以定义为：

对于闭环检测网络N_LC，输入图像序列I＝{I₀,…,I_i,I_i+1}，序列中的第一帧是关键帧，然后从关键帧中提取的SIFT关键点特征，并且将关键帧的SIFT特征使用库存储，将计算关键帧与其他帧之间的相似度，以检查摄像机是否重访了之前的场景，并且使用SIFT算法得到关键帧与其他帧的对应关系M_LC；

上述对应关系M_LC具体可以定义为：

步骤S3：单应性矩阵估计与方差估计，

将上述对应关系M_Geo、M_SIFT和M_LC输入进RANSAC的单应性估计器F_RANSAC生成几何特征匹配的单应性变换矩阵、SIFT特征匹配的单应性变换矩阵和闭环检测的单应性变换矩阵，分别记为H_Geo、H_SIFT和H_LC；

基于RANSAC的单应性估计器过程可以建模为：

其中[u，v，1]表示目标图像的特征点齐次坐标，[u'，v'，1]表示源图像的特征点其次坐标，并且[u，v，1]、[u'，v'，1]是两幅图像中的匹配特征点中组成匹配点对，s表示图像缩放因子，H表示单应性变换矩阵。

上述对应关系H_Geo、H_SIFT和H_LC；具体可以定义为：

同时，每个估计的变换矩阵都与一个协方差矩阵Σ相关联，代表估计的确定性；协方差矩阵可以用来衡量估计的变换矩阵的置信度或确定性，对角线上的元素通常表示估计参数的方差，非对角线元素则表示不同参数之间的协方差，较小的方差意味着估计结果更可靠，更大的方差可能表示估计结果的不确定性更高。

使用RANSAC方法识别离群值和异常值，离群值和异常值的识别是基于一幅图像中的一个点与另一幅图像中通过对应单应性变换举证重新投影的对应点之间的像素距离。

基于几何特征Geo的单应性变换矩阵的协方差是根据离群值的比率计算的。

基于手工特征SIFT的单应性变换矩阵的协方差以及用于闭环检测的协方差基于是根据离群值比率和特征数量共同计算的。

步骤S4：优化与拼接，

将需要优化的位姿图可以构建为Φ＝{V,E}，其中V＝{x₀,x₁,x₂,...,x_n}是顶点集，E＝{y_0,1,y_1,2,...,y_LC}是边集，y是由估计的单应性变换矩阵共同组成，x表示的第i幅图像相对于关键帧I_key图像的变换，它们构成了需要估计(优化)的状态。边集定义了顶点对之间的约束条件，这些约束条件是由从单应性变换矩阵共同组成；

所构建的位姿图如图5所示，随机生成起始点，根据单应性变换矩阵得到变换后的轨迹点，再对进行仿射变换得到对应的仿射变换矩阵，得到不同顶点之间基于几何特征以及基于SIFT特征的边约束，最后用基于闭环检测的边约束来进行整体位姿图收敛。

对位姿图进行优化后可以得到最终进行图像拼接的单应性变换矩阵具体可以定义为：

所有图像都可以根据序列中的中间帧进行拼接，使用优化后的单应性变换矩阵对每幅图像的位置进行扭曲；

全景图的四个角的坐标可以通过所有扭曲图像的两个方向上的最小角和最大角获得，创建一个与全景图大小相同的画布；

所有图像按照扭曲以后的坐标位置依次放入画布中，如图6、图7和图8所示，不同时刻的图像分别在画布中的不同位置。

为了使得最终拼接效果更加自然，需要去除图像之间的重叠部分，即以中间帧为基准，按照由图像特征点之间的匹配关系得到的掩膜去裁剪相邻两帧图像之间的共有的部分，如图8所示。

最后将裁剪以后的图片按照顺序拼接起来就得到了最终的铁塔天线全景拼接图像，如图10所示。

本发明提出一种新的全景图像拼接方法，结合了SIFT和深度学习优化。通过利用SIFT算法的不变性和高效性，以及深度学习对丰富特征的捕捉能力，使用基于位姿图的联合优化方式，解决了现有技术中SIFT算法在铁塔天线场景中特征点的错误匹配以及深度学习效率低的问题。这种方法保持了图像拼接的高效率，同时更准确地估算了单应性矩阵，提高了铁塔天线全景图像拼接的准确性和稳定性。本发明能够解决在铁塔天线场景中，现有技术SIFT算法无法准确地匹配特征点以及深度学习图像拼接算法效率低的问题。

Claims

1.一种基于SIFT与深度学习联合优化的铁塔天线全景图像拼接方法，其特征在于，包括以下步骤：

S1：使用摄像机采集铁塔天线图像数据，要求相邻两张图像的重叠区域面积占到整幅图像的1/4至1/2，得到图像序列，记为I，设图像序列为：I＝{I₀,…,I_i,I_i+1}，式中：0,…,i,i+1表示图像序列号；

S3：将图像几何特征对应关系以及图像SIFT特征对应关系输入进单应性估计器生成相关的单应性变换矩阵，并且每个估计的变换矩阵都与一个协方差矩阵相关联，代表估计的确定性；

步骤S2中，以图像对的方式同时放入基于深度学习的几何特征匹配网络N_Geo以及基于SIFT特征匹配网络N_SIFT，分别得到图像几何特征对应关系M_Geo以及图像SIFT特征对应关系M_SIFT，在闭环检测网络N_LC中，只将第一帧记为关键帧，再计算关键帧与其他帧的对应关系，记为M_LC，来判断摄像机是否重访了之前的场景；

步骤S2中获得图像几何特征对应关系以及图像SIFT特征对应关系具体为：

S21：输入图像序列I＝{I₀,…,I_i,I_i+1}，对于几何特征匹配网络N_Geo，流程是使用Res2Net网络提取图像对{I_i,I_i+1}的多尺度特征f_i＝{f_i ¹,f_i ²,f_i ³,…,f_i ⁿ}，f_i+1＝{f_i+1 ¹,f_i+1 ²,f_i+1 ³,…,f_i+1 ⁿ}，其中，高维尺度特征经过粗匹配模块得到像素与像素粗略匹配M_c，并使用GeoFormer相应地识别输入图像对之间的潜在匹配区域，使用标准Transformer框架，GeoFormer以稀疏方式计算自注意力，同时，以集中的方式计算交叉注意力；通过两种注意力对粗略匹配M_c中的匹配点进行过滤，然后将过滤后的匹配点馈送到精细匹配模块，生成的精细匹配，即图像几何特征对应关系M_Geo；

S22：输入图像序列I＝{I₀,…,I_i,I_i+1}，对于SIFT特征匹配网络N_SIFT，流程是使用SIFT算法提取的特征描述子，在不同图像中寻找最相似的描述子，再通过计算描述子之间的相似性度量，就能找到在不同图像中对应的特征点，这些匹配的特征点对表示了在不同图像中具有相似视觉特征的位置，从而建立了图像特征点之间的匹配关系，即图像SIFT特征对应关系M_SIFT；

S23：输入图像序列I＝{I₀,…,I_i,I_i+1}，对于闭环检测网络N_LC，序列中的第一帧记为关键帧I_key，然后从关键帧I_key中提取的SIFT关键点特征，并且关键帧的SIFT特征使用库存储；将计算关键帧与其他帧之间的相似度，以检查摄像机是否重访了之前的场景，并且使用SIFT算法得到关键帧与其他帧的对应关系M_LC，上述对应关系M_Geo、M_SIFT和M_LC具体定义为：

其中：关键帧I_key＝I₀；

步骤S3具体为：将图像几何特征以及图像SIFT特征对应关系输入进RANSAC的单应性估计器F_RANSAC生成几何特征匹配的单应性变换矩阵H_Geo、SIFT特征匹配的单应性变换矩阵H_SIFT和闭环检测的单应性变换矩阵H_LC，上述单应性变换矩阵H_Geo、H_SIFT和H_LC；具体定义为：

同时，每个估计的变换矩阵都与一个协方差矩阵Σ相关联，代表估计的确定性；使用RANSAC方法识别离群值和异常值，离群值和异常值的识别是基于一幅图像中的一个点与另一幅图像中通过对应单应性变换矩阵重新投影的对应点之间的像素距离，几何特征匹配的单应性变换矩阵的协方差是根据离群值的比率计算的；SIFT特征匹配的单应性变换矩阵的小协方差以及闭环检测的单应性变换矩阵的协方差是根据离群值比率和特征数量共同计算的；

所述步骤S4具体为：

2.根据权利要求1所述的一种基于SIFT与深度学习联合优化的铁塔天线全景图像拼接方法，其特征在于，所述步骤S4中全景图像拼接过程具体为：使用优化后的单应性变换矩阵对每幅图像的位置进行扭曲全景图的四个角的坐标，通过所有扭曲图像的两个方向上的最小角和最大角获得，创建一个与全景图大小相同的画布，所有图像按照扭曲以后的坐标位置依次放入画布中，不同时刻的图像分别在画布中的不同位置；为了使得最终拼接效果更加自然，需要去除图像之间的重叠部分，即以中间帧为基准，按照由图像特征点之间的匹配关系得到的掩膜去裁剪相邻两帧图像之间的共有的部分，最后将裁剪以后的图片按照顺序拼接起来就得到了最终的铁塔天线全景拼接图像。