本文内容来源于《测绘学报》2023年第8期(审图号GS京(2023)1524号)
吕可枫1, 张永生2, 于英2, 闵杰3
1. 61290部队, 上海 200442;
2. 信息工程大学地理空间信息学院, 河南 郑州 450001;
3. 96863部队, 河南 洛阳 471000
基金项目:国家自然科学基金(42071340);中原学者首席科学家工作室专项(2018007)
摘要:随着地理空间科学的迅速发展, 面向地理空间智能感知应用的研究日益增多。本文以三维模型为先验数据, 提出了一种基于语义信息和地理配准的实例目标智能感知与定位的方法。首先, 使用载体上搭载的GNSS和IMU(inertial measurement unit)获取传感器的位姿, 并利用初始位姿从先验的三维模型实时渲染图像, 同时用深度相机获取当前帧的真实场景图像; 其次, 对真实图像和渲染图像进行全景分割, 使用语义分割结果对两幅图进行匹配, 获取匹配点对; 然后, 使用匹配点信息得到两个图像的运动关系, 并根据运动参数和三维模型的地理坐标信息对传感器位姿进行优化; 最后, 使用更新后的传感器位姿、实例分割结果及对应深度信息对目标进行感知和定位。针对不同类型三维模型, 使用不同类型图像数据进行了测试, 并与多种匹配算法进行了对比, 结果表明本文算法能够提高匹配准确率和定位精度, 并能有效对目标进行感知和定位。关键词:地理空间智能 地理配准 全景分割 目标定位
吕可枫, 张永生, 于英, 等. 语义信息与地理配准相结合的实例目标定位[J]. 测绘学报,2023,52(8):1375-1386. DOI:
10.11947/j.AGCS.2023.20220008
Lü Kefeng, ZHANG Yongsheng, YU Ying, et al. Instance object localization based on semantic information and geo-registration[J]. Acta Geodaetica et Cartographica Sinica, 2023, 52(8): 1375-1386. DOI: 10.11947/j.AGCS.2023.20220008
阅读全文:http://xb.chinasmp.com/article/2023/1001-1595/20230814.htm随着物联网、地理空间科学等技术的迅速发展,数字浪潮席卷全球,地理空间智能作为地理空间科学和人工智能深度融合的交叉领域,显示出巨大活力和潜能[1]。得益于软件综合算力的增强,数据与模型共享不断进展,各类传感器性能不断提高,成本持续降低,地理空间智能感知获得越来越多的研究投入。现阶段地理空间三维重建已取得了丰富的研究成果,能够很好地表达静态场景,然而世界是动态的,只有对动态地理空间进行动态的感知和理解,才能更好地服务于自动驾驶[2]、增强现实[3]等高级应用。要实现地理空间智能感知,在复杂地理空间中对潜在动态目标进行感知和定位是不可绕过的核心环节。本文提出了一种基于全景分割[4]的虚实地理配准方法,并在此基础上实现了对场景中目标的感知与定位。
受启发于许多增强现实驱动系统,本文研究要求预先对目标区域建立一个带有地理参考坐标的实景三维模型,在此基础上对传感器载体(如无人机、无人车)进行精确定位,进而完成场景内目标的感知和定位。在此项工作中,首先需要完成传感器与三维模型的精确配准。在国内外研究中,主要包括两大类:一类是基于位姿传感器的地理配准方法,一些方法[5-6]采用人工布设或者基于同步定位与制图(simultaneous localization and mapping, SLAM)来实现简易配准应用于小场景,文献[7—8]则结合了增强现实和地理信息系统实现了户外大范围场景的地理配准。这类方法虽然高效且能适应多种环境,但其配准精度不足,若将其作为先验位姿来对场景内其他目标进行定位,则会累积更大的误差。另一类方法通过匹配来完成,文献[9—10]等对输入图像和来自LiDAR数据的地理参考模型特征(如建筑轮廓和天际线)进行了匹配。文献[11]提出了有效结合RGB图像和LiDAR数据的形状特征和语义特征的方法,实现了大场景的视觉定位。文献[12]首先利用导航模块预测的姿态与LiDAR数据地理参考模型进行配准,而后通过匹配天际线来细化姿态。文献[13]通过建立地面相机与无人机三维模型渲染图像之间的转换关系,提高了虚拟实景配准的精度,但这些方法配准精度依赖于匹配精度,对数据要求过高,缺乏稳定性。
本文方法对传感器获取的真实场景图像与三维模型中渲染得到的图像进行匹配,间接建立三维模型和二维影像之间的关系,通过计算图像间的位姿变换参数,来提高导航系统提供的定位精度。渲染图像的质量取决于三维模型的质量,同时成像机理和时相差异等因素会给异源影像的特征带来差异,因此影像之间的异源匹配是亟须解决的核心问题。在传统的匹配方法中,基于特征的匹配方法通过提取一定邻域内的局部特征作为描述子来进行匹配,最著名的是尺度不变特征转换(scale invariant feature transformation, SIFT)描述子[14]及一些在此基础上改进的SIFT算法[15-16],这类方法多数不能提供稳定的特征,因此在异源匹配工作中难以取得良好的匹配效果;而基于模板的匹配方法虽然能获取更大范围内的不变特征,但其扩展能力和匹配效率使得这类方法的拓展性有限,泛化能力不足。近年来随着深度学习方法在计算机视觉任务中的飞速发展,越来越多的深度学习匹配算法被提出,且取得了较大进展。例如SuperGlue[17]引入一种注意力聚合机制,能够联合推理底层3D场景和特征,取得了先进的匹配结果。DFM[18]利用现有网络学习最深层次的不变性,结合语义特征来实现图像匹配。文献[19]在引入D2-Net[20]特征提取的基础上,提出了一种利用高层语义局部特征的异源遥感影像匹配网络CMM-Net。然而这类基于深度学习的匹配方法对样本要求较高,需要进行大量学习, 在面对不同质量的、不同纹理特点的图像对时,其匹配效果可能会存在较大差异。
面向地理空间智能感知的需求,本文提出了一种基于全景分割的图像配准方法,利用语义分割结果,对三维模型中渲染的图像和传感器获得的真实图像进行匹配,精细化传感器的位姿,进而实现更高精度的地理配准,并通过实例分割结果和深度信息,完成场景中目标的感知与定位。高精度的地理配准和传感器定位精度有助于提升目标的定位精度。
本文方法主要包括3个部分,基于语义分割的地理配准、传感器位姿的细化和预测,以及实例目标的感知与定位。本文方法基于一个预先建立的场景三维模型来完成,流程如图 1所示:①使用传感器载体上搭载的差分GNSS、IMU及预先标定的参数估计传感器位姿;②用深度相机获取当前帧的RGB-D图像,同时利用初始位姿从地理空间三维模型实时渲染图像;③对真实场景图像和渲染图像进行全景分割,使用得到的语义分割结果对两幅图进行匹配,获取匹配点;④使用匹配信息恢复两幅图像成像中心(相机)的相对运动参数,并根据此参数和初始位姿对传感器位姿进行优化;⑤利用更新后的传感器位姿、实例分割结果以及对应深度信息对目标进行感知与定位。在传感器运动过程中,与SLAM中定位的思想类似,传感器的运动会在GNSS和IMU的约束下通过图像帧与帧之间的关系进行解算,是一个不断优化的过程。 |
图 1 本文方法流程Fig. 1 The workflow of our method |
|
全景分割[4]任务是将语义分割和实例分割统一的新型分割任务。区别于语义分割任务,它需要细分图像中的实例对象; 区别于实例分割任务,需要对图像全像素分类。本文方法引入了全景分割,利用静态区域的语义分割结果进行真实图像和渲染图像的匹配,利用图像中的实例分割结果来进行目标的感知与定位。此项工作使用MaskFormer[21]作为全景分割网络,支持图像、视频作为输入。MaskFormer模型引入了在DETR[22]中提出的双向匹配损失函数,使用一个Transformer[23]作为解码器来计算由点对组成的集合,其中每个对都包含类预测和掩码嵌入向量,统一地解决了语义级和实例级分割任务。使用的MaskFormer模型以Swin-L作为网络骨架,在COCO数据集上取得了52.7PQ(panoptic quality,全景分割评价指标),是当前最先进的全景分割网络。供训练使用的COCO训练集包含了包括人、自行车、汽车在内的80种实例标签,以及建筑物、道路、天空在内的52种语义标签,使模型能满足绝大多数自然场景。同时为了满足实时性的要求,通过在每个反卷积层中去除冗余的核,在保证精度不降低的前提下,提高了每张图像的分割速度。直接性地理配准过程使用了传感器载体上搭载的差分GNSS和IMU数据,其中差分GNSS系统的精度在亚米级,IMU的精度同样也是可靠的,因此基于惯导组合的地理初配准过程是相对可靠的。本文方法使用带有地理坐标的三维模型作为先验数据,若要利用模型地理数据精细化传感器位姿,会涉及三维模型数据和二维地面图像匹配的问题。由于数据类型和视点变化等因素,对二者直接进行匹配是一个挑战性的过程,因此所提方法使用了渲染的机理,即根据传感器初始的位姿参数获取相应视点的渲染图像,将二维图像和三维模型的匹配的问题转化为图像之间的匹配问题。渲染系统可以模拟真实相机的位姿和参数,从三维模型的任意视角渲染图像。匹配的流程图如图 2所示:①首先对真实地面图像和模型渲染图像进行全景分割,得到各个分割区域的边缘信息;②对边缘线的角点进行检测,将检测得到的关键点作为候选匹配点;③为每个候选匹配点建立描述子,使用相应匹配规则进行匹配,筛选后得到匹配结果。 |
图 2 基于语义的匹配方法流程Fig. 2 The workflow of matching based on semantic information |
|
常见的角点检测算法可以归纳为3类,分别为基于灰度图的角点检测、基于二值图像的角点检测以及基于轮廓曲线的角点检测。其中最著名的角点检测算法包括Harris角点检测算法[24]和Shi-Tomasi角点检测算法[25]。但由于图像中的边缘信息是全景分割得到的像素级分类结果,得到的边缘可能存在大量微细的锯齿状线段,并非是规则的边缘曲线,因此使用传统的角点检测算法可能会导致检测出大量的错误角点,对后续的建立描述子和匹配过程会带来较大的误差,同时会带来额外的工作量。为了提高效率和准确率,本文设计了一种基于角度阈值的角点检测方法。具体过程如下:首先遍历分割轮廓上的点,并以其为中心点建立一个正方形框,得到正方形框与分割轮廓的交点;在得到交点后,以中心点为中间点,中心点与交点的线段作为边,计算得到中心点的夹角,并设置相应阈值,将符合条件的点作为候选的角点。考虑到轮廓的宽度分布在1~3个像素,会对交点的获取和选择过程产生一定影响,对角度计算产生一定幅度的波动。因此,在匹配过程中,将角度上下阈值分别设定为150°和30°,即角度在[30°, 150°]范围内的点判定为角点。为了提高角点检测的正确率,进一步设计了角点筛选方案:①考虑到图像的尺寸以及微细锯齿状带来的影响,建立了两个边长分别为11和19个像素的正方形框,并分别计算了其交点与中心点的角度,同时满足“两个角度都在阈值范围内”和“两个角度的差值在10°以内”两个条件的作为候选角点;②针对同一个角点区域多个像素点符合初步筛选的情况,取两个角度差值最小的角点作为关键点。在得到关键点后,下一步是为每个点建立相应特征描述。虽然真实地面图像和模型渲染图像在视觉效果上较为相似,然而由于其成像原理和由外部因素(如光照)不同,其局部纹理结构存在不同程度的差异,若直接使用常规特征描述子难以完成匹配,这个问题在先验三维模型纹理效果不佳时尤为明显。因此结合关键点的提取过程,设计了一个原理简单且有效的描述子。如式(1)所示式中,angle1和angle2代表夹角角度;labelN代表第N个像素点的标签值。描述子由两部分组成,第一部分为选取关键点过程中两个角度的平均值(包括角度朝向);第二部分为40个像素点的语义标签,以边长为11的正方形框左上角为起点,顺时针方向获取。针对第一个描述子,使用两个关键点的角度的商来描述匹配程度,如式(2)所示式中,def1min为角度小的描述子;def1max为角度较大的描述子;match1的值越接近1则表示两个描述子越匹配。针对第二个描述子,使用两个描述子的对齐程度来描述匹配程度,如式(3)所示式中,Ntrue为def2中标签对应的数量;N为标签总数。match2的值越接近1,则表示两个描述子越匹配。如式(4)所示,最终的匹配程度由match1和match2加权求和进行表示在实际应用情况中,可以根据传感器实际情况来对匹配策略进行调整。例如传感器搭载在地面无人车上时,传感器的位姿经过与小车车身的严格标定后,传感器的视角方向和离地面的高度都是固定且已知的。同时,IMU传感器在固定重力方向的前提下,车载导航模块对于传感器姿态的横移和俯仰的估计值也是可靠的。在这种情况下,匹配点的搜索过程可以简化到近似一维相关(沿水平轴)。例如传感器搭载在无人机上时,同样可以通过固定飞行高度和保持传感器姿态不变,进而减小匹配点搜索区域,提高匹配精度和效率。在获取匹配点对后,需要利用匹配点对信息计算真实地面图像和模型渲染图像成像中心的运动情况,而后根据先前导航组合估计的初始位姿反算出传感器的真实位姿,实现精细化地理配准,为后续的目标感知与定位和可视化工作服务。方法中使用对极几何约束解算传感器的真实位姿,通过二维图像点之间的对应关系,恢复出在两张图像之间成像中心的运动。对极几何约束的原理如图 3所示,若要计算地面真实图像I1和模型渲染图像I2之间的运动关系,设运动为R、t,相机中心分别为O1和O2,p1和p2为匹配得到的点对,在已知相机内参、p1和p2的像素坐标以及通过地理空间三维模型得到的O2真实坐标后,可以利用投影关系计算出O1的真实坐标。根据文献[26]中对对极几何约束的介绍,可以获得对极约束式(5) |
图 3 对极几何约束Fig. 3 Epipolar geometry constraint |
|
式中,E和F分别为本质矩阵(Essential Matrix)和基础矩阵(Fundamental Matrix), K为相机内参矩阵,x1和x2为两个像素电脑在归一化平面上的坐标。式(5)简洁地给出了两个匹配点的空间位置关系,因此相机姿态估计问题转化为以下两个步骤,首先根据匹配点对的像素位置求出E或F,而后根据E或F求出R、t。由于本质矩阵E在形式上更为简洁,因此选取E进行求解。根据E的定义和性质,其具有5个自由度,最少可以使用5对点来进行求解,考虑到其非线性的内在性质,使用八点法(eight-point-algorithm)进行求解,具体过程如下:在一对匹配点中,设归一化坐标为x1=[u1, v1, 1]T, x2=[u2, v2, 1]T,根据对极约束可以得到式(6)将矩阵E展开成向量的形式可以得到e =[e1, e2, e3, e4, e5, e6, e7, e8, e9]T, 对极约束可以写成线性形式[u2u1, u2v1, u2, v2u1, v2v1, v2, u1, v1, 1]· e =0。同样,其他点对也可以如此表示,将所有点都放到一个矩阵方程中可以得到若该矩阵满足满秩条件,就可以解算出本质矩阵E。最后一步是通过估计所得的本质矩阵E恢复出两个成像中心的运动R、t,这个过程由奇异值分解(singular value decomposition, SVD)来完成。最后,根据传感器初始位姿和估计得到的R和t估计出传感器的真实位姿,进而达到地理精细化配准的目的。需要注意的是,估计得到的真实位姿是相对于三维模型坐标系而言的,在真实世界的位姿准确性取决于三维模型的地理精度。
本文工作中融合IMU、GNSS和深度相机等传感器,并预先完成了多源传感器融合与标定工作。整个系统以30 Hz的频率进行数据采集(各传感器的工作频率高于30 Hz),以支持完成后续的定位工作。定义传感器载体在第i时刻的导航状态为xi={pi, vi, bi},其中pi包含三维平移t和三维旋转R,vi表示在世界坐标系中的速度,bi表示传感器的偏置模块。传感器是在持续运动的,考虑到渲染以及地理精细化配准的过程需要的时间,使用滑动窗口设置了一个3 s的缓冲区。缓冲区内通过前一时段内传感器的运动状态来对未来时刻的位姿进行预测,这为系统的近实时处理提供了可能。一个缓冲区内的IMU数据以积分的方式进行整合,如式(8)所示式中,ai-1:i和ωi-1:i分别表示i-1时刻到i时刻的加速度和陀螺仪测量值;ml表示对加速度和旋转率积分的函数,通过积分值来表示i-1时刻到i时刻的变化值,并以此来预测i+1时刻的6DOF(degree of freedom)位姿,等到i时刻的视频帧处理完毕后更新位姿。在整个运动过程中,整个系统沿用了SLAM中常用的视觉里程计(visual odometry),即根据拍摄获取的帧与帧之间的图像估计相机的运动[27]。本文采用的是基于特征点的视觉里程计方法,其原理与1.1节中的精细化地理配准类似,首先提取ORB特征点,使用特征点对前后帧图像进行匹配,估计出两帧图像之间的相机运动,进而更新传感器的位姿。与1.1节不同的是,这个过程使用的是不同时刻的两张真实地面图像,由于间隔时间较短,其成像机理和外界环境基本保持一致,因此使用常规匹配方法即可。
在1.1.1节中,提到使用MaskFormer[21]全景分割同时完成对图像的语义分割和实例分割任务,本节介绍使用实例分割结果来完成目标感知。区别于语义分割任务,实例分割需要进一步区分不同目标,例如场景中的两只猫,语义分割的任务是分类得到所有属于猫的像素点,而实例分割则需要进一步区分出哪些像素属于第一只猫,哪些像素属于第二只猫。方法流程中使用的MaskFormer COCO模型涵盖了80种生活中最常见的对象,能满足自然环境中的大部分目标感知任务,若需要对特定场景中的特定目标进行感知,则可以在模型的基础上进一步针对性训练。在得到精细化后的位姿以及图像中的实例目标后,利用图像的深度信息和方位对目标进行定位。为了减少计算量,在检测到实例目标后,取每一个实例目标的像素质心作为该实例的质心。定位使用图像的深度信息来完成,具体过程如下:令P=[u, v, d]代表图像中的某个点,其中u、v代表图像的像素坐标,d代表对应深度值。根据相机内参以及式(9), 可以计算得到该点的相机坐标式中,(xc, yc)为相机的主点;fx和fy为相机的焦距;(XP, YP, ZP)代表P点在当前位姿下的相机坐标;depth为深度相机固定参数。然后根据传感器的地理坐标,将目标的坐标转化到模型(真实世界)地理坐标系下,以支持后续更高级的任务。例如在检测得到的目标为动态目标后,可以沿用1.2.1节中缓冲区的思想来完成可视化需求,实现动态目标的连贯运动可视化。通过分析目标定位过程可以得出:在获取传感器的位姿后,深度相机单目定位的问题实质上为矩阵变换,其精度主要取决于目标距离和相机位姿。提高传感器的定位精度能有效提高目标定位精度,同时其还取决于深度相机的测距精度。测距精度取决于深度相机获取深度信息的精度,较依赖于硬件性能。因此,在硬件不变的条件下,如何提高传感器的定位精度是提高目标定位精度的关键。试验选取了多种类型的自采集数据,在两个场景进行试验,以证明本文方法的有效性。在试验中使用的三维模型涵盖了大疆禅思L1相机激光点云模型数据、空地影像高精模型以及低精度模型,不同精度、不同数据类型的三维模型会导致渲染出的图像纹理和图像特征等有所不同。如图 4所示,试验使用的传感器载体包括无人机和多传感器智能小车,搭载有GNSS和IMU导航组合,相关传感器如表 1所示。 |
图 4 传感器载体Fig. 4 Sensor in experiment |
|
表 1 传感器种类及参数Tab. 1 Sensor types and parameters此外,不同的模型可能来源于不同时间,会存在季节的跨度以及天气变化等情况,这些因素都会给匹配工作带来一定挑战。为了验证基于语义轮廓和角点检测的匹配策略有效性,使用RobotCar Season[28]数据集中的200景市区的图像进行试验,对视觉定位精度进行了验证。RobotCar Season数据集采自英国牛津市,参考图像和查询图像分别由3台同步摄像机在12个月时间内采集得到,包括了不同光照条件和季节条件。
在本节中,为了验证特征点提取及匹配策略的有效性,使用多组图像进行了试验,并以其中三景图像为例展示了特征点提取效果异常。首先,试验使用了两景图像来对特征点提取策略的有效性进行验证,包括一幅渲染自高精度三维模型的图像和一幅渲染自低精度三维模型的图像。特征点提取结果如图 5所示,图 5(b)显示了图像的语义分割结果,并在此基础上进行特征点提取。如1.1.3节描述,图 5(c)为使用单方框角度阈值提取的特征点,图 5(d)为使用双方框角度阈值提取的特征点。从对比结果可以看出,单方框阈值情况下具有较多无效特征点(即在直线上而非角点上的点),这是由于语义分割结果是通过逐像素分类得到的,分割结果边缘会存在大量锯齿状;使用双方框阈值则可以较好地改善这一情况,在形状轮廓规则的地物上能够有效提取特征点。需要注意的是,在本文方法流程中进行特征点匹配的目的是通过匹配点来恢复相机的运动,精细化传感器的位姿,并非用于重建,因此对正确匹配点的最低数量为8对,不需要提取大量的特征点。 |
图 5 特征点提取Fig. 5 Keypoint extraction |
|
为了验证1.1.3节中提出的描述子的有效性,本节就“角度描述子”和“角度+语义描述子”两种方式进行了对比,结果如图 6所示。需要注意的是,匹配工作建立在地理初配准的基础上,因此可以在邻近窗口内寻找待匹配点,以提高匹配效率和正确率。图 6(a)中的红色线段描述了错误匹配的情况,从中可以看出,在单独使用角度作为描述子时,会出现同一个特征点匹配到两个点、匹配错误的问题,这是由于阈值法匹配会出现偶然性导致的错误匹配和重复匹配。而如图 6(b)的结果所示,在描述子中加入语义信息则可以避免偶然性带来的错误,提高匹配正确率。 |
图 6 特征点匹配Fig. 6 Feature points matching |
|
本节使用传统的SIFT匹配算法、深度学习匹配算法DFM和SuperGlue进行对比试验,图 8直观显示了各方法的匹配效果,从上到下依次为无人机影像、地面影像、高精度渲染图像和低精度模型渲染图像。从直观结果看,传统的SIFT匹配算法在此试验中匹配效果不佳,在图像视觉结构较相似的情况下存在大量交叉匹配线对。基于深度学习的DFM算法在每组图像中都得到较少匹配点对,还存在部分错误匹配。SuperGlue匹配网络得到了最多、且匹配正确率相对较高的匹配点对(在SuperGlue展示图中,匹配置信率从高到低对应的线条颜色为从红到蓝),但通过对匹配结果的人工判断,除第三组图像中,存在置信度和匹配正确程度不完全成正比的现象(例如第一组图像中右上角和左上角建筑物的匹配结果),这个矛盾会导致在匹配结果应用到恢复位姿运动的过程中,难以选择所需数量的正确匹配点对,使用RANSAC会增加计算成本。除此以外,仔细观察图 8中图像匹配的结果,可以发现SuperGlue算法在面对两个图像纹理差异较大时匹配效果不佳,在图像中存在较多如建筑物的密集窗户等重复纹理时,容易出现匹配不够精确的问题,会存在匹配错位的情况。而使用本文提出的方法得到的匹配点基本分布在明显的语义角点,匹配点的数量虽然不多但是准确率较高,并且基本能满足八点法恢复相机位姿,且有剩余一些点可作为多余观测点(表 2)。 |
图 8 匹配结果对比Fig. 8 Match result comparison |
|
表 2 不同方法匹配结果Tab. 2 Matching results using different methods为了进一步验证匹配点对的正确率和有效性,使用了两组图像数据对视觉定位精度进行了评估,并使用不同方法进行对比。在试验中,第一组试验数据为取自RobotCar Seanson数据集的200景图像。数据分为4组,每组50景,分别为日照、雨天、清晨和黄昏场景。评价指标参考[29],通过估计姿态与地面真实姿态之间的偏差来衡量姿态精度。位置误差以欧氏距离为度量值,方向误差α以对齐两个角度所需的最小旋转角度为度量值。计算得到位置误差和方向误差后,定义高精度(0.25 m, 2°)、中精度(0.5 m, 5°)和粗精度(5 m, 10°) 3个位姿精度区间。将目标图像定位精度在该区间内的百分比定义为评价指标。试验使用Superpoint[30]+SuperGlue[17]方法、融合语义信息的Semantic Match Consistency[31]方法与本文方法进行对比,结果见表 3。从结果可以看出,在所选择市区的图像数据为样本时,本文方法在高精度、中精度和低精度上3个指标上,误差范围内的比例都达到了最高,即误差都达到了最低。这证明了本文方法在城市街景中视觉定位的有效性。
表 3 RobotCar Season数据集视觉定位结果Tab. 3 Visual positioning results of RobotCar Season dataset第二组试验数据为地面视角影像,试验使用匹配结果相对较好的SuperGlue和本文方法作为匹配方法,将得到的8组最优匹配点对来恢复两张图像的相对运动,并联合先验估计位姿得到传感器的精确定位, 其中SuperGlue选取结果中置信度最高(红色线段显示)的8组点对。以RTK解算的定位结果作为正确结果,以单点GNSS定位和IMU的结果作为先验估计位姿,其中RTK的精度为1 cm+1 ppm,单点GNSS的定位精度为1.2 m,姿态精度为0.1°。此节试验以两个点位在三维空间中的欧氏距离来作为定位误差,并以此来评价定位精度。结果如图 8所示:从表 3结果可以看出,传统的ORB-SLAM2算法存在严重的误差累积,随着里程增加,定位精度越来越低。使用SuperGlue作为匹配方法时,受到部分点位匹配结果的影响,定位误差不能持续收敛。当使用提出的匹配算法时,在定位传感器和各相邻点位图像间相机运动估计的辅助下,定位精度达到最高,且能使误差持续减小,趋于收敛。 |
图 7 定位误差结果Fig. 7 Positioning error |
|
图9为目标感知结果,图 9(c)是全景分割中的实例分割结果,图 9(d)中的实例轮廓来自实例分割结果的映射,包括估计得到的距离信息。 |
图 9 目标感知结果Fig. 9 The results of object perception |
|
另外试验还测试了realsense深度相机在室外场景获取深度信息的精度,结果如图 10所示:当目标距离15 m内时,测距误差不超过1%;在目标距离0~6 m范围内时,测距精度达到最高; 当目标距离超过15 m之后,深度相机测距误差开始剧烈增大,在超过21 m后几乎失效,这是由于目标逐渐变小以及光线因素共同导致的结果。 |
图 10 测距误差结果Fig. 10 Ranging error |
|
本文以三维模型为先验数据,通过GNSS和IMU的导航信息进行真实地理环境和三维模型的初配准,之后通过真实图像和模型渲染图像的匹配完成地理精细化配准,进而完成传感器的精确定位和目标的感知与定位。试验结果表明了本文方法能够适应不同类型不同精度的三维模型,能有效地提高定位精度。然而此项工作是建立在传感器载体上搭载GNSS和IMU来提供初地理配准的基础上,当GNSS信号受到干扰,初始定位精度较差的情况下,如何实现真实地理环境-三维模型精细化配准,实现传感器的精确定位和对目标的感知与定位,是需要进一步考虑的工作。除此之外,在室外进行目标感知与定位工作时,受光照、物体材质、距离等影响,深度相机的性能可能有较大起伏,且不适用于探测距离远且小的目标。因此采用其他的传感器,例如双目相机视觉定位、激光雷达测距,来增强对场景的适用性,这也是进一步要探索的工作。
第一作者简介:吕可枫(1996-), 男, 博士, 主要研究方向为地理空间动态目标智能感知。E-mail: kflv2014@163.com通信作者:张永生 E-mail:ysZhang2001@vip.163.com
本文暂时没有评论,来添加一个吧(●'◡'●)