摘要
自动机器人系统和自动驾驶汽车依赖于对周围环境的准确感知,因为乘客和行人的安全是重中之重。语义分割是道路场景感知的重要组成部分之一,它提供了道路周边环境的语义信息。近年来,已有多种用于三维激光雷达语义分割的方法。虽然它们可以提高性能,但它们要么受到高计算复杂度的影响,因此效率低下,要么缺乏较小实例的详细信息。为了缓解这些问题,作者提出了(AF) 2 - S3Net,一种端到端编解码的CNN网络,用于3D激光雷达语义分割。提出了一种新颖的多分支关注特征融合模块和一种独特的自适应特征选择模块。作者的(AF) 2 -S3Net将基于体素的学习方法和基于点的学习方法融合成一个统一的框架,有效地处理大型3D场景。作者的实验结果表明,该方法在大规模SemanticKITTI基准测试中优于最先进的方法,在公开排行榜竞争中排名第一。
论文创新点
- 在semanticKITTI基准中实现最先进精度的端到端编译码3D稀疏CNN;
- 编码器中的多分支注意特征融合模块,学习全局上下文和局部细节;
- 自适应特征选择模块,在解码器中对特征映射重新加权,主动强调来自特征融合模块的上下文信息,以提高泛化能力;
- 通过消融研究、定性和定量结果,综合分析了作者的模型与现有方法在三个基准上的语义分割和分类性能,semanticKITTI, nuScenes-lidarseg和ModelNet40。
框架结构
左上角块是注意特征融合模块(AF2M),使用互斥的可学习掩码、α、β和γ的加权组合聚合局部和全局上下文。右上方的块说明了自适应特征选择模块(AFSM)如何使用共享参数来学习AF2M中跨多尺度特征图的通道之间的相互关系。(展览最佳观看效果)
实验结果
与SalsaNext和MinkNet42相比,作者的方法在nuScenes验证集上识别区域表面的误差更小(如红色所示)。
SemanticKITTI测试集中的参考图像(上)、预测(右下)、注意图(左下)
结论
本文提出了一种端到端的CNN模型来解决三维激光雷达点云的语义分割和分类问题。作者提出了一种基于三维稀疏卷积的网络(AF) 2 -S3Net,该网络包含两个新的注意块,即注意特征融合模块(AF2M)和自适应特征选择模块(AFSM),以有效地学习局部和全局上下文,强调给定激光雷达点云中的精细细节信息。在多个基准测试(SemanticKITTI、nuscens -lidarseg和ModelNet40)上进行的大量实验表明,它们能够捕获作者提出的模型的局部细节和最先进的性能。未来的工作将包括将作者的方法扩展到端到端三维实例分割和大规模激光雷达点云上的目标检测。
论文链接:https://arxiv.org/pdf/2102.04530pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。
本文暂时没有评论,来添加一个吧(●'◡'●)