计算机系统应用教程网站

网站首页 > 技术文章 正文

温室机器人3D跟踪算法,单阶段和两阶段如何选择?

btikc 2024-08-29 11:51:05 技术文章 15 ℃ 0 评论

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

0.这篇文章干了啥?

这篇文章介绍了一种名为IReNe的新方法,用于交互式地编辑NeRF(神经辐射场)模型。NeRF是一种用于渲染高质量三维场景的技术,但传统的NeRF编辑方法存在一些限制,如速度慢、需要多视角一致性和在物体边界处的精度等。为了解决这些问题,作者提出了IReNe方法,它可以通过单个用户编辑快速、准确地编辑NeRF模型。该方法的关键创新包括只重新训练颜色部分的最后一层,利用预训练模型中的视角相关信息,以及使用轻量级软分割网络限制编辑区域。实验结果表明,IReNe方法在编辑速度、交互性和编辑质量方面均优于现有方法,并且能够产生高质量的编辑效果。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目:A comparison between single-stage and two-stage 3D tracking algorithms for greenhouse robotics

作者:David Rapado-Rincon, Akshay K. Burusa等

作者机构:Farm Technology Group, Wageningen University & Research

论文链接:https://arxiv.org/pdf/2404.12963

2. 摘要

随着农业食品行业对自动化的当前需求,准确地检测和定位相关的3D物体对于成功的机器人操作至关重要。然而,由于存在遮挡,这是一个挑战。多视角感知方法使机器人能够克服遮挡,但需要跟踪组件来关联机器人在多个视点上检测到的物体。多目标跟踪(MOT)算法可以分为两阶段和单阶段方法。两阶段方法往往更容易适应和实现自定义应用程序,而单阶段方法提供了一种更复杂的端到端跟踪方法,在遮挡情况下可以产生更好的结果,但需要更多的训练数据。单阶段方法相对于两阶段方法的潜在优势取决于机器人需要处理的视点序列的复杂性。在这项工作中,我们将3D两阶段MOT算法3D-SORT与3D单阶段MOT算法MOT-DETR在三种不同类型的序列中进行了比较,这些序列具有不同级别的复杂性。这些序列代表了番茄大棚中机器人手臂可以执行的简单和更复杂的运动。我们在一个番茄大棚中的实验表明,单阶段算法在跟踪精度方面始终表现更好,特别是在更具挑战性的序列中,物体在多个视点上完全被遮挡或不可见的情况下。

3. 效果展示

左边。机器人收集真实植物视点所遵循的路径图示。正确的。植物视点的示例。

4. 主要贡献

这篇文章的主要贡献在于对两种不同类型的3D多目标跟踪(MOT)算法进行了比较和评估。作者比较了一种两阶段算法(3D-SORT)和一种单阶段算法(MOT-DETR),并通过实验证明了单阶段算法在整体跟踪和数据关联方面的优势。文章还指出了在处理复杂场景时单阶段算法的优势,以及通过主动感知技术减少遮挡对跟踪准确性的影响的重要性。这些研究结果对于农业食品行业中的机器人技术发展和应用具有指导意义。

5. 基本原理是啥?

这篇文章的基本原理是比较了两种不同类型的3D多目标跟踪(MOT)算法在农业食品行业中的应用效果。作者首先介绍了农业和食品行业面临的挑战,包括人口增长和劳动力减少,以及通过自动化解决这些问题的必要性。然后,作者讨论了机器人感知在这些行业中的重要性,特别是在复杂环境条件下,如遮挡和变化。准确和高效地表示机器人环境,包括给定任务的相关对象,对于机器人在这些环境中成功运行至关重要。为了解决遮挡问题,多视角感知方法允许机器人在多个视点上克服遮挡,但需要跟踪组件来将机器人在多个视点上检测到的对象进行关联。

接下来,作者介绍了两种不同类型的MOT算法:两阶段方法和单阶段方法。两阶段方法更简单,更容易适应和实现定制应用,而单阶段方法则提供了更复杂的端到端跟踪方法,在遮挡情况下可能会产生更好的结果,但需要更多的训练数据。文章指出,单阶段方法相对于两阶段方法的潜在优势取决于机器人需要处理的视点序列的复杂性。

6. 实验结果

在方法和材料部分,作者描述了他们使用的数据集和算法。数据集包括来自番茄大棚的五株真实植物的数据,每株植物的观察点使用在植物前方40厘米和60厘米处的平面运动序列收集。总共收集了来自五株植物的5,400个视点的数据。每个视点产生了一幅彩色图像,一个原点对应于机器人固定坐标系的点云,以及每个视点中每个番茄的地面真实边界框和跟踪ID。数据被分成训练、验证和测试集。在算法方面,作者比较了两种3D MOT算法:两阶段方法3D-SORT和单阶段方法MOT-DETR。两种算法都采用相同的数据作为输入:彩色图像及其转换为机器人固定坐标系的相应点云。

在实验部分,作者评估了3D-SORT和MOT-DETR在不同类型的运动序列下的表现,这些序列代表了机器人手臂在番茄大棚中可能遇到的不同的帧间距和遮挡水平。通过比较两种算法在检测、跟踪和数据关联方面的表现,作者得出结论:尽管两阶段方法3D-SORT在对象检测方面表现更好,但单阶段方法MOT-DETR在整体跟踪和数据关联性能上始终优于3D-SORT。作者还展示了使用主动感知技术减少序列中的遮挡对两种方法跟踪准确性的提升效果。

7. 总结 & 未来工作

我们实验的结果如表II所示。3D-SORT在DetA和LocA方面超过了MOT-DETR。这个结果是可以预期的,因为3D-SORT依赖于YOLOv8,在大型对象检测数据集上进行了预训练的网络。与3D-SORT相比,MOT-DETR在一个网络上同时执行对象检测和重新识别的任务,这牺牲了它的检测效果,因为负责多个目标的网络通常表现不如专门负责单一任务的网络。就整体跟踪准确度而言,使用HOTA和MOTA得分以及AssA和IDSW衡量,MOT-DETR在所有测试中始终优于3D-SORT。这种性能差异突显了MOT-DETR更好地理解场景以及其中物体之间的关系的能力。MOT-DETR生成的重新识别特征是由一个网络生成的,该网络可以访问每个视点的整个彩色图像和点云数据。这意味着网络可以通过编码对象之间的关系来提高跟踪性能。这与3D-SORT等两阶段方法形成对比,其中重新识别属性和特征是从2D和/或3D的对象检测中获得的,而不考虑环境和附近检测的其他信息。当视点序列由主动感知(AP)算法生成时,无论是3D-SORT还是MOT-DETR的跟踪性能都会提高。观察到的序列中,所选的视点在植物茎的前面具有较低水平的遮挡,这是AP算法的兴趣区域。此外,在AP序列中,番茄藤始终位于图像的中心区域,与Sort和Random序列中部分可见的藤相反。这种设置显著减少了藤和番茄部分可见的可能性,从而减轻了检测和跟踪的挑战。这个结果显示了AP在增强跟踪准确度方面的有利影响,在遮挡普遍存在的情况下特别明显。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等


本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表