计算机系统应用教程网站

网站首页 > 技术文章 正文

MIT重磅开源!别再用COLMAP了!FlowMap给你最精确的SfM!

btikc 2024-09-14 00:52:35 技术文章 81 ℃ 0 评论

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

一句话总结:FlowMap是第一个自监督、端到端可微的SfM方法,为360 °场景提供了COLMAP级别的精度。

下面一起来阅读一下这项工作~

标题:FlowMap: High-Quality Camera Poses, Intrinsics, and Depth via Gradient Descent

作者:Cameron Smith, David Charatan, Ayush Tewari, Vincent Sitzmann

机构:MIT

原文链接:https://arxiv.org/abs/2404.15259

代码链接:https://github.com/dcharatan/flowmap

官方主页:https://cameronosmith.github.io/flowmap/

3D视觉Daily

,赞59

本文介绍了FlowMap,一种端到端可微分方法,用于解决视频序列的精确相机姿势、相机内参和每帧稠密深度。我们的方法执行每个视频的梯度下降最小化,比较通过现成的光流和点跟踪获取的对应物与由深度、内参和姿势诱导的光流之间的简单最小二乘目标。除了使用点跟踪来鼓励长期几何一致性外,我们还引入了对深度、内参和姿势进行可微重参数化的方法,这对于一阶优化是可行的。我们通过实验证明,我们方法恢复的相机参数和稠密深度使得在360°轨迹上使用高斯平铺进行照片真实新视图合成成为可能。我们的方法不仅远远优于先前基于梯度下降的捆绑调整方法,而且在360°新视图合成的下游任务上与COLMAP表现出惊人的相似性,即使我们的方法完全基于梯度下降,完全可微,且与传统的SfM完全不同。我们的结果为自监督训练神经网络打开了大门,这些神经网络执行相机参数估计、3D重建和新视图合成。

点云。来自Flowmap高质量的相机姿态、相机内参和FlowMap预测的深度可以组合在一起,以创建对齐良好的稠密点云。

下游3D Gaussian抛雪球。FlowMap的输出可用于训练高质量的3D Gaussian抛雪球场景。重建质量明显优于NoPE - NeRF和DROID - SLAM,与COLMAP相当。

FlowMap是一种端到端的可微方法,用于恢复输入视频的姿势、内参和深度图。FlowMap仅通过现成的光流和点轨迹对应进行监督,并使用梯度下降在每个场景中进行优化。FlowMap重建得到的高斯斑点通常与COLMAP中得到的质量相匹配或超过。

一个 FlowMap 前向传递。给定 RGB 帧(红色)、光流(蓝色)和点轨迹(绿色),FlowMap 在每个前向传递中计算密集深度 D、相机姿态 P 和内参 K。通过 CNN获得深度,并为内参和姿态实现可微、前向传递的求解器。彩色点指示哪个块接收哪些输入。FlowMap 的唯一自由参数是深度 NN 和小型对应置信度 MLP 的权重。这些参数通过梯度下降针对每个视频单独优化,以最小化由相机引起的光流损失,尽管完全前向传递操作也是可能的。

Camera-Induced Flow Loss。

使用深度图、相机内参和光流来解决连续帧之间的相对姿势。为此,首先将它们的深度图反投影,然后解算出最能对齐结果点云的姿势。

新视角合成。

点云重建结果。

大规模鲁棒性研究。在420个CO3D场景上运行FlowMap和DROID-SLAM,跨越10个类别,并绘制了与CO3D的COLMAP生成的姿态元数据相关的平均ATE。还在相同的数据上重新运行了COLMAP。与需要地面真值内参的DROID-SLAM相比,FlowMap产生的ATE明显较低。FlowMap的ATE分布类似于通过重新运行COLMAP获得的分布,在这两种情况下,大多数ATE都在0.005以下。

FlowMap是一种简单、强大和可扩展的一阶方法,用于从视频中估计相机参数。FlowMap优于现有的基于梯度下降的方法,用于估计相机参数。FlowMap的深度和相机参数通过高斯光滑可以实现与COLMAP相当质量的后续重建。FlowMap使用PyTorch编写,在短序列上的运行时间为3分钟,在长序列上为20分钟,作者预计有协同工程努力可以将FlowMap的速度提高一个数量级。也许最令人兴奋的是,FlowMap对每帧深度估计是完全可微分的。因此,FlowMap可以作为新一代自监督单眼深度估计器、基于深度学习的多视图几何方法以及通用的新视角合成方法的构建模块,从而解锁对互联网规模的无姿态视频数据集的训练。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等


本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表