计算机系统应用教程网站

网站首页 > 技术文章 正文

FSGS:使用3DGS实时Few-shot视图合成(ECCV2024)

btikc 2024-10-21 04:12:26 技术文章 8 ℃ 0 评论

论文题目

FSGS: Real-Time Few-shot View Synthesis using Gaussian Splatting

1、简介

从有限的观察中合成新的观点仍然是一个关键和持续的挑战。在基于nerf的少镜头视图合成领域,通常需要在合成视图的准确性和3D表示的效率之间进行权衡。为了解决这一难题,本文引入了一个基于3D高斯飞溅的Few-Shot视图合成框架,它有助于从最小数量的训练视图进行实时、逼真的合成。FSGS采用创新的Proximity-guided Gaussian Unpooling,专为稀疏视图设置而设计,以弥合极其稀疏的初始点集所带来的差距。该方法在高斯接近度评分的指导下,在现有高斯分布之间策略性地放置新高斯分布,增强了自适应密度控制,当训练视图有限时,高斯优化有时会导致过于光滑的纹理和过度拟合的倾向,为了缓解这些问题,FSGS引入了虚拟视图的合成,以复制训练过程中所经历的视差效果,并在实际训练和合成视点之间应用几何正则化。这种策略确保了新的高斯函数被放置在最具代表性的位置,从而促进了更准确和详细的场景重建。对各种数据集(包括NeRF-Synthetic, LLFF, Shiny和Mip-NeRF360数据集)的综合评估表明,FSGS不仅提供了卓越的渲染质量,而且实现了比现有最先进的稀疏视图合成方法快2000多倍的推理速度。


主要贡献如下:

-提出了一个新的基于点的框架,FSGS,用于少镜头视图合成,通过Proximity-guided Gaussian Unpooling来致密新高斯。该方法有效地提高了高斯分布的密度,保证了场景的详细和全面表征。

- FSGS解决了稀疏视图高斯飞溅中固有的过拟合挑战,通过在训练期间生成看不见的视点,并在训练和合成的伪视图上合并距离对应来实现这一点。这种策略将高斯优化过程引向既高度精确又具有视觉吸引力的解决方案。

- FSGS显著提高了视觉质量,也促进了实时渲染速度(超过200 FPS),从而在各种实际应用中实现可行的选择。

2、背景

1)三维重建的表征,NeRF学习一种隐式神经场景表示,利用MLP通过体绘制函数将3D坐标(x, y, z)和视图依赖关系(θ, ?)映射到颜色和密度。大量的工作集中在提高其效率,推广到看不见的场景,和3D生成。MVSNeRF构建了一个三维本体,从新颖的视点呈现高质量的图像,Mip-NeRF为了减轻混叠,采用了锥形截锥体而不是单一光线。Mip-NeRF 360进一步将其扩展到无界场景。虽然这些类似nerf的模型在各种基准测试中表现出色,但它们通常需要几个小时的训练时间。提出的FSGS方法基于3D高斯飞溅框架,但大大减少了所需的训练视图。

2)使用稀疏视图的新颖视图合成,原始的神经辐射场需要一百多张图像作为输入,很大程度上限制了它的实际应用。为了解决这个问题,一些工作试图减少训练视图的数量,DepthNeRF应用了额外的深度监督来提高渲染质量。RegNeRF提出深度平滑损失作为几何正则化来稳定训练。DietNeRF增加了对CLIP嵌入空间的监督,以约束渲染的未见视图。PixelNeRF训练卷积编码器捕获上下文信息,并学习从稀疏输入预测3D表示。相比之下,本文的方法改进了高斯喷溅的优化过程,提高了实时渲染速度和渲染质量。

3、方法

1)FSGS框架如图2所示,FSGS处理从静态场景捕获的有限图像集。相机姿势和点云是使用Structure-fromMotion (SfM)软件COLMAP导出的,3D高斯的初始化是基于一个稀疏的点云,结合了颜色、位置等属性,以及形状和不透明度的预定义转换规则。通过实现Proximity-guided Gaussian Unpooling来解决极稀疏点的问题。该方法通过评估现有高斯分布之间的接近度,并在最具代表性的区域定位新的高斯分布,从而增强场景细节,从而填充空白空间。为了减轻标准3D-GS中稀疏视图数据的过拟合,在训练摄像机周围引入了伪摄像机视点的生成,结合几何正则化,使模型更准确地重建场景的几何形状。

2)Proximity-guided Gaussian Unpooling,建模场景的粒度很大程度上取决于表示场景的三维高斯函数的质量;因此,解决有限的3D场景覆盖对于有效的稀疏视图建模至关重要。

a、接近度评分和图的构造,在高斯优化过程中,构造了一个有向图,称为邻近图,通过计算邻近度(即欧几里得距离)将每个现有高斯与其最近的K个邻居连接起来。具体来说,将头部的原始高斯表示为“源”高斯,而尾部的高斯表示为“目的”高斯,它是源的K个邻居之一。这些“目标”高斯函数是通过以下规则确定的:

这里,dij通过dij =∥μi?μj∥来计算,表示高斯Gi和高斯Gj中心之间的欧氏距离。分配给高斯Gi的接近度分数Pi计算为其到K个最近邻居的平均距离:

在优化过程中,邻近图会随着致密化或剪枝过程而更新,在实践中设K = 3。

b、Gaussian unpooling,受计算机图形学中广泛使用的网格细分算法的顶点添加策略的启发,提出了基于接近图和每个高斯的接近分数的Unpooling Gaussian 。具体来说,如果高斯的接近度分数超过阈值tprox,将在每条边的中心生长一个新的高斯,连接“源”高斯和“目的”高斯,如图4所示。新创建的高斯函数中的比例和不透明度属性被设置为与“目标”高斯函数相匹配。同时,旋转系数和SH系数等其他属性初始化为零。Gaussian unpooling策略鼓励新密化的高斯分布在有代表性的位置周围,并在优化过程中逐步填补观测空白。

3)高斯优化的几何指导,通过Gaussian unpooling函数实现密集覆盖后,应用稀疏视图线索的光度损失来优化高斯函数。然而,稀疏视图设置中的视差不足限制了3D高斯函数向全局一致方向优化,在训练视图上容易过拟合,并且对新视图的泛化能力差。为了给优化注入更多的正则化,建议创建一些在训练中看不见的虚拟摄像机,并应用像素几何对应作为额外的正则化。

a、合成伪视图,为了解决稀疏训练视图过度拟合的固有问题,使用了未观察到的(伪)视图增强,以在从2D先验模型派生的场景中合并更多的先验知识。合成视图从欧几里德空间中两个最近的训练视图中采样,计算平均摄像机方向并在它们之间插值一个虚拟方向,将随机噪声应用于3自由度(3DoF)摄像机位置,然后渲染图像。

其中,t∈P表示摄像机位置,q是一个四元数,表示两个摄像机的旋转平均值。这种合成在线伪视图的方法使动态几何更新成为可能,因为3D高斯函数将逐步更新,从而降低过拟合的风险。

b、从单目深度注入几何相干性,通过使用预训练的密集预测转换器(DPT)在训练视图和伪视图上生成单目Dest深度图,为了减轻真实场景尺度和估计深度之间的尺度模糊,在估计和渲染的深度图上引入了宽松的皮尔逊相关损失,它测量2D深度图之间的分布差异,并遵循以下函数:

c、可微深度光栅化,为了在引导高斯训练之前实现深度反向传播,实现了一个可微的深度光栅化,允许接收渲染深度Dras和估计深度Dest之间的错误信号,利用3D-GS中的alpha-混合渲染进行深度光栅化,其中来自有序高斯的z缓冲有助于产生深度值。

这里di表示第i个高斯函数的z缓冲区,α是不透明度

4、实验

1)3个训练视图的LLFF数据集的定量比较

2)LLFF数据集的定性结果

3)24个训练视图的Mip-NeRF360数据集的定量比较

4)Mip-NeRF360数据集的定性结果

5)Blender和Shiny数据集的定量比较

6)Blender数据集的定性结果

7)消融的可视化研究

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表