开源仅需场景即可训练图片(高斯训练重建渲染视图)「高斯软件教程」

来源：3D视觉工坊添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。
文末附行业细分群0. 这篇文章干了啥？从2D图像中获取3D表示长期以来一直是一个感兴趣的话题。
3D高斯点云（3DGS）创建了由一组3D高斯函数组成的非结构化辐射场来表示场景，并且已经在实时下实现了高质量的新视图合成。
然而，当只有稀疏视图可用时，训练约束的减少使3DGS容易过度拟合训练视图，导致不现实的新视图合成。
3DGS使用稀疏点云初始化3D高斯函数。
然后，对3D高斯函数进行交替优化/密度控制以实现场景的准确辐射场表示。
在稀疏训练视图下，我们观察到，尽管两个3D高斯函数辐射场被训练来表示相同的场景，但它们在高斯位置和渲染像素上存在差异。
它们的差异在密度控制期间显着增加，这涉及创建新的高斯函数并通过从正态分布中采样来初始化它们的位置。
在稀疏训练视图下，由于3D到2D投影的不确定性，优化可能会难以纠正高斯函数以准确表示场景，导致差异的积累。
在本文中，我们揭示了两个3D高斯函数辐射场的不同行为与它们的重建质量之间的联系。
具体而言，我们提出了点争议和渲染争议来指示差异并对其进行定量测量。
点争议指示高斯位置上的差异，这在高斯点云表示之间的配准上进行评估。
渲染争议指示它们的渲染像素上的差异。
我们将渲染图像与地面真实测试视图进行比较，以测量3D高斯辐射场的重建质量。
我们还利用以密集视图训练的3D高斯场作为地面真实来评估高斯位置和渲染深度图，以提供更全面的重建质量评估。
实验结果表明，两种不一致性与准确重建之间存在负相关。
这使我们能够通过比较两个3D高斯函数辐射场来无监督地识别不准确的重建。
基于我们的研究，我们提出了CoR-GS，它使用相同的视图训练了两个3D高斯函数辐射场，并在训练过程中进行了联合正则化。
它通过基于点争议和渲染争议来识别和抑制不准确的重建，从而改进了稀疏视图3DGS。
CoR-GS意味着共剪枝来抑制点争议。
共剪枝将两个3D高斯函数辐射场视为两个点云，在它们之间执行点对点匹配。
它将在相反点云中没有附近匹配点的高斯函数视为异常值并将其修剪。
为了抑制渲染争议，CoR-GS意味着伪视图共正则化。
它通过插值训练视图来在线采样伪视图，并认为呈现高渲染争议的像素是不准确渲染的。
为了抑制不准确的渲染结果，它计算了呈现像素的差异作为与训练视图损失相结合的正则化项。
整合共剪枝和伪视图共正则化，CoR-GS重建了连贯而紧凑的几何形状，并在LLFF、Mip-NeRF360、DTU和Blender数据集上实现了与最先进方法相比的状态优越的稀疏视图渲染性能。
实验表明了我们的方法在各种场景情况下对稀疏视图3DGS进行正则化的通用能力。
下面一起来阅读一下这项工作~1. 论文信息标题：CoR-GS: Sparse-View 3D Gaussian Splatting via Co-Regularization作者：Jiawei Zhang, Jiahe Li, Xiaohan Yu, Lei Huang, Lin Gu, Jin Zheng, Xiao Bai机构：北京航空航天大学、北京航空航天大学人工智能研究所、麦考瑞大学计算学院、RIKEN AIP、东京大学原文链接：https://arxiv.org/abs/2405.12110代码链接：https://github.com/jiaw-z/CoR-GS官方主页：https://jiaw-z.github.io/CoR-GS/2. 摘要三维高斯点云投影（3DGS）创建一个由三维高斯函数组成的辐射场来表示一个场景。
在训练视角稀疏的情况下，3DGS很容易出现过拟合，从而对重建质量产生负面影响。
本文介绍了一种新的共正则化视角，用于改善稀疏视角下的3DGS。
当使用相同的场景稀疏视角训练两个三维高斯辐射场时，我们观察到这两个辐射场表现出"点争议"和"渲染争议"，这可以无监督地预测重建质量，这源于密度化中的采样实现。
我们进一步通过评估高斯函数点表示之间的配准，并计算其渲染像素之间的差异，量化了点争议和渲染争议。
实证研究表明了这两种争议与准确重建之间的负相关，这使我们能够在不访问地面真实信息的情况下识别不准确的重建。
基于这项研究，我们提出了CoR-GS，它基于这两种争议识别和抑制不准确的重建：共剪枝考虑在不准确位置上表现出高点争议的高斯函数，并将其剪除。
伪视角共正则化考虑到表现出高渲染争议的像素是不准确渲染的，并抑制了这种争议。
在LLFF、Mip-NeRF360、DTU和Blender上的结果表明，CoR-GS有效地规范了场景几何形状，重建了紧凑的表示，并在稀疏训练视角下实现了最先进的新视角合成质量。
3. 效果展示两个3D高斯辐亮场之间不同行为的说明与建筑质量相关。
不同行为的高斯通常不能很好地拟合真实形状。
因此，可以通过测量差异来识别不准确的重建，而无需访问真实信息。
训练期间记录了两个3D高斯辐射场的不同行为。
点的不一致性和渲染的不一致性在训练过程中增加，尤其是在密集化过程中。
两个不一致性和重建质量之间的相关性。
x轴百分比代表我们屏蔽具有最高不一致分数的区域的百分比。
随着具有较高不一致分数的区域的减少，平均重建质量在剩余区域上持续改善。
4. 主要贡献- 我们提出了点争议和渲染争议来衡量相同场景的两个3D高斯函数辐射场之间的差异，并展示了这两种不一致性与准确重建之间的负相关。
这两种一致性可用于在没有地面真实信息的情况下评估重建质量。
- 我们提出了共剪枝和伪视图共正则化来抑制点争议和渲染争议，分别。
我们证明，抑制这两种不一致性可以导致更准确的3D高斯函数辐射场来表示场景。
- 配备了共剪枝和伪视图共正则化，CoR-GS重建了连贯而紧凑的几何形状，并在多个基准测试中达到了与最先进方法相媲美的竞争质量。
我们希望本文中的观察和讨论可以激发对3D高斯函数辐射场行为差异的进一步思考。
5. 基本原理是啥？CoR-GS概述。
我们同时训练两个3D高斯辐射场，并通过抑制点争议和渲染争议来规范它们。
6. 实验结果LLFF。
我们在LLFF数据集上提供了定量结果，见表1。
我们的方法在PSNR、SSIM、LPIPS和AVGE指标上始终表现最佳，分别使用3、6和9个训练视角。
与基于NeRF的方法相比，基于3DGS的方法在场景结构方面具有显著优势。
深度监督的FSGS提升了3和6个视角情景下3DGS的性能。
然而，使用9个训练视角时，3DGS已经能够很好地重建场景结构，这限制了外部深度监督的有效性。
我们的方法进行了共同正则化以避免重建不正确的几何结构，从而在各种训练视角下改善了所有指标。
我们在图6中提供了渲染图像和新视角以及高斯点的定量可视化结果。
从渲染的深度图中，我们观察到普通的3DGS可以恢复某些场景结构，但存在几何错误，尤其在新视角的渲染图像的不真实部分。
对于点表示，许多高斯点分散在空间中，并且远离重建的场景。
当从新视角观察时，这些高斯点可能导致不真实的渲染图像。
通过深度监督，FSGS可以纠正3DGS的不正确几何结构；然而，外部深度图中的噪声也会对几何结构产生不利影响。
同样，依赖深度监督使得直接约束高斯点变得困难。
可以看出，FSGS的高斯点分散仍然不够紧凑。
我们的方法有效地帮助高斯点重建连贯而紧凑的几何结构，从而提高了新视角渲染的质量。
Mip-NeRF360。
我们在Mip-NeRF360数据集上使用稀疏训练视角报告了定量结果，见表2。
我们的方法在PSNR、SSIM和AVGE上分别以12个和24个训练视角取得最佳性能。
普通的3DGS在12个训练视角下取得最佳的LPIPS分数。
这是因为对于360度全景场景，12个视角导致许多区域缺乏共视约束。
在这些区域，伪视图的共同正则化倾向于产生更平滑的效果。
当使用24个训练视角时，共视区域增加，我们的方法取得了最佳的LPIPS分数。
我们在图7中提供了定性可视化结果。
从渲染的图像中，我们观察到所有方法都能够对从多个训练视角观察到的中心对象进行良好的重建。
我们方法的优势在于其能够在非中心区域重建更清晰的结构。
从高斯点位置来看，我们观察到，尽管训练了360度视角，但3DGS和FSGS仍然在远处重建分散的高斯点。
分散的高斯点在观察新视角的非中心区域时会产生负面影响。
相比之下，我们的方法重建了更紧凑的表示。
结果表明，CoR-GS仍然适用于使用稀疏训练视角重建完整的360°无界场景。
DTU。
我们在DTU数据集上报告了定量结果，见表3。
我们的方法在SSIM、LPIPS和AVGE上以3、6和9个训练视角取得最佳成绩。
然而，仅使用3个视角时，我们观察到基于3DGS的方法的PSNR分数较基于NeRF的方法低。
这是因为3DGS简单地在训练视角之外的不可见区域中渲染黑色背景，而DTU的3个训练视角导致许多不可见区域。
NeRFs由于其对不可见区域的插值特性而获得更好的PSNR分数。
随着训练视角的增加，我们看到基于3DGS的方法的PSNR分数比NeRFs更高。
在图8的定性可视化中，我们的方法渲染更完整的对象并且重建比3DGS更紧凑的高斯点。
Blender。
我们在Blender数据集上使用8个周围训练视角报告了定量结果，见表4。
我们的方法在SSIM和LPIPS上得分最高，并在PSNR上排名第二。
结果表明，CoR-GS也适用于重建复杂对象。
效率。
在表5中。
我们对LLFF 3视角设置进行了训练和推理效率比较，使用RTX 3090 Ti GPU。
与NeRF相比，3DGS具有显著的效率优势。
与普通的3DGS相比，我们的方法由于训练两个3D高斯辐射场和渲染伪视图而引入了一些额外的训练成本，但仍然比NeRF更高效。
我们的方法在推理过程中最高效。
由于重建了更紧凑的表示，我们的方法将高斯点数量减少了33%，从而提高了推理速度。
7. 总结本文介绍了一种新的共正则化视角，用于改善稀疏视图的3DGS。
我们观察到两个3D高斯辐射场在相同的场景下表现出不同的行为，其中包含稀疏的训练视图，并提出了点争议和渲染争议来定量指示这些差异。
我们进一步证明了这两种争议之间的负相关性与准确重建之间的关系，这使我们能够无监督地识别不准确的重建。
基于这项研究，我们提出了CoR-GS，通过抑制这两种争议来改善稀疏视图的3DGS。
我们验证了CoR-GS在各种数据集上的有效性，在稀疏视图设置下实现了最先进的新视图合成。
对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~本文仅做学术分享，如有侵权，请联系删文。
3D视觉工坊交流群目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等无人机：四旋翼建模、无人机飞控等除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。
3D视觉工坊知识星球3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。