来源:3D视觉工坊在公众号「3D视觉工坊」后台,回复「原论文」可获取论文pdf链接添加微信:dddvisiona,备注:3D点云,拉你入群。0. 笔者个人体会Occupancy预测在自动驾驶领域越来越火,但是计算会给三维体素带来大量内存和计算开销,限制了模型部署。今天笔者将为大家分享一篇最新的开源工作FlashOcc,可以直接插入现有的Occupancy模型中,在不影响精度的前提下实现更高的FPS、更少的训练时间以及更少的显存占用。下面一起来阅读一下这项工作,文末附论文和代码链接~1. 这篇文章希望解决什么问题?现在很多工作都为了提高精度,让Occupancy模型变得非常复杂。本来占用模型就难部署,大模型就更难落地了。因此,FlashOcc就计划解决这个问题。当前方法使用由3D卷积处理的体素级3D特征来预测占用,FlashOcc替代模型用2D-Conv替代3D-Conv,同时引入channel-to-height模块,实现了快速和内存高效的占用预测。2. 具体原理是什么?FlashOCC可以即插即用,首先特征保留在BEV中,从而能够使用高效的2D卷积层进行特征提取。其次引入channel-to-height变换,将BEV的输出logits提升到3D空间。FlashOcc的总体架构,虚线框区域表示可更换模块,每个可更换模块的特征形状分别代表2D图像、BEV级和体素级特征。浅蓝色区域对应可选的时间融合模块。3. 和其他SOTA方法对比如何?Occ3D-nuScenes验证集上的3D占用预测性能对比。训练和部署的耗时分析,还有显存占用的对比。测试用的3090,并用fp16 TensorRT加速。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~下载1在公众号「3D视觉工坊」后台,回复「3d001」,即可获取工业3D视觉(结构光、缺陷检测、三维点云)、SLAM(视觉/激光SLAM)、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文。下载2在公众号「3D视觉工坊」后台,回复「3d002」,即可获取巴塞罗那自治大学3D视觉课件、慕尼黑工业大学3D视觉和视觉导航精品课件。下载3在公众号「3D视觉工坊」后台,回复「3d003」,即可获取相机标定、结构光、三维重建、激光-视觉-IMU-GPS多模态融合SLAM、LOAM、ORB-SLAM3,深度估计、模型部署、3D目标检测等学习课件。注:非完整版。加入行业交流群,保持技术的先进性目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向,细分群包括:[工业3D视觉]相机标定、立体匹配、三维点云、结构光(面/线/散斑)、机械臂抓取(2D/3D)、2D缺陷检测、3D缺陷检测、6D位姿估计、相位偏折术、Halcon、光场重建、摄影测量、阵列相机、偏振三维测量、光度立体视觉、激光雷达、综合群等。[SLAM]视觉SLAM、激光SLAM、ORB-SLAM、Vins-Fusion、LOAM/LeGo-LOAM、cartographer、VIO、语义SLAM、滤波算法、多传感器融合、多传感器标定、MSCKF、动态SLAM、MOT SLAM、NeRF SLAM、FAST-LIO、LVI-SAM、LIO-SAM、事件相机/GPS/RTK/UWB/IMU/码盘/TOF(iToF/dToF)/激光雷达/气压计/毫米波雷达/RGB-D相机/超声波等、机器人导航、综合群等。[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪、综合群等。[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等[无人机]四旋翼建模、无人机飞控等除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群大家可以添加小助理微信: dddvisiona,备注:加群+方向+学校|公司, 小助理会拉你入群。
0 评论