(图片来源网络,侵删)
三维头部再现是一种将一个人的面部表情转移到另一个人的面部的技术,它可以用于虚拟现实、增强现实、电影制作等领域。然而,现有的三维头部再现技术存在一些问题,比如需要多张图像作为输入,或者无法保持视角一致性,或者无法有效地分离面部表情和面部外观,导致再现效果不自然或者失真。为了解决这些问题,开发团队提出了一种基于体积分离的单张图像三维头部再现技术,名为VOODOO 3D。该技术只需要一张源图像和一张驱动图像作为输入,就可以实时地生成高保真和视角一致的三维头部再现结果,适用于基于全息显示的三维视频会议系统。技术的核心是一个基于三维平面的体积神经网络,它可以将源图像和驱动图像都映射到一个共享的三维体积空间中,然后通过神经网络的自监督学习,将面部表情和面部外观进行分离,从而实现表情迁移。最后,可以使用神经辐射场从任意视角渲染出目标图像。技术的流程包括三个阶段:1) 三维提升,2) 体积分离,和3) 三维平面渲染给定一对源图像和驱动图像,我们首先使用一个预训练并微调的三维平面提升模块,将它们都正面化,以便于分离表情和姿态。然后,使用两个独立的卷积编码器,提取出源图像和驱动图像的面部特征,将它们与源图像的三维平面特征拼接起来,输入到几个变换器模块中,得到表情三维平面的残差,将它加到源图像的三维平面上,实现表情迁移。最后,使用一个预训练的三维平面渲染器,根据驱动图像的姿态,从新的三维平面渲染出目标图像。技术的优势在于:只需要单张图像作为输入,不需要多张图像或者视频序列,这大大降低了数据的需求和计算的复杂度。可以保持视角一致性,即从不同的视角观察,目标图像的面部外观和表情都不会发生变化,这对于基于全息显示的三维视频会议系统非常重要。可以有效地分离面部表情和面部外观,避免了驱动图像对源图像的身份干扰或者表情失真,提高了再现的自然度和真实度。使用了自监督学习的方法,不需要额外的标注数据,只需要大量的真实世界的视频数据,这提高了我们的技术的泛化能力和可扩展性。我们在多个数据集上验证了我们的技术的性能,与现有的最先进的技术进行了对比,证明了我们的技术的优越性。我们还展示了在一些极具挑战性和多样性的主题上,包括非正面的头部姿态和复杂的面部表情,我们的技术可以实现高质量的三维头部再现。我们的技术为三维头部再现领域提供了一个新的思路和方法,为未来的三维视频会议系统提供了一个有力的支撑。VOODOO 3D 技术具有实时、高质量、视角稳定的优势,适用于多种场景,包括:3D视频会议:VOODOO 3D 可用于生成参与者的实时 3D 头部模型,让远程会议更加沉浸式和真实感。3D 视频会议虚拟现实(VR)和增强现实(AR):VOODOO 3D 可用于制作逼真的 3D 头部模型,提升用户在 VR 和 AR 中的沉浸感和交互感。VR 和 AR电影和游戏制作:VOODOO 3D 可用于快速生成逼真的 3D 角色,尤其是在需要细致表情捕捉的场景中。电影和游戏制作社交媒体和娱乐:VOODOO 3D 可用于创建个性化的 3D 头像或动画表情包,增添趣味性和互动性。
0 评论