李飞飞团队推零样本360度场景合成技术ZeroNVS
要点:
1. 斯坦福和谷歌团队提出了ZeroNVS,一种能够从单个图像实现零样本360度试图合成的新技术。
2. ZeroNVS利用3D感知扩散模型和SDS蒸馏来生成逼真且多样化的合成图像,聚焦于场景而不是物体。
3. 研究人员使用不同的基准数据集进行评估,结果表明ZeroNVS在零样本性能方面明显领先于其他方法,特别是在LPIPS指标上。
斯坦福和谷歌团队提出了一项名为ZeroNVS的创新技术,能够从单个图像实现零样本360度试图合成。过去,3D感知扩散模型的训练主要集中在模型生成单个物体的SDS蒸馏上,但要生成逼真且多样化的合成图像,需要关注整个场景。ZeroNVS的方法涉及使用高质量大规模数据集,如Objaverse-XL,以实现从新视角生成逼真图像,然后通过SDS蒸馏采样,提高3D一致性。与以往的工作不同,ZeroNVS聚焦于场景,而不是物体,因为背景对于图像多样性至关重要。
在具体方法上,研究人员首先训练扩散模型,然后使用它来执行新颖的视图合成,随后进行3D SDS蒸馏。与以往不同的是,ZeroNVS引入了一种具有六个自由度的相机表示,以捕获所有可能的位置和方向。这种表示被称为“6DoF 1”,它对于场景的刚性变换具有不变性。此外,研究人员还通过“SDS anchoring”来提高多样性,使用DDIM对新视图进行采样,然后使用最近的图像作为指导。
论文地址:https://arxiv.org/pdf/2310.17994.pdf
在实验结果方面,研究人员使用了一组标准的新视图合成指标来评估各种方法,主要关注LPIPS。结果显示,ZeroNVS在零样本性能方面明显领先于其他方法,包括DS-NeRF、PixelNeRF等。此外,研究人员还引入了Mip-NeRF360数据集,来进一步测试单张图像的360度视图合成任务,结果仍然显示ZeroNVS表现出色。
总之,ZeroNVS是一项创新的技术,可以从单个图像生成多样的合成图像,聚焦于场景级的合成。它利用3D感知扩散模型和SDS蒸馏,采用新的相机表示和“SDS anchoring”来提高性能,从而在零样本性能方面取得显著成果。这一技术有望在计算机视觉和图像合成领域产生重要影响。
- 0001
- 0000
- 0002
- 0002
- 0000