CRM:上传图片生成3D模型,10秒搞定
划重点:
1. 🚀Convolutional Reconstruction Model(CRM)是一种高保真度的前馈单图像到3D生成模型,充分考虑了稀疏3D数据的限制,强调了在网络设计中整合几何先验的必要性。
2. 🖼️CRM通过生成六个正交视图图像,经过卷积U-Net处理,利用其强大的像素级对齐能力和显著的带宽,创建了高分辨率的三平面
3. ⏱️ 模型在仅10秒内从图像中生成高保真纹理网格,无需任何测试时优化。
近期,清华大学的研究团队在图像处理领域取得了重要进展,他们提出了一种名为Convolutional Reconstruction Model(CRM)的前馈式单图像到3D纹理网格生成模型。与传统的大型重建模型(LRM)相比,CRM在生成速度上表现出色,同时克服了基于Transformer的方法在几何先验方面存在的不足。
传统的3D生成模型虽然在生成速度上有所突破,但由于Transformer方法未充分利用三平面组件的几何先验,导致在有限的3D数据和缓慢的训练情况下质量不佳。为了解决这一问题,研究团队提出了CRM,一个高保真度的前馈式单图像到3D生成模型。
CRM的关键观察是,三平面的可视化呈现出六个正交图像的空间对应关系。模型首先从单个输入图像生成六个正交视图图像,然后将这些图像输入卷积U-Net进行处理,利用其强大的像素级对齐能力和显著的带宽,创建高分辨率的三平面。与此同时,CRM采用Flexicubes作为几何表示,实现对纹理网格的直接端到端优化。
整个推理过程仅需要在A800GPU上花费约10秒的时间,其中包括U-Net的前向传播(不到0.1秒)、查询表面点的UV纹理和文件I/O。与传统方法相比,CRM从图像中仅需短短的时间就能生成高保真度的纹理网格,无需在测试时进行任何优化。
图中,展示了整个方法的流程。输入图像首先经过多视图图像扩散模型,生成六个正交图像。然后,另一个扩散模型用于生成基于这六个图像的CCMs(conditional convolutional masks)。最后,这六个图像和CCMs一起输入CRM,重建最终的纹理网格。
研究团队通过生成的纹理网格展示了CRM的性能,包括玫瑰、青蛙、大象、哆啦A梦、猫和校车等互动网格。同时,CRM还展示了其在创建类似乐高风格的对象方面的潜力。
在与现有方法的比较中,CRM展现出了卓越的性能和效率。研究团队通过BibTeX引用了他们的工作,这表明了对该模型的高度认可。
这一项研究为单图像到3D纹理网格的生成提供了一种新的前馈式模型,具有卓越的速度和质量,为图像处理领域带来了新的可能性。
项目入口:https://top.aibase.com/tool/crm
- 0000
- 0000
- 0000
- 0000
- 0001