智源研究院开源10亿参数三维视觉通用模型Uni3D
站长网2023-10-20 10:21:350阅
智源研究院最近开源发布了一个10亿参数的三维视觉通用模型Uni3D。该模型是当前最大的三维视觉模型之一,能够处理点云数据,取得了主流三维视觉任务的全方位技术突破,展现出超强的通用视觉能力。
Uni3D的研发团队此前曾开发出最强的10亿参数二维视觉模型EVA。在开发Uni3D时,他们借鉴了二维视觉模型的设计经验,采用了统一的Transformer架构,并引入多模态对齐的训练方法,使用图像、文本数据来增强三维点云表示的学习。这使Uni3D可以直接继承二维视觉模型学习到的知识,迅速取得强大的三维视觉能力。
Uni3D在各类三维视觉任务上都取得了 state-of-the-art 的结果,包括零样本分类、少样本分割、文本驱动图像生成等。它展示了作为预训练模型的强大通用性和迁移学习能力。
智源研究院表示,Uni3D的开源发布为未来三维计算机视觉的研究和应用奠定了坚实的基础。
论文链接:
https://arxiv.org/abs/2310.06773
代码/模型链接:
https://github.com/baaivision/Uni3D
https://huggingface.co/BAAI/Uni3D/tree/main/modelzoo
0000
评论列表
共(0)条相关推荐
- 0005
- 0000
- 0001
- 0001
- 0001