首页站长资讯即时3D搜索技术OVIR-3D开源 可从文本提示中检索3D对象
12569

即时3D搜索技术OVIR-3D开源 可从文本提示中检索3D对象

站长网2023-11-10 10:26:342

要点:

1. OVIR-3D是一个开放词汇的3D实例检索系统,能够在没有对3D数据进行训练的情况下,从RGB-D视频和语言查询中返回排名的3D实例段。

2. 该系统通过将问题视为从语言引导的2D区域提议进行3D融合的问题,提供了一种直观而有效的解决方案,避免了由于缺乏足够种类的注释3D数据而难以直接训练开放词汇3D分割模型的问题。

3. OVIR-3D的流程包括下载仓库、安装依赖、演示、数据集准备、2D到3D融合和推理等步骤,具有广泛的应用前景,同时有相关研究作品OVSG。

OVIR-3D是一个开放词汇的3D实例检索系统,它以直观而有效的方式解决了在没有对3D数据进行训练的情况下获取3D实例的问题。该系统通过语言引导的2D区域提议进行3D融合,为机器人应用(如操纵和导航)提供了解决方案。OVIR-3D的核心思想是直接训练开放词汇的3D分割模型在实践中变得困难,因此它从语言引导的2D区域提议出发,通过在大量2D数据集上进行训练,将2D实例信息在3D空间中投影和融合,以实现快速检索。

项目地址:https://github.com/shiyoung77/ovir-3d

OVIR-3D的使用包括下载仓库、安装依赖、演示、数据集准备、2D到3D融合和推理等多个步骤。作者提供了详细的使用说明,包括如何获取仓库、安装依赖以及演示过程。此外,系统支持自定义数据集的准备,通过开源的实感相机和KinectFusion实现,用户能够以指定格式录制和重建自定义3D场景。

在OVIR-3D的背后,Detic作为2D区域提议网络的骨干,通过查询Imagenet21k的所有类别,生成置信度阈值为0.3的输出蒙版和文本对齐特征。这一步骤的输出被存储在特定文件夹中,用户可以选择保存2D可视化,尽管这可能会降低推理速度。

对于2D到3D的融合,OVIR-3D提供了一种算法来处理多个3D场景的并行融合,但作者建议至少拥有11GB内存的显卡以避免在处理大场景时出现内存问题。一旦融合完成,用户可以通过instance_query.py脚本与系统进行交互,检索3D实例。

论文中提到OVIR-3D作为开放词汇问题的一个解决方案,强调其评估方式采用信息检索标准mAP,这是一种更合理的度量方式,尽管略有不同于通常用于封闭集实例分割的mAP度量。文章还提到了OVIR-3D的应用前景,以及后续工作OVSG的介绍,该工作在OVIR-3D的基础上构建3D场景图,实现更精准的对象检索。

0002
评论列表
共(0)条