Clip4Cir开源：基于参考图像和文字描述搜索图片

站长网2023-08-26 16:04:500阅

Clip4Cir采用了一种搜索图片的方法，图片看起来像给定的图片，但是在标题中描述了变化。它使用了增加了特殊技巧的 CLIP 模型。该方法在流行的图像搜索数据集 FashionIQ 和 CIRR 上表现更佳。

项目地址:https://github.com/ABaldrati/CLIP4Cir

CLIP 模型是一个多模态视觉模型，它可以理解自然语言描述与图像的复杂对应关系。通过在标题中描述变化，可以更精确地寻找符合用户需求的图像。这一改进将有助于提高图像搜索的准确性和用户体验。

主要内容包括:

项目目标:实现基于参考图像和文字描述的图像检索任务

模型框架:先微调CLIP encoder，再训练Combiner网络进行多模态融合

数据集:使用FashionIQ和CIRR两个流行的数据集

用法:提供了CLIP微调、Combiner训练、评估等多个脚本

效果:验证结果表明，相比复杂的SOTA方法，该方案可以获得更好的性能

特点:代码清晰易于理解，便于研究

总体来说，本项目提供了一个基于CLIP的图像检索任务强大且易于使用的解决方案，值得关注和参考。

0000

评论列表

共(0)条