多模态SVG生成模型StarVector 视觉质量显著增强

站长网2023-12-21 11:44:260阅

StarVector是一种多模态SVG生成模型，该模型有效地集成了代码生成大型语言模型（CodeLLM）和视觉模型，使得能够生成准确表示图像像素的不受限制的SVG。

StarVector利用CLIP图像编码器从基于像素的图像中提取出视觉表示模块，然后通过适配器将其转换为视觉标记。这些视觉标记预先添加到SVG标记嵌入中，而StarCoder模型使用下一个标记预测对序列进行建模，从而有效地学习对齐标记和代码标记。

论文地址:https://arxiv.org/pdf/2312.11556.pdf

为了评估StarVector的性能，论文引入了SVG-Bench，这是一个用于跨多个数据集和相关指标评估SVG方法的综合基准。在此基准测试中，引入了新颖的数据集，包括SVG-Stack训练（真实世界SVG示例的大型数据集），并使用它来预StarVector作为SVG的大型基础模型。

结果表明，与当前方法相比，视觉质量和复杂性处理有有了显著的增强，引起SVG生成技术的显着进步。因此，StarVector为SVG生成技术带来了新的突破，为网页开发和图形设计领域带来了更多可能性。

0000

评论列表

共(0)条