谷歌 DeepMind 推出 NaViT 模型可显著减少训练时间

站长网2023-07-18 06:37:251阅

最近，Google DeepMind 推出了 NaViT:一种新的 ViT 模型，它在训练过程中使用序列打包来处理任意分辨率和宽高比的输入。该模型将图像分割成小块，并线性投影到令牌上，形成了这个模型的基础。

之前的研究已经探讨了与这个模型不同的可能性:FlexiViT 允许连续范围的序列长度，并通过在每个训练迭代中随机选择补丁大小，并使用缩放技术来适应初始卷积嵌入中的多个补丁大小。Pix2Struct 的替代补丁方法在图表和文件理解等任务中非常有价值。

NaViT 是谷歌研究人员开发的另一种替代方案，它采用了 Patch n' Pack 技术，通过将多个来自不同图像的补丁打包到一个序列中，实现了不同分辨率的同时保持宽高比。NaViT 在广泛的解决方案范围内都表现出色，为推理时间提供了平滑的性能 - 成本平衡，并且易于适应新任务，而且无需花费大量资金。

谷歌 DeepMind推出 NaViT模型 可显著减少训练时间

0001

评论列表

共(0)条

谷歌 DeepMind 推出 NaViT 模型可显著减少训练时间

苹果开发设备内运行的大型语言模型优先考虑速度和隐私

最高可罚3万背后：谁来为送货上门买单？

10秒钟教你用AI一键撰写拜年文案，再来领个我的新年限定礼盒。

iPhone 15 Pro发热翻大车：电池鼓包顶起屏幕！

Cog-Become-Image：将任意人物图像转换成指定风格的图

谷歌 DeepMind 推出 NaViT 模型 可显著减少训练时间

苹果开发设备内运行的大型语言模型 优先考虑速度和隐私

最高可罚3万背后：谁来为送货上门买单？

10秒钟教你用AI一键撰写拜年文案，再来领个我的新年限定礼盒。

iPhone 15 Pro发热翻大车：电池鼓包 顶起屏幕！

Cog-Become-Image：将任意人物图像转换成指定风格的图

谷歌 DeepMind 推出 NaViT 模型可显著减少训练时间

苹果开发设备内运行的大型语言模型优先考虑速度和隐私

iPhone 15 Pro发热翻大车：电池鼓包顶起屏幕！