开源多模态LLM InternVL 1.5：具备OCR能力可解读4K图片

站长网2024-04-29 17:19:130阅

划重点:

⭐️ InternVL 家族是一个开源套件，为商用多模态模型提供了可行的开源替代方案

⭐️ InternVL-Chat-V1.5发布，接近 GPT-4V 和 Gemini Pro 在各种基准测试上的性能

⭐️ InternVL 的模型可用于视觉感知、跨模态检索等多个领域，实现了多项技术突破

站长之家(ChinaZ.com) 4月29日消息:InternVL 家族的开源套件提供了一种商用多模态模型的可行开源替代方案。其中，最新发布的 InternVL-Chat-V1.5模型在多个基准测试上取得了接近 GPT-4V 和 Gemini Pro 的性能，这使得 InternVL 家族成为了当前最接近 GPT-4V 表现的可商用开源模型之一。

InternVL 家族的模型涵盖了多个领域，包括视觉感知和跨模态检索。其在视觉感知方面，利用 ViT-22B 模型在 ImageNet-1K、ImageNet-Real、ImageNet-V2等数据集上取得了优异表现，展现出强大的图像分类能力。另外，InternVL 家族还在语义分割、零样本图像分类等任务上取得了显著进展，为多模态模型的发展贡献了重要的技术突破。

作为一款人工智能产品，InternVL 家族的亮点在于其开源套件的多模态模型，尤其是最新发布的 InternVL-Chat-V1.5。该模型不仅在性能上接近商用顶尖模型，而且还具备强大的多模态对话能力，并且支持中文，拥有较强的 OCR 能力。

除此之外，InternVL 家族的模型还具备动态分辨率的支持，为用户提供更加灵活的使用体验。InternVL 家族的开源套件为多模态模型领域的发展注入了新的活力。

产品入口：https://top.aibase.com/tool/internvl

体验网址：https://huggingface.co/spaces/OpenGVLab/InternVL

开源多模态LLMInternVL1 5 具备OCR能力可解读4K图片

0000

评论列表

共(0)条

开源多模态LLM InternVL 1.5：具备OCR能力可解读4K图片

CMU 研究人员推出 WebArena：为实用代理提供真实可复现的网络环境

视觉中国旗下vcg.com上线AIGC新功能“去除背景”

世界排名第三！任正非：国内现有30多个操作系统基于鸿蒙开源构建

沾AI价格暴涨十倍，玩具圈想再造一个泡泡玛特

OpenAI CEO：马斯克教会我深度技术投资的重要性但对生活在火星上没有兴趣

开源多模态LLM InternVL 1.5：具备OCR能力 可解读4K图片

CMU 研究人员推出 WebArena：为实用代理提供真实可复现的网络环境

视觉中国旗下vcg.com上线AIGC新功能“去除背景”

世界排名第三！任正非：国内现有30多个操作系统基于鸿蒙开源构建

沾AI价格暴涨十倍，玩具圈想再造一个泡泡玛特

OpenAI CEO：马斯克教会我深度技术投资的重要性 但对生活在火星上没有兴趣

开源多模态LLM InternVL 1.5：具备OCR能力可解读4K图片

OpenAI CEO：马斯克教会我深度技术投资的重要性但对生活在火星上没有兴趣