上海人工智能实验室开源多模态大模型“书生・万象 3.0”：能同时处理文本和多模态输入

1天前发布 /正在检测是否收录...

0 60 11

4 月 17 日消息，据上海人工智能实验室官方公众号，4 月 16 日，上海人工智能实验室（上海 AI 实验室）升级并开源了通用多模态大模型书生・万象 3.0（InternVL3）。

官方介绍，通过采用创新的多模态预训练和后训练方法，InternVL3 多模态基础能力全面提升，在专家级基准测试、多模态性能全面测试中，10 亿~780 亿参数的全量级版本在开源模型中性能均位列第一，同时大幅提升了图形用户界面（GUI）智能体、建筑场景图纸理解、空间感知推理以及通识学科推理等方面的能力。

据介绍，该团队提出了一种创新的原生多模态预训练方法，与传统的先优化大语言模型再添加视觉能力的方法不同，这种方法在模型的预训练阶段将文本数据与多模态数据无缝结合，让模型能够同时学习语言和视觉，从而能够同时处理文本和多模态输入。

除了可以处理通用的多模态任务之外，InternVL3 还拓展了多方面的多模态能力，如图形用户界面（GUI）智能体、建筑场景图纸理解、空间感知推理、通识学科推理等。

据介绍，InternVL3 可作为 GUI 智能体，遵循指令去操作电脑或者手机上的专业软件。

汇总有关链接如下：

技术报告链接：https://huggingface.co/ papers / 2504.10479
代码开源 / 模型使用方法：https://github.com/ OpenGVLab / InternVL
模型地址：https://huggingface.co/ OpenGVLab / InternVL3-78B
公测版本：https://chat.intern-ai.org.cn/

该内容转自IT之家

本文共 405 个字数,平均阅读时长 ≈ 2分钟

喜欢就支持一下吧

本站为个人博客，博客所发布的一切破解补丁、注册机和注册信息及软件的文章仅限用于学习和研究目的。

不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。

本站信息来自网络，版权争议与本站无关，您必须在下载后的24个小时之内从您的电脑中彻底删除上述内容。

访问和下载本站内容，说明您已同意上述条款。

本站不贩卖软件，所有内容不作为商业行为。如果有侵犯您的权益请点击“关于”联系WFXL，核实后会及时删除