仅3B激活参数,更强的多模态理解与推理能力,ERNIE-4.5-VL-28B-A3B-Thinking正式开源!

仅3B激活参数,更强的多模态理解与推理能力,ERNIE-4.5-VL-28B-A3B-Thinking正式开源!

💡 原文中文,约2300字,阅读约需6分钟。
📝

内容提要

百度于11月11日开源ERNIE-4.5-VL-28B-A3B-Thinking模型,具备3B激活参数,性能媲美顶级大模型。该模型在视觉语言理解、文档解析和跨模态推理方面表现优异,支持“图像思考”等创新功能,已在多个平台发布,适合商业使用。

🎯

关键要点

  • 百度于11月11日开源ERNIE-4.5-VL-28B-A3B-Thinking模型,具备3B激活参数,性能媲美顶级大模型。

  • 该模型在视觉语言理解、文档解析和跨模态推理方面表现优异,具备领先的文档与图表理解能力。

  • 模型推出了“图像思考”等创新功能,结合空间定位与工具调用,增强了多模态思维与交互应用的能力。

  • ERNIE-4.5-VL-28B-A3B-Thinking模型以Apache License 2.0协议开源,允许商业使用,已在多个平台发布。

  • 模型在复杂视觉任务中展现卓越的多步推理、图表解析与因果推理能力,提升了学科推理的表现。

  • 模型具备强大的工具调用能力,能够即时调用图片搜索等功能,实现全方位信息获取。

  • 为方便开发者,提供了多种开箱即用的工具和全流程支持,推动大模型技术在更多领域落地。

延伸问答

ERNIE-4.5-VL-28B-A3B-Thinking模型的主要特点是什么?

该模型具备3B激活参数,性能媲美顶级大模型,特别在视觉语言理解和跨模态推理方面表现优异。

ERNIE-4.5-VL-28B-A3B-Thinking模型支持哪些功能?

模型支持图像思考、文档解析、复杂视觉任务的多步推理和工具调用等功能。

如何获取ERNIE-4.5-VL-28B-A3B-Thinking模型?

模型已在Hugging Face、GitHub和飞桨星河社区发布,开发者可以直接下载和使用。

ERNIE-4.5-VL-28B-A3B-Thinking模型的开源协议是什么?

该模型以Apache License 2.0协议开源,允许商业使用。

该模型在视觉推理方面的表现如何?

模型在复杂视觉任务中展现卓越的多步推理、图表解析与因果推理能力。

ERNIE-4.5-VL-28B-A3B-Thinking模型适合哪些应用场景?

该模型适合商业使用,特别是在教育、科研和多模态交互应用等领域。

➡️

继续阅读