NVIDIA发布NVLM 1.0:开源多模态大语言模型,提升文本与视觉能力
原文英文,约400词,阅读约需2分钟。发表于: 。NVIDIA unveiled NVLM 1.0, an open-source multimodal large language model (LLM) that performs strongly on both vision-language and text-only tasks. NVLM 1.0 shows improvements in text-based tasks...
NVIDIA发布了开源多模态大语言模型NVLM 1.0,支持视觉-语言和纯文本任务。NVLM-1.0-D 72B模型在数学和编码任务上表现提升4.3分,且多模态数据处理不影响语言能力。模型支持对象定位、推理、OCR等任务,并开放模型权重和即将发布训练代码。