Liquid AI 发布 LFM2-VL-3B，为边缘设备带来 3B 参数的视觉语言模型

实时互动网 ·

Liquid AI 发布 LFM2-VL-3B，为边缘设备带来 3B 参数的视觉语言模型

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

Liquid AI 发布了 LFM2-VL-3B，这是一个具有 30 亿参数的视觉语言模型，专用于图像文本到文本任务。该模型提高了准确率并保持了处理速度，支持高达 512×512 的图像输入，适合边缘设备使用，评估得分具有竞争力。

🎯

关键要点

Liquid AI 发布了 LFM2-VL-3B，这是一个具有 30 亿参数的视觉语言模型。
该模型专用于图像文本到文本任务，旨在提高准确率并保持处理速度。
LFM2-VL-3B 支持高达 512×512 的图像输入，适合边缘设备使用。
模型接受交错的图像和文本输入，并生成文本输出，提供类似 ChatML 的模板。
架构包括语言塔、形状感知视觉塔和投影器，允许用户限制视觉标记的预算。
模型的训练采用分阶段的方法，结合了大规模开放数据集和内部合成视觉数据。
在多个基准测试中，LFM2-VL-3B 的得分具有竞争力，如 MM-IFEval 得分 51.83。
该模型的多语言视觉理解能力扩展到多种语言，包括中文和英语。
边缘用户可以利用该架构的计算和内存优化，适合本地处理和严格数据边界的应用。
LFM2-VL-3B 提供开放权重和 GGUF 构建，降低了集成阻力。

❓

延伸问答

LFM2-VL-3B 模型的主要特点是什么？

LFM2-VL-3B 是一个具有 30 亿参数的视觉语言模型，专注于图像文本到文本任务，旨在提高准确率并保持处理速度，支持高达 512×512 的图像输入。

LFM2-VL-3B 如何处理图像和文本输入？

该模型接受交错的图像和文本输入，并生成文本输出，提供类似 ChatML 的模板。

LFM2-VL-3B 的训练方法是什么？

模型采用分阶段的方法进行训练，结合大规模开放数据集和内部合成视觉数据，进行联合中期训练和监督微调。

LFM2-VL-3B 在基准测试中的表现如何？

在多个基准测试中，LFM2-VL-3B 的得分具有竞争力，如 MM-IFEval 得分 51.83，RealWorldQA 得分 71.37。

为什么边缘用户应该使用 LFM2-VL-3B？

该模型架构优化了计算和内存，适合本地处理和严格数据边界的应用，特别适合机器人、移动和工业客户。

LFM2-VL-3B 支持哪些语言？

该模型的多语言视觉理解能力扩展到多种语言，包括中文和英语等。

🏷️

继续阅读

麻省理工学院研究人员教AI模型解读图表
MIT和IBM研究人员开发了ChartNet数据集，包含超过一百万种多样化图表，旨在提升视觉语言模型对图表的理解能力。该数据集通过合成数据生成，帮助小型企...
分析：AI 助手在回答流媒体可用性查询方面表现不一致
一项分析显示，流媒体影片可用性数据的准确率，ChatGPT为43.76%，Claude为50.21%，而Reelgood高达96.89%。大语言模型在处理...
NVIDIA通过代理技能推动物理AI研究的新纪元，支持自动驾驶、机器人和视觉AI
NVIDIA推出新一代物理AI代理技能，支持自动驾驶、机器人和视觉AI研究。通过NVIDIA Cosmos 3，研究人员能够加速数据生成、模拟和政策训练，...
基于MongoDB Atlas、Voyage AI和多模态搜索的主动供应商管理
零售供应链已成为高层关注的重点，需从传统ERP系统转向灵活的AI数据平台，以应对外部冲击。现代化的供应商管理应用通过MongoDB实现数据统一，提升可见性...
Deploy背后的团队：以DigitalOcean的方式交付AI
在旧金山举行的Deploy 2026活动中，开发者与客户探讨了简化AI产品构建与扩展的方法。DigitalOcean推出了AI-Native Cloud，...
LLM网关模式：每个基于Kubernetes的AI应用为何都需要它
LLM网关模式是一种架构方法，通过集中代理服务管理所有LLM API流量，解决了安全、成本和可见性问题。它简化了API密钥管理、请求路由和故障处理，提升了...