💡
原文英文,约700词,阅读约需3分钟。
📝
内容提要
Ai2推出了MolmoWeb,一个开源视觉网络代理,支持本地运行。该模型有4亿和8亿参数,能够执行网页任务,如导航、填写表单和搜索产品。MolmoWeb的训练数据包括3万个任务轨迹和60万个子任务,表现优于一些竞争对手,旨在为研究人员提供替代方案,促进开放源代码社区的发展。
🎯
关键要点
- Ai2推出了MolmoWeb,一个开源视觉网络代理,属于Molmo 2模型系列。
- MolmoWeb有4亿和8亿参数,能够在本地运行。
- 该模型能够执行网页任务,如导航、填写表单和搜索产品。
- MolmoWeb的训练数据包括3万个任务轨迹和60万个子任务,表现优于一些竞争对手。
- Ai2的目标是为研究人员提供替代方案,促进开放源代码社区的发展。
- MolmoWeb的训练集是迄今为止发布的最大人类网页任务执行数据集。
- 该模型还包括合成轨迹和注释截图,以增强训练效果。
- MolmoWeb现已在Hugging Face和GitHub上发布,提供所有训练数据和评估工具。
❓
延伸问答
MolmoWeb是什么?
MolmoWeb是Ai2推出的一个开源视觉网络代理,属于Molmo 2模型系列。
MolmoWeb的参数有多少?
MolmoWeb有4亿和8亿参数。
MolmoWeb可以执行哪些网页任务?
MolmoWeb能够执行导航、填写表单和搜索产品等网页任务。
MolmoWeb的训练数据包含哪些内容?
MolmoWeb的训练数据包括3万个任务轨迹和60万个子任务,以及合成轨迹和注释截图。
MolmoWeb与其他竞争对手相比表现如何?
MolmoWeb在一些标准浏览器使用基准测试中表现优于OpenAI的GPT-4o和其他开源模型。
MolmoWeb的发布对研究社区有什么影响?
MolmoWeb的发布旨在为研究人员提供替代方案,促进开放源代码社区的发展,填补模型和训练数据的缺口。
➡️