实时互动网 ·

SmolLM2 发布：新系列（0.1B、0.3B 和 1.7B）小语言模型，性能优于 Meta Llama 3.2 1B

💡 原文中文，约1700字，阅读约需5分钟。

📝

内容提要

SmolLM2是一系列优化的小型语言模型，旨在提高资源效率，解决大型模型的局限。它们可在设备上直接运行，支持文本重写和摘要等任务，适合低延迟和隐私要求的应用。SmolLM2的参数范围从1.35亿到17亿，标志着设备端自然语言处理的新标准。

🎯

🔎

SmolLM2系列模型的设计旨在解决大型语言模型在资源效率上的不足，尤其适合在智能手机和边缘设备上运行。其紧凑的架构使得在硬件限制和隐私要求较高的环境中，仍能实现高效的自然语言处理，满足了市场对小型模型的迫切需求。

SmolLM2在多个基准测试中表现优于Meta Llama 3.2 1B，尤其在指令遵循和数学推理方面的能力显著提升。这使得SmolLM2不仅适用于常规的文本处理任务，还能支持更复杂的应用，如自动编码助手，适合需要与现有软件无缝集成的场景。

SmolLM2在Apache 2.0许可下发布，意味着开发者和研究人员可以自由使用和修改。这为创新提供了广阔的空间，尤其是在边缘AI应用中，开发者可以利用其高效的性能和灵活性，创造出更多符合市场需求的解决方案。

❓

SmolLM2是一系列优化的小型语言模型，具有高资源效率，能够在设备上直接运行，适合低延迟和隐私要求的应用。

SmolLM2在资源效率上优于大型语言模型，能够在资源有限的设备上运行，降低了硬件和能耗要求。

SmolLM2的参数范围从1.35亿到17亿不等。

SmolLM2适合文本重写、摘要和函数调用等任务，特别是在低延迟和隐私要求高的设备上。

SmolLM2在性能上优于Meta Llama 3.2 1B，并在某些基准测试中表现卓越。

SmolLM2使用来自多个数据集的11万亿个标记进行训练，主要侧重于英语文本。

🏷️