机器之心 ·

英伟达玩转剪枝、蒸馏：把Llama 3.1 8B参数减半，性能同尺寸更强

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

Meta发布了Llama 3.1系列模型，包括最大的405B模型和两个较小的模型。然而，部署这些模型需要大量的计算资源。为了解决这个问题，Nvidia成功地将Llama 3.1 8B模型剪枝和蒸馏成Llama-3.1-Minitron 4B模型，其性能优于类似大小的开源模型。这种开发小型语言模型（SLM）的趋势旨在实现成本效益的部署。

🎯

关键要点

Meta发布了Llama 3.1系列模型，包括405B、70B和8B模型。
Llama 3.1模型需要大量计算资源进行部署。
业界趋势转向开发小型语言模型（SLM），以实现成本效益的部署。
Nvidia通过剪枝和蒸馏将Llama 3.1 8B模型转化为Llama-3.1-Minitron 4B模型，性能优于同类开源模型。
剪枝通过删除层或神经元来减小模型规模，通常需要再训练以恢复准确率。
模型蒸馏是将知识从大型模型迁移到小型模型的技术，旨在提高效率。
Nvidia采用剪枝与经典知识蒸馏相结合的方法构建小型模型。
剪枝前需评估模型各部分的重要性，Nvidia提出基于激活的纯重要性评估策略。
最佳实践包括优先进行宽度剪枝，使用单样本重要性估计，和仅使用蒸馏损失进行再训练。
Llama-3.1-Minitron 4B模型在多个基准测试中表现优异，成为可靠的指令模型。
Nvidia利用TensorRT-LLM优化了模型推理性能，Llama-3.1-Minitron 4B模型的吞吐量显著提高。
剪枝和知识蒸馏是一种经济高效的方法，能够获得更小尺寸的LLM，且准确性更高。

🏷️

继续阅读

Meta公司放弃开源Llama，转向专有的Muse Spark
Meta公司宣布其新AI模型Muse Spark将取代已被放弃的Llama。Muse Spark采用全新架构，无法与Llama迁移，Llama用户需寻找替...
Meta威胁称，如果被迫进行“技术上不可行”的更改，将撤回其在新墨西哥州的应用程序
Meta公司表示，如果新墨西哥州检察长的要求得以实施，他们可能会撤回Facebook、Instagram和WhatsApp。检察长要求的多项变更被Meta...
Meta正在为其AI工具投放快速致富广告
Meta收购的AI公司Manus正在推广其工具，声称可以帮助用户轻松赚取收入。该公司通过支付内容创作者在社交媒体上宣传其产品，鼓励用户利用AI为本地企业建...
Meta上个季度失去了2000万用户
Meta最近财报显示，Facebook、Instagram和WhatsApp等平台的日活跃用户减少了2000万。尽管用户流失，扎克伯格计划在人工智能上额外...
闻泰科技一年巨亏87.48亿元；OPPO整合一加与realme成立子系列事业部；三星电子第一季度营业利润同比增超7倍
闻泰科技预计2025年亏损87.48亿元，主要因剥离受限业务和投资损失。OPPO整合一加与realme成立新事业部。三星电子第一季度营业利润同比增超7倍，...
拆解微软、谷歌、亚马逊、Meta最新财报：AI变现进入验证期 | 全球深一度
2026年第一季度，微软、谷歌、亚马逊和Meta四大科技巨头财报显示强劲增长。谷歌营收接近1100亿美元，微软AI业务年化收入达370亿美元。市场关注AI...

英伟达玩转剪枝、蒸馏：把Llama 3.1 8B参数减半，性能同尺寸更强

内容提要

关键要点

标签

继续阅读