贾扬清点赞：3K star量的SGLang上新，加速Llama 405B推理秒杀vLLM、TensorRT-LLM

机器之心 ·

贾扬清点赞：3K star量的SGLang上新，加速Llama 405B推理秒杀vLLM、TensorRT-LLM

💡 原文中文，约5000字，阅读约需12分钟。

📝

内容提要

Meta开源了最新的405B模型（Llama 3.1 405B）和SGLang Runtime v0.2，提高模型推理速度。SGLang在运行Llama 3.1 405B时表现优于vLLM和TensorRT-LLM，吞吐量达到TensorRT-LLM的2.1倍，vLLM的3.8倍。SGLang是一个用于大型语言模型和视觉语言模型的快速服务框架，完全开源，由纯Python编写。它在离线和在线场景下都能提供卓越的性能。

🎯

关键要点

Meta开源了最新的405B模型（Llama 3.1 405B），提升了开源模型的性能。
LMSYS Org推出了SGLang Runtime v0.2，作为LLM和VLM的通用服务引擎。
SGLang在运行Llama 3.1 405B时的吞吐量优于vLLM和TensorRT-LLM，分别达到2.1倍和3.8倍。
SGLang是一个完全开源的快速服务框架，由纯Python编写，适用于在线和离线场景。
SGLang的开发团队由多所大学的学生和教职员工组成，致力于提升人工智能产品的服务效率。
SGLang的设计旨在提供用户友好、易于修改且性能卓越的服务引擎。
SGLang在处理不同规模的Llama模型时，性能始终优于vLLM，并与TensorRT-LLM相当。
SGLang采用Apache 2.0许可授权，已被多个机构和初创公司使用。
研究者对SGLang、TensorRT-LLM和vLLM进行了基准测试，结果显示SGLang在性能和可用性上具有优势。
未来，SGLang将开发长上下文和MoE优化等新功能。

🏷️

继续阅读

Meta公司放弃开源Llama，转向专有的Muse Spark
Meta公司宣布其新AI模型Muse Spark将取代已被放弃的Llama。Muse Spark采用全新架构，无法与Llama迁移，Llama用户需寻找替...
Meta威胁称，如果被迫进行“技术上不可行”的更改，将撤回其在新墨西哥州的应用程序
Meta公司表示，如果新墨西哥州检察长的要求得以实施，他们可能会撤回Facebook、Instagram和WhatsApp。检察长要求的多项变更被Meta...
Meta正在为其AI工具投放快速致富广告
Meta收购的AI公司Manus正在推广其工具，声称可以帮助用户轻松赚取收入。该公司通过支付内容创作者在社交媒体上宣传其产品，鼓励用户利用AI为本地企业建...
Meta上个季度失去了2000万用户
Meta最近财报显示，Facebook、Instagram和WhatsApp等平台的日活跃用户减少了2000万。尽管用户流失，扎克伯格计划在人工智能上额外...
闻泰科技一年巨亏87.48亿元；OPPO整合一加与realme成立子系列事业部；三星电子第一季度营业利润同比增超7倍
闻泰科技预计2025年亏损87.48亿元，主要因剥离受限业务和投资损失。OPPO整合一加与realme成立新事业部。三星电子第一季度营业利润同比增超7倍，...
拆解微软、谷歌、亚马逊、Meta最新财报：AI变现进入验证期 | 全球深一度
2026年第一季度，微软、谷歌、亚马逊和Meta四大科技巨头财报显示强劲增长。谷歌营收接近1100亿美元，微软AI业务年化收入达370亿美元。市场关注AI...

贾扬清点赞：3K star量的SGLang上新，加速Llama 405B推理秒杀vLLM、TensorRT-LLM

内容提要

关键要点

标签

继续阅读