百度大脑 ·

飞桨框架3.0推理升级：支持多款主流大模型、DeepSeek-R1满血版实现单机部署，吞吐提升一倍！...

💡 原文中文，约6900字，阅读约需17分钟。

📝

内容提要

飞桨框架3.0增强了大模型推理能力，支持多种主流大模型，优化了量化和推理性能。通过4比特量化，单机部署显著提升吞吐量，同时支持FP8和INT8量化。MLA算子优化提升了23%性能，MTP投机解码加速大批次推理，整体提供高效、经济的推理部署方案，兼容多种硬件平台。

🎯

❓

飞桨框架3.0增强了大模型推理能力，支持多种主流大模型，并通过4比特量化显著提升单机部署的吞吐量。

4比特量化是一种降低模型部署成本的技术，能够显著提升系统吞吐量，单机部署时吞吐量提升一倍。

MLA算子通过多级流水线和寄存器优化，性能相比FlashMLA提升最高可达23%。

MTP投机解码机制加速大批次推理，提升解码速度和吞吐量，支持在解码速度保持不变的情况下，吞吐提升144%。

可以使用提供的一键式脚本，帮助开发者快速启动DeepSeek-R1服务并进行推理请求。

飞桨框架3.0支持多种硬件平台，包括英伟达GPU、昆仑芯、昇腾、海光、燧原、太初和Intel CPU等。

🏷️

从IDC到云上GPU：基于 Amazon EKS 的大模型推理混合云弹性部署实践
本文介绍了基于Amazon EKS和NVIDIA NIM的混合云大模型推理架构，强调本地GPU优先和云上弹性扩展的策略。通过KEDA和Karpenter实...
约束或自由：AI 工具化的两种答案
大模型在对话文本中表现优异，但缺乏实际操作能力。为实现AI的实际应用，需要赋予其行动能力，主要有两种技术路线：MCP和Skills。MCP注重标准化和安全...
通过Valkey Sentinel 实现高可用性
本文介绍了如何设置Valkey复制以扩展缓存，提供了逐步指南，帮助用户有效配置和管理Valkey缓存系统，从而提高性能和可扩展性。
扒完 DeepSeek V4 报告，我翻出了这个隐藏彩蛋
你的 MLA 是我的基础，我的 Muon 是你的加速器。#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
DeepSeek-V4发布，华为云首发适配
华为云于4月24日发布并开源DeepSeek-V4模型，该模型支持百万Token超长上下文，提升了推理性能和经济性。新模型已被金山办公、360等企业接入，...
中国DeepSeek预览新一代AI模型，距震撼美国竞争对手已一年
中国AI公司DeepSeek发布了其下一代AI模型V4，声称该模型在编码能力上有显著提升，并与美国领先系统竞争，兼容华为技术，标志着中国芯片产业的重要进步。