BriefGPT - AI 论文速递 ·

对CPU-GPU耦合架构上大规模语言模型推理工作负载的特征分析与优化

💡 原文中文，约700字，阅读约需2分钟。

📝

内容提要

本研究分析了大规模语言模型在CPU-GPU耦合架构下的推理特征，结果显示紧耦合系统在大批量处理时性能优于松耦合系统，但在小批量时受限于CPU。内核融合技术能够缓解低批量的延迟瓶颈。

🎯

🏷️

开普勒发布全球首款混动架构四足机器人——麒麟全系系列
(全球TMT 2026年07月21日讯)近日，2026世界人工智能大会（WAIC）在上海举办，开普勒携全系新品 […]
在线教程｜一键加载ComfyUI工作流，不写一行代码也能玩转AI绘图
同时，ComfyUI 具备开放的扩展生态，支持社区自定义节点，可接入 LoRA、ControlNet、量化模型等多种能力，满足图像生成、图像编辑、视频生成...
Who’s afraid of the big, bad GPU?
How does AI make you feel? Are you excited to “vibe-code” your smart home? Or...
WAIC重磅成果｜上海仪电智算牵头成立“智算系统架构联盟”并发布《超节点系统架构规范》
BaseRT：专为 Apple Silicon 优化，让 Mac 本地大模型快 6.4 倍
Apple Silicon 跑本地大模型，速度还能再提升多少？BaseRT 给出了一个答案：在 M5 Pro 上，它的提示词处理速度最高达到 llama....
基于SGLang的大模型推理实践——从benchmark方法论到部署方案选型与调优
随着大语言模型（LLM）的快速发展，模型规模不断增大，对推理部署的要求也越来越高。在实际项目中，如何高效地在GPU集群上部署和优化大模型推理，已经成为AI...