小红花·文摘 - 小红花技术领袖俱乐部

人工智能赋予与剥夺CPU

人工智能赋予与剥夺CPU

Stack Overflow Blog ·

本研究分析了大规模语言模型在CPU-GPU耦合架构下的推理特征，结果显示紧耦合系统在大批量处理时性能优于松耦合系统，但在小批量时受限于CPU。内核融合技术能够缓解低批量的延迟瓶颈。

对CPU-GPU耦合架构上大规模语言模型推理工作负载的特征分析与优化

BriefGPT - AI 论文速递 ·

PilotANN：基于图形的 ANNS 的 CPU-GPU 混合系统

PilotANN：基于图形的 ANNS 的 CPU-GPU 混合系统

实时互动网 ·