小红花·文摘

GPU、TPU和NPU的技术比较

dotNET跨平台 ·

清华大学KVCache.AI团队与趋境科技推出KTransformers项目，支持在24G显存下运行DeepSeek-R1，显著提升推理速度。该项目通过异构计算和CPU的AMX指令集加速，预填充速度达到286 tokens/s，生成速度为14 tokens/s，降低了大模型的运行门槛，推动了本地部署的可能性。

配这种CPU，GPU单卡就能跑满血DeepSeek-R1，至强+AMX让预填充速度起飞

量子位 ·

研究人员提出了MagicPIG，通过在CPU上应用局部敏感哈希（LSH）技术，显著提升了大模型解码吞吐量1.76至4.99倍，减轻了GPU内存压力，并提高了推理质量和准确率。这项研究探索了异构计算的潜力，有望降低模型部署成本。

把注意力计算丢给CPU，大模型解码吞吐量提高1.76~4.99倍

量子位 ·

本研究提出了DeepContext工具，旨在解决复杂异构计算环境中缺乏综合程序上下文信息和性能优化洞察的问题，帮助用户识别性能瓶颈并提供优化建议。

DeepContext：一种上下文感知的跨平台、跨框架深度学习工作负载性能分析工具

BriefGPT - AI 论文速递 ·

高通公司在2024全球AI芯片峰会上宣布其领先的SoC解决方案提供了异构计算系统和高性能低功耗的NPU，满足生成式AI的不同需求和算力要求。他们展示了终端侧生成式AI在旗舰终端和用例中的应用，并介绍了NPU硬件架构和AI体验，包括支持大语言模型的NPU和多模态大模型的完整运行。高通强调终端侧生成式AI的重要性，并预告了下一代骁龙移动平台的发布。

异构计算+高性能低功耗NPU，高通正在推动终端侧生成式AI发展

量子位 ·

SHIFT方法通过利用上下文信息和计算约束，选择多种物体检测模型，提高能源利用效率和降低延迟。相比GPU单模型方法，能源使用提升7.5倍，延迟提升2.8倍。

上下文感知的多模型对象检测用于异构计算系统

BriefGPT - AI 论文速递 ·

科学计算需求增加，OpenCL在异构计算领域流行，但调度困难。MultiCL通过扩展OpenCL标准，实现自适应调度，缓解调度难题。MultiCL提供不同调度方法，解决OpenCL的性能可移植性问题。MultiCL包含设备分析器、内核分析器和任务调度器，实现动态调度。但MultiCL引入预执行开销，降低执行效率，需要进一步优化。

OpenCL任务调度基础介绍 | 京东物流技术团队

京东科技开发者 ·

并行异构计算概述

お前はどこまで見えている ·

CPU 和 GPU - 异构计算的演进与发展

面向信仰编程 ·

CPU 和 GPU - 异构计算的演进与发展

面向信仰编程 ·