小红花·文摘

线程转储与项目Loom（虚拟线程）

The JetBrains Blog ·

模块化：计算的民主化，第1部分：DeepSeek对人工智能的影响

Modular Blog ·

OpenGeMM是一种新型开放源代码加速平台，旨在解决深度神经网络在资源受限边缘设备上的部署问题。该平台通过参数化的Chisel编码GeMM加速器、轻量级RISC-V处理器和紧耦合的多银行临时存储器，实现了高达99.34%的硬件利用率，吞吐量提升3.58至16.40倍，系统效率可达4.68 TOPS/W。

OpenGeMM: A High-Utilization GeMM Accelerator Generator with Lightweight RISC-V Control and Tight Memory Coupling

BriefGPT - AI 论文速递 ·

本文介绍了作者Arseny Kapoulkine开发的calm，一种提高LLM架构硬件利用率的语言大模型推理实现方式。作者讨论了推理的理论极限速度及其对推理过程的影响，并通过建模和计算得出了推理速度无法超过特定阈值的结论。文章还提到了SiliconLLM，一种高效的LLM推理加速引擎，可显著提高推理性能。

LLM推理的极限速度

OneFlow深度学习框架 ·