小红花·文摘

本研究提出了一种资源感知的Transformer架构分区算法，旨在解决边缘环境中大型语言模型推理的内存过载和高延迟问题。该算法动态更新分区决策，优化注意力头的分配与迁移，实验结果表明推理延迟与最优解相差仅15%至20%，显著提升了推理速度和内存效率。

BriefGPT - AI 论文速递 ·

分区算法是一种高效且实用的O(N)算法，用于排序和选择。本文介绍了自定义双指针方法和C++标准库函数std::partition的实现。两种实现的主要区别在于交换次数。

Lei Mao's Log Book ·