本研究提出了一种资源感知的Transformer架构分区算法,旨在解决边缘环境中大型语言模型推理的内存过载和高延迟问题。该算法动态更新分区决策,优化注意力头的分配与迁移,实验结果表明推理延迟与最优解相差仅15%至20%,显著提升了推理速度和内存效率。
分区算法是一种高效且实用的O(N)算法,用于排序和选择。本文介绍了自定义双指针方法和C++标准库函数std::partition的实现。两种实现的主要区别在于交换次数。
完成下面两步后,将自动完成登录并继续当前操作。