小红花·文摘

本文提出了一种高效的大语言模型推理方法，通过序列调度技术实现86%的推理吞吐量提升。研究分析了LLM推理技术的瓶颈，探讨了优化策略和未来研究方向，强调了在资源有限环境中提升性能的潜力。