小红花·文摘

本研究提出了TPI-LLM系统，旨在解决边缘设备在执行70B规模大模型推理时的计算、内存和带宽限制。该系统通过优化内存调度和通信管理，显著降低了推理延迟和内存占用。