生产级LLM推理面临复杂的系统挑战,需要硬件与软件的深度协同设计。推理过程分为预填充和解码两个阶段,前者计算密集,后者内存密集。关键指标包括首次令牌时间(TTFT)、每输出令牌时间(TPOT)和请求吞吐量(RPS)。优化需在延迟、吞吐量与并发性之间取得平衡,以提升性能并降低成本。
本研究提出了一种新的RISC-V扩展方案,通过硬件与软件协同设计,实现对稀疏深度神经网络的高效加速,定制功能单元可实现最高5倍的加速,适用于小型FPGA。
完成下面两步后,将自动完成登录并继续当前操作。