生产级LLM推理面临复杂的系统挑战,需要硬件与软件的深度协同设计。推理过程分为预填充和解码两个阶段,前者计算密集,后者内存密集。关键指标包括首次令牌时间(TTFT)、每输出令牌时间(TPOT)和请求吞吐量(RPS)。优化需在延迟、吞吐量与并发性之间取得平衡,以提升性能并降低成本。
本研究提出了一种新的RISC-V扩展方案,通过硬件与软件协同设计,实现对稀疏深度神经网络的高效加速,定制功能单元可实现最高5倍的加速,适用于小型FPGA。
本文介绍了一种新型的硬件-软件协同优化设计方法,旨在快速、准确、低功耗地加速可重构脉冲神经网络(SNN)推理。该方法通过低精度计算、硬件-软件共设计和可重构性,适应不同SNN模型,显著提升了速度、准确性和能效,推动了SNN的实际应用。
完成下面两步后,将自动完成登录并继续当前操作。