我们提出了一种单模型推测流方法,通过将草稿融入目标模型,并将微调目标改为未来n-gram预测,加速大模型推理。此方法在摘要和结构化查询任务中加速1.8-3.1倍,无质量损失,参数高效,比Medusa架构快且参数少10000倍,适合资源有限的设备。
该研究提出了多种方法和框架,如TASDER、CSTAR和SASA,以优化稀疏深度神经网络的加速和性能,显著提升能效和推理速度,适用于资源有限的设备。
完成下面两步后,将自动完成登录并继续当前操作。