本研究提出了一种显著性驱动的动态令牌剪枝框架(SDTP),旨在解决大规模语言模型在长序列推理中的计算复杂性问题。SDTP通过分层剪枝65%的输入令牌,显著降低计算量,提高推理速度,同时保持模型性能。
完成下面两步后,将自动完成登录并继续当前操作。