本文讨论了在NeurIPS 2024 ENLSP研讨会上接受的论文,提出通过混合专家模型、推测解码和提前退出策略来提升大型语言模型的计算效率,以优化资源利用。
完成下面两步后,将自动完成登录并继续当前操作。