本研究提出FlexiDepth,解决了层跳过方法未考虑计算需求变化的问题。它动态调整Transformer层数,在Llama-3-8B模型中成功跳过8层,保持基准性能并提升生成效率。
完成下面两步后,将自动完成登录并继续当前操作。