Apple Machine Learning Research ·

Duo-LLM：大型语言模型中自适应计算研究框架

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

本文探讨了大型语言模型中自适应计算的有效性，提出了一种新框架，通过在每个前馈网络层集成小型辅助模块，实现基于任务复杂度的动态路由。研究发现，训练的路由器与理想模式不同，激活单层大模块的效果优于全层使用大模块，揭示了实际路由与理论最优之间的差距。

🎯

❓

自适应计算通过动态路由，根据任务复杂度选择合适的计算资源，从而提高资源利用效率。

Duo-LLM框架在每个前馈网络层集成小型辅助模块，实现基于任务复杂度的动态路由。

研究发现，训练的路由器与理想模式不同，激活单层大模块的效果优于全层使用大模块。

动态执行的最佳路由模式仍然是一个开放挑战，限制了自适应方法的潜力。

令牌的难度是指其从额外计算资源中受益的潜力，用于指导动态路由。

通过引入自适应计算和动态路由，可以根据输入的复杂性选择合适的计算资源，从而提高效率。

🏷️