Duo-LLM:大型语言模型中自适应计算研究框架
原文英文,约300词,阅读约需1分钟。发表于: 。This paper was accepted at the Efficient Natural Language and Speech Processing (ENLSP) Workshop at NeurIPS 2024. Large Language Models (LLMs) typically generate outputs token by token using a...
本文探讨了大型语言模型中自适应计算的有效性,提出了一种新框架,通过在每个前馈网络层集成小型辅助模块,实现基于任务复杂度的动态路由。研究发现,训练的路由器与理想模式不同,激活单层大模块的效果优于全层使用大模块,揭示了实际路由与理论最优之间的差距。