Mixture of Local Experts: Achieving Essentially Free Test-Time Training through Model Merging
本研究解决了当前混合专家模型由于训练和推理成本高而只能使用少量专家的问题。提出的测试时间模型合并(TTMM)方法可以大幅增加专家数量,并几乎不增加测试时间开销。研究表明,TTMM在使用更多专家时性能提升,且测试时间比传统测试时间训练(TTT)快100倍以上,为规模化测试时间训练提供了经济有效的解决方案。
本研究提出了一种测试时间模型合并(TTMM)方法,旨在解决混合专家模型因训练和推理成本高而只能使用少量专家的问题。TTMM显著增加了专家数量,并且测试时间比传统方法快100倍以上,为大规模测试提供了经济有效的解决方案。