本文介绍了一种名为RoE的超并行推理框架,旨在提升大语言模型(LLM)在标记级别的预测质量。RoE通过动态组合多个专家模型,利用受控随机性为每个标记采样多个专家,从而实现更准确的预测。此外,该方法在计算效率上进行了优化,使得7B MoE模型的性能可与10.5B MoE模型相媲美,同时减少了30%的计算需求。
完成下面两步后,将自动完成登录并继续当前操作。