文章讨论了在共享LLM基础设施上进行A/B测试的挑战,特别是用户级随机化的局限性。为了解决这一问题,采用了切换实验设计,通过随机化时间段而非用户,确保所有用户在同一时间段内接受相同的处理。文章详细介绍了构建切换时间序列、调整滞后效应、使用HAC标准误差和引导置信区间的方法,以准确评估AI路由对任务完成率的影响。最后强调在进行基础设施投资前,需评估直接效应和滞后效应的经济性。
本研究解决了混合专家架构在推理过程中由于专家负载不均导致的效率低下问题。通过提出容量感知推理技术,包括容量感知令牌丢弃和容量感知令牌重定向,有效地平衡了令牌分配,显著提高了推理效率,测试结果显示推理速度提高了1.94倍,同时平均性能提升0.2%。
完成下面两步后,将自动完成登录并继续当前操作。