小红花·文摘

Cohere首席执行官Aidan Gomez表示，人工智能将比预期更快盈利

The Verge ·

MoE-Infinity是一种成本高效的专家混合系统，通过卸载感知的专家来降低延迟开销，提高性价比。实验结果显示，MoE-Infinity优于现有系统和方法，延迟降低了4-20倍，部署成本降低了8倍以上。

MoE-Infinity: 激活感知的专家卸载以提升 MoE 服务的效率

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型在成本高效的推理和微调方面的方法，并比较了本地和分布式策略。通过开发特殊的容错推理算法和负载平衡协议，实现了自动分配设备以最大化系统总吞吐量。在 Petals 中的应用展示了这些算法，该分散式系统能够以比离线处理快 10 倍的速度运行大型语言模型。通过模拟条件和跨越两大洲的真实场景对系统性能进行了评估。

互联网上大规模语言模型的分布式推理和微调

BriefGPT - AI 论文速递 ·