小红花·文摘

该研究提出了一个利用消费级 GPU 进行大型语言模型的分散系统，实现了动态加入和退出、任务调度、通用性和兼容性等功能，50 个 RTX 3080 GPUs 的吞吐量可与 4 个昂贵的 H100 GPUs 相媲美。