我们在PD分离部署方面取得新进展,KVT模块负责kvcache传输,设计实现零负载。通过解析层、控制层和传输层优化数据传输和容错处理,引入双请求模式以提高调度灵活性,支持多种后端,满足模型需求的演进。
Primus是一个通用的分布式训练调度框架,支持多种训练框架、调度器和角色,具备容错处理、动态调度、多数据源数据类型支持等功能。它能够帮助算法工程师从底层细节中解脱出来,更多地关注算法层面。
完成下面两步后,将自动完成登录并继续当前操作。