SGLang与NVIDIA合作发布了GB200 NVL72系统的初步基准测试,LLM推理吞吐量提升2.7倍。优化措施包括FP8矩阵乘法和加速注意力内核,增强了多GPU性能。该系统适用于大规模AI训练和推理,未来将进一步优化预填充延迟和内存利用率。
完成下面两步后,将自动完成登录并继续当前操作。