加速大语言模型推理是重要研究课题。我们与NVIDIA合作,将ReDrafter集成到TensorRT-LLM中,显著提升推理效率。ReDrafter通过动态树注意力和束搜索,将每步生成的令牌速度提高至2.7倍,降低了用户延迟和计算成本。
完成下面两步后,将自动完成登录并继续当前操作。