vLLM Blog ·

torch.compile 介绍及其与 vLLM 的工作原理

💡 原文英文，约2400词，阅读约需9分钟。

📝

内容提要

torch.compile 是 PyTorch 的即时编译器，旨在自动优化代码以提升大语言模型（LLM）的推理性能。它通过捕获张量操作生成优化内核，简化开发者的工作。vLLM 集成了 torch.compile，支持动态批量大小和自定义编译器传递，进一步提升性能。未来将改善稳定性和启动时间，推动推理性能的提升。

🎯

关键要点

torch.compile 是 PyTorch 的即时编译器，自动优化代码以提升大语言模型的推理性能。
torch.compile 通过捕获张量操作生成优化内核，简化开发者的工作。
vLLM 集成了 torch.compile，支持动态批量大小和自定义编译器传递，进一步提升性能。
torch.compile 的前端使用 TorchDynamo 进行图捕获，后端使用 TorchInductor 进行优化和内核生成。
vLLM 在冷启动时编译模型并保存编译结果，热启动时从缓存中检索。
vLLM 支持动态批量大小，并可以通过配置进行特定批量大小的优化。
vLLM 添加了自定义编译器传递，以进一步提高性能。
未来将改善稳定性和启动时间，推动推理性能的提升。

❓

延伸问答

torch.compile 是什么，它的主要功能是什么？

torch.compile 是 PyTorch 的即时编译器，旨在自动优化代码以提升大语言模型的推理性能。

vLLM 如何与 torch.compile 集成以提升性能？

vLLM 集成了 torch.compile，支持动态批量大小和自定义编译器传递，从而进一步提升推理性能。

torch.compile 的前端和后端分别是什么？

torch.compile 的前端使用 TorchDynamo 进行图捕获，后端使用 TorchInductor 进行优化和内核生成。

使用 torch.compile 有哪些优势？

使用 torch.compile 可以在几乎没有额外工程工作的情况下实现显著的性能提升，减少手动优化的需求。

vLLM 如何处理动态批量大小？

vLLM 默认编译一个支持动态批量大小的单一图，允许处理所有可能的批量大小。

torch.compile 在未来有哪些改进计划？

未来将改善稳定性和启动时间，推动推理性能的提升，并增加对新硬件的支持。

🏷️

继续阅读

构建理解化学原理的人工智能模型
康纳·科利在化学与机器学习交叉领域工作，专注于新药物化合物的发现与设计。他利用人工智能分析大量化学化合物，预测反应路径，加速小分子药物的发现。科利的研究结...
SpaceX刚刚提交了可能成为史上最大IPO的申请
SpaceX正式向SEC提交S-1招股说明书，计划在纳斯达克上市，可能成为史上最大IPO。2025年，SpaceX收入预计达到186.7亿美元，主要来自S...
NanoCo bets the future of enterprise AI is one sandboxed agent per employee
NanoCo, the Tel Aviv startup behind the open source NanoClaw agent framework,...
调查对GitHub内部仓库的未经授权访问
亚历克西斯·威尔斯是GitHub的首席信息安全官，负责保护平台和开源社区，支持全球超过1.5亿开发者安全构建软件。她在国防部和网络安全局有20年经验，致力...
‘你说要解决所有疾病？’
谷歌DeepMind首席执行官Demis Hassabis在Google I/O大会上表示，公司的目标是重新构想药物发现过程，以期解决所有疾病。他提到的G...
Christophe Pettus: All Your GUCs in a Row: check_function_bodies
PostgreSQL validates function bodies at creation time by default, catching sy...