通过 Optimum Neuron 加速 Llama 2 和 SDXL 在 Inf2 和 Trn1 上部署推理
原文中文,约10400字,阅读约需25分钟。发表于: 。Hugging Face 生态体系中的 Transformers 库为 state-of-the-art 预训练模型提供了非常方便的 API 和工具集,帮助用户轻松下载模型并完成训练,是工程师手边的必备神器。为了在更多加速硬件上(如亚马逊云科技的 Trainium 和 Inferentia)训练和运行 Transformers 模型,提升整体的效率,Hugging Face 推出了开源项目...
Optimum Neuron支持在Neuron设备上编译SDXL Pipeline组件和Llama 2模型,并提供NeuronModel类和TGI支持,帮助用户将大模型部署到亚马逊云科技的自研芯片上进行推理服务。