本文介绍了如何将Florence-2模型部署到Inferentia2,采用Stage-wise编译、Bucket策略和BF16优化,实现了252ms的延迟和8.18 QPS的吞吐量,推理成本比GPU降低38%。Florence-2具备零样本能力,适用于电商和仓储等场景,显著降低了物品分类的运维成本和复杂度。
完成下面两步后,将自动完成登录并继续当前操作。