本文介绍了使用MAX Engine进行多模态语义搜索的方法,结合文本和视觉数据进行推理优化。作者使用了snowflake-arctic-embed-m和MobileNetV2模型,通过训练和对比损失函数将图像和文本嵌入映射到共享空间。同时,作者展示了如何将模型转换为TorchScript,并使用MAX Engine进行推理。最后,作者通过计算余弦相似度矩阵并可视化展示了测试数据集中图像-标题对与真实标题的相似度。
完成下面两步后,将自动完成登录并继续当前操作。