小红花·文摘

首页
广场
排行榜^🏆
直播
FAQ

本文介绍了使用MAX Engine进行多模态语义搜索的方法，结合文本和视觉数据进行推理优化。作者使用了snowflake-arctic-embed-m和MobileNetV2模型，通过训练和对比损失函数将图像和文本嵌入映射到共享空间。同时，作者展示了如何将模型转换为TorchScript，并使用MAX Engine进行推理。最后，作者通过计算余弦相似度矩阵并可视化展示了测试数据集中图像-标题对与真实标题的相似度。