亚马逊AWS官方博客 ·

Amazon Nova Multimodal Embeddings：最先进的代理 RAG 和语义搜索嵌入模型

💡 原文中文，约17100字，阅读约需41分钟。

📝

内容提要

亚马逊推出Nova多模态嵌入模型，支持文本、图像、视频和音频的统一嵌入，提升跨模态检索准确性，适用于语义搜索和生成增强检索，具备高效上下文处理能力和灵活输出维度选项。

🎯

关键要点

亚马逊推出Nova多模态嵌入模型，支持文本、图像、视频和音频的统一嵌入。
该模型适用于代理式检索增强生成(RAG)和语义搜索应用，具备高效上下文处理能力。
Nova模型能够以领先准确率实现跨模态检索，解决传统模型处理单一内容类型的限制。
支持高达8K令牌的上下文长度和多达200种语言的文本输入。
提供四种输出嵌入维度选项，使用Matryoshka Representation Learning (MRL)进行训练。
模型支持分段处理长文本、视频或音频内容，生成可管理的嵌入。
通过Amazon SDK (Boto3)示例展示如何创建和存储不同内容类型的嵌入。
支持异步API处理大于25MB的视频内容，能够高效搜索长时间的视频。
嵌入可以存储在Amazon S3 Vectors中，提供大规模相似性搜索的基础设施。
Nova模型包含负责任的人工智能功能，经过内容安全过滤器和公平性措施。
模型可通过同步和异步API调用，适用于实时应用和延迟不敏感的工作负载。
Nova多模态嵌入模型现已在Amazon Bedrock的美国东部区域正式推出。

🔎

延伸解读

多模态嵌入的优势

Nova多模态嵌入模型的推出，标志着跨模态检索的重大进步。通过统一处理文本、图像、视频和音频，用户可以更高效地从复杂的非结构化数据中提取信息。这种能力使得企业在处理多样化内容时，能够避免传统模型的局限性，提升检索的准确性和效率。

灵活的输出维度选择

Nova模型提供多达四种输出嵌入维度选项，用户可以根据具体应用需求选择合适的维度。较大的维度虽然提供更详细的表示，但也意味着更高的存储和计算成本。选择合适的维度可以在性能和资源效率之间找到平衡，帮助企业优化成本。

处理长内容的能力

该模型支持高达8K令牌的上下文长度，并能对长达30秒的视频和音频进行分段处理。这一特性在处理大型媒体文件时尤为重要，能够将内容拆分为可管理的片段，从而提高检索效率和准确性。

负责任的人工智能功能

Nova模型内置了负责任的人工智能功能，包括内容安全过滤器和公平性措施。这些功能确保了在使用模型时，用户提交的内容能够得到适当的处理，减少潜在的偏见和不当内容的影响，增强了模型的可靠性和安全性。

❓

延伸问答

Amazon Nova多模态嵌入模型的主要功能是什么？

该模型支持文本、图像、视频和音频的统一嵌入，提升跨模态检索的准确性。

Nova模型如何处理长文本和视频内容？

Nova模型支持分段处理长文本、视频或音频内容，生成可管理的嵌入。

如何使用Amazon SDK创建和存储嵌入？

可以使用Amazon SDK (Boto3)创建嵌入并存储在Amazon S3 Vectors中，示例代码展示了具体实现。

Nova模型支持多少种语言的文本输入？

Nova模型支持多达200种语言的文本输入。

Nova多模态嵌入模型的输出维度选项有哪些？

该模型提供四种输出嵌入维度选项：3072、1024、384和256。

Nova模型如何确保内容的安全性和公平性？

模型经过内容安全过滤器和公平性措施，以减少偏向和确保安全性。

🏷️