亚马逊AWS官方博客 ·

基于NOVA MME多模态能力构建游戏资产库

💡 原文中文，约4500字，阅读约需11分钟。

📝

内容提要

AWS推出NOVA多模态embedding模型，简化游戏音频资产管理。该模型将音频资产转为向量，通过余弦相似度检索，提升搜索效率。项目使用AWS CDK快速部署，支持音频处理和查询，适合多模态应用场景。

🎯

🔎

NOVA MME通过将音频资产转化为向量，利用余弦相似度进行检索，显著提高了搜索效率。然而，这种方法在处理音频内容的细节时存在局限，可能导致信息丢失，影响某些查询的准确性，尤其是在需要精确匹配关键字的场景中。

在使用NOVA MME进行音频搜索时，音频的质量和处理方式至关重要。使用FFmpeg进行降噪和音频增强可以显著提高搜索的准确性，尤其是在“听音识曲”的应用场景中。用户应重视音频的录制质量和后期处理，以获得更好的搜索结果。

AWS CDK的使用简化了云服务的管理和部署过程，使得开发者能够快速构建和配置项目。通过代码管理云资源，不仅提高了效率，还降低了配置错误的风险。对于希望快速迭代和部署的开发团队来说，AWS CDK是一个理想的选择。

❓

NOVA MME模型将音频资产转为向量，通过余弦相似度检索，简化游戏音频资产管理。

可以使用AWS CDK快速部署，创建S3向量表和索引，配置相关参数后直接进行部署。

技术架构分为音频处理和查询流程，使用AWS Lambda和Step Functions进行音频文件的批量处理和查询。

音频必须经过FFmpeg处理以降噪和提高人声，且音频长度应低于15秒以提高搜索准确性。

NOVA MME不依赖关键词匹配，而是通过向量相似度检索，提升了搜索效率和准确性。

向量转换可能导致信息丢失，影响查询准确性，尤其在寻找特定关键字时匹配率较低。

🏷️