小红花·文摘

本文研究了低资源语言中的视觉关键词检测，提出了多种模型和方法，包括视觉语音联合训练和基于注意力机制的模型，以提高关键词定位精度。研究表明，结合高资源语言知识可以有效提升低资源语言的表现，并探讨了在真实环境中的应用挑战。