小红花·文摘

该研究使用视觉语音绑定（VGS）模型进行关键词定位，并评估了四种本地化方法。研究还发布了Yoruba语言的口语字幕数据集。跨语言模型的关键词定位精度为16％，在英语数据上预先训练的模型可以提高性能。研究还分析了模型的成功和失败模式，并强调了在低资源环境中使用VGS模型的挑战。