该研究使用视觉语音绑定(VGS)模型进行关键词定位,并评估了四种本地化方法。研究还发布了Yoruba语言的口语字幕数据集。跨语言模型的关键词定位精度为16%,在英语数据上预先训练的模型可以提高性能。研究还分析了模型的成功和失败模式,并强调了在低资源环境中使用VGS模型的挑战。
完成下面两步后,将自动完成登录并继续当前操作。