在真实低资源环境中改进视觉提示关键词定位
原文中文,约300字,阅读约需1分钟。发表于: 。本文研究了在低资源语言中进行视觉提示关键词定位(VPKL)的问题,提出了一种无转录对来自动挖掘正负对的少样本学习方案。研究发现,该方法在英语中仅轻微降低性能,但在真实低资源语言约鲁巴语中,性能下降更为显著,这表明在该语言中自动挖掘的精确度较低。
该研究使用视觉语音绑定(VGS)模型进行关键词定位,并评估了四种本地化方法。研究还发布了Yoruba语言的口语字幕数据集。跨语言模型的关键词定位精度为16%,在英语数据上预先训练的模型可以提高性能。研究还分析了模型的成功和失败模式,并强调了在低资源环境中使用VGS模型的挑战。