本研究提出了新系统RAPID,旨在解决多媒体内容中的文本视频事件检索问题。通过结合大语言模型和提示学习,RAPID有效增强了查询上下文,提高了检索的准确性,尤其在处理上下文不完整的查询时表现突出。
本文提出了TV-ProxyNet框架,解决了文本视频检索中模态差异的问题。通过将1对N关系转化为N个1对1关系,提高了查询精度和覆盖范围。实验结果显示,该方法在MSRVTT和ActivityNet Captions数据集上表现出色,改善了语义映射并减少了错误。
完成下面两步后,将自动完成登录并继续当前操作。