本研究提出了新系统RAPID,旨在解决多媒体内容中的文本视频事件检索问题。通过结合大语言模型和提示学习,RAPID有效增强了查询上下文,提高了检索的准确性,尤其在处理上下文不完整的查询时表现突出。
本文提出了多种跨模态学习方法,包括自监督训练框架和多层次对齐方法,旨在提升文本与视频检索、行为识别等任务的性能。研究表明,这些新方法在多个数据集上优于现有技术,推动了医学机器学习和无监督匹配等领域的发展。
完成下面两步后,将自动完成登录并继续当前操作。