本研究提出了一种新方法,解决了文本到图表检索系统无法捕捉图表语义的问题。通过自动合成训练数据,ChartFinder模型的检索表现提升了11.58%。
本研究提出了一种混合检索方法(MoR),有效解决了结构知识与文本知识的孤立问题。实验结果表明,MoR在协调两者的检索方面优于传统方法,尤其在多查询逻辑和结构轨迹集成上表现突出。
本研究提出了一种自动字幕增强方法,旨在解决视频文本检索中的描述不足问题。通过自我学习提升表达质量,设计了专家化字幕选择机制,实现视频与文本的匹配,增强自主适应性,并在基准测试中取得了优异成绩。
本研究解决了大语言模型在长文本检索中的性能不足问题。提出了一种新的方法SEAL,通过强化与长文本检索相关的注意力头,利用零-shot生成数据提升模型性能。研究结果显示,SEAL显著提高了文档问答任务的检索表现,并扩展了长文本处理的能力,为该领域的研究开辟了新方向。
本研究旨在解决现有跨模态检索中的标注噪音问题,提出了一种新的三方学习机制(TSVC),通过协调者、主模型和助手模型的合作来提升鲁棒性。研究发现,TSVC能够在高噪音比下显著提高检索准确率,并保持稳定的训练表现,具有重要的应用潜力。
本研究解决了现有视频-文本检索基准在评估模型能力,尤其是时间理解上的不足。提出了RTime数据集,利用反向视频创建更具挑战性的负样本,并设定了三项检索基准任务,显著提升了视频-文本检索的难度和效果。研究结果表明,RTime为推动视频-文本检索和多模态理解研究提供了新的方向。
本文探讨了信息检索系统与语言模型的结合,评估了多种检索模型和方法,包括跨语言检索、稀疏检索和排名模型的改进。研究表明,新模型和算法显著提升了检索的准确性和效率,满足了高效问答系统的需求。
本研究解决了现有方法无法处理文本行中的部分补丁检索的问题,提出了一种新的网络结构,能够同时检索文本行实例及其部分补丁。通过采用排名多实例学习(RankMIL)和动态部分匹配算法(DPMA),显著提高了检索效率及部分补丁的检索性能。
本研究提出了一种基于知识的查询扩展框架,结合结构化文档关系与大语言模型,解决了现有方法对文档关系考虑不足的问题。实验结果表明,该方法在文本和关系检索中显著优于现有技术,具有较高的应用价值。
研究提出了一种双原型演变(DPE)方法,解决视觉语言模型在测试时无法有效积累任务特定知识的问题。DPE通过文本和视觉原型提升多模态表示的精准度,在15个基准数据集上表现优于现有方法,并提高了图像分类和文本检索任务的泛化能力和准确性。
研究表明,最新的多语言编码器在无监督的文档级和句子级跨语言信息检索中表现不如早期模型,但在监督学习下可提高准确率。提出了轻量级跨语言检索算法和混合模型HYRR,优化了波兰语信息检索资源,评估了多种检索模型的性能,最终实现了长上下文文本表示模型的突破。
研究评估了大型语言模型在长上下文理解中的表现,发现商业模型(如GPT-3.5-Turbo-16k)优于开源模型,但在长序列上仍存在困难。引入检索增强技术可以改善模型性能,尤其是在长上下文任务中。提出的M4LE基准测试揭示了当前模型在处理复杂推理任务时的不足,并为未来研究提供了参考。
该论文提出了一种新的声学嵌入方案sound-word2vec,应用于文本检索和电影制作等任务。研究探讨了无监督神经网络模型在语音与图像的语义关联,提出了基于双流网络的算法用于声源定位,并通过自监督学习提升性能。此外,介绍了Spatial LibriSpeech数据集用于训练模型,展示了在声音景观映射和跨模态检索中的优越表现。
本文介绍了一种段落排名器方法,提升开放域问答系统的性能,平均提高7.8%。研究提出了REAR方法,通过引入排名头和优化训练,显著提高检索效果,改善了大型语言模型的响应质量,解决了信息陈旧等问题。
本文介绍了检索增强生成(RAG)框架及其无参考评估方法,指出大型语言模型在科学文档推理中存在证据捏造问题,并探讨了其在信息检索中的应用与挑战。提出的新指令调优数据集INTER显著提升了LLM在搜索任务中的表现,最后讨论了RAG的未来研究方向及评估框架GRAMMAR的有效性。
本研究提出了多种人体姿态估计方法,包括基于关节的动作识别模型和分层对齐框架,利用视觉证据和互信息等技术,在多个数据集上取得了先进性能。同时,探讨了运动姿势估计和文本与运动检索等关键概念,验证了新方法的有效性和鲁棒性。
本文探讨了图像-文本检索(ITR)的评估管道及其脆弱性,并提出改进方案。研究提出了一种高效的文本到视频检索方法,结合多粒度视觉特征学习和二阶段检索架构,性能与现有方法相当且速度快50倍。此外,提供了细粒度图像检索模型设计指南和新颖的检索框架,显著提升了检索准确性和效率。
本文探讨了通过多视角内容感知索引(MC索引)和改进的文本检索方法来提升长文档问答(DocQA)性能。研究表明,MC索引显著提高了召回率,并能与多种检索器无缝集成。此外,提出了基于Transformer的架构和结构化文本分割的方法,以增强机器阅读理解(MRC)效果。
本研究提出了三个新的跨模态检索基准,旨在提升文本与音频之间的检索效果。通过预训练音频任务,建立了文本-音频和音频-文本检索的基线,并公开了数据集和代码。研究表明,采用新框架和方法显著提高了检索准确性,推动了音频检索领域的发展。
本文介绍了一种新型交互式傅里叶变换方法,结合视觉语言预训练,实现遥感图像字幕生成,提升语义一致性。提出的旋转多尺度交互网络(RMSIN)在遥感图像分割中表现优越,采用适应性旋转卷积提高分割准确性。同时,设计的多尺度隐式变换器(MSIT)在超分辨率任务中也取得了先进性能。此外,通过知识图谱增强文本-图像检索能力,提出的KTIR方法在遥感检索中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。