本研究提出了一种新方法,解决了文本到图表检索系统无法捕捉图表语义的问题。通过自动合成训练数据,ChartFinder模型的检索表现提升了11.58%。
本研究提出了一种混合检索方法(MoR),有效解决了结构知识与文本知识的孤立问题。实验结果表明,MoR在协调两者的检索方面优于传统方法,尤其在多查询逻辑和结构轨迹集成上表现突出。
本研究提出了一种自动字幕增强方法,旨在解决视频文本检索中的描述不足问题。通过自我学习提升表达质量,设计了专家化字幕选择机制,实现视频与文本的匹配,增强自主适应性,并在基准测试中取得了优异成绩。
本研究解决了大语言模型在长文本检索中的性能不足问题。提出了一种新的方法SEAL,通过强化与长文本检索相关的注意力头,利用零-shot生成数据提升模型性能。研究结果显示,SEAL显著提高了文档问答任务的检索表现,并扩展了长文本处理的能力,为该领域的研究开辟了新方向。
本研究旨在解决现有跨模态检索中的标注噪音问题,提出了一种新的三方学习机制(TSVC),通过协调者、主模型和助手模型的合作来提升鲁棒性。研究发现,TSVC能够在高噪音比下显著提高检索准确率,并保持稳定的训练表现,具有重要的应用潜力。
本研究解决了现有视频-文本检索基准在评估模型能力,尤其是时间理解上的不足。提出了RTime数据集,利用反向视频创建更具挑战性的负样本,并设定了三项检索基准任务,显著提升了视频-文本检索的难度和效果。研究结果表明,RTime为推动视频-文本检索和多模态理解研究提供了新的方向。
本文探讨了信息检索系统与语言模型的结合,评估了多种检索模型和方法,包括跨语言检索、稀疏检索和排名模型的改进。研究表明,新模型和算法显著提升了检索的准确性和效率,满足了高效问答系统的需求。
本研究解决了现有方法无法处理文本行中的部分补丁检索的问题,提出了一种新的网络结构,能够同时检索文本行实例及其部分补丁。通过采用排名多实例学习(RankMIL)和动态部分匹配算法(DPMA),显著提高了检索效率及部分补丁的检索性能。
本文提出了一种新方法,利用预训练的视觉-语言模型提升机器人在日常生活中对环境和物体状态的识别精度,简化模型管理,并扩展可识别的状态类型。
研究提出了一种双原型演变(DPE)方法,解决视觉语言模型在测试时无法有效积累任务特定知识的问题。DPE通过文本和视觉原型提升多模态表示的精准度,在15个基准数据集上表现优于现有方法,并提高了图像分类和文本检索任务的泛化能力和准确性。
我们推出了波兰信息检索基准(PIRB),包含41个波兰语检索任务和10个新数据集。评估了20多个模型,并引入稀疏-密集混合检索器,通过三步训练提升效果。新训练的文本编码器使密集模型优于现有方案,混合方法进一步提高性能。
研究显示,简单的检索增强技术能在生成时达到与微调长上下文窗口模型相当的性能,但计算量更小。检索提升了大型语言模型的性能,不受上下文窗口大小限制。最佳模型LLaMA2-70B在多个任务中优于GPT-3.5-turbo-16k,并在生成速度上更快。这为选择检索增强或扩展上下文提供了新见解。
本研究评估了不同检索增强生成方法对检索精度和答案相似性的影响。研究发现HyDE和大型语言模型重排能提高检索精度,MMR和Cohere重排无优势,Multi-query方法表现不佳。句窗检索是最有效的方法,但答案相似性不稳定。研究证实文件摘要索引是有效的检索方法。欢迎学术界进一步探索RAG系统的研究。
大型语言模型(LLM)在Web界面中检索和定位用户查询的重要元素方面表现出了合理的性能水平,但仍有改进空间。
通过引入FiCo-ITR库对细粒度和粗粒度模型进行实证评估,分析了不同数据规模下的精度、召回率和计算复杂度。揭示了细粒度和粗粒度模型之间性能与效率的权衡,以及它们各自的优势和限制。为具体检索任务的模型选择提供了基础,并突显了利用细粒度和粗粒度方法优势的混合系统研究方向。
本文介绍了用于阿拉伯语机器阅读理解和文本检索的ArabicaQA和AraDPR数据集和模型,同时评估了大型语言模型在阿拉伯语问题回答中的表现。这些进展对阿拉伯语自然语言处理领域具有重要意义。
该研究提出了一种基于文本的音频检索系统,使用自注意力机制的音频编码器和附加的人工生成和合成数据集。该系统在2023年的DCASE挑战中排名第一,在ClothoV2基准测试中表现优于最新技术,提高了5.6个百分点的mAP@10。
本文介绍了一种高效的迁移学习方法,将自然领域的视觉-语言知识转移到遥感领域的图像-文本检索任务上。通过预训练的CLIP模型、多模态遥感适配器和混合多模态对比学习目标,解决了遥感数据中高内部相似性的问题。实证研究表明该方法具有应用潜力,可节省训练成本并提高检索性能,为RS视觉-语言任务提供新思路和见解。
本文介绍了用于阿拉伯语机器阅读理解和文本检索的ArabicaQA和AraDPR数据集和模型,并对大型语言模型在阿拉伯语问题回答中的评估进行了讨论。这些进展对阿拉伯语自然语言处理领域具有重要意义。
该研究提出了一种无需文本注释的基于视觉语言模型训练遥感图像的方法。通过互联网图像作为中介,训练了遥感图像的编码器与CLIP的编码器对齐。该方法训练了一种新型的大规模遥感图像视觉语言模型(VLM),在零样本、开放词汇的图像分类、检索、分割和视觉问答任务中表现出优越性能。
完成下面两步后,将自动完成登录并继续当前操作。