本研究提出了一种新方案,通过对比学习提升多语音音频文本检索的一致性和检索率,实验结果在多语言上表现优异。
本研究提出了一种自动字幕增强方法,旨在解决视频文本检索中的描述不足问题。通过自我学习提升表达质量,设计了专家化字幕选择机制,实现视频与文本的匹配,增强自主适应性,并在基准测试中取得了优异成绩。
本研究解决了大语言模型在长文本检索中的性能不足问题。提出了一种新的方法SEAL,通过强化与长文本检索相关的注意力头,利用零-shot生成数据提升模型性能。研究结果显示,SEAL显著提高了文档问答任务的检索表现,并扩展了长文本处理的能力,为该领域的研究开辟了新方向。
本研究旨在解决现有跨模态检索中的标注噪音问题,提出了一种新的三方学习机制(TSVC),通过协调者、主模型和助手模型的合作来提升鲁棒性。研究发现,TSVC能够在高噪音比下显著提高检索准确率,并保持稳定的训练表现,具有重要的应用潜力。
本研究解决了现有视频-文本检索基准在评估模型能力,尤其是时间理解上的不足。提出了RTime数据集,利用反向视频创建更具挑战性的负样本,并设定了三项检索基准任务,显著提升了视频-文本检索的难度和效果。研究结果表明,RTime为推动视频-文本检索和多模态理解研究提供了新的方向。
本研究分析了多种先进语言模型与搜索系统的整合,评估其精确度与效率,并探讨不同技术组合的优缺点,以满足高效问答系统的需求。
本研究解决了现有方法无法处理文本行中的部分补丁检索的问题,提出了一种新的网络结构,能够同时检索文本行实例及其部分补丁。通过采用排名多实例学习(RankMIL)和动态部分匹配算法(DPMA),显著提高了检索效率及部分补丁的检索性能。
本文提出了一种新方法,利用预训练的视觉-语言模型提升机器人在日常生活中对环境和物体状态的识别精度,简化模型管理,并扩展可识别的状态类型。
我们推出了波兰信息检索基准(PIRB),包含41个波兰语检索任务和10个新数据集。评估了20多个模型,并引入稀疏-密集混合检索器,通过三步训练提升效果。新训练的文本编码器使密集模型优于现有方案,混合方法进一步提高性能。
研究显示,简单的检索增强技术能在生成时达到与微调长上下文窗口模型相当的性能,但计算量更小。检索提升了大型语言模型的性能,不受上下文窗口大小限制。最佳模型LLaMA2-70B在多个任务中优于GPT-3.5-turbo-16k,并在生成速度上更快。这为选择检索增强或扩展上下文提供了新见解。
本研究评估了不同检索增强生成方法对检索精度和答案相似性的影响。研究发现HyDE和大型语言模型重排能提高检索精度,MMR和Cohere重排无优势,Multi-query方法表现不佳。句窗检索是最有效的方法,但答案相似性不稳定。研究证实文件摘要索引是有效的检索方法。欢迎学术界进一步探索RAG系统的研究。
大型语言模型(LLM)在Web界面中检索和定位用户查询的重要元素方面表现出了合理的性能水平,但仍有改进空间。
通过引入FiCo-ITR库对细粒度和粗粒度模型进行实证评估,分析了不同数据规模下的精度、召回率和计算复杂度。揭示了细粒度和粗粒度模型之间性能与效率的权衡,以及它们各自的优势和限制。为具体检索任务的模型选择提供了基础,并突显了利用细粒度和粗粒度方法优势的混合系统研究方向。
该研究提出了一种基于文本的音频检索系统,使用自注意力机制的音频编码器和附加的人工生成和合成数据集。该系统在2023年的DCASE挑战中排名第一,在ClothoV2基准测试中表现优于最新技术,提高了5.6个百分点的mAP@10。
本文介绍了一种高效的迁移学习方法,将自然领域的视觉-语言知识转移到遥感领域的图像-文本检索任务上。通过预训练的CLIP模型、多模态遥感适配器和混合多模态对比学习目标,解决了遥感数据中高内部相似性的问题。实证研究表明该方法具有应用潜力,可节省训练成本并提高检索性能,为RS视觉-语言任务提供新思路和见解。
该研究提出了一种无需文本注释的基于视觉语言模型训练遥感图像的方法。通过互联网图像作为中介,训练了遥感图像的编码器与CLIP的编码器对齐。该方法训练了一种新型的大规模遥感图像视觉语言模型(VLM),在零样本、开放词汇的图像分类、检索、分割和视觉问答任务中表现出优越性能。
该研究提出了一种基于小批量学习匹配框架的音频-文本检索方法,能够学习丰富、表达力强的联合嵌入空间,并在多个数据集上取得了最先进的性能。该方法还能够弥补音频和文本嵌入之间的模态差距,并在零样本声音事件检测任务中超越了其他方法。
研究评估了大型语言模型(LLMs)在生物医学任务中的性能,发现LLMs在具有较小训练集的生物医学数据集中表现出色,甚至超过了当前最先进的生物医学模型。然而,不同LLMs的性能可能因任务而异。尽管与精细调整的生物医学模型相比,LLMs的性能仍然较差,但它们在缺乏大规模注释数据的生物医学任务中具有潜在的价值。
城市计算是整合多源数据以支持可持续发展的关键学科。智能城市中利用深度学习方法促进跨领域数据融合的趋势增长。一份综述回顾了基于深度学习的城市计算数据融合方法的最新进展,并展望了大型语言模型与城市计算之间的相互影响和未来研究方向。
本文介绍了基于Amazon Bedrock托管的Claude3实现RAG增强文本检索的Text to SQL方案。通过Amazon Titan实现Embedding和向量检索工具,得到有知识库背景的prompt,连同上下文一起发送给大模型,得到更精准的输出。
完成下面两步后,将自动完成登录并继续当前操作。