大多数语言依赖词序和句法来提取意义,但现有注意机制在状态变化和顺序推理方面存在局限。MIT研究团队提出的“PaTH Attention”技术增强了位置信息的适应性,提升了模型在推理和长文本理解上的表现。
Qwen团队于7月29日发布了Qwen3-30B-A3B-Instruct-2507版本,提升了长文本理解能力至256K,性能接近顶尖模型,特别在指令跟随和逻辑推理方面有显著提升。用户可通过OpenBayes平台一键部署体验,新用户注册可获算力资源福利。
OpenAI发布了新语言模型系列GPT-4.1,包括GPT-4.1 mini和GPT-4.1 nano,支持最多100万tokens。GPT-4.1在编码能力和长文本理解上显著提升,准确率达到54.6%。mini版降低了延迟和成本,nano版适合简单任务。GPT-4.1在代码编辑方面表现优异,减少了不必要的修改。GPT-4.5将于2025年7月14日停用,GPT-4.1的定价也有所调整。
FG-CLIP模型通过长文本理解和细粒度视觉比对,解决了传统CLIP的“视觉近视”问题,能够精准识别局部细节。实验结果表明,其在多个任务上优于现有模型。360人工智能研究院将开源相关数据和代码,推动细粒度视觉理解的发展。
GPT-4.1系列模型发布,显著提升了编码、指令遵循和长文本理解能力,支持高达100万标记的上下文,性能更优,成本更低。该模型在多个基准测试中表现出色,特别是在编码任务和多轮对话中,提升了指令遵循的可靠性,适用于智能系统和复杂任务的开发。
本研究提出了一种无训练的长文本外推方法——贪心注意力对数插值(GALI),旨在提升变换器基础的大型语言模型在处理超出训练上下文窗口的输入时的性能,利用预训练的位置信息显著增强模型的长文本理解能力。
本研究提出了LoTLIP模型,旨在改善语言-图像预训练在长文本理解中的不足。通过长文本标签重标定和角落标记的引入,模型在保持短文本理解能力的同时,显著提升了长文本的理解能力和图像检索性能。
本文介绍了多个元强化学习工具和基准测试,包括XLand-MiniGrid和XL2Bench,后者评估大型语言模型在长文本理解中的表现,结果显示其性能低于人类水平。此外,MineRL数据集为Minecraft任务提供了丰富的示范数据,推动了相关技术研究。
本文介绍了MM-NIAH基准,评估多模态大型语言模型(MLLMs)对长文本的理解能力,指出现有模型在视觉评估方面的不足。通过对20个模型在14个数据集上的综合评估,揭示了模型的局限性,并为未来研究提供了见解。
本文提出了一种新颖的语义压缩方法,使大型语言模型(LLM)能够处理更长文本而无需显著的计算开销。该方法通过减少语义冗余,扩展了LLM在问答和摘要等任务中的上下文窗口。同时,研究介绍了LongMem和UniMem框架,提升了模型对历史上下文的利用能力,并提出了Attention Transition技术,显著改善了长文本理解。
谷歌宣布推出Gemini 1.5,这是其AI系统的下一代模型。Gemini 1.5在性能和长文本理解方面有所提升,可以处理高达100万个标记,能够分析大量信息和执行复杂的推理任务。该模型在各种评估中进行了测试,并在87%的基准测试中超过了其前身Gemini 1.0。谷歌向开发人员和企业客户提供了Gemini 1.5的有限预览,并计划根据上下文窗口大小推出定价层次。
完成下面两步后,将自动完成登录并继续当前操作。