量子位 ·

无一大模型及格！北大/通研院提出超难基准，专门评估长文本理解生成

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

北大/通研院提出了新的基准数据集LooGLE，用于评估大语言模型对长文本的理解能力。数据集包含近800个超长文档，构建了6千个不同领域和类别的任务/问题。评估结果显示商业模型和开源模型在复杂的长依赖任务中准确率不高。LooGLE为长上下文LLMs提供了全面评估，为未来增强型模型的开发提供了启示。

🎯

关键要点

北大和通研院提出了新的基准数据集LooGLE，用于评估大语言模型对长文本的理解能力。
LooGLE数据集包含近800个超长文档，构建了6000个不同领域和类别的任务/问题。
评估结果显示商业模型和开源模型在复杂的长依赖任务中准确率不高，商业模型平均只有40%的准确率，开源模型更低，仅10%。
LooGLE基准测试包含7个主要任务类别，设计了5种类型的长期依赖任务，包括理解与推理、计算、时间线重新排序、多重信息检索和摘要。
LooGLE数据集仅包含2022年之后发布的文本，避免了预训练阶段的数据泄露。
实验分析显示商业模型显著优于开源模型，LLMs在短依赖任务表现出色，但在复杂的长依赖任务中表现不佳。
LooGLE为未来开发增强型模型以实现真正的长上下文理解提供了启示。

🏷️

继续阅读

NVIDIA推出Nemotron 3 Nano Omni模型，整合视觉、音频和语言，实现高达9倍的AI代理效率
NVIDIA推出Nemotron 3 Nano Omni模型，将视觉、音频和语言整合为一个系统，显著提升AI代理的效率和准确性。该模型具备高达9倍的处理能...
阿里视频模型 HappyHorse 开启灰测，悟空已率先接入
阿里推出的HappyHorse 1.0视频生成模型已开始灰测，面向企业用户进行客户共创。该模型支持文生视频、图生视频等多模态创作，能够快速生成高质量的图片...
MuleRun（骡子快跑）首发灰测HappyHorse模型，支持用户7×24小时调用
MuleRun推出了自进化个人AI，用户可以通过输入提示词调用阿里巴巴的HappyHorse 1.0视频生成模型，支持多种内容生产场景。该平台提供独立云端...
Claude Pro订阅无法再使用Opus系列模型？A社称过时信息忘记删除
关于Claude Pro订阅无法使用Opus系列模型的消息引发用户不满。A公司澄清这是过时信息，从2026年1月起，Claude Pro已支持在Claud...
OpenMOSS发布MOSS-Audio：一个用于语音、声音、音乐和时间感知音频推理的开源基础模型
MOSS-Audio是一个开源音频理解模型，集成了语音转录、情感分析和环境声音理解等功能。其模块化设计包括音频编码器和大型语言模型，采用DeepStack...
派早报：阿里巴巴发布视频生成模型 HappyHorse 1.0 等
阿里巴巴于4月27日发布了视频生成模型HappyHorse 1.0，面向专业创作者和普通用户开放测试。该模型支持文本和图像生成视频，最长可生成15秒的视频...

无一大模型及格！ 北大/通研院提出超难基准，专门评估长文本理解生成

内容提要

关键要点

标签

继续阅读

无一大模型及格！北大/通研院提出超难基准，专门评估长文本理解生成