小红花·文摘

美团 LongCat 团队发布全模态一站式评测基准 UNO-Bench

美团技术团队 ·

美团 LongCat 团队发布 VitaBench：基于复杂生活场景的交互式 Agent 评测基准

美团技术团队 ·

美团 M17 团队开源 Meeseeks 评测集：揭秘大模型的“听话”能力

美团技术团队 ·

DeepMind创始人哈萨比斯在访谈中表示，Genie 3能够实时生成虚拟世界，推动AGI的发展。他提到智能体在推理和规划能力上仍存在不足，模型表现不一。未来需要更完善的评测基准，以提升AI的整体能力和一致性。

DeepMind哈萨比斯：智能体可以在Genie实时生成的世界里运行

量子位 ·

MMBench-Video是一个新的视频理解评测基准，旨在解决现有基准在长视频和复杂任务评估中的不足。该基准涵盖多种视频类型，采用高质量人工标注，评估模型的时序理解能力。通过对多模态大模型的测试，MMBench-Video提高了评估精度，为视频理解研究提供了重要工具。

突破短视频局限！MMBench 团队构建中长视频开放问答评测基准，全面评估多模态大模型视频理解能力

量子位 ·

北京大学与阿里巴巴联合研发了数学竞赛评测基准Omni-MATH，收录了4428道竞赛级别问题，涵盖33个子领域，分为10个难度级别。排行榜上o1-mini表现最佳，平均分比o1-preview高8%。Omni-MATH特点是可靠的答案验证、清晰合理的难度分类和广泛的题目类型。数据来源包括比赛题目、题解和数学网站Art of Problem Solving。评测集经过细致调研和人工筛选，题解转换成Latex格式并人工检查答案准确性。团队还开发了开源答案验证器Omni-Judge。

北大AI奥数评测，o1-mini比o1-preview分数还高

量子位 ·

本文介绍了新的评测基准YTSeg，重点是非结构化语音内容。提出了高效的层次分割模型MiniSeg，并对比了现有的基准方法。还将文本分割概念扩展到实际的“智能章节切割”任务中，包括非结构化内容的分割、生成有意义的片段标题以及模型的潜在实时应用。

任何文本的分段：一种用于鲁棒、高效和适应性句子分割的通用方法

BriefGPT - AI 论文速递 ·

本文介绍了评测基准YTSeg和高效的层次分割模型MiniSeg，重点是非结构化的语音内容。还扩展了文本分割概念到实际的“智能章节切割”任务中，包括非结构化内容的分割、生成有意义的片段标题以及模型的潜在实时应用。

从文本分割到智能分章：一个用于视频转录结构化的新型基准测试

BriefGPT - AI 论文速递 ·