BriefGPT - AI 论文速递 ·

DocPuzzle：评估现实长篇上下文推理能力的过程意识基准

💡 原文中文，约500字，阅读约需2分钟。

📝

内容提要

本研究提出了DocPuzzle基准，用于评估大型语言模型在长篇上下文中的推理能力。基准包含100个需要多步推理的专家级QA问题。评估结果表明，慢思维推理模型优于一般指令模型，而蒸馏推理模型与教师模型之间存在显著差距。

🎯

🏷️

基于大模型推理与MCP工具调用，斯坦福大学AI X射线科学家在同步辐射光源自主完成单晶衍射对准
AI X 射线科学家」的意义，并不在于取代实验人员，而是让 AI 从数据分析工具进一步走进实验现场，参与设备操作、状态判断和策略调整。尽管目前仍受限于样品...
英美联合测评打脸Kimi K3：网络攻击能力仅美国前沿六成但赢了GLM
全球首个公开测评：Kimi K3黑客技能仅达美国前沿模型六成，谁在裸泳？ Kimi K3，月之暗面最新大模型，2026年7月16日发布，七天后英美联合安全...
Why China is giving away its best AI models
Silicon Valley has spent much of the past week on red alert, digesting the ar...
Microsoft is racing to make OpenAI optional
AI is changing the technology game so quickly that Microsoft CEO Satya Nadell...
YouTube Premium will include Peacock starting next year
YouTube's ad-free Premium subscription is getting another perk: access to...
Are We Interfacing Yet?
我在自己的时间里一直坚持手写代码，但工作时难免与 Agents 打交道。一方面是公司推崇这种工具，另一方面是如果我不用的话，我就没办法按时交付工作。无论如...