BriefGPT - AI 论文速递 ·

ProJudge: A Multi-Modal Multi-Disciplinary Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges

💡 原文英文，约100词，阅读约需1分钟。

📝

内容提要

本研究提出了ProJudgeBench，这是第一个用于评估多模态大语言模型（MLLM）过程判断能力的基准。研究表明，开放源代码模型与专有模型之间存在显著性能差距，并通过ProJudge-173k数据集和双阶段微调策略提升了开放源代码模型的评估能力。

🎯

🏷️

SUSE与Nvidia联合推出一款交钥匙AI工厂，专为主权企业工作负载设计
Want to run your own digitally sovereign AI on Nvidia hardware? SUSE has the ...
微博博主爆料iOS 27将停止支持iPhone 11系列和iPhone SE 2
苹果将在2026年发布的iOS 27将停止支持iPhone 11系列和iPhone SE 2，iPhone 12及后续机型可继续升级。虽然这些老旧设备无法...
缩进就是一切
文章讨论了Bash在AI代理中的局限性，指出复杂的Bash命令容易出错，而Python因其缩进特性更适合AI处理。Bash的嵌套结构使状态跟踪困难，可能导...
【公益译文】2026年国际AI安全报告（二）
经合组织（OECD）分析了2030年人工智能（AI）发展前景，提出四种情景：停滞、放缓、持续和加速。停滞情景中，AI能力无显著提升；放缓情景下，AI成为人...
小米宣布上线PC版龙虾，Xiaomi miclaw正式开启PC、Mac、有屏音箱多终端封测
于3月6日上线并开启小范围封测。
Agent正杀入软件研发一线！全球超60位技术专家拆解AI落地困局，2026奇点智能技术大会收官
2026奇点智能技术大会探讨了AI如何重塑软件开发。专家们认为，智能体正在改变软件形态和开发方式。大会发布了AI软件研发成熟度模型、开源影响力榜单及AI开...