小红花·文摘

一分钟读论文：《自动化AI研发中的隐蔽破坏与监控评估》

Micropaper ·

本文介绍了QL中的表达式，包括变量引用、字面量、括号表达式、范围、集合文字表达式和聚合等。表达式用于评估值并具有特定类型。QL支持多种聚合函数，如计数、求和和平均值，能够处理不同类型的数据。聚合评估过程包括确定输入变量、生成元组、应用表达式和计算最终结果。

Expression

像清水一般清澈透明 ·

人工智能时代的评估指标

OpenAI ·

大型语言模型函数调用的不确定性量化

Apple Machine Learning Research ·

LLM评估框架比较：如何实际衡量您的模型表现

MachineLearningMastery.com ·

主动代理研究环境：模拟活跃用户以评估主动助手

Apple Machine Learning Research ·

微软如何在企业规模上部署AI代理

ByteByteGo Newsletter ·

在编码评估中区分信号与噪声

OpenAI ·

Flags SDK 现在以 10 倍的速度评估标志

Vercel News ·

一分钟读论文：《AgentGym2——从理想化基准到真实世界部署的评估范式转移》

Micropaper ·

基准测试的意义差距

The JetBrains Blog ·

阿里巴巴达摩院提出了“自主策略演化”评估新范式EvoPolicyGym，关注在固定预算内Agent如何迭代改进策略。该方法通过轨迹级诊断框架分析预算分配、反馈转化和策略精炼能力，揭示不同模型的演化模式。实验结果显示GPT-5.5表现优异，强调了Agent从反馈中学习的重要性。

一分钟读论文：《Agent能否从失败中进化——自主策略演化评估基准EvoPolicyGym》

Micropaper ·

FlowEval：基于参考的生成用户界面评估

Apple Machine Learning Research ·

阿里巴巴达摩院的论文《EvoPolicyGym》首次将自主策略演化形式化为独立评估设定，提出在固定交互预算内评估Agent的策略改进能力。研究表明，强自主策略演化依赖于任务适配机制的发现和策略的精炼。EvoPolicyGym框架提供轨迹级诊断，分析预算分配、反馈转化和策略精炼能力，强调自我进化能力在复杂任务中的重要性。