小红花·文摘

这篇综述探讨了大语言模型（LLMs）的评估方法，介绍了不同任务中的成功与失败案例，以及未来的挑战。研究提出了多个评估框架，如AgentBoard和ScaleEval，以提高LLMs的评估能力和可解释性，并强调标准化方法和伦理指南的重要性。通过动态评估和模块化基准，研究发现LLMs在多任务中的性能普遍下降，并提出了新的测评范式以优化模型表现。

重新审视基准与评估：面向大型语言模型的基于代理的探索性动态评估框架

BriefGPT - AI 论文速递 ·

苹果公司的Vision Pro产品销量低迷，被认为是科技行业的失败案例之一。产品重量、眼睛疲劳和头痛等问题以及缺乏使用案例受到批评。销售目标大幅下调，预计今年销量低至40万台。科技行业的失误不能忽视，人们应该拥有挑战科技公司的能力。

【外评】苹果 Vision Pro 是个大败笔

程序师 ·

该研究提出了一种通过设定Dice距离和Hausdorff距离的阈值来自动识别失败案例的方法，以减少手动检查预测输出的耗时任务，更快地识别失败案例候选人。该方法在临床专家策划的数据集中的20个不同器官的CT图像上进行了评估，可以区分不同状态的失败案例，并进行了超过12个案例的可视评估。该阈值方法可以扩展到其他器官，提高放射治疗计划的质量。

使用距离度量自动识别器官风险分割中的失败案例：对 CT 数据的研究

BriefGPT - AI 论文速递 ·