小红花·文摘 - 小红花技术领袖俱乐部

本文讨论了AI代理的评估方法，强调评估需要明确的体系和标准。通过拆分问题，结合硬性规则、事实检查和主观质量评估，形成全面的评估框架。评估应涵盖政策符合性、事实覆盖和用户反馈等多个维度，以确保AI系统的回答准确且有帮助。此外，评估流程应包括离线和线上测试，以持续优化AI代理的表现。

AI Agent 评估应该怎么做

luozhiyun`s Blog 我的技术分享 ·

实践中评估AI代理：基准、框架与经验教训

实践中评估AI代理：基准、框架与经验教训

InfoQ ·

如何评估和选择适合您生成式AI应用的大型语言模型

如何评估和选择适合您生成式AI应用的大型语言模型

freeCodeCamp.org ·

大型语言模型评估指南

大型语言模型评估指南

ByteByteGo Newsletter ·

AgREE：新兴实体的知识图谱补全的代理推理

AgREE：新兴实体的知识图谱补全的代理推理

Apple Machine Learning Research ·

关于大型语言模型评估指标的所有必要知识

关于大型语言模型评估指标的所有必要知识

MachineLearningMastery.com ·

SGS为数字时代护眼需求提供科学解决方案

SGS为数字时代护眼需求提供科学解决方案

全球TMT-美通国际 ·

引入代理GPA：企业级AI框架

引入代理GPA：企业级AI框架

The New Stack ·

剖析视频大语言模型基准：知识、空间感知还是真实的时间理解？

剖析视频大语言模型基准：知识、空间感知还是真实的时间理解？

Apple Machine Learning Research ·

为什么语言模型会产生幻觉

为什么语言模型会产生幻觉

OpenAI ·

本文讨论了人工智能发展的新阶段，强调从“解决问题”转向“定义问题”。提到强化学习的泛化能力和预训练的重要性，并指出现有评估方法与现实世界脱节，限制了AI在经济等领域的影响。未来需重新审视评估方式，以提升AI的实际效用。

[译] 关于 AI 下半场的思考：技术/模型篇（2025）

ARTHURCHIAO'S BLOG ·

[译] 关于 AI 下半场的思考：技术/模型篇（2025）

[译] 关于 AI 下半场的思考：技术/模型篇（2025）

ARTHURCHIAO'S BLOG ·

TiC-LM：一个用于时间连续大型语言模型预训练的网络规模基准

TiC-LM：一个用于时间连续大型语言模型预训练的网络规模基准

Apple Machine Learning Research ·

语言模型到底能记忆多少内容？Meta 的新框架定义了比特级的模型容量

语言模型到底能记忆多少内容？Meta 的新框架定义了比特级的模型容量

实时互动网 ·

本研究提出了新基准MontageLie，揭示了现有信息对齐评估方法的不足。通过拼接真实陈述构建误导性叙事，暴露了评估框架的脆弱性。同时，提出了DoveScore框架，联合验证事实准确性和事件顺序一致性，以提升长格式文本对齐评估的鲁棒性。

Long-Form Information Alignment Evaluation Beyond Atomic Facts

BriefGPT - AI 论文速递 ·

本研究提出了推理边界框架++（RBF++），旨在解决思维链推理（CoT）在实际应用中的两个主要问题：缺乏可量化指标和评估不可测能力的方法。实验结果表明，该框架在跨模态场景中有效，促进了对推理边界和优化策略的理解。

RBF++: Quantifying and Optimizing Reasoning Boundaries for Measurable and Unmeasurable Capabilities to Achieve Chain-of-Thought Reasoning

BriefGPT - AI 论文速递 ·

本研究提出了一种改进的大型语言模型（LLMs）评估方法，强调其在实际应用中的能力。通过调查数据识别出六个核心能力，并指出现有基准在覆盖和效率测量方面的不足。研究结果显示，Google Gemini在实用性指标上优于其他模型，具有重要的应用价值。

Evaluating LLM Metrics Through Real-World Capabilities

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLM）评估方法的滞后问题，提出了LLM心理测量学这一新领域，旨在通过心理测量工具提升LLM的评估，促进人本中心AI系统的社会利益实现。

Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement

BriefGPT - AI 论文速递 ·

本研究提出了一种基于无监督文档语料库的合成数据评估方法，旨在提高语言模型评估效率。研究结果表明，该方法生成的评估结果与人工编制问题高度一致，显示出提升语言模型性能评估的潜力。

Constructing Synthetic Data Evaluations for Language Models in Unsupervised Document Corpora

BriefGPT - AI 论文速递 ·

本研究分析了传统机器学习评估方法在生成性人工智能中的不足，指出输入输出空间无限和缺乏真值目标等问题，建议借鉴人工智能竞赛的措施以提升评估的实证严谨性。

定位：人工智能竞赛为生成性人工智能评估提供了实证严格性的黄金标准

BriefGPT - AI 论文速递 ·