小红花·文摘 - 小红花技术领袖俱乐部

使用RAGAs和G-Eval测试智能体的实践指南

使用RAGAs和G-Eval测试智能体的实践指南

MachineLearningMastery.com ·

代理评估：如何测试和衡量代理人工智能的性能

代理评估：如何测试和衡量代理人工智能的性能

MachineLearningMastery.com ·

Evalite - 一个基于TypeScript的框架，用于评估大型语言模型驱动的应用，支持…

Evalite - 一个基于TypeScript的框架，用于评估大型语言模型驱动的应用，支持…

云原生 ·

RAGAS是一个新兴的评估框架，旨在客观全面地评估大语言模型（LLM）和检索增强生成（RAG）系统的性能。它通过模块化设计和多样的评估指标，提供智能测试集生成和高效的工程支持，推动评估方法的革新，提升AI系统的质量和可信度，促进技术创新与应用。

RAGAS深度解析：引领RAG评估新时代的开源技术革命

dotNET跨平台 ·

LLM 评测利器：一站式自动化评估框架 | 开源日报 No.647

LLM 评测利器：一站式自动化评估框架 | 开源日报 No.647

开源服务指南 ·

工程团队中AI实施的复杂现实

工程团队中AI实施的复杂现实

The New Stack ·

本文提出了一种新的模型解释评估框架（AXE），该框架不依赖于理想的“真相”解释，提供独立的解释质量衡量标准，能够有效比较模型解释并检测“公平洗涤”现象。

Evaluating Model Explanations without Ground Truth

BriefGPT - AI 论文速递 ·

本研究提出了TransProQA评估框架，旨在改善现有文学翻译评估指标对机械准确性的过度关注。该框架整合了专业翻译人员的见解，从而提升了评估的质量和准确性，显示出在文学翻译评估中的潜在影响。

TransProQA: An LLM-Based Literary Translation Evaluation Metric with Professional Question Answering

BriefGPT - AI 论文速递 ·

Xbox上的Halo如何通过Saga模式扩展到超过1000万玩家

Xbox上的Halo如何通过Saga模式扩展到超过1000万玩家

ByteByteGo Newsletter ·

本研究提出了一种半自动化的偏见评估框架，结合人类洞察力，旨在解决大型语言模型（LLM）评估中的偏见识别问题。通过开发偏见的操作定义和分类方法，提高评估的有效性，降低大规模人类评估的成本和复杂性。

Developing a Framework to Support Human Evaluation of Bias in Generated Free Response Text

BriefGPT - AI 论文速递 ·

数据准备评估：您的数据是否为人工智能成功做好准备？

数据准备评估：您的数据是否为人工智能成功做好准备？

DEV Community ·

本研究重新审视了GEOM-Drugs数据集，解决了3D分子生成评估中的关键缺陷，如价态定义错误和力场计算不一致。建立了修正的评估框架，引入了化学准确的价态表和GFN2-xTB基准，提供了更新的模型性能指标和未来基准测试建议，强调了化学严格的评估实践的重要性。

GEOM-Drugs重新审视：朝着更具化学准确性的3D分子生成基准迈进

BriefGPT - AI 论文速递 ·

本研究提出了CoCo-Bench，旨在解决软件工程中缺乏全面评估框架的问题。该框架通过代码理解、生成、修改和审查四个维度评估大型语言模型，揭示模型表现差异，为未来研究提供可靠基准。

CoCo-Bench：多任务大型语言模型评估的综合代码基准

BriefGPT - AI 论文速递 ·

本研究提出了一种评估框架，旨在将波斯语大型语言模型（LLMs）与安全性、公平性和社会规范等伦理维度对齐。通过创建多种波斯语数据集，为评估波斯语LLMs提供新的方法和数据基础，促进本土文化的合规性。

ELAB: Extensive Benchmark for Aligning Large Language Models in Persian

BriefGPT - AI 论文速递 ·

本研究提出了BEACON基准，解决了子图计数领域缺乏统一评估框架的问题。该基准提供标准化数据集和评估环境，便于算法和机器学习方法的比较。实验结果表明，算法在大图上效率高，但对复杂模式表现不佳；而机器学习方法适合大图模式，但需要大量数据，并且在小型密集图上的准确性较低。

BEACON: A Benchmark for Efficient and Accurate Subgraph Counting

BriefGPT - AI 论文速递 ·

本研究提出了一种名为开放式视觉拼图生成（OVPG）的动态评估框架PuzzleBench，旨在解决现有评估基准静态且易受污染的问题。该框架自动生成多样化的评估数据，包含11840个视觉问答样本，以支持大型多模态模型在视觉识别、逻辑推理和上下文理解等领域的评估。

PuzzleBench: A Comprehensive Dynamic Evaluation Framework for Large Multimodal Models in Puzzle Solving

BriefGPT - AI 论文速递 ·

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

机器之心 ·

本研究探讨了二元分类评估的不足，提出从结果主义角度评估概率预测的有效性，并提出了一种新评估框架，推广Brier分数的使用，以解决临床评分规则的有效性问题。

A Consequentialist Critique of Binary Classification Evaluation Practices

BriefGPT - AI 论文速递 ·

本研究探讨了深度神经网络在局部损坏下的空间鲁棒性，提出了评估框架和多种攻击对抗分析方法，揭示了不同模型对损坏的反应差异，为提升视觉任务的可靠性提供了新见解。

通过自然和对抗性局部损坏对深度神经网络空间鲁棒性进行基准测试

BriefGPT - AI 论文速递 ·

解锁视频生成：VBench-2.0的颠覆性评估框架

解锁视频生成：VBench-2.0的颠覆性评估框架

DEV Community ·