小红花·文摘

DoorDash如何构建评估大型语言模型的测试系统

ByteByteGo Newsletter ·

我如何编程？（2025年11月版）

Xuanwo's Blog ·

通过定制评估者实现从试点到生产的转变

Databricks ·

播客：如果无法测试，就不要部署：人工智能开发的新规则？

InfoQ ·

OpenAI新论文揭示AI模型出现幻觉的原因：并非神秘故障而是模型训练的奖励机制问题

蓝点网 ·

AlphaWrite：通过进化提升AI叙事

InfoQ ·

本研究提出了DAHL，一个用于评估生物医学长文本生成中幻觉现象的基准数据集和自动评估系统。通过分析8573个问题，发现较大模型通常幻觉较少，并提出DAHL分数作为更高效的评估替代方案。

DAHL：针对生物医学领域长文本生成的领域特定自动化幻觉评估基准数据集

BriefGPT - AI 论文速递 ·

本研究探讨了人机混合模型在预测再犯罪风险中的优势与劣势，强调人工智能与人类的互补性。研究发现，机器预测的解释能提升人类表现，简单模型的教程更有效。同时，提出了针对大型语言模型（LLM）和人类评判者的偏见框架，强调评估系统的可靠性与脆弱性。最后，展示了LLM在决策任务中的潜力及其与人类行为的对齐问题。

生成模型在人类高风险决策中的对齐程度研究

BriefGPT - AI 论文速递 ·

该研究提出了多个视频问答框架和基准测试，旨在提升视频理解能力。通过引入新的数据集和评估系统，如STAGE、OVQA和MVBench，评估视频型大型语言模型的表现，揭示其与人类理解的差距，推动视频理解领域的发展。

TVBench：重新设计视频-语言评估

BriefGPT - AI 论文速递 ·

该研究探讨了预训练代码模型的微调技术，提出了Telly技术以降低学习成本。介绍了StarCoder和CodeT5+等模型在代码生成任务中的表现，并强调了安全发布和评估系统的重要性。通过新基准测试评估大型语言模型的编码能力，发现其在真实代码库中的缺陷，并提出改进方案。

北极雪编码器：揭示代码预训练中的高质量数据

BriefGPT - AI 论文速递 ·

控制系统分为开环和闭环，评估系统也有开环和闭环。开环控制系统不反馈输出，闭环控制系统反馈输出。开环控制系统简单但不准确可靠，闭环控制系统复杂但准确可靠。开环评估系统对确定性过程评估，闭环评估系统对有影响过程评估。自动驾驶中，控制系统通常为闭环，评估系统可以是开环或闭环。开环评估系统对确定性驾驶场景评估，闭环评估系统对有影响驾驶场景评估。

开环与闭环：控制与评估系统的比较

Lei Mao's Log Book ·

本文介绍了多个评估系统，如 LiveCodeBench 和 CS-Bench，旨在全面评估大型语言模型（LLMs）在编程和计算机科学领域的能力。研究发现数据污染显著影响评估结果，并提出改进评估方法的建议。DevBench 作为新基准，评估 LLMs 在软件开发生命周期中的表现，揭示了当前模型在复杂编程任务中的不足。

LiveBench：一个具有挑战性和无污染的 LLM 基准测试

BriefGPT - AI 论文速递 ·

将大型语言模型作为评判者与人类偏好对齐

LangChain Blog ·

本文探讨了人类与大型语言模型（LLM）在评估LLM性能时的偏见问题。研究发现评判者存在显著偏见，且LLM在某些任务上优于人类。强调了使用LLM进行评估的潜力及开发更可靠评估系统的重要性。

用大型经验研究代替人类法官？跨 20 个 NLP 评估任务

BriefGPT - AI 论文速递 ·

本文探讨了视频型大型语言模型（Video-LLM）的评估系统，提出了多个基准测试以评估其在视频理解和推理方面的能力。研究表明，现有模型在复杂视频处理，尤其是长视频理解任务中存在不足。通过引入新的评估工具和方法，旨在推动多模态模型的发展，以满足现实应用需求。

VideoVista: 视频理解和推理的通用基准测试

BriefGPT - AI 论文速递 ·

本文探讨了视频型大型语言模型（Video-LLM）的评估系统，提出了多模式视频理解基准（MVBench）和多任务长视频理解基准测试（MLVU），以评估模型在视频理解中的能力。研究表明，VideoChat2模型在MVBench上表现优越，但长视频理解仍需改进。通过LongVLM模型，分解长视频以提升理解能力，推动视频与语言理解技术的发展。

LVBench：极长视频理解基准

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLM）作为评判者评估聊天助手的有效性，发现LLM评判者与人类评判者的偏好一致，但存在潜在偏见。研究提出了针对LLM和人类评判者的偏见框架，并通过实验验证了评估方法的有效性，强调了改进评估系统的必要性。

法官的判断：对 LLMs 中两两比较评估的位置偏见的系统调查

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在数据标注和文本生成中的应用，提出了无监督注释方法和评估系统，分析了LLMs与人类专家的一致性，强调了其在特定领域的有效性及潜在协同效应。同时，研究揭示了LLMs在生成参考文献和解释质量评估中的表现，指出了其局限性及未来研究的必要性。

ACORN: 方面级常识推理解释评估

BriefGPT - AI 论文速递 ·

本文提出了一种视频型大型语言模型（Video-LLM）的评估系统，通过基准测试评估其在视频理解和推理任务中的能力，特别关注复杂推理任务。实验结果表明，当前模型在预测推理方面存在不足，评估方法为未来模型的发展提供了标准化框架。

视频 - LMMs 的复杂推理与鲁棒性评估套件

BriefGPT - AI 论文速递 ·

How to Build Domain-Specific LLM Evaluation Systems

DemoChen's Clip ·