小红花·文摘

自主编程正从“更好的提示词”转向“更好的控制系统”。工程师们通过目标、评估器和循环设计自主编程 Agent，使其在无须人类干预的情况下持续工作。目标定义期望的最终状态，评估器验证成果，循环系统监控进度并调整指令，确保 Agent 在失败时能继续尝试。有效的验证器和可视化工具是实现自主性的关键，帮助工程师优化工作流程和提高效率。

【译文】自主长时运行编程 Agent

电波障害 ·

链式提示系统将任务分解为步骤，路由系统对输入进行分类，并行化系统同时处理任务，协调器动态分解任务，评估器优化器提供反馈。

常见的几种 LLM Agent 架构

陈少文的博客 ·

$GR-RL——首个让机器人系鞋带的VLA：先离线RL训练一个“分布式价值评估器”以做任务进度预测，后数据增强，最后在线RL$

GR-RL——首个让机器人系鞋带的VLA：先离线RL训练一个“分布式价值评估器”以做任务进度预测，后数据增强，最后在线RL

结构之法算法之道 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

AgentAuditor: 让智能体安全评估器的精确度达到人类水平

机器之心 ·

本文介绍了LLaMA-Reviewer框架，该框架采用参数高效微调（PEFT）方法，能够自动评分短答案和论文并生成反馈。通过同行评审机制，解决了评估成本高和偏见问题。FLAME方法在分类任务中表现优异，准确性显著提高。研究还比较了不同大型语言模型在多语言评估中的表现，发现GPT-4效果最佳，并分析了LLM评估与人类评分的一致性问题。

基础性自动评估器：驯服大型语言模型以获得更好的自动评价

BriefGPT - AI 论文速递 ·

本文探讨了四个大型语言模型（LLMs）（Llama 3、Gemma、GPT-3.5 Turbo 和 GPT-4）在幻觉生成和检测任务中的能力，并采用集成多数投票的方法将所有四个模型应用于检测任务，结果对于了解这些模型在处理幻觉生成和检测任务中的优势和不足具有有价值的见解。

硬币的两面：利用 LLMs 作为 LLMs 的评估器进行幻觉生成和检测

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在医疗摘要任务中的表现，特别是开源模型Llama2和Mistral。研究采用GPT-4作为评估工具，发现其在特定任务中优于传统方法。LLMs在不同语言和文献类型上的表现存在差异，强调在系统综述中谨慎使用LLMs。总体而言，GPT-4在生成反馈和评估摘要方面表现良好。

大型语言模型作为科学综合评估器

BriefGPT - AI 论文速递 ·

通过研究大型语言模型的评估生成文本的提示设计，本研究发现不同提示结构和包含解释性原因的顺序对语言模型评分有重要影响，进而提出了优化评分一致性的方法。

文本生成的更好 LLM 评估器：提示输出排序和优化的影响

BriefGPT - AI 论文速递 ·

使用 LLMs 作为评估者能够提供准确、可重复和经济高效的解决方案，用于评估推荐解释文本的质量。

大型语言模型作为推荐解释的评估器

BriefGPT - AI 论文速递 ·

本文提出了一种新的自然语言处理模型评估框架，强调研究人员的对抗角色，以促进错误分析。介绍了多种评估方法，包括基于多智能体的DEBATE框架和ADVMT模型，探讨了自然语言生成的评估指标及其优缺点，并呼吁改进评估目标和方法，以应对当前挑战。

揭示 NLG 评估器的致命弱点：由大型语言模型驱动的统一对抗框架

BriefGPT - AI 论文速递 ·

本文评估了九个大语言模型在中英文问答数据集上的表现，发现模型在多选题中存在顺序敏感性。研究提出了衡量模型输出一致性和置信度的方法，并指出多选题的可靠性较低。尽管模型能生成形式良好的问题提示，但干扰项未能涵盖学生常见错误。因此，建议在使用多选题评估模型前需谨慎测试其任务理解能力。

多项选择题是高效且稳健的 LLM 评估器

BriefGPT - AI 论文速递 ·

本文介绍了一种基于13B Llama2的医学对话大型语言模型（LLM），其在PubMedQA中的准确度达到76.6%。该模型在生成SOAP笔记方面优于GPT-4，并能更好地捕捉医学概念。研究探讨了LLMs在医疗决策中的应用，强调提示设计对准确性的影响，并提出结合人类专家的方法以提高医疗文本注释的效率和准确性。

临床记录生成的两种模型设计比较；LLM 是否是一种有用的一致性评估器？

BriefGPT - AI 论文速递 ·

GPT-4 在农业、教育和生物学等领域表现出色，能够提供准确的反馈和分析。研究表明，GPT-4 在自动评分和课堂对话分析中效率高且一致性强，超越传统方法，展现出在教育和研究中的巨大潜力。

GPT-4 作为评估器：在农业中评估大型语言模型的农害管理

BriefGPT - AI 论文速递 ·

本文讨论了使用大型语言模型（LLMs）评估文本质量的方法，研究发现自动思维链（CoT）并不总是与人类评分一致，强制LLMs仅输出数字评分也不理想，要求LLMs解释其自身评分可以改善与人类评分的相关性。

PRE: 基于同行评审的大型语言模型评估器

BriefGPT - AI 论文速递 ·

该论文评估了GPT-4V在医学图像任务中的能力，发现其在生成胸部X射线图像描述性报告方面有潜力，但在某些评估指标上仍需改进。在医学问答方面，GPT-4V在问题类型上表现熟练，但准确性不如现有基准。在视觉基础领域，GPT-4V在识别边界框方面显示潜力，但精度不够。评估强调了GPT-4V在医学图像领域的潜力，但需要改进来充分发挥其能力。

GPT-4V (ision) 是文本生成三维图像的人类对齐评估器

BriefGPT - AI 论文速递 ·

本文提出了LLM-Eval，一种用于评估开放领域对话的统一方法。LLM-Eval可以通过单个模型调用来评估会话质量的多个方面。研究表明，LLM-Eval相对于其他评估方法更高效和适应性强。同时，选择适当的LLM和解码策略对于准确评估结果也很重要。LLM-Eval为评估对话系统提供了一种多功能和强大的解决方案，可以简化评估过程并提供一致的性能。

融合评估器与 LLMs：Fusion-Eval

BriefGPT - AI 论文速递 ·

研究人员发现大型语言模型（LLMs）在处理个别推理步骤时表现良好，但在整个推理链上保持一致性方面存在困难。为了解决这个问题，他们引入了“规划标记”作为模型的指南，并通过微调模型的参数来实现。他们的方法在三个数学问题数据集上进行了评估，相对于基准方法，取得了显著的准确性提升。

StrategyLLM：作为问题解决的策略生成器，执行器，优化器和评估器的大型语言模型

BriefGPT - AI 论文速递 ·

本研究探讨了基于背景学习的评估器在自然语言生成方面的多维度评估，发现其与基于训练集的评估器在文本摘要等维度上具有同等效力和竞争力。研究还发现，在确定和选择上下文示例因素的影响下，基于背景学习的评估器在评估大型语言模型的零样本总结时也很有效。

X-Eval: 通过辅助评估方面的增强指令调整实现通用多方面文本评估

BriefGPT - AI 论文速递 ·

CONCOCT是一种系统，通过训练具有判定程度的评估器，改善了自动生成故事大纲时的情节掌控，提高了大纲的一致性。评估器还可用于过滤新的大纲项目。与基线分层大纲生成器相比，CONCOCT的情节掌控更为一致。

提升长篇故事规划中的节奏

BriefGPT - AI 论文速递 ·

本文评估了GPT-4V在医学图像任务中的能力，发现其在为胸部X射线图像生成描述性报告方面有潜力，但在某些评估指标上需要改进。在医学问答方面，GPT-4V在问题类型方面表现熟练，但准确性不及现有基准。在视觉基础领域，GPT-4V在识别边界框方面显示了初步潜力，但精度不够。评估强调了GPT-4V在医学图像领域的潜力，但需要针对性的改进来充分发挥其能力。

GPT-4V 作为视觉语言任务的通用评估器

BriefGPT - AI 论文速递 ·