小红花·文摘

本研究提出了一种代理系统错误分类法，解决了代理工作流中复杂追踪评估不足的问题。通过建立148个大型人类注释的追踪数据集（TRAIL），揭示了现代长上下文语言模型在追踪调试中的缺陷，强调了开发有效评估工具的重要性。

TRAIL: Trace Reasoning and Autonomous Issue Localization

BriefGPT - AI 论文速递 ·

掌握JavaScript错误跟踪：7个提升应用程序可靠性的关键技巧

DEV Community ·

本研究探讨了生成型大型语言模型（LLMs）产生幻觉的问题，提出了HALoGEN基准，包含来自九个领域的10,923个提示及其验证器。研究发现，表现最佳的模型中有86%的生成事实存在幻觉，并建立了新的幻觉错误分类体系。

HALoGEN: The Fascinating Illusions of LLMs and Their Origins

BriefGPT - AI 论文速递 ·

现代命名实体识别系统在神经模型时代中性能稳步提高。本文通过对最高性能NER模型的测试输出进行分析，并在测试集上引入新的文档级注释，对其性能进行评估。通过对错误进行分类，超越F1分数，解释NER的真实技术水平并指导未来研究。回顾了之前纠正测试集缺陷的尝试，并引入了一个新的纠正版本CoNLL#，解决了系统性和常见错误，允许进行低噪声、可解释的错误分析。

注释错误与 NER：OntoNotes 5.0 研究

BriefGPT - AI 论文速递 ·

研究引入了SciBench基准套件，测试语言模型在解决科学问题时的推理能力。当前的语言模型表现不佳，综合得分仅为35.80%。用户研究发现了十种问题解决能力的错误分类。没有一种单一的提示策略明显优于其他策略，并且某些策略在提高某些技能的同时会导致其他技能下降。预计SciBench将推动语言模型的推理能力进一步发展，促进科学研究和发现。

SciEval: 一个用于科学研究的多级大型语言模型评估基准

BriefGPT - AI 论文速递 ·