小红花·文摘

大型语言模型评估指南

ByteByteGo Newsletter ·

本研究探讨大型语言模型（LLMs）在软件工程中作为评判者的有效性。研究表明，LLM在代码翻译和生成任务中的评估与人工评估的一致性显著提高，显示出其模仿人类评估的潜力。

Can Large Language Models Replace Human Evaluators? An Empirical Study of LLMs as Judges in Software Engineering

BriefGPT - AI 论文速递 ·

本文介绍了第七届机器翻译会议的自动评估任务，评估了185种翻译系统，探讨了不同语言对的表现。研究表明，基于大型语言模型的评估方法在文本摘要和法律翻译中表现优越，强调了人工评估的重要性，并提出了改进机器翻译质量的建议。

WMT24 通用 MT 系统和 LLMs 初步排名

BriefGPT - AI 论文速递 ·

本文探讨了多种聊天机器人评估框架，如 ChatEval、Spot The Bot 和 HumanRankEval，强调了自动评估与人类评估的结合。研究表明，人工评估是最佳方法，但不同评估方式会影响结果。提出了综合评估机制和层次化评估框架，以提高自然语言处理系统的评估质量。

BotEval: 促进交互式人工评估

BriefGPT - AI 论文速递 ·

本文研究了大型语言模型（如GPT-3.5和GPT-4）在巴西葡萄牙语中的语法错误纠正效果，并与Microsoft Word和Google Docs进行了比较。结果显示，尽管ChatGPT在自动评估中表现较弱，但在人工评估中展现出较强的修改能力，尤其在低资源语言的应用中具有潜力。

GPT-3.5 用于语法错误修正

BriefGPT - AI 论文速递 ·

本研究提出了长文本自动摘要的人工评估指南LongEval，旨在提高评估信度并减少评估者工作量。调研162篇论文发现，神经文本生成模型在生成摘要时容易产生虚假内容。研究还探索了大型语言模型在评估摘要事实一致性方面的应用，提出了新指标FFLM和FIB基准，发现现有模型在一致性评分上存在问题。最终，强调了改进评估方法的重要性，以提升摘要的可信度和准确性。

FABLES：评估长篇书籍摘要的忠实性与内容选择

BriefGPT - AI 论文速递 ·

本文比较了ChatGPT和主流神经机器翻译引擎在中文外交文本翻译方面的能力。研究结果显示，自动化度量和人工评估者对ChatGPT的评分相似，但人工评估者更倾向于给ChatGPT较高的评分。自动化度量与人工评估维度之间的相关性结果弱且不显著，表明了两种评估方法之间的差异。这些发现为ChatGPT作为机器翻译工具以及提示工程对其性能的影响提供了有价值的见解。

ChatGPT 是否能与神经机器翻译匹敌？一项比较研究

BriefGPT - AI 论文速递 ·

本文提出了用于评估文本到视频生成的基准FETV，并对四个T2V模型进行了手动评估。研究发现自动评估指标与人工评估相关性较差，提出了两个新的自动评估指标与人工评估相关性更高。

FETV：开放领域文本视频生成的细粒度评估基准

BriefGPT - AI 论文速递 ·

本文介绍了一种用于多文档摘要的通用方法，利用大型语言模型提炼文本。该方案采用了新颖的策略，并由大型语言模型适当奖励。该方法在 ROUGE 指标评估中表现有竞争力，并在人工评估中胜过潜在的基准。

可控多文档摘要：基于大型语言模型奖励的覆盖和连贯直观策略

BriefGPT - AI 论文速递 ·

该文介绍了一个新的、具有挑战性的多任务基准——StoryBench，用于评估文本到视频模型。该基准包括三个逐渐增加难度的视频生成任务，并为人工评估视频故事建立了指南。强调了对于视频生成而言更好的自动度量指标的需求，该基准旨在鼓励未来在这个令人兴奋的新领域中的研究。

位流损坏的视频恢复：一个新的基准数据集和方法

BriefGPT - AI 论文速递 ·

本文介绍了一种为语言贫乏地区提供高质量可比较培训数据的方法，通过挑选关键图像并获取源语言和目标语言的标题，从单语注释人员中收集数据。通过人工评估，发现81.1％的配对具有可接受的翻译效果，仅有2.47％的配对无法翻译。通过机器翻译和词典提取实验，证明了该方法所收集数据集的潜力。

基于原型的数据集比较

BriefGPT - AI 论文速递 ·