安全授权MCP服务器访问复杂,涉及PKCE、范围、同意流程及撤销访问的方法。LLM评估面临概率性挑战,需要系统化评估方法。自动与人工评估各有优缺点,应结合使用。建立评估流程并定期迭代,以确保模型性能。
本研究探讨大型语言模型(LLMs)在软件工程中作为评判者的有效性。研究表明,LLM在代码翻译和生成任务中的评估与人工评估的一致性显著提高,显示出其模仿人类评估的潜力。
本文介绍了第七届机器翻译会议的自动评估任务,评估了185种翻译系统,探讨了不同语言对的表现。研究表明,基于大型语言模型的评估方法在文本摘要和法律翻译中表现优越,强调了人工评估的重要性,并提出了改进机器翻译质量的建议。
本文探讨了多种聊天机器人评估框架,如 ChatEval、Spot The Bot 和 HumanRankEval,强调了自动评估与人类评估的结合。研究表明,人工评估是最佳方法,但不同评估方式会影响结果。提出了综合评估机制和层次化评估框架,以提高自然语言处理系统的评估质量。
本文研究了大型语言模型(如GPT-3.5和GPT-4)在巴西葡萄牙语中的语法错误纠正效果,并与Microsoft Word和Google Docs进行了比较。结果显示,尽管ChatGPT在自动评估中表现较弱,但在人工评估中展现出较强的修改能力,尤其在低资源语言的应用中具有潜力。
本研究提出了长文本自动摘要的人工评估指南LongEval,旨在提高评估信度并减少评估者工作量。调研162篇论文发现,神经文本生成模型在生成摘要时容易产生虚假内容。研究还探索了大型语言模型在评估摘要事实一致性方面的应用,提出了新指标FFLM和FIB基准,发现现有模型在一致性评分上存在问题。最终,强调了改进评估方法的重要性,以提升摘要的可信度和准确性。
本文比较了ChatGPT和主流神经机器翻译引擎在中文外交文本翻译方面的能力。研究结果显示,自动化度量和人工评估者对ChatGPT的评分相似,但人工评估者更倾向于给ChatGPT较高的评分。自动化度量与人工评估维度之间的相关性结果弱且不显著,表明了两种评估方法之间的差异。这些发现为ChatGPT作为机器翻译工具以及提示工程对其性能的影响提供了有价值的见解。
本文提出了用于评估文本到视频生成的基准FETV,并对四个T2V模型进行了手动评估。研究发现自动评估指标与人工评估相关性较差,提出了两个新的自动评估指标与人工评估相关性更高。
本文介绍了一种用于多文档摘要的通用方法,利用大型语言模型提炼文本。该方案采用了新颖的策略,并由大型语言模型适当奖励。该方法在 ROUGE 指标评估中表现有竞争力,并在人工评估中胜过潜在的基准。
该文介绍了一个新的、具有挑战性的多任务基准——StoryBench,用于评估文本到视频模型。该基准包括三个逐渐增加难度的视频生成任务,并为人工评估视频故事建立了指南。强调了对于视频生成而言更好的自动度量指标的需求,该基准旨在鼓励未来在这个令人兴奋的新领域中的研究。
本文介绍了一种为语言贫乏地区提供高质量可比较培训数据的方法,通过挑选关键图像并获取源语言和目标语言的标题,从单语注释人员中收集数据。通过人工评估,发现81.1%的配对具有可接受的翻译效果,仅有2.47%的配对无法翻译。通过机器翻译和词典提取实验,证明了该方法所收集数据集的潜力。
完成下面两步后,将自动完成登录并继续当前操作。