小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
大型语言模型评估指南

安全授权MCP服务器访问复杂,涉及PKCE、范围、同意流程及撤销访问的方法。LLM评估面临概率性挑战,需要系统化评估方法。自动与人工评估各有优缺点,应结合使用。建立评估流程并定期迭代,以确保模型性能。

大型语言模型评估指南

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-01-12T16:30:42Z

本研究探讨大型语言模型(LLMs)在软件工程中作为评判者的有效性。研究表明,LLM在代码翻译和生成任务中的评估与人工评估的一致性显著提高,显示出其模仿人类评估的潜力。

Can Large Language Models Replace Human Evaluators? An Empirical Study of LLMs as Judges in Software Engineering

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z

本文介绍了第七届机器翻译会议的自动评估任务,评估了185种翻译系统,探讨了不同语言对的表现。研究表明,基于大型语言模型的评估方法在文本摘要和法律翻译中表现优越,强调了人工评估的重要性,并提出了改进机器翻译质量的建议。

WMT24 通用 MT 系统和 LLMs 初步排名

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-29T00:00:00Z

本文探讨了多种聊天机器人评估框架,如 ChatEval、Spot The Bot 和 HumanRankEval,强调了自动评估与人类评估的结合。研究表明,人工评估是最佳方法,但不同评估方式会影响结果。提出了综合评估机制和层次化评估框架,以提高自然语言处理系统的评估质量。

BotEval: 促进交互式人工评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-25T00:00:00Z

本文研究了大型语言模型(如GPT-3.5和GPT-4)在巴西葡萄牙语中的语法错误纠正效果,并与Microsoft Word和Google Docs进行了比较。结果显示,尽管ChatGPT在自动评估中表现较弱,但在人工评估中展现出较强的修改能力,尤其在低资源语言的应用中具有潜力。

GPT-3.5 用于语法错误修正

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-14T00:00:00Z

本研究提出了长文本自动摘要的人工评估指南LongEval,旨在提高评估信度并减少评估者工作量。调研162篇论文发现,神经文本生成模型在生成摘要时容易产生虚假内容。研究还探索了大型语言模型在评估摘要事实一致性方面的应用,提出了新指标FFLM和FIB基准,发现现有模型在一致性评分上存在问题。最终,强调了改进评估方法的重要性,以提升摘要的可信度和准确性。

FABLES:评估长篇书籍摘要的忠实性与内容选择

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-01T00:00:00Z

本文比较了ChatGPT和主流神经机器翻译引擎在中文外交文本翻译方面的能力。研究结果显示,自动化度量和人工评估者对ChatGPT的评分相似,但人工评估者更倾向于给ChatGPT较高的评分。自动化度量与人工评估维度之间的相关性结果弱且不显著,表明了两种评估方法之间的差异。这些发现为ChatGPT作为机器翻译工具以及提示工程对其性能的影响提供了有价值的见解。

ChatGPT 是否能与神经机器翻译匹敌?一项比较研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-10T00:00:00Z

本文提出了用于评估文本到视频生成的基准FETV,并对四个T2V模型进行了手动评估。研究发现自动评估指标与人工评估相关性较差,提出了两个新的自动评估指标与人工评估相关性更高。

FETV:开放领域文本视频生成的细粒度评估基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-03T00:00:00Z

本文介绍了一种用于多文档摘要的通用方法,利用大型语言模型提炼文本。该方案采用了新颖的策略,并由大型语言模型适当奖励。该方法在 ROUGE 指标评估中表现有竞争力,并在人工评估中胜过潜在的基准。

可控多文档摘要:基于大型语言模型奖励的覆盖和连贯直观策略

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-05T00:00:00Z

该文介绍了一个新的、具有挑战性的多任务基准——StoryBench,用于评估文本到视频模型。该基准包括三个逐渐增加难度的视频生成任务,并为人工评估视频故事建立了指南。强调了对于视频生成而言更好的自动度量指标的需求,该基准旨在鼓励未来在这个令人兴奋的新领域中的研究。

位流损坏的视频恢复:一个新的基准数据集和方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-25T00:00:00Z

本文介绍了一种为语言贫乏地区提供高质量可比较培训数据的方法,通过挑选关键图像并获取源语言和目标语言的标题,从单语注释人员中收集数据。通过人工评估,发现81.1%的配对具有可接受的翻译效果,仅有2.47%的配对无法翻译。通过机器翻译和词典提取实验,证明了该方法所收集数据集的潜力。

基于原型的数据集比较

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-05T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码