小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
大型语言模型评估指南

安全授权MCP服务器访问复杂,涉及PKCE、范围、同意流程及撤销访问的方法。LLM评估面临概率性挑战,需要系统化评估方法。自动与人工评估各有优缺点,应结合使用。建立评估流程并定期迭代,以确保模型性能。

大型语言模型评估指南

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-01-12T16:30:42Z

本文介绍了一种新方法,通过结合人工评估和自动度量,降低机器翻译中获取和评估人类偏好的成本。通过语言学家评估翻译质量,创建了包含18,000个实例的数据集MT-Pref。研究表明,在MT-Pref上进行模型对齐显著提升了WMT23和FLORES基准的翻译质量。

利用自动度量模型化用户偏好:为机器翻译创建高质量偏好数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

本文评估了ChatGPT和主流神经机器翻译引擎在中英文翻译方面的能力。研究结果显示,ChatGPT在不同提示下的自动化度量结果类似,而人工评估者更倾向于给ChatGPT较高的评分。自动化度量与人工评估维度之间的相关性结果弱且不显著,表明两种评估方法存在差异。这些发现为ChatGPT作为机器翻译工具提供了有价值的见解。

评估大规模语言模型在古典中文诗歌翻译中的表现:有效性、流畅性和优雅性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-19T00:00:00Z

研究人员通过收集现有论文中的指南注释和大型语言模型生成的指南注释,提出了第一个人工评估指南数据集,并介绍了八种漏洞分类和组成评估指南的原则。此外,他们还探索了使用语言模型检测指南漏洞的方法,并提供了增强人工评估可靠性的建议。

人工评估指南中对漏洞的定义和检测:实现可靠的自然语言生成评估的初步研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-12T00:00:00Z

该工作使用生成模型进行图像跨文化翻译,并通过人工评估翻译后的图像的文化相关性和意义保持。发现图像编辑模型失败,但通过循环利用LLMs和检索器可以改进。在概念数据集中,最佳流程只能翻译5%的国家图像,在应用数据集中有些国家无法成功翻译,凸显了任务的挑战性。

一幅图千言万语,但是否人人听得懂?关于进行图像翻译以便符合文化相关性的研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-01T00:00:00Z

本文比较了ChatGPT和主流神经机器翻译引擎在中文外交文本翻译方面的能力。研究结果显示,自动化度量和人工评估者对ChatGPT的评分相似,但人工评估者更倾向于给ChatGPT较高的评分。自动化度量与人工评估维度之间的相关性结果弱且不显著,表明了两种评估方法之间的差异。这些发现为ChatGPT作为机器翻译工具以及提示工程对其性能的影响提供了有价值的见解。

ChatGPT 是否能与神经机器翻译匹敌?一项比较研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-10T00:00:00Z

本文提出了用于评估文本到视频生成的基准FETV,并对四个T2V模型进行了手动评估。研究发现自动评估指标与人工评估相关性较差,提出了两个新的自动评估指标与人工评估相关性更高。

FETV:开放领域文本视频生成的细粒度评估基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-03T00:00:00Z

本文介绍了一种用于多文档摘要的通用方法,利用大型语言模型提炼文本。该方案采用了新颖的策略,并由大型语言模型适当奖励。该方法在 ROUGE 指标评估中表现有竞争力,并在人工评估中胜过潜在的基准。

可控多文档摘要:基于大型语言模型奖励的覆盖和连贯直观策略

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-05T00:00:00Z

该文介绍了一个新的、具有挑战性的多任务基准——StoryBench,用于评估文本到视频模型。该基准包括三个逐渐增加难度的视频生成任务,并为人工评估视频故事建立了指南。强调了对于视频生成而言更好的自动度量指标的需求,该基准旨在鼓励未来在这个令人兴奋的新领域中的研究。

位流损坏的视频恢复:一个新的基准数据集和方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-25T00:00:00Z

本文介绍了一种为语言贫乏地区提供高质量可比较培训数据的方法,通过挑选关键图像并获取源语言和目标语言的标题,从单语注释人员中收集数据。通过人工评估,发现81.1%的配对具有可接受的翻译效果,仅有2.47%的配对无法翻译。通过机器翻译和词典提取实验,证明了该方法所收集数据集的潜力。

基于原型的数据集比较

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-05T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码