小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
自然语言处理评估指标

ROUGE和BLEU是文本生成评估指标。ROUGE侧重于召回率,比较生成文本与参考文本的词汇重叠,适合用于摘要;而BLEU则关注精确度,评估生成文本与参考文本的匹配程度。BERTScore通过语义相似性评估文本,强调词义而非字面匹配。

自然语言处理评估指标

DEV Community
DEV Community · 2025-05-24T03:28:37Z

本研究解决了大型语言模型(LLMs)与人类偏好的对齐问题,特别是训练奖励模型所需的高成本和数据需求。文章提出BLEUBERI方法,通过BLEU作为奖励函数进行强化学习,证明其在多个指令遵循基准上与传统奖励模型相当,且生成的输出在事实基础上更具优势。此外,这一发现表明,字符串匹配指标可以作为奖励模型的有效替代方案。

BLEUBERI:BLEU在遵循指令的奖励上出乎意料地有效

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-16T00:00:00Z
评估大型语言模型(LLM)性能的统计方法

本文探讨了评估大型语言模型(LLM)性能的统计方法,强调系统评估的重要性。介绍了三种评估指标:BLEU、ROUGE和METEOR。BLEU用于测量生成文本与参考文本的相似度,ROUGE侧重于召回率,适用于自动摘要,METEOR则考虑同义词和词序。尽管这些指标有助于评估LLM的输出质量,但也存在局限性,需结合其他方法进行全面评估。

评估大型语言模型(LLM)性能的统计方法

MachineLearningMastery.com
MachineLearningMastery.com · 2025-03-14T14:24:42Z
【大模型】评测指标解析(准确率/精确率/召回率/F1分数/rouge/Perplexity/BLEU)

准确率是评估分类模型性能的重要指标,计算公式为Accuracy=(TP+TN)/(TP+TN+FP+FN)。精确率和召回率分别衡量模型对正类的预测准确性和覆盖程度。F1分数综合评估精确率和召回率,适用于类别不平衡的数据集。ROUGE和BLEU用于评估文本摘要和机器翻译的质量。

【大模型】评测指标解析(准确率/精确率/召回率/F1分数/rouge/Perplexity/BLEU)

同和故事匯
同和故事匯 · 2025-02-19T03:46:33Z

本文分析了传统指标(如BLEU、TER)与神经方法(如BERTScore、COMET)在日英聊天翻译中的表现。研究表明,所有指标在模型排名上表现一致,但神经指标与人类评分的相关性更高,尤其是COMET。然而,在评估含有零代词的日语句子翻译时,最佳指标仍存在困难。

An Analysis of Automated Metrics for Evaluating Japanese-English Chat Translation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-24T00:00:00Z

本文研究了机器翻译中适配器的组合方法,以提高多领域和多语言的参数效率。传统方法易导致语言遗忘,论文提出新方法减轻此问题,实现跨语言转移。在无场内数据的源语言上提升3-4 BLEU,与反向翻译结合在目标语言上也有类似改进。

中性残差:重新审视模型扩展的适配器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-03T00:00:00Z

本研究提出了一种创新的零样本迁移学习框架T3,用于解决长文本摘要问题。通过在辅助任务上训练基线LLM,提升目标任务表现。结果表明,T3在多个数据集上的ROUGE、BLEU和Factscore指标显著提高,展示了其在多任务中的潜力。

T3:一种新颖的零-shot迁移学习框架,通过助手任务迭代训练目标任务

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-26T00:00:00Z

该论文研究了不同粒度的MoE模型中的路由策略,通过任务级路由在大规模数据集上实验,提取可部署的子网络。实验结果表明,task-MoE在WMT上的表现比token-MoE高1.0 BLEU,保留所有收益并与蒸馏后的student模型推理成本相同。在扩展到200种语言对时,task-MoE提高了推理吞吐量2.6倍。

动态专家分配的混合专家模型:DA-MoE

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-10T00:00:00Z

该论文研究了不同粒度的MoE模型中的路由策略,通过任务级路由在数据集上进行实验,能够从大型稀疏模型中提取更小、可部署的子网络。实验结果表明,task-MOE在30种语言对上的表现平均比token-MoE高1.0 BLEU,并且能够保留所有收益。同时,当扩展到200种语言对时,task-MoE表现相近,并且提高了推理吞吐量2.6倍。

令牌混合:通过跨样本聚合实现高效的 LLMs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-24T00:00:00Z

该研究使用LLM将长ASR转录分割成可独立翻译的片段,以提高翻译质量。LLM可适应包含ASR错误的转录,最佳的LLM在9个测试集中将平均BLEU提高了2.9个点。

通过大型语言模型和有限状态解码约束改善长篇演讲翻译

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-20T00:00:00Z

BLEU是评估机器翻译质量的指标,通过比较机器翻译与人工翻译的n-gram重合度、加权和长度惩罚来计算翻译的准确性。

BLEU的计算

李文举
李文举 · 2022-06-06T01:20:08Z

在 Image Caption 任务中,几种评价算法被用来度量预测结果(candidate caption)与 label (reference captions)的差异,这个系列主要介绍这几种评价标准。 符号定义 为图像 candidate caption…

Image Caption 评价标准——BLEU

INTJer
INTJer · 2017-06-12T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码