小红花·文摘

自然语言处理评估指标

DEV Community ·

本研究解决了大型语言模型（LLMs）与人类偏好的对齐问题，特别是训练奖励模型所需的高成本和数据需求。文章提出BLEUBERI方法，通过BLEU作为奖励函数进行强化学习，证明其在多个指令遵循基准上与传统奖励模型相当，且生成的输出在事实基础上更具优势。此外，这一发现表明，字符串匹配指标可以作为奖励模型的有效替代方案。

BLEUBERI：BLEU在遵循指令的奖励上出乎意料地有效

BriefGPT - AI 论文速递 ·

评估大型语言模型（LLM）性能的统计方法

MachineLearningMastery.com ·

【大模型】评测指标解析（准确率/精确率/召回率/F1分数/rouge/Perplexity/BLEU）

同和故事匯 ·

本文分析了传统指标（如BLEU、TER）与神经方法（如BERTScore、COMET）在日英聊天翻译中的表现。研究表明，所有指标在模型排名上表现一致，但神经指标与人类评分的相关性更高，尤其是COMET。然而，在评估含有零代词的日语句子翻译时，最佳指标仍存在困难。

An Analysis of Automated Metrics for Evaluating Japanese-English Chat Translation

BriefGPT - AI 论文速递 ·

本文研究了机器翻译中适配器的组合方法，以提高多领域和多语言的参数效率。传统方法易导致语言遗忘，论文提出新方法减轻此问题，实现跨语言转移。在无场内数据的源语言上提升3-4 BLEU，与反向翻译结合在目标语言上也有类似改进。

中性残差：重新审视模型扩展的适配器

BriefGPT - AI 论文速递 ·

本研究提出了一种创新的零样本迁移学习框架T3，用于解决长文本摘要问题。通过在辅助任务上训练基线LLM，提升目标任务表现。结果表明，T3在多个数据集上的ROUGE、BLEU和Factscore指标显著提高，展示了其在多任务中的潜力。

T3：一种新颖的零-shot迁移学习框架，通过助手任务迭代训练目标任务

BriefGPT - AI 论文速递 ·

该论文研究了不同粒度的MoE模型中的路由策略，通过任务级路由在大规模数据集上实验，提取可部署的子网络。实验结果表明，task-MoE在WMT上的表现比token-MoE高1.0 BLEU，保留所有收益并与蒸馏后的student模型推理成本相同。在扩展到200种语言对时，task-MoE提高了推理吞吐量2.6倍。

动态专家分配的混合专家模型：DA-MoE

BriefGPT - AI 论文速递 ·

该论文研究了不同粒度的MoE模型中的路由策略，通过任务级路由在数据集上进行实验，能够从大型稀疏模型中提取更小、可部署的子网络。实验结果表明，task-MOE在30种语言对上的表现平均比token-MoE高1.0 BLEU，并且能够保留所有收益。同时，当扩展到200种语言对时，task-MoE表现相近，并且提高了推理吞吐量2.6倍。

令牌混合：通过跨样本聚合实现高效的 LLMs

BriefGPT - AI 论文速递 ·

该研究使用LLM将长ASR转录分割成可独立翻译的片段，以提高翻译质量。LLM可适应包含ASR错误的转录，最佳的LLM在9个测试集中将平均BLEU提高了2.9个点。

通过大型语言模型和有限状态解码约束改善长篇演讲翻译

BriefGPT - AI 论文速递 ·

BLEU是评估机器翻译质量的指标，通过比较机器翻译与人工翻译的n-gram重合度、加权和长度惩罚来计算翻译的准确性。

BLEU的计算

李文举 ·

在 Image Caption 任务中，几种评价算法被用来度量预测结果（candidate caption）与 label （reference captions）的差异，这个系列主要介绍这几种评价标准。符号定义为图像 candidate caption…

Image Caption 评价标准——BLEU

INTJer ·