小红花·文摘

本研究揭示了多语言基准评估中的英语偏见，尽管投入大量资金，非英语语言应用仍不足。强调创建符合文化和语言特征的基准的重要性，并呼吁全球合作以促进公平的技术进步。

The Bitter Lesson Learned from Over 2,000 Multilingual Benchmarks

BriefGPT - AI 论文速递 ·

本研究探讨了大语言模型中的基准污染问题，发现七个流行的多语言基准在多个模型中均存在污染迹象。这一发现为学术界选择更优的多语言评估基准提供了参考。

Contamination Report for Multilingual Benchmarks

BriefGPT - AI 论文速递 ·

本研究提出了RiSAWOZ中文人机对话数据集，以支持对话系统的基准比较。EVA和EVA2.0模型在多轮交互中表现优异。此外，研究探讨了多语言对话评估，推出了DiQAD数据集和DIALIGHT工具包，以促进多语言任务导向对话系统的评估。最后，提出了评估英语作为第二语言的框架，揭示了微级别特征与交互质量的关系。

CNIMA：一种通用的评估框架和自动化方法，用于评估第二语言对话

BriefGPT - AI 论文速递 ·

本文探讨了自然语言推理（NLI）在文本生成中的应用，研究表明NLI模型能提高生成文本的质量，尤其是中立类文本。同时，提出了新的数据集和方法以降低数据偏差，并在多语言评估中取得良好效果，推动个性化医疗领域的研究。

利用 NLI 探索事实蕴含关系：新闻媒体研究

BriefGPT - AI 论文速递 ·

该研究提出了一种新框架，结合评估模型与提示性大语言模型，以提升对话系统的鲁棒性和多语言评估能力。通过多项基准测试，验证了提示性大语言模型的有效性，并探讨了其在个性化推荐和对话评估中的应用，强调了提示设计对模型性能的重要性。

LLM 作为计分员：输出顺序对对话评估的影响

BriefGPT - AI 论文速递 ·

通过参数高效微调可以提高大语言模型的性能，对多语言评估表明英语和其他语言性能差距大。微调是弥合差距的有效方法。本研究通过对合成多语言数据进行微调，评估了模型在涵盖23种语言的五个任务上的性能影响。发现微调较小的开源模型可以弥合模型性能差距，但对英语性能有所降低。微调有时可以提高低资源语言性能，但在高资源语言上性能可能下降。

当扩展与 LLM 微调相遇：数据、模型和微调方法的影响

BriefGPT - AI 论文速递 ·

调查多语言指令调整：多语模型是否需要多语言指令？

BriefGPT - AI 论文速递 ·

通过参数高效微调可以提高大语言模型的性能，对多语言评估表明英语和其他语言性能差距大。微调是弥合差距的有效方法。本研究通过对合成多语言数据进行微调，评估了模型在涵盖23种语言的五个下游任务上的性能影响。发现微调较小的开源模型可以弥合模型性能差距，但对英语性能有所降低。微调有时可以提高低资源语言性能，但在高资源语言上性能可能下降。

大规模语言模型的稀疏微调扩展

BriefGPT - AI 论文速递 ·