PrExMe!大规模探索开源 LLM 用于机器翻译和摘要评估
原文中文,约300字,阅读约需1分钟。发表于: 。LLM 和基于 LLM 的度量方法的稳定性和变异性,探索了不同提示策略影响机器翻译和摘要评估的研究,发现了最稳定的提示模式和潜在限制。
本文介绍了IUST NLP实验室在Eval4NLP 2023会议上提出的零样本基于提示的策略,用于解释性评估。该策略使用大型语言模型(LLMs)评估总结任务,证明了LLMs在NLP中的潜力。实验中使用了少样本和零样本的方法,最佳提示与人类评估的相关性达到0.477。代码和结果可在GitHub上获取。