问答、对话系统场景下的LLM优化评估方法 - 蝈蝈俊
原文中文,约2600字,阅读约需7分钟。发表于: 。针对特定的场景,LLM优化方法有三类:Prompt Engineering、RAG、Fine-tuning 不论使用那种方式优化,我们都需要在完成优化后,评估优化的效果,这个效果不能只人为的感觉(做不过来,也不科学),那如何做自动化评分呢? 下面以最常见的问答、对话系统的优化任务为例来展开介绍几种简
LLM优化方法有三类:Prompt Engineering、RAG、Fine-tuning。问答系统的自动化评分方法有Exact Match (EM)和F1 Score。对话系统的评估维度包括连贯性、流畅性和多样性。人类评估仍然重要,可以作为自动化评分的补充。