FineSurE: 利用 LLMs 进行细粒度总结评估
原文中文,约400字,阅读约需1分钟。发表于: 。利用大型语言模型 FineSurE,我们针对文本摘要任务提出了一种细粒度评估方法,该方法在完成度、简洁度和忠实度等多个维度上对摘要性能进行评估,并在各种开源和专有的大型语言模型作为 FineSurE 的基础上进行了广泛的基准测试,改进了摘要性能。
改进发展中国家中的心理健康支持是迫切需求,开发可扩展的自动化系统进行诊断筛查是潜在解决方案。本研究评估了几种最先进的大型语言模型在定制数据集上的摘要生成表现。经过细化调整的模型在ROUGE-1和ROUGE-L上达到0.810和0.764,优于现有模型。此外,该模型在公开可用的D4数据集上的泛化能力也令人鼓舞,显示其潜在适用性超出定制数据集。