评价信息抽取中的生成式语言模型作为主观问题纠正
原文中文,约500字,阅读约需2分钟。发表于: 。利用主观问句纠错法评估了现代大型语言模型在信息提取任务中的性能,提出了 SQS-Score 评价方法,衡量输出结果与真实标签之间的语义一致性,并通过结合自然语言推理模型,丰富了评价标签,解决了评价标准中的缺陷,发现 SQS-Score 相较于基准度量更受人类标注者的偏好,并利用 SQS-Score 对最先进的大型语言模型进行了全面评估,为未来的信息提取研究提供了洞见。
该研究评估了大型语言模型在条件问答领域的能力和局限性。研究发现,微调的模型在某些情况下优于现有技术,但在抽取性问答方面落后。研究强调了有效证据检索的重要性,并提出了改进训练任务和探索基于提示的技术以提高模型性能的未来工作的需求。