自动问答可回答性评估
原文中文,约300字,阅读约需1分钟。发表于: 。本研究提出了一种基于提示的回答可行性度量(PMAN),它是一种新颖的自动评估度量,用于评估生成的问题是否可由参考答案回答,以解决复杂任务如问题生成所面临的评估问题。通过广泛的实验,证明了其评估结果可靠且与人类评估一致。我们还将该度量应用于评估问题生成模型的性能,结果表明该度量与传统度量相辅相成。我们基于 ChatGPT 的问题生成模型达到了最先进的性能。
本研究提出了一种基于提示的回答可行性度量(PMAN),用于评估生成的问题是否可由参考答案回答。实验证明其评估结果可靠且与人类评估一致。ChatGPT 的问题生成模型达到了最先进的性能。