该研究提出了新的评估基准,用于评估 AQG 系统在长文本答案下的性能。变压器模型在长答案方面表现优于其他 AQG 方法,但仍存在性能下降的情况。长答案 QA 是未来研究的具有挑战性的基准任务。
完成下面两步后,将自动完成登录并继续当前操作。