本研究探讨大型语言模型(LLMs)在问答任务中的表现,提出单次推理提问方式以更有效处理不可回答的问题。结果表明,尽管小型微调模型在特定任务中表现更佳,但LLM在不同数据集上的泛化能力更强。
该文介绍了一种名为AGent的新型流水线,可以自动创建新的不可回答问题,并展示了其实用性。对这些问题进行微调的模型在多个EQA基准测试中表现出与在SQuAD 2.0数据集上进行微调的模型相当的性能。
完成下面两步后,将自动完成登录并继续当前操作。