研究者发现大多数对话模型生成的摘要中有27%的事实不一致。对于更具挑战性的事实问题回答,所有模型的平均准确率仅为62.8%。研究者提出了一种通过自动构建多任务数据进行微调的方法,实验结果显示准确率提升了8.9%。
完成下面两步后,将自动完成登录并继续当前操作。