本文介绍了一种新的校准方法 ActCab,通过在语言模型的最后一层激活上训练线性层,提高知识表征能力。结合置信度指导的解码策略 CoDec,能从模型中获得高置信度的答案。在五个问答基准上,ActCab 显著降低了校准误差,提升了模型在挑战性数据集上的真实性。
本研究介绍了UnSeenTimeQA,一种新颖的时间敏感问答基准。不同于传统方法,它不依赖事实和网络查询,创造了脱离现实世界的信息场景。评估显示,多种语言模型在处理复杂时间推理问题时存在困难,并提供了性能分析。
完成下面两步后,将自动完成登录并继续当前操作。