通过多跳问答数据集和伪指导调整实现大型语言模型的鲁棒性时序推理

本文提出了一个复杂的时间问答（QA）数据集 Complex-TR，重点关注多答案和多跳的时间推理，并提出了一种新颖的数据增强策略来改善大型语言模型（LLMs）的复杂时间推理能力和鲁棒性。实验证明，我们的方法能够显著提高 LLMs 在时间 QA 基准测试上的性能。

本论文通过构建MenatQA来评估大型语言模型在时间理解和推理能力方面的表现，并测试了不同参数大小的主流LLMs。结果表明，大多数LLMs在处理时间因素时不如更小的时间推理模型，并且对时间偏差的敏感度较高，且严重依赖于问题中提供的时间信息。本文还探索了通过具体提示和外部工具来改进LLMs的潜在策略，为未来的研究提供了有价值的基准或参考。

MenatQA 大型语言模型推理能力数据集时序时间推理模型时间理解