小红花·文摘

本研究介绍了UnSeenTimeQA，一个新的时间敏感问答基准，旨在评估大型语言模型在真实时间推理中的能力。研究发现，现有模型在复杂时间推理场景中表现不佳，并提出了新的时间上下文感知问答框架TCQA，显著提升了模型性能。此外，研究探讨了如何构建时间敏感问答数据集，以增强长文档QA系统的时间推理能力。