本研究介绍了UnSeenTimeQA,一个新的时间敏感问答基准,旨在评估大型语言模型在真实时间推理中的能力。研究发现,现有模型在复杂时间推理场景中表现不佳,并提出了新的时间上下文感知问答框架TCQA,显著提升了模型性能。此外,研究探讨了如何构建时间敏感问答数据集,以增强长文档QA系统的时间推理能力。
完成下面两步后,将自动完成登录并继续当前操作。