小红花·文摘

本文研究了大型语言模型在时间推理任务中的性能，提出了STG-LLM方法以解决序列文本与空间-时间数据的不匹配问题，并创建了TimeBench基准来评估模型的时间推理能力。研究表明，当前模型在时间理解方面存在显著不足，尤其在处理复杂问题时表现不佳，强调了改进的必要性。