本文研究了大型语言模型在时间推理任务中的性能,提出了STG-LLM方法以解决序列文本与空间-时间数据的不匹配问题,并创建了TimeBench基准来评估模型的时间推理能力。研究表明,当前模型在时间理解方面存在显著不足,尤其在处理复杂问题时表现不佳,强调了改进的必要性。
完成下面两步后,将自动完成登录并继续当前操作。