本研究提出了ChronoSense基准,用于评估大型语言模型的时间理解能力。通过16个任务,发现现有模型在处理时间关系和时间算术时存在显著差异,并且依赖于记忆。这为提升模型的时间理解提供了重要依据。
完成下面两步后,将自动完成登录并继续当前操作。