小红花·文摘

本研究提出了ChronoSense基准，用于评估大型语言模型的时间理解能力。通过16个任务，发现现有模型在处理时间关系和时间算术时存在显著差异，并且依赖于记忆。这为提升模型的时间理解提供了重要依据。