小红花·文摘

本文提出了DateLogicQA基准，包含190个问题，涵盖多种日期格式和时间推理，旨在缩小大型语言模型在时间推理中的表现差距。引入语义完整性指标评估分词质量，并分析代表性和逻辑偏差，揭示模型处理时间数据的挑战与局限性。