本文提出了DateLogicQA基准,包含190个问题,涵盖多种日期格式和时间推理,旨在缩小大型语言模型在时间推理中的表现差距。引入语义完整性指标评估分词质量,并分析代表性和逻辑偏差,揭示模型处理时间数据的挑战与局限性。
完成下面两步后,将自动完成登录并继续当前操作。