本论文通过构建MenatQA评估大型语言模型(LLMs)在时间理解和推理能力方面的表现,发现大多数LLMs在处理时间因素时不如更小的时间推理模型,对时间偏差敏感且依赖问题中提供的时间信息。研究还探索了改进LLMs的潜在策略。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: