日期数据:大型语言模型中的知识截止追踪
原文中文,约400字,阅读约需1分钟。发表于: 。在这项工作中,我们定义了有效截止日期的概念,它与 LLM 设计者所报告的截止日期不同,并将其分别应用于子资源和主题。我们提出了一种简单的方法来估计 LLM 的资源级时间对齐的有效截止日期,通过对数据版本进行探测。通过这个分析,我们发现有效截止日期通常与报告的截止日期不同。我们对开放的预训练数据集进行了大规模的分析,发现了这些不一致性的两个原因:(1)CommonCrawl...
在这项工作中,研究人员定义了有效截止日期的概念,并将其应用于子资源和主题。通过对数据版本进行探测,他们提出了一种估计LLM资源级时间对齐的有效截止日期的简单方法。研究发现,有效截止日期通常与报告的截止日期不同。这种不一致性的原因包括CommonCrawl数据的时间偏差和LLM去重方案中的复杂性。研究结果表明,知识截止日期并不简单,需要谨慎处理。