Apple Machine Learning Research ·

TiC-LM：一个用于时间连续大型语言模型预训练的网络规模基准

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

本文探讨了如何评估和更新大型语言模型（LLMs），以解决历史数据过时的问题。我们引入了基于114个Common Crawl数据集的时间连续预训练数据集，并设计了时间分层评估方法。研究表明，自回归元调度结合固定比例的旧数据重放，可以在计算上显著节省，同时保持与从头训练相当的效果。不同领域对新旧数据的平衡需求各不相同。

🎯

关键要点

大型语言模型（LLMs）在历史网络数据上训练，容易过时。
本文探讨了评估策略和更新方法，以适应新数据的出现。
引入了基于114个Common Crawl数据集的时间连续预训练数据集，规模远超以往的基准。
设计了时间分层评估方法，以评估不同持续学习方法在适应新数据时保留过去知识的能力。
研究表明，自回归元调度结合固定比例的旧数据重放，可以在计算上显著节省，同时保持与从头训练相当的效果。
不同领域对新旧数据的平衡需求各不相同，重放旧数据对通用网络数据至关重要，但对特定领域则不然。

❓

延伸问答

大型语言模型（LLMs）为什么会过时？

因为它们是基于历史网络数据训练的，随着时间推移，这些数据变得不再准确或相关。

如何评估大型语言模型的更新效果？

通过设计时间分层评估方法，评估不同持续学习方法在适应新数据时保留过去知识的能力。

什么是时间连续预训练数据集？

这是基于114个Common Crawl数据集构建的，规模远超以往的基准，用于时间连续的大型语言模型预训练。

自回归元调度结合旧数据重放有什么优势？

这种方法可以在计算上显著节省，同时保持与从头训练相当的效果。

不同领域对新旧数据的平衡需求有什么不同？

在通用网络数据中，重放旧数据至关重要，但在特定领域中则不那么重要。

研究中提到的计算节省有多大？

研究表明，使用自回归元调度和旧数据重放可以实现2.6倍的计算节省。

🏷️

继续阅读

献给计算机严谨细致的颂歌
文章探讨了计算机编程中的精确性与用户思维的关系。编程要求明确数据类型，促使开发者深思。然而，随着大型语言模型（LLMs）的出现，精确性减弱，用户可以更快实...
2026.06.02 16:44
网络流行文化通过缩短句子产生了“梗”，而大型语言模型则通过连词和副词的堆叠构建逻辑和情感。这种缩短与扩展的过程导致了准确性、意义和美感的缺失。
机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑
清华大学智能产业研究院推出了全新的机器人强化学习训练架构UniLab，打破了传统依赖GPU的训练模式。UniLab通过将仿真解耦到CPU侧，实现了更高的训...
时薪最高304元！马斯克xAI招募中文AI训练师，支持远程兼职
马斯克的人工智能公司xAI正在全球招聘“中文AI训练师”，以提升其大模型Grok的语音互动和多语言处理能力。该职位时薪35至45美元，工作灵活，适合寻求副...
第737期：Polars 1.41、电子邮件、优秀文档及更多内容（2026-06-02）
Polars 1.41版本发布，新增快速的parquet元数据解码和嵌套子计划消除等功能。
Work IQ：为每个代理提供生产就绪的智能
企业智能正在转向以代理为中心的模型，Work IQ 提供智能层，帮助代理访问和处理组织数据，支持高效的多步骤交互，结合聊天、上下文和工具，提升工作效率。同...