量子位 ·

Nature封面：AI训AI，越训越傻

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

牛津、剑桥等学校的研究人员发现，使用合成数据训练大模型可能导致模型崩溃，进而影响下一代模型的训练数据集。模型崩溃与模型设计、学习过程和数据质量有关。研究人员评估了模型崩溃对语言模型的影响，发现随着时间推移，模型产生的错误会增加。科技公司已部署“水印”技术来排除AI生成的内容，但商业可行性有限。

🎯

关键要点

牛津、剑桥等学校的研究人员发现，使用合成数据训练大模型可能导致模型崩溃。
模型崩溃与模型设计、学习过程和数据质量有关，影响下一代模型的训练数据集。
研究团队测试了Meta的OPT-125m模型，发现随着训练轮次增加，模型产生的错误会增加。
模型崩溃是一个退化过程，导致模型生成的内容污染下一代训练数据集。
模型崩溃分为早期和晚期，早期模型丢失尾部信息，晚期模型与原始分布几乎无相似之处。
模型崩溃的三个误差包括统计近似误差、函数表达性误差和函数近似误差。
研究人员评估了模型崩溃对语言模型的影响，发现模型输出变得同质化，遗忘低概率事件。
一些科技公司已部署“水印”技术来排除AI生成的内容，但商业可行性有限。

❓

延伸问答

什么是模型崩溃？

模型崩溃是一个退化过程，导致模型生成的内容污染下一代训练数据集，从而影响模型的表现。

使用合成数据训练大模型有什么风险？

使用合成数据训练大模型可能导致模型崩溃，增加错误率，并使模型输出同质化，遗忘低概率事件。

模型崩溃的主要原因是什么？

模型崩溃主要与模型设计、学习过程和数据质量有关，具体包括统计近似误差、函数表达性误差和函数近似误差。

研究人员如何评估模型崩溃对语言模型的影响？

研究人员通过微调Meta的OPT-125m模型，观察随着训练轮次增加，模型产生的错误如何增加，并分析其输出的同质化现象。

科技公司如何应对AI生成内容的问题？

一些科技公司已部署“水印”技术，以标记AI生成的内容，从而在训练数据中排除这些内容，但商业可行性有限。

模型崩溃的早期和晚期有什么区别？

早期模型崩溃表现为丢失尾部信息，而晚期模型崩溃则与原始分布几乎无相似之处，导致严重的性能下降。

🏷️

继续阅读

单月营收破10亿，字节跳动终于等来自己的“AI印钞机”
字节跳动的Seedance 2.0视频生成模型自发布以来迅速走红，单月营收突破10亿元，推动火山引擎MaaS业务目标上调至150亿元。该模型在短剧行业渗透...
2026年实时音视频如何重塑”一起冥想”体验：纯净人声、空间音效与AI引导的技术落地
“一起冥想”是一款多人在线同步冥想应用，基于ZEGO的低延迟音视频技术，提供清晰的人声、沉浸式音效和实时互动。用户可通过AI降噪和3D音效在虚拟空间中体验...
Elly推出AI招聘助手，将对话式招聘和外联整合到一个招聘系统中
AI原生招聘平台Elly推出了AI Sourcer，旨在通过集成对话式人才搜寻和拓展工作流程，减少招聘过程中的人工工作量。该系统整合了电子邮件和Linke...
微软发布Surface RTX SPARK开发工作站利用英伟达芯片提供本地AI算力
微软推出了 Microsoft Surface RTX SPARK 开发工作站，搭载英伟达芯片，支持本地运行 AI 模型。该工作站配备 20 核心 CPU...
知名AI编码工具Windsurf即将彻底消失将更名和合并到Devin桌面版中
知名AI编码工具Windsurf将于2025年彻底消失，其品牌和产品将合并到Cognition AI的Devin桌面版中。经历多次收购后，Windsurf...
麻省理工学院研究人员教AI模型解读图表
MIT和IBM研究人员开发了ChartNet数据集，包含超过一百万种多样化图表，旨在提升视觉语言模型对图表的理解能力。该数据集通过合成数据生成，帮助小型企...