机器之心 ·

少用33％数据，模型性能不变，陈丹琦团队用元数据来做降本增效

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

陈丹琦团队提出的MeCo方法通过在预训练中引入元数据，显著提升了语言模型的数据效率，且几乎不增加计算开销。研究表明，MeCo在减少33%训练数据的情况下，能保持与标准模型相同的性能，并增强模型的可控性和实用性。

🎯

关键要点

MeCo方法通过引入元数据显著提升语言模型的数据效率，几乎不增加计算开销。
MeCo在减少33%训练数据的情况下，保持与标准模型相同的性能。
MeCo通过在文档前添加源URL，提供更多上下文信息，增强模型的可控性。
MeCo的冷却阶段确保模型在没有元数据的情况下也能有效推理。
MeCo在不同模型规模和数据源上表现出一致的性能提升。
使用合适的元数据可以诱导期望的模型行为，提升下游任务性能。
MeCo与不同类型的元数据兼容，能够有效合并不同类型的信息。
MeCo作为一种简单、灵活、有效的训练范式，提升了语言模型的实用性和可控性。

❓

延伸问答

MeCo方法的主要优势是什么？

MeCo方法通过引入元数据显著提升了语言模型的数据效率，同时几乎不增加计算开销。

MeCo如何在减少训练数据的情况下保持模型性能？

MeCo在减少33%训练数据的情况下，仍能保持与标准模型相同的性能，主要通过引入元数据来提供更多上下文信息。

MeCo的冷却阶段有什么作用？

MeCo的冷却阶段确保模型在没有元数据的情况下也能有效推理，从而提高模型的通用性。

MeCo如何影响下游任务的性能？

MeCo通过在推理过程中添加合适的元数据，可以诱导期望的模型行为，从而提升下游任务的性能。

MeCo与其他元数据类型的兼容性如何？

MeCo与不同类型的元数据兼容，能够有效合并不同类型的信息，提升模型的可控性。

MeCo方法的训练过程是怎样的？

MeCo方法包括两个阶段：前90%使用元数据进行预训练，后10%进行冷却，确保模型在没有元数据时也能有效推理。

🏷️

继续阅读

2026年数据与AI峰会：金融服务领导者的内部指南
2026年数据与AI峰会将于6月15日至18日在旧金山举行，聚焦金融服务行业的AI转型与现代化，主要议题包括保险承保、负责任的AI应用及资本市场智能化。与...
智源&清华合作成果登上Science：脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
研究表明，睡眠中的记忆重激活影响睡眠动态，提供了“记忆-睡眠”双向作用的新证据。智源研究院与清华大学的研究发现，负向记忆再激活加剧睡眠碎片化，而正向记忆再...
史上最强游戏掌机来了！性能堪比 PS5，但……
今年掌机市场因元器件成本上涨而涨价，但英特尔等公司推出的新芯片提升了掌机性能和能效。微星和宏碁的新款掌机搭载英特尔 Arc G3 处理器，表现出色，续航能...
从超级个体到超级团队，腾讯云发布WorkBuddy企业版
腾讯云在AI产业应用大会上发布了WorkBuddy企业版及办公智能体套件，旨在帮助企业实现AI转型。该套件提供数字员工、人机协作和团队管理功能，提升工作效...
基于220种海洋细菌，科学家用基因组尺度模型重构异养微生物分类体系，挖出8类代谢菌群
研究揭示海洋异养微生物的代谢生态位，打破传统的富营养型与寡营养型二分法，提出8类代谢菌群。通过基因组分析，阐明其生长规律与资源竞争，推动全球碳循环研究，为...
微软MAI模型发布深度解读：前沿微调成企业AI护城河
微软在2026年推出的MAI系列模型标志着其从依赖OpenAI转向自建AI模型的战略转变。MAI模型涵盖推理、编码、图像和语音等多个领域，特别是通过“前沿...