量子位 ·

陈丹琦团队降本大法又来了：数据砍掉三分之一，性能却完全不减

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

陈丹琦团队提出的MeCo预训练方法通过引入元数据，减少了33%的训练数据，同时保持了大模型的性能。该方法在不同模型规模和数据源下均表现出一致的性能提升，显著加快了预训练过程，为语言模型的引导提供了新思路。

🎯

🔎

MeCo方法通过引入元数据，显著减少了训练数据的使用，同时保持了模型性能。这一创新不仅提升了预训练效率，还为处理异构数据源提供了新的思路，尤其在大规模语言模型的应用中具有重要意义。

MeCo的预训练阶段采用了元数据与文档拼接的方式，这种设计能够有效利用现有的网络抓取数据，提升模型对不同数据源的适应性。冷却阶段的训练策略也有助于进一步优化模型性能，值得关注。

MeCo方法在常识性任务中的表现提升，表明其在实际应用中的潜力。尤其是在处理复杂的自然语言理解任务时，MeCo能够有效降低模型生成的毒性，提升安全性，这对实际应用具有重要的指导意义。

❓

MeCo方法通过引入元数据，减少了33%的训练数据，同时保持了大模型的性能。

MeCo加速了大模型的预训练过程，并且不增加计算开销。

MeCo在600M到8B的不同模型规模下均表现出一致的性能提升。

MeCo包括两个训练阶段，前90%为预训练阶段，最后10%为冷却阶段，使用标准数据进行训练。

MeCo使用特定的元数据，如factquizmaster.com，显著提高了常识性任务的性能。

MeCo设计兼容不同类型的元数据，能够有效整合不同类型的元数据，提升模型性能。

🏷️