用大模型优化大模型预训练数据,节省20倍计算量,实现显著性能提升!

用大模型优化大模型预训练数据,节省20倍计算量,实现显著性能提升!

💡 原文中文,约5100字,阅读约需13分钟。
📝

内容提要

生成式人工智能研究实验室推出的ProX框架由上海交大等联合开发,旨在通过语言模型自动优化数据,提高预训练语料质量。ProX能灵活处理多样化样本,降低计算成本,优于传统方法。实验表明,ProX在多个数据集上表现出色,特别是在数学领域无需额外设计即可显著提升性能。未来计划将ProX扩展到更多领域,推动大模型发展。

🎯

关键要点

  • ProX框架由上海交大等联合开发,旨在通过语言模型自动优化数据,提高预训练语料质量。
  • ProX能灵活处理多样化样本,降低计算成本,优于传统方法。
  • 实验表明,ProX在多个数据集上表现出色,特别是在数学领域无需额外设计即可显著提升性能。
  • 生成式人工智能研究实验室专注于大模型基础研究、对齐系统和社会影响,致力于培养顶尖人工智能人才。
  • ProX通过语言模型自动生成优化程序,能够对每个数据样本进行个性化处理,提升数据整体质量。
  • ProX采用较小的语言模型执行数据优化任务,显著减少计算成本,同时实现精细化操作。
  • ProX的优化分为文档级别和子文档/块级别,适用于不同领域,无需额外设计。
  • ProX在小于1B规模的模型训练中超越了多个人工设计的规则过滤方法,表现稳定且大幅度提升。
  • ProX在数学语料上优化后,模型在多个数学相关榜单上提升20%的性能,且训练代价仅为1/20。
  • 未来计划将ProX扩展到更多领域,设计更灵活的接口,促进领域大模型的发展。
➡️

继续阅读