机器之心 ·

用大模型优化大模型预训练数据，节省20倍计算量，实现显著性能提升！

💡 原文中文，约5100字，阅读约需13分钟。

📝

内容提要

生成式人工智能研究实验室推出的ProX框架由上海交大等联合开发，旨在通过语言模型自动优化数据，提高预训练语料质量。ProX能灵活处理多样化样本，降低计算成本，优于传统方法。实验表明，ProX在多个数据集上表现出色，特别是在数学领域无需额外设计即可显著提升性能。未来计划将ProX扩展到更多领域，推动大模型发展。

🎯

关键要点

ProX框架由上海交大等联合开发，旨在通过语言模型自动优化数据，提高预训练语料质量。
ProX能灵活处理多样化样本，降低计算成本，优于传统方法。
实验表明，ProX在多个数据集上表现出色，特别是在数学领域无需额外设计即可显著提升性能。
生成式人工智能研究实验室专注于大模型基础研究、对齐系统和社会影响，致力于培养顶尖人工智能人才。
ProX通过语言模型自动生成优化程序，能够对每个数据样本进行个性化处理，提升数据整体质量。
ProX采用较小的语言模型执行数据优化任务，显著减少计算成本，同时实现精细化操作。
ProX的优化分为文档级别和子文档/块级别，适用于不同领域，无需额外设计。
ProX在小于1B规模的模型训练中超越了多个人工设计的规则过滤方法，表现稳定且大幅度提升。
ProX在数学语料上优化后，模型在多个数学相关榜单上提升20%的性能，且训练代价仅为1/20。
未来计划将ProX扩展到更多领域，设计更灵活的接口，促进领域大模型的发展。

🏷️

继续阅读

银河通用LDA定义全域数据利用范式，跨本体世界动作大模型开启具身GPT-2时刻
银河通用推出的LDA-1B模型在具身智能领域实现了数据的统一利用，突破了传统模型的局限。该模型有效整合多种数据源，快速适应不同机器人，降低数据获取成本，推...
你的数据正在喂养 AI：从 Atlassian 公告，看科技平台的数据训练默认政策
Atlassian 宣布默认使用用户数据训练 AI，引发行业关注。许多平台如 ChatGPT 和 GitHub Copilot 也采取类似政策，用户数据默...
Stripe数据现已通过Databricks市场在Databricks上提供
Stripe数据管道已在Databricks市场上线，利用Delta Sharing实现实时数据共享，简化AI应用开发。用户可以在Unity Catalo...
CNCF项目中人工智能的现状：数据的初步分析
CNCF TAG开发者体验小组研究了人工智能对开源开发的影响。调查显示，近一半的参与者在日常工作中使用AI工具，主要用于代码编写、文档改进和代码理解。尽管...
面向电商直播场景的全模态大模型推理加速方案
本文介绍了电商直播场景下的全模态理解大模型TLiveOmni在vLLM框架下的推理部署与量化优化。通过自定义插件和修复多模态Token排布，解决了vLLM...
Claude Mythos Preview 模型能力解析：大模型攻防实测与企业应对建议
绿盟科技的报告分析了Anthropic的Claude Mythos模型，指出其在0day漏洞挖掘和网络攻击中的高效能，可能增加开源供应链的风险。报告建议企...

用大模型优化大模型预训练数据，节省20倍计算量，实现显著性能提升！

内容提要

关键要点

标签

继续阅读