小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
最佳数据混合的缩放法则

本文提出了一种系统方法,通过缩放法则确定目标领域的最佳数据混合比例,以提升大规模模型的性能。该方法能够准确预测模型在特定领域权重下的损失,并在大型语言模型、多模态模型和视觉模型的预训练中验证其有效性。通过少量小规模训练,能够估计参数并推断更大规模的性能,提供了一种替代昂贵试错方法的方案。

最佳数据混合的缩放法则

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-26T00:00:00Z

本研究提出了一种新的混合专家模型框架,通过分段分配嵌入维度来提升计算效率,并提供了在特定架构下识别最佳专家数量的闭式表达式,为大规模模型设计提供指导。

理论上的变压器增强节段混合专家框架的最优扩展法则以提高效率

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-26T00:00:00Z

研究表明,训练的token数量越多,所需的精度越高,低精度量化可能失效。提出了“精度感知”Scaling Laws,强调在大规模模型的预训练和推理中需关注精度与性能的平衡。

今日最热论文:Scaling Law终结,量化也不管用,AI大佬齐刷刷附议

量子位
量子位 · 2024-11-13T07:22:12Z
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

字节跳动的豆包大模型团队提出了超连接(Hyper-Connections),作为残差连接的替代方案,有效解决了梯度消失和表示崩溃的问题。该方法在Dense和MoE模型的预训练中显著提升性能,收敛速度提高了80%。超连接通过动态调整连接权重,适用于大规模语言模型和视觉任务,具有广泛的应用前景。

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

机器之心
机器之心 · 2024-11-07T06:36:29Z
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

文章介绍了UNA方法,它统一了RLHF、DPO和KTO对齐技术。UNA通过通用隐式奖励函数简化训练流程,支持多种反馈数据,提升模型性能和稳定性。实验表明,UNA在任务表现、训练速度和内存占用方面优于传统方法,尤其在大规模模型处理上表现突出。

综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

机器之心
机器之心 · 2024-10-09T06:18:28Z
全球首个支持单任务千卡规模异构芯片混合训练平台,来自无问芯穹

无问芯穹发布了大规模模型的异构分布式混合训练系统,支持多种异构芯片的混合训练。无问芯穹的Infini-AI云平台已集成大模型异构混训能力,支持多种芯片的大模型训练。无问芯穹的技术产品能让开发者们能够有效利用各类算力资源,专注于AI应用创新。

全球首个支持单任务千卡规模异构芯片混合训练平台,来自无问芯穹

机器之心
机器之心 · 2024-07-06T02:47:56Z

本文介绍了在大规模模型时代中,如何选择和优化海量复杂数据集以提高大型语言模型的性能。作者详细介绍了在BetterMixture挑战中的解决方案,包括数据去重、质量过滤和多样性选择等方面的优秀表现。作者还介绍了基于Data-Juicer的扩展工具Ke-Data-Juicer的强大能力。

RegMix: 以数据混合作为语言模型预训练的回归方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-01T00:00:00Z

2024 WAVE SUMMIT深度学习开发者大会将由国家深度学习技术及应用工程研究中心主办,百度飞桨和文心大模型协办。大会将邀请行业重量级嘉宾,如国家深度学习技术及应用工程研究中心主任、百度CTO王海峰,分享国内大规模模型在技术创新、行业应用和生态社区方面的最新进展,与数千名开发者交流。大会将包括一个主论坛、六个平行论坛、多个研讨会和一个展览区。

智能硬核 生态共创!WAVE SUMMIT邀您共建飞桨硬件生态社区

百度大脑
百度大脑 · 2024-06-21T11:36:39Z

苹果与OpenAI合作推出“苹果智能”平台,增强AI能力。OpenAI以大规模模型应用于语言、图像和视频处理。谷歌在AI道德和命名多样性方面存在问题。Meta推出Llama模型和“Segment Anything”项目。微软整合AI能力到Azure等产品中。英伟达通过GPU销售占据市场优势。特斯拉利用数据训练自动驾驶模型并开发人型机器人Optimus。亚马逊和苹果也在AI领域发展。大型科技公司整合资源、转向产品化和整合AI技术推动AI发展。创业公司面临挑战但仍有机会创新。

苹果宣布整合ChatGPT!盘点硅谷大厂的AI策略

甜欣屋
甜欣屋 · 2024-06-13T05:12:50Z

通过研究扩展定律,发现DeepSeek LLM在7B和67B两种开源配置下用于扩展大规模模型,并介绍了项目前景。DeepSeek LLM 67B在各种基准测试中超过LLaMA-2 70B,尤其在代码、数学和推理领域。开放式评估显示DeepSeek LLM 67B Chat优于GPT-3.5。

DeepSeek-V2: 一种强大、经济高效的专家混合语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-07T00:00:00Z

该研究提出了一种名为元分布能量(MDE)的新度量方法,用于提高自动模型评估框架的效率和效果。MDE通过建立与个体样本相关的元分布统计信息,并利用基于能量的学习提供更平滑的表示。验证了MDE在多模态、不同数据集和不同架构背景下的有效性,并证明了与分类损失的理论联系。同时展示了MDE与大规模模型的无缝集成以及在具有噪声或不平衡标签的学习场景中的简便适应性。

基于能量的自动模型评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-23T00:00:00Z

本文综合分析了基于图像的人物试穿领域,评估了不同方法并展示了大规模模型的未来潜力,同时揭示了未解决的问题和未来研究方向。

基于图像的虚拟试穿研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-08T00:00:00Z

专家在第六届中国国际进口博览会和虹桥国际经济论坛的一个分论坛上讨论了大规模模型技术及其在实体经济中的应用。百度副总裁吴甜分享了大规模模型如何提高各行业的效率和创造力。

大模型产业生态有“成功密码”?百度高管2023进博会最新发声

百度大脑
百度大脑 · 2023-11-07T11:58:44Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码