小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
从混合到专业领域的语言模型优化分割

本文探讨了语言模型的优化分割,提出了一种通过独立预训练多个模型并利用缩放法则优化计算分配的方法。这种方法在不同模型规模和计算预算下,能有效提升模型在常识知识和推理基准上的表现。

从混合到专业领域的语言模型优化分割

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-23T00:00:00Z
使用张量并行在多个GPU上训练大型模型

张量并行是一种模型并行技术,通过在特定维度上分割张量,将计算分配到多个设备,适用于参数量巨大的模型。本文介绍了在PyTorch中实现张量并行的设计和训练步骤。

使用张量并行在多个GPU上训练大型模型

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-31T21:22:39Z
计算最优的量化感知训练

量化感知训练(QAT)是一种提高量化神经网络准确性的技术。研究表明,将训练分为全精度(FP)阶段和QAT阶段能获得更好的准确性。实验探讨了FP与QAT阶段的计算分配,发现QAT与FP训练的最佳比例随计算总量增加而增加,并提出了一种新的冷却和QAT融合方法,以节省计算资源。这些发现为高效的QAT规划提供了实用见解。

计算最优的量化感知训练

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-01T00:00:00Z
苹果也在蒸馏大模型,给出了蒸馏Scaling Laws

苹果研究人员提出蒸馏扩展定律,量化蒸馏模型性能,优化教师与学生模型的计算分配。研究表明,在特定条件下,蒸馏比监督学习更有效,降低推理成本并提升模型性能,为AI模型构建提供新思路。

苹果也在蒸馏大模型,给出了蒸馏Scaling Laws

机器之心
机器之心 · 2025-02-14T05:11:19Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码