小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

中科大与华为合作发布的生成式推荐大模型成功在昇腾NPU上部署,基于扩展定律提升推荐系统性能,适用于复杂场景和排序任务,展现良好扩展性。未来研究将集中于数据工程和训练效率等方向。

中科大华为发布生成式推荐大模型,昇腾NPU可部署,背后认知一同公开

量子位
量子位 · 2025-04-06T02:48:10Z

英伟达首席执行官黄仁勋表示,该公司AI芯片的性能提升速度超越摩尔定律,归功于全堆栈创新。他否认AI发展放缓,指出当前有三条活跃的AI扩展定律,并强调推理成本将降低。

英伟达称该公司的AI芯片性能进步速度超过摩尔定律 这得益于架构和算法等

蓝点网
蓝点网 · 2025-01-08T01:06:09Z

Kaplan和Hoffmann等人提出的预算优化模型的扩展定律预测结果存在差异。通过分析计算成本、预热时间和优化器调整等因素,修正后与Hoffmann的定律一致。研究发现学习率衰减对模型有效性影响不大,并推导出最优学习率和批次大小的扩展定律。

推理缩放法则的简单模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-21T00:00:00Z

本文讨论了语言模型的扩展和发展趋势,指出扩展定律被误解,模型的涌现能力受限于外推能力,高质量训练数据难以获取,扩展几乎无法实现人工通用智能,模型行业面临模型尺寸下行压力,合成数据不能替代高质量人类数据,训练时间逐渐增长,许多CEO降低了对AGI的期望。

AI Scaling的神话

OneFlow深度学习框架
OneFlow深度学习框架 · 2024-07-26T01:03:08Z

Kaplan和Hoffmann开发了用于优化计算预算的扩展定律,但他们的预测有所不同。通过在两个数据集上重现Kaplan的定律并识别三个因素,我们解释了这些差异。在纠正这些因素后,我们实现了与Hoffmann定律的一致性。学习率衰减对效果并不重要。我们推导出学习率和批量大小的扩展定律,发现调整AdamW的β2参数对于较小的批量大小至关重要。

解决语言模型计算最优扩展的差异

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-27T00:00:00Z

通过研究扩展定律,发现DeepSeek LLM在7B和67B两种开源配置下用于扩展大规模模型,并介绍了项目前景。DeepSeek LLM 67B在各种基准测试中超过LLaMA-2 70B,尤其在代码、数学和推理领域。开放式评估显示DeepSeek LLM 67B Chat优于GPT-3.5。

DeepSeek-V2: 一种强大、经济高效的专家混合语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-07T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码