小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
新技术使人工智能模型在学习过程中更加精简和快速

麻省理工学院等研究团队开发的CompreSSM方法在训练过程中压缩人工智能模型,避免了传统方法的性能损失。该方法通过控制理论识别模型的重要部分,提前剔除无用组件,使模型训练更小更快。研究显示,压缩模型在图像分类任务中保持了接近原始模型的准确性,训练速度提高了1.5倍。CompreSSM为现代状态空间模型的压缩提供了理论基础,未来有望成为标准方法。

新技术使人工智能模型在学习过程中更加精简和快速

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL)
MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) · 2026-04-09T13:00:00Z
AI Agent 生成合成数据:从简单提示到物理准确的训练集

研究表明,AI Agent驱动的合成数据生成技术能够高效构建高质量训练数据集,降低成本并提升训练速度,解决极端场景问题,标志着合成数据进入2.0时代。

AI Agent 生成合成数据:从简单提示到物理准确的训练集

Micropaper
Micropaper · 2026-03-21T00:00:00Z
新方法可能提高大型语言模型(LLM)的训练效率

研究人员开发了一种新方法,通过训练较小模型预测大型语言模型(LLMs)的输出,显著加速训练速度,节省计算资源。测试结果显示,训练速度提高了70%至210%,同时保持准确性。这项研究有望降低高级LLMs的开发成本和能耗。

新方法可能提高大型语言模型(LLM)的训练效率

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2026-02-26T05:00:00Z
跨模块、宽度、深度、批量和时长的完整超参数转移

本文探讨了超参数转移在大型模型训练中的重要性,提出了一种完整参数化方法,统一了宽度、深度、批量大小和训练时长的缩放。研究表明,适当的参数化可以显著提高大型语言模型的训练速度。

跨模块、宽度、深度、批量和时长的完整超参数转移

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-13T00:00:00Z
轻松构建隔离测试环境:快速启动和销毁容器服务 | 开源日报 No.791

modded-nanogpt 是一个优化 NanoGPT 模型训练速度的项目,利用 8 块 NVIDIA H100 GPU 将训练时间从 45 分钟缩短至 3 分钟,数据量减少至 0.73B tokens。该项目采用现代架构和多种加速技术,并提供 Docker 支持以简化环境配置。

轻松构建隔离测试环境:快速启动和销毁容器服务 | 开源日报 No.791

开源服务指南
开源服务指南 · 2025-11-16T07:35:45Z
CAR-Flow:条件感知重参数化对齐源和目标以实现更好的流匹配

CAR-Flow是一种条件感知重参数化方法,旨在通过调整源和目标分布来优化流匹配,从而缩短模型学习的概率路径,加快训练速度。在低维合成数据和高维自然图像数据(如ImageNet-256)上,CAR-Flow显著提高了性能,减少了FID值,同时仅增加了不到0.6%的参数。

CAR-Flow:条件感知重参数化对齐源和目标以实现更好的流匹配

Apple Machine Learning Research
Apple Machine Learning Research · 2025-11-12T00:00:00Z

上海交大与字节跳动合作推出RhymeRL框架,训练速度提升2.6倍,且保持精度。该框架通过利用历史数据和新技术,解决了Rollout阶段的低效问题,显著加速AI模型训练。

攻克强化学习「最慢一环」!交大字节联手,RL训练速度飙升2.6倍

量子位
量子位 · 2025-09-13T08:45:23Z
MoMoE:内存优化的专家混合模型

MoMoE(内存优化的专家混合模型)通过结合Triton内核和优化内存布局,显著提高了混合专家模型的训练和推理速度及内存效率。与现有开源实现相比,MoMoE在前向和反向传递中具有更高的吞吐量和更低的内存消耗,适合大规模训练和推理。该实现允许用户灵活选择内存与计算的权衡,推动了专家混合模型的高效应用。

MoMoE:内存优化的专家混合模型

Nathan Chen
Nathan Chen · 2025-07-25T00:00:00Z
GRPO

深度学习训练速度主要受内存瓶颈和计算瓶颈的限制,前者是内存访问时间,后者是计算时间。

GRPO

informal
informal · 2025-05-19T16:00:00Z

本研究针对化学基础模型(CFM)在数据分布和训练过程中的负载均衡问题,提出了一种迭代算法,将数据分布视为多目标装箱问题,从而实现高效数据分配。同时,优化了MACE模型中的对称张量收缩内核,显著提高训练速度,周期执行时间从12分钟缩短至2分钟。

优化数据分布和内核性能,以高效训练化学基础模型:以MACE为例

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

上海AI Lab与西工大提出的CityGS-X架构,通过并行化混合层次三维表征(PH²-3D),实现高效的城市场景重建,提升训练速度和几何精度,解决传统3D重建的算力瓶颈,支持4090显卡的大规模渲染。

4090玩转大场景几何重建,RGB渲染和几何精度达SOTA|上海AI Lab&西工大新研究

量子位
量子位 · 2025-04-13T11:14:21Z

本研究提出了SkyLadder上下文窗口调度策略,旨在提高LLM预训练中长上下文窗口的效率。实验结果显示,SkyLadder在基准测试中提升了模型性能,并提高了22%的训练速度,显著优化了预训练效率。

SkyLadder: Achieving Faster and Better Pretraining via Context Window Scheduling

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z
没有归一化层的Transformer!刘壮带队,何恺明、Yann LeCun都参与了

何恺明与Yann LeCun合作提出了一种新型Transformer架构Dynamic Tanh(DyT),可替代传统归一化层。DyT通过可学习参数实现输入的非线性压缩,实验结果显示其在多项任务中表现优于或等同于传统方法,且无需调整超参数,具有提升训练和推理速度的潜力。

没有归一化层的Transformer!刘壮带队,何恺明、Yann LeCun都参与了

机器之心
机器之心 · 2025-03-14T07:54:49Z

魔搭社区推出了支持多模态训练和评测的GRPO训练高效解决方案,通过优化采样效率和异步采样显著提升训练速度。SWIFT框架与LMDeploy推理引擎结合,增强整体性能,并在多个任务上取得良好效果。

DeepSeek同款GRPO训练大提速!魔搭开源全流程方案,支持多模态训练、训练加速和评测全链路

量子位
量子位 · 2025-03-09T04:52:00Z

本研究提出了一种新的可学习层级扩展方法LESA,旨在解决大规模语言模型训练中的高计算资源需求。通过层参数结合和奇异值分解,LESA优化了模型初始化,提升了训练速度,实验结果表明其性能优于现有基线,并降低了计算成本。

LESA: Learnable Hierarchical Scaling for LLMs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-19T00:00:00Z

本研究提出LASP-2序列并行方法,优化线性注意力的右乘特性,显著提升长序列训练的通信和计算并行性,训练速度比LASP快15.2%,比环形注意力快36.6%。

LASP-2: Rethinking Sequence Parallelism of Linear Attention and Its Hybrid Methods

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z

本研究提出了一种新的无状态优化器框架,通过对随机梯度进行多标准归一化,解决了训练大型语言模型时的内存开销问题。实验结果表明,该方法在保持内存效率的同时,训练速度比Adam快3倍,具有重要的应用潜力。

Gradient Multi-Normalization for Stateless and Scalable LLM Training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z
研究表明,扩大词汇量使人工智能语言模型更智能、更快速

研究表明,扩大词汇量能提升语言模型性能。采用“过度分词”策略优于传统方法,且随着模型规模增大,词汇扩展的好处也随之增加。该方法提高了20%的训练速度,且质量保持不变,适用于多种语言和任务。

研究表明,扩大词汇量使人工智能语言模型更智能、更快速

DEV Community
DEV Community · 2025-02-03T09:03:33Z

本研究提出HEPPO,一种基于FPGA的加速器,优化近端策略优化中的广义优势估计。实验结果表明,训练速度提高30%,内存使用减少4倍,具有广泛的应用潜力。

HEPPO:硬件高效的近端策略优化 — 一种通用的管道架构用于广义优势估计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-22T00:00:00Z
新型AI模型处理文本速度提高4倍,同时内存使用减少75%

FastBiEncoder是一种新型双向变换模型,训练和推理速度比BERT快4倍,内存使用减少75%,支持最长8K标记的上下文窗口,且准确性与传统模型相当。

新型AI模型处理文本速度提高4倍,同时内存使用减少75%

DEV Community
DEV Community · 2024-12-22T06:59:55Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码