小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
新技术使人工智能模型在学习过程中更加精简和快速

麻省理工学院等研究团队开发的CompreSSM方法在训练过程中压缩人工智能模型,避免了传统方法的性能损失。该方法通过控制理论识别模型的重要部分,提前剔除无用组件,使模型训练更小更快。研究显示,压缩模型在图像分类任务中保持了接近原始模型的准确性,训练速度提高了1.5倍。CompreSSM为现代状态空间模型的压缩提供了理论基础,未来有望成为标准方法。

新技术使人工智能模型在学习过程中更加精简和快速

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL)
MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) · 2026-04-09T13:00:00Z
AI Agent 生成合成数据:从简单提示到物理准确的训练集

研究表明,AI Agent驱动的合成数据生成技术能够高效构建高质量训练数据集,降低成本并提升训练速度,解决极端场景问题,标志着合成数据进入2.0时代。

AI Agent 生成合成数据:从简单提示到物理准确的训练集

Micropaper
Micropaper · 2026-03-21T00:00:00Z
新方法可能提高大型语言模型(LLM)的训练效率

研究人员开发了一种新方法,通过训练较小模型预测大型语言模型(LLMs)的输出,显著加速训练速度,节省计算资源。测试结果显示,训练速度提高了70%至210%,同时保持准确性。这项研究有望降低高级LLMs的开发成本和能耗。

新方法可能提高大型语言模型(LLM)的训练效率

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2026-02-26T05:00:00Z
跨模块、宽度、深度、批量和时长的完整超参数转移

本文探讨了超参数转移在大型模型训练中的重要性,提出了一种完整参数化方法,统一了宽度、深度、批量大小和训练时长的缩放。研究表明,适当的参数化可以显著提高大型语言模型的训练速度。

跨模块、宽度、深度、批量和时长的完整超参数转移

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-13T00:00:00Z
轻松构建隔离测试环境:快速启动和销毁容器服务 | 开源日报 No.791

modded-nanogpt 是一个优化 NanoGPT 模型训练速度的项目,利用 8 块 NVIDIA H100 GPU 将训练时间从 45 分钟缩短至 3 分钟,数据量减少至 0.73B tokens。该项目采用现代架构和多种加速技术,并提供 Docker 支持以简化环境配置。

轻松构建隔离测试环境:快速启动和销毁容器服务 | 开源日报 No.791

开源服务指南
开源服务指南 · 2025-11-16T07:35:45Z
CAR-Flow:条件感知重参数化对齐源和目标以实现更好的流匹配

CAR-Flow是一种条件感知重参数化方法,旨在通过调整源和目标分布来优化流匹配,从而缩短模型学习的概率路径,加快训练速度。在低维合成数据和高维自然图像数据(如ImageNet-256)上,CAR-Flow显著提高了性能,减少了FID值,同时仅增加了不到0.6%的参数。

CAR-Flow:条件感知重参数化对齐源和目标以实现更好的流匹配

Apple Machine Learning Research
Apple Machine Learning Research · 2025-11-12T00:00:00Z

上海交大与字节跳动合作推出RhymeRL框架,训练速度提升2.6倍,且保持精度。该框架通过利用历史数据和新技术,解决了Rollout阶段的低效问题,显著加速AI模型训练。

攻克强化学习「最慢一环」!交大字节联手,RL训练速度飙升2.6倍

量子位
量子位 · 2025-09-13T08:45:23Z
MoMoE:内存优化的专家混合模型

MoMoE(内存优化的专家混合模型)通过结合Triton内核和优化内存布局,显著提高了混合专家模型的训练和推理速度及内存效率。与现有开源实现相比,MoMoE在前向和反向传递中具有更高的吞吐量和更低的内存消耗,适合大规模训练和推理。该实现允许用户灵活选择内存与计算的权衡,推动了专家混合模型的高效应用。

MoMoE:内存优化的专家混合模型

Nathan Chen
Nathan Chen · 2025-07-25T00:00:00Z
GRPO

深度学习训练速度主要受内存瓶颈和计算瓶颈的限制,前者是内存访问时间,后者是计算时间。

GRPO

informal
informal · 2025-05-19T16:00:00Z

本研究针对化学基础模型(CFM)在数据分布和训练过程中的负载均衡问题,提出了一种迭代算法,将数据分布视为多目标装箱问题,从而实现高效数据分配。同时,优化了MACE模型中的对称张量收缩内核,显著提高训练速度,周期执行时间从12分钟缩短至2分钟。

优化数据分布和内核性能,以高效训练化学基础模型:以MACE为例

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

上海AI Lab与西工大提出的CityGS-X架构,通过并行化混合层次三维表征(PH²-3D),实现高效的城市场景重建,提升训练速度和几何精度,解决传统3D重建的算力瓶颈,支持4090显卡的大规模渲染。

4090玩转大场景几何重建,RGB渲染和几何精度达SOTA|上海AI Lab&西工大新研究

量子位
量子位 · 2025-04-13T11:14:21Z

本研究提出了SkyLadder上下文窗口调度策略,旨在提高LLM预训练中长上下文窗口的效率。实验结果显示,SkyLadder在基准测试中提升了模型性能,并提高了22%的训练速度,显著优化了预训练效率。

SkyLadder: Achieving Faster and Better Pretraining via Context Window Scheduling

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z
没有归一化层的Transformer!刘壮带队,何恺明、Yann LeCun都参与了

何恺明与Yann LeCun合作提出了一种新型Transformer架构Dynamic Tanh(DyT),可替代传统归一化层。DyT通过可学习参数实现输入的非线性压缩,实验结果显示其在多项任务中表现优于或等同于传统方法,且无需调整超参数,具有提升训练和推理速度的潜力。

没有归一化层的Transformer!刘壮带队,何恺明、Yann LeCun都参与了

机器之心
机器之心 · 2025-03-14T07:54:49Z

魔搭社区推出了支持多模态训练和评测的GRPO训练高效解决方案,通过优化采样效率和异步采样显著提升训练速度。SWIFT框架与LMDeploy推理引擎结合,增强整体性能,并在多个任务上取得良好效果。

DeepSeek同款GRPO训练大提速!魔搭开源全流程方案,支持多模态训练、训练加速和评测全链路

量子位
量子位 · 2025-03-09T04:52:00Z

本研究提出了一种新的可学习层级扩展方法LESA,旨在解决大规模语言模型训练中的高计算资源需求。通过层参数结合和奇异值分解,LESA优化了模型初始化,提升了训练速度,实验结果表明其性能优于现有基线,并降低了计算成本。

LESA: Learnable Hierarchical Scaling for LLMs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-19T00:00:00Z

本研究提出LASP-2序列并行方法,优化线性注意力的右乘特性,显著提升长序列训练的通信和计算并行性,训练速度比LASP快15.2%,比环形注意力快36.6%。

LASP-2: Rethinking Sequence Parallelism of Linear Attention and Its Hybrid Methods

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z

本研究提出了一种新的无状态优化器框架,通过对随机梯度进行多标准归一化,解决了训练大型语言模型时的内存开销问题。实验结果表明,该方法在保持内存效率的同时,训练速度比Adam快3倍,具有重要的应用潜力。

Gradient Multi-Normalization for Stateless and Scalable LLM Training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z
研究表明,扩大词汇量使人工智能语言模型更智能、更快速

研究表明,扩大词汇量能提升语言模型性能。采用“过度分词”策略优于传统方法,且随着模型规模增大,词汇扩展的好处也随之增加。该方法提高了20%的训练速度,且质量保持不变,适用于多种语言和任务。

研究表明,扩大词汇量使人工智能语言模型更智能、更快速

DEV Community
DEV Community · 2025-02-03T09:03:33Z

本研究提出HEPPO,一种基于FPGA的加速器,优化近端策略优化中的广义优势估计。实验结果表明,训练速度提高30%,内存使用减少4倍,具有广泛的应用潜力。

HEPPO:硬件高效的近端策略优化 — 一种通用的管道架构用于广义优势估计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-22T00:00:00Z
新型AI模型处理文本速度提高4倍,同时内存使用减少75%

FastBiEncoder是一种新型双向变换模型,训练和推理速度比BERT快4倍,内存使用减少75%,支持最长8K标记的上下文窗口,且准确性与传统模型相当。

新型AI模型处理文本速度提高4倍,同时内存使用减少75%

DEV Community
DEV Community · 2024-12-22T06:59:55Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码