小红花·文摘 - 小红花技术领袖俱乐部

新技术使人工智能模型在学习过程中更加精简和快速

新技术使人工智能模型在学习过程中更加精简和快速

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) ·

AI Agent 生成合成数据：从简单提示到物理准确的训练集

AI Agent 生成合成数据：从简单提示到物理准确的训练集

Micropaper ·

新方法可能提高大型语言模型（LLM）的训练效率

新方法可能提高大型语言模型（LLM）的训练效率

MIT News - Artificial intelligence ·

跨模块、宽度、深度、批量和时长的完整超参数转移

跨模块、宽度、深度、批量和时长的完整超参数转移

Apple Machine Learning Research ·

轻松构建隔离测试环境：快速启动和销毁容器服务 | 开源日报 No.791

轻松构建隔离测试环境：快速启动和销毁容器服务 | 开源日报 No.791

开源服务指南 ·

CAR-Flow：条件感知重参数化对齐源和目标以实现更好的流匹配

CAR-Flow：条件感知重参数化对齐源和目标以实现更好的流匹配

Apple Machine Learning Research ·

上海交大与字节跳动合作推出RhymeRL框架，训练速度提升2.6倍，且保持精度。该框架通过利用历史数据和新技术，解决了Rollout阶段的低效问题，显著加速AI模型训练。

攻克强化学习「最慢一环」！交大字节联手，RL训练速度飙升2.6倍

量子位 ·

MoMoE：内存优化的专家混合模型

MoMoE：内存优化的专家混合模型

Nathan Chen ·

GRPO

informal ·

本研究针对化学基础模型（CFM）在数据分布和训练过程中的负载均衡问题，提出了一种迭代算法，将数据分布视为多目标装箱问题，从而实现高效数据分配。同时，优化了MACE模型中的对称张量收缩内核，显著提高训练速度，周期执行时间从12分钟缩短至2分钟。

优化数据分布和内核性能，以高效训练化学基础模型：以MACE为例

BriefGPT - AI 论文速递 ·

上海AI Lab与西工大提出的CityGS-X架构，通过并行化混合层次三维表征（PH²-3D），实现高效的城市场景重建，提升训练速度和几何精度，解决传统3D重建的算力瓶颈，支持4090显卡的大规模渲染。

4090玩转大场景几何重建，RGB渲染和几何精度达SOTA｜上海AI Lab&西工大新研究

量子位 ·

本研究提出了SkyLadder上下文窗口调度策略，旨在提高LLM预训练中长上下文窗口的效率。实验结果显示，SkyLadder在基准测试中提升了模型性能，并提高了22%的训练速度，显著优化了预训练效率。

SkyLadder: Achieving Faster and Better Pretraining via Context Window Scheduling

BriefGPT - AI 论文速递 ·

没有归一化层的Transformer！刘壮带队，何恺明、Yann LeCun都参与了

没有归一化层的Transformer！刘壮带队，何恺明、Yann LeCun都参与了

机器之心 ·

魔搭社区推出了支持多模态训练和评测的GRPO训练高效解决方案，通过优化采样效率和异步采样显著提升训练速度。SWIFT框架与LMDeploy推理引擎结合，增强整体性能，并在多个任务上取得良好效果。

DeepSeek同款GRPO训练大提速！魔搭开源全流程方案，支持多模态训练、训练加速和评测全链路

量子位 ·

本研究提出了一种新的可学习层级扩展方法LESA，旨在解决大规模语言模型训练中的高计算资源需求。通过层参数结合和奇异值分解，LESA优化了模型初始化，提升了训练速度，实验结果表明其性能优于现有基线，并降低了计算成本。

LESA: Learnable Hierarchical Scaling for LLMs

BriefGPT - AI 论文速递 ·

本研究提出LASP-2序列并行方法，优化线性注意力的右乘特性，显著提升长序列训练的通信和计算并行性，训练速度比LASP快15.2%，比环形注意力快36.6%。

LASP-2: Rethinking Sequence Parallelism of Linear Attention and Its Hybrid Methods

BriefGPT - AI 论文速递 ·

本研究提出了一种新的无状态优化器框架，通过对随机梯度进行多标准归一化，解决了训练大型语言模型时的内存开销问题。实验结果表明，该方法在保持内存效率的同时，训练速度比Adam快3倍，具有重要的应用潜力。

Gradient Multi-Normalization for Stateless and Scalable LLM Training

BriefGPT - AI 论文速递 ·

研究表明，扩大词汇量使人工智能语言模型更智能、更快速

研究表明，扩大词汇量使人工智能语言模型更智能、更快速

DEV Community ·

本研究提出HEPPO，一种基于FPGA的加速器，优化近端策略优化中的广义优势估计。实验结果表明，训练速度提高30%，内存使用减少4倍，具有广泛的应用潜力。

HEPPO：硬件高效的近端策略优化 — 一种通用的管道架构用于广义优势估计

BriefGPT - AI 论文速递 ·

新型AI模型处理文本速度提高4倍，同时内存使用减少75%

新型AI模型处理文本速度提高4倍，同时内存使用减少75%

DEV Community ·