小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Cursor以更低的价格推出Composer 2.5和Kimi K2.5,押注于编码领域

Cursor公司发布了Composer 2.5,显著提升了编码任务和训练效率。尽管基准测试表现优于前代产品,实际应用效果仍需验证。Composer 2.5的定价低于竞争对手,未来与SpaceX的合作将进一步增强模型能力。

Cursor以更低的价格推出Composer 2.5和Kimi K2.5,押注于编码领域

The New Stack
The New Stack · 2026-05-20T11:00:00Z
何恺明首个语言模型:105M参数,不走GPT自回归老路

何恺明团队推出了新的扩散语言模型ELF,该模型采用连续的embedding空间进行文本生成,显著降低了生成困惑度。ELF在训练和采样效率上表现优异,仅用105M参数和45B训练token,生成质量超过主流模型。该模型首次实现了连续与离散的有效结合,推动了扩散语言模型的发展。

何恺明首个语言模型:105M参数,不走GPT自回归老路

量子位
量子位 · 2026-05-13T01:23:32Z
在日常设备上实现隐私保护的人工智能训练

麻省理工学院的研究人员开发了一种新方法,提升了联邦学习的效率,使其在资源有限的设备上更快地训练人工智能模型。该方法通过减少内存需求和通信负担,加速训练过程,平均提高了81%的速度。这项技术有望在医疗和金融等高风险领域应用,同时保护用户数据安全。

在日常设备上实现隐私保护的人工智能训练

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2026-04-29T04:00:00Z
ParaRNN:大规模非线性递归神经网络,可并行训练

苹果研究人员提出了ParaRNN框架,显著提高了非线性递归神经网络(RNN)的训练效率,实现了大规模并行训练。该方法使得7亿参数的RNN在语言建模任务中表现出与变换器相当的性能,且通过引入牛顿法,ParaRNN在保持非线性表达能力的同时实现了高效的并行计算。这一进展为RNN的广泛应用和进一步研究提供了新的可能性。

ParaRNN:大规模非线性递归神经网络,可并行训练

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-23T00:00:00Z
全球最大规模含触觉数据集,凭什么吸引谷歌和众多高校的加入?

戴盟机器人联合多家顶尖机构发布了全球最大的触觉全模态数据集Daimon Infinity,旨在提升具身智能的训练效率。该数据集包含触觉和视觉等多维信息,预计年内达到数百万小时,助力机器人在复杂环境中精准操作。触觉数据的引入显著提高了模型的训练效果,推动行业标准化和资源共享,加速具身智能的商业化进程。

全球最大规模含触觉数据集,凭什么吸引谷歌和众多高校的加入?

量子位
量子位 · 2026-04-20T07:55:03Z
MixAtlas:面向多模态大模型中期训练的基于不确定性的数 据混合优化

MixAtlas是一种用于多模态大模型中期训练的数据混合优化框架,通过领域分解和小型代理模型提高样本效率和下游泛化能力。它在图像概念和任务监督两个方面分解训练数据,显著提升训练效率,实现3倍的收敛速度和2-5%的性能提升,尤其在文本丰富的基准测试中表现突出。

MixAtlas:面向多模态大模型中期训练的基于不确定性的数 据混合优化

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-16T00:00:00Z

《Attention Is All You Need》论文通过WMT14英译德和英译法任务取得优异的BLEU分数,证明了Transformer架构的有效性。其训练效率显著优于前代模型,且不依赖递归和卷积,推动了机器翻译领域的变革。论文强调了注意力机制的重要性,并展示了其在现代硬件上的并行性优势,为后续大模型的发展奠定了基础。

【Transformer 与注意力机制】28|原论文实验结果:为什么 28.4 BLEU 足以改写路线图

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
SafetyPairs:通过反事实图像生成隔离安全关键图像特征

本文介绍了SafetyPairs框架,生成仅在安全特征上不同的图像对,以区分安全与不安全的图像。通过图像编辑模型进行针对性修改,构建了一个包含3020个图像的安全基准,提升了视觉语言模型的评估能力,并改善了轻量级模型的训练效率。

SafetyPairs:通过反事实图像生成隔离安全关键图像特征

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-24T00:00:00Z
马斯克下场点赞!Kimi 这篇论文撬动了大模型的「祖传地基」

Kimi团队的《Attention Residuals》报告改进了残差连接结构,显著提升了大模型的训练效率。在相同算力下,该方法的效果相当于基线模型1.25倍算力的成果,获得硅谷AI界的认可,标志着深度学习基础范式的变革。

马斯克下场点赞!Kimi 这篇论文撬动了大模型的「祖传地基」

爱范儿
爱范儿 · 2026-03-18T09:30:39Z
ReSyn:自动生成1000个推理环境,让AI学会真正的思考!

ReSyn是卡内基梅隆大学与AWS团队开发的工具,旨在自动生成推理环境,使AI能够在无监督下学习推理。该工具降低了标注成本,提高了训练效率,实验表明性能提升达27%。未来,AI将能够自我进化,生成更多样化的环境。

ReSyn:自动生成1000个推理环境,让AI学会真正的思考!

Micropaper
Micropaper · 2026-02-28T14:45:00Z
PaddleFormers驱动:最少国产算力完成DeepSeek-V3(671B)全参数微调实践

近期,基于PaddleFormers v1.0,在昆仑芯P800上成功完成DeepSeek-V3模型的全参数微调,验证了超大规模模型的可控性及优化训练效率。通过混合并行训练策略和多硬件算子验证工具,显著提升了算力利用效率,并总结了显存管理、长序列输入处理及负载均衡等关键技术,为未来大规模模型训练提供了参考。

PaddleFormers驱动:最少国产算力完成DeepSeek-V3(671B)全参数微调实践

百度大脑
百度大脑 · 2026-02-27T14:30:51Z
何恺明团队新作GeoPT,全新预训练范式让模型自学真实物理规律

何恺明团队的GeoPT提出了一种新预训练范式,通过合成动力学将静态几何转化为动态空间,使模型能够在无标签数据上学习物理规律。该方法节省了20-60%的物理仿真数据,提高了训练效率和适应性,为物理仿真提供了新思路。

何恺明团队新作GeoPT,全新预训练范式让模型自学真实物理规律

量子位
量子位 · 2026-02-27T08:19:25Z
技能之夜:69,000+种智能代理变得更聪明的方式

在旧金山的技能之夜活动中,开发者展示了如何利用skills.sh生态系统提升智能代理能力。该项目起源于Shu Ding记录的React知识,现已发展至69000个技能和200万次安装。为应对安全问题,团队与多家安全公司合作进行审计。活动强调了技能在缩短训练时间和提升代理效率方面的重要性,以及提供正确上下文的必要性。

技能之夜:69,000+种智能代理变得更聪明的方式

Vercel News
Vercel News · 2026-02-20T13:00:00Z
Oxygen 9N-LLM生成式推荐训练框架

生成式推荐作为新兴推荐系统,提升了推荐多样性和复杂语义处理能力。京东九数算法团队开发的9N-LLM统一训练引擎,支持多框架和硬件,解决了训练效率和模型规模问题,推动生成式推荐的实际应用。该引擎通过优化样本处理、稀疏参数计算和强化学习流程,提高了训练效率和效果。

Oxygen 9N-LLM生成式推荐训练框架

京东科技开发者
京东科技开发者 · 2026-01-30T10:52:59Z
Meta详细介绍了GEM广告模型,采用大规模LLM训练、混合并行和知识转移

Meta推出生成广告模型(GEM),旨在提升广告推荐效果。该模型通过处理大量用户与广告的互动,解决推荐系统的挑战。GEM利用先进架构、知识转移和优化训练基础设施,提高性能,并支持广告主目标与用户行为。Meta还采用多种并行策略和GPU优化,提升训练效率,帮助广告主实现更精准的广告投放。

Meta详细介绍了GEM广告模型,采用大规模LLM训练、混合并行和知识转移

InfoQ
InfoQ · 2025-12-22T08:39:00Z
RL 后训练进化论:从PPO被动奖励、GRPO组内奖励到DeepSeekMath-V2自验证奖励

DeepSeek-R1展示了强化学习(RLHF)在大模型推理中的重要性,挑战了传统观念。通过去除Critic和采用组内统计方法,提升了训练效率,推动了RL后训练的变革,未来将向自我验证循环发展。

RL 后训练进化论:从PPO被动奖励、GRPO组内奖励到DeepSeekMath-V2自验证奖励

逐水寻源
逐水寻源 · 2025-11-28T14:00:22Z

清华与快手团队推出的SVG模型在训练效率上提升6200%,生成速度提升3500%。该模型通过构建语义与细节融合的特征空间,解决了VAE的语义纠缠问题,支持多任务通用,生成质量和效率显著优于传统方法。

VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%

量子位
量子位 · 2025-10-28T07:35:11Z

Thinking Machine的新研究提出了一种名为在线策略蒸馏的方法,结合强化学习与微调,显著提高小模型的训练效率,减少训练步骤50-100倍,适合资源有限的个人和小公司。同时,该方法有效解决了AI的“灾难性遗忘”问题,支持模型的终身学习。

Thinking Machine新研究刷屏!结合RL+微调,小模型训练更具性价比

量子位
量子位 · 2025-10-28T01:32:17Z
DeepSeek-V3.2-Exp:用稀疏注意力实现更高效的长上下文推理

DeepSeek-AI 发布了新模型 DeepSeek-V3.2-Exp,采用稀疏注意力机制(DSA),显著提升长文本任务的训练与推理效率。DSA 通过闪电索引器和细粒度令牌选择,降低计算复杂度,保持模型性能。模型训练分为密集预热和稀疏训练阶段,使用大量上下文数据。测试结果显示,V3.2-Exp 在多项任务中表现稳定,推理成本显著降低,未来将进行大规模真实场景测试。

DeepSeek-V3.2-Exp:用稀疏注意力实现更高效的长上下文推理

我爱自然语言处理
我爱自然语言处理 · 2025-09-30T01:01:43Z

新智慧游戏与天禄电子竞技俱乐部签署战略合作协议,共同开发“专属AI教练”GameSkill,以提升职业战队的训练效率,助力备战国际赛事,推动电竞行业智能化升级。

AI教练GameSkill,首次助力职业战队备战国际电竞赛事

量子位
量子位 · 2025-09-28T03:33:43Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码