小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
在日常设备上实现隐私保护的人工智能训练

麻省理工学院的研究人员开发了一种新方法,提升了联邦学习的效率,使其在资源有限的设备上更快地训练人工智能模型。该方法通过减少内存需求和通信负担,加速训练过程,平均提高了81%的速度。这项技术有望在医疗和金融等高风险领域应用,同时保护用户数据安全。

在日常设备上实现隐私保护的人工智能训练

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2026-04-29T04:00:00Z
ParaRNN:大规模非线性递归神经网络,可并行训练

苹果研究人员提出了ParaRNN框架,显著提高了非线性递归神经网络(RNN)的训练效率,实现了大规模并行训练。该方法使得7亿参数的RNN在语言建模任务中表现出与变换器相当的性能,且通过引入牛顿法,ParaRNN在保持非线性表达能力的同时实现了高效的并行计算。这一进展为RNN的广泛应用和进一步研究提供了新的可能性。

ParaRNN:大规模非线性递归神经网络,可并行训练

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-23T00:00:00Z
全球最大规模含触觉数据集,凭什么吸引谷歌和众多高校的加入?

戴盟机器人联合多家顶尖机构发布了全球最大的触觉全模态数据集Daimon Infinity,旨在提升具身智能的训练效率。该数据集包含触觉和视觉等多维信息,预计年内达到数百万小时,助力机器人在复杂环境中精准操作。触觉数据的引入显著提高了模型的训练效果,推动行业标准化和资源共享,加速具身智能的商业化进程。

全球最大规模含触觉数据集,凭什么吸引谷歌和众多高校的加入?

量子位
量子位 · 2026-04-20T07:55:03Z
MixAtlas:面向多模态大模型中期训练的基于不确定性的数 据混合优化

MixAtlas是一种用于多模态大模型中期训练的数据混合优化框架,通过领域分解和小型代理模型提高样本效率和下游泛化能力。它在图像概念和任务监督两个方面分解训练数据,显著提升训练效率,实现3倍的收敛速度和2-5%的性能提升,尤其在文本丰富的基准测试中表现突出。

MixAtlas:面向多模态大模型中期训练的基于不确定性的数 据混合优化

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-16T00:00:00Z
SafetyPairs:通过反事实图像生成隔离安全关键图像特征

本文介绍了SafetyPairs框架,生成仅在安全特征上不同的图像对,以区分安全与不安全的图像。通过图像编辑模型进行针对性修改,构建了一个包含3020个图像的安全基准,提升了视觉语言模型的评估能力,并改善了轻量级模型的训练效率。

SafetyPairs:通过反事实图像生成隔离安全关键图像特征

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-24T00:00:00Z
马斯克下场点赞!Kimi 这篇论文撬动了大模型的「祖传地基」

Kimi团队的《Attention Residuals》报告改进了残差连接结构,显著提升了大模型的训练效率。在相同算力下,该方法的效果相当于基线模型1.25倍算力的成果,获得硅谷AI界的认可,标志着深度学习基础范式的变革。

马斯克下场点赞!Kimi 这篇论文撬动了大模型的「祖传地基」

爱范儿
爱范儿 · 2026-03-18T09:30:39Z
ReSyn:自动生成1000个推理环境,让AI学会真正的思考!

ReSyn是卡内基梅隆大学与AWS团队开发的工具,旨在自动生成推理环境,使AI能够在无监督下学习推理。该工具降低了标注成本,提高了训练效率,实验表明性能提升达27%。未来,AI将能够自我进化,生成更多样化的环境。

ReSyn:自动生成1000个推理环境,让AI学会真正的思考!

Micropaper
Micropaper · 2026-02-28T14:45:00Z
PaddleFormers驱动:最少国产算力完成DeepSeek-V3(671B)全参数微调实践

近期,基于PaddleFormers v1.0,在昆仑芯P800上成功完成DeepSeek-V3模型的全参数微调,验证了超大规模模型的可控性及优化训练效率。通过混合并行训练策略和多硬件算子验证工具,显著提升了算力利用效率,并总结了显存管理、长序列输入处理及负载均衡等关键技术,为未来大规模模型训练提供了参考。

PaddleFormers驱动:最少国产算力完成DeepSeek-V3(671B)全参数微调实践

百度大脑
百度大脑 · 2026-02-27T14:30:51Z
何恺明团队新作GeoPT,全新预训练范式让模型自学真实物理规律

何恺明团队的GeoPT提出了一种新预训练范式,通过合成动力学将静态几何转化为动态空间,使模型能够在无标签数据上学习物理规律。该方法节省了20-60%的物理仿真数据,提高了训练效率和适应性,为物理仿真提供了新思路。

何恺明团队新作GeoPT,全新预训练范式让模型自学真实物理规律

量子位
量子位 · 2026-02-27T08:19:25Z
技能之夜:69,000+种智能代理变得更聪明的方式

在旧金山的技能之夜活动中,开发者展示了如何利用skills.sh生态系统提升智能代理能力。该项目起源于Shu Ding记录的React知识,现已发展至69000个技能和200万次安装。为应对安全问题,团队与多家安全公司合作进行审计。活动强调了技能在缩短训练时间和提升代理效率方面的重要性,以及提供正确上下文的必要性。

技能之夜:69,000+种智能代理变得更聪明的方式

Vercel News
Vercel News · 2026-02-20T13:00:00Z
Oxygen 9N-LLM生成式推荐训练框架

生成式推荐作为新兴推荐系统,提升了推荐多样性和复杂语义处理能力。京东九数算法团队开发的9N-LLM统一训练引擎,支持多框架和硬件,解决了训练效率和模型规模问题,推动生成式推荐的实际应用。该引擎通过优化样本处理、稀疏参数计算和强化学习流程,提高了训练效率和效果。

Oxygen 9N-LLM生成式推荐训练框架

京东科技开发者
京东科技开发者 · 2026-01-30T10:52:59Z
Meta详细介绍了GEM广告模型,采用大规模LLM训练、混合并行和知识转移

Meta推出生成广告模型(GEM),旨在提升广告推荐效果。该模型通过处理大量用户与广告的互动,解决推荐系统的挑战。GEM利用先进架构、知识转移和优化训练基础设施,提高性能,并支持广告主目标与用户行为。Meta还采用多种并行策略和GPU优化,提升训练效率,帮助广告主实现更精准的广告投放。

Meta详细介绍了GEM广告模型,采用大规模LLM训练、混合并行和知识转移

InfoQ
InfoQ · 2025-12-22T08:39:00Z
RL 后训练进化论:从PPO被动奖励、GRPO组内奖励到DeepSeekMath-V2自验证奖励

DeepSeek-R1展示了强化学习(RLHF)在大模型推理中的重要性,挑战了传统观念。通过去除Critic和采用组内统计方法,提升了训练效率,推动了RL后训练的变革,未来将向自我验证循环发展。

RL 后训练进化论:从PPO被动奖励、GRPO组内奖励到DeepSeekMath-V2自验证奖励

逐水寻源
逐水寻源 · 2025-11-28T14:00:22Z

清华与快手团队推出的SVG模型在训练效率上提升6200%,生成速度提升3500%。该模型通过构建语义与细节融合的特征空间,解决了VAE的语义纠缠问题,支持多任务通用,生成质量和效率显著优于传统方法。

VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%

量子位
量子位 · 2025-10-28T07:35:11Z

Thinking Machine的新研究提出了一种名为在线策略蒸馏的方法,结合强化学习与微调,显著提高小模型的训练效率,减少训练步骤50-100倍,适合资源有限的个人和小公司。同时,该方法有效解决了AI的“灾难性遗忘”问题,支持模型的终身学习。

Thinking Machine新研究刷屏!结合RL+微调,小模型训练更具性价比

量子位
量子位 · 2025-10-28T01:32:17Z
DeepSeek-V3.2-Exp:用稀疏注意力实现更高效的长上下文推理

DeepSeek-AI 发布了新模型 DeepSeek-V3.2-Exp,采用稀疏注意力机制(DSA),显著提升长文本任务的训练与推理效率。DSA 通过闪电索引器和细粒度令牌选择,降低计算复杂度,保持模型性能。模型训练分为密集预热和稀疏训练阶段,使用大量上下文数据。测试结果显示,V3.2-Exp 在多项任务中表现稳定,推理成本显著降低,未来将进行大规模真实场景测试。

DeepSeek-V3.2-Exp:用稀疏注意力实现更高效的长上下文推理

我爱自然语言处理
我爱自然语言处理 · 2025-09-30T01:01:43Z

新智慧游戏与天禄电子竞技俱乐部签署战略合作协议,共同开发“专属AI教练”GameSkill,以提升职业战队的训练效率,助力备战国际赛事,推动电竞行业智能化升级。

AI教练GameSkill,首次助力职业战队备战国际电竞赛事

量子位
量子位 · 2025-09-28T03:33:43Z
参数与FLOPs:混合专家语言模型的最佳稀疏性扩展规律

研究表明,扩大语言模型的容量可以提升性能,主要通过增加模型参数和计算量来实现。稀疏专家混合模型(MoEs)在不显著增加计算量的情况下扩展参数数量。研究发现,在不同约束条件下,存在最佳稀疏水平,能够提高训练效率和模型性能,从而为MoEs的扩展提供了更深入的理解。

参数与FLOPs:混合专家语言模型的最佳稀疏性扩展规律

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-07T00:00:00Z

阿里云的PAI-TurboX通过优化数据处理和算子,显著提高了自动驾驶模型的训练和推理效率,缩短了训练时间。

阿里云推出自动驾驶模型训练推理加速框架,训练时间可缩短50%

量子位
量子位 · 2025-06-23T12:58:39Z
基于 LLamaFactory 和 EasyR1 打造一站式无代码大模型强化学习和部署平台 LLM Model Hub

大语言模型(LLMs)近年来发展迅速,但在微调和部署方面面临挑战。GRPO算法通过群组相对优势估计,解决了传统强化学习的内存和稳定性问题,提高了训练效率。EasyR1框架支持多种算法,优化大模型的训练,并结合Amazon SageMaker实现高效灵活的训练和部署。

基于 LLamaFactory 和 EasyR1 打造一站式无代码大模型强化学习和部署平台 LLM Model Hub

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-06-17T02:21:18Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码