小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
苹果在ICLR 2026的机器学习研究

苹果在ICLR 2026会议上展示了多项机器学习研究,包括高效的递归神经网络训练、状态空间模型工具、统一的多模态模型Manzano,以及蛋白质折叠的新方法SimpleFold。这些研究旨在推动AI和ML领域的进步,并支持相关社区。

苹果在ICLR 2026的机器学习研究

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-22T00:00:00Z
新技术使人工智能模型在学习过程中更加精简和快速

麻省理工学院等研究团队开发的CompreSSM方法在训练过程中压缩人工智能模型,避免了传统方法的性能损失。该方法通过控制理论识别模型的重要部分,提前剔除无用组件,使模型训练更小更快。研究显示,压缩模型在图像分类任务中保持了接近原始模型的准确性,训练速度提高了1.5倍。CompreSSM为现代状态空间模型的压缩提供了理论基础,未来有望成为标准方法。

新技术使人工智能模型在学习过程中更加精简和快速

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL)
MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) · 2026-04-09T13:00:00Z

Mamba是一种新型选择性状态空间模型,优化了长序列数据处理,推理速度比Transformer快5倍,支持跨模态应用。Rust实现的Mamba-RS具备高效的推理和训练能力,并支持CUDA加速,适用于多种场景。

【Rust日报】2026-03-21 Mamba-RS: Rust实现的Mamba选择性状态空间模型

Rust.cc
Rust.cc · 2026-03-27T06:34:15Z
超越无限:工具使用解锁状态空间模型中的长度泛化

状态空间模型(SSMs)在序列建模中逐渐取代变换器,因其在长上下文生成中的高效性。研究表明,通过与外部工具互动,SSMs能够克服在“真正的长形式”生成中的局限,实现任意问题长度的泛化。这表明SSMs在交互式工具应用中可能成为变换器的高效替代方案。

超越无限:工具使用解锁状态空间模型中的长度泛化

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-27T00:00:00Z
MemMamba:重新思考状态空间模型中的记忆模式

MemMamba是一种新型状态空间模型,解决了长序列建模中的记忆衰退问题。它通过模仿人类记笔记的方式,引入动态记忆提取和跨层注意力机制,显著提升了长序列的处理能力和检索准确率。

MemMamba:重新思考状态空间模型中的记忆模式

Micropaper
Micropaper · 2026-03-02T03:45:00Z

苹果的新研究表明,基于状态空间模型的Mamba在Agent任务中超越了Transformer,具备更高的效率和泛化能力。Mamba通过持续更新内部状态,计算量线性增长,支持流式处理且内存占用稳定。引入外部工具后,Mamba在复杂任务中的表现显著提升,显示出在Agent场景中有潜力取代Transformer。

苹果AI选Mamba:Agent任务比Transformer更好

量子位
量子位 · 2025-10-21T06:01:35Z
状态空间模型可以在低功耗边缘计算中启用人工智能

在2025年嵌入式视觉峰会上,BrainChip首席技术官Tony Lewis介绍了状态空间模型(SSM),该模型在低功耗环境中实现了大语言模型(LLM)能力。SSM通过仅利用最后一个令牌生成输出,克服了变压器模型的上下文限制。BrainChip的TENN模型在0.5瓦特下运行,具有1亿参数,能在100毫秒内返回结果,展现了在边缘设备上的应用潜力。

状态空间模型可以在低功耗边缘计算中启用人工智能

InfoQ
InfoQ · 2025-07-24T14:00:00Z

Mamba探讨了状态空间模型(SSMs)与Transformer的优劣,指出Attention并非万能,SSMs在处理长序列信息时更具优势。Mamba在同规模下超越Transformer,强调混合模型的潜力,未来可能结合两者优势开发新架构。

Mamba一作预告新架构!长文论述Transformer≠最终解法

量子位
量子位 · 2025-07-09T05:14:41Z
理解Mamba中的输入选择性

Mamba是一种新兴的状态空间模型,改进了输入选择性、卷积和门控功能。研究表明,Mamba在函数近似、长期记忆和联想回忆方面表现优越,尤其在处理不连续函数时优于S4D。

理解Mamba中的输入选择性

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-04T00:00:00Z
状态空间模型解决幻觉问题:状态空间模型如何在竞争中脱颖而出

变压器模型因优先生成统计文本而常常出现幻觉,导致事实不准确。状态空间模型(SSMs)通过逐步处理信息,提供更可靠的准确性和上下文理解。案例研究表明,SSMs在实际应用中表现优异,能减少错误并提高效率,尤其在处理复杂问题和长文本时。未来SSMs可能在AI搜索中取代变压器。

状态空间模型解决幻觉问题:状态空间模型如何在竞争中脱颖而出

InfoQ
InfoQ · 2025-06-24T11:00:00Z

本研究评估了状态空间模型(SSMs)在语言模型中的信息回忆表现。结果显示,只有变压器和基于SSM的模型在联想记忆任务中表现优异,其他SSMs因机制差异未能成功,强调了机械评估的重要性。

变压器与状态空间模型的机制评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了一种新算法,优化了状态空间模型在推测解码中的令牌树计算问题。该算法通过改进状态转移矩阵,提高了SSM与变压器层混合架构的推测解码效率,实验结果表明其在多个基准上优于传统方法。

STree:用于混合状态空间模型的推测树解码

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z
40% 更小的语言模型:群体修剪提升混合变换器-状态空间模型的效率

该研究提出了一种新技术,通过修剪状态空间组件来压缩大型语言模型,结合变换器和状态空间模型(SSM)架构,实现了高达40%的压缩,同时保持性能。引入了适用于多种模型尺寸和任务的群体感知修剪方法,专门针对Mamba模型。

40% 更小的语言模型:群体修剪提升混合变换器-状态空间模型的效率

DEV Community
DEV Community · 2025-04-21T20:05:25Z

本文探讨了现代硬件下的模型架构设计,强调机器学习与系统的结合。随着计算能力和算法的进步,AI模型的性能不断提升。文章介绍了硬件感知算法的设计,特别是状态空间模型与注意力机制的结合,以优化内存使用和计算方式,从而显著提升推理表现,展示了新架构在视频生成等应用中的潜力。

现代硬件下的模型架构设计:Tri Dao

Josherich的博客
Josherich的博客 · 2025-04-21T00:00:01Z
更快的卫星变化检测:新型人工智能超越变压器

该研究提出了一种新模型,结合状态空间模型和Mamba架构的西阿米斯神经网络,能够自动检测卫星图像随时间的变化,其准确性和效率优于传统方法。

更快的卫星变化检测:新型人工智能超越变压器

DEV Community
DEV Community · 2025-04-19T00:04:26Z
Mamba M1:可扩展的高效推理降低计算成本30%

Mamba M1模型结合状态空间模型与变换器,实现高效推理,计算成本降低30%。该模型在可扩展性和动态推理路径选择方面表现优异。

Mamba M1:可扩展的高效推理降低计算成本30%

DEV Community
DEV Community · 2025-04-19T00:02:03Z

本研究提出一种新方法,将多变量模式分析与状态空间模型结合,以解析脑电图数据中的认知策略,揭示“确认”操作与决策准确性及思维变化之间的关系。

Sequence Models for Decoding Cognitive Strategies from Trial-Based Neural Data

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z
参数仅需12万分之一,训练只需2块GPU,MIT、哈佛推出生物序列建模新方法Lyra

Lyra是一种新型生物序列建模架构,结合状态空间模型和投影门控卷积,显著提升推理速度和计算效率。它在100多个生物任务中表现优异,参数减少至现有模型的1/120,000,训练时间仅需数小时。

参数仅需12万分之一,训练只需2块GPU,MIT、哈佛推出生物序列建模新方法Lyra

机器之心
机器之心 · 2025-03-27T04:00:00Z

本研究提出了一种名为SaMam的图像风格转移框架,基于改进的状态空间模型Mamba,能够高效提取内容与风格信息,解决计算复杂性和局部像素遗忘问题。实验结果表明,其在准确性和效率上优于现有方法。

SaMam: A Style-Aware State Space Model for Arbitrary Image Style Transfer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出了一种新方法,通过并行训练状态空间模型,加速基于模型的强化学习。在真实世界的四旋翼飞行任务中,该方法将训练时间减少最多10倍,整体训练时间减少最多4倍,同时保持样本效率和任务奖励。

Accelerating Model-Based Reinforcement Learning with State-Space World Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码