小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
苹果在ICLR 2026的机器学习研究

苹果在ICLR 2026会议上展示了多项机器学习研究,包括高效的递归神经网络训练、状态空间模型工具、统一的多模态模型Manzano,以及蛋白质折叠的新方法SimpleFold。这些研究旨在推动AI和ML领域的进步,并支持相关社区。

苹果在ICLR 2026的机器学习研究

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-22T00:00:00Z
新技术使人工智能模型在学习过程中更加精简和快速

麻省理工学院等研究团队开发的CompreSSM方法在训练过程中压缩人工智能模型,避免了传统方法的性能损失。该方法通过控制理论识别模型的重要部分,提前剔除无用组件,使模型训练更小更快。研究显示,压缩模型在图像分类任务中保持了接近原始模型的准确性,训练速度提高了1.5倍。CompreSSM为现代状态空间模型的压缩提供了理论基础,未来有望成为标准方法。

新技术使人工智能模型在学习过程中更加精简和快速

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL)
MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) · 2026-04-09T13:00:00Z

Mamba是一种新型选择性状态空间模型,优化了长序列数据处理,推理速度比Transformer快5倍,支持跨模态应用。Rust实现的Mamba-RS具备高效的推理和训练能力,并支持CUDA加速,适用于多种场景。

【Rust日报】2026-03-21 Mamba-RS: Rust实现的Mamba选择性状态空间模型

Rust.cc
Rust.cc · 2026-03-27T06:34:15Z
超越无限:工具使用解锁状态空间模型中的长度泛化

状态空间模型(SSMs)在序列建模中逐渐取代变换器,因其在长上下文生成中的高效性。研究表明,通过与外部工具互动,SSMs能够克服在“真正的长形式”生成中的局限,实现任意问题长度的泛化。这表明SSMs在交互式工具应用中可能成为变换器的高效替代方案。

超越无限:工具使用解锁状态空间模型中的长度泛化

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-27T00:00:00Z
MemMamba:重新思考状态空间模型中的记忆模式

MemMamba是一种新型状态空间模型,解决了长序列建模中的记忆衰退问题。它通过模仿人类记笔记的方式,引入动态记忆提取和跨层注意力机制,显著提升了长序列的处理能力和检索准确率。

MemMamba:重新思考状态空间模型中的记忆模式

Micropaper
Micropaper · 2026-03-02T03:45:00Z

苹果的新研究表明,基于状态空间模型的Mamba在Agent任务中超越了Transformer,具备更高的效率和泛化能力。Mamba通过持续更新内部状态,计算量线性增长,支持流式处理且内存占用稳定。引入外部工具后,Mamba在复杂任务中的表现显著提升,显示出在Agent场景中有潜力取代Transformer。

苹果AI选Mamba:Agent任务比Transformer更好

量子位
量子位 · 2025-10-21T06:01:35Z
状态空间模型可以在低功耗边缘计算中启用人工智能

在2025年嵌入式视觉峰会上,BrainChip首席技术官Tony Lewis介绍了状态空间模型(SSM),该模型在低功耗环境中实现了大语言模型(LLM)能力。SSM通过仅利用最后一个令牌生成输出,克服了变压器模型的上下文限制。BrainChip的TENN模型在0.5瓦特下运行,具有1亿参数,能在100毫秒内返回结果,展现了在边缘设备上的应用潜力。

状态空间模型可以在低功耗边缘计算中启用人工智能

InfoQ
InfoQ · 2025-07-24T14:00:00Z

Mamba探讨了状态空间模型(SSMs)与Transformer的优劣,指出Attention并非万能,SSMs在处理长序列信息时更具优势。Mamba在同规模下超越Transformer,强调混合模型的潜力,未来可能结合两者优势开发新架构。

Mamba一作预告新架构!长文论述Transformer≠最终解法

量子位
量子位 · 2025-07-09T05:14:41Z
理解Mamba中的输入选择性

Mamba是一种新兴的状态空间模型,改进了输入选择性、卷积和门控功能。研究表明,Mamba在函数近似、长期记忆和联想回忆方面表现优越,尤其在处理不连续函数时优于S4D。

理解Mamba中的输入选择性

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-04T00:00:00Z
状态空间模型解决幻觉问题:状态空间模型如何在竞争中脱颖而出

变压器模型因优先生成统计文本而常常出现幻觉,导致事实不准确。状态空间模型(SSMs)通过逐步处理信息,提供更可靠的准确性和上下文理解。案例研究表明,SSMs在实际应用中表现优异,能减少错误并提高效率,尤其在处理复杂问题和长文本时。未来SSMs可能在AI搜索中取代变压器。

状态空间模型解决幻觉问题:状态空间模型如何在竞争中脱颖而出

InfoQ
InfoQ · 2025-06-24T11:00:00Z

本研究评估了状态空间模型(SSMs)在语言模型中的信息回忆表现。结果显示,只有变压器和基于SSM的模型在联想记忆任务中表现优异,其他SSMs因机制差异未能成功,强调了机械评估的重要性。

变压器与状态空间模型的机制评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了一种新算法,优化了状态空间模型在推测解码中的令牌树计算问题。该算法通过改进状态转移矩阵,提高了SSM与变压器层混合架构的推测解码效率,实验结果表明其在多个基准上优于传统方法。

STree:用于混合状态空间模型的推测树解码

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z
40% 更小的语言模型:群体修剪提升混合变换器-状态空间模型的效率

该研究提出了一种新技术,通过修剪状态空间组件来压缩大型语言模型,结合变换器和状态空间模型(SSM)架构,实现了高达40%的压缩,同时保持性能。引入了适用于多种模型尺寸和任务的群体感知修剪方法,专门针对Mamba模型。

40% 更小的语言模型:群体修剪提升混合变换器-状态空间模型的效率

DEV Community
DEV Community · 2025-04-21T20:05:25Z

本文探讨了现代硬件下的模型架构设计,强调机器学习与系统的结合。随着计算能力和算法的进步,AI模型的性能不断提升。文章介绍了硬件感知算法的设计,特别是状态空间模型与注意力机制的结合,以优化内存使用和计算方式,从而显著提升推理表现,展示了新架构在视频生成等应用中的潜力。

现代硬件下的模型架构设计:Tri Dao

Josherich的博客
Josherich的博客 · 2025-04-21T00:00:01Z
更快的卫星变化检测:新型人工智能超越变压器

该研究提出了一种新模型,结合状态空间模型和Mamba架构的西阿米斯神经网络,能够自动检测卫星图像随时间的变化,其准确性和效率优于传统方法。

更快的卫星变化检测:新型人工智能超越变压器

DEV Community
DEV Community · 2025-04-19T00:04:26Z
Mamba M1:可扩展的高效推理降低计算成本30%

Mamba M1模型结合状态空间模型与变换器,实现高效推理,计算成本降低30%。该模型在可扩展性和动态推理路径选择方面表现优异。

Mamba M1:可扩展的高效推理降低计算成本30%

DEV Community
DEV Community · 2025-04-19T00:02:03Z

本研究提出一种新方法,将多变量模式分析与状态空间模型结合,以解析脑电图数据中的认知策略,揭示“确认”操作与决策准确性及思维变化之间的关系。

Sequence Models for Decoding Cognitive Strategies from Trial-Based Neural Data

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z
参数仅需12万分之一,训练只需2块GPU,MIT、哈佛推出生物序列建模新方法Lyra

Lyra是一种新型生物序列建模架构,结合状态空间模型和投影门控卷积,显著提升推理速度和计算效率。它在100多个生物任务中表现优异,参数减少至现有模型的1/120,000,训练时间仅需数小时。

参数仅需12万分之一,训练只需2块GPU,MIT、哈佛推出生物序列建模新方法Lyra

机器之心
机器之心 · 2025-03-27T04:00:00Z

本研究提出了一种名为SaMam的图像风格转移框架,基于改进的状态空间模型Mamba,能够高效提取内容与风格信息,解决计算复杂性和局部像素遗忘问题。实验结果表明,其在准确性和效率上优于现有方法。

SaMam: A Style-Aware State Space Model for Arbitrary Image Style Transfer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出了一种新方法,通过并行训练状态空间模型,加速基于模型的强化学习。在真实世界的四旋翼飞行任务中,该方法将训练时间减少最多10倍,整体训练时间减少最多4倍,同时保持样本效率和任务奖励。

Accelerating Model-Based Reinforcement Learning with State-Space World Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码