小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

该论文研究了状态空间模型(SSMs)的上下文学习能力,并提出了可能的潜在机制的理论解释。通过引入新的权重构造,使得SSMs能够预测任何动态系统的下一个状态,无需参数微调。实证方法证明了该参数化方法的有效性。

朝着有效建模字符串动力学:状态空间与基于Koopman的深度学习方法的比较

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

选择性状态空间模型(SSMs)如Mamba克服了Transformer的一些缺点,但在需要复制或上下文学习能力的任务上落后。然而,Mamba-2-Hybrid在12个标准任务上超过了Transformer,并且在生成推理标记时速度最多快8倍。混合模型在额外的长期上下文任务中继续匹配或超越了Transformer。

PackMamba: Mamba 训练中可变长度序列的高效处理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-07T00:00:00Z

本文介绍了适用于大型语言模型的概念“适用性授权”,并提出了ICLGuard方法来管理模型在不同数据上的行为。实证结果显示,经过保护的语言模型可以在目标数据上取消上下文学习能力,而不影响其他数据上的能力和总体功能。

ICLGuard:应用适用性授权的上下文学习行为控制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-09T00:00:00Z

选择性状态空间模型(SSMs)如Mamba克服了Transformer的一些缺点,但在复制和上下文学习能力任务上落后。然而,Mamba-2-Hybrid在12个标准任务上超过了Transformer,生成推理标记速度最多快8倍。混合模型在额外的长期上下文任务中紧密匹配或超越了Transformer。

状态空间模型在机器翻译中的有效性如何?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-07T00:00:00Z

选择性状态空间模型(SSMs)如Mamba克服了Transformer的一些缺点,但在复制和上下文学习能力任务上落后。然而,Mamba-2-Hybrid在12个标准任务上超过了Transformer,并且在生成推理标记时速度最多快8倍。混合模型在额外的长期上下文任务中继续匹配或超越了Transformer。

探索未知领域:从 Transformer 到 Mamba 的导航指南

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-24T00:00:00Z

选择性状态空间模型(SSMs)如Mamba克服了Transformer的一些缺点,但在复制或上下文学习能力强的任务上落后。然而,Mamba-2-Hybrid在12个标准任务上超过了Transformer,并且在生成推理标记时速度最多快8倍。混合模型在额外的长期上下文任务中继续匹配或超越了Transformer。

OTCE:混合 SSM 和注意力机制,通过跨领域专家混合构建观察者 - 思考者 - 构思者 - 表达耠

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-24T00:00:00Z

选择性状态空间模型(SSMs)如Mamba克服了Transformer的一些缺点,但在需要强大的复制或上下文学习能力的任务上落后于Transformer。然而,Mamba-2-Hybrid在12个标准任务上超过了Transformer,并且在生成推理标记时速度最多快8倍。在额外的长期上下文任务中,混合模型继续紧密匹配或超越了Transformer。

DeciMamba: 探索 Mamba 的长度外推潜能

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-20T00:00:00Z

本文介绍了一种将知识图谱与问答任务集成的新方法,提高了大语言模型的上下文学习能力和可解释性,为可解释 AI 领域做出贡献。

CoXQL:用于解析会话式 XAI 系统中的解释请求的数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-12T00:00:00Z

本文研究了大型语言模型的上下文学习能力,通过马尔可夫链序列建模任务揭示了变压器层之间的交互作用对成功学习的影响,并探讨了马尔可夫链的先验分布和上下文学习的拓展。

感应头需要什么才能正常工作:关于上下文学习电路及其形成的机制研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-10T00:00:00Z

研究探讨了Transformer模型在上下文中学习的能力,结果显示其在选择无监督模型和学习不同任务方面表现出优秀的能力。然而,当面对超出预训练数据领域的任务时,Transformer的泛化能力会退化。研究结果强调了高容量序列模型的上下文学习能力与预训练数据的覆盖范围相关。

多任务训练如何影响 Transformer 的上下文能力?对功能类别的研究调查

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-04T00:00:00Z

该研究探讨了Transformer模型在上下文学习中的能力,发现其在选择无监督模型和学习不同任务方面表现出近乎最优的能力。然而,当面对超出预训练数据领域的任务或功能时,Transformer的泛化能力会退化。研究结果强调了高容量序列模型的上下文学习能力与预训练数据组合的覆盖范围密切相关。

基于变压器模型的回归混合模型的最优学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-14T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码