小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
条件扩散中的组合泛化的局部机制

本文探讨了条件扩散模型的组合泛化能力,特别是长度泛化,即生成训练中未见过的对象图像。在CLEVR实验中,发现长度泛化在某些情况下可行,表明模型能够学习组合结构。研究表明,局部条件分数与组合泛化相关,成功的模型展现出局部条件分数,而失败的模型则没有。通过因果干预,可以在之前失败的模型中实现长度泛化。

条件扩散中的组合泛化的局部机制

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-28T00:00:00Z
条件扩散中的组合泛化的局部机制

本文探讨了条件扩散模型的组合泛化能力,特别是长度泛化,即生成比训练时更多物体的图像。研究发现,模型在某些情况下能够实现长度泛化,表明它们有时学习到组合结构。成功的CLEVR模型展示了局部条件分数,而失败的模型则没有。强制局部条件分数的干预可以恢复失败模型的长度泛化能力。

条件扩散中的组合泛化的局部机制

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-09T00:00:00Z

本研究提出了一个理论框架,探讨大型语言模型在下一个标记预测任务中的长度泛化问题,发现每个预测标记依赖于固定数量的前置标记,并提出了“预测位置耦合”方法以提升模型的泛化能力。

The Role of Sparsity in Length Generalization of Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-24T00:00:00Z
啊!DeepSeek-R1、o3-mini能解奥数题却算不了多位数乘法?

研究团队发现,通过“递归式自我提升”方法,Transformer模型在多位数乘法上显著提高了准确度,解决了长度泛化问题。实验表明,经过自我改进后,模型在9位数乘法上几乎完美,10位数乘法表现良好。

啊!DeepSeek-R1、o3-mini能解奥数题却算不了多位数乘法?

机器之心
机器之心 · 2025-02-14T02:24:45Z

本研究分析了语言模型在长度泛化方面的局限,提出傅里叶位置嵌入(FoPE)以增强注意力机制的周期扩展能力。实验结果显示,FoPE在不同上下文窗口下具有更稳定的困惑度和一致的准确性。

Fourier Position Embedding: Enhancing Periodic Extension of Attention for Length Generalization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-23T00:00:00Z

本研究探讨了自回归变换器基础的文本到语音模型在处理未见长序列时的鲁棒性和长度泛化问题。提出了一种改进方法,通过对齐机制和相对位置信息增强,提升输出的自然性和表达力,解决了重复或丢失单词的问题。

Very Attentive Tacotron: Robustness and Unbounded Length Generalization in Autoregressive Transformer-Based Speech Synthesis

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z

本文研究了解码器Transformer模型在不同位置编码下的长度泛化能力,发现NoPE方法表现优于其他方法,且无需额外计算。相对位置嵌入在简单任务中有效,但在乘法任务中失败。通过引入训练集引导和注意力偏置校准,模型在算术任务上实现了更好的长度泛化。适当的数据格式和位置编码组合显著提升了Transformer在未知长度输入上的表现。

算术变压器可以在操作数长度和数量上实现长度泛化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-21T00:00:00Z

本研究探讨了大型语言模型在长度泛化方面的能力,提出了统一框架以改善其在算术推理任务中的表现。通过结合上下文学习和记事本提示,发现模型能够有效推广到更长输入。研究分析了影响长度泛化的因素,并提出了注意力偏置校准(ABC)方法,显著提升了模型在未知长度上的性能。

图灵程序的通用长度泛化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-03T00:00:00Z

本文研究了基于解码器的Transformer模型在不同位置编码方式下对长度泛化的影响。发现NoPE方法在推理和数学任务中表现更优秀,且无需额外计算。同时,scratchpad对解决长度泛化问题并不总是有帮助,其格式对模型性能有很大影响。研究表明解码器-only的Transformer不一定需要显式的位置嵌入以在更长序列上泛化良好。

Transformer 中的位置编码初始化对关系推理的重要性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-12T00:00:00Z

本文研究了基于解码器的Transformer模型在不同位置编码方式下对长度泛化的影响。发现NoPE方法在推理和数学任务中表现更优秀,且无需额外计算。同时,scratchpad对解决长度泛化问题并不总是有帮助,其格式对模型性能有很大影响。研究表明解码器-only的Transformer在更长序列上不一定需要显式的位置嵌入。

CAPE:用于长度推断的上下文自适应位置编码

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-23T00:00:00Z

本文研究了基于解码器的Transformer模型在不同位置编码方式下对长度泛化的影响,发现NoPE表现更优且无需额外计算。同时,scratchpad对解决长度泛化问题并不总是有帮助,其格式对模型性能有很大影响。表明解码器-only的Transformer不一定需要显式的位置嵌入以在更长序列上泛化良好。

时间序列预测中位置编码的引人注目特性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-16T00:00:00Z

本文研究了基于解码器的Transformer模型在不同位置编码方式下对长度泛化的影响。发现NoPE方法在推理和数学任务中表现更优秀,且无需额外计算。同时,scratchpad对解决长度泛化问题并不总是有帮助,其格式对模型性能有很大影响。研究表明解码器-only的Transformer在更长序列上不一定需要显式的位置嵌入。

通过位置编码比较图变换器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-22T00:00:00Z

本文研究了基于解码器的Transformer模型在不同位置编码方式下对长度泛化的影响。发现NoPE方法在推理和数学任务中表现更优秀,且无需额外计算。同时,scratchpad对解决长度泛化问题并不总是有帮助,其格式对模型性能有很大影响。研究表明解码器-only的Transformer不一定需要显式的位置嵌入以在更长序列上泛化良好。

双石击鸟:双层位置编码实现更好的长度外推

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-29T00:00:00Z

本文研究了基于解码器的Transformer模型在不同位置编码方式下对长度泛化的影响,发现NoPE表现更优秀且无需额外计算。同时,scratchpad对解决长度泛化问题并不总是有帮助,其格式对模型性能有很大影响。解码器-only的Transformer不一定需要显式的位置嵌入以在更长序列上泛化良好。

Transformer 长度外推:以位置编码为视角的调查

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-28T00:00:00Z

本文研究了基于解码器的Transformer模型在使用不同位置编码方式时对长度泛化的影响。发现NoPE表现更优秀,且无需额外计算。同时,scratchpad并不总是有助于解决长度泛化问题,其格式对模型性能有很大影响。表明解码器-only的Transformer不一定需要显式的位置嵌入以在更长的序列上泛化良好。

注意力对齐和灵活位置嵌入改进了 Transformer 长度外推

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-01T00:00:00Z

本文研究了基于解码器的Transformer模型在使用不同位置编码方式时对长度泛化的影响。发现NoPE表现更优秀,无需额外计算,能代表绝对和相对位置嵌入。但在使用SGD训练时,主要呈现T5相对位置嵌入的注意力模式。同时,scratchpad并不总是有助于解决长度泛化问题,其格式对模型性能有很大影响。表明解码器-only的Transformer不一定需要显式的位置嵌入以在更长的序列上泛化良好。

位置编码的局部性与对称性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-19T00:00:00Z

本文研究了transformer模型在学习算术算法方面的能力,并确定了实现最佳长度泛化的关键因素。通过有针对性的注意力偏置和注意力偏置校准阶段,模型能够自动学习适当的注意力偏置,达到前所未有的完美长度广义。

从插值到外推:算术 Transformer 的完全长度概括

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-18T00:00:00Z

本文研究了基于解码器的Transformer模型在使用不同位置编码方式时对长度泛化的影响。发现NoPE表现更优秀,无需额外计算,能代表绝对和相对位置嵌入。但在使用SGD训练时,主要呈现T5相对位置嵌入的注意力模式。同时,scratchpad并不总是有助于解决长度泛化问题,其格式对模型性能有很大影响。表明解码器-only的Transformer不一定需要显式的位置嵌入以在更长的序列上泛化良好。

相对位置的功能内插改进长上下文 Transformer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-06T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码