小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
位置编码中的插值及YaRN在更大上下文窗口中的应用

本文探讨了位置编码在处理不同长度序列时的插值和外推方法。正弦编码和RoPE能够轻松进行外推,而学习编码仅支持插值。YaRN方法通过不均匀缩放RoPE频率,提升了模型在长序列上的表现,使其能够在不重新训练的情况下处理更长的输入序列。

位置编码中的插值及YaRN在更大上下文窗口中的应用

MachineLearningMastery.com
MachineLearningMastery.com · 2025-06-17T05:00:10Z
扩散模型的投影组合机制

本文研究了扩散模型中组合的理论基础,重点分析了分布外外推和长度泛化。尽管已有研究表明线性评分组合效果良好,但对其工作原理的理解仍不够深入。本文定义了“投影组合”的期望结果,并探讨了线性评分组合何时能实现该结果、反向扩散采样是否能生成所需组合,以及组合失败的条件。最后,将理论分析与以往的实证观察相结合。

扩散模型的投影组合机制

Apple Machine Learning Research
Apple Machine Learning Research · 2025-05-01T00:00:00Z

本研究提出了一种新的seqKAN网络架构,旨在提高序列处理网络的解释性和可控性。该架构在复杂物理问题的插值和外推任务中表现优异,尤其在外推数据集上显著优于其他架构,具有更高的透明性。

seqKAN:使用科尔莫哥罗夫-阿诺德网络进行序列处理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本文探讨了学习支持外推的挑战,提出了一种新技术“时间上下文归一化”,显著提升了外推能力。研究表明,深度学习模型在处理不完整数据时具有更强的推广能力。提出的NeuralThink架构在对称和不对称任务中均优于传统方法。

插值、外推与超插值:向新维度推广

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

大型语言模型(LLMs)如GPT-3和LLaMA-2可以通过将时间序列编码为数字字符串来外推时间序列,性能与专用时间序列模型相当。LLMs能够自然地表示多模态分布,处理缺失数据,容纳文本边信息,并回答问题以帮助解释预测。增加模型大小通常会提高时间序列的性能,但GPT-4可能比GPT-3表现更差。

利用大规模语言模型增强时间序列分析:综述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-05T00:00:00Z

大型语言模型(LLMs)如 GPT-3 和 LLaMA-2 可以通过编码时间序列为数字字符串来外推时间序列,性能与专用时间序列模型相当。LLMs 能够自然地表示多模态分布,处理缺失数据,容纳文本边信息,并回答问题以帮助解释预测。增加模型大小通常提高时间序列性能,但 GPT-4 可能比 GPT-3 表现更差。

论文:大型语言模型对时间序列分析的启示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-05T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码