本文探讨了位置编码在处理不同长度序列时的插值和外推方法。正弦编码和RoPE能够轻松进行外推,而学习编码仅支持插值。YaRN方法通过不均匀缩放RoPE频率,提升了模型在长序列上的表现,使其能够在不重新训练的情况下处理更长的输入序列。
本文研究了扩散模型中组合的理论基础,重点分析了分布外外推和长度泛化。尽管已有研究表明线性评分组合效果良好,但对其工作原理的理解仍不够深入。本文定义了“投影组合”的期望结果,并探讨了线性评分组合何时能实现该结果、反向扩散采样是否能生成所需组合,以及组合失败的条件。最后,将理论分析与以往的实证观察相结合。
本研究提出了一种新的seqKAN网络架构,旨在提高序列处理网络的解释性和可控性。该架构在复杂物理问题的插值和外推任务中表现优异,尤其在外推数据集上显著优于其他架构,具有更高的透明性。
本文探讨了学习支持外推的挑战,提出了一种新技术“时间上下文归一化”,显著提升了外推能力。研究表明,深度学习模型在处理不完整数据时具有更强的推广能力。提出的NeuralThink架构在对称和不对称任务中均优于传统方法。
大型语言模型(LLMs)如GPT-3和LLaMA-2可以通过将时间序列编码为数字字符串来外推时间序列,性能与专用时间序列模型相当。LLMs能够自然地表示多模态分布,处理缺失数据,容纳文本边信息,并回答问题以帮助解释预测。增加模型大小通常会提高时间序列的性能,但GPT-4可能比GPT-3表现更差。
大型语言模型(LLMs)如 GPT-3 和 LLaMA-2 可以通过编码时间序列为数字字符串来外推时间序列,性能与专用时间序列模型相当。LLMs 能够自然地表示多模态分布,处理缺失数据,容纳文本边信息,并回答问题以帮助解释预测。增加模型大小通常提高时间序列性能,但 GPT-4 可能比 GPT-3 表现更差。
完成下面两步后,将自动完成登录并继续当前操作。