Apple Machine Learning Research ·

超越无限：工具使用解锁状态空间模型中的长度泛化

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

状态空间模型（SSMs）在序列建模中逐渐取代变换器，因其在长上下文生成中的高效性。研究表明，通过与外部工具互动，SSMs能够克服在“真正的长形式”生成中的局限，实现任意问题长度的泛化。这表明SSMs在交互式工具应用中可能成为变换器的高效替代方案。

🎯

🔎

状态空间模型（SSMs）在处理长上下文生成时展现出高效性，尤其是在固定内存和线性计算复杂度的支持下。然而，研究指出，SSMs在解决“真正的长形式”生成问题时存在局限性，这可能影响其在某些应用场景中的表现。

通过与外部工具的互动，SSMs能够克服其在长形式生成中的局限，实现任意长度的泛化。这一发现表明，适当选择工具和训练数据可以显著提升SSMs的能力，使其在多种任务中表现出色。

尽管变换器在序列建模中占据主导地位，但SSMs在交互式工具应用中可能成为更高效的替代方案。特别是在需要处理复杂问题时，SSMs的工具增强能力可能使其在某些领域超越变换器。

❓

SSMs在长上下文和长形式生成中的效率是其主要优势，得益于固定大小的内存和线性计算复杂度的扩展。

SSMs无法准确解决任何“真正的长形式”生成问题，这削弱了其竞争优势。

通过与外部工具的互动，SSMs能够克服局限性，实现任意问题长度的泛化。

工具增强的SSMs在多种算术、推理和编码任务中表现出显著的长度泛化能力。

这些发现表明，SSMs在交互式工具应用中可能成为变换器的高效替代方案。

给定合适的工具选择和问题相关的训练数据，SSMs可以学习解决任何可处理的问题，并实现长度泛化。

🏷️