本研究提出了一种“思维痕迹提示”方法,旨在提升小型语言模型在算术推理中的能力,减少对大型模型的依赖。研究结果表明,该方法使小型模型的性能提升可达125%,展示了开源模型的潜力。
本研究探讨KV缓存压缩对大语言模型的影响,发现不同压缩方法在特定任务上表现差异,尤其在算术推理任务中影响显著。提出的新方法ShotKV在激进压缩下,提升了长上下文生成任务的性能9%-18%。
本研究提出了一种新颖的提示边际化方法,旨在提升大型语言模型在推理任务中的表现。该方法通过迭代采样策略,在多个算术推理基准数据集上超越了现有策略。
本研究针对解码器 Transformers 在复杂推理任务中的表现问题,提出了顺序方差-协方差正则化(Seq-VCR),显著提升了算术推理性能,$5 imes 5$ 整数相乘任务的准确率达到了 $99.5\\%$。
本研究探讨大型语言模型在算术推理中的机制,发现其正确答案依赖于实现简单启发式的神经元,这些启发式组合是模型算术准确性的关键。
通过CALM的组合方法,将基础模型与特定模型相结合,赋予其新的能力。实验证明,将PaLM2-S与较小模型相结合,在英语翻译和低资源语言的算术推理等任务中有13%的绝对改进;将PaLM2-S与特定于代码的模型相结合,在代码生成和解释任务上有40%的性能提升。
完成下面两步后,将自动完成登录并继续当前操作。