本文探讨了重用预训练数据在测试中的有效性。研究表明,通过检索增强生成和测试时计算,模型在MMLU、Math-500和SimpleQA等任务上的准确性显著提高。在MMLU上,预训练结合检索的方式实现了约5倍的计算增益,进一步的测试时计算可提升10个百分点。这表明当前预训练方法未充分利用现有数据集的信息,仍有改进空间。
本研究提出了一种统一的测试时计算扩展框架,旨在解决软件工程智能体在私有环境中的部署挑战。通过增加推理时计算而非使用更大模型,显著提高了代码推理性能,实验表明32B模型在问题解决率上达46%,超越了更大模型。
完成下面两步后,将自动完成登录并继续当前操作。