小红花·文摘

nanobot-rl

plus studio ·

本文提出了一种自适应纠正采样（AR-Sampling）方法，解决了传统测试中的代币浪费和可读性降低问题。实验结果表明，AR-Sampling在GSM8K和MATH500数据集上有效提升了模型性能。

Adaptive Corrective Sampling for Test-Time Computation Scaling

BriefGPT - AI 论文速递 ·

Faster than GRPO by 8 Times on GSM8K! Xiamen University Proposes CPPO, Making Reinforcement Learning Lightning Fast

机器之心 ·

本研究提出了一种新方法，通过整合多个领域专用的大规模语言模型，解决推理任务中的表现不一致问题。引入比率偏态自适应融合技术，显著提高了GSM8K、MATH和HumanEval任务的准确率。

InfiFusion: A Unified Framework for Enhanced Cross-Model Reasoning via Large-Scale Language Model Fusion

BriefGPT - AI 论文速递 ·

本文介绍了一个包含8.5K小学数学问题的数据集GSM8K，探讨了提升多步推理模型性能的方法，包括使用验证器和奖励模型。研究表明，自我纠正训练和自然语言反馈显著提高了模型在数学推理任务中的准确性。Eurus模型在多个基准测试中表现优异，展示了其在复杂推理任务中的潜力。

生成验证器：将奖励建模作为下一标记预测

BriefGPT - AI 论文速递 ·

本文介绍了高质量的小学数学问题数据集GSM8K，指出大型变压器模型在多步数学推理中的表现不佳。提出通过验证器提高模型性能，利用自动生成的形式化代码排除不一致解，准确性提升超过12%。还探讨了自然逻辑运算符的应用和自我纠正训练在数学证明和推理中的有效性。

好与坏的原因：朝着更好的数学验证器与自然语言反馈

BriefGPT - AI 论文速递 ·

评价基准在人工智能研讨中的重要性及其相关论文，如GLUE/SuperGLUE、MMLU、GSM8K、MATH和HumanEval。评价基准应具备样本数充足、高质量、易于理解、运转简便和有意义的特点。LLM模型评价较困难，人工成对评分和模型生成的评价是新方向。评价主题决定关注度，测验集污染问题可通过揭露和私有测验集平衡解决。评价反映个人身份，投资评价基准对AI研讨人员有益。

评估基准在人工智能研究中的重要性

六虎 ·

对比提示显著提升了大语言模型在复杂推理中的能力，尤其是在算术和常识推理任务上。研究表明，零-shot对比提示使GPT-4在GSM8K和AQUA-RAT的准确率大幅提高。此外，元认知提示和问题细化提示等方法也有效改善了模型的推理能力。

在 GSM8K 上达到超过 97%：深入理解问题使 LLMs 成为完美的推理耠

BriefGPT - AI 论文速递 ·

研究人员开发了一种无需外部资源的训练方法，通过对输入引入扰动提高了准确性。使用GSM8K进行微调时，相比标准有监督微调提高了5%的准确性。与现有方法相结合，在不同质量和大小的数据集上分别提高了3%和1%的准确性。通过案例研究和定量分析，研究人员发现这种改进的机制可能为模型提供更好的支持。

掩盖思路：简单地掩盖部分推理步骤可以提高语言模型对数学推理的学习能力

BriefGPT - AI 论文速递 ·

本文介绍了TinyStories数据集和一种新的评估语言模型的方法，该数据集使用GPT-3.5和GPT-4生成，只包含3到4岁儿童通常理解的单词。使用TinyStories可以训练和评估小型语言模型，并引入新的评估范式来评估语言能力和多维度得分。这有助于低资源或专业领域的语言模型的发展和研究。

TinyGSM: 使用小型语言模型在 GSM8k 上达到 80% 以上

BriefGPT - AI 论文速递 ·

结果监督价值模型（OVM）使用结果监督来训练和优先排序步骤以获得准确的结论。它将多步骤推理转化为规划问题，提供了一种高效的解决方案。在GSM8K和24点游戏数据集上的实验结果显示了OVM的卓越性能。OVM-7B模型在大型语言模型中实现了13B参数的最新成就，为多步骤推理任务中训练验证器的结果监督提供了新的视角。

数学牧人：一种无需标签的逐步验证器，用于数学推理中的 LLMs

BriefGPT - AI 论文速递 ·