小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
nanobot-rl

本文讨论了一种简化版的GRPO算法,结合REINFORCE特性,专注于GSM8K问题的强化学习。该方法不依赖于价值网络、KL正则化或PPO剪切,而是通过规则奖励进行优化。数据流包括生成回答、计算均值基线和优势,目标是最大化期望回报。整体设计旨在降低显存占用,但可能导致更大的梯度方差。

nanobot-rl

plus studio
plus studio · 2026-01-18T00:00:00Z

本文提出了一种自适应纠正采样(AR-Sampling)方法,解决了传统测试中的代币浪费和可读性降低问题。实验结果表明,AR-Sampling在GSM8K和MATH500数据集上有效提升了模型性能。

Adaptive Corrective Sampling for Test-Time Computation Scaling

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z
Faster than GRPO by 8 Times on GSM8K! Xiamen University Proposes CPPO, Making Reinforcement Learning Lightning Fast

厦门大学研究团队提出新算法CPPO(完成剪枝策略优化),旨在加速GRPO(组相对策略优化)训练。CPPO通过剪枝低优势的完成结果,减少计算量,提高训练效率。实验表明,CPPO在保持准确度的同时,训练速度比GRPO快8.32倍,具有良好的稳定性和收敛性,适合大规模推理模型训练。

Faster than GRPO by 8 Times on GSM8K! Xiamen University Proposes CPPO, Making Reinforcement Learning Lightning Fast

机器之心
机器之心 · 2025-04-01T03:54:55Z

本研究提出了一种新方法,通过整合多个领域专用的大规模语言模型,解决推理任务中的表现不一致问题。引入比率偏态自适应融合技术,显著提高了GSM8K、MATH和HumanEval任务的准确率。

InfiFusion: A Unified Framework for Enhanced Cross-Model Reasoning via Large-Scale Language Model Fusion

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-06T00:00:00Z

本文介绍了一个包含8.5K小学数学问题的数据集GSM8K,探讨了提升多步推理模型性能的方法,包括使用验证器和奖励模型。研究表明,自我纠正训练和自然语言反馈显著提高了模型在数学推理任务中的准确性。Eurus模型在多个基准测试中表现优异,展示了其在复杂推理任务中的潜力。

生成验证器:将奖励建模作为下一标记预测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-27T00:00:00Z

本文介绍了高质量的小学数学问题数据集GSM8K,指出大型变压器模型在多步数学推理中的表现不佳。提出通过验证器提高模型性能,利用自动生成的形式化代码排除不一致解,准确性提升超过12%。还探讨了自然逻辑运算符的应用和自我纠正训练在数学证明和推理中的有效性。

好与坏的原因:朝着更好的数学验证器与自然语言反馈

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-20T00:00:00Z

评价基准在人工智能研讨中的重要性及其相关论文,如GLUE/SuperGLUE、MMLU、GSM8K、MATH和HumanEval。评价基准应具备样本数充足、高质量、易于理解、运转简便和有意义的特点。LLM模型评价较困难,人工成对评分和模型生成的评价是新方向。评价主题决定关注度,测验集污染问题可通过揭露和私有测验集平衡解决。评价反映个人身份,投资评价基准对AI研讨人员有益。

评估基准在人工智能研究中的重要性

六虎
六虎 · 2024-05-30T00:03:04Z

对比提示显著提升了大语言模型在复杂推理中的能力,尤其是在算术和常识推理任务上。研究表明,零-shot对比提示使GPT-4在GSM8K和AQUA-RAT的准确率大幅提高。此外,元认知提示和问题细化提示等方法也有效改善了模型的推理能力。

在 GSM8K 上达到超过 97%:深入理解问题使 LLMs 成为完美的推理耠

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-23T00:00:00Z

研究人员开发了一种无需外部资源的训练方法,通过对输入引入扰动提高了准确性。使用GSM8K进行微调时,相比标准有监督微调提高了5%的准确性。与现有方法相结合,在不同质量和大小的数据集上分别提高了3%和1%的准确性。通过案例研究和定量分析,研究人员发现这种改进的机制可能为模型提供更好的支持。

掩盖思路:简单地掩盖部分推理步骤可以提高语言模型对数学推理的学习能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-04T00:00:00Z

本文介绍了TinyStories数据集和一种新的评估语言模型的方法,该数据集使用GPT-3.5和GPT-4生成,只包含3到4岁儿童通常理解的单词。使用TinyStories可以训练和评估小型语言模型,并引入新的评估范式来评估语言能力和多维度得分。这有助于低资源或专业领域的语言模型的发展和研究。

TinyGSM: 使用小型语言模型在 GSM8k 上达到 80% 以上

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-14T00:00:00Z

结果监督价值模型(OVM)使用结果监督来训练和优先排序步骤以获得准确的结论。它将多步骤推理转化为规划问题,提供了一种高效的解决方案。在GSM8K和24点游戏数据集上的实验结果显示了OVM的卓越性能。OVM-7B模型在大型语言模型中实现了13B参数的最新成就,为多步骤推理任务中训练验证器的结果监督提供了新的视角。

数学牧人:一种无需标签的逐步验证器,用于数学推理中的 LLMs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-14T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码