小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
mAceReason-Math:一个高质量的多语言数学问题数据集,支持强化学习与可验证奖励(RLVR)

mAceReason-Math是一个高质量的多语言数学问题数据集,支持强化学习与可验证奖励(RLVR)研究。该数据集包含来自AceReason-Math语料库的挑战性数学问题翻译,覆盖14种语言,每种语言超过10,000个样本,旨在提升多语言RLVR的研究和基准测试。

mAceReason-Math:一个高质量的多语言数学问题数据集,支持强化学习与可验证奖励(RLVR)

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-13T00:00:00Z
LightOnOCR-2-1B:基于 RLVR 训练实现高精度端到端 OCR;Google Streetview 国家街景图像:基于世界级地理映射技术的全景图像开源库

LightOn公司发布了LightOnOCR-2-1B模型,采用端到端视觉-语言架构,参数仅10亿,性能超过90亿参数模型,显著提升复杂文档处理效率,适用于多种应用场景。

LightOnOCR-2-1B:基于 RLVR 训练实现高精度端到端 OCR;Google Streetview 国家街景图像:基于世界级地理映射技术的全景图像开源库

HyperAI超神经
HyperAI超神经 · 2026-02-09T06:31:16Z
揭秘!RLVR/GRPO中那些长期被忽略的关键缺陷

AI Shortlist 是一个专注于人工智能的主题平台,提供最新的技术、应用和发展趋势,帮助用户了解AI的潜力与影响。

揭秘!RLVR/GRPO中那些长期被忽略的关键缺陷

机器之心
机器之心 · 2026-01-30T09:37:20Z
AI 大神 Karpathy 2025 年度总结刷屏:AI 既是天才也是智障,这 6 个转折最关键

OpenAI前联合创始人Karpathy总结了2025年大语言模型的发展,提出软件3.0时代的概念,强调AI的智能形态与人类不同,并在某些领域展现极端能力。他指出AI训练方法的变化,RLVR的引入使AI能够自我验证和进化。Karpathy认为未来AI将更深入地融入各行业,成为强大工具。

AI 大神 Karpathy 2025 年度总结刷屏:AI 既是天才也是智障,这 6 个转折最关键

爱范儿
爱范儿 · 2025-12-20T04:46:35Z
RLVR的力量:在Databricks上训练领先的SQL推理模型

在Databricks,我们通过可验证奖励的强化学习(RLVR)开发推理模型,解决客户问题并提升产品性能。在BIRD基准测试中,我们取得73.5%的新高,证明了RLVR的有效性和易用性,帮助用户更好地与数据互动。

RLVR的力量:在Databricks上训练领先的SQL推理模型

Databricks
Databricks · 2025-07-30T15:15:29Z

Claude 4的思考方式通过可验证奖励强化学习(RLVR)得到验证,未来将能够完成更复杂的任务。研究人员认为AI获得诺贝尔奖比普利策奖更容易,并强调反馈循环的重要性。同时,模型的自我意识和可解释性也在研究中,未来的智能体将能够独立完成复杂工作。

Claude 4如何思考?资深研究员回应:RLVR已在编程/数学得到验证

量子位
量子位 · 2025-05-24T06:38:50Z
RLVR并未扩展大型语言模型的推理能力,仅优化了采样行为:新研究

研究表明,强化学习与可验证奖励(RLVR)并未提升大型语言模型(LLMs)的推理能力,而是优化了其采样行为。尽管RLVR训练的模型在单次回答中表现更佳,但在多次尝试中,基础模型的成功率更高。这表明RLVR并未创造新的推理模式,而是提高了已有推理路径的效率。

RLVR并未扩展大型语言模型的推理能力,仅优化了采样行为:新研究

DEV Community
DEV Community · 2025-04-26T15:12:55Z

阿里开源的R1-Omni模型首次结合了RLVR与全模态情感识别,显著提升了推理、理解和泛化能力,在情感识别任务中表现优异,受到网友关注,预示着下一代AI的发展方向。

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

量子位
量子位 · 2025-03-11T05:52:14Z

本研究提出了Med-RLVR,利用医学多项选择题数据通过强化学习探讨医学推理的涌现。结果表明,Med-RLVR在医学问题回答上与传统方法相当,但在跨分布泛化能力上提升了8个百分点,显示出其在知识密集型领域的潜力。

Med-RLVR: Emerging Medical Reasoning from a 3B Base Model via Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码