量子位 ·

啊？7B的DeepSeek反超R1满血版，上海AI Lab周伯文团队新成果

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

上海AI Lab的研究表明，7B的DeepSeek模型在数学能力上超越671B的R1满血版，提出了新的TTS框架，强调策略模型和问题难度对性能的影响。实验显示，小模型在简单任务中表现良好，而大模型在复杂任务中更具优势，未来需探索更多任务和优化方法。

🎯

关键要点

7B的DeepSeek模型在数学能力上超越671B的R1满血版。
最优的TTS方法依赖于策略模型、过程奖励模型和问题难度。
小模型在简单任务中表现良好，大模型在复杂任务中更具优势。
研究聚焦于最优的TTS方式及其对语言模型表现的提升程度。
实验使用了MATH-500和AIME24数据集，评估了不同规模的策略模型和PRM。
小型策略模型适合使用BoN方法，而大型策略模型则适合使用Beam Search。
提出了奖励感知型最优计算TTS框架，适应特定的策略模型和奖励函数。
研究显示TTS在MATH-500和AIME2024上优于多数长CoT方法。
TTS在简单任务上表现优越，但在复杂任务上仍有提升空间。
未来研究应关注开发更具适应性的监督机制，以提高小模型在复杂任务上的表现。

❓

延伸问答

DeepSeek模型在数学能力上如何超越R1满血版？

7B的DeepSeek模型在数学能力上超越了671B的R1满血版，显示出更强的推理能力。

最优的TTS方法依赖于哪些因素？

最优的TTS方法依赖于策略模型、过程奖励模型（PRM）和问题难度。

小模型和大模型在任务表现上有什么区别？

小模型在简单任务中表现良好，而大模型在复杂任务中更具优势。

研究中使用了哪些数据集进行评估？

研究使用了MATH-500和AIME24数学推理数据集进行评估。

TTS在复杂任务上的表现如何？

TTS在复杂任务上的表现仍有提升空间，尽管在简单任务上表现优越。

未来的研究方向是什么？

未来的研究应关注开发更具适应性的监督机制，以提高小模型在复杂任务上的表现。

🏷️

继续阅读

便宜好用真香！美国企业把DeepSeek买上了趋势榜第一
Ramp发布的2026年热门软件供应商榜单显示，中国AI公司DeepSeek首次重返增长，企业采用率为0.1%。其成本显著低于Anthropic和Open...
从超级个体到超级团队，腾讯云发布WorkBuddy企业版
腾讯云在AI产业应用大会上发布了WorkBuddy企业版及办公智能体套件，旨在帮助企业实现AI转型。该套件提供数字员工、人机协作和团队管理功能，提升工作效...
B站宣布启动AI创造公开赛打造中国版Build in Public
哔哩哔哩于6月5日启动“AI创造公开赛”，旨在鼓励普通用户参与AI产品开发。比赛无年龄、学历限制，用户可通过投币和弹幕参与评选。赛事吸引了60%非专业开发...
这家人工智能初创公司声称能够判断一个剧本是否会成为热门电影
AI初创公司Quilty声称通过剧本分析预测电影票房成功，但实际测试结果不佳，预测不准确。Quilty结合多种AI工具提供剧本分析和成功概率评分，旨在帮助...
有人靠CPU把AI算力密度卷到了新高度
英特尔推出新技术以应对Agentic AI的算力焦虑，提升AI算力密度，推动数据中心和AI的发展。
您的AI费用失控了。Cloudflare现在可以解决这个问题。
Cloudflare推出AI Gateway，帮助企业控制AI支出。新功能包括预算限制和身份驱动的支出管理，允许按用户、团队或模型设置预算。通过集中管理，...