2025美国最新奥数题，让大模型集体翻车，DeepSeek R1平均分也不到5%

研究显示，大型语言模型在美国数学奥林匹克竞赛（USAMO）中的表现不佳，平均得分不足5%。尽管在数值答案方面表现良好，但在数学推理和证明上仍有显著不足，需要改进训练方法以增强推理能力。

USAMO deepseek r1 大型语言模型数学推理美国表现训练方法

2025美国最新奥数题，让大模型集体翻车，DeepSeek R1平均分也不到5%

原文中文，约3800字，阅读约需9分钟。发表于：。

字节火山引擎DeepSeek R1联网应用API第三方客户端调用方法

字节跳动火山引擎提供的DeepSeek满血版服务很实在，尤其是其服务非常稳定，还能支持联网搜索。不过，当我尝 … 继续阅读“字节火山引擎DeepSeek R1联网应用API第三方客户端调用方法”

字节跳动的DeepSeek服务稳定，支持联网搜索，但在第三方客户端使用时存在兼容性问题。大模型默认不支持联网，需通过应用层实现。推荐的客户端包括Cherry Studio、ChatHub、Chatbox和NextChat，均支持DeepSeek R1联网API。

API DeepSeek deepseek r1 兼容性客户端火山引擎联网搜索

原文中文，约1600字，阅读约需4分钟。发表于：。

阅读原文

分享给好友

在DeepSearch中使用DeepSeek R1推理模型

Standard LLM or reasoning model, which is better for DeepSearch? In this post, we explored using DeepSeek-R1 in the DeepSearch implementation for choosing the next action.

DeepSearch通过循环搜索、阅读和思考寻找最佳答案。我们尝试用推理模型R1替代标准LLM gemini-2.0-flash，以提升复杂搜索任务的表现。实际案例（如规划假期）表明，R1能识别信息差距和不一致，但在验证时间敏感信息和全面探索选项方面存在不足。

DeepSearch R1 deepseek r1 信息差距复杂搜索推理模型

原文英文，约4500词，阅读约需17分钟。发表于：。

阅读原文

分享给好友

17款大模型PK八款棋牌游戏，o3-mini胜出，DeepSeek R1输在中间步骤

无法记答案的动态基准测试

研究人员发布了GameBoT评测基准，比较17款大模型在8款棋牌游戏中的表现。通过评估模型的思考过程，GameBoT提供了更细致的分析，避免了模型记忆答案。最终，o3-mini表现最佳，而DeepSeek R1在思考步骤中的得分较低，显示思考过程不够清晰。

GameBoT deepseek r1 o3 大模型思考过程棋牌游戏游戏评测

原文中文，约4800字，阅读约需12分钟。发表于：。

阅读原文

分享给好友

AWS 无服务器架构：使用 Amazon Bedrock、Lambda 和 API Gateway 部署 DeepSeek R1 Distilled 模型

“The more I learn, the more I realize how much I don't know.” ― Albert Einstein Did you know that you can use the DeepSeek R1 Distilled variations without the need for any infrastructure or server...

本文介绍了如何通过Amazon Bedrock导入DeepSeek R1 Distilled模型，并使用REST API和Lambda函数进行调用。文章详细阐述了模型下载、S3存储、导入Bedrock及API调用的步骤，并提醒用户清理创建的资源以避免费用。

Amazon Bedrock DeepSeek R1 Lambda函数 REST API api aws bedrock lambda 无服务器模型导入

AWS 无服务器架构：使用 Amazon Bedrock、Lambda 和 API Gateway 部署 DeepSeek R1 Distilled 模型

原文英文，约1200词，阅读约需5分钟。发表于：。

阅读原文

分享给好友

揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案

研究人员分析了DeepSeek-V3和Qwen2.5模型在强化学习中的表现，发现它们在预训练阶段已具备推理能力，并提出了无偏优化方法Dr. GRPO，以提高token效率并解决优化偏差。研究表明，模板对模型性能至关重要，强化学习显著提升了解题能力。

DeepSeek-V3 Dr. GRPO Qwen2.5 deepseek r1 强化学习推理能力

原文中文，约6300字，阅读约需15分钟。发表于：。

阅读原文

分享给好友

🔥 Gemma 3 27B与QwQ 32B与Deepseek R1的比较 ✅

A few new open source models were released this March 2025, two of them being the QwQ 32B model from Alibaba and the new Gemma 3 27B model from Google, which are said to be good at reasoning....

2025年3月，阿里巴巴发布了QwQ 32B模型，谷歌推出Gemma 3 27B模型。QwQ在编码任务中表现优异，而Gemma 3在推理任务上表现突出。Deepseek R1模型在推理和数学问题上也表现良好。总体而言，QwQ 32B在编码测试中领先，但Deepseek R1在推理和响应时间上更为均衡。

Deepseek R1 Gemma 3 QwQ 32B gemma qwq 推理编码

原文英文，约2700词，阅读约需10分钟。发表于：。

阅读原文

分享给好友

哇塞！只需三步，带你飞速蒸馏DeepSeek R1！

我们关注到在其技术报告中重点提到DeepSeek-R1的数据蒸馏方案——通过对DeepSeek-R1数据蒸馏，将蒸馏后的数据和小尺寸模型进行精调训练，实验结果显示，通过DeepSeek-R1模型，蒸馏了6个小模型开源给社区，32B和70B模型在多项任务上表现与OpenAI...

深度求索于1月开源了DeepSeek-R1模型，提出数据蒸馏方案，通过小模型精调训练，效果与OpenAI o1-mini相当。飞桨框架3.0优化推理能力，支持高效部署，显著提升模型性能并降低成本。

DeepSeek-R1 deepseek r1 推理能力数据蒸馏模型性能飞桨框架

原文中文，约11600字，阅读约需28分钟。发表于：。

阅读原文

分享给好友

从 DeepSeek LLM 到 DeepSeek R1 – DeepSeek LLM

从今天的角度来看，DeepSeek 可能还处于探索阶段，与业界的开源模型保持一致，并进行理论研究。不过，从论文中的细节来看，一年后划时代的 R1 诞生的条件已基本具备。

DeepSeek LLM 从初始模型发展到 R1，经历了快速演变。尽管起初不被重视，但在中文和英文评估中表现优异，特别是在数据质量和模型架构上有所创新。DeepSeek 采用了不同于 LLaMA-2 的 MoE 架构，并在后期训练中增强模型能力。未来将继续推动开源模型进步，提升推理和代码能力。

DeepSeek LLM MoE架构 deepseek r1 开源模型推理能力

原文中文，约3900字，阅读约需10分钟。发表于：。

阅读原文

分享给好友

AutoDev Planner：推理模型规划编码任务，DeepSeek R1 延伸 Vibe Coding 可能性

最近，我们在 AutoDev 上构建了新的功能：AutoDev Planner，它是一个基于 DeepSeek R1 推理模型构建的编码任务规划功能。当然了，除了 DeepSeek

AutoDev Planner 是基于 DeepSeek R1 模型的新功能，旨在生成编码任务计划。用户可以动态调整任务进度，手动执行未完成任务，并通过可视化提升 AI 编码体验。尽管存在不足，仍欢迎用户反馈。

AutoDev Planner DeepSeek R1 autodev coding 动态调整推理模型用户反馈编码任务

原文中文，约2500字，阅读约需6分钟。发表于：。

阅读原文

分享给好友