标签

 deepseek r1 

相关的文章:

本列表汇集了关于 DeepSeek R1 的多篇文章,涵盖模型比较、训练方式、应用实例及优化技巧,助您深入了解这一前沿技术。

原文中文,约3800字,阅读约需9分钟。发表于:
阅读原文

字节火山引擎DeepSeek R1联网应用API第三方客户端调用方法

字节跳动火山引擎提供的DeepSeek满血版服务很实在,尤其是其服务非常稳定,还能支持联网搜索。 不过,当我尝 … 继续阅读“字节火山引擎DeepSeek R1联网应用API第三方客户端调用方法”

字节跳动的DeepSeek服务稳定,支持联网搜索,但在第三方客户端使用时存在兼容性问题。大模型默认不支持联网,需通过应用层实现。推荐的客户端包括Cherry Studio、ChatHub、Chatbox和NextChat,均支持DeepSeek R1联网API。

原文中文,约1600字,阅读约需4分钟。发表于:
阅读原文

在DeepSearch中使用DeepSeek R1推理模型

Standard LLM or reasoning model, which is better for DeepSearch? In this post, we explored using DeepSeek-R1 in the DeepSearch implementation for choosing the next action.

DeepSearch通过循环搜索、阅读和思考寻找最佳答案。我们尝试用推理模型R1替代标准LLM gemini-2.0-flash,以提升复杂搜索任务的表现。实际案例(如规划假期)表明,R1能识别信息差距和不一致,但在验证时间敏感信息和全面探索选项方面存在不足。

在DeepSearch中使用DeepSeek R1推理模型
原文英文,约4500词,阅读约需17分钟。发表于:
阅读原文

17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤

无法记答案的动态基准测试

研究人员发布了GameBoT评测基准,比较17款大模型在8款棋牌游戏中的表现。通过评估模型的思考过程,GameBoT提供了更细致的分析,避免了模型记忆答案。最终,o3-mini表现最佳,而DeepSeek R1在思考步骤中的得分较低,显示思考过程不够清晰。

原文中文,约4800字,阅读约需12分钟。发表于:
阅读原文

AWS 无服务器架构:使用 Amazon Bedrock、Lambda 和 API Gateway 部署 DeepSeek R1 Distilled 模型

“The more I learn, the more I realize how much I don't know.” ― Albert Einstein Did you know that you can use the DeepSeek R1 Distilled variations without the need for any infrastructure or server...

本文介绍了如何通过Amazon Bedrock导入DeepSeek R1 Distilled模型,并使用REST API和Lambda函数进行调用。文章详细阐述了模型下载、S3存储、导入Bedrock及API调用的步骤,并提醒用户清理创建的资源以避免费用。

AWS 无服务器架构:使用 Amazon Bedrock、Lambda 和 API Gateway 部署 DeepSeek R1 Distilled 模型
原文英文,约1200词,阅读约需5分钟。发表于:
阅读原文
原文中文,约6300字,阅读约需15分钟。发表于:
阅读原文

🔥 Gemma 3 27B与QwQ 32B与Deepseek R1的比较 ✅

A few new open source models were released this March 2025, two of them being the QwQ 32B model from Alibaba and the new Gemma 3 27B model from Google, which are said to be good at reasoning....

2025年3月,阿里巴巴发布了QwQ 32B模型,谷歌推出Gemma 3 27B模型。QwQ在编码任务中表现优异,而Gemma 3在推理任务上表现突出。Deepseek R1模型在推理和数学问题上也表现良好。总体而言,QwQ 32B在编码测试中领先,但Deepseek R1在推理和响应时间上更为均衡。

🔥 Gemma 3 27B与QwQ 32B与Deepseek R1的比较 ✅
原文英文,约2700词,阅读约需10分钟。发表于:
阅读原文

哇塞!只需三步,带你飞速蒸馏DeepSeek R1!

我们关注到在其技术报告中重点提到DeepSeek-R1的数据蒸馏方案——通过对DeepSeek-R1数据蒸馏,将蒸馏后的数据和小尺寸模型进行精调训练,实验结果显示,通过DeepSeek-R1模型,蒸馏了6个小模型开源给社区,32B和70B模型在多项任务上表现与OpenAI...

深度求索于1月开源了DeepSeek-R1模型,提出数据蒸馏方案,通过小模型精调训练,效果与OpenAI o1-mini相当。飞桨框架3.0优化推理能力,支持高效部署,显著提升模型性能并降低成本。

原文中文,约11600字,阅读约需28分钟。发表于:
阅读原文

从 DeepSeek LLM 到 DeepSeek R1 – DeepSeek LLM

从今天的角度来看,DeepSeek 可能还处于探索阶段,与业界的开源模型保持一致,并进行理论研究。不过,从论文中的细节来看,一年后划时代的 R1 诞生的条件已基本具备。

DeepSeek LLM 从初始模型发展到 R1,经历了快速演变。尽管起初不被重视,但在中文和英文评估中表现优异,特别是在数据质量和模型架构上有所创新。DeepSeek 采用了不同于 LLaMA-2 的 MoE 架构,并在后期训练中增强模型能力。未来将继续推动开源模型进步,提升推理和代码能力。

原文中文,约3900字,阅读约需10分钟。发表于:
阅读原文

AutoDev Planner:推理模型规划编码任务,DeepSeek R1 延伸 Vibe Coding 可能性

最近,我们在 AutoDev 上构建了新的功能:AutoDev Planner,它是一个基于 DeepSeek R1 推理模型构建的编码任务规划功能。当然了,除了 DeepSeek

AutoDev Planner 是基于 DeepSeek R1 模型的新功能,旨在生成编码任务计划。用户可以动态调整任务进度,手动执行未完成任务,并通过可视化提升 AI 编码体验。尽管存在不足,仍欢迎用户反馈。

原文中文,约2500字,阅读约需6分钟。发表于:
阅读原文