The New Stack ·

深入探讨DeepSeek-R1：它是如何运作的以及它能做什么

💡 原文英文，约1800词，阅读约需7分钟。

📝

内容提要

DeepSeek R-1是中国的一种大型语言模型，训练成本为600万美元，性能与OpenAI的o1相当。它采用专家混合架构，具备高效计算能力和128K上下文长度。尽管表现优异，但存在安全性、可靠性和生成虚假答案等问题。

🎯

❓

DeepSeek-R1的训练成本为600万美元。

DeepSeek-R1采用了专家混合架构，通过动态激活相关子网络来提高计算效率。

DeepSeek-R1的上下文长度为128K。

DeepSeek-R1在数学推理基准测试中表现优异，尤其在复杂推理和问题回答任务上。

DeepSeek-R1可能存在对提示注入攻击的脆弱性，并能生成恶意代码。

DeepSeek-R1使用链式思维提示和拒绝采样来提高推理质量和数据选择。

🏷️

深入探讨语言模型的校准：Platt缩放、等距回归与温度缩放
大型语言模型（LLMs）普遍存在误校准问题，导致信心分数与实际正确率不符。传统的后处理校准方法包括温度缩放、Platt缩放和等距回归，但由于LLMs的复杂...
2026 06 05 HackerNews
特德·姜批评将人工智能拟人化，指出大型语言模型（LLM）并不具备意识或情感。加州大学伯克利分校因学生过度依赖AI，计算机科学课程的不及格率显著上升。美国政...
自主代理面临的最大挑战：数据库。
大型语言模型正在从简单的聊天机器人发展为能够推理和行动的自主代理，但数据库优化的复杂性仍是主要挑战。卡内基梅隆大学的安迪·帕夫洛指出，AI在数据库领域的影...
在AI工作负载时代如何确保Kubernetes的安全性
Kubernetes的安全性因AI工作负载而变得复杂，传统的集群安全措施已无法应对动态流量。Azure Kubernetes Service（AKS）通过...
便宜好用真香！美国企业把DeepSeek买上了趋势榜第一
Ramp发布的2026年热门软件供应商榜单显示，中国AI公司DeepSeek首次重返增长，企业采用率为0.1%。其成本显著低于Anthropic和Open...
60分钟内消失
It should have been the final straw. The new power couple of editorial failur...