机器之心 ·

两万字长文深度解密DeepSeek-R1、Kimi 1.5，强推理模型凭什么火出圈？

💡 原文中文，约25500字，阅读约需61分钟。

📝

内容提要

AIxiv专栏促进了学术交流，报道了2000多篇AI相关内容。DeepSeek-R1模型引起了AI社区的关注，提升了推理能力，尤其在数学和知识问答任务中表现突出。该模型通过强化学习和规则奖励机制，展现了长文本推理和自我反思能力，未来将探索多模态应用和安全性问题。

🎯

❓

DeepSeek-R1模型通过强化学习和规则奖励机制提升了推理能力，尤其在数学和知识问答任务中表现突出，展现了长文本推理和自我反思能力。

DeepSeek-R1专注于长文本推理和自我修复能力，而Kimi K1.5则通过强化学习优化长文本推理链，二者在技术实现和目标上有所不同。

DeepSeek-R1采用基于规则的奖励机制，避免了传统奖励模型可能遭遇的奖励攻陷问题，从而提升了模型的推理能力。

DeepSeek-R1在数学代码任务中表现优异，在AIME2024上取得了79.8%的成绩，超过了OpenAI o1。

未来DeepSeek-R1将探索多模态应用和安全性问题，包括长推理模型的可解释性和模态扩展。

DeepSeek-R1的训练过程包括冷启动和强化学习，旨在提升推理链的可读性和能力。

🏷️

国产大模型编码能力实测(GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro)
本文对四款国产大模型（GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro）的编码能力进行了实测。结果显示，...
LWiAI播客第242期 - ChatGPT图像2.0，Qwen 3.6 Max，Kimi-K2.6
本期播客讨论了最新的AI新闻，包括OpenAI发布的ChatGPT图像2.0模型，生成文本和截图的能力显著提升；阿里巴巴推出Qwen 3.6 Max，转为...
DeepSeek识图模式是个新模型？！一手实测在此（没错我被灰度到了）
DeepSeek的识图模式在灰度测试中表现优异，支持快速识别和推理。非思考模式下速度快但准确性需提升；思考模式下推理能力强但耗时较长。该模式有效处理OCR...
Vibhor Kumar: The Calm Platform Test: Is Your PostgreSQL Strategy Enterprise-Ready?
Features create capability. Calm operations create trust. Most platfor...
Rivian的收入增长，R2生产加速
Rivian在2026年第一季度销售了10,365辆电动车，同比增长20%，收入达13.8亿美元。公司计划推出更实惠的R2车型，预计年底销售20,000辆...
Rivian缩减其在乔治亚州电动车工厂的目标
Rivian宣布因与美国能源部的贷款协议调整，将乔治亚州电动车工厂的年产能力从40万辆减少至30万辆，新的贷款金额为45亿美元，低于原先的66亿美元。Ri...