小红花·文摘 - 小红花技术领袖俱乐部

DeepSeek R1 是中国 AI 公司推出的模型，采用纯强化学习实现自主推理，突破传统监督学习模式。R1-Zero 模型无需人类标注，展现出链式推理能力。GRPO 算法提升训练效率，简单的奖励系统驱动复杂推理策略。R1 的成功降低了推理模型的门槛，启发了新的研究方向，展示了纯强化学习的潜力，标志着 AI 训练的重要转变。

DeepSeek-R1：用纯强化学习解锁大语言模型的推理能力

Micropaper ·

从“回答者”进化为“研究员”：全面解析 Deep Research

从“回答者”进化为“研究员”：全面解析 Deep Research

京东科技开发者 ·

Agentic AI 是一种基于大型语言模型（LLM）进行自主推理、规划和行动的智能体，能够执行复杂任务并反思自身行为。其核心组件包括推理引擎、规划能力、记忆机制和工具使用能力。智能体可分为单一智能体和多智能体系统，具有不同的自主程度。这项技术将深刻影响工作方式和社会结构。

Agentic AI设计模式

dotNET跨平台 ·

第一个免费可用的智能Agent产品全量上线，中国公司智谱打造，推理模型比肩R1

第一个免费可用的智能Agent产品全量上线，中国公司智谱打造，推理模型比肩R1

机器之心 ·

在NeurIPS 2024上，Ilya Sutskever预测预训练时代即将结束，未来将进入超级智能时代，具备自主推理和自我意识。他指出数据增长接近瓶颈，未来AI需依赖Agent系统和合成数据来突破限制。

Ilya宣判：预训练即将终结！NeurIPS现场沸腾

量子位 ·