小红花·文摘

$HTD——基于触觉预测的人形行走-操作框架：融合视觉、本体感知、力反馈、触觉，同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量$

HTD——基于触觉预测的人形行走-操作框架：融合视觉、本体感知、力反馈、触觉，同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量

结构之法算法之道 ·

教AI模型说“我不确定”

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) ·

国产多模态Agent拿下医学分割SOTA！不用改模型、不加token

量子位 ·

本文探讨了大模型对齐的流程，包括监督微调（SFT）、奖励模型（RM）和强化学习（RL）。对齐不仅提升了模型对指令的理解能力，还影响推理能力和回答质量。文章介绍了直接偏好优化（DPO）作为一种新方法，简化了训练流程，减少了模型数量，提高了效率。未来研究将关注可验证奖励和长上下文推理，以增强模型的推理能力和应用范围。

【大模型基础设施工程】09：RLHF 与对齐流水线

土法炼钢兴趣小组的博客 ·

教龙虾玩手机！打通GUI智能体训练-评测-部署全流程，训练、真机、评测一站解决

量子位 ·

刘壮陈丹琦新作：开源通用视觉推理RL框架，0思考数据刷新SOTA

量子位 ·

熵保持强化学习

Apple Machine Learning Research ·

OpenClaw外挂MetaClaw深度解析：这只龙虾边干活边自我进化！

极道 ·

本报告探讨OpenClaw体系下Agent的强化学习训练方法，重点分析RFT与GRPO的训练流程，旨在降低强化学习训练门槛，实现训练自动化，并提升Agent的任务性能。

【Triton 教程】triton_language.erf

HyperAI超神经 ·

Momenta不选VLA选世界模型，大众首发！曹旭东：传感器重要性最后

量子位 ·

世界模型+强化学习：轻舟智航于骞在德国定义通向通用物理AI的必由之路

量子位 ·

RubiCap：基于评分标准的强化学习用于密集图像字幕生成

Apple Machine Learning Research ·

$HIL-DAFT——双智能体的人类在环RL框架微调的人形VLA(先离线预热后在线交互)：为完成螺栓装配，主智能体负责常规操作、精细化执行体依据语音指令实行细粒度调整$

HIL-DAFT——双智能体的人类在环RL框架微调的人形VLA(先离线预热后在线交互)：为完成螺栓装配，主智能体负责常规操作、精细化执行体依据语音指令实行细粒度调整

结构之法算法之道 ·

多语言推理健身房：程序推理环境的多语言扩展

Apple Machine Learning Research ·

mAceReason-Math：一个高质量的多语言数学问题数据集，支持强化学习与可验证奖励（RLVR）

Apple Machine Learning Research ·

12小时掌握大型语言模型的微调技巧

freeCodeCamp.org ·

认识KARL：一个更快的企业知识代理，基于定制的强化学习

Databricks ·

一分钟读论文：《AlphaEvolve - 用 LLM 自动发现多智能体学习算法》

Micropaper ·

学习推理以检测幻觉跨度

Apple Machine Learning Research ·

DeepSeek R1 是中国 AI 公司推出的模型，采用纯强化学习实现自主推理，突破传统监督学习模式。R1-Zero 模型无需人类标注，展现出链式推理能力。GRPO 算法提升训练效率，简单的奖励系统驱动复杂推理策略。R1 的成功降低了推理模型的门槛，启发了新的研究方向，展示了纯强化学习的潜力，标志着 AI 训练的重要转变。

DeepSeek-R1：用纯强化学习解锁大语言模型的推理能力

Micropaper ·