小红花·文摘 - 小红花技术领袖俱乐部

数据集汇总丨从竞赛数学到工具调用，MIT/NVIDIA/华中科大等开源9个数学数据集，覆盖 CoT 、多模态推理与长链思维训练

数据集汇总丨从竞赛数学到工具调用，MIT/NVIDIA/华中科大等开源9个数学数据集，覆盖 CoT 、多模态推理与长链思维训练

HyperAI超神经 ·

后训练正成为真正前沿：Kimi K3九大专家蒸馏灌顶内幕

后训练正成为真正前沿：Kimi K3九大专家蒸馏灌顶内幕

极道 ·

大模型训练是在挖“结构信息”，新尺子把信息论脸打肿了

大模型训练是在挖“结构信息”，新尺子把信息论脸打肿了

极道 ·

法院批准A社与作者和出版社的15亿美元和解协议初步解决A社使用盗版图书训练模型问题

法院批准A社与作者和出版社的15亿美元和解协议初步解决A社使用盗版图书训练模型问题

蓝点网 ·

$RoboTTT——面向机器人策略的上下文扩展：将TTT集成至VLA中形成序列模型(记忆信息被压缩至快速权重中，训练和推理时皆可更新)，如此将视觉-运动上下文扩展到 8K 个时间步$

RoboTTT——面向机器人策略的上下文扩展：将TTT集成至VLA中形成序列模型(记忆信息被压缩至快速权重中，训练和推理时皆可更新)，如此将视觉-运动上下文扩展到 8K 个时间步

结构之法算法之道 ·

基于超1万肿瘤样本训练，哈佛医学院等提出泛癌症基础模型COMPASS，平均性能优于22种现有方法

基于超1万肿瘤样本训练，哈佛医学院等提出泛癌症基础模型COMPASS，平均性能优于22种现有方法

HyperAI超神经 ·

WAIC 2026 | 摩尔线程首次公开多项训练推理实践成果，三大“AI工厂”持续释放算力价值

量子位 ·

NVIDIA Vera Rubin平台最大化后训练工作负载中的每美元智能效率——代理人工智能的关键指标

NVIDIA Vera Rubin平台最大化后训练工作负载中的每美元智能效率——代理人工智能的关键指标

NVIDIA Blog ·

一分钟读论文：《Function-Aware Fill-in-the-Middle 作为编码 Agent 基础模型的中期训练》

一分钟读论文：《Function-Aware Fill-in-the-Middle 作为编码 Agent 基础模型的中期训练》

Micropaper ·

SpaceXAI回应Grok Build上传开发者仓库用于模型训练：谁让你们没自己禁用

SpaceXAI回应Grok Build上传开发者仓库用于模型训练：谁让你们没自己禁用

蓝点网 ·

AI代理创建虚拟训练场，以帮助机器人获取关键训练数据

AI代理创建虚拟训练场，以帮助机器人获取关键训练数据

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) ·

$T-Rex——给VLA带上触觉的灵巧操作框架：先通过人类视频做预训练，再通过富含触觉的中期训练对齐交互，最后利用极少量目标域演示以快速适配下游任务$

T-Rex——给VLA带上触觉的灵巧操作框架：先通过人类视频做预训练，再通过富含触觉的中期训练对齐交互，最后利用极少量目标域演示以快速适配下游任务

结构之法算法之道 ·

Cloudflare 自 9 月 15 日起更新了 AI 爬虫策略，混合用途爬虫将纳入 AI 训练拦截管理。这一调整帮助网站管理员更好地控制内容使用权限，增强内容保护，确保原创内容不被 AI 模型训练。网站管理员需重新检查配置，关注 AI 爬虫访问情况，以确保内容授权与访问控制的有效性。

Cloudflare 更新 AI 爬虫策略：9 月 15 日起混合用途爬虫将纳入 AI 训练拦截

付杰博客 ·

本文介绍了大语言模型（LLMs）的预训练和微调概念。预训练通过大量数据学习语言基础，而微调则是在此基础上针对特定任务进行适应。微调分为完全微调和参数高效微调（PEFT），后者更节省内存且风险较低。尽管微调有效，但并非唯一解决方案，改进提示或检索增强生成（RAG）有时更为合适。

微调入门解析（预训练模型如何学习新技能）

KDnuggets ·

全球首个「具身原生」预训练模型发布，从物理世界出发为机器人造大脑！

量子位 ·

高德发布Phys AI Data：首个面向物理AI训练与应用的一站式空间数据基座

量子位 ·

哲学专业逆袭AI时代：逻辑训练比写代码更保值

哲学专业逆袭AI时代：逻辑训练比写代码更保值

极道 ·

Weblica：可扩展和可重复的视觉网络代理训练环境

Weblica：可扩展和可重复的视觉网络代理训练环境

Apple Machine Learning Research ·

文章探讨了从“推理思维”向“智能体思维”的转变，强调模型评估和期望的变化。智能体思维注重通过行动进行推理，强调环境设计和系统解耦的重要性。未来的智能将依赖于多个智能体的协作，推动从训练模型到训练智能体的演变。

[译] 大模型训练的中场叙事：从 Reasoning Thinking 转向 Agentic Thinking (2026)

ARTHURCHIAO'S BLOG ·

南京大学的研究揭示了工具使用智能体在开放世界中的泛化脆弱性，提出了四级分层偏移框架，分析了SFT和RL训练范式的结构性弱点，并提出PAFT方法，通过引入扰动增强微调，提升模型的鲁棒性和泛化能力。

AI 范式雷达：《开放世界中的工具使用智能体——静态训练的脆弱性与修复》

Micropaper ·