小红花·文摘 - 小红花技术领袖俱乐部

一分钟读论文：《Function-Aware Fill-in-the-Middle 作为编码 Agent 基础模型的中期训练》

一分钟读论文：《Function-Aware Fill-in-the-Middle 作为编码 Agent 基础模型的中期训练》

Micropaper ·

递归语言模型与不确定性相遇：自反程序搜索在长上下文中的惊人有效性

递归语言模型与不确定性相遇：自反程序搜索在长上下文中的惊人有效性

Apple Machine Learning Research ·

基准测试的意义差距

The JetBrains Blog ·

本地模型在编码中的可行性

本地模型在编码中的可行性

Martin Fowler ·

代理协调已经过时

代理协调已经过时

Stack Overflow Blog ·

八大开源模型推理路径对比：GLM DeepSeek Qwen

八大开源模型推理路径对比：GLM DeepSeek Qwen

极道 ·

Weblica：可扩展和可重复的视觉网络代理训练环境

Weblica：可扩展和可重复的视觉网络代理训练环境

Apple Machine Learning Research ·

Meta提出AI数据科学家，Autodata构建高质量训练/评测数据集

Meta提出AI数据科学家，Autodata构建高质量训练/评测数据集

HyperAI超神经 ·

破天荒！DeepSeek V4正式版居然要涨价，而且翻着倍地涨

量子位 ·

DevRel通讯 — 2026年6月

DevRel通讯 — 2026年6月

Elastic Blog - Elasticsearch, Kibana, and ELK Stack ·

如何构建一个使用autoresearch进行自主LLM实验的AI代理

如何构建一个使用autoresearch进行自主LLM实验的AI代理

freeCodeCamp.org ·

步骤拒绝微调：从嘈杂的智能体轨迹中提取更多信号

步骤拒绝微调：从嘈杂的智能体轨迹中提取更多信号

The JetBrains Blog ·

文章讨论了通过优化目标函数（LFD）高效开发产品的方法。作者指出传统目标设定方法的缺陷，强调盲测和迭代优化对提升模型性能的重要性。经过多轮测试，agent在不作弊的情况下显著提高了结果准确性。此外，信息不对称被认为是构建竞争优势的关键，建议开发者关注真实评估集和用户反馈，以加速产品迭代。

【译文】/goal + 损失函数：如何用一条指令在 30 小时内蒸馏一个产品

电波障害 ·

别光给Agent加Tool了，它根本选不明白！复旦×通义提出全新CUA训练范式

量子位 ·

后训练是一个复杂的数据流水线，包含多个阶段，如SFT、奖励模型和策略优化。每个阶段旨在将预训练模型转变为更符合人类指令和偏好的模型。SFT主要调整回答格式，奖励模型提供训练信号，策略优化提升生成候选的能力。评测确保模型的安全性和准确性，整体流程强调数据回流和持续优化，以提升模型性能和可靠性。

【强化学习与大模型后训练】06｜后训练全景：SFT → RM → RLHF → 评测

土法炼钢兴趣小组的博客 ·

Claude Code 怎样快速消耗 token

Claude Code 怎样快速消耗 token

iMaeGoo's Blog ·

信通院&清华提出FedRE：用「纠缠」搞定联邦学习三难困境 | CVPR 26

信通院&清华提出FedRE：用「纠缠」搞定联邦学习三难困境 | CVPR 26

量子位 ·

2.7%的裂缝：全球AI竞赛进入非对称博弈时代

2.7%的裂缝：全球AI竞赛进入非对称博弈时代

TechWeb 全站精华 ·

GPT-5.5与DeepSeek V4，AI 竞争进入新格局！

GPT-5.5与DeepSeek V4，AI 竞争进入新格局！

硕鼠的博客站 ·

关于管理不善的天才假说的小型练习（长链推理中的语言模型）

关于管理不善的天才假说的小型练习（长链推理中的语言模型）

blank ·