小红花·文摘 - 小红花技术领袖俱乐部

扔掉 API！Anthropic 带头“开倒车”：为什么 Bash 是 AI Agent 的过渡形态？

扔掉 API！Anthropic 带头“开倒车”：为什么 Bash 是 AI Agent 的过渡形态？

dotNET跨平台 ·

美团 M17 团队开源 Meeseeks 评测集：揭秘大模型的“听话”能力

美团 M17 团队开源 Meeseeks 评测集：揭秘大模型的“听话”能力

美团技术团队 ·

我们为何思考

我们为何思考

Lil'Log ·

人工智能语言模型突破：新方法实现自我纠错文本生成

人工智能语言模型突破：新方法实现自我纠错文本生成

DEV Community ·

本研究提出了一种广义化掩蔽扩散方法，克服了语言模型在生成过程中无法修改已生成词汇的局限性。通过结合掩蔽与均匀噪声，显著提高了样本质量，并增强了模型的自我纠错能力。

Generalized Interpolating Discrete Diffusion

BriefGPT - AI 论文速递 ·

本研究分析了大型语言模型（LLM）在自我纠错中的局限性，特别是在检测算术错误方面。研究发现，模型主要依赖表面一致性评估，算术运算在高层进行，而验证在中层进行。这种计算与验证的分离导致LLM在识别简单算术错误时面临困难。

The Validation Gap: A Mechanistic Analysis of How Language Models Compute Arithmetic but Fail to Validate It

BriefGPT - AI 论文速递 ·

清华与CMU团队的研究表明，长思维链（CoT）推理能力可以通过强化学习（RL）实现，监督微调（SFT）并非必需，但能提升效率。研究强调奖励函数对CoT扩展的重要性，并指出模型具备自我纠错能力。未来的研究将集中在模型规模和RL基础设施的改进上。

SFT并非必需！推理模型仅靠RL就能获得长思维链能力，清华CMU团队破解黑盒

量子位 ·

1M长上下文，满血版Gemini 2.0又一次登上Chatbot Arena榜首

1M长上下文，满血版Gemini 2.0又一次登上Chatbot Arena榜首

机器之心 ·

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

机器之心 ·