小红花·文摘 - 小红花技术领袖俱乐部

长程验证：AI Agent 长任务的收敛机制

长程验证：AI Agent 长任务的收敛机制

phodal ·

万字长文讲解：团队落地 AI 辅助编程和 Specs 实战

万字长文讲解：团队落地 AI 辅助编程和 Specs 实战

dotNET跨平台 ·

本研究探讨了语言模型代理在自主体应用中的目标遵循问题，并提出了分析目标漂移的新方法。尽管最佳代理在困难评估中表现良好，但所有模型均显示出目标漂移，且与上下文长度增加的模式匹配敏感性相关。

Technical Report: Evaluating Goal Drift in Language Model Agents

BriefGPT - AI 论文速递 ·

作者发现大语言模型（LLM）无法解决需要更长推理步骤的问题，如Wordle和细胞自动机。LLM的注意力机制无法动态地重置上下文，导致目标漂移。作者建议通过改进架构和添加外部记忆来提高LLM的可靠性。然而，LLM仍然无法完全模拟人类的推理能力。

大模型永远也不做了的事情是什么？

程序师 ·