量子位 ·

1.5B刷新数学代码SOTA！快手&清华精细化Token管理，LLM推理能力飙升

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

快手与清华团队提出的Archer方法，通过精细化Token管理，提升了1.5B参数小模型在数学和代码任务上的推理能力，实现了知识与推理的平衡，显著提高了模型的正确率，超越同量级SOTA模型。

🎯

关键要点

快手与清华团队提出的Archer方法，通过精细化Token管理，提升了1.5B参数小模型在数学和代码任务上的推理能力。
Archer方法实现了知识与推理的平衡，显著提高了模型的正确率，超越同量级SOTA模型。
传统的强化学习方法对知识型和推理型内容的训练存在问题，导致知识逐渐变差或推理能力受限。
Archer方法通过“双Token约束”对Token进行差异化训练，确保知识和推理的同步更新。
在数学推理任务上，Archer在多个基准上正确率大幅提升，超过了同量级SOTA模型。
在代码生成任务上，Archer的刷题能力显著增强，成为同量级最佳代码生成模型之一。
Archer的训练效率高，仅用单阶段训练和较少的GPU小时数实现了显著提升。
Archer的核心洞察是知识稳定性和推理探索性的平衡，确保模型既能记住基础知识，又能提升逻辑能力。

🏷️

继续阅读

Anthropic推出Claude Code的多智能体代码审查工具
Anthropic的Claude Code产品负责人Cat Wu表示，代码审查自动化愈发重要。随着用户使用Claude Code，提交的PR数量显著增加，...
上下文衰退如何影响企业AI和大型语言模型（LLM）的结果，以及如何解决这一问题
上下文衰退影响企业AI和大型语言模型（LLM）的表现。旧数据未被清除，导致信息混乱和推理能力下降。企业需监控关键数据指标，清除过时数据，以提升AI的准确性和效率。
AI编码代理可以编写代码，Crafting希望帮助他们交付
Crafting CEO Sumeet Vaidya表示，六到九个月前，大家关注AI代理的快速代码生成，但他和联合创始人意识到，工程组织在扩展时面临协调和资源使用等挑战。
88岁图灵奖得主，用Claude一小时破解30年数学悬案
88岁图灵奖得主高德纳对Claude AI在1小时内解决他研究30年的三维图论问题感到震惊。Claude通过结构性思维而非暴力搜索，展现了逻辑推理和创造性...
提高人工智能模型解释其预测能力
麻省理工学院研究人员开发了一种新方法，利用深度学习模型提取概念，以提高计算机视觉模型的准确性和可解释性。该方法通过限制使用的概念数量，确保选择最相关的概念...
PyMKUI：ZLMediakit的现代化前端管理界面
PyMKUI是ZLMediakit的现代化管理界面，提供视频流管理、观众列表和服务器监控等功能。采用Cookie登录以增强安全性，支持Python混合编程...

1.5B刷新数学代码SOTA！快手&清华精细化Token管理，LLM推理能力飙升

内容提要

关键要点

标签

继续阅读