BriefGPT - AI 论文速递 ·

The Heap: A Pollution-Free Multilingual Code Dataset for Evaluating Large Language Models

💡 原文英文，约100词，阅读约需1分钟。

📝

内容提要

本研究推出了“The Heap”数据集，涵盖57种编程语言并去重，解决了大型语言模型评估中的数据污染问题，为研究人员提供了公平评估的新工具。

🎯

🏷️

Claude Code Tools 研究系列（一）—— AskUserQuestion：把「AI 提问」变成结构化交互原语
Claude Code Tools 系列开篇：拆解 AskUserQuestion 这个「结构化提问工具」的设计。用「登录方案选型」这个具体场景对比自由文...
Ponytail Skill for Claude Code: Does It Really Cut Agent Code by 54%?
Part 3 of a series where we take public “token saver” add-ons for coding agen...
Presentation: The Future of Engineering: Mindsets That Matter When Code Isn’t Enough
Ben Greene discusses how software engineers can adapt and thrive in an era of...
[新应用] 在iOS桌面添加Codex/Claude Code/Grok剩余额度支持重置提醒
#软件下载 [新应用] nowdex：在 iOS/macOS 桌面上添加 Codex、Claude Code、Grok 剩余额度，支持重置提醒、查看重置时...
看美团 CatPaw：Agent 平台真正难的不是会聊天，而是能不能进流程
美团发布 CatPaw，把 LongCat 2.0 的模型能力包装成个人工作台和企业级 Agent 开发托管平台。比起模型参数，我更关心它进到真实业务流程...
How NorthStar Anesthesia built a scheduling app for a workforce of 3,000 clinicians in weeks
IntroductionNorthStar Anesthesia manages anesthesia staffing services across ...