BriefGPT - AI 论文速递 ·

使用终身 ICL 和任务焦点对长篇语言模型进行压力测试

💡 原文中文，约400字，阅读约需1分钟。

📝

内容提要

研究发现，当模型的上下文长度增加时，示例检索在较短上下文下表现好，但随着演示增加，增益减弱。微调比上下文学习更依赖数据，但有时可以超过长上下文性能。长上下文对乱序不敏感，相同标识示例分组可能对性能有负面影响。长上下文性能提升不是来自累积增益，而是来自于重新关注类似示例而非任务学习。

🎯

🏷️

Auto Research时代，47个没有标准答案的任务成了Agent能力必测榜
量子位的研究表明，AI在工程优化中进入“迭代优化”时代。新发布的Agent Benchmark测试强调AI需在反馈中自我修正，像工程师一样寻找最优解。研究...
何恺明首个语言模型：105M参数，不走GPT自回归老路
何恺明团队推出了新的扩散语言模型ELF，该模型采用连续的embedding空间进行文本生成，显著降低了生成困惑度。ELF在训练和采样效率上表现优异，仅用1...
第734期：Dunder方法、生产环境中的Django任务、Codex CLI及更多内容（2026-05-12）
本文讨论了Python中的重要功能，包括.__getitem__()、.__getattr__()、.__getattribute__()和.__get_...
OpenAI’s Daybreak and Anthropic’s Glasswing have nearly identical benchmarks — and 3 of the same partners
This week, OpenAI launched Daybreak, its cybersecurity initiative built aroun...
Exploring Matisse’s ‘Wild Palette’: Can AI offer new ways to connect with art?
femme au chapeau painting
I tested OpenAI’s three claims about GPT-5.5 Instant, and only one fully held up
Last week, OpenAI replaced GPT-5.3 Instant as ChatGPT’s default model with GP...