小红花·文摘 - 小红花技术领袖俱乐部

基于大型语言模型的扩展规律需要考虑推理成本。研究人员发现，具有大量推理需求的LLM应该训练比Chinchilla-optimal更小且更长的模型。

超越 Chinchilla-Optimal：考虑推理在语言模型扩展规律中的影响

BriefGPT - AI 论文速递 ·

本研究通过大规模采样在解码阶段引入 PassUntil 评估策略，发现了突现能力的具体证据，并提出了一种新假设，推翻了有关突现能力产生的常见假设。

解锁可预测的增长能力

BriefGPT - AI 论文速递 ·