小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨了语言模型在上下文学习中提取少量示例信号的机制，提出了一种新优化方法，发现Llama-3-8B模型仅依赖三个注意力头，并通过自我校正机制提高学习准确性。

Understanding Contextual Learning of Addition through Activated Subspaces

BriefGPT - AI 论文速递 ·

本研究提出FlexiDepth，解决了层跳过方法未考虑计算需求变化的问题。它动态调整Transformer层数，在Llama-3-8B模型中成功跳过8层，保持基准性能并提升生成效率。

Adaptive Layer Skipping in Pre-trained Large Language Models

BriefGPT - AI 论文速递 ·

苹果开源了7B大模型，效果与Llama 3 8B相当，计算量仅为Llama 3 8B的1/6。小模型成为新趋势，大大降低了成本。

苹果开源7B大模型，训练过程数据集一口气全给了，网友：开放得不像苹果

量子位 ·