小红花·文摘

Agent设计模式——术语表

XINDOO的博客 ·

Agent设计模式——术语表

XINDOO的博客 ·

本研究探讨了变压器模型的两种学习模式：权重内学习（IWL）和上下文学习（ICL）。结果表明，环境的可预测性影响这两种模式的平衡。在高稳定性环境中，IWL更有效，而在低稳定性环境中，ICL更具优势。这为学习模式的转换和训练方法的改进提供了新见解。

Predictability Shapes Adaptation: An Evolutionary Perspective on Learning Modes in Transformers

BriefGPT - AI 论文速递 ·

本研究提出WebApp1K基准，评估大规模语言模型在测试驱动开发中的表现，强调模型理解功能、指令遵循和上下文学习的重要性。

将测试作为提示：面向大规模语言模型代码生成的测试驱动开发基准

BriefGPT - AI 论文速递 ·

本研究探讨了语言模型在上下文学习中提取少量示例信号的机制，提出了一种新优化方法，发现Llama-3-8B模型仅依赖三个注意力头，并通过自我校正机制提高学习准确性。

Understanding Contextual Learning of Addition through Activated Subspaces

BriefGPT - AI 论文速递 ·

本文提出了一种新的不变ICL（InvICL）方法，旨在解决自回归大型语言模型中上下文学习对示例顺序敏感的问题。InvICL通过识别信息非泄漏和上下文相互依赖性，在多个基准数据集上表现优于现有模型，展现出更强的泛化能力。

Rethinking Invariance in In-context Learning

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型在微调后的泛化能力不足，特别是在简单关系反转和逻辑推理方面的表现。通过新数据集，发现上下文学习在某些情况下优于微调，并提出将上下文推理融入微调数据以提升泛化能力的方法，验证了其有效性。这为语言模型的实际应用提供了改进方案。

关于语言模型在上下文学习与微调中的泛化研究：一项对照研究

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型在语义感知中的不足，通过比较上下文学习与监督微调，发现微调后的LLMs在多项任务中表现优异，能够有效处理过程发现和异常检测问题。

The Potential of Large Language Models in Semantic Perception Process Mining Tasks

BriefGPT - AI 论文速递 ·

本研究探讨了在隐私约束下上下文学习的可行性，提出了一种差分隐私预训练算法，并分析了优化与隐私噪声之间的矛盾，展示了该方法在干扰下的鲁棒性。

How Private Is Your Attention? Bridging Privacy and In-Context Learning

BriefGPT - AI 论文速递 ·

本研究提出M2IV方法，以解决大型视觉语言模型中的多模态上下文学习挑战。通过引入可学习的上下文向量，增强了模型的表示能力。实验结果显示，M2IV在多个基准测试中平均准确率提高了3.74%，且效率显著提升。

M2IV：朝着高效且细粒度的多模态上下文学习在大型视觉语言模型中的应用

BriefGPT - AI 论文速递 ·

本文探讨了门控线性注意力（GLA）模型在上下文学习中的作用，分析其加权机制对预测的影响。研究表明，GLA模型能够实现通用的加权预条件梯度下降算法，并证明其全局最优解的存在性和唯一性，揭示了门控如何提升上下文感知学习，优于传统线性注意力。

Gating is Weighting: Understanding Gated Linear Attention through In-context Learning

BriefGPT - AI 论文速递 ·

本研究探讨了上下文学习对大型语言模型推理能力的影响，发现CoT提示显著提升了RLLMs在复杂问题上的表现，为优化提供了重要策略。

Inherent Insufficiency in Reasoning: Enhancing Reasoning through Contextual Learning

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型（LLMs）是否通过上下文学习进行结构化推理，结果发现LLMs通常存在偏见的先验，但能够在上下文证据的影响下以贝叶斯方式进行更新。

Sufficient Coin Flips Can Induce Bayesian Behavior in Large Language Models

BriefGPT - AI 论文速递 ·

本研究分析了视觉语言模型在上下文学习中不同人口统计子群体的表现差异，指出模型预测受疾病基础发生率的影响，并提供了最佳使用实践的建议。

BiasICL：视觉语言模型的上下文学习和人口统计偏见

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过大规模表格模型进行上下文学习，克服增量决策树的局限性。TabPFN模型结合滑动记忆策略，在非平稳基准测试中优于Hoeffding树，展现出良好的实时适应能力。

Context Learning for Dynamic Data Streams Based on Tabular Foundation Models

BriefGPT - AI 论文速递 ·

本研究提出了一种名为“元训练上下文学习单词”（Minnow）的方法，旨在解决语言模型在少量示例下学习新词的不足。通过儿童导向的语言训练，显著提高了模型在词汇学习任务中的表现和数据效率。

通过元上下文学习的快速词汇学习

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型在上下文学习中的机制，发现功能向量头主导少样本学习性能，而归纳头则促进功能向量机制的学习，为理解语言模型的学习机制提供了新视角。

哪些注意力头对于上下文学习至关重要？

BriefGPT - AI 论文速递 ·

语言模型新范式：首个8B扩散大语言模型LLaDA发布，性能比肩LLaMA 3

机器之心 ·

本研究提出了一种新方法——多因素平衡ICL（BMF-ICL），旨在解决多语种大型语言模型在上下文学习中因示例选择导致的有效性差异。实验结果表明，BMF-ICL在多个模型上优于现有方法，强调了整合多因素的重要性。

Application of Multi-Factor Balanced In-Context Learning in Multilingual Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出电子电路模型（ECM），旨在统一解释大语言模型中的上下文学习和思维链现象。ECM通过模拟二者的相互作用，提升模型性能，优化推理策略，超越80%的顶尖人类选手，展现出显著潜力。

Electronic Circuit Model: A Unified Model for Explaining In-Context Learning and Chain-of-Thought Phenomena in Large Language Models

BriefGPT - AI 论文速递 ·