小红花·文摘

本研究提出因果头门控方法（CHG），旨在解决变换器模型中注意力头功能理解的不足。该方法通过学习软门控，为注意力头提供因果分类，适用于各种数据集，揭示因果关系。研究发现多个稀疏子电路，指令遵循和上下文学习依赖于可分离机制。

因果头门控：解释变换器中注意力头角色的框架

BriefGPT - AI 论文速递 ·

本研究提出了一种基于拓扑的方法TOHA，用于检测大型语言模型中的幻觉现象。通过分析提示与响应的拓扑差异，发现特定注意力头的差异与幻觉输出相关，拓扑分析有效指示了模型的事实可靠性。

通过注意力图的拓扑差异检测大型语言模型中的幻想

BriefGPT - AI 论文速递 ·

本文提出了一种自适应计算剪枝方法（ACP），有效解决遗忘变换器中注意力头快速遗忘的问题。研究表明，ACP可减少约70%的计算量，提高训练吞吐量10%至35%，在长上下文中效果更为显著，且性能保持稳定。

遗忘变换器的自适应计算剪枝

BriefGPT - AI 论文速递 ·

本研究探讨了视觉变换器在处理扭曲图像时的可解释性，发现深层注意力头对任务的影响显著，揭示了模型功能的专业化，增强了理解和透明度。

对扭曲图像的微调视觉变换器的机制可解释性：解码注意力头行为以实现透明和可信的人工智能

BriefGPT - AI 论文速递 ·

本文探讨了通过剪枝注意力头来减轻大型语言模型的偏差问题，提出了一种随机模拟退火的方法，有效识别需剪除的偏差贡献大的注意力头，实验表明可减少多达40%的性别偏差。

Attention Pruning: Automatically Mitigating Fairness in Language Models through Proxy Simulated Annealing

BriefGPT - AI 论文速递 ·

本研究提出HICD方法，旨在改善大型语言模型中的幻觉现象。通过选择关键注意力头并分散其注意力，HICD显著提升了上下文完整性和知识回忆的准确性，为降低幻觉提供了有效策略。

Contrastive Decoding Method Inducing Hallucinations through Attention Dispersion to Mitigate Hallucinations in Large Language Models

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLMs）在处理长上下文时的成本优化问题。通过比较不同参数、上下文长度和注意力头配置，发现较大模型与较少注意力头能以更低成本实现更低损失，为LLMs的发展提供了重要启示。

Cost-Optimal Grouped-Query Attention for Long-Context Large Language Models

BriefGPT - AI 论文速递 ·

本研究探讨了语言模型在处理动态时间事实时的不足，发现“时态头”是负责时间知识处理的特定注意力头。研究表明，禁用时态头会降低模型回忆时间特定知识的能力，但不影响其普通功能。

Does Time Have Its Meaning? Temporal Heads: How Language Models Recall Time-Specific Information

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型在多语言翻译中的机制，发现少数注意力头主导翻译，并通过微调提升其性能，旨在优化翻译能力与通用性。

探索大型语言模型的翻译机制

BriefGPT - AI 论文速递 ·

本研究探讨了大型视觉语言模型中的幻觉现象，提出了视觉感知头发散指标，量化注意力头对视觉内容的敏感性，并引入视觉感知头强化方法，显著改善了模型表现。

Cracking the Hallucination in Large Vision-Language Models with Vision-Aware Head Divergence

BriefGPT - AI 论文速递 ·

该研究提出了广义关联记忆（GAR）基准测试工具，以解决大型语言模型（LLMs）在组合关系推理（CRR）任务中的理解不足。研究发现现有模型在CRR能力上存在缺陷，并识别出模型在不同任务中重用的核心电路和关键注意力头，为理解模型性能提供了重要见解。

基准测试与理解大型语言模型的组合关系推理

BriefGPT - AI 论文速递 ·

本研究提出了MAPS框架，全面映射大型语言模型中注意力头的功能，填补了以往仅关注推理行为的研究空白。通过评估20种操作和6种流行的LLM，MAPS的推断结果与输出高度相关，揭示了未充分研究的操作及其普遍性和架构偏差。

Inferring the Function of Attention Heads from Parameters

BriefGPT - AI 论文速递 ·

本研究针对上下文感知机器翻译模型在代词消歧方面的不足，通过调整注意力头的权重，发现优化被低估的注意力头能显著提升消歧效果和模型性能。

分析上下文感知机器翻译模型中注意力头对代词消歧的影响

BriefGPT - AI 论文速递 ·

研究分析大型语言模型中的极端标记现象，探讨注意力头在不同输入中的活跃和休眠机制。提出替代训练策略以缓解该现象，并证明预训练模型中类似机制对推理和可解释性有影响。

主动-休眠注意力头：机制性解密大语言模型中的极端标记现象

BriefGPT - AI 论文速递 ·

本研究分析语言模型中语言知识的编码，特别是形态句法现象。通过Shapley头部值方法，发现BERT和RoBERTa模型的注意力头在处理语言现象时有聚类特征。这揭示了模型处理信息的独特方式，对跨语言分析和自然语言处理的可解释性有影响。

基于Shapley头部值的语言模型语言学基础分析

BriefGPT - AI 论文速递 ·

本研究提出DuoAttention框架，通过将注意力头分为检索头和流头，仅对检索头使用全KV缓存，解决长上下文大型语言模型在推理中的计算和内存问题，减少内存和延迟，同时保持长上下文处理能力。

双注意力：具有检索和流头的高效长上下文LLM推理

BriefGPT - AI 论文速递 ·

本文分析了GPT-2 small模型中注意力头的互动，研究其在复杂任务中的沟通特征。通过稀疏编码信号，分离信号与噪声，揭示了注意力头通信路径和冗余路径的本质。

稀疏注意力分解应用于电路追踪

BriefGPT - AI 论文速递 ·

本研究通过引入ALiBi方法的线性最近偏差来提升变换器模型对阅读时间的拟合度。结果显示，使用ALiBi的变换器模型在拟合人类阅读时间方面表现优于标准变换器。注意力头的分析显示，ALiBi的记忆衰减速率对模型的性能提升起了关键作用。

训练中的线性最近偏差提升变换器与阅读时间的拟合度

BriefGPT - AI 论文速递 ·

大脑如何处理语言？普林斯顿团队对Transformer模型进行分析

机器之心 ·

本文介绍了局部微调框架（LoFiT）的方法，通过识别关注度高的注意力头并训练偏移向量，有效地调整大型语言模型的表示以适应特定任务。相比表示干预方法，LoFiT的干预向量在提高模型真实性和推理任务上更有效。

LLM 表示的本地微调：LoFiT

BriefGPT - AI 论文速递 ·