本研究提出因果头门控方法(CHG),旨在解决变换器模型中注意力头功能理解的不足。该方法通过学习软门控,为注意力头提供因果分类,适用于各种数据集,揭示因果关系。研究发现多个稀疏子电路,指令遵循和上下文学习依赖于可分离机制。
本研究提出了一种基于拓扑的方法TOHA,用于检测大型语言模型中的幻觉现象。通过分析提示与响应的拓扑差异,发现特定注意力头的差异与幻觉输出相关,拓扑分析有效指示了模型的事实可靠性。
本文提出了一种自适应计算剪枝方法(ACP),有效解决遗忘变换器中注意力头快速遗忘的问题。研究表明,ACP可减少约70%的计算量,提高训练吞吐量10%至35%,在长上下文中效果更为显著,且性能保持稳定。
本研究探讨了视觉变换器在处理扭曲图像时的可解释性,发现深层注意力头对任务的影响显著,揭示了模型功能的专业化,增强了理解和透明度。
本文探讨了通过剪枝注意力头来减轻大型语言模型的偏差问题,提出了一种随机模拟退火的方法,有效识别需剪除的偏差贡献大的注意力头,实验表明可减少多达40%的性别偏差。
本研究提出HICD方法,旨在改善大型语言模型中的幻觉现象。通过选择关键注意力头并分散其注意力,HICD显著提升了上下文完整性和知识回忆的准确性,为降低幻觉提供了有效策略。
本研究探讨了大型语言模型(LLMs)在处理长上下文时的成本优化问题。通过比较不同参数、上下文长度和注意力头配置,发现较大模型与较少注意力头能以更低成本实现更低损失,为LLMs的发展提供了重要启示。
本研究探讨了语言模型在处理动态时间事实时的不足,发现“时态头”是负责时间知识处理的特定注意力头。研究表明,禁用时态头会降低模型回忆时间特定知识的能力,但不影响其普通功能。
本研究探讨大型语言模型在多语言翻译中的机制,发现少数注意力头主导翻译,并通过微调提升其性能,旨在优化翻译能力与通用性。
本研究探讨了大型视觉语言模型中的幻觉现象,提出了视觉感知头发散指标,量化注意力头对视觉内容的敏感性,并引入视觉感知头强化方法,显著改善了模型表现。
该研究提出了广义关联记忆(GAR)基准测试工具,以解决大型语言模型(LLMs)在组合关系推理(CRR)任务中的理解不足。研究发现现有模型在CRR能力上存在缺陷,并识别出模型在不同任务中重用的核心电路和关键注意力头,为理解模型性能提供了重要见解。
本研究提出了MAPS框架,全面映射大型语言模型中注意力头的功能,填补了以往仅关注推理行为的研究空白。通过评估20种操作和6种流行的LLM,MAPS的推断结果与输出高度相关,揭示了未充分研究的操作及其普遍性和架构偏差。
本研究针对上下文感知机器翻译模型在代词消歧方面的不足,通过调整注意力头的权重,发现优化被低估的注意力头能显著提升消歧效果和模型性能。
本研究探讨大型语言模型中的极端标记现象,分析注意力头在不同输入中的活跃与休眠机制,并提出替代训练策略以缓解此现象。研究表明,预训练模型中存在类似机制,影响推理和可解释性。
本研究分析语言模型中语言知识的编码,特别是形态句法现象。通过Shapley头部值方法,发现BERT和RoBERTa模型的注意力头在处理语言现象时有聚类特征。这揭示了模型处理信息的独特方式,对跨语言分析和自然语言处理的可解释性有影响。
本文分析了GPT-2 small模型中注意力头的互动,研究其在复杂任务中的沟通特征。通过稀疏编码信号,分离信号与噪声,揭示了注意力头通信路径和冗余路径的本质。
普林斯顿大学研究人员探讨了基于Transformer架构的语言模型和人类大脑在语言处理中的功能特殊化问题。研究发现,注意力头的计算可以解释大脑活动的差异,而transformations比嵌入本身更能解释大脑活动中的差异。这项研究为理解人类语言处理提供了新的视角。
本文探讨了大型语言模型中“感应头”在上下文学习中的作用,提出多种假设并通过实证研究验证。研究表明,变压器模型的上下文学习能力源于层间交互,特定注意力头对语义理解至关重要。通过分析和训练,提出了增强上下文学习的有效方法,强调背景学习对模型性能的提升。
本文研究了变换器模型中注意力头的作用,强调其在上下文学习和长文本处理中的重要性。提出了LongHeads框架,以增强大语言模型的上下文处理能力,并通过注意力排序提升长文本生成性能。同时,探讨了模型在事实回忆任务中的机制及其局限性,并提出新的替代方案以提高推理效率和长程依赖利用。
本文探讨了“感应头”在大型变换器模型中对上下文学习的影响,认为其可能是上下文学习的主要机制。研究表明,变压器模型能够有效地基于输入序列进行上下文学习,不同的注意力头在此过程中发挥重要作用。上下文学习能力与模型架构、训练数据分布及任务结构密切相关。
完成下面两步后,将自动完成登录并继续当前操作。