小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出因果头门控方法(CHG),旨在解决变换器模型中注意力头功能理解的不足。该方法通过学习软门控,为注意力头提供因果分类,适用于各种数据集,揭示因果关系。研究发现多个稀疏子电路,指令遵循和上下文学习依赖于可分离机制。

因果头门控:解释变换器中注意力头角色的框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本研究提出了一种基于拓扑的方法TOHA,用于检测大型语言模型中的幻觉现象。通过分析提示与响应的拓扑差异,发现特定注意力头的差异与幻觉输出相关,拓扑分析有效指示了模型的事实可靠性。

通过注意力图的拓扑差异检测大型语言模型中的幻想

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本文提出了一种自适应计算剪枝方法(ACP),有效解决遗忘变换器中注意力头快速遗忘的问题。研究表明,ACP可减少约70%的计算量,提高训练吞吐量10%至35%,在长上下文中效果更为显著,且性能保持稳定。

遗忘变换器的自适应计算剪枝

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-09T00:00:00Z

本研究探讨了视觉变换器在处理扭曲图像时的可解释性,发现深层注意力头对任务的影响显著,揭示了模型功能的专业化,增强了理解和透明度。

对扭曲图像的微调视觉变换器的机制可解释性:解码注意力头行为以实现透明和可信的人工智能

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-24T00:00:00Z

本文探讨了通过剪枝注意力头来减轻大型语言模型的偏差问题,提出了一种随机模拟退火的方法,有效识别需剪除的偏差贡献大的注意力头,实验表明可减少多达40%的性别偏差。

Attention Pruning: Automatically Mitigating Fairness in Language Models through Proxy Simulated Annealing

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出HICD方法,旨在改善大型语言模型中的幻觉现象。通过选择关键注意力头并分散其注意力,HICD显著提升了上下文完整性和知识回忆的准确性,为降低幻觉提供了有效策略。

Contrastive Decoding Method Inducing Hallucinations through Attention Dispersion to Mitigate Hallucinations in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z

本研究探讨了大型语言模型(LLMs)在处理长上下文时的成本优化问题。通过比较不同参数、上下文长度和注意力头配置,发现较大模型与较少注意力头能以更低成本实现更低损失,为LLMs的发展提供了重要启示。

Cost-Optimal Grouped-Query Attention for Long-Context Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-12T00:00:00Z

本研究探讨了语言模型在处理动态时间事实时的不足,发现“时态头”是负责时间知识处理的特定注意力头。研究表明,禁用时态头会降低模型回忆时间特定知识的能力,但不影响其普通功能。

Does Time Have Its Meaning? Temporal Heads: How Language Models Recall Time-Specific Information

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本研究探讨大型语言模型在多语言翻译中的机制,发现少数注意力头主导翻译,并通过微调提升其性能,旨在优化翻译能力与通用性。

探索大型语言模型的翻译机制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究探讨了大型视觉语言模型中的幻觉现象,提出了视觉感知头发散指标,量化注意力头对视觉内容的敏感性,并引入视觉感知头强化方法,显著改善了模型表现。

Cracking the Hallucination in Large Vision-Language Models with Vision-Aware Head Divergence

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

该研究提出了广义关联记忆(GAR)基准测试工具,以解决大型语言模型(LLMs)在组合关系推理(CRR)任务中的理解不足。研究发现现有模型在CRR能力上存在缺陷,并识别出模型在不同任务中重用的核心电路和关键注意力头,为理解模型性能提供了重要见解。

基准测试与理解大型语言模型的组合关系推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-17T00:00:00Z

本研究提出了MAPS框架,全面映射大型语言模型中注意力头的功能,填补了以往仅关注推理行为的研究空白。通过评估20种操作和6种流行的LLM,MAPS的推断结果与输出高度相关,揭示了未充分研究的操作及其普遍性和架构偏差。

Inferring the Function of Attention Heads from Parameters

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z

本研究针对上下文感知机器翻译模型在代词消歧方面的不足,通过调整注意力头的权重,发现优化被低估的注意力头能显著提升消歧效果和模型性能。

分析上下文感知机器翻译模型中注意力头对代词消歧的影响

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-15T00:00:00Z

本研究探讨大型语言模型中的极端标记现象,分析注意力头在不同输入中的活跃与休眠机制,并提出替代训练策略以缓解此现象。研究表明,预训练模型中存在类似机制,影响推理和可解释性。

Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

本研究分析语言模型中语言知识的编码,特别是形态句法现象。通过Shapley头部值方法,发现BERT和RoBERTa模型的注意力头在处理语言现象时有聚类特征。这揭示了模型处理信息的独特方式,对跨语言分析和自然语言处理的可解释性有影响。

基于Shapley头部值的语言模型语言学基础分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

本文分析了GPT-2 small模型中注意力头的互动,研究其在复杂任务中的沟通特征。通过稀疏编码信号,分离信号与噪声,揭示了注意力头通信路径和冗余路径的本质。

Sparse Attention Decomposition Applied to Circuit Tracing

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-01T00:00:00Z
大脑如何处理语言?普林斯顿团队对Transformer模型进行分析

普林斯顿大学研究人员探讨了基于Transformer架构的语言模型和人类大脑在语言处理中的功能特殊化问题。研究发现,注意力头的计算可以解释大脑活动的差异,而transformations比嵌入本身更能解释大脑活动中的差异。这项研究为理解人类语言处理提供了新的视角。

大脑如何处理语言?普林斯顿团队对Transformer模型进行分析

机器之心
机器之心 · 2024-07-17T06:18:27Z

本文探讨了大型语言模型中“感应头”在上下文学习中的作用,提出多种假设并通过实证研究验证。研究表明,变压器模型的上下文学习能力源于层间交互,特定注意力头对语义理解至关重要。通过分析和训练,提出了增强上下文学习的有效方法,强调背景学习对模型性能的提升。

上下文学习中的感应头作为模式匹配的基础机制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-09T00:00:00Z

本文研究了变换器模型中注意力头的作用,强调其在上下文学习和长文本处理中的重要性。提出了LongHeads框架,以增强大语言模型的上下文处理能力,并通过注意力排序提升长文本生成性能。同时,探讨了模型在事实回忆任务中的机制及其局限性,并提出新的替代方案以提高推理效率和长程依赖利用。

检索式机制解释长上下文真实性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-24T00:00:00Z

本文探讨了“感应头”在大型变换器模型中对上下文学习的影响,认为其可能是上下文学习的主要机制。研究表明,变压器模型能够有效地基于输入序列进行上下文学习,不同的注意力头在此过程中发挥重要作用。上下文学习能力与模型架构、训练数据分布及任务结构密切相关。

感应头需要什么才能正常工作:关于上下文学习电路及其形成的机制研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-10T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码