小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出因果头门控方法(CHG),旨在解决变换器模型中注意力头功能理解的不足。该方法通过学习软门控,为注意力头提供因果分类,适用于各种数据集,揭示因果关系。研究发现多个稀疏子电路,指令遵循和上下文学习依赖于可分离机制。

因果头门控:解释变换器中注意力头角色的框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本研究提出了一种基于拓扑的方法TOHA,用于检测大型语言模型中的幻觉现象。通过分析提示与响应的拓扑差异,发现特定注意力头的差异与幻觉输出相关,拓扑分析有效指示了模型的事实可靠性。

通过注意力图的拓扑差异检测大型语言模型中的幻想

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-14T00:00:00Z

本文提出了一种自适应计算剪枝方法(ACP),有效解决遗忘变换器中注意力头快速遗忘的问题。研究表明,ACP可减少约70%的计算量,提高训练吞吐量10%至35%,在长上下文中效果更为显著,且性能保持稳定。

遗忘变换器的自适应计算剪枝

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-09T00:00:00Z

本研究探讨了视觉变换器在处理扭曲图像时的可解释性,发现深层注意力头对任务的影响显著,揭示了模型功能的专业化,增强了理解和透明度。

对扭曲图像的微调视觉变换器的机制可解释性:解码注意力头行为以实现透明和可信的人工智能

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-24T00:00:00Z

本文探讨了通过剪枝注意力头来减轻大型语言模型的偏差问题,提出了一种随机模拟退火的方法,有效识别需剪除的偏差贡献大的注意力头,实验表明可减少多达40%的性别偏差。

Attention Pruning: Automatically Mitigating Fairness in Language Models through Proxy Simulated Annealing

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出HICD方法,旨在改善大型语言模型中的幻觉现象。通过选择关键注意力头并分散其注意力,HICD显著提升了上下文完整性和知识回忆的准确性,为降低幻觉提供了有效策略。

Contrastive Decoding Method Inducing Hallucinations through Attention Dispersion to Mitigate Hallucinations in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z

本研究探讨了大型语言模型(LLMs)在处理长上下文时的成本优化问题。通过比较不同参数、上下文长度和注意力头配置,发现较大模型与较少注意力头能以更低成本实现更低损失,为LLMs的发展提供了重要启示。

Cost-Optimal Grouped-Query Attention for Long-Context Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-12T00:00:00Z

本研究探讨了语言模型在处理动态时间事实时的不足,发现“时态头”是负责时间知识处理的特定注意力头。研究表明,禁用时态头会降低模型回忆时间特定知识的能力,但不影响其普通功能。

Does Time Have Its Meaning? Temporal Heads: How Language Models Recall Time-Specific Information

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本研究探讨大型语言模型在多语言翻译中的机制,发现少数注意力头主导翻译,并通过微调提升其性能,旨在优化翻译能力与通用性。

探索大型语言模型的翻译机制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究探讨了大型视觉语言模型中的幻觉现象,提出了视觉感知头发散指标,量化注意力头对视觉内容的敏感性,并引入视觉感知头强化方法,显著改善了模型表现。

Cracking the Hallucination in Large Vision-Language Models with Vision-Aware Head Divergence

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

该研究提出了广义关联记忆(GAR)基准测试工具,以解决大型语言模型(LLMs)在组合关系推理(CRR)任务中的理解不足。研究发现现有模型在CRR能力上存在缺陷,并识别出模型在不同任务中重用的核心电路和关键注意力头,为理解模型性能提供了重要见解。

基准测试与理解大型语言模型的组合关系推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-17T00:00:00Z

本研究提出了MAPS框架,全面映射大型语言模型中注意力头的功能,填补了以往仅关注推理行为的研究空白。通过评估20种操作和6种流行的LLM,MAPS的推断结果与输出高度相关,揭示了未充分研究的操作及其普遍性和架构偏差。

Inferring the Function of Attention Heads from Parameters

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z

本研究针对上下文感知机器翻译模型在代词消歧方面的不足,通过调整注意力头的权重,发现优化被低估的注意力头能显著提升消歧效果和模型性能。

分析上下文感知机器翻译模型中注意力头对代词消歧的影响

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-15T00:00:00Z

研究分析大型语言模型中的极端标记现象,探讨注意力头在不同输入中的活跃和休眠机制。提出替代训练策略以缓解该现象,并证明预训练模型中类似机制对推理和可解释性有影响。

主动-休眠注意力头:机制性解密大语言模型中的极端标记现象

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

本研究分析语言模型中语言知识的编码,特别是形态句法现象。通过Shapley头部值方法,发现BERT和RoBERTa模型的注意力头在处理语言现象时有聚类特征。这揭示了模型处理信息的独特方式,对跨语言分析和自然语言处理的可解释性有影响。

基于Shapley头部值的语言模型语言学基础分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

本研究提出DuoAttention框架,通过将注意力头分为检索头和流头,仅对检索头使用全KV缓存,解决长上下文大型语言模型在推理中的计算和内存问题,减少内存和延迟,同时保持长上下文处理能力。

双注意力:具有检索和流头的高效长上下文LLM推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-14T00:00:00Z

本文分析了GPT-2 small模型中注意力头的互动,研究其在复杂任务中的沟通特征。通过稀疏编码信号,分离信号与噪声,揭示了注意力头通信路径和冗余路径的本质。

稀疏注意力分解应用于电路追踪

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-01T00:00:00Z

本研究通过引入ALiBi方法的线性最近偏差来提升变换器模型对阅读时间的拟合度。结果显示,使用ALiBi的变换器模型在拟合人类阅读时间方面表现优于标准变换器。注意力头的分析显示,ALiBi的记忆衰减速率对模型的性能提升起了关键作用。

训练中的线性最近偏差提升变换器与阅读时间的拟合度

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z
大脑如何处理语言?普林斯顿团队对Transformer模型进行分析

普林斯顿大学研究人员探讨了基于Transformer架构的语言模型和人类大脑在语言处理中的功能特殊化问题。研究发现,注意力头的计算可以解释大脑活动的差异,而transformations比嵌入本身更能解释大脑活动中的差异。这项研究为理解人类语言处理提供了新的视角。

大脑如何处理语言?普林斯顿团队对Transformer模型进行分析

机器之心
机器之心 · 2024-07-17T06:18:27Z

本文介绍了局部微调框架(LoFiT)的方法,通过识别关注度高的注意力头并训练偏移向量,有效地调整大型语言模型的表示以适应特定任务。相比表示干预方法,LoFiT的干预向量在提高模型真实性和推理任务上更有效。

LLM 表示的本地微调:LoFiT

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-03T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码