GPT-2 如何预测缩写词?通过机制解释提取和理解电路
原文中文,约300字,阅读约需1分钟。发表于: 。本研究旨在理解 GPT-2 Small 在预测三字母缩写任务中的行为,发现此预测是通过由 8 个注意力头组成的电路来实现的,其中约 5% 的头属于三个不同的作用组,而且这些头主要集中在缩写预测功能上。此外,我们还通过机械解释方法,发现关键的头使用了位置信息,该信息通过因果掩码机制进行传递。我们希望此研究为理解涉及多个令牌预测的更复杂行为奠定基础。
本研究通过分析GPT-2 Small在预测三字母缩写任务中的行为,发现预测是通过8个注意力头的电路实现的,其中约5%的头属于三个不同的作用组,主要集中在缩写预测功能上。关键的头使用了位置信息,通过因果掩码机制进行传递。此研究为理解多个令牌预测的复杂行为奠定基础。