本研究提出了一种群体交叉编码器,能够自动识别神经网络中的对称特征,推动可解释性研究。通过字典学习,揭示几何特征的不变性和等变性,提供了新的视角。
本研究提出了“p-退火”训练方法,解决稀疏自编码器缺乏可解释特征评估标准的问题。通过象棋和围棋数据验证,该方法在无监督学习和新度量标准上表现优异,推动了可解释字典学习的发展。
Anthropic开发了一种称为“字典学习”的技术,用于识别其语言模型Claude中的神经“节点”或“特征”,这些特征对应于特定的概念、实体和想法。可以操控这些特征来调整模型的行为,而无需重新训练或放大/抑制某些概念。然而,这项研究的计算成本很高,可能需要对每个新的语言模型重复进行。对人工智能安全性和控制的长期影响仍有待观察。
本文介绍了一种改进的扩展动态模式分解与字典学习方法,用于预测复杂动力学特征系统的时间演化。该方法在不同系统中的性能表现显著优于传统方法,并且与状态空间方法的预测结果相当。
本文从数学表示理论的角度研究了学习具有预先指定的变换不变性的字典的问题,并使用非阿贝尔傅里叶分析提出了算法有效实现了学习。通过将字典学习问题与物理域中的问题以及相关的计算问题联系起来,本文为我们提供了一种处理具有对称性的问题的新视角,使我们得以引入带限制的方法来进行降维,并为学习 SO(3)不变字典提供了一种有效的方法,本文提供了有关我们计算方法的保证。
完成下面两步后,将自动完成登录并继续当前操作。