本文探讨了激活引导方法在大型语言模型中的应用,旨在通过识别特定概念的神经元来增强生成语言的可解释性。研究表明,ExpertLens能够稳定捕捉模型表示,并与人类行为数据高度一致,超越传统的词/句嵌入对齐方式,显示出其作为分析模型表示的灵活性和轻量性。
本研究分析了预训练语言模型中的性别偏见,揭示了不同模型在性别编码上的一致性,并指出常见去偏见技术效果有限,甚至可能加剧偏见,为改善偏见缓解策略提供了指导。
本研究提出Astromer 2模型,解决光曲线分析中的模型表示不足问题。该模型通过自监督学习在150万条光曲线数据上预训练,并在小型标注数据集上微调,显著提升性能,尤其在样本较少时F1分数提高15%。
本研究探讨了下一标记预测对语言模式与模型表示几何属性映射的影响,发现NTP促进了稀疏加低秩结构的学习,可能导致表示在适当子空间中聚集。其他研究探讨了语境化表示的拓扑感知、大型语言模型中嵌入的信息编码、下一标记预测的隐性偏见等。还提出了构建无需固定词嵌入的语言模型、重新考虑预训练语言模型的词元嵌入及其定义等方法。
本文介绍了CroMo-Mixup,一种用于解决连续自我监督学习中任务混淆问题的特征混合框架。通过混合样本、学习样本嵌入的相似性以及原始图像,提高负样本多样性、促进跨任务类对比学习和旧知识检索。实验证明该框架在任务标识预测和所有任务的平均线性准确性上有效,并与四种先进的自监督学习目标兼容。
通过将自回归预测目标与构建预测充分统计量的思想联系起来,我们确定了三种情况下嵌入的最佳内容:独立同分布数据、潜在状态模型和离散假设空间,并进行实证研究表明 Transformers 编码了这三种潜在生成分布,并在这些情况下表现良好。
本文介绍了一种名为Model2Scene的新方法,通过学习CAD模型和语言中的三维场景表示,解决了CAD模型与真实场景对象之间的领域差异。该方法通过混合数据增强的CAD模型模拟拥挤的场景,并使用深凸包正则化操作减小领域差距。实验证实该方法在无标签三维物体显著目标检测、标签高效三维场景感知和零样本三维语义分割等任务中具有益处。
本文介绍了分布式对齐搜索(DAS)方法,使用梯度下降找出高层和低层模型对齐,允许神经元在非标准基中扮演多个角色,发现其他方法所错过的内在结构,消除因果抽象分析的前期限制。
机器学习研究取得进展,但模型可解释性不足。研究团队提出模块化操作框架,保持性能和可解释性。通过多样化解释技术和数据处理,揭示复杂模型决策过程。框架在计算效率和可解释性方面取得卓越成效。满足机器学习应用需求。
本研究提出了一种解决多语言神经机器翻译中零翻译问题的方法,通过移除编码器层中的残差连接,使模型表示更加与特定语言对应。实验证明,该方法在零翻译任务上获得了18.5个BLEU点的提升,并在其他有监督的翻译中表现出高质量。同时,通过对隐藏层输出的检查,证明该方法能够获得更多的语言无关性。
本文介绍了使用Galaxy Zoo项目的机器学习模型,通过卷积神经网络从星系图像中提取特征并分类为螺旋形或椭圆形。模型与人类分类器比较后证明了其有效性,准确性高,有助于增强对星系形成和演化的理解。
本论文介绍了一种视觉模型驱动的强化学习方法,能够在动态环境中有效运行并对噪声和干扰具有弹性。作者还提出了一种简单的无奖励对齐过程,使得编码器能够在测试时快速适应。通过模拟基准测试和真实环境中的实验,作者展示了该方法的有效性。
本研究重新审视了连续学习基准,发现模型表示会经历较小的表示忘却,并探讨了其对模型容纳能力和损失函数的影响。研究提出了一种简单但竞争力强的方法,即通过有监督对比学习来学习表示。
本研究提出了一种有效缓解多语言神经机器翻译中零翻译问题的方法,通过移除编码器层中的残差连接,使模型表示更加与特定语言对应。在零翻译任务中,我们获得了18.5个BLEU点的提升,并在其他有监督的翻译中保持了高质量表现。通过对隐藏层输出的检查,我们证明了该方法能够获得更多的语言无关性。
完成下面两步后,将自动完成登录并继续当前操作。