本文探讨了扩散变换器(DiT)模型的归纳偏差对泛化能力的影响。研究发现,局部注意力窗口与泛化能力密切相关,通过限制注意力窗口并注入局部注意力,可以显著提高模型的泛化和生成质量,尤其在训练数据较少的情况下。优化DiT的归纳偏差有助于提升性能。
17世纪,开普勒发现行星运动规律,牛顿提出万有引力法则。MIT和哈佛的研究表明,尽管现代AI在预测方面表现良好,但对世界的理解仍有限,尚未能从预测转向建立世界模型。研究团队开发了新指标‘归纳偏差’,用于评估AI系统与真实世界模型的匹配能力。
本研究探讨神经网络中的归纳偏差,重点分析初始权重的作用。通过元学习,发现不同架构间的性能差异可以显著减少,表明架构和数据表示的重要性较低。同时,所有架构在远离元训练经验的问题上表现不佳,强调强归纳偏差对稳健泛化的必要性。
本研究提出了一种即时策略,通过图表示引入归纳偏差,解决机器人领域的上下文模仿学习问题,快速学习多种日常任务,并为跨实体和零样本转移奠定基础。
本研究探讨大型语言模型(LLMs)在幻觉出现方面的可靠性,分析架构归纳偏差对幻觉诱发的影响。研究发现,不同模型架构在幻觉出现的频率和诱发难易程度上存在显著差异,提示在架构设计中需考虑幻觉问题,以优化相关技术。
该研究提出了一种与模型无关的归纳偏差复杂度度量,用于评估监督学习、增强学习和元学习的泛化难度。通过分析78个数据集,开发了衡量文本分类难度的方法,并探讨了数据属性对轻量级卷积神经网络的影响,提出了特征描述的分类复杂度测量方法。
本文研究了将矛线虫的运动回路转化为人工神经网络的方法,并评估了这些网络在动态和非动态行为任务上的训练结果。研究发现,使用生物电路仍能获得优势,即使不保持生物特性的真实性。矛线虫的运动回路对于运动问题具有强大的归纳偏差,但其结构可能会妨碍其他与运动无关的任务。
研究发现,扩散模型生成不寻常图像的能力受到语义潜在表示的影响。即使在不平衡的数据集中,模型仍然耦合地学习x和y的定位。未来的研究需要找到归纳偏差,以提高生成模型的效率。
本文研究了深度模型在表格数据上的归纳偏差问题,提出了AMFormer变形器结构,并通过实验验证了其在表格数据建模、训练数据效率和泛化能力方面的优势。
本文研究了大型语言模型的预训练是否会赋予其非语言推理的归纳偏差,并通过试验发现预先训练的模型明显优于非预先训练的神经模型,即使在更少参数的情况下进行训练。同时,即使在预训练多语言文本或计算机代码并生成合成语言的情况下,也可以持续预训练的积极效应。这些发现暗示了预先培训与模型的归纳学习能力之间的深层联系。
该文章探索了Transformer模型的设计空间,发现一些设计决策对模型的归纳偏差有很大影响。通过这些决策,可以显著提高模型的组合泛化能力,并在各种复合任务中实现了比文献报道更好的泛化结果。
该文介绍了一种名为Dual Cognitive Architecture (DUCA)的新型框架,它结合了人类认知的多个因素,并具备多个子系统、内隐和显性知识表示二分法、归纳偏差以及多记忆系统功能。该框架在各种场景和数据集上表现出改进,并且展示了对于挑战性分布转移的优异性能。
完成下面两步后,将自动完成登录并继续当前操作。