本文探讨了PI公司发布的Human to Robot数据采集工作,强调通过人类视频学习技能的潜力。研究表明,多样化的数据预训练能提升机器人对人类数据的迁移能力,促进其在新任务和场景中的泛化。作者提出了一种联合训练方案,验证了多样化预训练的重要性。
CMU研究发现,数学能力强的大模型在其他领域的表现有限。只有通过强化学习(RL)训练的模型能够有效迁移数学推理技能,而监督微调(SFT)可能导致负迁移。研究表明,微调方法是影响迁移能力的关键,RL模型在保持原有知识的同时提升了特定领域的表现。
Ferret-UI 2是一种多模态大型语言模型,专注于跨平台用户界面理解,具备高分辨率感知和任务训练数据生成能力。实验表明,其在复杂用户交互中表现优异,具备强大的跨平台迁移能力。
本研究提出了一种动态数据集修剪策略,以解决自监督学习在地球观察中的数据集策划不足问题,提升预训练数据集的多样性与平衡性,增强模型的迁移能力。
本研究提出了一种增强目标的对抗触发器学习方法(ATLA),通过改进负对数似然损失,实现了基于查询-响应的对抗触发器学习。ATLA展现出接近100%的攻击成功率,具有良好的迁移和泛化能力,并显著减少了查询需求。
本研究探讨了大语言模型在多语言迁移中的性能差异,提出了一种中层对齐目标,能够有效提升低资源语言的迁移能力,并可与现有模块融合,无需完全重新训练。
本研究提出了一种自适应对抗风格扰动方法SVasP,旨在解决跨领域少样本学习中的梯度不稳定和局部优化问题。通过多样化输入和聚合样本风格梯度,显著提升了模型的迁移能力,实验结果表明该方法在多个数据集上超越了现有技术。
本研究提出了MSSIDD数据集,评估去噪模型在不同传感器间的迁移能力,并设计了传感器一致性训练框架,以提高模型的泛化能力。
本研究提出JOWA模型,解决离线强化学习中构建通用智能体的问题。通过在多个Atari游戏上预训练,模型能学习通用表示和决策能力。实验显示,JOWA在仅用10%离线数据时,性能超越现有基线,并在新游戏上表现出高效迁移和优越泛化能力。
逆强化学习(IRL)通过专家演示学习奖励函数,对理解和模仿人类行为很重要。本文介绍了高效的IRL方法,包括离线和在线设置,强调多项式采样和运行时间的效率。利用RLP和RLE算法,设计了近乎最优的IRL算法,并建立了样本复杂度的下界。研究表明,学习的奖励函数在目标MDP上具有良好的迁移能力。
本研究通过引入元学习来提高医学形状重建的效率和泛化能力,实验结果显示该方法能够处理不同解剖形状的多种输入配置,并在未观察到的形状领域中表现出良好的迁移能力。
本研究提出了一种新的两阶段框架,通过使用合成图像进行模型微调,然后使用真实数据进行快速适应,提高迁移能力。实验证明该方法在分类任务上的准确率提高高达30%。
这是一项关于如何逐步替换传统主机系统的案例研究,介绍了在长期运行的主机系统中引入新功能的方法,以及如何逐步将传统能力迁移到现代技术中。作者建议采用“足够的、及时的”设计方法,并通过工程实践来减少风险。他们的目标是通过逐步迁移能力来减少风险,并在云端构建与主机系统相似的功能。文章还讨论了增量迁移的原则、好处和考虑事项,以及在迁移过程中遇到的一些挑战和解决方案。
本文研究了预先训练语言模型在下游任务中表现卓越的特定特质,实验证明,在预先训练数据的明确依赖关系中加入后,模型的下游性能显著提高。同时,即使语言模型没有预先在自然语言上进行训练,只要其能够模拟序列中的令牌依赖关系,仍然可以在某些语言任务中获得迁移能力。
该文介绍了使用TAP技术扩展预训练的会话模型数据集,构建了通用会话预训练模型UniPCM,表现出强鲁棒性和卓越的迁移能力。可在低资源场景下实现九个不同数据集上的最新结果。
完成下面两步后,将自动完成登录并继续当前操作。