Sakana AI 提出了两种方法:Text-to-LoRA (T2L) 和 Doc-to-LoRA (D2L),通过轻量级超网络实现大型语言模型的高效定制,显著降低内存和延迟,并支持零样本任务适应和跨模态知识迁移。
小米开源了全球首个自驾与具身智能统一模型MiMo-Embodied,成功解决了知识迁移难题。该模型通过高质量数据集和四阶段训练策略,打破了室内与户外操作的领域鸿沟,在29个基准测试中表现优异,展现了强大的跨领域能力。
常博士提出了“预测大模型”概念,旨在通过统一学习海量数据,克服特定场景AI模型的局限性。该模型能够迁移至新场景,解决数据稀缺问题,实现高效应用。未来,AGI将具备灵活的知识迁移能力,推动智能进化。
清华大学、人民大学与字节跳动团队提出了跨分子种类的生成框架UniMoMo,通过统一表示分子片段展示了其在药物设计中的潜力。该框架在多类分子任务中表现优异,验证了跨模态知识迁移的有效性。
本研究提出了一种基于最佳运输的图匹配方法(GM-OT),旨在解决从预训练语言模型向声学特征学习转移语言知识时的对齐挑战。该方法通过将语言和声学序列建模为结构化图,提升了知识迁移效率,显著提高了自动语音识别模型的性能。
本研究提出了“潘多拉”框架,以解决现有统一结构知识推理方法在知识迁移和大型语言模型对齐方面的不足。通过使用Python的Pandas API构建知识表示,潘多拉在多个基准测试中表现优于现有框架,并能有效与任务特定方法竞争。
本研究提出了一种名为DynamicVis的动态视觉感知基础模型,旨在提升遥感图像分析的泛化能力。该模型结合动态区域感知技术,增强了跨任务知识迁移能力,提高了高分辨率遥感图像的处理效率,并在多个任务中展现出良好的灵活性和效率。
本研究旨在提高无人机系统在大规模城市环境中的导航效率,并实现知识迁移。提出的元课程训练方案和增量自适应强化学习算法显著提升了导航的收敛速度和适应能力,展示了实际应用潜力。
本研究提出了一种跨模态知识迁移学习框架(CMKT),有效整合语言知识与语音增强模型,实验结果表明其在多种条件下表现优异。
本研究探讨开放世界持续学习中已知与未知样本的知识迁移问题,提出的HoliTrans框架结合非线性随机投影和分布感知原型,显著提升了增量学习中的模型表现,为开放世界学习提供了有效解决方案。
AIxiv专栏促进了学术交流,报道了2000多篇文章。研究团队提出MergeNet框架,解决了异构模型间的知识迁移问题,显著提升了跨结构、跨模态和跨任务的迁移效果。
本文分享了作者对知识吸收的经验,强调心态和知识迁移的重要性。作者总结了知识消化的四个步骤:验证、平行迁移、增强和启发,鼓励读者以开放心态吸收外部知识,成为知识的搬运者。
本研究提出了MM-Eval评估数据集,评估大型语言模型在低资源语言(如蒙古语)中的表现。结果表明,模型在句法任务上优于语义任务,知识任务表现适度下降,显示出模型能够将高资源知识迁移至低资源环境。该数据集为低资源语言的自然语言处理提供了重要支持。
微软推出IGOR方法,通过图像目标表示让机器人模仿人类动作。IGOR利用互联网视频数据,创建统一动作表示空间,实现跨任务知识迁移。其框架包括潜在动作模型、策略模型和世界模型,能在不同任务中应用。
该研究提出了多种基于深度学习的跨模态知识迁移和图像配准方法,包括无监督深度视觉几何估计、交叉模态匹配模型的噪声鲁棒性提升,以及新型无监督跨模态单应性估计框架SCPNet,展示了在不同模态下的有效性和性能提升。
该研究提出了一种神经符号强化学习架构,旨在克服深度学习的局限性,如对数据的高需求和缺乏透明性。通过简单游戏实验验证了该架构在学习和性能提升方面的有效性,并探讨了内在动机、任务表示方法及知识迁移等问题,提出了多种新模型和框架,以提高深度强化学习的效率和适应性。
本文探讨了自动连续学习(ACL)方法,利用自指神经网络解决传统神经网络的上下文灾难性遗忘问题。提出的CTR模型和CLARE预训练模型在知识迁移和遗忘方面表现优异,实验结果显示其在多个基准测试中效果显著。此外,TAALM和TriRE等新方法通过动态预测和多机制利用,进一步提高了学习效率并减少了遗忘。
本文比较了四种视觉基础模型,发现DINO V2在语义分割任务中表现优越,强调了稳健特征提取器的重要性,并探讨了知识迁移和隐私保护方法在医学影像分析中的应用潜力。
本文探讨了动态多目标优化中的连续学习方法,提出了弹性多梯度下降(EMGD)和小型持续学习者合作模型(CoSCL),以提升模型的泛化能力和记忆稳定性。同时,研究了数据集偏差对知识迁移的影响,并提出了TF-CL和SparCL等新框架和算法,以优化学习效率和性能。
本文介绍了一种新型神经网络架构ModuleFormer,基于稀疏专家混合(SMoE),旨在提高大型预训练语言模型的效率和专业化能力。通过自适应计算模块(ACM)降低计算成本,并提出混合注意力头(MoA)结构,提升自然语言处理任务性能。此外,研究了多路径结构对Transformer模型的影响,提出模块到模块的知识迁移方法(m2mKD),并在多语言机器翻译中应用语言特定矩阵合成(LMS)方法,取得显著改进。
完成下面两步后,将自动完成登录并继续当前操作。