面壁智能推出全球首个AI编写的预训练框架ForgeTrain,训练出新模型MiniCPM5-1B,其性能超越英伟达Megatron,训练速度快10%。MiniCPM5-1B适用于多种设备,具备自定义人格功能,在知识和推理方面表现优异。这一技术标志着AI制造AI的进步,推动大模型行业向效率提升转变,国产芯片有望缩短与国际顶尖生态的差距。
本文提出CM3AE预训练框架,旨在解决事件数据与RGB帧之间的联系不足问题。通过多模态融合重建模块和对比学习策略,增强了跨模态理解能力。实验结果表明,该方法在多项任务中表现优异。
本研究提出了一种新的序列推荐预训练框架PRECISE,旨在解决推荐系统在长尾商品和冷启动场景中的不足。该框架结合协同信号和语义信息,有效捕捉用户兴趣并转移到目标场景。实验结果显示,PRECISE在多个数据集上表现优异。
本研究提出了一种新的时间事件预训练框架,解决了3D医学成像模型在捕捉疾病相关生物标志物时缺乏时间上下文的问题。通过利用纵向电子健康记录进行大规模时间监督,显著提升了8个基准任务的预测性能。
本研究提出了课程掩蔽(CurrMask)预训练框架,旨在解决离线强化学习中技能学习的复杂度平衡问题,通过动态调整掩蔽方案,提升不同复杂度技能的学习效果。
本文探讨了多模态大型语言模型在视觉知识传输和视觉数据识别方面的能力。研究表明,结合视觉和文本数据后,模型在细粒度图像理解和低层次视觉感知任务中表现显著提升。新型模型架构和预训练框架展示了多模态学习的潜力和有效性。
本文分析了基于自主学习的图神经网络模型的广义化和可扩展性,提出了图基础模型(GFM)及其关键特征,探讨了预训练框架和个性化推荐方法,强调了在不同任务中的性能提升和训练效率,并解决了跨结构模式图的挑战,推动了未来研究方向。
CommerceMM 是一种多模态模型,具备商业主题理解能力,支持图像-文本检索等多种任务。UNIMO 是统一的单模态预训练架构,提升视觉和文本理解。i-Code 提供自我监督的预训练框架,结合视觉、语音和语言模态。此外,研究提出了 OmniBind 框架,解决模态组合不匹配问题,提升多模态学习性能。
ProtChatGPT 和 ProtLLM 是用于蛋白质研究的先进语言模型,能够处理蛋白质结构与自然语言的复杂输入。这些模型通过构建大规模数据集和创新的预训练框架,在蛋白质理解和生成任务上表现出色,提供准确的功能预测,推动蛋白质科学的发展。
本文提出了一种知识增强的对比视觉语言预训练框架(KoBo),将临床知识融入视觉语言学习中,以提升分类和分割任务的性能。同时,研究提出了COSMO方法,解决虚假负样本问题,强调其在视觉语言预训练中的重要性。此外,比较了对比预训练与图像字幕策略,发现后者同样有效。整体上,研究展示了多模态学习在视觉与语言任务中的优势与挑战。
VaLM是一种预训练框架,通过视觉增强语言建模提高多模态语言建模性能。VaLM在常识推理任务中表现出色,优于强语言和视觉语言基线。
VaLM是一种预训练框架,通过视觉增强语言建模,提高多模态语言建模的性能。VaLM在常识推理任务中表现出色,优于强语言和视觉语言基线。
本研究介绍了一种新的基于图形的分子数据自我监督学习方法MGSSL,通过自生成基元的预训练框架,捕获分子图中的丰富信息,并在下游基准任务中表现优于最先进的基线。
利用多模态信息的视觉语言预训练(VLP)在自然领域的视觉识别和胸部 X 射线(CXR)的医学影像诊断方面取得了重大成功。UniChest是一个征服与分割的预训练框架,旨在充分利用多个源 CXRs 的协作优势,同时减少源异质性的负面影响。
VaLM是一种预训练框架,使用视觉增强语言建模,结合图像检索模块和视觉知识融合层,可以参考文本和图像的视觉知识进行多模态语言建模。在常识推理任务中表现出色,颜色、大小和形状方面的性能优于强语言和视觉语言基线。
本文介绍了一种新的预训练框架DiffCLIP,用于减小视觉分支中的域间差异,并引入样式提示生成模块,用于少样本任务。在多个数据集上进行实验,表明DiffCLIP具有强大的3D理解能力,特别是在零样本分类方面表现出色。
该研究提出了一种名为MGSSL的基于图形的自我监督学习方法,用于分子数据。他们使用自生成基元的预训练框架来捕获分子图中的信息,并在不同的下游基准任务上进行了广泛实验,表明该方法优于所有最先进的基线。
VaLM是一种预训练框架,使用视觉增强语言建模,通过图像检索模块检索相应图像,并使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识。VaLM在常识推理任务中表现出色,包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。
该研究提出了一种名为MGSSL的基于图形的分子数据自我监督学习方法,使用自生成基元的预训练框架来捕获分子图信息,并在不同的下游基准任务上进行了广泛实验,表明其优于所有最先进的基线。
VaLM是一种预训练框架,使用视觉增强语言建模,结合图像检索模块和视觉知识融合层,可以参考文本和图像的视觉知识。在常识推理任务中表现出色,颜色、大小和形状方面的性能优于强语言和视觉语言基线。
完成下面两步后,将自动完成登录并继续当前操作。