本研究提出了一种新颖的面部表情识别(FER)方法,通过使用训练集提升了FER方法的零样本泛化能力。实验证明该方法在五个不同的FER数据集上优于现有方法。
Matryoshka Diffusion Models (MDM)是一个端到端的框架,用于合成高分辨率的图像和视频。它通过在多个分辨率上联合去噪输入,使用嵌套UNet架构和从低分辨率到高分辨率的渐进训练安排,实现了高分辨率生成方面的显著优化改进。该方法在各种基准测试中展示了其有效性,包括类别条件的图像生成、高分辨率文本到图像和文本到视频应用。仅使用CC12M数据集中的1200万张图像,就可以训练一个单像素空间模型,分辨率为1024x1024像素,展示了强大的零样本泛化能力。
最近的T2I扩散模型在生成高质量图像方面取得了成功。研究人员提出了一种简单的方法来改善模型的语义对齐。
大规模视觉语言模型(VLMs)展示了强大的零样本泛化能力。研究者提出了选择性双教师知识迁移框架,解决了VLMs在下游任务中的遗忘和降低零样本分类能力的问题。实验证明该框架对于防止灾难性遗忘和零样本退化的最新持续学习方法是有利的。
大规模视觉语言模型(VLMs)展示了强大的零样本泛化能力。研究者提出了选择性双教师知识迁移框架,通过测量双教师VLMs的特征差异,缓解灾难性遗忘并保留零样本能力。实验证明该框架对于持续学习方法是有利的。
本研究提出一种通过施加物理学相关的偏差来学习可解释的表示的方法,提高零样本泛化能力。实验证明图形网络模型可以学习到与真实力量向量相当的消息表示。该方法适用于任何由图形网络学习的未知交互定律,提供了一种解释和推断因果理论的技术。
本文介绍了MoMA机制,通过检索多个信息语料库来改善语言模型的零样本泛化能力。使用MoMA增强的T5-based retriever模型在BEIR基准测试中获得了强的零样本检索准确性。MoMA利用插入式存储器在推理时不改变其参数。
完成下面两步后,将自动完成登录并继续当前操作。