将隐式多模态知识融入到零资源对话生成中的 L-LMs
原文中文,约400字,阅读约需1分钟。发表于: 。通过利用隐式多模态知识,将视觉隐式知识融入基于语言模型的对话生成系统,能够在零资源情境下实现更丰富的对话生成,我们提出了一种名为 VIKDF 的框架,通过两个主要阶段(知识蒸馏和知识整合)实现,能够有效解决零资源情境中多样、高质量对话数据集稀缺性所带来的挑战,并取得了优于现有模型的生成对话质量。
大规模视觉语言模型(VLMs)展示了强大的零样本泛化能力。研究者提出了选择性双教师知识迁移框架,解决了VLMs在下游任务中的遗忘和降低零样本分类能力的问题。实验证明该框架对于防止灾难性遗忘和零样本退化的最新持续学习方法是有利的。