基于程序意识的外科视频语言预训练与层次知识增强
发表于: 。本研究针对外科视频语言预训练中因知识领域差异和多模态数据稀缺所带来的挑战,提出了一种层次知识增强的方法及程序编码外科知识增强的视频语言预训练框架(PeskaVLP)。研究发现该方法能显著提高零-shot迁移性能,为进一步的外科场景理解研究提供通用的视觉表征。
本研究针对外科视频语言预训练中因知识领域差异和多模态数据稀缺所带来的挑战,提出了一种层次知识增强的方法及程序编码外科知识增强的视频语言预训练框架(PeskaVLP)。研究发现该方法能显著提高零-shot迁移性能,为进一步的外科场景理解研究提供通用的视觉表征。