通过图脉冲混合网络改善视觉-语言对齐

📝

内容提要

本研究解决了视觉与语言之间的语义差距问题,提出了一种全面的视觉语义表示模块,结合全景分割生成细粒度语义特征。创新性的图脉冲混合网络(GSHN)通过整合脉冲神经网络和图注意力网络的优点,显著增强了语义表示的丰富性和多样性,提高了模型在视觉-语言下游任务中的表现。

➡️

继续阅读