通过图脉冲混合网络改善视觉-语言对齐
📝
内容提要
本研究解决了视觉与语言之间的语义差距问题,提出了一种全面的视觉语义表示模块,结合全景分割生成细粒度语义特征。创新性的图脉冲混合网络(GSHN)通过整合脉冲神经网络和图注意力网络的优点,显著增强了语义表示的丰富性和多样性,提高了模型在视觉-语言下游任务中的表现。
➡️
本研究解决了视觉与语言之间的语义差距问题,提出了一种全面的视觉语义表示模块,结合全景分割生成细粒度语义特征。创新性的图脉冲混合网络(GSHN)通过整合脉冲神经网络和图注意力网络的优点,显著增强了语义表示的丰富性和多样性,提高了模型在视觉-语言下游任务中的表现。