揭示多模态网络中的大脑视觉语言融合

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

使用多模态深度神经网络预测人脑多模态整合位置,发现多个整合多模态信息的神经位点。CLIP风格的训练最适合预测这些位点的神经活动。

🎯

关键要点

  • 使用多模态深度神经网络预测人脑多模态整合的位置。
  • 通过分析观看电影时的立体脑电图记录定义多模态整合的位置。
  • 多模态视觉语言模型优于单模态语言、单模态视觉或线性整合的区域。
  • 对不同架构和多模态训练技术的目标 DNN 模型进行对比,发现多个整合多模态信息的神经位点。
  • CLIP 风格的训练最适合下游预测这些位点的神经活动。
➡️

继续阅读