LLM4Brain:为大脑视频理解训练的大语言模型
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了从大脑信号解码视觉语义信息的挑战,包括信噪比低、数据有限及跨个体变异等问题。论文提出了一种基于大型语言模型的创新方法,通过对功能性核磁共振信号进行微调,将大脑反应转化为与视频刺激对齐的潜在表示,并映射至文本模态。最终结果表明,该方法在定量语义指标上表现良好,与真实信息高度相似,具有重要的潜在影响。
研究表明,残差型大型语言模型在生物医学图像任务中作为编码器非常有效。通过使用预训练模型中的冻结变压器块,可以直接处理视觉标记,提高2D和3D视觉分类任务的性能。在MedMNIST-2D和3D数据集上,该方法刷新了技术结果,展示了大型语言模型在生物医学图像领域的新应用潜力。