文本调制扩散模型的交互式多模态图像融合框架
原文中文,约300字,阅读约需1分钟。发表于: 。该研究针对现有多模态图像融合方法未能有效解决源图像的复合降质问题,提出了一种基于文本调制扩散模型的交互式多模态图像融合框架Text-DiFuse。该框架通过将特征级信息整合到扩散过程中,首次深入有效地处理图像融合中的复合降质,并通过文本控制提高融合性能,突出前景对象。实验表明,Text-DiFuse在复杂降质场景下实现了最先进的融合性能,同时在语义分割实验中验证了其显著的语义性能提升。
该研究提出了Text-DiFuse框架,旨在解决多模态图像融合中的复合降质问题,通过文本调制提升融合性能,实验结果表明其在复杂场景中表现优异。