本研究提出了UTNet,一种将self-attention集成到卷积神经网络中的混合Transformer体系结构,用于增强医学图像分割。UTNet通过应用self-attention模块和相对位置编码,能够捕捉不同尺度的长程依赖关系,并在心脏磁共振成像中展现出优异的分割性能和鲁棒性。有望在其他医学图像分割中广泛应用。
中山大学和Pixocial联合发布了CatVTON,一种轻量化模型架构,实现虚拟试衣功能。该模型简洁高效,只需VAE+UNet两个网络模块,参数量小。通过解锁训练,发现Self Attention是关键模块。CatVTON实现了SOTA的试穿效果,降低了模型的训练和推理计算需求。
该文介绍了一种名为MSA-Conv的模型,它结合了Self-Attention和广义卷积,扩展了Transformer模型,使其能够处理不同尺寸的图像,降低了计算成本,并且通过增强策略实现了长距离连接和扩大的感受野。该模型在图像分类任务中表现出色,与目前最先进的方法具有可比性。
该论文介绍了一种新型结构 TransGAN,用于图像生成任务,通过基于 transformers 的 grid self-attention 模块缓解内存瓶颈,采用数据扩增、修正归一化和相对位置编码等技术缓解训练不稳定问题。该模型在高分辨率图像生成上表现出极具竞争力的性能,并在 STL-10 数据集上创造了 10.43 的 Inception Score 和 18.28 的 FID 值。
该研究使用Transformer-based大型语言模型,研究了其生成错误文本时的内部行为,并将事实查询建模为约束满足问题。通过研究11个数据集,研究提出了一种可以预测约束满足和事实错误、并且可以早期发现错误的self-attention模式探查方法SAT Probe。利用对大型语言模型中事实性的机械理解可以提高可靠性。
完成下面两步后,将自动完成登录并继续当前操作。