小红花·文摘

本研究提出了一种增强的Transformer模块，旨在解决开放式故事可视化中的角色一致性和场景自然性问题。该方法结合自注意力和交叉注意力机制，以及预训练扩散模型，生成逻辑连贯的场景，表现优于现有技术，具有重要应用潜力。