AI初创公司Runway推出了Gen-4视频模型,能够在多个镜头中生成一致的场景和人物。该模型允许用户通过单一参考图像生成角色和物体,提供更好的故事连贯性和控制力。用户只需描述构图,模型便能从多个角度生成一致的输出。
本文探讨了文本到音频音乐生成模型在长期音乐创作中的应用,特别是桌面角色扮演游戏(TRPG)的原声音乐生成。介绍了Babel Bardo系统,该系统利用大型语言模型将语音转录转换为音乐描述,从而提升音质和故事连贯性。
本文提出了解决视觉讲故事中上下文信息捕捉和视觉变异性挑战的框架,通过预训练模型的泛化能力,仅训练一个轻量级的视觉-语言映射网络,并引入上下文以增强故事连贯性。实验结果表明,该框架生成的故事在多样性、连贯性和信息量上表现良好,具有高趣味性。
完成下面两步后,将自动完成登录并继续当前操作。