本研究提出了StoryAnchors框架,通过双向故事生成器和多事件标注,解决了长篇故事叙述中的一致性和丰富性问题。实验结果表明,该框架在叙述一致性和场景多样性方面优于现有模型。
本研究提出了一种名为Trelawney的方法,旨在解决因果语言模型训练中标记预测与人类写作推理过程的差异。通过重新排列训练数据,该方法在规划、算法推理和故事生成任务上显著提升了模型的能力。
VisualQuest是一个互动AI应用,用户可以通过上传图片和语音控制故事进程。Universal-2模型将语音转录为文本,Llama模型则生成故事的下一段。
本研究分析了大型语言模型在地理知识方面的偏差,特别是对贫穷国家的旅行推荐和故事生成内容的不足。研究发现,旅行推荐缺乏多样性,故事内容多集中于困境与悲伤,强调了地理知识在语言模型输出中的重要性。
这是一个基于LLM的故事生成器,利用初始提示生成故事和插图,并通过Pinata的Files SDK进行存储和检索。系统包括Express API、简单前端和后台处理器,使用Redis管理生成过程。Pinata的File SDK用于文件共享和数据库,创建索引文件管理故事。前端通过API提交提示,使用Redis队列处理,完成后刷新故事列表,点击标题可查看内容。
本研究提出多种生成性人工智能的故事生成方法,旨在提升儿童故事讲述的互动性和趣味性。通过叙事共创、文本转语音和文本转视频等技术,显著提高了故事的语言质量和视觉效果,具有广泛的教育应用潜力。
该研究探讨了故事生成技术,提出了多种评估方法和模型改进,包括基于BERT的无参考度量UNION和动态实体记忆增强方法。研究表明,自动评估指标与人工评估的相关性不足,强调了改进评估标准的重要性。通过新方法提升故事质量,结果显示基础模型LLaVA表现最佳。
本文探讨了计算机视觉技术在创意视觉叙述中的应用,提出了多种生成故事情节和图像的方法,包括基于情感轨迹的叙事生成、图像到故事的转换以及多模态故事生成。研究指出了数据稀缺性、风格适配和叙事一致性等问题,并提出了解决方案和评估标准,以推动自动故事生成的发展。
本文介绍了一种基于知识图谱和神经语言模型的交互式小说生成算法,旨在生成语义连贯且有趣的文本。研究表明,该模型在故事生成任务中优于传统方法,并探讨了大型语言模型在创意写作中的应用及其挑战。尽管大型语言模型在生成儿童故事方面表现出潜力,但仍存在质量问题。研究还分析了温度参数对创造力的影响,发现其作用较为微妙。
本文介绍了首个序列视觉语言数据集的发布,包含81,743张图片和20,211个序列,旨在推动视觉叙事任务的发展。研究提出了多种视觉叙述方法,通过结合预训练模型和增强学习,提升了故事生成的质量和连贯性。实验结果表明,新方法在信息丰富性和稳健性方面优于现有模型,展现了视觉故事生成的潜力。
本文提出了一种分层结构的强化学习方法,用于生成连贯的多句子视觉叙事故事。该模型结合话题描述和多代理通信框架,在VIST数据集上表现优越,生成的故事质量高于现有方法。此外,研究探讨了基于知识增强的注意力网络和图表示形式等技术,以提升故事生成的连贯性和多样性。
本研究提出了一种新颖的视觉叙述方法,通过多代理通信框架结合话题描述和故事生成,提升故事生成质量。采用多模态模仿学习生成对抗网络(MIL-GAN)建模用户兴趣,解决故事情节度量挑战。同时,回顾了多模态大型语言模型(MLLMs)的发展,分析其在视觉理解和生成任务中的应用,提供全面的技术概述。
完成下面两步后,将自动完成登录并继续当前操作。