谷歌推出了Gemini AI聊天机器人的新功能“故事书”,用户可以通过描述创建插图故事。该功能生成10页故事,每页包含简短文本和插图,用户可选择不同艺术风格或上传图片供参考。尽管有时插图奇怪,但整体体验适合儿童,功能在全球桌面和移动设备上可用。
Gemini应用程序推出个性化插图故事书功能,用户可根据描述生成10页独特书籍,包含自定义艺术和音频,支持多种风格和语言,适合教育和创作。
本研究解决了儿童故事书内容吸引力不足、叙述表达性匮乏及缺乏开源评估基准的问题。我们提出并开源了MM-StoryAgent,通过多智能体框架结合大型语言模型和多样化专家工具,生成情节丰富、视觉和音频一致的沉浸式叙述故事书视频。实验结果表明,该系统显著提升了故事吸引力和叙述体验,对进一步开发和优化具有重要影响。
AI模型使用问答数据集提供定制化问答功能,支持儿童教育应用。引入FairytaleCQA数据集,补充教育适用的常识知识。实验结果显示,微调较小模型使用FairytaleCQA胜过更大的提示工程化语言模型。人类专家的数据注释仍然重要。
该研究使用多问题生成模型生成可回答的问题,并在多个数据集上进行了评估,结果显示有希望的结果。
完成下面两步后,将自动完成登录并继续当前操作。