VisualQuest是一个互动AI应用,用户可以通过上传图片和语音控制故事进程。Universal-2模型将语音转录为文本,Llama模型则生成故事的下一段。
我开发了一款语音转文本应用,展示了AssemblyAI最新的Universal-2模型,支持多语言转录,输出格式化且带时间戳,界面友好,基于Streamlit构建。
完成下面两步后,将自动完成登录并继续当前操作。