法国创业团队Kyutai发布了开源实时音频模型Moshi,包括Moshiko、Moshika和Mimi流语音编解码器。Moshi在MacBook上运行,延迟约200毫秒,使用了Mimi流式神经音频编解码器和RQ-Transformer变体架构。Moshi在质量、音频语言建模和口语问答方面表现优秀。OpenAI的高级语音模式可能在9月24日发布。
完成下面两步后,将自动完成登录并继续当前操作。