小红花·文摘

法国创业团队Kyutai发布了开源实时音频模型Moshi，包括Moshiko、Moshika和Mimi流语音编解码器。Moshi在MacBook上运行，延迟约200毫秒，使用了Mimi流式神经音频编解码器和RQ-Transformer变体架构。Moshi在质量、音频语言建模和口语问答方面表现优秀。OpenAI的高级语音模式可能在9月24日发布。