量子位 ·

开源版《Her》来了，技术报告已公开！大神Karpathy：它很有个性

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

法国创业团队Kyutai发布了开源实时音频模型Moshi，包括Moshiko、Moshika和Mimi流语音编解码器。Moshi在MacBook上运行，延迟约200毫秒，使用了Mimi流式神经音频编解码器和RQ-Transformer变体架构。Moshi在质量、音频语言建模和口语问答方面表现优秀。OpenAI的高级语音模式可能在9月24日发布。

🎯

关键要点

法国创业团队Kyutai发布了开源实时音频模型Moshi，包括Moshiko、Moshika和Mimi流语音编解码器。
Moshi在MacBook上运行，延迟约200毫秒，使用了Mimi流式神经音频编解码器和RQ-Transformer变体架构。
Moshi在质量、音频语言建模和口语问答方面表现优秀。
Moshi的参数大约为7.69B，支持男女两种声音，并能在一台MacBook上运行。
Mimi编解码器能够处理24 kHz音频，并通过蒸馏技术提升性能。
Moshi项目由Helium语言模型、Mimi神经音频编解码器和新的多流架构构成。
Moshi团队对Helium进行了增强，采用RQ-Transformer变体架构以建模语义和声学标记的层次结构。
Moshi的多流建模技术能够模拟全双工对话的动态，包括重叠和中断。
OpenAI的高级语音模式可能在9月24日发布，但目前仍未开放。

❓

延伸问答

Moshi模型的主要特点是什么？

Moshi是一款实时音频模型，具有约7.69B的参数，支持男女两种声音，延迟约200毫秒，表现优秀。

Moshi使用了哪些技术架构？

Moshi使用了Mimi流式神经音频编解码器和RQ-Transformer变体架构，结合多流建模技术。

Moshi的多流建模技术有什么优势？

多流建模技术能够模拟全双工对话的动态，包括重叠和中断，提高生成语音的质量。

Moshi的音频编解码器Mimi有什么特点？

Mimi能够处理24 kHz音频，通过蒸馏技术提升性能，专门与大语言模型协同工作。

Moshi在音频质量和语言建模方面的表现如何？

Moshi在质量、音频语言建模和口语问答方面的表现优于之前发布的模型。

OpenAI的高级语音模式何时可能发布？

OpenAI的高级语音模式可能在9月24日发布，但目前尚未开放。

🏷️