实时互动网 ·

Kyutai 开放源码 Moshi：突破性的全双工实时对话系统

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

Moshi是一款实时口头对话系统，具有连贯且上下文准确的语音生成功能，延迟仅为160毫秒。它能够处理重叠语音和中断，语音质量好且易懂。Moshi能够维持长时间对话，上下文跨度超过五分钟，并在口头问答任务中表现出色。它代表了口头对话系统的重大飞跃，树立了新标准。

🎯

❓

Moshi的理论延迟为160毫秒，实际延迟为200毫秒。

Moshi允许用户和系统同时说和听，提供全双工通信，而传统系统通常采用回合制结构。

Moshi的多流模型能够同时处理系统和用户的语音，捕捉复杂的对话动态，包括重叠语音和中断。

Moshi在口头问答任务中表现出色，优于现有模型，展示了其语言深度和实时处理能力。

Moshi基于名为Helium的文本语言模型，包含70亿个参数，并经过超过2.1万亿个公共数据训练。

Moshi通过内心独白方法将文本和音频标记按层次结构对齐，从而生成连贯且上下文准确的语音。

🏷️