小红花·文摘

Kyutai 发布 MoshiVis：可实现图像的自然、实时语音交互的开源实时语音模型

实时互动网 ·

Kyutai 发布 Hibiki：一款 27 亿 S2ST 和语音转文本翻译产品，具有接近人类水平的音质和语音转换功能

实时互动网 ·

Kyutai Labs 发布 Helium-1 预览版：具有 2B 参数的轻量级语言模型，针对边缘和移动设备

实时互动网 ·

Kyutai 开放源码 Moshi：突破性的全双工实时对话系统

实时互动网 ·

法国创业团队Kyutai发布了开源实时音频模型Moshi，包括Moshiko、Moshika和Mimi流语音编解码器。Moshi在MacBook上运行，延迟约200毫秒，使用了Mimi流式神经音频编解码器和RQ-Transformer变体架构。Moshi在质量、音频语言建模和口语问答方面表现优秀。OpenAI的高级语音模式可能在9月24日发布。

开源版《Her》来了，技术报告已公开！大神Karpathy：它很有个性

量子位 ·

上周AI动态 #278 - 苹果关注OpenAI董事会席位，OpenAI被曝明文存储聊天记录，Kyutai的Moshi等！

Last Week in AI ·