小红花·文摘

‌阿里通义实验室发布 MAI-UI：一套能“看懂”手机屏幕、帮你自动操作 App 的 AI 智能体，性能超越谷歌 Gemini、Seed与 UI-Tars-2

dotNET跨平台 ·

阿里通义实验室发布开源语音大模型项目FunAudioLLM，包含SenseVoice和CosyVoice两个模型。SenseVoice支持50种语言识别和情感辨识，效果优于Whisper模型。CosyVoice支持多语言、音色和情感控制，生成模拟音色和情感细节。FunAudioLLM可用于音色情感生成的多语言语音翻译、情绪语音对话、互动播客和有声读物等应用场景。CosyVoice的合成音频内容一致性高，情感控制能力强。SenseVoice具备多种语音理解能力，包括自动语音识别、情感识别和音频事件检测。相关模型已在GitHub上开源。

阿里音频生成大模型一次发俩还开源！50种语言快速理解+5种语言语音生成，带情感的那种

量子位 ·

CosyVoice多语言、音色和情感控制模型，one-shot零样本语音克隆模型本地部署(Win/Mac),通义实验室开源

刘悦 ·