阿里通义实验室推出开源项目MAI-UI,旨在实现AI对手机的直接操控。该项目在GUI定位和任务执行方面表现出色,能够识别屏幕内容并完成复杂操作。MAI-UI支持多种参数变体,具备主动询问用户信息和与外部应用集成的能力,适应动态环境。目前已开源2B和8B版本,用户可通过GitHub获取体验。
阿里通义实验室发布开源语音大模型项目FunAudioLLM,包含SenseVoice和CosyVoice两个模型。SenseVoice支持50种语言识别和情感辨识,效果优于Whisper模型。CosyVoice支持多语言、音色和情感控制,生成模拟音色和情感细节。FunAudioLLM可用于音色情感生成的多语言语音翻译、情绪语音对话、互动播客和有声读物等应用场景。CosyVoice的合成音频内容一致性高,情感控制能力强。SenseVoice具备多种语音理解能力,包括自动语音识别、情感识别和音频事件检测。相关模型已在GitHub上开源。
阿里通义实验室开源了CosyVoice语音模型,支持自然语音生成,多语言、音色和情感控制。模型训练数据超过15万小时,支持中英日粤韩5种语言合成。提供了Windows和Mac平台的本地部署教程。推荐使用webui进行操作。
完成下面两步后,将自动完成登录并继续当前操作。