Soul App开源了播客语音合成模型SoulX-Podcast,支持多轮对话和多方言,生成自然流畅的语音,尤其在语音克隆和长对话中表现优异,具备丰富的韵律和情感表达,推动AI与社交结合,提升用户体验。
Soul App的技术论文《基于自回归动作生成的实时流式音频驱动人像动画系统》在CVPR 2025会议上被接收,展示了在实时音频驱动人像动画方面的创新,提出了提高视频生成效率和自然度的方法,标志着Soul在多模态AI能力上的进展。
第二届多模态情感识别挑战赛(MER24)在IJCAI2024上结束,Soul App在Semi赛道获得第一名。Soul团队通过多模态特征提取、半监督学习等技术提升了情感识别准确率。Soul还推出了AI苟蛋、狼人魅影等应用,实现了情感化交互。AI情感识别在社交领域的发展将成为核心竞争点。
完成下面两步后,将自动完成登录并继续当前操作。