微软开源的VibeVoice项目能够生成最长90分钟的自然多人对话音频,支持最多4个说话人,突破传统TTS限制,兼容中英文及多语言合成,适合播客和教育内容制作。
上海交通大学推出全球首个支持多人实时口语对话的语音情感大模型“交交”。该模型具备多人对话、身份识别、多语言支持和情感理解等功能,能够与多位用户自然互动,精准识别身份并提供个性化回应,同时支持多种语言和方言,满足知识问答需求,展现出强大的语音理解与交互能力。
本文介绍了一种新型音频-视觉语音增强框架,利用个性化模型和神经编解码器从嘈杂信号中合成清晰语音。该框架通过深度学习和视觉信息提高语音质量,适用于多人对话和嘈杂环境,实验结果显示其在语音增强和噪音降低方面表现优异。
智能配音工具采用AI技术,实现智能文本识别和多人对话式配音。支持语音转文字、视频转文字和音频转换等编辑功能。通过AI智能技术识别图片中的文字,并提供文字翻译和图片翻译等功能。产品特色包括丰富的语音类型、多人对话或配音、高度拟人化和可批量转换。
完成下面两步后,将自动完成登录并继续当前操作。