Inworld AI 推出了 TTS-1.5,显著提升了实时语音代理的延迟和质量。Max 型号音频延迟低于 250 毫秒,Mini 型号低于 130 毫秒,性能和稳定性分别提高 30% 和 40%。该系统支持 15 种语言,并提供语音克隆功能,定价合理,适合高使用率产品。
CAMB.AI推出MARS8,这是首个针对不同生产环境设计的文本转语音系统,克服了通用模型的局限。MARS8提供四种架构,优化特定需求,并采用计算优先的定价模式,降低企业成本,标志着生产级语音AI的重大进展。
近年来,零样本文本转语音(TTS)系统取得进展,但仍存在局部错误。西工大与喜马拉雅合作提出细粒度偏好优化(FPO),有效修复问题片段,提升语音合成的鲁棒性和数据效率。实验结果显示,FPO在可懂度和自然度上显著优于传统方法。
ZEGO 实时互动 AI Agent v2.9.0 发布,新增 TTS 文本转语音功能,支持特定字符串过滤。通过 Responses API 调用豆包 Seed 系列模型时可自动开启缓存,降低互动延迟和成本。同时优化了语音实例和数字人实例的互动延迟,并修复了回调问题。
采用创新的连续语音分词器和next-token扩散框架,结合大语言模型理解上下文和对话流程,突破了传统TTS系统在扩展性、说话人一致性和自然对话方面的限制。一直在找能生成自然对话的AI语音工具,试过不少TTS系统,要么只能单人发音,要么音质僵硬不自然,更别说生成播客那种多人对话了。,支持最多4个不同说话人的自然对话,每个说话人都有独特的音色和说话风格,说话人一致性表现优秀。,利用LLM理解文...
12.8-12.12 AI 论文精选
GLM-TTS是Zai推出的文本转语音项目,专注于可控的情感和语音风格生成。它采用零样本多奖励强化学习,能够生成特定情感的自然语音,支持情感强度和语速等多维度控制,适用于语音助手和有声书等场景。
全球OTT和流媒体平台面临本地化挑战,传统配音成本高且耗时。AI文本转语音(TTS)技术通过云端处理,降低成本70%,提高效率,确保多语言版本及时发布,满足观众对母语内容的需求。
VoxCPM是OpenBMB推出的开源无分词文本转语音系统,支持上下文感知和零-shot语音克隆,基于MiniCPM-4,适用于语音助手和媒体配音等高保真合成任务。
IMS Toucan是斯图加特大学自然语言处理研究所开发的开源文本转语音工具包,支持7000多种语言,适用于研究和工程。它提供训练和推理接口以及预训练模型,强调高质量的多语言合成,适合学术研究和语音助手等多种应用场景。
Dia2是Nari Labs开发的开源文本转语音模型,专注于流式对话音频,支持在接收初始输入后生成音频,并保持说话者一致性。提供1B和2B模型检查点及快速启动指南,适用于实时语音助手和对话系统。
Inworld与Modular合作成功,'Inworld TTS 1 MAX'模型在语音排行榜中位列第一。该平台测试了超过100种LLM,评估其智能、速度和成本。两款模型支持12种语言,具备语音克隆和情感标签功能,提升了文本转语音的性能与效率。
进入 Demo 运行页面后,在「Reference Audio」上传参考音频,在「Reference Text」文本框中输入参考文本,将克隆后希望得到的音频文本内容输入「Text to Generate」,点击「Submit」后稍等片刻即可得到克隆音频。NeuTTS-Air 的发布,正值行业对高效、低延迟、高逼真度 TTS...
本文介绍如何使用Composio、Next.js和Gemini TTS构建一个与Google Sheets互动的AI代理,用户将学习AI代理的概念、工具集成、流式响应及文本转语音API的使用。
哔哩哔哩开源的IndexTTS-2.0是一个可控情感和时长的自回归文本转语音系统,解决了语音合成中的时长控制和情感表达问题。该系统支持多种情感调节,广泛应用于AI配音和有声读物,助力全球内容出海,提升跨语言视频的本地化体验。
微软开源的VibeVoice-1.5B模型在TTS领域备受关注,能够生成90分钟的高自然度语音,支持4位说话者。其创新点在于双Tokenizer架构和扩散解码技术,MOS评分达到4.5。该模型主要面向科研和开发者,目前仅支持中英文,强调研究用途以防滥用。
Agent Voice Response (AVR) 是一个基于 Asterisk 的可部署对话式 AI 系统,支持灵活选择 ASR、LLM 和 TTS 服务。通过 Docker 启动 AVR 应用,管理客户与 VoIP PBX 的交互,实现语音转文本、AI 响应生成和文本转语音。该系统架构模块化,易于扩展和配置,支持实时音频流。
Kitten TTS是一款仅25MB的开源AI语音模型,支持CPU运行,无需GPU,能够实现实时语音合成。它提供多种声音风格,适合低配设备,强调隐私和经济性,推动轻量级AI的发展。
完成下面两步后,将自动完成登录并继续当前操作。