小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
沉浸式翻译 immersive translate
Dify.AI
Inworld AI 发布 TTS-1.5,用于实时、生产级语音代理

Inworld AI 推出了 TTS-1.5,显著提升了实时语音代理的延迟和质量。Max 型号音频延迟低于 250 毫秒,Mini 型号低于 130 毫秒,性能和稳定性分别提高 30% 和 40%。该系统支持 15 种语言,并提供语音克隆功能,定价合理,适合高使用率产品。

Inworld AI 发布 TTS-1.5,用于实时、生产级语音代理

实时互动网
实时互动网 · 2026-01-22T03:11:13Z
CAMB.AI 发布 MARS8:首个 TTS 架构系列,终结“一刀切”式语音 AI 时代

CAMB.AI推出MARS8,这是首个针对不同生产环境设计的文本转语音系统,克服了通用模型的局限。MARS8提供四种架构,优化特定需求,并采用计算优先的定价模式,降低企业成本,标志着生产级语音AI的重大进展。

CAMB.AI 发布 MARS8:首个 TTS 架构系列,终结“一刀切”式语音 AI 时代

实时互动网
实时互动网 · 2026-01-22T02:29:02Z
IEEE TASLP | FPO: 细粒度偏好优化提升零样本TTS鲁棒性

近年来,零样本文本转语音(TTS)系统取得进展,但仍存在局部错误。西工大与喜马拉雅合作提出细粒度偏好优化(FPO),有效修复问题片段,提升语音合成的鲁棒性和数据效率。实验结果显示,FPO在可懂度和自然度上显著优于传统方法。

IEEE TASLP | FPO: 细粒度偏好优化提升零样本TTS鲁棒性

实时互动网
实时互动网 · 2026-01-05T03:19:58Z
ZEGO 实时互动 AI Agent v2.9.0 发布,新增 TTS 支持过滤特定字符串等功能

ZEGO 实时互动 AI Agent v2.9.0 发布,新增 TTS 文本转语音功能,支持特定字符串过滤。通过 Responses API 调用豆包 Seed 系列模型时可自动开启缓存,降低互动延迟和成本。同时优化了语音实例和数字人实例的互动延迟,并修复了回调问题。

ZEGO 实时互动 AI Agent v2.9.0 发布,新增 TTS 支持过滤特定字符串等功能

实时互动网
实时互动网 · 2026-01-04T07:10:10Z

采用创新的连续语音分词器和next-token扩散框架,结合大语言模型理解上下文和对话流程,突破了传统TTS系统在扩展性、说话人一致性和自然对话方面的限制。一直在找能生成自然对话的AI语音工具,试过不少TTS系统,要么只能单人发音,要么音质僵硬不自然,更别说生成播客那种多人对话了。,支持最多4个不同说话人的自然对话,每个说话人都有独特的音色和说话风格,说话人一致性表现优秀。,利用LLM理解文...

17.3K Star!微软开源VibeVoice,AI语音合成新突破,支持90分钟多人对话和实时流式TTS

dotNET跨平台
dotNET跨平台 · 2025-12-19T00:03:39Z

12.8-12.12 AI 论文精选

AI 论文周报丨Attention机制/英伟达VLA模型/TTS模型/图神经网络……一文了解 AI 最新进展

HyperAI超神经
HyperAI超神经 · 2025-12-12T07:23:57Z
GLM-TTS - 一种可控的、情感表达丰富的零样本文本转语音系统,使用…

GLM-TTS是Zai推出的文本转语音项目,专注于可控的情感和语音风格生成。它采用零样本多奖励强化学习,能够生成特定情感的自然语音,支持情感强度和语速等多维度控制,适用于语音助手和有声书等场景。

GLM-TTS - 一种可控的、情感表达丰富的零样本文本转语音系统,使用…

云原生
云原生 · 2025-12-11T06:14:04Z
AI TTS API 通过三种方式可将全球 OTT 内容的配音成本降低 70%

全球OTT和流媒体平台面临本地化挑战,传统配音成本高且耗时。AI文本转语音(TTS)技术通过云端处理,降低成本70%,提高效率,确保多语言版本及时发布,满足观众对母语内容的需求。

AI TTS API 通过三种方式可将全球 OTT 内容的配音成本降低 70%

实时互动网
实时互动网 · 2025-12-11T03:06:02Z
VoxCPM - 一种无分词的文本转语音(TTS)系统,支持上下文感知的语音合成……

VoxCPM是OpenBMB推出的开源无分词文本转语音系统,支持上下文感知和零-shot语音克隆,基于MiniCPM-4,适用于语音助手和媒体配音等高保真合成任务。

VoxCPM - 一种无分词的文本转语音(TTS)系统,支持上下文感知的语音合成……

云原生
云原生 · 2025-12-05T06:53:59Z
IMS Toucan - 一款可控且快速的文本转语音(TTS)工具包,支持超过7000种语言……

IMS Toucan是斯图加特大学自然语言处理研究所开发的开源文本转语音工具包,支持7000多种语言,适用于研究和工程。它提供训练和推理接口以及预训练模型,强调高质量的多语言合成,适合学术研究和语音助手等多种应用场景。

IMS Toucan - 一款可控且快速的文本转语音(TTS)工具包,支持超过7000种语言……

云原生
云原生 · 2025-12-05T03:18:39Z
Dia2 - 开源流式对话文本转语音(TTS)模型及推理实现

Dia2是Nari Labs开发的开源文本转语音模型,专注于流式对话音频,支持在接收初始输入后生成音频,并保持说话者一致性。提供1B和2B模型检查点及快速启动指南,适用于实时语音助手和对话系统。

Dia2 - 开源流式对话文本转语音(TTS)模型及推理实现

云原生
云原生 · 2025-11-30T12:03:03Z
Modular:由Modular平台驱动的“TTS 1 Max”在人工分析中排名第一的语音模型

Inworld与Modular合作成功,'Inworld TTS 1 MAX'模型在语音排行榜中位列第一。该平台测试了超过100种LLM,评估其智能、速度和成本。两款模型支持12种语言,具备语音克隆和情感标签功能,提升了文本转语音的性能与效率。

Modular:由Modular平台驱动的“TTS 1 Max”在人工分析中排名第一的语音模型

Modular Blog
Modular Blog · 2025-11-07T00:00:00Z

进入 Demo 运行页面后,在「Reference Audio」上传参考音频,在「Reference Text」文本框中输入参考文本,将克隆后希望得到的音频文本内容输入「Text to Generate」,点击「Submit」后稍等片刻即可得到克隆音频。NeuTTS-Air 的发布,正值行业对高效、低延迟、高逼真度 TTS...

在线教程丨端侧TTS新SOTA!NeuTTS-Air基于0.5B模型实现3秒音频克隆

HyperAI超神经
HyperAI超神经 · 2025-11-04T09:02:47Z
如何使用Composio和Gemini TTS支持构建Google Sheets AI代理

本文介绍如何使用Composio、Next.js和Gemini TTS构建一个与Google Sheets互动的AI代理,用户将学习AI代理的概念、工具集成、流式响应及文本转语音API的使用。

如何使用Composio和Gemini TTS支持构建Google Sheets AI代理

freeCodeCamp.org
freeCodeCamp.org · 2025-09-26T14:21:26Z

B站出海的强有力支柱:最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代

机器之心
机器之心 · 2025-09-18T05:13:48Z

哔哩哔哩开源的IndexTTS-2.0是一个可控情感和时长的自回归文本转语音系统,解决了语音合成中的时长控制和情感表达问题。该系统支持多种情感调节,广泛应用于AI配音和有声读物,助力全球内容出海,提升跨语言视频的本地化体验。

B站开源IndexTTS-2.0:突破自回归TTS时长与情感控制瓶颈

量子位
量子位 · 2025-09-11T02:28:33Z

微软开源的VibeVoice-1.5B模型在TTS领域备受关注,能够生成90分钟的高自然度语音,支持4位说话者。其创新点在于双Tokenizer架构和扩散解码技术,MOS评分达到4.5。该模型主要面向科研和开发者,目前仅支持中英文,强调研究用途以防滥用。

在线教程 | VibeVoice-1.5B独创双Tokenizer架构实现一次性生成90分钟4人对话语音,重新定义TTS技术边界

HyperAI超神经
HyperAI超神经 · 2025-09-08T08:05:25Z

告别无效计算!新TTS框架拯救19%被埋没答案,推理准确率飙升

机器之心
机器之心 · 2025-09-02T07:09:23Z
avr-infra:基于 Asterisk 集成 Core、ASR、LLM 和 TTS 开源服务

Agent Voice Response (AVR) 是一个基于 Asterisk 的可部署对话式 AI 系统,支持灵活选择 ASR、LLM 和 TTS 服务。通过 Docker 启动 AVR 应用,管理客户与 VoIP PBX 的交互,实现语音转文本、AI 响应生成和文本转语音。该系统架构模块化,易于扩展和配置,支持实时音频流。

avr-infra:基于 Asterisk 集成 Core、ASR、LLM 和 TTS 开源服务

实时互动网
实时互动网 · 2025-08-18T02:46:46Z

Kitten TTS是一款仅25MB的开源AI语音模型,支持CPU运行,无需GPU,能够实现实时语音合成。它提供多种声音风格,适合低配设备,强调隐私和经济性,推动轻量级AI的发展。

Kitten TTS:这款 25MB 的 AI 语音模型即将改变一切(即使在低配设备上也能运行!🥔)

程序师
程序师 · 2025-08-14T01:25:09Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码