小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
xAI推出独立的Grok语音转文本和文本转语音API,目标用户为企业语音开发人员

埃隆·马斯克的 AI 公司 xAI 发布了两款音频 API:语音转文本(STT)和文本转语音(TTS)。STT 支持 25 种语言,提供实时和批量转录,错误率为 5.0%。TTS 支持 20 种语言,提供多种声音选择,定价为每百万字符 4.20 美元。这标志着 xAI 进军语音 API 市场。

xAI推出独立的Grok语音转文本和文本转语音API,目标用户为企业语音开发人员

实时互动网
实时互动网 · 2026-04-20T03:19:00Z
突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

美团LongCat团队发布了LongCat-AudioDiT模型,采用全新的端到端文本转语音技术,减少信息损失。该模型在Seed基准测试中表现优异,取得最佳的说话人相似度和可懂度,证明了在波形潜空间生成语音的有效性。LongCat-AudioDiT以简化架构和高保真合成为目标,已开源,期待推动语音生成技术的发展。

突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

美团技术团队
美团技术团队 · 2026-04-20T00:00:00Z
零抽样 TTS 新突破!几秒参考音频,OmniVoice 助你轻松克隆数百种语言;17 种语言一网打尽:MDPBench 解决低资源文字系统解析难的「心头大患」

小米人工智能实验室推出了OmniVoice,这是一款支持600多种语言的零样本文本转语音(TTS)模型。该模型采用单阶段框架,直接将文本映射为声学标记,基于58.1万小时的开源数据训练,广泛覆盖语言,并提升了对低资源语言的支持。

零抽样 TTS 新突破!几秒参考音频,OmniVoice 助你轻松克隆数百种语言;17 种语言一网打尽:MDPBench 解决低资源文字系统解析难的「心头大患」

HyperAI超神经
HyperAI超神经 · 2026-04-17T08:28:37Z
Google AI 发布 Gemini 3.1 Flash TTS:表现力强、可控性高的 AI 语音技术新标杆

谷歌推出了Gemini 3.1 Flash TTS,这是一个改进的文本转语音模型,支持70多种语言,具备自然语言音频标签和多说话人对话功能。该模型在行业基准测试中得分1211,提供复杂的控制层,允许开发者根据场景调整语气、语速和口音。同时,集成的SynthID水印技术可识别AI生成内容,确保信息透明。

Google AI 发布 Gemini 3.1 Flash TTS:表现力强、可控性高的 AI 语音技术新标杆

实时互动网
实时互动网 · 2026-04-16T03:02:56Z

谷歌推出了Gemini 3.1 Flash TTS,这是最新的文本转语音模型,具备更好的可控性、表现力和音质,支持70多种语言,并提供音频标签以控制语音风格和节奏。所有生成的音频都带有不可见水印SynthID,以防止虚假信息传播。

Gemini 3.1 Flash TTS:下一代富有表现力的人工智能语音

The Keyword
The Keyword · 2026-04-15T15:00:00Z
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

音频生成技术正向端到端生成演进。美团LongCat团队推出LongCat-AudioDiT,直接在波形潜空间进行文本转语音,避免信息损失。该模型在Seed基准测试中表现优异,取得了SOTA的说话人相似度和可懂度,展现出强大的零样本语音克隆能力。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

实时互动网
实时互动网 · 2026-04-02T01:48:34Z
Google AI 发布 WAXAL:用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集

WAXAL是一个开放的多语言语音数据集,涵盖24种非洲语言,专为自动语音识别(ASR)和文本转语音(TTS)设计。ASR部分通过图像提示自然采集语音,TTS部分在录音棚中高质量录制,确保语音一致性。

Google AI 发布 WAXAL:用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集

实时互动网
实时互动网 · 2026-03-19T02:10:27Z
Voximplant 将 Cartesia Line 语音代理引入真实通话中

云通信平台Voximplant宣布支持Cartesia Line,简化AI代理开发。开发者可直接连接电话、SIP和WhatsApp,无需自定义基础设施,Voximplant负责电话层管理,团队可专注于座席逻辑。该平台支持文本转语音和语音克隆,助力企业快速实现语音AI转型。

Voximplant 将 Cartesia Line 语音代理引入真实通话中

实时互动网
实时互动网 · 2026-02-13T03:12:27Z
想让 TTS 更具情感和可控性?试试 GLM‑TTS

GLM-TTS 是一个基于多奖励强化学习的文本转语音系统,支持零样本情感表达和多维度控制,旨在生成自然且富有情感的语音,适用于语音助手和有声书等场景,采用开源许可,便于社区使用与扩展。

想让 TTS 更具情感和可控性?试试 GLM‑TTS

dotNET跨平台
dotNET跨平台 · 2026-02-04T23:46:07Z
10 款不能错过的免费软件[20260122]

文章介绍了多个开源AI工具,包括离线语音转文本的Handy、自动化壁纸工具、截图工具Snow Shot、命令行AI工具AionUi、安卓自动化工具Ruto-GLM、本地AI代理Openwork、文本转自然语音的VibeVoice、微信聊天记录分析工具WeFlow,以及谷歌的AI工作流Opal。这些工具提升了用户的工作效率和体验。

10 款不能错过的免费软件[20260122]

小众软件
小众软件 · 2026-01-22T13:54:37Z
CAMB.AI 发布 MARS8:首个 TTS 架构系列,终结“一刀切”式语音 AI 时代

CAMB.AI推出MARS8,这是首个针对不同生产环境设计的文本转语音系统,克服了通用模型的局限。MARS8提供四种架构,优化特定需求,并采用计算优先的定价模式,降低企业成本,标志着生产级语音AI的重大进展。

CAMB.AI 发布 MARS8:首个 TTS 架构系列,终结“一刀切”式语音 AI 时代

实时互动网
实时互动网 · 2026-01-22T02:29:02Z
如何将您喜爱的技术博客转换为个人播客

本文介绍了如何将技术博客文章转换为个人播客。用户可以通过构建Node.js脚本,从RSS源获取文章,过滤不需要的内容,清理文本,使用文本转语音API生成音频,最后上传到Cloudflare R2并生成播客RSS源,实现自动化,方便用户在手机上订阅播客。

如何将您喜爱的技术博客转换为个人播客

freeCodeCamp.org
freeCodeCamp.org · 2026-01-21T21:46:25Z
如何使用OpenAI构建和部署博客转音频服务

将博客文章转为音频是一种有效的传播方式。利用OpenAI的文本转语音模型,可以创建服务,提取博客内容并生成MP3文件。通过FastAPI构建后端,用户可上传文本或链接以获取音频文件,最后将服务部署到Sevalla,实现在线使用。

如何使用OpenAI构建和部署博客转音频服务

freeCodeCamp.org
freeCodeCamp.org · 2026-01-14T04:34:50Z
IEEE TASLP | FPO: 细粒度偏好优化提升零样本TTS鲁棒性

近年来,零样本文本转语音(TTS)系统取得进展,但仍存在局部错误。西工大与喜马拉雅合作提出细粒度偏好优化(FPO),有效修复问题片段,提升语音合成的鲁棒性和数据效率。实验结果显示,FPO在可懂度和自然度上显著优于传统方法。

IEEE TASLP | FPO: 细粒度偏好优化提升零样本TTS鲁棒性

实时互动网
实时互动网 · 2026-01-05T03:19:58Z
仅需5秒一步实现克隆!Chatterbox-Turbo 实现高采样率无损音质的语音生成

Resemble AI 发布了开源的 Chatterbox-Turbo 对话式文本转语音模型,具备情绪控制功能,采用非自回归架构,显著提高生成速度和音质,适用于智能客服、游戏和教育等领域。

仅需5秒一步实现克隆!Chatterbox-Turbo 实现高采样率无损音质的语音生成

HyperAI超神经
HyperAI超神经 · 2026-01-03T03:01:56Z
在线教程丨微软开源VibeVoice,可实现90分钟4角色自然对话

微软开源的VibeVoice是一种新型文本转语音(TTS)合成技术,能够生成高保真、多说话人的长语音。该技术采用下一token扩散方法,显著提高了长序列处理的效率和音频质量,支持最多4名说话人的对话,表现超越现有模型。用户可通过HyperAI官网体验实时语音合成服务。

在线教程丨微软开源VibeVoice,可实现90分钟4角色自然对话

HyperAI超神经
HyperAI超神经 · 2025-12-16T04:05:07Z
GLM-TTS - 一种可控的、情感表达丰富的零样本文本转语音系统,使用…

GLM-TTS是Zai推出的文本转语音项目,专注于可控的情感和语音风格生成。它采用零样本多奖励强化学习,能够生成特定情感的自然语音,支持情感强度和语速等多维度控制,适用于语音助手和有声书等场景。

GLM-TTS - 一种可控的、情感表达丰富的零样本文本转语音系统,使用…

云原生
云原生 · 2025-12-11T06:14:04Z

我们发布了Gemini 2.5 Flash和Pro文本转语音模型的重大升级,提升了表达能力、语速控制和多说话者对话的自然性,适用于有声书和电子学习等场景。开发者可在Google AI Studio中使用这些新模型。

提升Gemini文本转语音模型的控制能力和功能

The Keyword
The Keyword · 2025-12-10T17:00:00Z
VoxCPM - 一种无分词的文本转语音(TTS)系统,支持上下文感知的语音合成……

VoxCPM是OpenBMB推出的开源无分词文本转语音系统,支持上下文感知和零-shot语音克隆,基于MiniCPM-4,适用于语音助手和媒体配音等高保真合成任务。

VoxCPM - 一种无分词的文本转语音(TTS)系统,支持上下文感知的语音合成……

云原生
云原生 · 2025-12-05T06:53:59Z
IMS Toucan - 一款可控且快速的文本转语音(TTS)工具包,支持超过7000种语言……

IMS Toucan是斯图加特大学自然语言处理研究所开发的开源文本转语音工具包,支持7000多种语言,适用于研究和工程。它提供训练和推理接口以及预训练模型,强调高质量的多语言合成,适合学术研究和语音助手等多种应用场景。

IMS Toucan - 一款可控且快速的文本转语音(TTS)工具包,支持超过7000种语言……

云原生
云原生 · 2025-12-05T03:18:39Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码