小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

美团LongCat团队发布了LongCat-AudioDiT模型,采用全新的端到端文本转语音技术,减少信息损失。该模型在Seed基准测试中表现优异,取得最佳的说话人相似度和可懂度,证明了在波形潜空间生成语音的有效性。LongCat-AudioDiT以简化架构和高保真合成为目标,已开源,期待推动语音生成技术的发展。

突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

美团技术团队
美团技术团队 · 2026-04-20T00:00:00Z
零抽样 TTS 新突破!几秒参考音频,OmniVoice 助你轻松克隆数百种语言;17 种语言一网打尽:MDPBench 解决低资源文字系统解析难的「心头大患」

小米人工智能实验室推出了OmniVoice,这是一款支持600多种语言的零样本文本转语音(TTS)模型。该模型采用单阶段框架,直接将文本映射为声学标记,基于58.1万小时的开源数据训练,广泛覆盖语言,并提升了对低资源语言的支持。

零抽样 TTS 新突破!几秒参考音频,OmniVoice 助你轻松克隆数百种语言;17 种语言一网打尽:MDPBench 解决低资源文字系统解析难的「心头大患」

HyperAI超神经
HyperAI超神经 · 2026-04-17T08:28:37Z
OpenClaw v2026.4.15发布:接入Opus4.7、Gemini TTS、云存储

OpenClaw 2026.4.15版本更新了多个核心功能,解决了AI工程中的上下文膨胀、记忆管理和工具链不稳定等问题。新增了对Anthropic Opus 4.7和Gemini TTS的支持,优化了内存系统,增强了模型选择的便捷性和安全性,并引入了云存储支持,提升了长期记忆系统的可扩展性和开发者体验。整体上,OpenClaw朝着长期稳定运行的方向发展。

OpenClaw v2026.4.15发布:接入Opus4.7、Gemini TTS、云存储

极道
极道 · 2026-04-17T00:42:00Z
Google AI 发布 Gemini 3.1 Flash TTS:表现力强、可控性高的 AI 语音技术新标杆

谷歌推出了Gemini 3.1 Flash TTS,这是一个改进的文本转语音模型,支持70多种语言,具备自然语言音频标签和多说话人对话功能。该模型在行业基准测试中得分1211,提供复杂的控制层,允许开发者根据场景调整语气、语速和口音。同时,集成的SynthID水印技术可识别AI生成内容,确保信息透明。

Google AI 发布 Gemini 3.1 Flash TTS:表现力强、可控性高的 AI 语音技术新标杆

实时互动网
实时互动网 · 2026-04-16T03:02:56Z

Gemini 3.1 Flash TTS是最新的AI语音模型,支持70多种语言,用户可通过音频标签调整语音风格和节奏。所有生成的音频均带有SynthID水印,以防止误信息传播。开发者可在Google AI Studio中使用该模型,创造高保真语音体验。

Gemini 3.1 Flash TTS:下一代富有表现力的AI语音

Google DeepMind Blog
Google DeepMind Blog · 2026-04-15T16:03:19Z

谷歌推出了Gemini 3.1 Flash TTS,这是最新的文本转语音模型,具备更好的可控性、表现力和音质,支持70多种语言,并提供音频标签以控制语音风格和节奏。所有生成的音频都带有不可见水印SynthID,以防止虚假信息传播。

Gemini 3.1 Flash TTS:下一代富有表现力的人工智能语音

The Keyword
The Keyword · 2026-04-15T15:00:00Z
仅需 3 秒音频实现「配音自由」,Mistral 开源语音大模型 Voxtral-4B-TTS-2603;多项全能!Capybara 一站式搞定图、视频生成与指令编辑

Mistral发布了Voxtral-4B-TTS-2603模型,旨在提升多语言语音生成的自然度和效率。该模型结合了语义自回归和声学流匹配,支持低延迟本地运行,展现出良好的泛化能力。

仅需 3 秒音频实现「配音自由」,Mistral 开源语音大模型 Voxtral-4B-TTS-2603;多项全能!Capybara 一站式搞定图、视频生成与指令编辑

HyperAI超神经
HyperAI超神经 · 2026-04-08T06:29:50Z
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

音频生成技术正向端到端生成演进。美团LongCat团队推出LongCat-AudioDiT,直接在波形潜空间进行文本转语音,避免信息损失。该模型在Seed基准测试中表现优异,取得了SOTA的说话人相似度和可懂度,展现出强大的零样本语音克隆能力。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

实时互动网
实时互动网 · 2026-04-02T01:48:34Z

研究发现,Qwen的语音合成技术中,跨句合成的音色稳定性只能通过语音克隆实现。虽然可以通过语气指令调节音色,但无法确保跨句一致性。使用seed参数仅能在同一句话中保持一致。最终,通过生成wav文件并转换为pt文件,实现了稳定的音色,并可进行二次语气控制,效果令人满意。希望这些经验能帮助其他AI研究者。

Qwen TTS 跨句音色稳定输出技术的研究

Andy Stewart
Andy Stewart · 2026-03-26T16:00:00Z

在调试小龙猫语音时遇到困难,发现千问TTS模型音色控制有限,句子间音色不稳定。明天将尝试语音克隆,若无效则考虑更换模型。实践是获取知识的关键。

Qwen TTS 研究

Andy Stewart
Andy Stewart · 2026-03-25T16:00:00Z
MOSS-TTS:基于 CAT 架构的解耦式生产级语音生成模型;打破单细胞分析壁垒:Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

MOSS-TTS系列是MOSI.AI与OpenMOSS联合推出的多模型语音生成工具,克服了单一模型在复杂场景中的局限,支持高保真语音、对话和实时交互,适用于多种语言和风格切换。

MOSS-TTS:基于 CAT 架构的解耦式生产级语音生成模型;打破单细胞分析壁垒:Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

HyperAI超神经
HyperAI超神经 · 2026-03-06T06:01:17Z
在线教程丨基于500万小时语音数据,Qwen3-TTS实现3秒语音克隆及精细调控

生成式AI的语音合成技术不断进步,Qwen3-TTS模型支持多语言、语音克隆和细粒度控制,已在HyperAI官网上线,用户可体验3秒语音克隆。

在线教程丨基于500万小时语音数据,Qwen3-TTS实现3秒语音克隆及精细调控

HyperAI超神经
HyperAI超神经 · 2026-03-03T05:52:33Z

我开发了一个基于Microsoft Edge TTS API的免费图形化文字转语音工具,名为edge-tts_tk_gui。该工具使用Python和Tkinter构建,支持多种语音选择、批量处理和音频播放,操作简单,适合各类用户。项目展示了AI在编程中的应用,代码结构清晰,易于维护。

我用大模型写了一个Edge TTS图形化工具

碎言博客
碎言博客 · 2026-02-26T08:06:37Z
想让 TTS 更具情感和可控性?试试 GLM‑TTS

GLM-TTS 是一个基于多奖励强化学习的文本转语音系统,支持零样本情感表达和多维度控制,旨在生成自然且富有情感的语音,适用于语音助手和有声书等场景,采用开源许可,便于社区使用与扩展。

想让 TTS 更具情感和可控性?试试 GLM‑TTS

dotNET跨平台
dotNET跨平台 · 2026-02-04T23:46:07Z
2026年2月1日Python Hub周刊摘要

本周Python亮点包括口袋TTS项目、卫星追踪方法、Python数据类冷知识、Polars代码转SQL讨论及NumPy教程。此外,Rust驱动的FM-index实现了快速子串搜索,Django 6.0的bug由单个测试揭示。新项目有Opticol、Paper2Any和Violit。

2026年2月1日Python Hub周刊摘要

Python Hub Weekly
Python Hub Weekly · 2026-02-01T18:00:00Z
Inworld AI 发布 TTS-1.5,用于实时、生产级语音代理

Inworld AI 推出了 TTS-1.5,显著提升了实时语音代理的延迟和质量。Max 型号音频延迟低于 250 毫秒,Mini 型号低于 130 毫秒,性能和稳定性分别提高 30% 和 40%。该系统支持 15 种语言,并提供语音克隆功能,定价合理,适合高使用率产品。

Inworld AI 发布 TTS-1.5,用于实时、生产级语音代理

实时互动网
实时互动网 · 2026-01-22T03:11:13Z
CAMB.AI 发布 MARS8:首个 TTS 架构系列,终结“一刀切”式语音 AI 时代

CAMB.AI推出MARS8,这是首个针对不同生产环境设计的文本转语音系统,克服了通用模型的局限。MARS8提供四种架构,优化特定需求,并采用计算优先的定价模式,降低企业成本,标志着生产级语音AI的重大进展。

CAMB.AI 发布 MARS8:首个 TTS 架构系列,终结“一刀切”式语音 AI 时代

实时互动网
实时互动网 · 2026-01-22T02:29:02Z
IEEE TASLP | FPO: 细粒度偏好优化提升零样本TTS鲁棒性

近年来,零样本文本转语音(TTS)系统取得进展,但仍存在局部错误。西工大与喜马拉雅合作提出细粒度偏好优化(FPO),有效修复问题片段,提升语音合成的鲁棒性和数据效率。实验结果显示,FPO在可懂度和自然度上显著优于传统方法。

IEEE TASLP | FPO: 细粒度偏好优化提升零样本TTS鲁棒性

实时互动网
实时互动网 · 2026-01-05T03:19:58Z
ZEGO 实时互动 AI Agent v2.9.0 发布,新增 TTS 支持过滤特定字符串等功能

ZEGO 实时互动 AI Agent v2.9.0 发布,新增 TTS 文本转语音功能,支持特定字符串过滤。通过 Responses API 调用豆包 Seed 系列模型时可自动开启缓存,降低互动延迟和成本。同时优化了语音实例和数字人实例的互动延迟,并修复了回调问题。

ZEGO 实时互动 AI Agent v2.9.0 发布,新增 TTS 支持过滤特定字符串等功能

实时互动网
实时互动网 · 2026-01-04T07:10:10Z
17.3K Star!微软开源VibeVoice,AI语音合成新突破,支持90分钟多人对话和实时流式TTS

微软开源的VibeVoice项目能够生成最长90分钟的自然多人对话音频,支持最多4个说话人,突破传统TTS限制,兼容中英文及多语言合成,适合播客和教育内容制作。

17.3K Star!微软开源VibeVoice,AI语音合成新突破,支持90分钟多人对话和实时流式TTS

dotNET跨平台
dotNET跨平台 · 2025-12-19T00:03:39Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码