小红花·文摘 - 小红花技术领袖俱乐部

emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习

emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习

HyperAI超神经 ·

【论文解读】BareWave：扔掉声码器，让 AI 语音复刻“一步到位”

【论文解读】BareWave：扔掉声码器，让 AI 语音复刻“一步到位”

实时互动网 ·

什么是AI语音开发？从技术链路到落地场景的完整拆解

什么是AI语音开发？从技术链路到落地场景的完整拆解

实时互动网 ·

什么是AI实时语音技术？如何理解AI实时语音技术

什么是AI实时语音技术？如何理解AI实时语音技术

实时互动网 ·

什么是 AI 对话开发？AI 对话开发有什么用途？(2026 完整指南)

什么是 AI 对话开发？AI 对话开发有什么用途？(2026 完整指南)

实时互动网 ·

MiMo-V2.5-TTS-Series + ASR 正式发布

MiMo-V2.5-TTS-Series + ASR 正式发布

小米云技术 ·

2026年4月本周GitHub上最火9个开源项目，帮你省掉每月1500美元的AI工具订阅费

2026年4月本周GitHub上最火9个开源项目，帮你省掉每月1500美元的AI工具订阅费

极道 ·

微软一口气发布3个AI模型：能听、会说、还能画，实测后我有点意外

微软一口气发布3个AI模型：能听、会说、还能画，实测后我有点意外

dotNET跨平台 ·

研究发现，Qwen的语音合成技术中，跨句合成的音色稳定性只能通过语音克隆实现。虽然可以通过语气指令调节音色，但无法确保跨句一致性。使用seed参数仅能在同一句话中保持一致。最终，通过生成wav文件并转换为pt文件，实现了稳定的音色，并可进行二次语气控制，效果令人满意。希望这些经验能帮助其他AI研究者。

Qwen TTS 跨句音色稳定输出技术的研究

Andy Stewart ·

在小龙虾的语音合成研发中，最初采用“前面流式，后面预取”的方案效果最佳。尝试全流式生成导致不稳定，体验差。最终认识到，AI方案已是最优解，强调承认已有方案的重要性。

分享一下我开发小龙虾流式语音的过程

Andy Stewart ·

有字幕，没配音？用浏览器自带语音能力，让网页视频直接“开口说话”

有字幕，没配音？用浏览器自带语音能力，让网页视频直接“开口说话”

dotNET跨平台 ·

在线教程丨基于500万小时语音数据，Qwen3-TTS实现3秒语音克隆及精细调控

在线教程丨基于500万小时语音数据，Qwen3-TTS实现3秒语音克隆及精细调控

HyperAI超神经 ·

连你的声音都是一个数据问题

连你的声音都是一个数据问题

Stack Overflow Blog ·

Twitter 推荐算法核心揭秘：个性化推荐与高性能特征生成 | 开源日报 No.844

Twitter 推荐算法核心揭秘：个性化推荐与高性能特征生成 | 开源日报 No.844

开源服务指南 ·

IEEE TASLP | FPO: 细粒度偏好优化提升零样本TTS鲁棒性

IEEE TASLP | FPO: 细粒度偏好优化提升零样本TTS鲁棒性

实时互动网 ·

Soul App开源了播客语音合成模型SoulX-Podcast，支持多轮对话和多方言，生成自然流畅的语音，尤其在语音克隆和长对话中表现优异，具备丰富的韵律和情感表达，推动AI与社交结合，提升用户体验。

Soul App开源播客语音合成模型，可流畅自然多轮语音对话，支持川粤豫等多方言与副语言风格

量子位 ·

火山引擎升级了豆包语音模型，增强了AI对情感的理解与表达。新模型支持多种语音指令和上下文引用，提高了语音合成的准确性和情感表现，广泛应用于多个场景，推动AI技术的实际应用。

新豆包模型让郭德纲喊出发疯文学：(这班)不上了！不上了！不上了！！！

量子位 ·

火山引擎全新发布和升级了四款豆包大模型

火山引擎全新发布和升级了四款豆包大模型

实时互动网 ·

spring-ai-hunyuan项目已更新至1.0.0.2版本，新增思考链、语音识别（ASR）和语音合成（TTS）功能，提升文本生成场景的开发体验。项目源码已开源，集成简单，支持流式和阻塞式问答，适合数据驱动应用。

混元开源之力：spring-ai-hunyuan 项目功能升级与实战体验 - 努力的小雨

努力的小雨 ·

这篇文章讨论了文本转语音（TTS）技术的不同模型及其表现，评论者对某些模型的声音质量表示不满，认为声音不自然且缺乏深度。文章提到开源项目如KittenTTS和Piper，强调它们在语音合成中的潜力和局限性，并展望未来本地化语音模型的可能性。整体上，文章反映了对TTS技术的关注和改进的期待。

Kitten TTS：这款 25MB 的 AI 语音模型即将改变一切(即使在低配设备上也能运行！🥔)

程序师 ·