小红花·文摘 - 小红花技术领袖俱乐部

Miso Labs发布MisoTTS：一款拥有开放权重的80亿情感文本转语音模型

Miso Labs发布MisoTTS：一款拥有开放权重的80亿情感文本转语音模型

实时互动网 ·

阶跃最新语音模型位列 Artificial Analysis 评测榜中国第一

阶跃最新语音模型位列 Artificial Analysis 评测榜中国第一

量子位 ·

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；多项全能！Capybara 一站式搞定图、视频生成与指令编辑

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；多项全能！Capybara 一站式搞定图、视频生成与指令编辑

HyperAI超神经 ·

VibeVoice开源语音生成模型解析：因太强被紧急下架，加水印后免费开源

VibeVoice开源语音生成模型解析：因太强被紧急下架，加水印后免费开源

极道 ·

MOSS-TTS：基于 CAT 架构的解耦式生产级语音生成模型；打破单细胞分析壁垒：Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

MOSS-TTS：基于 CAT 架构的解耦式生产级语音生成模型；打破单细胞分析壁垒：Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

HyperAI超神经 ·

用于语音推测解码的原则性粗粒度接受

用于语音推测解码的原则性粗粒度接受

Apple Machine Learning Research ·

这个明星 AI 硬件在翻车被骂后，把自己「炸了」，并放了一个大招

这个明星 AI 硬件在翻车被骂后，把自己「炸了」，并放了一个大招

爱范儿 ·

VoXtream：一款开源的全流式零样本文本转语音模型，支持实时应用

VoXtream：一款开源的全流式零样本文本转语音模型，支持实时应用

实时互动网 ·

微软开源的VibeVoice-1.5B模型在TTS领域备受关注，能够生成90分钟的高自然度语音，支持4位说话者。其创新点在于双Tokenizer架构和扩散解码技术，MOS评分达到4.5。该模型主要面向科研和开发者，目前仅支持中英文，强调研究用途以防滥用。

在线教程 | VibeVoice-1.5B独创双Tokenizer架构实现一次性生成90分钟4人对话语音，重新定义TTS技术边界

HyperAI超神经 ·

Visatronic：一种用于语音合成的多模态解码器模型

Visatronic：一种用于语音合成的多模态解码器模型

Apple Machine Learning Research ·

本研究提出FMSD-TTS框架，针对藏语低资源问题，通过少量音频和方言标签生成方言语音，提升了方言表现力和说话人相似性。

FMSD-TTS: Few-Shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for Generating U-Tsang, Amdo, and Kham Speech Datasets

BriefGPT - AI 论文速递 ·

从MCP到多代理：当前GitHub上最重要的10个新开源AI项目及其意义

从MCP到多代理：当前GitHub上最重要的10个新开源AI项目及其意义

The GitHub Blog ·

本研究提出AlignDiT模型，解决多模态语音生成问题，能够从文本、视频和音频合成高质量语音，提高可懂性和同步性。

AlignDiT: A Multimodal Alignment Diffusion Transformer for Synchronous Speech Generation

BriefGPT - AI 论文速递 ·

本研究提出了SOLIDO方法，利用低秩自适应技术解决语音生成模型的安全性问题，特别是模型侵权和内容滥用。该方法能够对可变长度输入进行精确水印提取，实验结果显示提取准确率最高可达99.20%。

SOLIDO: A Robust Watermarking Method for Speech Synthesis via Low-Rank Adaptation

BriefGPT - AI 论文速递 ·

推出 Amazon Nova Sonic：为生成式 AI 应用程序带来类似人类的语音对话体验

推出 Amazon Nova Sonic：为生成式 AI 应用程序带来类似人类的语音对话体验

亚马逊AWS官方博客 ·

本研究针对新手内容创作者在社交媒体视频中录制语音的困难，提出了一种新方法，通过用户提供的上下文简化文本到语音（TTS）生成，并利用SpeakEasy系统进行优化。研究结果表明，使用SpeakEasy的参与者能够更有效地生成符合个人标准的语音表现。

SpeakEasy：增强文本到语音交互以促进富有表现力的内容创作

BriefGPT - AI 论文速递 ·

阿里深夜开源Qwen2.5-Omni，7B参数完成看、听、说、写

阿里深夜开源Qwen2.5-Omni，7B参数完成看、听、说、写

机器之心 ·

Qwen2.5 Omni: See, Hear, Talk, Write, Do It All!

Qwen2.5 Omni: See, Hear, Talk, Write, Do It All!

Blog on Qwen ·

现代文本转语音（TTS）技术，如E2和F5 TTS模型，显著提升了语音生成质量，解决了传统系统的延迟和不自然问题。E2 TTS采用简化架构，F5 TTS结合流匹配和扩散变换器，进一步优化输出。用户可以通过HuggingFace平台轻松测试和应用这些模型，生成更自然的人声对话。

现代文本转语音解决方案

KDnuggets ·

本研究提出了ImaginTalk框架，解决了视觉引导语音生成在语义、音色和情感韵律上的一致性问题。该框架基于视觉输入生成真实语音，提升了表达力和准确性，具有影视配音和辅助失声患者的潜在应用。

Shushing! Let's Imagine the Authentic Language from Silent Videos

BriefGPT - AI 论文速递 ·