小红花·文摘

多智能体协同办公平台，本地部署保障数据自主 | 开源日报 No.856

开源服务指南 ·

EmoVoice模型基于大语言模型，解决了文本到语音（TTS）在情感表达控制方面的不足，实现了自然语言情感的精细控制，并通过并行输出音素和音频标记提高内容一致性，推动了情感语音合成的发展。

EmoVoice: A Freestyle Text Emotional Speech Synthesis Model Based on Large Language Models

BriefGPT - AI 论文速递 ·

Deepgram 推出 Aura-2：专业且具备成本效益的企业级文本转语音模型

实时互动网 ·

本研究提出了一种基于检索增强生成的文本到语音合成框架，强调提示选择的重要性，能够动态调整语言风格，实现更自然的交流。

Automatic Style TTS: Retrieval-Augmented Generation Based Automatic Style Matching for Text-to-Speech Synthesis

BriefGPT - AI 论文速递 ·

SlimSpeech是一种轻量高效的文本到语音合成系统，基于精简整流流。该研究通过优化模型结构和蒸馏技术，显著减少了模型参数，同时保持了与大型模型相当的合成效果。

SlimSpeech: Lightweight and Efficient Text-to-Speech Synthesis Based on Slim Rectified Flow

BriefGPT - AI 论文速递 ·

本研究针对新手内容创作者在社交媒体视频中录制语音的困难，提出了一种新方法，通过用户提供的上下文简化文本到语音（TTS）生成，并利用SpeakEasy系统进行优化。研究结果表明，使用SpeakEasy的参与者能够更有效地生成符合个人标准的语音表现。

SpeakEasy：增强文本到语音交互以促进富有表现力的内容创作

BriefGPT - AI 论文速递 ·

Spark-TTS是什么？基于 Qwen2.5 的下一代文本转语音系统

文武科技柜 ·

Ebook2Audiobook 是一款开源工具，能够将电子书转换为有声书，支持多种格式，方便用户在不同场景下使用文本到语音技术收听。

Ebook2Audiobook 一键将电子书转有声读物；CVPR 首届跨域小样本对象检测挑战赛数据集上线

HyperAI超神经 ·

本研究提出了Llasa框架，解决了基于大语言模型的文本到语音系统在训练和推理阶段的计算能力扩展问题。实验结果表明，延长训练时间可以显著提升合成语音的自然性、复杂性和情感表现。

Llasa: Scaling Compute Capacity for Training and Inference Time in Llama-based Speech Synthesis

BriefGPT - AI 论文速递 ·

本文提出了一种轻量级的多语言文本到语音（TTS）模型，旨在解决北美三种土著语言（奥吉布瓦语、米克马克语和马利西特语）语音合成系统不足的问题，强调了多语言模型在数据稀缺情况下的优势。

Development of a Multilingual Speech Synthesis System for Ojibwe, Mi'kmaq, and Maliseet Languages

BriefGPT - AI 论文速递 ·

本研究探讨了文本到语音(TTS)系统中外部工具生成的时长依赖问题，提出了一种新的对齐器训练方法，显著提高了对齐准确性，词错误率降低了16%，优化了TTS系统的自然度和可懂度。

Alignment-Guided Training Paradigm: Enhancing Duration in Text-to-Speech Models through Alignment Guidance

BriefGPT - AI 论文速递 ·

本研究提出了Hard-Synth方法，利用大语言模型生成文本，并结合零样本文本到语音技术，解决了自动语音识别系统在文本数据稀缺时的标记成本问题。实验结果表明，该方法显著提升了Conformer模型的表现，降低了词错误率，提高了数据效率。

Hard-Synth：使用零样本TTS和LLM合成多样化的困难样本以增强自动语音识别

BriefGPT - AI 论文速递 ·

本研究针对文本到语音（TTS）评估中的一致性和稳健性问题，提出了改进的MUSHRA测试变体，以解决参考匹配偏差和评判模糊性。此外，研究发布了包含47,100个汉语和泰米尔语评分的MANGO数据集，旨在支持人类偏好分析和自动评估指标的开发。

Rethinking MUSHRA: Addressing Modern Challenges in Text-to-Speech Evaluation

BriefGPT - AI 论文速递 ·

本研究探讨了文本到语音系统中字母到音素转换的歧义问题，提出了一种基于大语言模型的上下文知识检索方法。实验结果表明，该方法显著提高了转换精确度，尤其在Librig2p数据集上降低了音素错误率。

Improving Grapheme-to-Phoneme Conversion through In-Context Knowledge Retrieval with Large Language Models

BriefGPT - AI 论文速递 ·

本研究比较了自然语言翻译中的直接方法与传统叠加方法，发现两者性能差距消失。提出了综合层次系统以转移情感，并建立了基准测试集。研究探讨了不同发音对韵律转移的影响，提出多尺度、多模态的文本到语音系统以增强韵律表现。评估了预训练语言模型在文本转语音中的影响，发现迁移学习显著提高性能，对低资源语言模型建设具有重要意义。

语音不仅仅是文字：语音到文本翻译系统是否利用了韵律？

BriefGPT - AI 论文速递 ·

本研究探讨了自回归变换器基础的文本到语音模型在处理未见长序列时的鲁棒性和长度泛化问题。提出了一种改进方法，通过对齐机制和相对位置信息增强，提升输出的自然性和表达力，解决了重复或丢失单词的问题。

Very Attentive Tacotron: Robustness and Unbounded Length Generalization in Autoregressive Transformer-Based Speech Synthesis

BriefGPT - AI 论文速递 ·

本文介绍了多种非自回归文本到语音（TTS）模型的创新，包括VARA-TTS、Diff-TTS和NAST-S2X。VARA-TTS通过多层注意力机制提高推理速度和语音质量，Diff-TTS显著提升合成速度，NAST-S2X实现高质量的同时口译。这些模型在推理效率和语音合成质量上均有显著进展。

多智能体协同办公平台，本地部署保障数据自主 | 开源日报 No.856

EmoVoice: A Freestyle Text Emotional Speech Synthesis Model Based on Large Language Models

Deepgram 推出 Aura-2：专业且具备成本效益的企业级文本转语音模型

Automatic Style TTS: Retrieval-Augmented Generation Based Automatic Style Matching for Text-to-Speech Synthesis

SlimSpeech: Lightweight and Efficient Text-to-Speech Synthesis Based on Slim Rectified Flow

SpeakEasy：增强文本到语音交互以促进富有表现力的内容创作

Spark-TTS是什么？基于 Qwen2.5 的下一代文本转语音系统

Ebook2Audiobook 一键将电子书转有声读物；CVPR 首届跨域小样本对象检测挑战赛数据集上线

Llasa: Scaling Compute Capacity for Training and Inference Time in Llama-based Speech Synthesis

Development of a Multilingual Speech Synthesis System for Ojibwe, Mi'kmaq, and Maliseet Languages

Alignment-Guided Training Paradigm: Enhancing Duration in Text-to-Speech Models through Alignment Guidance

Hard-Synth：使用零样本TTS和LLM合成多样化的困难样本以增强自动语音识别

Rethinking MUSHRA: Addressing Modern Challenges in Text-to-Speech Evaluation

Improving Grapheme-to-Phoneme Conversion through In-Context Knowledge Retrieval with Large Language Models

语音不仅仅是文字：语音到文本翻译系统是否利用了韵律？

Very Attentive Tacotron: Robustness and Unbounded Length Generalization in Autoregressive Transformer-Based Speech Synthesis

通过投机解码实现快速高质量自回归语音合成

STTATTS：统一语音转文本和文本转语音模型

Enhancing Low-Resource ASR through Versatile TTS: Bridging the Data Gap

EmoKnob: Enhancing Voice Cloning with Fine-Grained Emotional Control