BriefGPT - AI 论文速递 ·

语言模型基础上的文本转语音中的情感维度控制：涵盖广泛的人类情感

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文研究了通过微调深度学习的文字转语音模型，利用少量数据合成情感语音。提出了基于文本的情感风格控制和跨说话人情感转移等方法，展示了在情感表达、自然度和可控性方面的优势。同时，开发了大规模语音情感数据集TextrolSpeech和新架构Salle，提升了可控TTS性能。

🎯

关键要点

通过微调预训练的深度学习文字转语音模型，使用少量数据合成情感语音。
提出基于文本的情感风格控制接口和跨说话人风格转移方法，提升表达性语音合成质量。
开发了TextrolSpeech大规模语音情感数据集，包含236,220对样式提示和对应语音样本。
提出新架构Salle，将文本可控TTS作为语言模型任务处理，提升可控TTS性能。
设计了两阶段框架TEMOTTS，能够在没有情感标签和文本提示的情况下进行训练和推理。
提出EmoSphere-TTS，通过球形情感向量控制合成语音的情感风格和强度。

❓

延伸问答

如何通过微调模型合成情感语音？

通过微调预训练的深度学习文字转语音模型，利用少量情感数据来适应模型生成情感TTS。

TextrolSpeech数据集的特点是什么？

TextrolSpeech是一个大规模语音情感数据集，包含236,220对样式提示和对应语音样本，注释了丰富的文本属性。

什么是EmoSphere-TTS？

EmoSphere-TTS是一个通过球形情感向量控制合成语音情感风格和强度的系统，能够高质量地生成情感语音。

TEMOTTS框架的创新之处在哪里？

TEMOTTS框架能够在没有情感标签和文本提示的情况下进行训练和推理，提高了情感准确性和自然度。

跨说话人情感转移是如何实现的？

通过潜在风格空间中的矢量算术方法，利用少量标记样本生成情感语音，同时保留说话人的身份。

新架构Salle的作用是什么？

Salle将文本可控TTS作为语言模型任务处理，利用音频编解码代码替代传统的mel频谱图，提升了可控TTS性能。

🏷️

标签

可控性情感语音数据集文字转语音深度学习语言模型

➡️

继续阅读

远程控制安卓工具 Scrcpy 4.1 发布，新增 VP8 / VP9 视频编码支持，让更多安卓设备可以投屏
著名的开源电脑控制安卓工具 Scrcpy 4.1 已经发布，新增支持 VP8 / VP9 视频编码，可以让不支持 H.264、H.265 或 AV1 编码...
XMOS推出搭载先进AI语音处理的VocalFusion XVF3620
XMOS 发布了新一代语音处理器 VocalFusion XVF3620，它将 AI 降噪技术与完整的片上语音处理流程相结合，即使在嘈杂、混响和动态环境中...
Twitter之父再出手：Block开源Buzz，要让人类和AI Agent「同工同权」
Block（原Square）7月22日开源发布协作平台Buzz——一个基于Nostr协议、让人类员工与AI Agent在同一工作区内以「同等身份」协同工作...
实测 Doubao-Seed-Evolving：把 Windows 桌面图标做成一个会自己运转的小世界 - 努力的小雨
豆包 Seed 又更新了：一张永远“最新”的模型卡这次豆包推出的不是一个过段时间就会落后的固定版本，而是 Doubao-Seed-Evolving：一个...
Amazon Bedrock AgentCore Gateway 内置 Web 搜索工具实战
通过 MCP 将 Web Search Tool 集成到 AgentCore Gateway，为 AI Agents 提供实时网络搜索能力。
GKE Security Blueprint Joins Growing List of Cloud AI Frameworks
Google Cloud has published a new blueprint setting out how organisations shou...