小红花·文摘 - 小红花技术领袖俱乐部

用于语音推测解码的原则性粗粒度接受

用于语音推测解码的原则性粗粒度接受

Apple Machine Learning Research ·

本研究提出AlignDiT模型，解决多模态语音生成问题，能够从文本、视频和音频合成高质量语音，提高可懂性和同步性。

AlignDiT: A Multimodal Alignment Diffusion Transformer for Synchronous Speech Generation

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的ProsodyFM模型，旨在改善语音合成在短语和音调方面的不足。该模型通过短语断点和终端音调编码器，提高了语音的可懂性和对复杂句子的适应能力。

ProsodyFM: Unsupervised Phrase and Pitch Control for Enhanced Understandability in Speech Synthesis

BriefGPT - AI 论文速递 ·

本研究提出了一种低帧率语音编解码器（LFSC），旨在提高训练和推理速度。LFSC通过有限标量量化和对抗训练，以1.89 kbps的比特率和21.5帧每秒的速度实现高质量音频压缩，推理速度提高约三倍，同时保持音质和可懂性。

Low Frame-rate Speech Codec: A Codec Designed for Fast and High-quality Speech Large Language Model Training and Inference

BriefGPT - AI 论文速递 ·

本文提出了一个评估框架，用于分析发音障碍语音合成的清晰度和可懂性。研究表明，该框架有效支持发音障碍语音转换系统的开发，并通过自动化技术评估语言流畅度和声音病理学，提出提高声音障碍识别准确性的新方法，同时创建了针对自闭症儿童的语音语料库，推动自动评估系统的发展。

一个综合的标注病理语音的准则

BriefGPT - AI 论文速递 ·

我们提出了一种名为TLDNN的混合深度框架，将Transformer和LSTM相结合，通过自注意机制建模信号序列的全局相关性以增强时间依赖性的捕捉，并采用数据增强策略来提高模型对调制相关特征的鲁棒性。实验结果表明，该方法在广泛使用的数据集上取得了最先进的性能并具有显著优势。

结合声学和调制谱图的基于注意力 LSTM 系统用于语音可懂性水平分类

BriefGPT - AI 论文速递 ·

本文比较了两个语音语料库，研究了格状句对于提高自然语音可懂性的效果，并发现噪音水平的增加使得格状句和自然句都表现出类似的变化，但在 alpha 比率的增加方面，格状句呈现出更大的增长。通过主观可懂性评估发现，EMALG 上训练的 StarGAN 模型在提高可懂性方面始终优于 LCT 上训练的模型，可能归因于 EMALG 中从正常语音到 Lombard 语音的 alpha 比率增长更大。

格网句与自然句对正常音量转化效果的比较研究

BriefGPT - AI 论文速递 ·