Apple Machine Learning Research ·

用于语音推测解码的原则性粗粒度接受

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

本文介绍了一种名为“原则性粗粒度接受”（PCG）的新方法，旨在加速语音生成中的推测解码。PCG通过在声学相似性组（ASGs）层面验证提议，提高了接受率和吞吐量，同时保持了语音的可懂性和说话者相似性，为加速语音令牌生成提供了有效解决方案。

🎯

🔎

原则性粗粒度接受（PCG）方法通过在声学相似性组（ASGs）层面进行验证，突破了传统推测解码的局限。这种方法不仅提高了接受率和吞吐量，还确保了语音的可懂性和说话者的相似性，展示了在语音生成领域的创新潜力。

PCG方法在LibriTTS数据集上的表现优于标准推测解码，适用于需要快速生成语音的应用场景，如语音助手和实时翻译。其高效的接受率和吞吐量使得在实际应用中能够更好地平衡速度与语音质量，具有广泛的应用前景。

尽管PCG方法在提高语音生成效率方面表现出色，但其依赖于声学相似性组的设计可能在某些特定语境下受到限制。对于复杂或多变的语音输入，可能需要进一步的优化以确保生成的语音质量和准确性。

❓

原则性粗粒度接受（PCG）是一种加速语音生成中推测解码的方法，通过在声学相似性组层面验证提议，提高接受率和吞吐量。

PCG通过在声学相似性组（ASGs）层面进行验证，允许接受多个声学上相似的令牌，从而提高接受率和吞吐量。

PCG在提高接受率和吞吐量的同时，保持了语音的可懂性和说话者相似性，确保了语音生成的质量。

在LibriTTS数据集上，PCG相较于标准推测解码显著提高了接受率和吞吐量，且不影响语音的可懂性。

PCG通过将每个令牌的概率质量分配到包含它的重叠声学相似性组中，定义了一个重叠感知的粗粒度分布，并在此基础上进行拒绝采样。

PCG主要应用于语音生成任务中，特别是在需要快速生成高质量语音的场景，如语音助手和自动语音识别系统。

🏷️