Apple Machine Learning Research ·

基于原则的粗粒度接受用于语音中的推测解码

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

本文介绍了“原则性粗粒度接受”（PCG）方法，旨在加速自回归语音生成。PCG通过在声学相似性组（ASGs）层面验证提议，提高了语音生成的接受率和吞吐量，同时保持了语音的可懂性和说话者相似性，克服了传统精确匹配的限制，提升了生成效率。

🎯

🔎

原则性粗粒度接受（PCG）方法通过在声学相似性组层面进行验证，显著提高了语音生成的接受率和吞吐量。这种方法不仅克服了传统精确匹配的限制，还能在保持语音可懂性和说话者相似性的同时，加速生成过程，适用于多种语音生成场景。

PCG方法利用声学相似性组（ASGs）来处理语音令牌的生成，这意味着在实际应用中，接受的草稿令牌可以代表组中的任何成员。这种灵活性使得语音生成更加高效，尤其是在需要快速响应的应用中，如实时语音助手。

与标准的推测解码方法相比，PCG在LibriTTS数据集上表现出更高的接受率和吞吐量。这表明，PCG不仅提升了生成效率，还在语音质量上保持了优势，适合需要高质量输出的语音生成任务。

❓

原则性粗粒度接受（PCG）方法是一种通过在声学相似性组（ASGs）层面验证提议来加速自回归语音生成的技术。

PCG通过在声学相似性组层面进行验证，允许接受的草稿令牌代表组中的任何成员，从而提高了接受率和吞吐量。

PCG克服了传统精确匹配的限制，允许更灵活的接受标准，从而提升了生成效率。

在LibriTTS上，PCG相较于标准的推测解码和之前的语音特定放宽方法，提高了接受率和吞吐量，同时保持了语音的可懂性和说话者相似性。

PCG通过声学意识的组级接受机制，确保生成的语音在质量上保持可懂性和说话者的相似性。

PCG提供了一种简单且通用的方法，可能在加速语音令牌生成的同时，保持语音质量，具有广泛的应用前景。

🏷️