实时互动网 ·

FlexiCodec：3-12.5Hz超低帧率动态音频编解码器

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

FlexiCodec是一种新型音频编解码器，支持低于10Hz的超低帧率，旨在提高语义信息的保留。通过动态帧率、ASR引导的语义和可控帧率，FlexiCodec在音频质量和处理速度上表现优异，适用于多种应用场景。

🎯

🔎

FlexiCodec的动态帧率机制能够根据语音内容的复杂性自适应调整时间分辨率。这种灵活性使得在信息密集的区域使用更多帧，而在信息稀疏的区域减少帧数，从而有效保留语义信息。这一特性在快速语音或长元音的处理上尤为重要，能够显著提升音频的理解效果。

FlexiCodec利用预训练的自动语音识别（ASR）模型提取语义信息，这一创新点使得编码的语义更加集中和丰富。这种方法不仅提高了语音识别的准确性，还在低帧率下有效减少了信息丢失的风险，适合需要高语义保留的应用场景。

FlexiCodec允许用户在3Hz到12.5Hz之间灵活调整输出帧率，这为不同应用场景提供了便利。在资源受限的环境中，用户可以选择较低的帧率以加快处理速度，而在高质量需求的情况下，则可以选择较高的帧率以确保音频细节的保留。这种灵活性使得FlexiCodec在多种应用中具有广泛的适用性。

❓

FlexiCodec的主要创新点包括动态帧率、ASR引导的语义和可控帧率。

FlexiCodec通过动态帧率机制和ASR引导的语义提取，显著提高了语义信息的保留。

FlexiCodec支持在3Hz到12.5Hz之间调整输出帧率。

FlexiCodec在音频质量指标上表现出色，略优于基线系统。

FlexiCodec在灵活帧率TTS系统中表现优异，速度明显优于现有方法。

动态帧率机制根据语音内容的复杂性自适应调整时间分辨率，合并相似的连续帧。

🏷️