Apple Machine Learning Research ·

基于向量量化的高效检索优化上下文语音识别

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

本文提出了一种基于向量量化的交叉注意力近似方法，利用神经上下文偏置提升语音识别模型的转录准确性。该方法通过高效的量化检索模块，从大型偏置目录中快速筛选相关条目，实现个人实体识别中的相对错误率降低71%，同时计算时间减少20%，内存使用降低85-95%。

🎯

🔎

基于向量量化的交叉注意力近似方法显著降低了计算复杂性，使得语音识别模型能够处理更大规模的偏置目录。这种方法不仅提高了转录准确性，还在内存和计算时间上实现了显著优化，适合在资源受限的环境中应用。

该方法的灵活性体现在其对多种偏置方法的兼容性上，包括全交叉注意力和LLM提示。这使得研究人员和开发者能够根据具体需求选择最合适的偏置策略，从而在不同应用场景中实现最佳性能。

在个人实体识别任务中，相对错误率降低71%意味着该技术在实际应用中能够显著提高识别准确性。这对于需要高精度语音识别的行业，如客服和医疗，具有重要的实际意义。

❓

基于向量量化的交叉注意力近似方法是一种通过量化检索模块来提高语音识别模型转录准确性的技术。

该方法利用神经上下文偏置，通过高效的量化检索模块快速筛选相关条目，从而提升语音识别模型的转录准确性。

使用该方法后，个人实体识别中的相对错误率降低了71%。

该方法计算时间减少20%，内存使用降低85-95%。

该方法适用于多种偏置方法，包括全交叉注意力和LLM提示。

传统的偏置机制依赖于音频与偏置条目目录之间的交叉注意力模块，导致计算复杂性限制了偏置目录的大小。

🏷️