实时互动网 ·

OLMoASR 是什么？它与 OpenAI 的语音识别 Whisper 相比如何？

💡 原文中文，约2600字，阅读约需6分钟。

📝

内容提要

艾伦人工智能研究所发布了OLMoASR，这是一套开放的自动语音识别模型，采用transformer架构，支持多种尺寸，适用于不同应用场景。其开放性促进了语音识别研究的可重复性和科学进步，为开发者提供灵活选择和领域适应的可能性。

🎯

🔎

OLMoASR的发布标志着语音识别领域向开放和透明迈出了重要一步。与许多闭源模型相比，OLMoASR提供了完整的训练数据和评估指标，使研究人员能够验证和重现结果。这种透明性不仅促进了科学进步，也为开发者提供了更多的灵活性和选择空间。

OLMoASR提供六种不同尺寸的模型，开发者可以根据具体需求在推理成本和准确率之间进行权衡。较小的模型适合实时转录和嵌入式设备，而较大的模型则适合需要高准确率的研究和批量处理任务。这种灵活性使得OLMoASR能够广泛应用于医学、法律等专业领域。

OLMoASR的训练数据集经过严格过滤，确保了高质量的音频和文本记录。这种双层数据策略不仅提升了模型的零样本泛化能力，还为实际应用中可能遇到的不同数据分布提供了支持。开发者在使用时应关注数据质量对模型性能的影响。

❓

OLMoASR是一套开放的自动语音识别模型，采用transformer架构，支持多种尺寸，促进了语音识别研究的透明性和可重复性。

OLMoASR在基准测试中与Whisper的性能相当，短篇演讲的词错率相近，显示出良好的识别能力。

OLMoASR的开放性促进了研究的透明性，使得研究人员能够验证结论、测试变体和应用于新领域。

OLMoASR适用于医学、法律等专业领域的语音识别，并可用于实时会议转录和会话式AI系统。

OLMoASR的训练数据来自网络抓取，包含约300万小时的音频和1700万份文本记录，经过严格过滤以提高质量。

OLMoASR提供完整的训练代码和方法，允许针对特定领域进行微调，如医学和法律领域的语音识别。

🏷️