年华转瞬 ·

GLM ASR试用

💡 原文中文，约1200字，阅读约需3分钟。

📝

内容提要

作者使用GLM ASR替代OpenAI的murmur进行语音转文本，发现GLM在中英混合语句识别上表现更佳，尽管对OpenAI的依赖令人不满，但GLM的识别率和输出质量令人满意。最终，作者修改了murmur代码以使用GLM ASR。

🎯

🔎

GLM ASR在中英混合语句的识别上表现优于OpenAI的murmur，尤其在古汉语处理方面更为精准。这表明GLM ASR可能更适合需要多语言支持的应用场景，尤其是涉及古典文学或复杂语境的任务。

作者对OpenAI的依赖表示不满，指出其whisper API在某些情况下的输出质量不稳定。这提醒用户在选择语音转文本工具时，需考虑其稳定性和准确性，尤其是在专业或学术领域的应用。

在将GLM ASR集成到现有工具murmur时，作者遇到了一些技术障碍，如容器镜像的大小问题。这表明在使用开源工具时，用户可能需要具备一定的技术能力，以便解决潜在的兼容性和性能问题。

❓

GLM ASR在中英混合语句识别上表现更佳，识别率和输出质量令人满意。

作者对OpenAI的依赖表示不满，认为whisper API有时返回质量较差。

作者用普通话朗读了李白的春夜宴桃李园序，并将音频文件输入GLM ASR和OpenAI进行横向对比。

GLM ASR的参数量为1.5B。

作者修改了murmur的代码以使用GLM ASR，并在本地创建了一个python的虚拟环境。

GLM ASR在古汉语处理上表现优于OpenAI，输出结果更准确。

🏷️