苹果公司将在2024年欧洲计算机视觉会议上展示新的研究成果,并发表多篇涉及音频-视觉语音识别、图像生成和缺陷分割等领域的论文。苹果员工还担任了会议的重要职务。
阿里达摩院自研的FunAsr是一款中文语音识别技术,与OpenAi的Whisper相媲美。FunAsr基于Paraformer非自回归端到端模型,具有高精度、高效率、便捷部署的优点,支持标点符号识别、低语音识别、音频-视觉语音识别等功能。通过对比测试,FunAsr在中文语音转写方面表现优秀,几乎每一条素材都进行了标注。与Whisper相比,FunAsr的模型参数更多,训练数据更丰富,因此在中文领域的语音识别效果更好。
完成下面两步后,将自动完成登录并继续当前操作。