SuperX AI与STT GDC在新加坡正式启用AI创新中心,旨在加速企业的AI布局。该中心位于STT Singapore 5数据中心,现已向企业和高等院校开放,提供14天免费试用。
本文介绍了如何使用PocketFlow框架从零开始构建AI语音聊天机器人。用户可以通过语音与设备对话,PocketFlow简化了开发过程,主要组件包括语音活动检测(VAD)、语音转文本(STT)、大语言模型(LLM)和文本转语音(TTS),实现流畅的语音交互。鼓励读者探索PocketFlow,创造自己的语音应用。
我通过几行代码解决了WaifuBot的反馈循环问题,引入了变量_botLastOutput来记忆最后输出,避免自我回应,从而提高系统效率,确保未来的扩展性和模块化设计。
本文介绍了如何在网页中集成语音识别(STT)功能,通过使用MediaRecorder完成录音并提供相关代码。下一篇文章将介绍如何使用大模型API进行文字转换。
Whisper-Streaming 是一种基于 Whisper 的实时语音转录和翻译模型,具有 3.3 秒的低延迟。研究提出了 DistilWhisper 方法,通过轻量级微调提升 ASR 性能,并分析了 Whisper 输出,展示了不同训练策略对模型性能的影响,探讨了其在儿童语音上的适应性。所有研究成果和代码已公开。
随着技术的发展,TTS和STT服务已经非常完善。TTS服务可以将文本转换为语音,但中文的语义分析是一个挑战。STT服务可以将语音转换为文字,但需要结合分词器来理解用户的意图。离线版本的TTS和STT服务在业务中被广泛使用。
这是一个离线运行的本地语音识别转文字工具,基于fast-whisper开源模型。可将视频/音频中的人类声音识别并转为文字,可输出json格式、srt字幕带时间戳格式、纯文字格式。准确率基本等同openai官方api接口。需要安装CUDA和NVIDIA Container Toolkit。使用docker安装运行。下载模型文件并运行stt。可使用wav或mp3文件进行测试。转换结果准确率大概90%左右。项目地址:https://github.com/jianchang512/stt。
完成下面两步后,将自动完成登录并继续当前操作。