本文总结了作者开发语音终端的过程,旨在将智能音响的语音输入转发给大模型deepseek。作者使用ESP32-S3开发板,设计了服务端程序,并应用了VAD、ASR和嵌入向量模型等技术,实现了语音识别和文本转语音功能。尽管面临延迟和模型限制,作者仍在探索大模型的应用。
完成下面两步后,将自动完成登录并继续当前操作。